BorisovAI probó MoE en una RTX 4090 y mostró por qué la perplejidad compromete la evaluación de LLM

Q: ¿Cuál es la fuente?

Publicado originalmente en Habr AI. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

30 abr 2026. Tiempo de lectura: 3 min.

BorisovAI realizó 22 experimentos con una arquitectura MoE en la que nuevos expertos se conectan a un modelo congelado como plugins. En una sola RTX 4090, el…

Redacción de Hamidun News

Monitoreo de AI · Habr AI

30 abr 2026· 3 min

Procesado por IA desde Habr AI; editado por Hamidun News

BorisovAI probó MoE en una RTX 4090 y mostró por qué la perplejidad compromete la evaluación de LLM — Fuente: Habr AI. Collage: Hamidun News.

◐ Escuchar artículo

BorisovAI publicó un análisis de 22 experimentos con arquitectura MoE, en la que nuevos expertos se conectan sobre un modelo de lenguaje congelado como complementos. En una única RTX 4090, el esquema demostró una imagen de ingeniería casi ideal: degradación cero de habilidades antiguas, enrutamiento preciso y reducción notable de perplejidad. Pero cuando el sistema se probó en un benchmark matemático, resultó que una métrica bonita podría conducir en una dirección completamente equivocada.

Cómo se construyó el esquema

El investigador congeló completamente el modelo base y añadió un pequeño experto entrenable a cada capa MLP, más un enrutador en la parte superior con aproximadamente 37 mil parámetros. La lógica es simple: la columna vertebral no se toca, la nueva habilidad se entrena por separado y luego solo se ajusta el enrutador para enviar los tokens correctos al experto correcto. El entrenamiento de un único dominio nuevo tomó aproximadamente media hora: aproximadamente 15 minutos para el experto aislado y otros 15 minutos para la integración en el sistema general. En tres escalas, el esquema se veía muy convincente y sin casi ningún compromiso:

GPT-2 124M con 4 dominios redujo la perplejidad en 33,4%
Pythia-410M con 6 dominios redujo la perplejidad en 34,3%
Pythia-1B con 8 dominios redujo la perplejidad en 31,2%
La precisión de enrutamiento alcanzó 96%, y la degradación de habilidades antiguas se mantuvo en 0,000%

Además, el autor probó varias técnicas populares frecuentemente recomendadas para MoE. Las penalizaciones de equilibrio de carga empeoraron los resultados en 11–27%, y el entrenamiento conjunto de expertos y enrutador condujo al colapso de calidad. El equilibrio sin pérdida funcionó mejor: mantenía todos los expertos "vivos" sin una pérdida adicional separada. En esta etapa, todo se veía como un argumento fuerte para LLMs modulares, donde las nuevas capacidades podrían conectarse sin reentrenamiento completo.

Dónde se rompió la métrica

Los problemas comenzaron cuando la arquitectura se transfirió a Qwen 2.5 3B y se intentó añadir un experto matemático. Por métricas internas, todo nuevamente era perfecto: la perplejidad en textos matemáticos cayó 23,9%, la brecha interdominios creció 64,9 veces, y el enrutador seleccionaba el experto correcto con casi ningún error. Pero en GSM8K, que prueba la capacidad de resolver problemas de palabras escolares, el modelo cayó de 74,4% a 65,8%.

"Un modelo que habla el lenguaje de las matemáticas no tiene

absolutamente ninguna capacidad para resolver problemas."

Este es el hallazgo clave de todo el trabajo. El experto entrenado en libros de texto y artículos realmente dominó las estadísticas del lenguaje matemático: dónde aparecen típicamente las fórmulas, qué términos van juntos y cómo se ve el texto "correcto" de este dominio. Pero GSM8K requiere no solo reconocimiento de estilo, sino cadenas de razonamiento. Por lo tanto, la reducción de perplejidad aquí medía no una mejora real en el pensamiento, sino simplemente un modelado mejor de texto específico del dominio. El investigador verificó por separado alternativas—descongelación de capas superiores, entrenamiento conjunto y un esquema de dos fases—pero todas las opciones se mantuvieron en aproximadamente los mismos menos 8,4–8,6 puntos porcentuales.

Qué funcionó mejor

Un avance funcional llegó después de la auto-destilación. En lugar de textos matemáticos crudos, el experto se entrenó en soluciones paso a paso que el propio modelo base ya lograba hacer correctamente. Para esto, se tomaron 750 tareas GSM8K: el modelo resolvió 638 de ellas, y de estas soluciones se ensambló un conjunto de datos de 119 mil tokens.

Esto es 33 veces más pequeño que el corpus de 4 millones de tokens de libros de texto y artículos, pero el formato resultó ser mucho más cercano a la inferencia real. El resultado se invirtió respecto a las expectativas. Después de este entrenamiento, GSM8K creció a 75,5%: esto es 1,1 puntos porcentuales por encima del modelo base y 9,7 puntos mejor que la variante de texto matemático crudo.

Mientras tanto, la perplejidad, por el contrario, empeoró 17,8%.

Además, resultó que incluso el empaquetado de datos importa: el formato "pregunta/respuesta" dio otros 2–3 puntos más que el formato más académico "problema/solución". En otras palabras, es más útil entrenar al experto para la forma de uso futuro, no para un corpus abstractamente "de alta calidad". Un intento de convertir este enfoque en un ciclo de auto-mejora no despegó.

Las primeras ejecuciones sugirieron crecimiento de 75,5% a 76,0%, pero después de fijar la semilla y expandir la muestra, el efecto resultó ser ruido estadístico. En inicio frío, el nuevo experto rápidamente alcanzó una meseta, y en inicio caliente, la calidad incluso disminuyó porque las mismas tareas se repitieron demasiado entre ciclos y el experto se sobreajustó. El suavizado de etiquetas por separado fracasó: en matemáticas costó otros 9 puntos.

Qué significa esto

Para desarrolladores de LLM, hay inmediatamente dos conclusiones prácticas aquí. Primero, la arquitectura modular con expertos conectables puede de hecho añadir habilidades de dominio sin olvido catastrófico. Segundo, evaluar estos sistemas por perplejidad es peligroso: puede mejorar precisamente cuando el modelo comienza a razonar peor. Si la tarea implica lógica, código o matemáticas, el criterio principal debe ser benchmarks conductuales, no solo métricas de lenguaje bonitas.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita