Nous Research aceleró el preentrenamiento de LLM 2,5 veces sin cambiar la arquitectura
Nous Research desarrolló Token Superposition Training (TST), un método de preentrenamiento en dos fases que acelera el entrenamiento de LLM 2,5 veces con el mis

Nous Research ha desarrollado Token Superposition Training (TST) — un método innovador de dos fases de preentrenamiento que reduce el tiempo de entrenamiento de grandes modelos de lenguaje en 2,5 veces con el mismo costo computacional, sin requerir ningún cambio en la arquitectura, tokenizador o comportamiento de inferencia.
Cómo Funciona Token Superposition Training
El método se basa en una idea simple pero efectiva: en la primera fase de preentrenamiento, los embeddings de tokens vecinos se promedian en grupos, o bolsas (bags). En lugar de predecir cada token por separado, el modelo trabaja con representaciones agregadas de secuencias. Esto le permite procesar información en bloques grandes y acelerar significativamente el cálculo de gradientes durante la retropropagación. Esencialmente, la primera fase enseña al modelo a encontrar patrones en un nivel más alto de abstracción.
La segunda fase de entrenamiento es ligeramente más corta en duración — el modelo transiciona a la predicción estándar del siguiente token, como cualquier LLM normalmente hace. En esta etapa, se adapta rápidamente a la tarea final y recupera las posibles pérdidas de calidad que podrían haber aparecido en la primera fase. La transición entre fases es suave y natural para la arquitectura de la red neuronal — no hay artefactos extraños o incompatibilidades.
La ventaja clave de TST es que el método no toca la arquitectura interna del modelo. El número de parámetros permanece sin cambios, las herramientas circundantes y el ecosistema no cambian — el mismo número de pesos, el mismo tokenizador, el mismo optimizador Adam, SGD u otro. Durante la inferencia, el modelo es totalmente compatible con los sistemas de implementación existentes. Esto es crítico para aplicaciones industriales, donde cambiar la arquitectura podría requerir reescribir mucho código.
Modelos Usados para Probar la Nueva Técnica
Nous Research probó TST en modelos de diferentes escalas y arquitecturas para verificar la universalidad del enfoque:
- 270M parámetros (mini-modelos para experimentos rápidos)
- 600M parámetros (tamaño estándar para proyectos de investigación)
- 3B parámetros (arquitectura densa, dense models)
- 10B parámetros con arquitectura Mixture of Experts (MoE)
En todas estas escalas, el método mostró una aceleración consistente de 2,5 veces con el mismo costo computacional, medido en FLOP (operaciones de punto flotante). Los resultados son alentadores: esto no es un truco de laboratorio que funciona solo en un tamaño específico de modelo o arquitectura, sino un enfoque universal que escala bien. Esto significa que puede aplicarse ampliamente.
Por Qué Esto Es Crítico para la Industria
El preentrenamiento de LLM es la etapa más intensiva en recursos y económicamente costosa del desarrollo de modelos. Entrenar un único modelo grande requiere miles de horas de operación de clústeres GPU, y los costos de electricidad y equipamiento se miden en millones de dólares. Una aceleración de 2,5 veces no es solo una mejora del 5-10%, sino una reducción seria y alcanzable en los gastos totales que impacta directamente en la economía del desarrollo.
Para startups y equipos pequeños, esto significa la capacidad de entrenar modelos de alta calidad y competitivos con un presupuesto inicial menor. Para grandes laboratorios como Meta, Mistral u OpenAI — la capacidad de experimentar con muchas más variantes de arquitectura, hiperparámetros y estrategias de entrenamiento en la misma infraestructura. Esto expande los límites de la experimentación, acelera el ritmo de la innovación y permite probar ideas nuevas más rápidamente.
Qué Significa Esto
Token Superposition Training demuestra que incluso en un área bien estudiada de preentrenamiento, hay formas simples pero poderosas de ahorrar computación. Esto puede inspirar a otros investigadores a buscar optimizaciones similares en diferentes etapas del entrenamiento del modelo — desde la inicialización de pesos hasta cronogramas adaptativos de tasa de aprendizaje. Para la industria — una señal positiva de que la frontera entre la investigación fundamental y la aplicación industrial se está volviendo cada vez más borrosa, y las buenas ideas encuentran rápidamente su camino hacia la producción.