Los modelos de lenguaje por difusión desafían a GPT con un récord de velocidad de 892 tokens
Un avance tecnológico en la arquitectura de redes neuronales: un modelo de lenguaje por difusión (DLM) de 100.000 millones de parámetros alcanzó una…
Procesado por IA desde Jiqizhixin (机器之心); editado por Hamidun News
# Modelos de Lenguaje por Difusión Desafían a GPT: Récord de Velocidad de 892 Tokens por Segundo
Modelos de difusión están reescribiendo las reglas: 100 mil millones de parámetros, 892 tokens por segundo
La industria de modelos de lenguaje ha recibido un desafío inesperado. Los investigadores han demostrado que los enfoques de difusión para la generación de texto, considerados durante mucho tiempo lentos e ineficientes, no solo pueden competir con arquitecturas clásicas como GPT, sino que pueden superarlas en velocidad. Un modelo de lenguaje por difusión con 100 mil millones de parámetros alcanzó una velocidad de generación récord de 892 tokens por segundo — una cifra que cuestiona las opiniones establecidas sobre cómo deberían funcionar los modernos grandes modelos de lenguaje.
Este logro es particularmente significativo porque los métodos de difusión han permanecido en la periferia en el contexto de tareas de texto durante muchos años. Mientras que en visión por computadora los modelos de difusión ganaron autoridad y revolucionaron la síntesis de imágenes, el paradigma autorregresivopredomió en el procesamiento de texto — el mismo en el que se construyen ChatGPT y sus competidores. Los modelos autorregressivos predicen el siguiente token basándose en todos los anteriores, lo que requiere pasos secuenciales a través de la red neuronal y ralentiza el proceso.
Los modelos de lenguaje por difusión funcionan según principios fundamentalmente diferentes. En lugar de generar texto palabra por palabra, comienzan con datos ruidosos y refinan gradualmente la salida a través de varias etapas de desruido. La paradoja: con tal enfoque, aparentemente requiriendo más operaciones computacionales, el nuevo modelo de 100 mil millones mostró una velocidad de 892 tokens por segundo.
Esto es aproximadamente el doble de rápido que las métricas típicas de rendimiento de modelos autorregressivos modernos de tamaño similar. El avance técnico radica en la optimización del algoritmo de desruido y la arquitectura de red, que permite el procesamiento paralelo de múltiples posiciones en el texto, en lugar de esperar a que se complete la predicción de un token para pasar al siguiente.
La importancia de este resultado va mucho más allá de simplemente establecer un récord de velocidad. El escalado exitoso del modelo de difusión a 100 mil millones de parámetros demuestra que este enfoque no es un callejón sin salida en términos de ingeniería. Si los modelos de difusión pueden operar con tal rendimiento, abren nuevos caminos para la optimización. Los fabricantes pueden reducir la latencia, mejorar la capacidad de los servidores y disminuir el consumo de energía — factores críticos en la era de los costos de computación en la nube.
Para la industria, esto significa que el futuro de los modelos de lenguaje no necesariamente está vinculado a la arquitectura autorregresivavas. OpenAI, Google DeepMind y otros laboratorios han invertido enormes recursos en optimizar el enfoque autorregresivovas, pero la aparición de una alternativa competitiva puede obligar a reconsiderar las estrategias. Las empresas que han invertido en investigación de métodos de difusión obtienen una ventaja tangible. Para los usuarios finales, esto podría significar respuestas más rápidas de asistentes de IA, APIs más baratas y modelos locales más eficientes en energía.
Sin embargo, se debe tener cuidado al interpretar los resultados. La velocidad de generación de tokens está lejos de ser el único criterio para la calidad del modelo. La calidad del texto, la capacidad de manejar dependencias a largo plazo y la consistencia lógica también son importantes. Queda por entender si el enfoque de difusión puede ser comparable a los modelos autorregressivos en términos de riqueza de contenido y precisión de respuestas bajo recursos computacionales iguales.
Este evento simboliza un momento de transición en la industria de IA, cuando el paradigma dominante comienza a sentir competencia. Si los modelos de difusión confirman su viabilidad en otros parámetros también, podemos ser testigos de una verdadera diversidad arquitectónica en la IA mainstream, cada una con sus propias fortalezas.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.