MarkTechPost→ original

NVIDIA Lanzó Nemotron-Labs-TwoTower — Modelo de Lenguaje de Difusión con Pesos Abiertos

NVIDIA lanzó Nemotron-Labs-TwoTower — un modelo de lenguaje de difusión con pesos abiertos basado en la columna vertebral AR congelada…

Procesado por IA desde MarkTechPost; editado por Hamidun News
NVIDIA Lanzó Nemotron-Labs-TwoTower — Modelo de Lenguaje de Difusión con Pesos Abiertos
Fuente: MarkTechPost. Collage: Hamidun News.
◐ Escuchar artículo

NVIDIA publicó Nemotron-Labs-TwoTower el 1 de julio de 2026 — un modelo de lenguaje basado en difusión con pesos abiertos, construido sobre la columna vertebral autorregresiva congelada Nemotron-3-Nano-30B-A3B. El objetivo principal de la versión es eliminar el cuello de botella sistemático de la generación de texto, que limita el rendimiento de todos los sistemas de lenguaje autorregressivos. El modelo se distribuye bajo la Licencia NVIDIA Nemotron Open Model License.

Qué limita los modelos autorregressivos

Las arquitecturas autorregressivas (AR) son la base de GPT, Llama, Gemini y la mayoría de los otros LLMs. El principio es simple: cada siguiente token se predice basándose en todos los tokens anteriores, y el proceso es estrictamente secuencial. Esto es elegante a nivel de entrenamiento, pero crea un problema específico en la inferencia industrial.

El siguiente token no se puede calcular hasta que finalice el anterior. Añadir aceleradores GPU al clúster no elimina esta limitación — está integrada en la arquitectura a nivel del gráfico computacional: la decodificación es secuencial por definición. Al generar respuestas largas, el usuario espera proporcionalmente más tiempo, y el costo por token a escala alcanza un límite fijo. Para proveedores que procesan miles de millones de solicitudes diarias, esto representa costos operacionales directos y continuos. Por eso la aceleración de la inferencia es una de las principales direcciones de investigación en la industria junto con la reducción del tamaño de los modelos y la cuantización.

Los modelos de lenguaje de difusión discreta ofrecen un mecanismo alternativo: en lugar de decodificación paso a paso, refinan iterativamente todo el bloque de salida en varios pasos. Esto abre el potencial para generar en paralelo múltiples tokens en una sola pasada — y por lo tanto un perfil de rendimiento fundamentalmente diferente.

Cómo funciona la arquitectura TwoTower

La construcción de dos torres combina enfoques AR y difusión en un único modelo:

  • Columna vertebral AR: Nemotron-3-Nano-30B-A3B preentrenado (30 mil millones de parámetros, congelado)
  • Cabeza de difusión: componente entrenable sobre la columna vertebral congelada
  • Pesos abiertos: Licencia NVIDIA Nemotron Open Model License
  • Fecha de lanzamiento: 1 de julio de 2026

Congelar la columna vertebral AR es una decisión arquitectónica fundamental. En lugar de entrenar un modelo de difusión desde cero, NVIDIA utiliza la base AR preentrenada como una fuente inmutable de representaciones de lenguaje contextual. Solo se entrena el componente de difusión, lo que reduce los costos computacionales para la experimentación y disminuye los datos necesarios para la adaptación. La elección de Nemotron-3-Nano-30B-A3B como columna vertebral también facilita la reproducibilidad: otros equipos pueden replicar el experimento utilizando el mismo punto de control disponible públicamente.

Por qué la difusión para texto es una tarea no trivial

Los modelos de difusión se han convertido en el estándar para la generación de imágenes — Stable Diffusion, Midjourney y DALL-E 3 operan sobre este principio. La adaptación a texto es fundamentalmente más difícil: los píxeles existen en un espacio numérico continuo, mientras que los tokens son discretos. El ruido gaussiano estándar no es aplicable a objetos discretos, por lo que se están desarrollando procesos especiales de difusión discreta para texto.

Esta dirección se desarrolla activamente pero sigue siendo joven según los estándares de la industria. Trabajos anteriores — MDLM, SEDD y otros — demostraron resultados competitivos en benchmarks de lenguaje, sin embargo, la brecha con los mejores sistemas AR en calidad persistía. El enfoque de dos torres de NVIDIA es un intento de resolver este compromiso: tomar las fuertes representaciones de lenguaje de un modelo AR ya entrenado y añadir un mecanismo de difusión a ellas sin perder el conocimiento acumulado sobre sintaxis, semántica y dependencias contextuales.

Los pesos abiertos son especialmente valiosos para la comunidad académica: los investigadores podrán reproducir la arquitectura, medir las ganancias reales de rendimiento en sus propias tareas y proponer mejoras sobre el punto de control publicado.

Lo que significa esto

Nemotron-Labs-TwoTower es un paso práctico hacia la aceleración de la inferencia de LLM sin reemplazar hardware. NVIDIA, como principal proveedora de GPUs para el mercado de IA, está interesada en expandir la aplicabilidad de los modelos de lenguaje, incluyendo la reducción del costo de inferencia. Si el enfoque híbrido AR+difusión prueba ser viable en escenarios de carga reales — tanto en calidad de generación como en aceleración real de rendimiento — podría influir en las decisiones arquitectónicas en el desarrollo de la próxima generación de sistemas de lenguaje.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…