Together AI Blog→ original

Together AI presentó ATLAS: un especulador que acelera LLM 4 veces

Together AI presentó ATLAS — un especulador adaptativo basado en machine learning que acelera la inferencia de LLM 4 veces sin configuración manual. El sistema

Procesado por IA desde Together AI Blog; editado por Hamidun News
Together AI presentó ATLAS: un especulador que acelera LLM 4 veces
Fuente: Together AI Blog. Collage: Hamidun News.
◐ Escuchar artículo

Together AI presentó ATLAS (Sistema Especulador con Aprendizaje Adaptativo) — una tecnología revolucionaria para acelerar la inferencia de LLM que se mejora automáticamente con el uso. El sistema alcanza 500 tokens por segundo en DeepSeek-V3.1 y 460 en Kimi-K2 — esto es casi 4x aceleración sin configuración manual. Los resultados se obtuvieron en NVIDIA HGX B200 utilizando tráfico real del benchmark Arena Hard.

Qué es la decodificación especulativa

La decodificación especulativa es uno de los métodos más poderosos para acelerar la generación de texto en LLM. En lugar del método estándar, donde el modelo genera un token a la vez en pasadas secuenciales, el sistema utiliza un especulador más rápido (modelo borrador) que propone varios tokens de una vez. Luego, el modelo principal (objetivo) los verifica todos en paralelo en un solo paso directo.

La calidad de la salida permanece idéntica a la decodificación normal (garantizada matemáticamente), pero la velocidad aumenta proporcionalmente. Si el especulador adivina correctamente (alta tasa de aceptación α), el sistema procesa varios tokens a la vez en lugar de uno solo. En la práctica, esto significa una reducción significativa del tiempo hasta el primer token y una aceleración de toda la generación.

Cómo ATLAS se diferencia de otras soluciones

Los especuladores estándar se entrenan una sola vez en una carga de trabajo general y funcionan de la misma manera en todas partes. Los especializados (custom speculators) se entrenan en datos específicos de la empresa, pero solo para un momento en el tiempo. Cuando la carga de trabajo evoluciona — crece la base de código, cambian los patrones de tráfico, se desplaza la distribución de solicitudes, aparecen nuevos tipos de usuarios — incluso los especuladores fuertemente optimizados comienzan a quedarse atrás.

ATLAS resuelve este problema de manera fundamentalmente diferente. El sistema se entrena continuamente (aprendizaje continuo) a medida que se utiliza, adaptándose al tráfico real y al comportamiento del modelo objetivo en tiempo real. Cuanto más tiempo trabaje con el servicio, mejor ATLAS predice las próximas acciones del modelo principal, y mayor es la tasa de aceptación.

Esto crea un ciclo de retroalimentación positivo: cada nueva solicitud es un ejemplo de entrenamiento que mejora el especulador.

Resultados en la práctica

Together AI demostró los resultados en hardware industrial NVIDIA HGX B200 con tráfico real:

  • DeepSeek-V3.1: 500 TPS (tokens por segundo) — 2.65x más rápido que la decodificación estándar
  • Kimi-K2-0905: 460 TPS — también una ganancia significativa
  • Comparación con Groq: ATLAS en modo completamente adaptado supera el rendimiento del hardware especializado de Groq
  • Aceleración de 4x en comparación con la solución base sin optimización

La eficiencia se logra equilibrando dos parámetros clave: la tasa de aceptación (α) — un indicador de con qué frecuencia el modelo principal acepta las propuestas del especulador — y la latencia relativa (c) entre la velocidad del especulador y el modelo objetivo. ATLAS encuentra automáticamente el punto óptimo donde el especulador funciona muy rápido pero sus predicciones son lo suficientemente precisas para una alta aceptación.

Integración en Together Turbo

ATLAS se integra en Together Turbo — un paquete de soluciones de ingeniería para acelerar LLM de Together AI. Funciona en paralelo con el especulador propietario y soporta el uso de especuladores personalizados. La principal diferencia: ATLAS requiere cero configuración manual de parámetros. Los usuarios obtienen mejoras automáticas de rendimiento simplemente al usar la plataforma. Esto es especialmente crítico para equipos en crecimiento, donde la carga de trabajo no es estática. En la fase de crecimiento, cuando las solicitudes provienen de diferentes tipos de usuarios, la lógica empresarial está en constante evolución y los requisitos del modelo cambian, las optimizaciones antiguas a menudo se vuelven irrelevantes en cuestión de semanas o meses. ATLAS se actualiza continuamente a sí mismo.

Lo que significa

La aceleración de la inferencia de LLM pasa de ser una tarea de ingeniería única en tiempo a ser una característica viva integrada del servicio. Los desarrolladores y usuarios obtienen respuestas cada vez más rápidas simplemente al usar la plataforma, sin ninguna intervención manual. Para startups, agencias y empresas, esto significa una reducción real en los costos de procesamiento de solicitudes a modelos grandes en producción.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…