Together AI Blog
Fuente de noticias de IA. Los artículos son seleccionados y adaptados por la redacción de Hamidun News.
Últimas publicaciones

Together AI presentó ATLAS: un especulador que acelera LLM 4 veces
La nueva tecnología de especulador con aprendizaje adaptativo ATLAS de Together AI acelera la inferencia de LLM 4 veces sin configuración manual — se adapta automáticamente a la carga de trabajo del usuario.

Together AI lanzó los clústeres GPU autogestionados Instant Clusters en NVIDIA H100 y B200
Together AI lanzó oficialmente Instant Clusters, clústeres GPU autogestionados basados en NVIDIA H100 y B200, que se despliegan en minutos y están listos para producción sin largas aprobaciones.

Together AI multiplicó por 3.000 los límites de Batch Inference API y redujo los precios un 50%
Batch Inference API ahora maneja 30.000 millones de tokens (frente a 10 millones) y cuesta la mitad que la real-time API. Es compatible con los 40+ modelos de la plataforma.

Together AI amplió su plataforma: entrenamiento de modelos con 100B+ parámetros
La plataforma de fine-tuning de Together AI ahora entrena los modelos abiertos más poderosos — DeepSeek-R1, Qwen3-235B y Llama 4 — con soporte para contextos extendidos e integración con Hugging Face.

FlashAttention-3 acelerará los transformadores al doble con 75% de carga de GPU
Together AI lanzó FlashAttention-3, un algoritmo que acelera transformadores de 1.5 a 2 veces y utiliza el 75% del rendimiento de GPU H100, manteniendo baja precisión FP8.

Together AI logra un entrenamiento 90% más rápido con NVIDIA Blackwell
Together AI anunció acceso a clústeres de GPU NVIDIA Blackwell con optimizaciones propias, logrando un entrenamiento de Llama 70B un 90% más rápido y 15.264 tokens por segundo por GPU.

ThunderKittens de Together AI: nuevo lenguaje para GPU kernels eficientes
Together AI presentó ThunderKittens, un lenguaje de programación para GPU kernels que se escribe como PyTorch pero funciona como CUDA puro. En H100, el código se ejecuta incluso más rápido que el clásico FlashAttention2.

DSGym: framework para entrenar agentes de data science con 90+ tareas científicas
Together AI publicó DSGym, un framework para entrenar agentes LLM en data science. Incluye 90+ tareas bioinformáticas, 92 competencias de Kaggle, y un modelo de 4B con resultados SOTA entrenado en datos sintéticos.

Together AI explicó por qué la nube para IA es una arquitectura completamente diferente
Startups de IA como Cursor iteran semanalmente y consumen GPU como aplicaciones web de 2012. Together AI explica cómo debe ser una nube para soportar la velocidad de las empresas nativas de IA.

Together AI: cómo las optimizaciones de kernel cierran la brecha entre modelos y GPU
El equipo de optimizaciones de kernel de Together AI aceleró GPU 2-3x. En una semana adaptaron kernels para Blackwell, un trabajo que NVIDIA tardaba un año.

FlashAttention-4: cómo Together AI aceleró la atención en GPU Blackwell
Together AI presentó FlashAttention-4 —una optimización del algoritmo de atención para GPU Blackwell, que logra 1605 TFLOPs/s y funciona 2.7 veces más rápido que Triton.