Editorial · verificada por la redacción

Together AI Blog

Fuente de noticias de IA. Los artículos son seleccionados y adaptados por la redacción de Hamidun News.

11 artículos en Hamidun·Último: 21 de mayo· Activo·together.ai ↗

Últimas publicaciones

Together AI presentó ATLAS: un especulador que acelera LLM 4 veces
LLMTogether AI Blog

Together AI presentó ATLAS: un especulador que acelera LLM 4 veces

La nueva tecnología de especulador con aprendizaje adaptativo ATLAS de Together AI acelera la inferencia de LLM 4 veces sin configuración manual — se adapta automáticamente a la carga de trabajo del usuario.

2026-05-21·2 min
Together AI lanzó los clústeres GPU autogestionados Instant Clusters en NVIDIA H100 y B200
LLMTogether AI Blog

Together AI lanzó los clústeres GPU autogestionados Instant Clusters en NVIDIA H100 y B200

Together AI lanzó oficialmente Instant Clusters, clústeres GPU autogestionados basados en NVIDIA H100 y B200, que se despliegan en minutos y están listos para producción sin largas aprobaciones.

2026-05-21·3 min
Together AI multiplicó por 3.000 los límites de Batch Inference API y redujo los precios un 50%
LLMTogether AI Blog

Together AI multiplicó por 3.000 los límites de Batch Inference API y redujo los precios un 50%

Batch Inference API ahora maneja 30.000 millones de tokens (frente a 10 millones) y cuesta la mitad que la real-time API. Es compatible con los 40+ modelos de la plataforma.

2026-05-21·2 min
Together AI amplió su plataforma: entrenamiento de modelos con 100B+ parámetros
LLMTogether AI Blog

Together AI amplió su plataforma: entrenamiento de modelos con 100B+ parámetros

La plataforma de fine-tuning de Together AI ahora entrena los modelos abiertos más poderosos — DeepSeek-R1, Qwen3-235B y Llama 4 — con soporte para contextos extendidos e integración con Hugging Face.

2026-05-21·3 min
FlashAttention-3 acelerará los transformadores al doble con 75% de carga de GPU
LLMTogether AI Blog

FlashAttention-3 acelerará los transformadores al doble con 75% de carga de GPU

Together AI lanzó FlashAttention-3, un algoritmo que acelera transformadores de 1.5 a 2 veces y utiliza el 75% del rendimiento de GPU H100, manteniendo baja precisión FP8.

2026-05-21·2 min
Together AI logra un entrenamiento 90% más rápido con NVIDIA Blackwell
LLMTogether AI Blog

Together AI logra un entrenamiento 90% más rápido con NVIDIA Blackwell

Together AI anunció acceso a clústeres de GPU NVIDIA Blackwell con optimizaciones propias, logrando un entrenamiento de Llama 70B un 90% más rápido y 15.264 tokens por segundo por GPU.

2026-05-21·3 min
ThunderKittens de Together AI: nuevo lenguaje para GPU kernels eficientes
LLMTogether AI Blog

ThunderKittens de Together AI: nuevo lenguaje para GPU kernels eficientes

Together AI presentó ThunderKittens, un lenguaje de programación para GPU kernels que se escribe como PyTorch pero funciona como CUDA puro. En H100, el código se ejecuta incluso más rápido que el clásico FlashAttention2.

2026-05-21·3 min
DSGym: framework para entrenar agentes de data science con 90+ tareas científicas
LLMTogether AI Blog

DSGym: framework para entrenar agentes de data science con 90+ tareas científicas

Together AI publicó DSGym, un framework para entrenar agentes LLM en data science. Incluye 90+ tareas bioinformáticas, 92 competencias de Kaggle, y un modelo de 4B con resultados SOTA entrenado en datos sintéticos.

2026-05-21·2 min
Together AI explicó por qué la nube para IA es una arquitectura completamente diferente
LLMTogether AI Blog

Together AI explicó por qué la nube para IA es una arquitectura completamente diferente

Startups de IA como Cursor iteran semanalmente y consumen GPU como aplicaciones web de 2012. Together AI explica cómo debe ser una nube para soportar la velocidad de las empresas nativas de IA.

2026-05-21·2 min
Together AI: cómo las optimizaciones de kernel cierran la brecha entre modelos y GPU
LLMTogether AI Blog

Together AI: cómo las optimizaciones de kernel cierran la brecha entre modelos y GPU

El equipo de optimizaciones de kernel de Together AI aceleró GPU 2-3x. En una semana adaptaron kernels para Blackwell, un trabajo que NVIDIA tardaba un año.

2026-05-21·3 min
FlashAttention-4: cómo Together AI aceleró la atención en GPU Blackwell
LLMTogether AI Blog

FlashAttention-4: cómo Together AI aceleró la atención en GPU Blackwell

Together AI presentó FlashAttention-4 —una optimización del algoritmo de atención para GPU Blackwell, que logra 1605 TFLOPs/s y funciona 2.7 veces más rápido que Triton.

2026-05-21·2 min