Editorial · verificada por la redacción

Together AI Blog

Fuente de noticias de IA. Los artículos son seleccionados y adaptados por la redacción de Hamidun News.

21 artículos en Hamidun·Último: 22 de julio· Activo·together.ai ↗

Últimas publicaciones

Together AI lleva nueve trabajos de investigación a la conferencia ICML 2026 en Seúl

Together AI anunció que nueve de sus trabajos de investigación han sido aceptados en ICML 2026 en Seúl — las presentaciones cubren toda la pila de infraestructura de IA, de agentes a kernels de GPU.

17 jul 2026·2 min

LLMTogether AI Blog

Kimi K2.7 Code versus Claude Fable 5: páginas de destino 94% más baratas

Together AI comparó Kimi K2.7 Code y Claude Fable 5 en 12 páginas de destino: Kimi costó 94% menos y apenas perdió en calidad de resultados.

17 jul 2026·2 min

LLMTogether AI Blog

Mamba-3: alternativa a transformers con complejidad lineal

Investigadores de CMU y Together AI presentaron Mamba-3 — una nueva arquitectura basada en SSM optimizada para generación rápida de texto.

16 jul 2026·3 min

LLMTogether AI Blog

Together AI lanza inferencia garantizada para modelos abiertos con un SLA del 99%

Together AI presentó Provisioned Throughput — capacidad de inferencia reservada para MiniMax M3 y GLM-5.2, con un SLA de 99% de uptime y un ahorro de hasta 90% frente a APIs cerradas.

8 jul 2026·3 min

LLMTogether AI Blog

Together AI recauda $800M en ronda Series C para desarrollar IA de código abierto

Together AI cerró su ronda Series C en $800M con participación de NVIDIA, Aramco Ventures y Vista Equity — la plataforma apuesta por modelos de código abierto que son 6–20 veces más baratos que alternativas cerradas.

4 jul 2026·2 min

LLMTogether AI Blog

Together AI superó a TensorRT-LLM en un 31% en benchmarks para agentes de código

Together Inference Engine registró un 31% más de tokens por segundo y redujo el TTFT a la mitad bajo carga máxima — la primera prueba justa para agentes en producción.

30 jun 2026·2 min

LLMTogether AI Blog

Together AI en NVIDIA GTC 2026: Dynamo, modelos multiagente y AI de voz

En GTC 2026, Together AI presentó la integración con NVIDIA Dynamo 1.0, lanzó el stack NemoClaw para agentes y habilitó el acceso al modelo Nemotron 3 Super de 120B.

30 jun 2026·2 min

LLMTogether AI Blog

Together AI lanza MiniMax M3 con contexto de 1 millón de tokens y soporte multimodal

Together AI se asoció con MiniMax para lanzar M3, un modelo insignia con soporte para 1 millón de tokens de contexto, procesamiento nativo de imágenes y una aceleración de inferencia de hasta el 125%.

30 jun 2026·2 min

LLMTogether AI Blog

Together AI obtuvo la certificación ISO 27001:2022 para cargas de trabajo de AI empresariales

Together AI superó una auditoría internacional ISO 27001:2022 — una revisión independiente confirmó la madurez de su sistema de seguridad de la información para clientes empresariales.

30 jun 2026·2 min

LLMTogether AI Blog

Together AI: GPT-5.5, Gemini y Opus no saben escribir kernels multi-GPU rápidos

El nuevo benchmark ParallelKernelBench mostró que los mejores modelos de lenguaje resuelven menos de un tercio de las tareas de generación de kernels CUDA para sistemas multiprocesador.

30 jun 2026·3 min

LLMTogether AI Blog

Together AI presentó ATLAS: un especulador que acelera LLM 4 veces

La nueva tecnología de especulador con aprendizaje adaptativo ATLAS de Together AI acelera la inferencia de LLM 4 veces sin configuración manual — se adapta automáticamente a la carga de trabajo del usuario.

21 may 2026·2 min

LLMTogether AI Blog

Together AI lanzó los clústeres GPU autogestionados Instant Clusters en NVIDIA H100 y B200

Together AI lanzó oficialmente Instant Clusters, clústeres GPU autogestionados basados en NVIDIA H100 y B200, que se despliegan en minutos y están listos para producción sin largas aprobaciones.

21 may 2026·3 min

LLMTogether AI Blog

Together AI multiplicó por 3.000 los límites de Batch Inference API y redujo los precios un 50%

Batch Inference API ahora maneja 30.000 millones de tokens (frente a 10 millones) y cuesta la mitad que la real-time API. Es compatible con los 40+ modelos de la plataforma.

21 may 2026·2 min

LLMTogether AI Blog

Together AI amplió su plataforma: entrenamiento de modelos con 100B+ parámetros

La plataforma de fine-tuning de Together AI ahora entrena los modelos abiertos más poderosos — DeepSeek-R1, Qwen3-235B y Llama 4 — con soporte para contextos extendidos e integración con Hugging Face.

21 may 2026·3 min

LLMTogether AI Blog

FlashAttention-3 acelerará los transformadores al doble con 75% de carga de GPU

Together AI lanzó FlashAttention-3, un algoritmo que acelera transformadores de 1.5 a 2 veces y utiliza el 75% del rendimiento de GPU H100, manteniendo baja precisión FP8.

21 may 2026·2 min

LLMTogether AI Blog

Together AI logra un entrenamiento 90% más rápido con NVIDIA Blackwell

Together AI anunció acceso a clústeres de GPU NVIDIA Blackwell con optimizaciones propias, logrando un entrenamiento de Llama 70B un 90% más rápido y 15.264 tokens por segundo por GPU.

21 may 2026·3 min

LLMTogether AI Blog

ThunderKittens de Together AI: nuevo lenguaje para GPU kernels eficientes

Together AI presentó ThunderKittens, un lenguaje de programación para GPU kernels que se escribe como PyTorch pero funciona como CUDA puro. En H100, el código se ejecuta incluso más rápido que el clásico FlashAttention2.

21 may 2026·3 min

LLMTogether AI Blog

DSGym: framework para entrenar agentes de data science con 90+ tareas científicas

Together AI publicó DSGym, un framework para entrenar agentes LLM en data science. Incluye 90+ tareas bioinformáticas, 92 competencias de Kaggle, y un modelo de 4B con resultados SOTA entrenado en datos sintéticos.

21 may 2026·2 min

LLMTogether AI Blog

Together AI explicó por qué la nube para IA es una arquitectura completamente diferente

Startups de IA como Cursor iteran semanalmente y consumen GPU como aplicaciones web de 2012. Together AI explica cómo debe ser una nube para soportar la velocidad de las empresas nativas de IA.

21 may 2026·2 min

LLMTogether AI Blog

Together AI: cómo las optimizaciones de kernel cierran la brecha entre modelos y GPU

El equipo de optimizaciones de kernel de Together AI aceleró GPU 2-3x. En una semana adaptaron kernels para Blackwell, un trabajo que NVIDIA tardaba un año.

21 may 2026·3 min

LLMTogether AI Blog

FlashAttention-4: cómo Together AI aceleró la atención en GPU Blackwell

Together AI presentó FlashAttention-4 —una optimización del algoritmo de atención para GPU Blackwell, que logra 1605 TFLOPs/s y funciona 2.7 veces más rápido que Triton.

21 may 2026·2 min