Together AI multiplicó por 3.000 los límites de Batch Inference API y redujo los precios un 50%
Together AI actualizó Batch Inference API para procesar volúmenes masivos de datos sin cuellos de botella. Los límites aumentaron 3.000 veces, hasta 30.000 mill

Together AI actualizó su Batch Inference API — un servicio para procesar grandes volúmenes de solicitudes a modelos LLM con ejecución diferida. La empresa anunció tres mejoras importantes: un aumento de límites de 3000 veces, reducción de precios del 50% e interfaz rediseñada para flujo de trabajo simplificado.
Escalabilidad Sin Cuellos de Botella
El cambio principal afectó los límites. Anteriormente, el techo era de 10 millones de tokens por usuario por modelo; ahora es de 30 mil millones. Esto no es solo un número — es una solución a un problema arquitectónico enfrentado por empresas que procesan conjuntos de datos masivos.
Anteriormente, los equipos con grandes volúmenes de trabajo lo manejaban así: dividían el conjunto de datos en partes, creaban muchas tareas de batch pequeñas, rastreaban cada una por separado, coordinaban resultados. Esto era incómodo, lento y costoso. Ahora puede cargar un conjunto de datos completo en una operación y obtener resultados dentro de un SLA de 24 horas — frecuentemente mucho más rápido.
Los precios se actualizaron en paralelo. El procesamiento en lote ahora cuesta aproximadamente la mitad del precio de la API en tiempo real para el mismo volumen de cómputo. Al tratar con miles de millones de tokens, la diferencia de precio se vuelve significativa para los presupuestos del proyecto.
Cualquier Modelo, Interfaz Simple
La API ahora funciona con todos los 40+ modelos de la plataforma Together, incluyendo deployments privados. Anteriormente, la selección estaba limitada a unos pocos modelos, lo que creaba problemas para equipos que querían experimentar y probar diferentes modelos en modo batch. La interfaz fue completamente rediseñada. Anteriormente, tenía que escribir llamadas a API, entender documentación, depurar código. Ahora todo se hace a través de una aplicación web: creación de tareas, monitoreo de progreso, descargas de resultados. Solo algunos clics — y listo. Esto reduce la barrera de entrada para equipos que no quieren distraerse escribiendo código para cada solicitud batch.
Quién Lo Necesita
- Análisis de sentimiento y clasificación de texto en millones de documentos
- Detección de transacciones fraudulentas — escaneo de millones de pagos y operaciones
- Generación de datos sintéticos para entrenamiento de nuevos modelos
- Vectorización de grandes corpus de texto (generación de embedding)
- Moderación de contenido en redes sociales y plataformas con UGC
- Pruebas de benchmark para evaluar y comparar la calidad de los modelos
Un ejemplo concreto: Inception Labs ya está utilizando la API de batch como base de su flujo de trabajo en producción. Según el cofundador Vladimir Kuleshov:
"Dependemos de la Batch Inference API para procesar volúmenes muy grandes de solicitudes.
Los límites altos nos permiten ejecutar experimentos masivos sin cuellos de botella. Las tareas se completan significativamente más rápido que el SLA de 24 horas, frecuentemente en horas."
Lo Que Esto Significa para la Industria
Batch Inference está saliendo del nicho de los especialistas hacia la categoría de herramientas de mercado masivo. Anteriormente, los altos costos y la complejidad técnica eran barreras serias. Solo grandes laboratorios de investigación, proyectos gubernamentales y grandes corporaciones podían permitirse usar procesamiento en lote. Ahora startups y equipos de tamaño medio tienen acceso a las mismas herramientas. La reducción de precio del 50% y el aumento de límites de 3000 veces eliminan los principales obstáculos para la adopción masiva. En 2025, esperamos un aumento en el uso de batch inference en aplicaciones de producción — desde moderación de contenido a escala hasta síntesis de grandes volúmenes de datos de entrenamiento para fine-tuning de sus propios modelos.