Together AI multiplicou por 3.000 os limites da Batch Inference API e reduziu os preços em 50%
A Together AI atualizou a Batch Inference API para processar volumes massivos de dados sem gargalos. Os limites cresceram 3.000 vezes, para 30 bilhões de tokens

A Together AI atualizou sua Batch Inference API — um serviço para processar grandes volumes de solicitações para modelos LLM com execução diferida. A empresa anunciou três grandes melhorias: um aumento de 3000 vezes nos limites, redução de 50% de preço e uma interface redesenhada para fluxo de trabalho simplificado.
Escalabilidade Sem Gargalos
A mudança principal afetou os limites. Anteriormente, o teto era de 10 milhões de tokens por usuário por modelo; agora é de 30 bilhões. Isso não é apenas um número — é uma solução para um problema arquitetural enfrentado por empresas que processam conjuntos de dados massivos.
Anteriormente, equipes com grandes volumes de trabalho lidavam assim: dividiam o conjunto de dados em partes, criavam muitas tarefas de batch pequenas, acompanhavam cada uma separadamente, coordenavam resultados. Isso era inconveniente, demorado e caro. Agora você pode carregar um conjunto de dados inteiro em uma operação e obter resultados dentro de um SLA de 24 horas — frequentemente muito mais rápido.
O preço foi atualizado em paralelo. O processamento em lote agora custa aproximadamente a metade do preço da API em tempo real para o mesmo volume de computação. Ao lidar com bilhões de tokens, a diferença de preço se torna significativa para orçamentos de projetos.
Qualquer Modelo, Interface Simples
A API agora funciona com todos os 40+ modelos na plataforma Together, incluindo deployments privados. Anteriormente, a seleção era limitada a alguns modelos, o que criava problemas para equipes que queriam experimentar e testar diferentes modelos em modo batch. A interface foi completamente redesenhada. Anteriormente, era necessário escrever chamadas de API, entender documentação, depurar código. Agora tudo é feito por meio de uma aplicação web: criação de tarefas, monitoramento de progresso, downloads de resultados. Alguns cliques — e pronto. Isso reduz a barreira de entrada para equipes que não querem se distrair escrevendo código para cada solicitação em lote.
Quem Precisa Disso
- Análise de sentimento e classificação de texto em milhões de documentos
- Detecção de transações fraudulentas — verificação de milhões de pagamentos e operações
- Geração de dados sintéticos para treinamento de novos modelos
- Vetorização de grandes corpora de texto (geração de embedding)
- Moderação de conteúdo em redes sociais e plataformas com UGC
- Testes de benchmark para avaliar e comparar a qualidade dos modelos
Um exemplo concreto: o Inception Labs já está usando a API em lote como base de seu fluxo de trabalho em produção. De acordo com o cofundador Vladimir Kuleshov:
"Contamos com a Batch Inference API para processar volumes muito grandes de solicitações.
Limites altos nos permitem executar experimentos massivos sem gargalos. As tarefas são concluídas significativamente mais rápido do que o SLA de 24 horas, frequentemente em horas."
O Que Isso Significa para a Indústria
Batch Inference está saindo do nicho dos especialistas para a categoria de ferramentas de mercado em massa. Anteriormente, altos custos e complexidade técnica eram barreiras sérias. Apenas grandes laboratórios de pesquisa, projetos governamentais e grandes corporações podiam se permitir usar processamento em lote. Agora startups e equipes de médio porte têm acesso ao mesmo conjunto de ferramentas. A redução de 50% de preço e o aumento de 3000 vezes nos limites eliminam os principais obstáculos para a adoção em massa. Em 2025, esperamos um aumento no uso de batch inference em aplicações em produção — desde moderação de conteúdo em escala até síntese de grandes volumes de dados de treinamento para fine-tuning de seus próprios modelos.