Together AI multiplicou por 3.000 os limites da Batch Inference API e reduziu os preços em 50%

A Together AI atualizou a Batch Inference API para processar volumes massivos de dados sem gargalos. Os limites cresceram 3.000 vezes, para 30 bilhões de tokens por tarefa. O preço caiu pela metade em relação à real-time API. Uma nova interface web simplificou a criação e o acompanhamento de tarefas em lote.

Redação da Hamidun News

Monitoramento de AI · Together AI Blog

21 de mai. de 2026· 2 min

Processado por IA de Together AI Blog; editado por Hamidun News

Together AI multiplicou por 3.000 os limites da Batch Inference API e reduziu os preços em 50% — Fonte: Together AI Blog. Colagem: Hamidun News.

◐ Ouvir artigo

A Together AI atualizou sua Batch Inference API — um serviço para processar grandes volumes de solicitações para modelos LLM com execução diferida. A empresa anunciou três grandes melhorias: um aumento de 3000 vezes nos limites, redução de 50% de preço e uma interface redesenhada para fluxo de trabalho simplificado.

Escalabilidade Sem Gargalos

A mudança principal afetou os limites. Anteriormente, o teto era de 10 milhões de tokens por usuário por modelo; agora é de 30 bilhões. Isso não é apenas um número — é uma solução para um problema arquitetural enfrentado por empresas que processam conjuntos de dados massivos.

Anteriormente, equipes com grandes volumes de trabalho lidavam assim: dividiam o conjunto de dados em partes, criavam muitas tarefas de batch pequenas, acompanhavam cada uma separadamente, coordenavam resultados. Isso era inconveniente, demorado e caro. Agora você pode carregar um conjunto de dados inteiro em uma operação e obter resultados dentro de um SLA de 24 horas — frequentemente muito mais rápido.

O preço foi atualizado em paralelo. O processamento em lote agora custa aproximadamente a metade do preço da API em tempo real para o mesmo volume de computação. Ao lidar com bilhões de tokens, a diferença de preço se torna significativa para orçamentos de projetos.

Qualquer Modelo, Interface Simples

A API agora funciona com todos os 40+ modelos na plataforma Together, incluindo deployments privados. Anteriormente, a seleção era limitada a alguns modelos, o que criava problemas para equipes que queriam experimentar e testar diferentes modelos em modo batch. A interface foi completamente redesenhada. Anteriormente, era necessário escrever chamadas de API, entender documentação, depurar código. Agora tudo é feito por meio de uma aplicação web: criação de tarefas, monitoramento de progresso, downloads de resultados. Alguns cliques — e pronto. Isso reduz a barreira de entrada para equipes que não querem se distrair escrevendo código para cada solicitação em lote.

Quem Precisa Disso

Análise de sentimento e classificação de texto em milhões de documentos
Detecção de transações fraudulentas — verificação de milhões de pagamentos e operações
Geração de dados sintéticos para treinamento de novos modelos
Vetorização de grandes corpora de texto (geração de embedding)
Moderação de conteúdo em redes sociais e plataformas com UGC
Testes de benchmark para avaliar e comparar a qualidade dos modelos

Um exemplo concreto: o Inception Labs já está usando a API em lote como base de seu fluxo de trabalho em produção. De acordo com o cofundador Vladimir Kuleshov:

"Contamos com a Batch Inference API para processar volumes muito grandes de solicitações.

Limites altos nos permitem executar experimentos massivos sem gargalos. As tarefas são concluídas significativamente mais rápido do que o SLA de 24 horas, frequentemente em horas."

O Que Isso Significa para a Indústria

Batch Inference está saindo do nicho dos especialistas para a categoria de ferramentas de mercado em massa. Anteriormente, altos custos e complexidade técnica eram barreiras sérias. Apenas grandes laboratórios de pesquisa, projetos governamentais e grandes corporações podiam se permitir usar processamento em lote. Agora startups e equipes de médio porte têm acesso ao mesmo conjunto de ferramentas. A redução de 50% de preço e o aumento de 3000 vezes nos limites eliminam os principais obstáculos para a adoção em massa. Em 2025, esperamos um aumento no uso de batch inference em aplicações em produção — desde moderação de conteúdo em escala até síntese de grandes volumes de dados de treinamento para fine-tuning de seus próprios modelos.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis