Together AI Blog→ original

Together AI a multiplié par 3 000 les limites de Batch Inference API et réduit les prix de 50 %

Together AI a mis à jour Batch Inference API pour traiter d'énormes volumes de données sans goulets d'étranglement. Les limites ont été multipliées par 3 000, à

Together AI a multiplié par 3 000 les limites de Batch Inference API et réduit les prix de 50 %
Source : Together AI Blog. Collage: Hamidun News.
◐ Écouter l'article

Together AI a mis à jour son API Batch Inference — un service pour traiter de grands volumes de requêtes aux modèles LLM avec exécution différée. L'entreprise a annoncé trois améliorations majeures : une augmentation des limites de 3000 fois, une réduction de prix de 50 % et une interface repensée pour un flux de travail simplifié.

Scalabilité Sans Goulots d'Étranglement

Le changement principal a affecté les limites. Auparavant, le plafond était de 10 millions de tokens par utilisateur par modèle ; maintenant il est de 30 milliards. Ce n'est pas juste un chiffre — c'est une solution à un problème architectural auquel font face les entreprises traitant des ensembles de données massifs.

Auparavant, les équipes ayant de grands volumes de travail le géraient ainsi : elles divisaient l'ensemble de données en parties, créaient de nombreuses petites tâches batch, suivaient chacune séparément, coordonnaient les résultats. C'était gênant, long et coûteux. Maintenant, vous pouvez charger un ensemble de données entier en une seule opération et obtenir les résultats dans un délai SLA de 24 heures — souvent beaucoup plus rapidement.

Les prix ont été mis à jour en parallèle. Le traitement par lot coûte maintenant environ deux fois moins cher que l'API en temps réel pour le même volume de calcul. Quand on parle de milliards de tokens, la différence de prix devient significative pour les budgets des projets.

N'Importe Quel Modèle, Interface Simple

L'API fonctionne maintenant avec tous les 40+ modèles de la plateforme Together, y compris les déploiements privés. Auparavant, la sélection était limitée à quelques modèles, ce qui créait des problèmes pour les équipes voulant expérimenter et tester différents modèles en mode batch. L'interface a été complètement repensée. Auparavant, il fallait écrire des appels API, comprendre la documentation, déboguer du code. Maintenant, tout se fait via une application web : création de tâches, suivi de la progression, téléchargement des résultats. Quelques clics — et c'est fait. Cela réduit la barrière d'entrée pour les équipes qui ne veulent pas être distraites par la rédaction de code pour chaque requête batch.

Qui En A Besoin

  • Analyse des sentiments et classification de texte sur des millions de documents
  • Détection des transactions frauduleuses — analyse de millions de paiements et opérations
  • Génération de données synthétiques pour l'entraînement de nouveaux modèles
  • Vectorisation de grands corpus de texte (génération d'embedding)
  • Modération de contenu sur les réseaux sociaux et les plateformes UGC
  • Tests de benchmark pour évaluer et comparer la qualité des modèles

Un exemple concret : Inception Labs utilise déjà l'API batch comme base de son flux de travail en production. Selon le cofondateur Vladimir Kuleshov :

« Nous comptons sur l'API Batch Inference pour traiter de très grands volumes de requêtes.

Les limites élevées nous permettent d'exécuter des expériences massives sans goulots d'étranglement. Les tâches se terminent beaucoup plus rapidement que le délai SLA de 24 heures, souvent en quelques heures. »

Ce Que Cela Signifie pour l'Industrie

Batch Inference sort de la niche des spécialistes pour entrer dans la catégorie des outils grand public. Auparavant, les coûts élevés et la complexité technique étaient des barrières sérieuses. Seuls les grands laboratoires de recherche, les projets gouvernementaux et les grandes entreprises pouvaient se permettre d'utiliser le traitement par lot.

Maintenant, les startups et les équipes de taille moyenne ont accès aux mêmes outils. La réduction de prix de 50 % et l'augmentation des limites de 3000 fois éliminent les principaux obstacles à l'adoption de masse. En 2025, on s'attend à une augmentation de l'utilisation du batch inference dans les applications en production — de la modération de contenu à l'échelle à la synthèse de grands volumes de données d'entraînement pour le fine-tuning de vos propres modèles.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.
Qu'en pensez-vous ?
Chargement des commentaires…