Dernières publications

Together AI présente ATLAS : un spéculateur qui accélère les LLM 4 fois
La nouvelle technologie de spéculateur à apprentissage adaptatif ATLAS de Together AI accélère l'inférence LLM 4 fois sans configuration manuelle — elle s'adapte automatiquement à la charge de travail de l'utilisateur.

Together AI a lancé les clusters GPU Instant Clusters autogérés sur NVIDIA H100 et B200
Together AI a officiellement lancé Instant Clusters — des clusters GPU autogérés basés sur NVIDIA H100 et B200, qui se déploient en quelques minutes et sont prêts pour la production sans longues approbations.

Together AI a multiplié par 3 000 les limites de Batch Inference API et réduit les prix de 50 %
Batch Inference API traite désormais 30 milliards de tokens (contre 10 millions) et coûte deux fois moins cher que la real-time API. Elle prend en charge les 40+ modèles de la plateforme.

Together AI a élargi sa plateforme : formation de modèles sur 100B+ paramètres
La plateforme de fine-tuning Together AI entraîne désormais les plus puissants modèles ouverts — DeepSeek-R1, Qwen3-235B et Llama 4 — avec contextes élargis et intégration Hugging Face.

FlashAttention-3 accélèrera les transformers deux fois plus vite avec 75% de charge GPU
Together AI a lancé FlashAttention-3 — un algorithme qui accélère les transformers de 1,5 à 2 fois et utilise 75 % des performances du GPU H100, en supportant la précision basse FP8.

Together AI atteint un entraînement 90 % plus rapide sur NVIDIA Blackwell
Together AI a annoncé l’accès à des clusters de GPU NVIDIA Blackwell avec ses propres optimisations, atteignant un entraînement de Llama 70B 90 % plus rapide et 15 264 tokens par seconde par GPU.

ThunderKittens de Together AI : un nouveau langage pour les kernels GPU efficaces
Together AI a présenté ThunderKittens — un langage de programmation pour les kernels GPU qui s'écrit comme PyTorch, mais fonctionne comme du CUDA pur. Sur H100, le code s'exécute même plus vite que le classique FlashAtte

DSGym : un framework pour entraîner des agents de science des données avec 90+ tâches scientifiques
Together AI a publié DSGym, un framework pour entraîner des agents LLM sur des tâches de science des données avec 90+ tâches scientifiques et résultats SOTA sur un modèle de 4B paramètres.

Together AI explique pourquoi le cloud pour l'IA est une toute autre architecture
Les startups IA comme Cursor itèrent hebdomadairement. Together AI explique quel cloud doit être pour soutenir la vitesse des entreprises natives IA.

Together AI : comment les optimisations des noyaux ferment l'écart entre les modèles et les GPU
L'équipe d'optimisation des noyaux de Together AI a créé une technologie qui accélère les GPU de 2 à 3 fois. En une semaine, ils ont adapté les noyaux pour les nouveaux GPU Blackwell – un travail sur lequel NVIDIA a trav

FlashAttention-4 : comment Together AI a accéléré l'attention sur GPU Blackwell
Together AI a présenté FlashAttention-4 — une optimisation de l'algorithme d'attention pour GPU Blackwell, qui atteint 1605 TFLOPs/s et fonctionne 2,7 fois plus vite que Triton.