Éditeur · vérifié par la rédaction

Together AI Blog

Source d'actualités IA. Les articles sont sélectionnés et adaptés par la rédaction de Hamidun News.

11 articles dans Hamidun·Dernier: 21 mai· Actif·together.ai ↗

Dernières publications

Together AI présente ATLAS : un spéculateur qui accélère les LLM 4 fois
LLMTogether AI Blog

Together AI présente ATLAS : un spéculateur qui accélère les LLM 4 fois

La nouvelle technologie de spéculateur à apprentissage adaptatif ATLAS de Together AI accélère l'inférence LLM 4 fois sans configuration manuelle — elle s'adapte automatiquement à la charge de travail de l'utilisateur.

2026-05-21·2 min
Together AI a lancé les clusters GPU Instant Clusters autogérés sur NVIDIA H100 et B200
LLMTogether AI Blog

Together AI a lancé les clusters GPU Instant Clusters autogérés sur NVIDIA H100 et B200

Together AI a officiellement lancé Instant Clusters — des clusters GPU autogérés basés sur NVIDIA H100 et B200, qui se déploient en quelques minutes et sont prêts pour la production sans longues approbations.

2026-05-21·3 min
Together AI a multiplié par 3 000 les limites de Batch Inference API et réduit les prix de 50 %
LLMTogether AI Blog

Together AI a multiplié par 3 000 les limites de Batch Inference API et réduit les prix de 50 %

Batch Inference API traite désormais 30 milliards de tokens (contre 10 millions) et coûte deux fois moins cher que la real-time API. Elle prend en charge les 40+ modèles de la plateforme.

2026-05-21·2 min
Together AI a élargi sa plateforme : formation de modèles sur 100B+ paramètres
LLMTogether AI Blog

Together AI a élargi sa plateforme : formation de modèles sur 100B+ paramètres

La plateforme de fine-tuning Together AI entraîne désormais les plus puissants modèles ouverts — DeepSeek-R1, Qwen3-235B et Llama 4 — avec contextes élargis et intégration Hugging Face.

2026-05-21·3 min
FlashAttention-3 accélèrera les transformers deux fois plus vite avec 75% de charge GPU
LLMTogether AI Blog

FlashAttention-3 accélèrera les transformers deux fois plus vite avec 75% de charge GPU

Together AI a lancé FlashAttention-3 — un algorithme qui accélère les transformers de 1,5 à 2 fois et utilise 75 % des performances du GPU H100, en supportant la précision basse FP8.

2026-05-21·2 min
Together AI atteint un entraînement 90 % plus rapide sur NVIDIA Blackwell
LLMTogether AI Blog

Together AI atteint un entraînement 90 % plus rapide sur NVIDIA Blackwell

Together AI a annoncé l’accès à des clusters de GPU NVIDIA Blackwell avec ses propres optimisations, atteignant un entraînement de Llama 70B 90 % plus rapide et 15 264 tokens par seconde par GPU.

2026-05-21·3 min
ThunderKittens de Together AI : un nouveau langage pour les kernels GPU efficaces
LLMTogether AI Blog

ThunderKittens de Together AI : un nouveau langage pour les kernels GPU efficaces

Together AI a présenté ThunderKittens — un langage de programmation pour les kernels GPU qui s'écrit comme PyTorch, mais fonctionne comme du CUDA pur. Sur H100, le code s'exécute même plus vite que le classique FlashAtte

2026-05-21·3 min
DSGym : un framework pour entraîner des agents de science des données avec 90+ tâches scientifiques
LLMTogether AI Blog

DSGym : un framework pour entraîner des agents de science des données avec 90+ tâches scientifiques

Together AI a publié DSGym, un framework pour entraîner des agents LLM sur des tâches de science des données avec 90+ tâches scientifiques et résultats SOTA sur un modèle de 4B paramètres.

2026-05-21·2 min
Together AI explique pourquoi le cloud pour l'IA est une toute autre architecture
LLMTogether AI Blog

Together AI explique pourquoi le cloud pour l'IA est une toute autre architecture

Les startups IA comme Cursor itèrent hebdomadairement. Together AI explique quel cloud doit être pour soutenir la vitesse des entreprises natives IA.

2026-05-21·2 min
Together AI : comment les optimisations des noyaux ferment l'écart entre les modèles et les GPU
LLMTogether AI Blog

Together AI : comment les optimisations des noyaux ferment l'écart entre les modèles et les GPU

L'équipe d'optimisation des noyaux de Together AI a créé une technologie qui accélère les GPU de 2 à 3 fois. En une semaine, ils ont adapté les noyaux pour les nouveaux GPU Blackwell – un travail sur lequel NVIDIA a trav

2026-05-21·3 min
FlashAttention-4 : comment Together AI a accéléré l'attention sur GPU Blackwell
LLMTogether AI Blog

FlashAttention-4 : comment Together AI a accéléré l'attention sur GPU Blackwell

Together AI a présenté FlashAttention-4 — une optimisation de l'algorithme d'attention pour GPU Blackwell, qui atteint 1605 TFLOPs/s et fonctionne 2,7 fois plus vite que Triton.

2026-05-21·2 min