Éditeur · vérifié par la rédaction

Together AI Blog

Source d'actualités IA. Les articles sont sélectionnés et adaptés par la rédaction de Hamidun News.

21 articles dans Hamidun·Dernier: 22 juillet· Actif·together.ai ↗

Dernières publications

Together AI présente neuf articles de recherche à la conférence ICML 2026 à Séoul

Together AI a annoncé que neuf de ses articles de recherche ont été acceptés à ICML 2026 à Séoul — les présentations couvrent toute la pile d'infrastructure d'IA, des agents aux kernels GPU.

17 juil. 2026·2 min

LLMTogether AI Blog

Kimi K2.7 Code versus Claude Fable 5: pages de destination 94% moins chères

Together AI a comparé Kimi K2.7 Code et Claude Fable 5 sur 12 pages de destination: Kimi coûtait 94% moins cher et a à peine perdu en qualité de résultats.

17 juil. 2026·2 min

LLMTogether AI Blog

Mamba-3 : une alternative aux transformers avec complexité linéaire

Des chercheurs de CMU et Together AI ont présenté Mamba-3 — une nouvelle architecture basée sur SSM optimisée pour la génération rapide de texte.

16 juil. 2026·3 min

LLMTogether AI Blog

Together AI lance une inférence garantie pour les modèles ouverts avec un SLA de 99 %

Together AI a présenté Provisioned Throughput — une capacité d'inférence réservée pour MiniMax M3 et GLM-5.2, avec un SLA de 99 % de disponibilité et jusqu'à 90 % d'économies par rapport aux API fermées.

8 juil. 2026·3 min

LLMTogether AI Blog

Together AI lève $800M en levée de fonds de série C pour développer l'IA open-source

Together AI a clôturé sa levée de fonds de série C à $800M avec la participation de NVIDIA, Aramco Ventures et Vista Equity — la plateforme mise sur les modèles open-source qui sont 6–20 fois moins chers que les alternat

4 juil. 2026·2 min

LLMTogether AI Blog

Together AI a dépassé TensorRT-LLM de 31 % sur des benchmarks pour agents de code

Together Inference Engine a enregistré 31 % de tokens par seconde en plus et a divisé le TTFT par deux en charge de pointe — le premier benchmark honnête pour des agents en production.

30 juin 2026·2 min

LLMTogether AI Blog

Together AI à la NVIDIA GTC 2026 : Dynamo, modèles multi-agents et AI vocale

À la GTC 2026, Together AI a présenté l’intégration avec NVIDIA Dynamo 1.0, lancé la stack NemoClaw pour les agents et ouvert l’accès au modèle Nemotron 3 Super de 120B.

30 juin 2026·2 min

LLMTogether AI Blog

Together AI lance MiniMax M3 avec un contexte de 1 million de tokens et une prise en charge multimodale

Together AI s'est associé à MiniMax pour lancer M3, un modèle phare prenant en charge 1 million de tokens de contexte, le traitement natif des images et une accélération de l'inférence allant jusqu'à 125 %.

30 juin 2026·2 min

LLMTogether AI Blog

Together AI a obtenu la certification ISO 27001:2022 pour les charges de travail AI d'entreprise

Together AI a passé un audit international ISO 27001:2022 — une évaluation indépendante a confirmé la maturité de son système de sécurité de l'information pour les clients d'entreprise.

30 juin 2026·2 min

LLMTogether AI Blog

Together AI : GPT-5.5, Gemini et Opus ne savent pas écrire des kernels multi-GPU rapides

Le nouveau benchmark ParallelKernelBench a montré que les meilleurs modèles de langage réussissent moins d’un tiers des tâches de génération de kernels CUDA pour des systèmes multiprocesseurs.

30 juin 2026·3 min

LLMTogether AI Blog

Together AI présente ATLAS : un spéculateur qui accélère les LLM 4 fois

La nouvelle technologie de spéculateur à apprentissage adaptatif ATLAS de Together AI accélère l'inférence LLM 4 fois sans configuration manuelle — elle s'adapte automatiquement à la charge de travail de l'utilisateur.

21 mai 2026·2 min

LLMTogether AI Blog

Together AI a lancé les clusters GPU Instant Clusters autogérés sur NVIDIA H100 et B200

Together AI a officiellement lancé Instant Clusters — des clusters GPU autogérés basés sur NVIDIA H100 et B200, qui se déploient en quelques minutes et sont prêts pour la production sans longues approbations.

21 mai 2026·3 min

LLMTogether AI Blog

Together AI a multiplié par 3 000 les limites de Batch Inference API et réduit les prix de 50 %

Batch Inference API traite désormais 30 milliards de tokens (contre 10 millions) et coûte deux fois moins cher que la real-time API. Elle prend en charge les 40+ modèles de la plateforme.

21 mai 2026·2 min

LLMTogether AI Blog

Together AI a élargi sa plateforme : formation de modèles sur 100B+ paramètres

La plateforme de fine-tuning Together AI entraîne désormais les plus puissants modèles ouverts — DeepSeek-R1, Qwen3-235B et Llama 4 — avec contextes élargis et intégration Hugging Face.

21 mai 2026·3 min

LLMTogether AI Blog

FlashAttention-3 accélèrera les transformers deux fois plus vite avec 75% de charge GPU

Together AI a lancé FlashAttention-3 — un algorithme qui accélère les transformers de 1,5 à 2 fois et utilise 75 % des performances du GPU H100, en supportant la précision basse FP8.

21 mai 2026·2 min

LLMTogether AI Blog

Together AI atteint un entraînement 90 % plus rapide sur NVIDIA Blackwell

Together AI a annoncé l’accès à des clusters de GPU NVIDIA Blackwell avec ses propres optimisations, atteignant un entraînement de Llama 70B 90 % plus rapide et 15 264 tokens par seconde par GPU.

21 mai 2026·3 min

LLMTogether AI Blog

ThunderKittens de Together AI : un nouveau langage pour les kernels GPU efficaces

Together AI a présenté ThunderKittens — un langage de programmation pour les kernels GPU qui s'écrit comme PyTorch, mais fonctionne comme du CUDA pur. Sur H100, le code s'exécute même plus vite que le classique FlashAtte

21 mai 2026·3 min

LLMTogether AI Blog

DSGym : un framework pour entraîner des agents de science des données avec 90+ tâches scientifiques

Together AI a publié DSGym, un framework pour entraîner des agents LLM sur des tâches de science des données avec 90+ tâches scientifiques et résultats SOTA sur un modèle de 4B paramètres.

21 mai 2026·2 min

LLMTogether AI Blog

Together AI explique pourquoi le cloud pour l'IA est une toute autre architecture

Les startups IA comme Cursor itèrent hebdomadairement. Together AI explique quel cloud doit être pour soutenir la vitesse des entreprises natives IA.

21 mai 2026·2 min

LLMTogether AI Blog

Together AI : comment les optimisations des noyaux ferment l'écart entre les modèles et les GPU

L'équipe d'optimisation des noyaux de Together AI a créé une technologie qui accélère les GPU de 2 à 3 fois. En une semaine, ils ont adapté les noyaux pour les nouveaux GPU Blackwell – un travail sur lequel NVIDIA a trav

21 mai 2026·3 min

LLMTogether AI Blog

FlashAttention-4 : comment Together AI a accéléré l'attention sur GPU Blackwell

Together AI a présenté FlashAttention-4 — une optimisation de l'algorithme d'attention pour GPU Blackwell, qui atteint 1605 TFLOPs/s et fonctionne 2,7 fois plus vite que Triton.

21 mai 2026·2 min