Together AI a élargi sa plateforme : formation de modèles sur 100B+ paramètres
Together AI a élargi sa plateforme de fine-tuning. Elle prend désormais en charge les modèles 100B+: DeepSeek-R1, Qwen3-235B, Llama 4. Le support des contextes
Traité par IA depuis Together AI Blog ; édité par Hamidun News
La plateforme de fine-tuning Together AI a reçu une mise à jour majeure. Les développeurs peuvent désormais entraîner les plus grands modèles ouverts — avec des centaines de milliards de paramètres.
Les géants des modèles en formation
En 2025, de nombreux modèles avec 100+ milliards de paramètres ont été lancés. DeepSeek-R1, Qwen3-235B et Llama 4 Maverick affichent des résultats proches des meilleurs modèles propriétaires sur certaines tâches. Le fine-tuning permet d'adapter ces géants aux tâches spécifiques de l'entreprise — mais autrefois, c'était difficile, coûteux et nécessitait une profonde expertise en ingénierie ML. Together AI a optimisé l'architecture de sa plateforme pour rendre l'entraînement des grands modèles simple et abordable.
L'entreprise a ajouté le support des dernières versions des plus grands modèles:
- DeepSeek: V3, R1 et leurs versions de base
- Qwen: Qwen3-235B et Qwen3-Coder-480B avec contexte jusqu'à 32K tokens
- Meta Llama: Llama 4 Scout et Llama 4 Maverick
- OpenAI: gpt-oss-120b en phase pilote
Support standard: contexte 16K tokens pour SFT (Supervised Fine-Tuning) et 8K pour DPO (Direct Preference Optimization). Certains modèles obtiennent des contextes plus larges. Une fois l'entraînement terminé, le développeur peut déployer un Dedicated Endpoint pour l'inférence ou télécharger les points de contrôle intermédiaires pour l'analyse.
Contextes élargis pour la formation
Les longs documents, les grandes bases de code, les chaînes de raisonnement des agents IA — tout cela nécessite un modèle qui comprend les contextes élargis. Le problème : si les exemples d'entraînement sont plus courts que les tâches réelles, le modèle peut se perdre en production. Together AI a ajouté le support des grands contextes directement dans le processus d'entraînement. Cela élimine l'écart entre l'entraînement et l'application. Par exemple, Qwen3-235B peut maintenant s'entraîner avec un contexte jusqu'à 32K tokens pour les tâches SFT. C'est particulièrement utile pour entraîner les modèles à éditer les gros fichiers, rédiger la documentation et analyser les longues correspondances.
Intégration et nouvelles méthodes de formation
La plateforme a amélioré l'intégration avec Hugging Face Hub — le plus grand dépôt de modèles ouverts et de datasets. Les développeurs peuvent désormais charger des modèles depuis le Hub en un clic, lancer l'entraînement et télécharger le résultat en retour. Cela raccourcit le temps entre l'idée et le modèle entraîné. De nouvelles options DPO ont également été ajoutées — des méthodes d'entraînement qui rendent les modèles plus réactifs aux préférences humaines. DPO nécessite moins de données que les anciennes approches et donne souvent de meilleurs résultats sur les tâches réelles.
Ce que cela signifie
L'entraînement de grands modèles passe d'une tâche exclusive et coûteuse à un outil grand public. Les startups, les laboratoires de recherche et les entreprises de taille moyenne peuvent désormais adapter DeepSeek, Qwen ou Llama à leurs tâches sans nécessiter un budget de millions de dollars. Cela accélère l'adoption de l'IA et réduit la dépendance aux modèles fermés.
*Meta est reconnue comme une organisation extrémiste et interdite en Fédération de Russie.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.