Together AI Blog→ original

Together AI présente ATLAS : un spéculateur qui accélère les LLM 4 fois

Together AI a présenté ATLAS — un spéculateur adaptatif basé sur le machine learning qui accélère l'inférence LLM 4 fois sans configuration manuelle. Le système

Traité par IA depuis Together AI Blog ; édité par Hamidun News
Together AI présente ATLAS : un spéculateur qui accélère les LLM 4 fois
Source : Together AI Blog. Collage: Hamidun News.
◐ Écouter l'article

Together AI a présenté ATLAS (Adaptive-Learning Speculator System) — une technologie révolutionnaire d'accélération de l'inférence LLM qui s'améliore automatiquement au fil de son utilisation. Le système atteint 500 tokens par seconde sur DeepSeek-V3.1 et 460 sur Kimi-K2 — c'est presque une accélération 4x sans configuration manuelle. Les résultats ont été obtenus sur NVIDIA HGX B200 en utilisant le trafic réel du benchmark Arena Hard.

Qu'est-ce que le décodage spéculatif

Le décodage spéculatif est l'un des moyens les plus puissants d'accélérer la génération de texte sur les LLM. Au lieu de la méthode standard, où le modèle génère un token à la fois dans des passages séquentiels, le système utilise un spéculateur plus rapide (modèle brouillon) qui propose plusieurs tokens à la fois. Ensuite, le modèle principal (cible) les vérifie tous en parallèle en une seule passe avant.

La qualité de la sortie reste identique au décodage normal (mathématiquement garantie), mais la vitesse augmente proportionnellement. Si le spéculateur devine correctement (coefficient d'acceptation élevé α), le système traite plusieurs tokens à la fois au lieu d'un seul. En pratique, cela signifie une réduction significative du délai jusqu'au premier token et une accélération de la génération globale.

Comment ATLAS se différencie des autres solutions

Les spéculateurs standard sont entraînés une fois sur une charge de travail générale et fonctionnent partout de la même manière. Les spéculateurs spécialisés (custom speculators) sont entraînés sur les données spécifiques de l'entreprise, mais seulement pour un moment donné. Lorsque la charge de travail évolue — la base de code se développe, les modèles de trafic changent, la distribution des requêtes se décale, de nouveaux types d'utilisateurs apparaissent — même les spéculateurs fortement optimisés commencent à prendre du retard.

ATLAS résout ce problème de manière fondamentalement différente. Le système s'entraîne continuellement (apprentissage continu) au fil de son utilisation, s'adaptant au trafic réel et au comportement du modèle cible en temps réel. Plus longtemps vous utilisez le service, mieux ATLAS prédit les actions suivantes du modèle principal, et plus le coefficient d'acceptation est élevé. Cela crée une boucle de rétroaction positive : chaque nouvelle requête est un exemple d'entraînement qui améliore le spéculateur.

Résultats en pratique

Together AI a démontré les résultats sur le matériel industriel NVIDIA HGX B200 avec du trafic réel :

  • DeepSeek-V3.1 : 500 TPS (tokens par seconde) — 2,65x plus rapide que le décodage standard
  • Kimi-K2-0905 : 460 TPS — également un gain significatif
  • Comparaison avec Groq : ATLAS en mode complètement adapté surpasse les performances du matériel spécialisé de Groq
  • Accélération 4x par rapport à la solution de base sans optimisation

L'efficacité est réalisée grâce à l'équilibre de deux paramètres clés : le coefficient d'acceptation (α) — une mesure de la fréquence à laquelle le modèle principal accepte les suggestions du spéculateur — et la latence relative (c) entre la vitesse du spéculateur et celle du modèle cible. ATLAS trouve automatiquement le point optimal où le spéculateur fonctionne très rapidement, mais ses prédictions sont suffisamment précises pour une acceptation élevée.

Intégration dans Together Turbo

ATLAS s'intègre dans Together Turbo — une suite de solutions d'ingénierie pour accélérer les LLM de Together AI. Il fonctionne en parallèle avec le spéculateur propriétaire et supporte l'utilisation de spéculateurs personnalisés. La principale différence : ATLAS ne nécessite aucun réglage manuel des paramètres. Les utilisateurs bénéficient d'améliorations automatiques des performances simplement en utilisant la plateforme. C'est particulièrement critique pour les équipes en croissance, où la charge de travail n'est pas statique.

En phase de croissance, lorsque les requêtes proviennent de différents types d'utilisateurs, la logique métier évolue constamment et les exigences envers les modèles changent, les anciennes optimisations deviennent souvent obsolètes en quelques semaines ou mois. ATLAS se met à jour automatiquement en permanence.

Ce que cela signifie

L'accélération de l'inférence LLM passe de tâches d'ingénierie ponctuelles à des fonctionnalités vivantes intégrées au service. Les développeurs et les utilisateurs obtiennent des réponses de plus en plus rapides simplement en utilisant la plateforme, sans aucune intervention manuelle. Pour les startups, les agences et les entreprises, cela signifie une réduction réelle des coûts de traitement des requêtes adressées aux grands modèles en production.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…