Habr AI→ original

Pourquoi ChatGPT et les autres LLM sont devenus bien plus puissants que la simple "prédiction de mots"

Les LLM continuent de prédire le token suivant, mais les principales avancées de ces dernières années se sont construites sur ce mécanisme. Les modèles ont…

Traité par IA depuis Habr AI ; édité par Hamidun News
Pourquoi ChatGPT et les autres LLM sont devenus bien plus puissants que la simple "prédiction de mots"
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Les grands modèles de langage continuent de construire leur réponse comme une prédiction du jeton suivant, mais ce mécanisme en apparence simple s'avère être bien plus productif que ne l'espéraient même de nombreux chercheurs. La croissance nette de la qualité des LLM s'explique non seulement par l'échelle, mais par la façon dont l'autocritique, les outils et le raisonnement multi-étapes ont été ajoutés au-dessus du modèle de base.

D'où venait le scepticisme

Même en 2024, une explication populaire sonnait comme ceci : les LLM sont des autocompléteurs de texte géants qui ne comprennent pas le sens, mais se contentent de continuer les séquences de jetons. De là découlait une conclusion directe : si la base est si primitive, alors le plafond de qualité de tels systèmes devrait être bas. Les hallucinations, les réponses génériques et les mauvaises performances sur les tâches nécessitant des données fraîches ont uniquement renforcé cette vision.

Un exemple typique—une question avec des détails spécifiques du monde réel, comme s'il est moins cher de voler de Londres à Barcelone ou de prendre un train vendredi prochain. Les premiers modèles répondaient par des généralités : les avions sont généralement plus rapides et moins chers, les trains sont plus confortables et écologiques. Une telle réponse pourrait sembler plausible, mais n'aide pas à prendre une décision.

C'est pourquoi beaucoup pensaient que la mise à l'échelle seule ne suffisait pas : ce qui était nécessaire n'était pas un autocompléteur plus grand, mais un niveau différent de comportement.

Ce qui a été ajouté par-dessus

La première couche importante au-dessus du modèle de base était la capacité à reconnaître sa propre incertitude. Au lieu d'affirmations confiantes, les LLM modernes peuvent de plus en plus dire qu'ils n'ont pas accès à des données en temps réel, manquent de contexte ou devraient consulter une source externe. Cela semble être une amélioration cosmétique, mais en réalité augmente considérablement l'utilité : le modèle cesse de masquer les lacunes de connaissances et commence à marquer correctement les limites de sa compétence.

La deuxième couche est l'appel aux outils. D'un point de vue architecturel, le modèle génère toujours des jetons, mais maintenant l'environnement interprète certains jetons comme des commandes : effectuer une recherche web, appeler une API, accéder à une base de données ou exécuter un petit script. En conséquence, le LLM n'a plus besoin de mémoriser tout dans ses poids : il peut obtenir les faits manquants directement lors de la génération de réponse et continuer son raisonnement en fonction.

  • Vérifier les prix actuels, la météo ou les horaires via la recherche web
  • Accéder aux bases de connaissances d'entreprise ou aux APIs externes
  • Exécuter des scripts Python pour les calculs et les comparaisons
  • Relancer les requêtes si les résultats initiaux semblent obsolètes ou contradictoires

Pourquoi cela a fonctionné

Mais le bond de qualité le plus inattendu ne provenait pas seulement des outils, mais de la formation au raisonnement. Au début, cela ressemblait à une suggestion de « pense étape par étape », qui aidait le modèle à analyser les tâches plus soigneusement. Ensuite, l'apprentissage par renforcement est entré en jeu, et plus tard—des approches avec récompense vérifiable, où l'exactitude d'une réponse mathématique ou de code peut être vérifiée automatiquement. Le modèle a commencé non seulement à fournir des réponses, mais de plus en plus à choisir des trajectoires qui mènent réellement à des solutions correctes.

« L'apprentissage par renforcement est toujours orienté vers un résultat.

Dans ce cas, ce résultat était le raisonnement. »

De là a surgi une autre idée : si le modèle sait déjà comment penser étape par étape, il peut être donné plus de temps pour raisonner. Les jetons supplémentaires lors de la génération de réponse ne deviennent pas du bavardage vide, mais une exploration des alternatives, une auto-vérification et un recul face aux hypothèses échouées. Essentiellement, une partie de l'intelligence est maintenant déterminée non seulement par ce qui a été mémorisé pendant l'entraînement, mais par le temps de calcul que le système dépense au moment de la requête.

C'est précisément la combinaison du raisonnement et des outils qui rend les LLM modernes tellement plus puissants que les versions antérieures. Dans la tâche du train et de l'avion, un bon modèle comprend d'abord quelles données lui manquent, puis recherche les prix, compare les connexions et la durée du trajet, calcule les résultats via du code si nécessaire, puis vérifie que les résultats ne sont pas devenus obsolètes. Ce n'est plus simplement une belle réponse textuelle, mais une boucle de prise de décision fonctionnelle construite sur le même mécanisme de prédiction du jeton suivant.

Ce que cela signifie

Le succès des LLM s'explique maintenant non par la magie et non par la mise à l'échelle seule, mais par l'ingénierie superposée à un principe fondamental. Les modèles peuvent toujours faire des erreurs, rester bloqués dans des boucles et halluciner, mais la combinaison de l'autocritique, des outils et du raisonnement par RL a transformé « l'autocomplétion de texte » en un système qui aide véritablement à résoudre des problèmes pratiques.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…