Les modèles de langage comme récepteur radio : pourquoi le traitement des signaux est plus important que la linguistique
Nous sommes habitués à penser aux réseaux de neurones comme des linguistes numériques qui consomment avidement des bibliothèques pour apprendre à exprimer…
Traité par IA depuis Jiqizhixin (机器之心) ; édité par Hamidun News
Nous sommes habitués à penser aux réseaux de neurones comme des linguistes numériques qui consomment avidement des bibliothèques pour apprendre à exprimer les pensées de manière cohérente. Mais si vous regardez sous le capot d'un transformateur du point de vue des premiers principes, vous ne trouverez ni grammaire ni syntaxe au sens conventionnel. À la place, vous découvrirez un système extraordinairement complexe de traitement du signal.
C'est là que réside la grande ironie de l'industrie moderne de l'IA : nous avons construit des systèmes qui parlent comme des humains en utilisant des méthodes autrefois appliquées pour nettoyer l'audio du bruit ou transmettre des données par communication par satellite. Comprendre ce fait change tout — de la façon dont nous entraînons les modèles à la raison pour laquelle ils commencent soudainement à halluciner.
Tout texte pour un modèle commence par une discrétisation. Quand nous divisons une phrase en tokens, nous discrétisons essentiellement le flux continu de la pensée humaine. Imaginez cela comme la conversion d'un enregistrement analogique en fichier MP3. Chaque token devient un vecteur dans un espace multidimensionnel, mais ce n'est pas simplement un point. En architecture moderne, c'est un signal avec sa propre fréquence et sa propre phase. C'est ici que réside le secret du succès des transformateurs par rapport aux anciennes réseaux récurrents. Auparavant, nous tentions de transmettre l'information par une chaîne, comme dans le jeu du téléphone arabe, mais maintenant nous travaillons avec tout le spectre de données simultanément, en appliquant des filtres.
Une attention particulière doit être accordée à la façon dont les modèles comprennent l'ordre des mots. Dans les premières versions, c'était une solution de contournement, mais avec l'arrivée des Rotary Positional Embeddings (RoPE), tout a changé. Les ingénieurs ont effectivement intégré des principes trigonométriques dans les réseaux de neurones, où la position d'un mot dans une phrase est codée par rotation vectorielle.
C'est de la physique pure : nous modifions la phase du signal pour que le modèle comprenne la distance entre les concepts. Si vous comprenez comment la modulation de phase fonctionne dans votre routeur Wi-Fi, vous êtes déjà à mi-chemin pour comprendre comment GPT-4 saisit le contexte d'un long roman. Ce n'est pas la magie des associations, mais l'interférence mathématique d'ondes dans l'espace latent du modèle.
Le mécanisme Attention dans ce paradigme n'est pas une « attention » au sens humain, mais un filtre dynamique. Lorsque le modèle génère le token suivant, il passe tout le contexte précédent à travers un ensemble de filtres entraînables qui suppriment le bruit et amplifient le signal utile. Nous appelons cela « comprendre le contexte », mais pour le processeur, c'est une opération de produit scalaire qui extrait les harmoniques pertinentes du flux général.
Plus un modèle a de paramètres, plus les filtres qu'il peut ajuster sont étroits et précis. Cela explique pourquoi les petits modèles « déraillent » souvent dans leur logique : leurs filtres sont trop grossiers, ils laissent passer du bruit supplémentaire que nous interprétons comme des erreurs stupides.
Pourquoi cela importe-t-il maintenant ? Parce que nous avons atteint le plafond du pur dimensionnement des données. L'industrie commence à réaliser que simplement donner aux modèles plus de texte est un chemin aux rendements décroissants.
L'avenir réside dans l'optimisation du composant signal lui-même. Nous voyons émerger de nouvelles architectures, comme Mamba ou des solutions hybrides, qui tentent de traiter l'information encore plus efficacement qu'Attention standard. Elles travaillent avec les données comme des signaux continus, ce qui leur permet de « se souvenir » de séquences infiniment longues sans s'étouffer sous le volume de calcul.
Si nous apprenons à gérer ce signal aussi finement que les ingénieurs radio gèrent les ondes radio, le problème des hallucinations pourrait être résolu au niveau physique.
En fin de compte, le succès des LLM confirme une vieille vérité : les mathématiques sont universelles. Que vous analysiez l'activité sismique, codiez une vidéo ou tentiez d'apprendre à une machine à écrire de la poésie — les lois de propagation et de filtrage de l'information restent inchangées. Nous avons cessé d'enseigner aux machines le langage et avons commencé à leur enseigner la physique du champ d'information. Et à en juger par les résultats des benchmarks récents, c'était la décision la plus correcte dans toute l'histoire de l'informatique.
Devant nous se trouve une transition des tokens discrets vers des systèmes entièrement continus, où la frontière entre le texte, le son et la vidéo s'efface finalement, parce que tout cela deviendra un seul signal.
Le point clé : les LLM ne sont pas des philologues numériques, mais des processeurs de signal surpuissants. Si vous voulez comprendre où va l'IA, lisez les manuels d'ingénierie radio et de théorie de l'information, pas de linguistique.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.