Habr AI→ original

BPE vs morphèmes : pourquoi votre IA ne sait toujours pas lire

Imaginez apprendre une langue étrangère, mais votre manuel est découpé en morceaux de papier aléatoires. Au lieu d'apprendre la racine « ход » et de…

Traité par IA depuis Habr AI ; édité par Hamidun News
BPE vs morphèmes : pourquoi votre IA ne sait toujours pas lire
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Imaginez apprendre une langue étrangère, mais votre manuel est découpé en morceaux de papier aléatoires. Au lieu d'apprendre la racine « ход » et de comprendre des dizaines de mots de « выхода » à « перехода », vous êtes forcé de mémoriser chaque combinaison de lettres comme un hiéroglyphe unique. C'est ainsi que voient le monde les modèles de langage les plus avancés d'aujourd'hui.

Tandis que nous nous émerveillons des capacités du GPT-4 ou de Claude 3, leur fondement contient une bombe à retardement architecturale appelée BPE ou Byte Pair Encoding. Cet algorithme est devenu la norme de l'industrie en 2016, et presque personne ne l'a remis en question depuis. Le problème est que BPE est un mathématicien sociopathe qui se fout complètement de la linguistique.

Il découpe le texte en tokens en se basant uniquement sur la fréquence des caractères. En résultat, le mot « paratrooper » devient une séquence dénuée de sens de « par », « atro » et « oper » pour le modèle. Le modèle gaspille des milliards de cycles informatiques et de vastes portions de ses paramètres simplement en reconstituant les connexions logiques entre ces fragments que votre cerveau lit instantáneement.

Pendant longtemps, on a cru que si vous alimentiez un réseau de neurones avec suffisamment de données, il apprendrait les règles de grammaire et de morphologie par lui-même. Et il les apprend, mais le fait de manière extrêmement inefficace. Un groupe de chercheurs a décidé de tester ce qui se passerait s'ils réintroduisaient le bon sens et la structure linguistique dans le processus d'entraînement.

Ils ont testé des approches MorphBPE et MorphPiece, qui forcent le tokeniseur à respecter les limites des morphèmes : préfixes, racines et suffixes. Les résultats ont été édifiants pour les dévots de la « mathématique pure ». Les modèles utilisant la tokenisation morphologique montrent une amélioration de 25% en précision au test LAMBADA, qui mesure la capacité à prédire le dernier mot d'une phrase.

Mais ce qui est encore plus important est la vitesse de convergence : ces réseaux s'entraînent deux fois plus vite. Dans une expérience, un modèle qui a complété seulement 200 000 étapes d'entraînement avec une tokenisation appropriée a égalé la qualité des réponses de GPT-2 Large, qui est six fois plus grande en termes de paramètres. C'est un signal direct au marché : nous pouvons obtenir les mêmes résultats sur un matériel beaucoup moins cher si nous arrêtons d'alimenter les algorithmes avec de la « purée de mots ».

Pourquoi OpenAI, Google et Anthropic ne sont-ils pas encore passés à cette méthode ? La réponse réside dans l'inertie et la complexité de la mise en œuvre pour les systèmes multilingues. BPE est universel — peu importe que vous le nourrissiez avec du texte anglais, du code Python ou des caractères chinois.

L'analyse morphologique nécessite une personnalisation pour chaque langue spécifique, ce qui complique le pipeline de préparation des données. Cependant, la crise actuelle des coûts de formation et la pénurie de textes de qualité poussent les ingénieurs à chercher de nouveaux chemins d'optimisation. Quand le coût de la formation d'un modèle phare dépasse des centaines de millions de dollars, économiser 50% du temps de convergence devient une question de survie commerciale.

De plus, l'approche morphologique résout le problème des mots rares et des néologismes. Si un modèle comprend la signification des morphèmes, il peut logiquement déduire la signification d'un mot qu'il voit pour la première fois, au lieu de deviner en se basant sur des combinaisons de tokens.

Nous assistons maintenant à un retour silencieux de la linguistique classique à l'ère du battage médiatique des réseaux de neurones. Il devient évident que la mise à l'échelle illimitée « brutale » en augmentant le nombre de GPU est une impasse. L'avenir réside dans les solutions hybrides, où une compréhension profonde de la structure du langage à l'entrée libère le modèle du besoin de réinventer la roue dans ses couches.

Très probablement, dans l'architecture du GPT-5 ou de ses successeurs, nous verrons l'abandon du BPE primitif en faveur de systèmes de segmentation de texte plus intelligents. Ceci n'est pas simplement un détail technique, mais un changement fondamental dans la façon dont les machines perçoivent la culture humaine codée dans les mots. Tandis que les chercheurs affinent les algorithmes MorphPiece et Unigram avec des améliorations morphologiques, les développeurs doivent se préparer au fait que les anciennes méthodes de préparation des ensembles de données seront bientôt envoyées aux poubelles de l'histoire.

L'essentiel : Utiliser des morphèmes au lieu de syllabes aléatoires rend les modèles plus intelligents et deux fois moins chers à entraîner. L'industrie est-elle prête à admettre que les linguistes avaient raison depuis le début, ou allons-nous continuer à brûler de l'électricité en essayant d'apprendre à l'IA à lire syllabe par syllabe ?

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…