Habr AI→ original

Mur pour LLM : pourquoi les sceptiques ont à nouveau tort de critiquer

Tous les six mois, l'industrie de l'IA entre dans une période de "grand désenchantement". D'abord on nous a dit que le GPT-3 était la limite et qu'il n'y…

Traité par IA depuis Habr AI ; édité par Hamidun News
Mur pour LLM : pourquoi les sceptiques ont à nouveau tort de critiquer
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Tous les six mois, l'industrie de l'IA entre dans une période de "grand désenchantement". D'abord on nous a dit que le GPT-3 était la limite et qu'il n'y avait nulle part où aller. Ensuite on nous a assuré que l'étape suivante nécessite des trilliards de tokens qui n'existent simplement pas sur internet.

Maintenant une nouvelle tendance : les données sont épuisées, l'architecture des transformers a usé ses dernières forces, c'est le moment d'arrêter. Cela semble solide et même logique si vous regardez le monde par un trou de serrure. Mais si vous avez suivi le jeu plus longtemps qu'un cycle de hype, vous comprenez — nous n'avons pas heurté un mur, nous venons simplement d'arriver à la fin d'une ligne droite et nous entrons dans une autoroute à grande vitesse.

Le problème avec les sceptiques, c'est qu'ils pensent de manière unidimensionnelle. Pour eux, le progrès signifie verser plus de texte dans un modèle et obtenir plus d'intelligence. Oui, les données textuelles pour l'apprentissage supervisé classique s'épuisent vraiment. Internet entier a déjà été "digéré" par les réseaux de neurones. Mais l'apprentissage à partir des données n'est que l'un des six axes selon lesquels se fait le progrès. Pendant que quelqu'un pleure sur les bibliothèques vides, les ingénieurs chez OpenAI, Google et Anthropic actionent vigoureusement les cinq autres leviers, que l'on oublie curieusement dans les discussions publiques.

Le premier et sans doute le plus important levier aujourd'hui est le calcul au moment de l'inférence, ou inference-time compute. Regardez les modèles de la famille o1. Ils ne font pas juste produire une réponse, ils "réfléchissent" avant d'écrire la première lettre. Cela change le paradigme : maintenant vous n'avez pas nécessairement besoin de rendre un modèle dix fois plus grand pour le rendre plus intelligent. Vous pouvez le faire réfléchir plus longtemps sur la tâche. C'est comme dans la vie : une personne intelligente n'est pas celle qui a lu le plus de livres, mais celle qui sait analyser profondément les informations. Nous passons de la quantité de lecture à la qualité de la compréhension.

Le deuxième axe est l'efficacité algorithmique. Vous rappelez-vous comment tout le monde se plaignait de la voracité des transformers ? Maintenant des architectures comme Mamba et Mixture of Experts (MoE) entrent en scène.

Elles offrent la même puissance avec beaucoup moins de coût de ressources. Nous apprenons à construire des moteurs plus sophistiqués plutôt que simplement d'augmenter la taille du réservoir à essence. Ajoutez à cela le troisième axe — la multimodalité.

Les modèles cessent d'être simplement des "lecteurs de texte". Ils commencent à voir, entendre et comprendre le monde physique. Quand l'IA apprend à partir de vidéo et d'audio, le concept de "le texte est fini" perd tout sens.

Le monde est un flux infini de données que nous commençons à peine à explorer.

Le quatrième et cinquième facteurs sont l'utilisation d'outils et l'amélioration continue via l'auto-jeu. Rappelez-vous comment AlphaGo a vaincu le champion du monde de Go. Il n'a pas appris seulement à partir de jeux humains, il a joué contre lui-même des millions de fois. Maintenant cette approche arrive aux LLMs. Les modèles commencent à générer des données synthétiques, à les vérifier pour la logique et à apprendre de leurs propres erreurs. Si l'IA peut créer des tâches et les résoudre elle-même, elle n'a plus besoin des humains comme seule source de connaissance. Cela ferme la boucle d'apprentissage et la rend pratiquement infinie.

Nous sommes à un point où les anciennes métriques de progrès — le nombre de paramètres et le volume de l'ensemble de données — cessent d'être primaires. Une ère de flexibilité architecturale et de profondeur intellectuelle est arrivée. Ceux qui aujourd'hui crient sur la "technologie épuisée" n'ont simplement pas remarqué que les règles du jeu ont changé. Nous n'avons pas atteint le plafond, nous venons simplement de terminer la fondation et commençons à construire les étages. Et à en juger par le rythme de déploiement des agents et des outils, ces étages vont croître beaucoup plus vite que quiconque ne l'attendait.

L'essentiel : Oubliez la "pénurie de données". La véritable bataille maintenant est de savoir qui apprendra au modèle à penser plus longtemps et de manière plus efficace, pas qui le nourrira de plus de téraoctets de Reddit.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…