304 LLM chinois : pourquoi parmi des centaines de réseaux de neurones ils n'ont pas trouvé de roi
Vous souvenez-vous des jours où chaque nouvelle annonce en provenance de la Chine s'accompagnait de cris sur la "mort du GPT-4" ? Eh bien, la poussière est…
Traité par IA depuis Jiqizhixin (机器之心) ; édité par Hamidun News
Vous souvenez-vous des jours où chaque nouvelle annonce en provenance de la Chine s'accompagnait de cris sur la "mort du GPT-4" ? Eh bien, la poussière est retombée un peu, et les chercheurs ont décidé de mener un inventaire à grande échelle de ce que la fameuse "bataille des mille modèles" a réellement engendré. Les résultats se sont avérés dégrisants.
Après avoir testé 304 grands modèles de langage chinois, il s'avère qu'il n'y a pas de leader universel sur le marché. Un modèle excelle à écrire du code, le second se fait passer magistralement pour un poète, et le troisième se débrouille plutôt bien en logique, mais personne n'a encore réussi à combiner tout cela dans une seule "bouteille". Nous observons une situation où la quantité s'est transformée en tout, sauf en qualité.
Le problème principal n'est pas même que les modèles ne soient pas assez intelligents. L'industrie a rencontré ce qu'on appelle un "goulot d'étranglement d'évaluation". Quand vous avez trois cents réseaux de neurones dans votre pays, vérifier chacun pour son adéquation devient une tâche d'envergure épique.
Les benchmarks traditionnels ont depuis longtemps été compromis : les développeurs "trichent" simplement en cherchant les réponses dans les tests et entraînent leurs modèles sur elles. Pour obtenir un résultat honnête, vous avez besoin de vraies personnes ou de vérifications en cascade complexes, et cela coûte des sommes astronomiques. À un moment donné, le processus d'audit de l'IA a commencé à coûter aux entreprises presque autant que la location des cartes graphiques pour l'entraînement.
Sur ce fond, la solution de l'équipe ReLE ressemble à une tentative de sauver les budgets des capitalistes-risqueurs. Ils ont proposé l'architecture Reinforcement Learning from Evaluation. Sans entrer dans les détails des formules, c'est un moyen d'optimiser le processus de test lui-même.
Au lieu d'exécuter un modèle à travers des milliers de questions similaires, le système apprend à sélectionner uniquement les tâches les plus informatives et les plus difficiles. C'est comme si lors d'un examen un professeur vous posait immédiatement trois des questions les plus délicates au lieu de vous torturer pendant trois heures sur tout le programme. Le résultat est le même, mais vous dépensez 70% de moins en temps et en ressources.
Pourquoi est-ce important pour nous ? Le marché de l'IA chinois a toujours été un reflet hypertrophié des tendances mondiales. S'ils ont commencé à se plaindre massivement des coûts d'évaluation, cela signifie que bientôt ce problème frappera aussi les startups occidentales.
Nous entrons dans une ère où l'"efficacité" devient plus importante que la "puissance". Les investisseurs ne veulent plus entendre parler du nombre de billions de paramètres que vous avez fourrés dans votre modèle. Ils veulent savoir comment vous envisagez de prouver sa viabilité sans dépenser toute votre prochain tour de financement pour cela.
C'est aussi intéressant de voir comment le paysage du développement change. Tandis que des géants comme Baidu ou Alibaba tentent de construire ces systèmes universels, les petites équipes trouvent le salut dans la spécialisation étroite. La recherche a montré que les modèles spécialisés surpassent souvent les "généralistes" dans leurs créneaux tout en nécessitant des dizaines de fois moins de ressources.
Cela remet en question le concept même de créer un réseau de neurones qui ferait à la fois du borsch et enverrait des fusées dans l'espace. Peut-être que l'avenir réside non pas en un roi, mais en un conseil harmonieux de ministres. Le point principal : l'ère de la mise à l'échelle insensée arrive à sa fin.
Maintenant, le gagnant sera non pas celui qui entraîne le plus grand modèle, mais celui qui apprend le plus rapidement et le moins cher à séparer le bon grain de l'ivraie. ReLE deviendra-t-il un nouveau standard de l'industrie ou n'est-ce qu'un patch temporaire sur un marché gonflé ?
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.