EMNLP 2025: pourquoi les réseaux de neurones se vérifient maintenant eux-mêmes (et pourquoi c'est difficile)
Imaginez que vous ayez écrit une rédaction complexe, mais au lieu d'être corrigée par une professeure stricte au stylo rouge, elle l'est par un camarade un…
Traité par IA depuis Habr AI ; édité par Hamidun News
Imaginez que vous ayez écrit une rédaction complexe, mais au lieu d'être corrigée par une professeure stricte au stylo rouge, elle l'est par un camarade un peu plus instruit. C'est à peu près à cela que ressemble actuellement l'industrie de la traduction automatique. La conférence EMNLP 2025 à Miami a confirmé une fois de plus la principale tendance des dernières années : nous avons complètement délégué l'évaluation des réseaux de neurones à d'autres réseaux de neurones.
Alors que l'évaluation de la qualité de la traduction nécessitait autrefois des foules de linguistes et d'experts, ce processus repose désormais sur les épaules de grands modèles de langage. Ce n'est pas seulement une question d'économies ; c'est une question de survie dans un monde où il y a trop de données pour la perception humaine.
L'équipe de Yandex n'est pas venue à la conférence en tant que simples auditeurs. Ils ont apporté deux travaux sérieux qui montrent comment l'approche de l'évaluation des textes change. Katya Enikeeva, qui dirige l'analytique de traduction, souligne une nuance importante : enseigner à un modèle à traduire n'est que la moitié de la bataille.
Il est beaucoup plus difficile de lui apprendre à comprendre exactement où il a fait une erreur. Cela nécessite un niveau complètement différent de réflexion de la part d'un LLM. Le modèle doit jouer le rôle d'un critique qui voit non seulement la grammaire, mais aussi les distorsions de sens, la perte de style ou un ton inapproprié.
De telles solutions déterminent désormais comment la traduction vidéo fonctionnera de manière transparente dans votre navigateur ou la recherche sur des sites étrangers.
Pourquoi cela est-il important maintenant ? Nous avons atteint le plafond des métriques classiques. Les anciens et bons algorithmes comme BLEU, qui comparaient simplement le nombre de mots identiques dans l'original et la traduction, ne fonctionnent plus.
Ils ne comprennent pas l'ironie, ne voient pas le contexte et donnent facilement des notes élevées à des textes qui déforment complètement le sens. Ils sont remplacés par des pipelines complexes où un modèle analyse la source, un deuxième analyse le résultat et un troisième rend le verdict. Cela crée une sorte d'écosystème intellectuel où la qualité s'améliore grâce à un audit interne constant.
À EMNLP 2025, il est devenu clair que ceux qui ne parviendront pas à construire de tels systèmes d'évaluation prendront irrémédiablement du retard dans la course à la qualité de la génération.
Yandex a présenté ses travaux dans deux sections clés : les Findings de la conférence principale et lors de l'atelier WMT. C'est une reconnaissance par la communauté mondiale que les ingénieurs russes établissent le standard dans l'un des domaines les plus complexes — l'évaluation automatique de la qualité. Il est important de comprendre qu'il y a des choses tout à fait pratiques derrière les noms académiques des articles.
Lorsque vous ouvrez une page en chinois et une seconde plus tard lisez un texte cohérent en russe, il y a derrière cela non seulement un puissant modèle de traduction, mais un système de contrôle encore plus puissant qui en temps réel filtre les hallucinations et les erreurs. Sans ce contrôle, nous lirions toujours des traductions « surhumaines » du début des années 2000.
L'industrie se dirige vers l'automatisation complète du cycle d'apprentissage. Dans un monde idéal (qui a presque déjà commencé), un modèle génère des données, un autre les évalue, et sur la base de cette évaluation, le premier modèle est réentraîné. Les humains ne restent ici que dans le rôle de juge suprême qui établit les règles générales du jeu.
Cependant, cela cache le piège principal : si le modèle d'évaluation commence à faire des erreurs ou à récompenser des « beaux mensonges », tout le système s'effondrera. Le problème des hallucinations lors de l'évaluation — c'est le prochain grand défi dont on a beaucoup parlé dans les couloirs de la conférence. Nous enseignons aux réseaux de neurones à être des critiques honnêtes, mais ils essaient toujours d'être simplement des partenaires de conversation pratiques.
L'essentiel : l'ère de l'étiquetage manuel des données est officiellement devenue un passe-temps élitiste et très coûteux. L'avenir réside dans les métriques automatiques basées sur les LLM, et le travail de Yandex à EMNLP 2025 montre que nous sommes à l'avant-garde de ce processus. Les critiques de réseaux de neurones pourront-ils surpasser les humains dans la compréhension du contexte déjà cette année ?
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.