Pourquoi les modèles OpenAI, Google et Anthropic deviennent plus convaincants mais commettent plus d'erreurs
Les modèles de raisonnement des grands laboratoires semblent plus intelligents, mais cela ne les rend pas plus précis. OpenAI, Google et Anthropic augmentent…
Traité par IA depuis Habr AI ; édité par Hamidun News
Le principal problème pour les plus grands laboratoires d'IA n'est pas que leurs modèles ne sonnent pas assez convaincants, mais que la confiance affichée masque de plus en plus souvent des erreurs de plus haut niveau. OpenAI, Google et Anthropic ont passé les deux dernières années à essayer de résoudre cela en augmentant le calcul durant l'inférence : ajouter des chaînes de raisonnement, des recherches multi-chemins, l'auto-vérification et plus de tokens par requête. De l'extérieur, cela ressemble à du progrès.
Mais si le modèle de base n'est pas devenu plus précis, la "réflexion" supplémentaire ne rend ses erreurs que plus cohérentes et plausibles. L'idée d'augmenter l'inférence semble logique. Si les modèles disposent de plus de temps et de plus d'étapes pour résoudre une tâche, ils devraient faire moins d'erreurs.
En pratique, cette approche a effectivement éliminé certaines défaillances superficielles : moins d'erreurs factuelles absurdes, moins de réponses qui s'effondrent au premier examen, moins d'échecs démonstratifs évidents. C'est pourquoi les modèles de raisonnement font une si forte impression : ils parlent de manière plus cohérente, structurent mieux les réponses et peuvent imiter un processus d'analyse prudent. Le problème est que la cohérence textuelle et la précision du résultat ne sont pas la même chose.
La différence est particulièrement marquée entre les hallucinations simples et profondes. Une hallucination simple est une date inventée, un nom confondu ou une référence inexistante. On peut encore la remarquer rapidement.
Une erreur structurelle profonde est plus dangereuse : le modèle prend une fausse prémisse, construit une longue chaîne logique dessus, ajoute un ton confiant, et livre une réponse complète et convaincante. L'utilisateur ne voit pas du chaos, mais un mensonge soigneusement emballé. Pour des tâches comme l'analyse, la préparation de documents, la programmation, la médecine ou le conseil juridique, ce type d'erreur est beaucoup plus risqué qu'une simple erreur aléatoire.
Sur ce fond, les chiffres semblent alarmants. Dans une comparaison récente de grands modèles OpenAI sur le benchmark SimpleQA, des taux d'hallucination autour de 50% ont été cités. Si chaque deuxième réponse à des questions factuelles simples s'avère fausse ou inventée, ce n'est plus un défaut cosmétique mais une vulnérabilité systémique.
Oui, tout benchmark a des limites : beaucoup dépend de la formulation, de la méthodologie d'évaluation et de la version spécifique du modèle. Mais la tendance elle-même est révélatrice. Les lancements deviennent plus éloquents et coûtent plus cher en calcul, tandis que la fiabilité fondamentale ne progresse pas au même rythme—et parfois semble même s'aggraver.
Pour les scénarios d'entreprise, c'est suffisant pour que les erreurs se glissent dans les présentations, rapports ou bases de code sans être détectées. La raison peut résider dans l'approche elle-même. Le calcul supplémentaire au stade de l'inférence ne crée pas de nouvelles connaissances et ne corrige pas les faiblesses des données d'entraînement.
Il force simplement le modèle à chercher plus longtemps des réponses dans l'espace de représentation déjà existant. Si la vision du monde sous-jacente du modèle est distordue, une longue chaîne de raisonnement ne la mènera pas nécessairement à la vérité. Au contraire, elle peut amplifier l'effet d'auto-confirmation : le modèle peut vérifier la même hypothèse incorrecte plusieurs fois en différentes formulations, rendant l'erreur encore plus convaincante.
Un paradoxe émerge : plus de calcul réduit la probabilité d'une erreur stupide mais augmente le risque d'une erreur élégante. Plus le système semble confiant, moins il y a de chances que l'utilisateur s'arrête à temps et vérifie la base du raisonnement. Cela conduit à une conclusion plus large pour le marché.
La menace pour les leaders de l'IA ne peut venir que d'un nouveau « super modèle », mais aussi d'équipes qui parviennent à construire des systèmes plus fiables sur les modèles : avec une récupération de qualité, une attribution de sources, un étalonnage de la confiance, des vérifications strictes des faits et une évaluation non seulement de la fluidité mais de la véracité. Le gagnant ne sera pas celui qui génère la réponse la plus longue, mais celui dont la réponse peut être fiable dans le travail réel. Si l'industrie continue à confondre persuasion et intelligence, la fenêtre d'opportunités pour les nouveaux acteurs s'est véritablement déjà ouverte.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.