Comment une unique instruction système transforme un LLM en outil fiable : tests sur Qwen et DeepSeek
Les hallucinations de LLM ne sont pas une condamnation. Un unique prompt système peut transformer un modèle d'un 'menteur confiant' en outil de travail…
Traité par IA depuis Habr AI ; édité par Hamidun News
Les grands modèles de langage mentent magnifiquement. Non pas parce qu'ils sont malveillants — simplement parce qu'ils sont entraînés à continuer du texte, non à dire la vérité. Là où un modèle manque de données nécessaires, il génère quelque chose de plausible et le présente avec la certitude d'un expert.
Pour les tâches appliquées — assistants d'entreprise, outils analytiques, systèmes d'aide à la décision — un tel comportement est inacceptable. Une erreur livrée avec confiance est pire qu'une erreur avec une réserve. L'auteur d'un article sur Habr a proposé une métaphore simple mais efficace : les LLM ont besoin d'un exosquelette.
Pas de fine-tuning, pas de tour de RLHF, pas d'entraînement coûteux — une seule instruction système qui établit au modèle des règles de comportement strictes dans les situations d'incertitude. Les tests ont été menés sur deux des modèles open source les plus populaires avec un fort support pour la langue russe : Qwen (série d'Alibaba) et DeepSeek — tous deux sont activement utilisés dans les produits russes précisément pour leur accessibilité et leur qualité. L'essence de l'"exosquelette" est d'empêcher le modèle d'être surconfiant là où il est incertain.
L'instruction système prescrit plusieurs règles clés. Première : reconnaître explicitement l'incertitude — ne pas la passer sous silence, mais dire directement « je ne sais pas » ou « je n'ai pas suffisamment de données ». Deuxième : clarifier la demande si elle est ambiguë, au lieu de choisir une interprétation et d'y répondre.
Troisième : distinguer clairement entre les faits dont le modèle est certain et ceux qu'il suppose simplement. Quatrième : refuser de répondre dans les domaines où le risque d'erreur est élevé et où il n'y a aucun moyen de vérifier l'information au sein du modèle lui-même. En théorie, cela semble trivial.
En pratique — ça marche. Après l'ajout de l'instruction, Qwen et DeepSeek ont commencé à bien plus souvent reconnaître les limites de leurs connaissances : dans les scénarios de test avec un contexte intentionnellement insuffisant ou contradictoire, les modèles ont cessé « d'inventer » et ont commencé à demander des clarifications ou à marquer explicitement l'incertitude. Le niveau d'hallucinations confiantes dans ces scénarios a diminué sensiblement.
Pourquoi ce n'est pas évident ? Parce que par défaut, les LLM sont entraînés à fournir une réponse complète et confiante — précisément pour cela ils ont reçu des notes élevées au RLHF. Un évaluateur humain préfère instinctivement un texte élaboré et confiant à un simple « je ne sais pas ».
Le modèle a appris cette préférence. En conséquence, il a un comportement intégré directement opposé à ce qui est nécessaire en production réelle, où le coût d'une erreur se mesure en réputation ou en argent. Une instruction système est un moyen de réécrire ce comportement sans modifier les poids du modèle.
Essentiellement, nous imposons l'humilité épistémologique au modèle de l'extérieur. D'où la métaphore de l'exosquelette : le modèle lui-même ne change pas en interne, mais autour de lui émerge une structure de comportement rigide qui dirige les réactions dans la bonne direction. Une nuance importante : l'instruction doit être concrète, non déclarative.
« Soyez précis et honnête » ne fonctionne pas — le modèle se considère déjà précis et honnête. Ce qui fonctionne, ce sont des situations spécifiques : si la demande manque de contexte suffisant — posez une question de clarification ; si vous n'êtes pas certain d'un fait — indiquez-le explicitement et expliquez pourquoi ; si la question sort de vos données — dites-le directement. Chaque règle décrit un déclencheur spécifique et une action spécifique en réponse à celui-ci.
Les développeurs craignent souvent que les restrictions réduisent l'utilité du modèle. Les tests n'ont montré aucun tel effet. Dans les scénarios avec un contexte suffisant, les modèles ont fonctionné aussi bien qu'sans l'instruction.
La restriction n'a été activée que là où les données manquaient vraiment — exactement ces cas où le modèle avait l'habitude d'halluciner. Pour les équipes qui construisent des outils internes sur les LLM — bases de connaissances d'entreprise, assistants analytiques, systèmes de gestion de documents — c'est un résultat pratiquement applicable maintenant. Pas besoin d'attendre la prochaine version du modèle, d'allouer un budget pour le fine-tuning ou de changer l'architecture.
Il suffit d'écrire correctement l'invite du système — et le modèle commence à se comporter de la manière dont l'entreprise a besoin, pas de la manière dont il a été entraîné à plaire à des évaluateurs aléatoires.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.