Habr AI→ original

Pourquoi ChatGPT Oublie : Explication de la Fenêtre de Contexte des Modèles de Langage

Après une heure de conversation avec ChatGPT, le modèle oublie soudainement le nom du personnage du premier message et redemande ce qui a déjà été convenu…

Traité par IA depuis Habr AI ; édité par Hamidun News
Pourquoi ChatGPT Oublie : Explication de la Fenêtre de Contexte des Modèles de Langage
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Après une heure de travail avec ChatGPT, le modèle oublie soudainement les détails des premiers messages — se contredit lui-même, repose des questions sur ce qui a déjà été convenu. Ce n'est pas un dysfonctionnement : c'est ainsi que fonctionne la fenêtre de contexte, et comprendre ce mécanisme est important pour quiconque utilise l'IA dans son travail.

Qu'est-ce qu'une fenêtre de contexte

Un modèle de langage ne « se souvient » pas d'une conversation au sens humain. Il traite le texte comme un bloc unique — le contexte. Une fenêtre de contexte est le volume maximal de texte qu'un modèle peut considérer dans une seule requête. L'unité de mesure est un token : environ 3–4 caractères en anglais ou 1–2 mots en russe.

Les modèles modernes fonctionnent avec des fenêtres de capacités différentes :

  • GPT-4o — jusqu'à 128 000 tokens (environ 96 000 mots)
  • Claude 3.7 Sonnet — jusqu'à 200 000 tokens
  • Gemini 1.5 Pro — jusqu'à 2 000 000 tokens
  • Llama 3 — de 8 000 à 128 000 tokens selon la version

Même 128 000 tokens représentent environ 300 pages de texte. Cela semble beaucoup, mais dans les sessions de travail réelles — avec une base de code, des documents et un dialogue prolongé — cette limite est atteinte plus rapidement qu'il n'y paraît.

Pourquoi le modèle « oublie »

Quand une conversation dépasse la fenêtre de contexte, le modèle n'« oublie » pas — il ne voit simplement pas les anciens messages. Ils sont techniquement absents des données d'entrée de la requête.

La plupart des services résolvent ce problème de l'une des deux manières suivantes.

Troncature : les messages les plus anciens sont supprimés du contexte. Le modèle continue de répondre, mais sans accès au début de la conversation. C'est ainsi que fonctionne la plupart des interfaces de chat par défaut.

Résumé : au lieu des N premiers messages, un bref résumé généré par le modèle lui-même est fourni au contexte. Les détails sont perdus, mais le fil général est préservé.

Il existe aussi une troisième approche — RAG (Retrieval-Augmented Generation) : les informations importantes sont stockées dans une base de données externe et chargées dans le contexte uniquement si nécessaire. C'est ainsi que fonctionnent les systèmes d'IA plus complexes et les solutions d'entreprise.

Perte au milieu : un problème caché

Le problème ne concerne pas seulement le débordement du contexte. La qualité des réponses se dégrade même avant que le contexte ne soit épuisé. Les chercheurs de Stanford et Berkeley en 2023 ont décrit le phénomène « perte au milieu » (lost in the middle) : les modèles utilisent considérablement mieux les informations du début et de la fin du contexte. Les données qui se trouvent au milieu sont traitées moins bien — le modèle semble ne pas les « remarquer ».

«

Les modèles de langage ont tendance à moins bien utiliser les informations pertinentes lorsqu'elles se trouvent au milieu d'un long contexte », — de la recherche Lost in the Middle, 2023.

Conclusion pratique : les instructions clés sont mieux données au début ou à la fin de la requête, plutôt que d'être enfouies au milieu d'un long document.

Comment travailler avec cette limitation

Plusieurs stratégies pratiques :

  • Divisez les tâches — au lieu d'une gigantesque session, divisez le travail en sessions avec des résumés intermédiaires clairs
  • Placez les informations importantes au début — le prompt système et les contraintes clés fonctionnent mieux au début du contexte
  • Utilisez des modèles avec des fenêtres plus grandes — pour les documents volumineux, choisissez Gemini 1.5 Pro (2M tokens) ou Claude avec 200K
  • Résumez vous-même — avant une nouvelle session, demandez au modèle de résumer la précédente et enregistrez ce texte
  • Estimez la longueur à l'avance — 1 page de texte ≈ 500 tokens, 1 fichier de code ≈ 1 000–5 000 tokens

Ce que cela signifie

Une fenêtre de contexte n'est pas une nuance technique, mais un paramètre central de tout travail avec les modèles de langage. Comprendre cette limitation vous permet de ne pas attribuer le comportement « étrange » du modèle à un dysfonctionnement, mais d'organiser correctement vos sessions de travail. La course aux contextes plus grands continue : les fournisseurs se font concurrence pour augmenter les limites, mais la question d'ingénierie « ce que le modèle voit maintenant » reste clé depuis longtemps.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…