Fenêtre de Contexte des LLM : Pourquoi les Réseaux de Neurones Oublient des Parties de Votre Conversation

Q: Quelle est la source ?

Publication originale sur Habr AI. Hamidun News traite et adapte les contenus avec l'IA.

Q: Quand a-t-il été publié ?

15 juin 2026. Temps de lecture : 3 min.

Les LLMs ne conservent pas la mémoire entre les requêtes — à chaque nouveau message, le modèle relit toute la conversation à partir de zéro. Cette 'boîte de…

Rédaction de Hamidun News

Veille IA · Habr AI

15 juin 2026· 2 min

Traité par IA depuis Habr AI ; édité par Hamidun News

Fenêtre de Contexte des LLM : Pourquoi les Réseaux de Neurones Oublient des Parties de Votre Conversation — Source : Habr AI. Collage: Hamidun News.

◐ Écouter l'article

Les LLM ne fonctionnent pas comme un humain avec une mémoire — mais comme un expert qui relit l'ensemble de la correspondance de zéro à chaque fois et ne formule une réponse qu'ensuite. C'est précisément la caractéristique architecturale clé des réseaux neuronaux modernes qui confond souvent les nouveaux utilisateurs.

Pourquoi le modèle « oublie »

Lorsque vous envoyez un nouveau message à un chat avec l'IA, le modèle ne « se souvient » pas de la réponse précédente au sens conventionnel. Il n'a pas de mémoire opérationnelle comme un ordinateur, ni de mémoire à long terme comme un humain. Chaque fois que vous écrivez quelque chose de nouveau, le modèle reçoit l'ensemble du dialogue en entrée — du premier message au dernier — et le retraite à nouveau pour formuler une réponse.

Cette « boîte » limitée qui contient l'ensemble de la conversation s'appelle la fenêtre de contexte. Sa taille est mesurée en tokens — unités de texte qui correspondent à peu près à 0,75 mot chacune. Plus la conversation est longue, plus elle occupe de tokens — et plus elle se rapproche de la limite.

Ce qui se passe à la limite

La fenêtre de contexte n'est pas infinie, et chaque modèle a son propre plafond. Voici à quoi ressemblent les limites pour les solutions populaires :

GPT-4o — 128.000 tokens (environ 96.000 mots)
Claude 3.5 Sonnet — 200.000 tokens (environ 150.000 mots)
Gemini 1.5 Pro — jusqu'à 1.000.000 de tokens
Anciens modèles (GPT-3) — seulement 4.000 tokens

Lorsque le dialogue atteint la limite, les anciennes parties « disparaissent » littéralement : le modèle cesse de les voir. Si au début d'une longue session vous aviez écrit « je m'appelle Andrei » ou fourni un contexte clé de la tâche, et que vous aviez poursuivi la conversation pendant plusieurs heures supplémentaires — à la fin, l'IA « ne se souviendra » probablement pas de ces détails. Ce n'est pas un bug ni une inattention. C'est des mathématiques : l'information a simplement dépassé la fenêtre.

Comment les développeurs combattent cela

Pour masquer cette limitation aux utilisateurs ou du moins l'atténuer, les développeurs ajoutent plusieurs couches de logique au-dessus des LLM de base. Pour l'utilisateur moyen, elles sont invisibles — mais ce sont elles qui rendent le travail avec l'IA plus confortable.

Résumé. Le système compresse automatiquement les anciennes parties du dialogue, préserve les faits clés sous une forme compacte et libère les tokens pour les nouveaux messages. Les utilisateurs ne le remarquent généralement pas.

Mémoire vectorielle. Les faits importants de la conversation sont stockés dans une base de données séparée et récupérés selon les besoins. C'est ainsi que fonctionnent les systèmes RAG (Retrieval-Augmented Generation) : ils extraient le contexte nécessaire au bon moment, sans remplir constamment la fenêtre.

Prompt système. Une partie de la fenêtre de contexte est réservée à l'avance — pour les instructions permanentes, le profil utilisateur et les faits de la tâche. Cette partie n'est pas déplacée par l'historique du dialogue.

Mise en cache. Certains fournisseurs mettent en cache une partie du contexte côté serveur, pour que les mêmes données n'aient pas besoin d'être transmises à chaque requête. Cela réduit les coûts de calcul et accélère légèrement la réponse.

«

La fenêtre de contexte n'est pas un bug, c'est une décision architecturale clé des transformers, » expliquent les ingénieurs ML, en ajoutant : la complexité quadratique des opérations d'attention signifie que doubler la fenêtre quadruple les coûts de calcul.

Ce que cela signifie

Comprendre la fenêtre de contexte explique de nombreuses « bizarreries » dans le comportement de l'IA : pourquoi le modèle oublie les détails vers la fin d'un long dialogue, pourquoi il ne voit qu'un fragment d'un grand document, pourquoi les agents ont besoin d'un système de mémoire séparé. C'est une limitation architecturale fondamentale — et l'industrie apprend activement à y faire face : agrandir les fenêtres, ajouter de la mémoire externe, explorer de nouvelles architectures comme Mamba. Pour l'instant, la fenêtre de contexte reste l'un des principaux compromis du monde des LLM.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite