Un vétéran de Microsoft a exécuté un transformer sur un PDP-11 à 6 MHz avec 64 Ko de mémoire

Q: Quelle est la source ?

Publication originale sur 3DNews AI. Hamidun News traite et adapte les contenus avec l'IA.

Q: Quand a-t-il été publié ?

2 mai 2026. Temps de lecture : 3 min.

Dave Plummer, ancien développeur de Microsoft, a exécuté un petit transformer appelé Attention 11 sur le mini-ordinateur PDP-11. Cette machine des années…

Rédaction de Hamidun News

Veille IA · 3DNews AI

2 mai 2026· 3 min

Traité par IA depuis 3DNews AI ; édité par Hamidun News

Un vétéran de Microsoft a exécuté un transformer sur un PDP-11 à 6 MHz avec 64 Ko de mémoire — Source : 3DNews AI. Collage: Hamidun News.

◐ Écouter l'article

Le vétéran de Microsoft Dave Plummer a démontré qu'un transformateur peut non seulement être expliqué avec des gestes de la main, mais aussi être exécuté littéralement sur du matériel de la fin des années 1970. Son expérience avec le miniordinateur PDP-11 fonctionnant à 6 MHz et 64 Ko de RAM réduit la conversation sur l'IA à une image concrète : l'entraînement est beaucoup d'arithmétique, de répétition et d'optimisation soigneuse.

Ordinateur Ancien, Tâche Nouvelle

Le vétéran de Microsoft Dave Plummer est connu comme développeur qui a auparavant participé à la création de composants importants de Windows. Dans sa nouvelle vidéo, il s'est lancé non pas dans un tour nostalgique pour des likes, mais dans une démonstration des principes fondamentaux des modèles modernes. Au centre de l'expérience se trouve un système PDP-11 vieux de 47 ans, une machine d'une époque où personne ne rêvait même de grands modèles de langage. C'est le contraste qui rend le projet convaincant : si une version réduite d'un transformateur peut être entraînée sur un tel appareil, alors l'idée centrale est bien plus simple qu'elle ne le paraît sur fond de centres de données et de budgets d'un milliard.

Le modèle Attention 11 s'exécutait sur le PDP-11, écrit en assembleur PDP-11 par le développeur Damien Bouré. Sa tâche semblait modeste à première vue : prendre une séquence de huit nombres et la produire dans l'ordre inverse. L'essentiel ici est non pas de mémoriser quelques exemples, mais de saisir la règle qui fonctionnera sur les nouvelles données d'entrée. C'est là que Plummer met l'accent : même dans un scénario aussi basique, le modèle doit apprendre la structure, et non pas simplement deviner la réponse suivante selon un motif.

Comment Ils Ont Réduit le Modèle

Pour que cette expérience ait une chance de fonctionner, les développeurs ont dû comprimer sévèrement l'architecture. Attention 11 n'est pas une mini-copie de ChatGPT, mais un transformateur monocouche avec un mécanisme d'attention unique, affiné à un état de minimalisme d'ingénierie. Le modèle a seulement 1216 paramètres. Au lieu des arrays de mémoire et des accélérateurs typiques des projets d'IA modernes, l'arithmétique en virgule fixe a été utilisée ici, et la propagation avant a été réduite à une précision de 8 bits. C'est essentiellement un squelette pédagogique d'un transformateur, gardant seulement ce qui est nécessaire pour démontrer le processus réel d'entraînement.

1216 paramètres au lieu de milliards
arithmétique en virgule fixe
précision de 8 bits pour la propagation avant
optimisation de presque chaque cycle processeur
la tâche nécessite la découverte de règles, pas la mémorisation d'exemples

Pourtant, même avec de telles contraintes, le résultat était loin d'être décoratif. Plummer a rapporté que le modèle a atteint 100% de précision en environ 350 étapes d'entraînement. Sur un système PDP-11/44 avec une carte de cache, cela a pris environ trois minutes et demie. Par rapport aux GPU modernes, c'est certes une vitesse de niveau musée. Mais pour une machine de 6 mégahertz avec 64 Ko de RAM, le simple fait d'un entraînement complet réussi compte plus que le temps absolu : l'expérience prouve que les principes des transformateurs ne nécessitent pas de magie, seulement des ressources et une bonne ingénierie.

Pas de la Magie, mais des Mathématiques

L'objectif principal de ce projet n'était pas de trouver un remplacement pratique utile pour les modèles modernes. Plummer a essayé de montrer quelque chose de moins romantique : à la base de l'IA, il n'y a pas de feu sacré. Il y a un cycle d'erreurs, de corrections et d'itérations, où les poids s'ajustent graduellement à la tâche. C'est pourquoi sa démonstration fonctionne comme un antidote à la mystification des réseaux de neurones. Elle supprime la couche de marketing et laisse la mécanique brute, qui peut être observée presque image par image.

"De deviner à savoir."

C'est ainsi que Plummer décrit le moment où le modèle cesse de trébucher et commence à appliquer constamment la règle qu'il a découverte. C'est l'effet le plus intéressant de l'expérience : le spectateur voit non pas une réponse intelligente toute faite, mais la naissance d'une capacité par le biais de corrections successives. Sur fond de discussions sur l'AGI, cela semble sobriquet. Les systèmes modernes impressionnent non pas parce qu'ils violent les lois du calcul, mais parce que le même mécanisme s'exécute à une échelle colossale—sur des données, des modèles et des grappes de calcul incomparablement plus grands.

Ce Que Cela Signifie

L'expérience PDP-11 ne prouve pas que ChatGPT peut être porté sur un rétro-ordinateur. Au lieu de cela, elle démontre clairement autre chose : les idées fondamentales des transformateurs sont suffisamment compactes pour être comprises, reproduites et entraînées même sur du matériel ancien. Pour le marché, c'est un autre argument en faveur de modèles petits efficaces et d'une optimisation soigneuse, surtout maintenant que le coût de calcul devient un facteur compétitif distinct.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite