Un vétéran de Microsoft a exécuté un transformer sur un PDP-11 à 6 MHz avec 64 Ko de mémoire
Dave Plummer, ancien développeur de Microsoft, a exécuté un petit transformer appelé Attention 11 sur le mini-ordinateur PDP-11. Cette machine des années…
Traité par IA depuis 3DNews AI ; édité par Hamidun News
Le vétéran de Microsoft Dave Plummer a démontré qu'un transformateur peut non seulement être expliqué avec des gestes de la main, mais aussi être exécuté littéralement sur du matériel de la fin des années 1970. Son expérience avec le miniordinateur PDP-11 fonctionnant à 6 MHz et 64 Ko de RAM réduit la conversation sur l'IA à une image concrète : l'entraînement est beaucoup d'arithmétique, de répétition et d'optimisation soigneuse.
Ordinateur Ancien, Tâche Nouvelle
Le vétéran de Microsoft Dave Plummer est connu comme développeur qui a auparavant participé à la création de composants importants de Windows. Dans sa nouvelle vidéo, il s'est lancé non pas dans un tour nostalgique pour des likes, mais dans une démonstration des principes fondamentaux des modèles modernes. Au centre de l'expérience se trouve un système PDP-11 vieux de 47 ans, une machine d'une époque où personne ne rêvait même de grands modèles de langage. C'est le contraste qui rend le projet convaincant : si une version réduite d'un transformateur peut être entraînée sur un tel appareil, alors l'idée centrale est bien plus simple qu'elle ne le paraît sur fond de centres de données et de budgets d'un milliard.
Le modèle Attention 11 s'exécutait sur le PDP-11, écrit en assembleur PDP-11 par le développeur Damien Bouré. Sa tâche semblait modeste à première vue : prendre une séquence de huit nombres et la produire dans l'ordre inverse. L'essentiel ici est non pas de mémoriser quelques exemples, mais de saisir la règle qui fonctionnera sur les nouvelles données d'entrée. C'est là que Plummer met l'accent : même dans un scénario aussi basique, le modèle doit apprendre la structure, et non pas simplement deviner la réponse suivante selon un motif.
Comment Ils Ont Réduit le Modèle
Pour que cette expérience ait une chance de fonctionner, les développeurs ont dû comprimer sévèrement l'architecture. Attention 11 n'est pas une mini-copie de ChatGPT, mais un transformateur monocouche avec un mécanisme d'attention unique, affiné à un état de minimalisme d'ingénierie. Le modèle a seulement 1216 paramètres. Au lieu des arrays de mémoire et des accélérateurs typiques des projets d'IA modernes, l'arithmétique en virgule fixe a été utilisée ici, et la propagation avant a été réduite à une précision de 8 bits. C'est essentiellement un squelette pédagogique d'un transformateur, gardant seulement ce qui est nécessaire pour démontrer le processus réel d'entraînement.
- 1216 paramètres au lieu de milliards
- arithmétique en virgule fixe
- précision de 8 bits pour la propagation avant
- optimisation de presque chaque cycle processeur
- la tâche nécessite la découverte de règles, pas la mémorisation d'exemples
Pourtant, même avec de telles contraintes, le résultat était loin d'être décoratif. Plummer a rapporté que le modèle a atteint 100% de précision en environ 350 étapes d'entraînement. Sur un système PDP-11/44 avec une carte de cache, cela a pris environ trois minutes et demie. Par rapport aux GPU modernes, c'est certes une vitesse de niveau musée. Mais pour une machine de 6 mégahertz avec 64 Ko de RAM, le simple fait d'un entraînement complet réussi compte plus que le temps absolu : l'expérience prouve que les principes des transformateurs ne nécessitent pas de magie, seulement des ressources et une bonne ingénierie.
Pas de la Magie, mais des Mathématiques
L'objectif principal de ce projet n'était pas de trouver un remplacement pratique utile pour les modèles modernes. Plummer a essayé de montrer quelque chose de moins romantique : à la base de l'IA, il n'y a pas de feu sacré. Il y a un cycle d'erreurs, de corrections et d'itérations, où les poids s'ajustent graduellement à la tâche. C'est pourquoi sa démonstration fonctionne comme un antidote à la mystification des réseaux de neurones. Elle supprime la couche de marketing et laisse la mécanique brute, qui peut être observée presque image par image.
"De deviner à savoir."
C'est ainsi que Plummer décrit le moment où le modèle cesse de trébucher et commence à appliquer constamment la règle qu'il a découverte. C'est l'effet le plus intéressant de l'expérience : le spectateur voit non pas une réponse intelligente toute faite, mais la naissance d'une capacité par le biais de corrections successives. Sur fond de discussions sur l'AGI, cela semble sobriquet. Les systèmes modernes impressionnent non pas parce qu'ils violent les lois du calcul, mais parce que le même mécanisme s'exécute à une échelle colossale—sur des données, des modèles et des grappes de calcul incomparablement plus grands.
Ce Que Cela Signifie
L'expérience PDP-11 ne prouve pas que ChatGPT peut être porté sur un rétro-ordinateur. Au lieu de cela, elle démontre clairement autre chose : les idées fondamentales des transformateurs sont suffisamment compactes pour être comprises, reproduites et entraînées même sur du matériel ancien. Pour le marché, c'est un autre argument en faveur de modèles petits efficaces et d'une optimisation soigneuse, surtout maintenant que le coût de calcul devient un facteur compétitif distinct.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.