Habr AI→ original

Andrej Karpathy a fait tenir GPT dans 243 lignes de Python pur

Andrej Karpathy a publié microGPT — une implémentation complète de l’architecture transformer en 243 lignes de Python pur, sans dépendances externes. Le…

Traité par IA depuis Habr AI ; édité par Hamidun News
Andrej Karpathy a fait tenir GPT dans 243 lignes de Python pur
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Il existe un genre particulier de programmation qui est plus proche de la poésie que de l'ingénierie. Quand on comprime le système le plus complexe jusqu'à son essence absolue, en supprimant tout le superflu, jusqu'à ce qu'il ne reste que la pure mathématique et la logique. C'est exactement ce qu'a fait Andrey Karpathy, l'un des fondateurs d'OpenAI et ancien directeur de l'IA chez Tesla, en publiant en février 2026 le projet microGPT — une implémentation complète de l'architecture transformer qui apprend et génère du texte en 243 lignes de Python pur.

Pour apprécier l'ampleur de cet accomplissement, il faut comprendre le contexte. Les modèles de langage modernes comme GPT-4 ou Claude représentent des dizaines de milliards de paramètres, des milliers de GPU, des mois d'entraînement et des bases de code où travaillent des centaines d'ingénieurs. Derrière toute cette puissance industrielle, il est facile d'oublier qu'à la base se trouve une construction mathématique relativement élégante décrite dans le célèbre article de 2017 « Attention Is All You Need ». Karpathy a pris cette construction et a montré qu'elle tient entièrement sur quelques écrans de code — sans PyTorch, sans NumPy, sans une seule bibliothèque externe.

MicroGPT implémente tous les composants clés de l'architecture transformer : la tokenisation, l'encodage positionnel, le mécanisme d'attention (self-attention), la propagation directe à travers des couches entièrement connectées, la normalisation et la rétropropagation pour l'entraînement. Chaque opération mathématique est effectuée manuellement — multiplication de matrices, softmax, fonctions d'activation. Cela signifie que n'importe qui ayant une compréhension basique de l'algèbre linéaire et de Python peut ouvrir ce fichier et retracer l'intégralité du chemin allant du texte d'entrée au token généré sans se heurter aux abstractions des frameworks.

Karpathy appelle modestement microGPT un « projet artistique », et il y a plus de précision dans cette définition qu'il n'y paraît. Ce n'est pas un outil pour un usage pratique — un modèle entraîné de cette manière ne mènera pas de dialogues significatifs et ne remplacera pas ChatGPT. Les performances du Python pur sans bibliothèques optimisées sont plusieurs ordres de grandeur inférieures à celles des frameworks spécialisés. Mais la valeur du projet se situe sur un plan complètement différent. C'est une démystification de la technologie qui détermine l'aspect du monde moderne.

Pour Karpathy, une telle approche n'est pas nouvelle. Il s'est depuis longtemps établi comme l'un des meilleurs vulgarisateurs de l'apprentissage profond. Son cours sur les réseaux de neurones à Stanford est devenu un classique, et la série « Neural Networks: Zero to Hero » sur YouTube a aidé des dizaines de milliers de personnes à comprendre les fondamentaux. Le projet microGPT poursuit cette lignée mais élève la barre : si auparavant Karpathy expliquait les architectures à l'aide de PyTorch, maintenant il a supprimé la dernière couche d'abstraction. Entre le lecteur et les mathématiques du transformer, il ne reste rien.

Les conséquences de cette démarche vont au-delà de l'éducation. L'industrie de l'intelligence artificielle connaît un moment paradoxal : la technologie devient de plus en plus influente, mais en même temps de plus en plus opaque. Les entreprises ferment leurs modèles, publient moins de détails techniques, et l'écart entre ceux qui créent l'IA et ceux qui l'utilisent s'élargit. Dans ce contexte, des projets comme microGPT remplissent une fonction cruciale — ils redonnent une compréhension fondamentale de la technologie dans la sphère publique. Quand un politicien, un journaliste ou simplement un ingénieur curieux d'un domaine connexe veut comprendre ce qu'est réellement GPT, 243 lignes de code fournissent une réponse plus honnête que n'importe quel document marketing.

Il y a aussi un aspect pratique. Pour les chercheurs débutants et les étudiants, microGPT est un bac à sable idéal. Vous pouvez modifier le mécanisme d'attention et voir ce qui se passe. Vous pouvez changer la fonction d'activation, expérimenter avec la taille de la fenêtre de contexte, ajouter votre propre variante d'encodage positionnel. Quand l'intégralité du code est sous vos yeux et que chaque ligne est compréhensible, l'expérimentation se transforme de magie noire en méthode scientifique.

En fin de compte, microGPT est un rappel que derrière les évaluations de trillions de dollars des entreprises d'IA et les discussions sur la superintelligence artificielle se cache la mathématique qui peut tenir sur quelques pages. L'échelle et la puissance de calcul transforment cette mathématique en quelque chose de remarquable, mais l'essence elle-même reste accessible à la compréhension. Et tant qu'il y aura des gens comme Karpathy disposés à consacrer du temps à rendre le complexe simple, l'industrie a une chance de rester non seulement puissante mais aussi transparente.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…