Andrej Karpathy condensou GPT em 243 linhas de Python puro
Andrej Karpathy lançou o microGPT — uma implementação completa da arquitetura transformer em 243 linhas de Python puro, sem dependências externas. O projeto…
Processado por IA de Habr AI; editado por Hamidun News
Existe um gênero particular de programação que é mais próximo da poesia do que da engenharia. Quando o sistema mais complexo é comprimido para sua essência absoluta, removendo tudo desnecessário, até que reste apenas a matemática pura e a lógica. Foi exatamente isso o que fez Andrey Karpathy, um dos fundadores da OpenAI e ex-diretor de IA na Tesla, ao publicar em fevereiro de 2026 o projeto microGPT — uma implementação completa de arquitetura transformer que aprende e gera texto em 243 linhas de Python puro.
Para apreciar a escala dessa conquista, você precisa entender o contexto. Modelos de linguagem modernos como GPT-4 ou Claude são dezenas de bilhões de parâmetros, milhares de GPUs, meses de treinamento e bases de código onde centenas de engenheiros trabalham. Por trás de todo esse poder industrial, é fácil esquecer que em sua essência reside uma construção matemática relativamente elegante descrita no famoso artigo de 2017 "Attention Is All You Need". Karpathy pegou nessa construção e mostrou que cabe inteiramente em algumas telas de código — sem PyTorch, sem NumPy, sem uma única biblioteca externa.
MicroGPT implementa todos os componentes-chave da arquitetura transformer: tokenização, codificação posicional, o mecanismo de atenção (self-attention), propagação direta através de camadas totalmente conectadas, normalização e retropropagação para treinamento. Cada operação matemática é realizada manualmente — multiplicação de matrizes, softmax, funções de ativação. Isso significa que qualquer pessoa com compreensão básica de álgebra linear e Python pode abrir este arquivo e rastrear o caminho inteiro do texto de entrada até o token gerado sem se deparar com abstrações de framework.
Karpathy modestamente chama microGPT de "projeto de arte", e há mais precisão nessa definição do que pode parecer. Não é uma ferramenta para uso prático — um modelo treinado dessa forma não conduzirá diálogos significativos e não substituirá o ChatGPT. O desempenho de Python puro sem bibliotecas otimizadas é várias ordens de magnitude menor que frameworks especializados. Mas o valor do projeto reside em um plano completamente diferente. É uma desmistificação da tecnologia que determina a aparência do mundo moderno.
Para Karpathy, tal abordagem não é nada nova. Ele há muito se estabeleceu como um dos melhores divulgadores de aprendizado profundo. Seu curso de redes neurais em Stanford se tornou clássico, e a série "Neural Networks: Zero to Hero" no YouTube ajudou dezenas de milhares de pessoas a entender os fundamentos. O projeto microGPT continua essa linha mas eleva o padrão: se anteriormente Karpathy explicava arquiteturas com a ajuda do PyTorch, agora removeu a última camada de abstração. Entre o leitor e a matemática do transformer, nada mais resta.
As consequências desse passo vão além da educação. A indústria de inteligência artificial está vivendo um momento paradoxal: a tecnologia está se tornando cada vez mais influente, mas ao mesmo tempo cada vez mais opaca. As empresas estão fechando seus modelos, publicando menos detalhes técnicos, e a lacuna entre aqueles que criam IA e aqueles que a usam está crescendo. Neste contexto, projetos como microGPT cumprem uma função crucial — devolvem a compreensão fundamental da tecnologia à esfera pública. Quando um político, jornalista ou simplesmente um engenheiro curioso de uma área adjacente quer entender o que GPT realmente é, 243 linhas de código fornecem uma resposta mais honesta do que qualquer documento de marketing.
Há também um aspecto prático. Para pesquisadores iniciantes e estudantes, microGPT é um sandbox ideal. Você pode modificar o mecanismo de atenção e ver o que acontece. Pode alterar a função de ativação, experimentar com o tamanho da janela de contexto, adicionar sua própria variante de codificação posicional. Quando todo o código está diante dos seus olhos e cada linha é compreensível, a experimentação se transforma de magia negra em método científico.
No final das contas, microGPT é um lembrete de que por trás das avaliações trilionárias de empresas de IA e conversas sobre superinteligência artificial está a matemática que pode caber em algumas páginas. Escala e poder computacional transformam essa matemática em algo notável, mas a essência em si permanece acessível à compreensão. E enquanto existirem pessoas como Karpathy dispostas a gastar tempo tornando o complexo simples, a indústria tem uma chance de permanecer não apenas poderosa mas transparente.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.