Habr AI→ original

Andrej Karpathy condensou GPT em 243 linhas de Python puro

Andrej Karpathy lançou o microGPT — uma implementação completa da arquitetura transformer em 243 linhas de Python puro, sem dependências externas. O projeto…

Processado por IA de Habr AI; editado por Hamidun News
Andrej Karpathy condensou GPT em 243 linhas de Python puro
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Existe um gênero particular de programação que é mais próximo da poesia do que da engenharia. Quando o sistema mais complexo é comprimido para sua essência absoluta, removendo tudo desnecessário, até que reste apenas a matemática pura e a lógica. Foi exatamente isso o que fez Andrey Karpathy, um dos fundadores da OpenAI e ex-diretor de IA na Tesla, ao publicar em fevereiro de 2026 o projeto microGPT — uma implementação completa de arquitetura transformer que aprende e gera texto em 243 linhas de Python puro.

Para apreciar a escala dessa conquista, você precisa entender o contexto. Modelos de linguagem modernos como GPT-4 ou Claude são dezenas de bilhões de parâmetros, milhares de GPUs, meses de treinamento e bases de código onde centenas de engenheiros trabalham. Por trás de todo esse poder industrial, é fácil esquecer que em sua essência reside uma construção matemática relativamente elegante descrita no famoso artigo de 2017 "Attention Is All You Need". Karpathy pegou nessa construção e mostrou que cabe inteiramente em algumas telas de código — sem PyTorch, sem NumPy, sem uma única biblioteca externa.

MicroGPT implementa todos os componentes-chave da arquitetura transformer: tokenização, codificação posicional, o mecanismo de atenção (self-attention), propagação direta através de camadas totalmente conectadas, normalização e retropropagação para treinamento. Cada operação matemática é realizada manualmente — multiplicação de matrizes, softmax, funções de ativação. Isso significa que qualquer pessoa com compreensão básica de álgebra linear e Python pode abrir este arquivo e rastrear o caminho inteiro do texto de entrada até o token gerado sem se deparar com abstrações de framework.

Karpathy modestamente chama microGPT de "projeto de arte", e há mais precisão nessa definição do que pode parecer. Não é uma ferramenta para uso prático — um modelo treinado dessa forma não conduzirá diálogos significativos e não substituirá o ChatGPT. O desempenho de Python puro sem bibliotecas otimizadas é várias ordens de magnitude menor que frameworks especializados. Mas o valor do projeto reside em um plano completamente diferente. É uma desmistificação da tecnologia que determina a aparência do mundo moderno.

Para Karpathy, tal abordagem não é nada nova. Ele há muito se estabeleceu como um dos melhores divulgadores de aprendizado profundo. Seu curso de redes neurais em Stanford se tornou clássico, e a série "Neural Networks: Zero to Hero" no YouTube ajudou dezenas de milhares de pessoas a entender os fundamentos. O projeto microGPT continua essa linha mas eleva o padrão: se anteriormente Karpathy explicava arquiteturas com a ajuda do PyTorch, agora removeu a última camada de abstração. Entre o leitor e a matemática do transformer, nada mais resta.

As consequências desse passo vão além da educação. A indústria de inteligência artificial está vivendo um momento paradoxal: a tecnologia está se tornando cada vez mais influente, mas ao mesmo tempo cada vez mais opaca. As empresas estão fechando seus modelos, publicando menos detalhes técnicos, e a lacuna entre aqueles que criam IA e aqueles que a usam está crescendo. Neste contexto, projetos como microGPT cumprem uma função crucial — devolvem a compreensão fundamental da tecnologia à esfera pública. Quando um político, jornalista ou simplesmente um engenheiro curioso de uma área adjacente quer entender o que GPT realmente é, 243 linhas de código fornecem uma resposta mais honesta do que qualquer documento de marketing.

Há também um aspecto prático. Para pesquisadores iniciantes e estudantes, microGPT é um sandbox ideal. Você pode modificar o mecanismo de atenção e ver o que acontece. Pode alterar a função de ativação, experimentar com o tamanho da janela de contexto, adicionar sua própria variante de codificação posicional. Quando todo o código está diante dos seus olhos e cada linha é compreensível, a experimentação se transforma de magia negra em método científico.

No final das contas, microGPT é um lembrete de que por trás das avaliações trilionárias de empresas de IA e conversas sobre superinteligência artificial está a matemática que pode caber em algumas páginas. Escala e poder computacional transformam essa matemática em algo notável, mas a essência em si permanece acessível à compreensão. E enquanto existirem pessoas como Karpathy dispostas a gastar tempo tornando o complexo simples, a indústria tem uma chance de permanecer não apenas poderosa mas transparente.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…