Veterano da Microsoft executou um transformer em um PDP-11 de 6 MHz com 64 KB de memória
Dave Plummer, ex-desenvolvedor da Microsoft, executou um pequeno transformer chamado Attention 11 no minicomputador PDP-11. A máquina dos anos 1970, com…
Processado por IA de 3DNews AI; editado por Hamidun News
O veterano da Microsoft Dave Plummer demonstrou que um transformador não apenas pode ser explicado com gestos de mão, mas também literalmente executado em hardware do final dos anos 1970. Seu experimento com o minicomputador PDP-11 funcionando a 6 MHz e 64 KB de RAM reduz a conversa sobre IA para uma imagem fundamentada: treinamento é muita aritmética, repetição e otimização cuidadosa.
Computador Antigo, Tarefa Nova
Plummer é conhecido como um desenvolvedor que anteriormente participou da criação de componentes importantes do Windows. Em seu novo vídeo, ele não empreendeu um truque nostálgico para curtidas, mas uma demonstração dos princípios básicos dos modelos modernos. No centro do experimento está um sistema PDP-11 com 47 anos de idade, uma máquina de uma era quando ninguém nem sonhava com grandes modelos de linguagem. O contraste é o que torna o projeto convincente: se uma versão reduzida de um transformador pode ser treinada em tal dispositivo, então a ideia central é muito mais simples do que parece diante do cenário dos data centers e orçamentos de bilhões.
O modelo Attention 11 foi executado no PDP-11, escrito em assembly PDP-11 pelo desenvolvedor Damien Bouré. Sua tarefa parecia modesta à primeira vista: pegar uma sequência de oito números e produzi-la em ordem inversa. O ponto-chave aqui é não memorizar alguns exemplos, mas compreender a regra que funcionará em novos dados de entrada. É aqui que Plummer coloca ênfase: mesmo em um cenário tão trivial, o modelo deve aprender a estrutura, não apenas adivinhar a próxima resposta por padrão.
Como Reduziram o Modelo
Para que este experimento tivesse qualquer chance de funcionar, os desenvolvedores tiveram que comprimir severamente a arquitetura. Attention 11 não é uma mini-cópia do ChatGPT, mas um transformador de camada única com um mecanismo de atenção, refinado para um estado de minimalismo de engenharia. O modelo tem apenas 1216 parâmetros. Em vez dos arrays de memória e aceleradores típicos dos projetos modernos de IA, usou-se aritmética de ponto fixo aqui, e o passe para frente foi reduzido a precisão de 8 bits. Essencialmente, é um esqueleto educacional de um transformador, mantendo apenas o necessário para demonstrar o processo real de treinamento.
- 1216 parâmetros em vez de bilhões
- aritmética de ponto fixo
- precisão de 8 bits para o passe para frente
- otimização de quase cada ciclo do processador
- tarefa requer descoberta de regra, não memorização de exemplos
Mas mesmo com tais restrições, o resultado ficou longe de ser decorativo. Plummer informou que o modelo atingiu 100% de precisão em aproximadamente 350 etapas de treinamento. Em um sistema PDP-11/44 com uma placa de cache, isso levou cerca de três minutos e meio. Comparado aos GPUs modernos, isso é certamente uma velocidade de nível de museu. Mas para uma máquina de 6 megahertz com 64 KB de RAM, o simples fato de um treinamento completo bem-sucedido importa mais do que o tempo absoluto: o experimento prova que os princípios do transformador não requerem mágica, apenas recursos e boa engenharia.
Não Magia, mas Matemática
O objetivo principal deste projeto não era encontrar um substituto prático útil para modelos modernos. Plummer tentou mostrar algo menos romântico: na fundação da IA não há fogo sagrado. Há um ciclo de erros, correções e iterações, onde os pesos se ajustam gradualmente à tarefa. Por isso sua demonstração funciona como um antídoto para a mistificação de redes neurais. Remove a camada de marketing e deixa a mecânica nua, que pode ser observada quase quadro a quadro.
"De adivinhar para saber."
Assim Plummer descreve o momento em que o modelo para de tropeçar e começa a aplicar consistentemente a regra que descobriu. Este é o efeito mais interessante do experimento: o espectador vê não uma resposta inteligente pronta, mas o nascimento de uma habilidade através de correções sucessivas. Contra o pano de fundo das discussões sobre AGI, isso soa sóbrio. Os sistemas modernos impressionam não porque violam as leis da computação, mas porque o mesmo mecanismo funciona em escala colossal—em dados, modelos e clusters computacionais incomparavelmente maiores.
O Que Isso Significa
O experimento PDP-11 não prova que o ChatGPT pode ser portado para um retrocomputador. Em vez disso, demonstra claramente outra coisa: as ideias básicas dos transformadores são compactas o suficiente para serem compreendidas, reproduzidas e treinadas até mesmo em hardware antigo. Para o mercado, este é mais um argumento a favor de modelos pequenos eficientes e otimização cuidadosa, especialmente agora que o custo computacional está se tornando um fator competitivo separado.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.