Un veterano de Microsoft ejecutó un transformer en un PDP-11 de 6 MHz con 64 KB de memoria

Q: ¿Cuál es la fuente?

Publicado originalmente en 3DNews AI. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

2 may 2026. Tiempo de lectura: 3 min.

Dave Plummer, exdesarrollador de Microsoft, ejecutó un pequeño transformer llamado Attention 11 en la minicomputadora PDP-11. La máquina de los años 70, con…

Redacción de Hamidun News

Monitoreo de AI · 3DNews AI

2 may 2026· 3 min

Procesado por IA desde 3DNews AI; editado por Hamidun News

Un veterano de Microsoft ejecutó un transformer en un PDP-11 de 6 MHz con 64 KB de memoria — Fuente: 3DNews AI. Collage: Hamidun News.

◐ Escuchar artículo

El veterano de Microsoft Dave Plummer demostró que un transformador no solo puede explicarse con gestos de mano, sino que también puede ejecutarse literalmente en hardware de finales de los años 70. Su experimento con la minicomputadora PDP-11 funcionando a 6 MHz y 64 KB de RAM reduce la conversación sobre IA a una imagen fundamentada: el entrenamiento es mucha aritmética, repetición y optimización cuidadosa.

Computadora Antigua, Tarea Nueva

Plummer es conocido como un desarrollador que previamente participó en la creación de componentes importantes de Windows. En su nuevo vídeo, no realizó un truco nostálgico para obtener likes, sino una demostración de los principios básicos de los modelos modernos. En el centro del experimento está un sistema PDP-11 de 47 años de antigüedad, una máquina de una era cuando nadie ni siquiera soñaba con grandes modelos de lenguaje. El contraste es lo que hace que el proyecto sea convincente: si una versión reducida de un transformador puede entrenarse en tal dispositivo, entonces la idea central es mucho más simple de lo que aparenta ser frente a los centros de datos y presupuestos de miles de millones.

El modelo Attention 11 se ejecutó en el PDP-11, escrito en ensamblador PDP-11 por el desarrollador Damien Bouré. Su tarea parecía modesta a primera vista: tomar una secuencia de ocho números y producirla en orden inverso. Lo clave aquí es no memorizar algunos ejemplos, sino comprender la regla que funcionará en nuevos datos de entrada. Es aquí donde Plummer pone énfasis: incluso en un escenario tan trivial, el modelo debe aprender la estructura, no solo adivinar la siguiente respuesta por patrón.

Cómo Redujeron el Modelo

Para que este experimento tuviera alguna posibilidad de funcionar, los desarrolladores tuvieron que comprimir severamente la arquitectura. Attention 11 no es una mini-copia de ChatGPT, sino un transformador de una sola capa con un mecanismo de atención, refinado a un estado de minimalismo de ingeniería. El modelo tiene solo 1216 parámetros. En lugar de los arrays de memoria y aceleradores típicos de los proyectos modernos de IA, se utilizó aritmética de punto fijo aquí, y el paso hacia adelante se redujo a precisión de 8 bits. Esencialmente, es un esqueleto educativo de un transformador, manteniendo solo lo necesario para demostrar el proceso real de entrenamiento.

1216 parámetros en lugar de miles de millones
aritmética de punto fijo
precisión de 8 bits para el paso hacia adelante
optimización de casi cada ciclo del procesador
la tarea requiere descubrimiento de regla, no memorización de ejemplos

Sin embargo, incluso con tales limitaciones, el resultado fue lejos de ser decorativo. Plummer informó que el modelo alcanzó el 100% de precisión en aproximadamente 350 pasos de entrenamiento. En un sistema PDP-11/44 con una placa de caché, esto tomó alrededor de tres minutos y medio. Comparado con las GPU modernas, esta es ciertamente una velocidad de nivel de museo. Pero para una máquina de 6 megahertz con 64 KB de RAM, el simple hecho del éxito del entrenamiento completo importa más que el tiempo absoluto: el experimento demuestra que los principios del transformador no requieren magia, solo recursos y buena ingeniería.

No Magia, sino Matemática

El objetivo principal de este proyecto no era encontrar un sustituto práctico útil para modelos modernos. Plummer intentó mostrar algo menos romántico: en la fundación de la IA no hay fuego sagrado. Hay un ciclo de errores, correcciones e iteraciones, donde los pesos se ajustan gradualmente a la tarea. Por eso su demostración funciona como un antídoto contra la mistificación de redes neuronales. Elimina la capa de marketing y deja mecánica desnuda, que puede observarse casi fotograma a fotograma.

"De adivinar a saber."

Así es como Plummer describe el momento en que el modelo deja de tropezar y comienza a aplicar consistentemente la regla que descubrió. Este es el efecto más interesante del experimento: el espectador ve no una respuesta inteligente lista, sino el nacimiento de una capacidad a través de correcciones sucesivas. Contra el telón de fondo de las discusiones sobre AGI, esto suena sobrio. Los sistemas modernos impresionan no porque violen las leyes de la computación, sino porque el mismo mecanismo se ejecuta a una escala colosal—en datos, modelos y clusters computacionales incomparablemente mayores.

Qué Significa Esto

El experimento PDP-11 no demuestra que ChatGPT pueda ser portado a una retrocomputadora. En cambio, demuestra claramente algo más: las ideas básicas de los transformadores son lo suficientemente compactas para ser entendidas, reproducidas y entrenadas incluso en hardware antiguo. Para el mercado, este es otro argumento a favor de modelos pequeños eficientes y optimización cuidadosa, especialmente ahora que el costo computacional se está convirtiendo en un factor competitivo separado.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita