Un veterano de Microsoft ejecutó un transformer en un PDP-11 de 6 MHz con 64 KB de memoria
Dave Plummer, exdesarrollador de Microsoft, ejecutó un pequeño transformer llamado Attention 11 en la minicomputadora PDP-11. La máquina de los años 70, con…
Procesado por IA desde 3DNews AI; editado por Hamidun News
El veterano de Microsoft Dave Plummer demostró que un transformador no solo puede explicarse con gestos de mano, sino que también puede ejecutarse literalmente en hardware de finales de los años 70. Su experimento con la minicomputadora PDP-11 funcionando a 6 MHz y 64 KB de RAM reduce la conversación sobre IA a una imagen fundamentada: el entrenamiento es mucha aritmética, repetición y optimización cuidadosa.
Computadora Antigua, Tarea Nueva
Plummer es conocido como un desarrollador que previamente participó en la creación de componentes importantes de Windows. En su nuevo vídeo, no realizó un truco nostálgico para obtener likes, sino una demostración de los principios básicos de los modelos modernos. En el centro del experimento está un sistema PDP-11 de 47 años de antigüedad, una máquina de una era cuando nadie ni siquiera soñaba con grandes modelos de lenguaje. El contraste es lo que hace que el proyecto sea convincente: si una versión reducida de un transformador puede entrenarse en tal dispositivo, entonces la idea central es mucho más simple de lo que aparenta ser frente a los centros de datos y presupuestos de miles de millones.
El modelo Attention 11 se ejecutó en el PDP-11, escrito en ensamblador PDP-11 por el desarrollador Damien Bouré. Su tarea parecía modesta a primera vista: tomar una secuencia de ocho números y producirla en orden inverso. Lo clave aquí es no memorizar algunos ejemplos, sino comprender la regla que funcionará en nuevos datos de entrada. Es aquí donde Plummer pone énfasis: incluso en un escenario tan trivial, el modelo debe aprender la estructura, no solo adivinar la siguiente respuesta por patrón.
Cómo Redujeron el Modelo
Para que este experimento tuviera alguna posibilidad de funcionar, los desarrolladores tuvieron que comprimir severamente la arquitectura. Attention 11 no es una mini-copia de ChatGPT, sino un transformador de una sola capa con un mecanismo de atención, refinado a un estado de minimalismo de ingeniería. El modelo tiene solo 1216 parámetros. En lugar de los arrays de memoria y aceleradores típicos de los proyectos modernos de IA, se utilizó aritmética de punto fijo aquí, y el paso hacia adelante se redujo a precisión de 8 bits. Esencialmente, es un esqueleto educativo de un transformador, manteniendo solo lo necesario para demostrar el proceso real de entrenamiento.
- 1216 parámetros en lugar de miles de millones
- aritmética de punto fijo
- precisión de 8 bits para el paso hacia adelante
- optimización de casi cada ciclo del procesador
- la tarea requiere descubrimiento de regla, no memorización de ejemplos
Sin embargo, incluso con tales limitaciones, el resultado fue lejos de ser decorativo. Plummer informó que el modelo alcanzó el 100% de precisión en aproximadamente 350 pasos de entrenamiento. En un sistema PDP-11/44 con una placa de caché, esto tomó alrededor de tres minutos y medio. Comparado con las GPU modernas, esta es ciertamente una velocidad de nivel de museo. Pero para una máquina de 6 megahertz con 64 KB de RAM, el simple hecho del éxito del entrenamiento completo importa más que el tiempo absoluto: el experimento demuestra que los principios del transformador no requieren magia, solo recursos y buena ingeniería.
No Magia, sino Matemática
El objetivo principal de este proyecto no era encontrar un sustituto práctico útil para modelos modernos. Plummer intentó mostrar algo menos romántico: en la fundación de la IA no hay fuego sagrado. Hay un ciclo de errores, correcciones e iteraciones, donde los pesos se ajustan gradualmente a la tarea. Por eso su demostración funciona como un antídoto contra la mistificación de redes neuronales. Elimina la capa de marketing y deja mecánica desnuda, que puede observarse casi fotograma a fotograma.
"De adivinar a saber."
Así es como Plummer describe el momento en que el modelo deja de tropezar y comienza a aplicar consistentemente la regla que descubrió. Este es el efecto más interesante del experimento: el espectador ve no una respuesta inteligente lista, sino el nacimiento de una capacidad a través de correcciones sucesivas. Contra el telón de fondo de las discusiones sobre AGI, esto suena sobrio. Los sistemas modernos impresionan no porque violen las leyes de la computación, sino porque el mismo mecanismo se ejecuta a una escala colosal—en datos, modelos y clusters computacionales incomparablemente mayores.
Qué Significa Esto
El experimento PDP-11 no demuestra que ChatGPT pueda ser portado a una retrocomputadora. En cambio, demuestra claramente algo más: las ideas básicas de los transformadores son lo suficientemente compactas para ser entendidas, reproducidas y entrenadas incluso en hardware antiguo. Para el mercado, este es otro argumento a favor de modelos pequeños eficientes y optimización cuidadosa, especialmente ahora que el costo computacional se está convirtiendo en un factor competitivo separado.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.