MarkTechPost→ original

Talkie-1930: Investigadores lanzaron un modelo 13B sin conocimiento de internet ni de la Segunda Guerra Mundial

Investigadores lanzaron Talkie-1930, un modelo 13B open-weight entrenado solo en textos en inglés hasta finales de 1930. No tiene conocimiento de internet ni…

Procesado por IA desde MarkTechPost; editado por Hamidun News
Talkie-1930: Investigadores lanzaron un modelo 13B sin conocimiento de internet ni de la Segunda Guerra Mundial
Fuente: MarkTechPost. Collage: Hamidun News.
◐ Escuchar artículo

Talkie-1930 — un experimento raro que intenta retroceder un modelo de lenguaje al contexto intelectual de principios del siglo XX. Este modelo abierto de 13 mil millones de parámetros se entrenó exclusivamente con textos en inglés publicados antes del 31 de diciembre de 1930, por lo que no sabe nada sobre internet, smartphones o la Segunda Guerra Mundial como un hecho consumado. En lugar de otro chatbot omnisciente más, los investigadores crearon un banco de pruebas limpio para verificar cómo un modelo razona, predice y generaliza cuando su cosmovisión está rígidamente fijada en un único punto histórico.

El proyecto fue presentado por un equipo liderado por Nick Levin, David Duvenaud y Alec Radford. La versión base talkie-1930-13b-base se entrenó con 260 mil millones de tokens de libros, periódicos, revistas, artículos científicos, patentes y documentos legales. Disponible por separado está el checkpoint conversacional talkie-1930-13b-it, ajustado para diálogo.

Ambas versiones se publican con pesos abiertos bajo la licencia Apache 2.0. Los autores también recopilaron un "gemelo contemporáneo" con la misma arquitectura y presupuesto computacional, pero entrenado en el corpus FineWeb, lo que permite comparar no modelos abstractos de diferentes épocas, sino sistemas casi idénticos en diferentes tipos de datos.

El valor principal de Talkie-1930 no radica en el estilo retro, sino en la pureza de investigación. Los LLMs modernos casi inevitablemente sufren de contaminación — cuando tareas de prueba, fragmentos de benchmarks o datos estrechamente relacionados ya se han filtrado en el entrenamiento. Un modelo vintage por definición tiene menos de este problema: si un benchmark describe eventos o tecnologías después de 1930, Talkie no habría podido verlos de antemano.

Esto lo hace conveniente para probar qué tan lejos puede generalizar realmente un modelo más allá de su corpus. Los autores, por ejemplo, probaron si podría escribir código Python a partir de algunos ejemplos en contexto, aunque Python y las computadoras digitales estuvieran ausentes de sus datos de entrenamiento. Los resultados hasta ahora son débiles, pero el mero hecho de respuestas ocasionalmente correctas muestra que el modelo puede tomar prestada la estructura de la solución en lugar de simplemente copiar patrones aprendidos.

El equipo también utiliza Talkie-1930 como herramienta para evaluaciones temporales e históricas. En un experimento, el modelo midió la "sorpresa" de descripciones breves de eventos reales del archivo de The New York Times: después del punto de corte de 1930, las historias se vuelven notablemente menos predecibles para él, especialmente eventos de los años 1950 y 1960. Esto proporciona una forma elegante de estudiar cómo los modelos "ven" el futuro desde el pasado y cómo cambia su capacidad de predicción en largas distancias temporales.

Otra pregunta intrigante es qué determina exactamente la personalidad de un modelo. Casi todos los LLMs modernos provienen de alguna manera de datos web; Talkie rompe esta herencia y permite separar las propiedades inherentes al modelo de lenguaje de las particularidades de internet como entorno de entrenamiento.

Desde el punto de vista técnico, el proyecto resultó ser mucho más complejo que la simple filtración por fecha. El riesgo más peligroso son las fugas temporales: documentos mal fechados, introducciones editoriales contemporáneas a libros antiguos o notas a pie de página posteriores pueden introducir subrepticiamente conocimiento del futuro en el corpus. Los autores construyeron un clasificador de anacronismos a nivel de documento, pero reconocen que no es perfecto: las versiones iniciales del modelo sabían sobre la presidencia de Franklin Roosevelt y las reformas del New Deal, y el checkpoint 13B conserva conocimiento disperso sobre la Segunda Guerra Mundial, las Naciones Unidas y la reconstrucción de Alemania en la posguerra.

Igualmente problemática es la calidad del reconocimiento de texto. Dado que no existía infraestructura editorial digital en 1930, todo el corpus tuvo que ser recopilado a través de OCR. En pruebas controladas, el OCR estándar solo proporcionó aproximadamente el 30% de eficiencia de entrenamiento en comparación con la transcripción humana de los mismos textos; la limpieza simple con expresiones regulares elevó esto a aproximadamente el 70%, pero la gran brecha persistió.

Para evitar que la versión conversacional se contagiara de hábitos modernos, el post-entrenamiento también tuvo que construirse desde cero. En lugar de conjuntos de datos de instrucciones típicos, el equipo extrajo pares "instrucción-respuesta" de referencias históricas: manuales de etiqueta, guías de redacción de cartas, libros de cocina, diccionarios, enciclopedias, colecciones de fábulas y poesía. Luego, el modelo se mejoró mediante DPO en línea usando un LLM moderno como árbitro; según la evaluación interna, el seguimiento de instrucciones mejoró de 2,0 a 3,4 de 5 puntos.

Los autores planean ampliar el corpus a más de 1 billón de tokens, expandirlo más allá del inglés y lanzar un modelo vintage equivalente a GPT-3 en el verano de 2026.

En definitiva, Talkie-1930 importa no como un chatbot nostálgico, sino como un laboratorio para probar preguntas fundamentales sobre IA: qué entiende realmente el modelo, qué simplemente memorizó, qué tan lejos puede generalizar sin pistas del futuro y cuánto ha moldeado la web el carácter de los LLMs modernos. Si el proyecto logra reducir fugas y ruido de OCR, los investigadores obtendrán una de las herramientas más limpias para estudiar los límites de la generalización en modelos de lenguaje.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…