Talkie-1930: Researchers released a 13B model with no knowledge of the internet and World War II
Researchers released Talkie-1930, a 13B open-weight model trained only on English texts through the end of 1930. It has no knowledge of the internet or World Wa

Talkie-1930 — редкий эксперимент, который пытается вернуть языковую модель в интеллектуальный контекст начала XX века. Это открытая 13-миллиардная модель, обученная только на англоязычных текстах, опубликованных до 31 декабря 1930 года, поэтому она не знает ни про интернет, ни про смартфоны, ни про Вторую мировую войну как свершившийся факт. Вместо очередного чат-бота «обо всём» исследователи получили чистый стенд для проверки того, как модель рассуждает, предсказывает и обобщает, если её мировоззрение жестко зафиксировано в одной исторической точке.
Проект представила команда Ника Левина, Дэвида Дювено и Алека Рэдфорда. Базовая версия talkie-1930-13b-base обучена на 260 млрд токенов из книг, газет, журналов, научных статей, патентов и судебных материалов. Отдельно доступен разговорный чекпоинт talkie-1930-13b-it, дообученный для диалога.
Обе версии опубликованы с открытыми весами по лицензии Apache 2.0. Авторы отдельно собрали «современного близнеца» с той же архитектурой и тем же бюджетом вычислений, но на корпусе FineWeb, чтобы сравнивать не абстрактные модели разных эпох, а почти идентичные системы на разном типе данных.
Главная ценность Talkie-1930 не в ретро-стиле, а в исследовательской чистоте. Современные LLM почти неизбежно страдают от contamination — когда тестовые задачи, фрагменты бенчмарков или близкие к ним данные уже успели просочиться в обучение. У vintage-модели такой проблемы по определению меньше: если бенчмарк описывает события или технологии после 1930 года, Talkie не могла видеть их заранее.
Поэтому на ней удобно проверять, насколько модель вообще способна выходить за рамки корпуса. Авторы, например, тестировали, может ли она писать Python-код по нескольким примерам в контексте, хотя самого Python и цифровых компьютеров в её обучающих данных не было. Результаты пока слабые, но сам факт отдельных корректных ответов показывает, что модель может заимствовать структуру решения, а не только копировать заученные шаблоны.
Команда также использует Talkie-1930 как инструмент для временных и исторических оценок. В одном из экспериментов модель измеряла «удивительность» кратких описаний реальных событий из архива The New York Times: после точки отсечения 1930 года сюжеты становятся для неё заметно менее предсказуемыми, особенно события 1950-х и 1960-х. Это даёт аккуратный способ изучать, как модели «видят» будущее из прошлого и как меняется их способность к прогнозированию на длинной временной дистанции.
Ещё один интересный вопрос — что именно формирует личность модели. Почти все современные LLM так или иначе происходят из веб-данных; Talkie ломает эту наследственность и позволяет отделить свойства самой языковой модели от особенностей интернета как обучающей среды. С технической стороны проект оказался гораздо сложнее, чем простая фильтрация по дате.
Самый опасный риск — временные утечки: неверно датированные документы, современные редакторские вступления к старым книгам или поздние сноски могут незаметно протащить в корпус знания из будущего. Авторы построили классификатор анахронизмов на уровне документа, но признают, что он не идеален: ранние версии модели знали о президентстве Франклина Рузвельта и реформах New Deal, а 13B-чекпоинт сохраняет отдельные сведения о Второй мировой войне, ООН и послевоенном устройстве Германии. Не менее болезненная проблема — качество распознавания.
Поскольку в 1930 году не существовало цифрового издательского контура, весь корпус приходилось собирать через OCR. В контролируемых тестах стандартное OCR давало лишь около 30% эффективности обучения по сравнению с человеческой расшифровкой тех же текстов; простая очистка регулярными выражениями поднимала показатель примерно до 70%, но большой разрыв сохранялся. Чтобы разговорная версия не заразилась современными привычками, постобучение тоже пришлось строить с нуля.
Вместо типичных instruction datasets команда извлекала пары «инструкция — ответ» из исторических справочников: руководств по этикету, пособий по письмам, кулинарных книг, словарей, энциклопедий, сборников басен и стихов. Затем модель улучшали через online DPO, используя современную LLM как судью; по внутренней оценке следование инструкциям выросло с 2,0 до 3,4 балла из 5. Дальше авторы планируют нарастить корпус до более чем 1 трлн токенов, расширить его за пределы английского языка и выпустить vintage-модель уровня GPT-3 уже летом 2026 года.
В сухом остатке Talkie-1930 важна не как ностальгический чат-бот, а как лаборатория для проверки больших вопросов об ИИ: что модель действительно понимает, что она просто запомнила, как далеко может обобщать без подсказок из будущего и насколько веб вообще определил характер современных LLM. Если проекту удастся уменьшить утечки и шум OCR, у исследователей появится один из самых чистых инструментов для изучения границ генерализации в языковых моделях.