Talkie-1930: Pesquisadores lançaram um modelo 13B sem conhecimento da internet e Segunda Guerra Mundial
Pesquisadores lançaram Talkie-1930, um modelo 13B open-weight treinado apenas em textos em inglês até o final de 1930. Não possui conhecimento da internet ou…
Processado por IA de MarkTechPost; editado por Hamidun News
Talkie-1930 — um experimento raro que tenta retroceder um modelo de linguagem para o contexto intelectual do início do século XX. Este modelo aberto de 13 bilhões de parâmetros foi treinado exclusivamente em textos em inglês publicados antes de 31 de dezembro de 1930, portanto não sabe nada sobre internet, smartphones ou a Segunda Guerra Mundial como um fato consumado. Em vez de mais um chatbot onisciente, os pesquisadores criaram um testbed limpo para verificar como um modelo raciocina, prediz e generaliza quando sua visão de mundo está rigidamente fixada em um único ponto histórico.
O projeto foi apresentado por uma equipe liderada por Nick Levin, David Duvenaud e Alec Radford. A versão base talkie-1930-13b-base foi treinada em 260 bilhões de tokens de livros, jornais, revistas, artigos científicos, patentes e documentos legais. Um checkpoint conversacional separado talkie-1930-13b-it também está disponível, ajustado para diálogo.
Ambas as versões são lançadas com pesos abertos sob a licença Apache 2.0. Os autores também coletaram um "gêmeo contemporâneo" com a mesma arquitetura e orçamento computacional, mas treinado no corpus FineWeb, permitindo comparar não modelos abstratos de diferentes eras, mas sistemas quase idênticos em diferentes tipos de dados.
O valor primário do Talkie-1930 não reside em estilo retrô, mas em pureza de pesquisa. LLMs modernos quase inevitavelmente sofrem com contaminação — quando tarefas de teste, fragmentos de benchmark ou dados intimamente relacionados já se infiltraram no treinamento. Um modelo vintage por definição tem menos deste problema: se um benchmark descreve eventos ou tecnologias após 1930, Talkie não poderia tê-los visto antecipadamente.
Isso torna conveniente testar quão longe um modelo pode realmente generalizar além de seu corpus. Os autores, por exemplo, testaram se ele poderia escrever código Python a partir de alguns exemplos em contexto, mesmo que Python e computadores digitais estivessem ausentes dos dados de treinamento. Os resultados até agora são fracos, mas o simples fato de respostas ocasionalmente corretas mostra que o modelo pode emprestar estrutura de solução em vez de apenas copiar templates aprendidos.
A equipe também usa Talkie-1930 como ferramenta para avaliações temporais e históricas. Em um experimento, o modelo mediu a "surpresividade" de descrições breves de eventos reais do arquivo The New York Times: após o ponto de corte de 1930, as histórias se tornam notavelmente menos previsíveis para ele, especialmente eventos dos anos 1950 e 1960. Isso fornece uma maneira elegante de estudar como modelos "veem" o futuro do passado e como sua capacidade de previsão muda ao longo de longas distâncias temporais.
Outra questão intrigante é o que exatamente molda a personalidade de um modelo. Quase todos os LLMs modernos derivam de alguma forma de dados web; Talkie rompe essa linhagem e permite separar propriedades inerentes ao modelo de linguagem das particularidades da internet como ambiente de treinamento.
De um ponto de vista técnico, o projeto se mostrou muito mais complexo do que simples filtragem por data. O risco mais perigoso são vazamentos temporais: documentos com datas incorretas, introduções editoriais contemporâneas para livros antigos ou notas de rodapé posteriores podem sorrateiramente introduzir conhecimento do futuro no corpus. Os autores construíram um classificador de anacronismos no nível do documento, mas reconhecem que não é perfeito: versões iniciais do modelo sabiam sobre a presidência de Franklin Roosevelt e as reformas New Deal, e o checkpoint 13B retém conhecimento esparso sobre a Segunda Guerra Mundial, a ONU e a reconstrução da Alemanha no pós-guerra.
Igualmente doloroso é a qualidade do reconhecimento de texto. Como infraestrutura de editoração digital não existia em 1930, todo o corpus teve que ser montado através de OCR. Em testes controlados, OCR padrão produziu apenas cerca de 30% de eficiência de treinamento comparado à transcrição humana dos mesmos textos; limpeza simples baseada em regex elevou isso para aproximadamente 70%, mas uma grande lacuna permaneceu.
Para evitar que a versão conversacional absorvesse hábitos modernos, o pós-treinamento também teve que ser construído do zero. Em vez de datasets de instrução típicos, a equipe extraiu pares "instrução-resposta" de referências históricas: manuais de etiqueta, guias de redação de cartas, livros de receitas, dicionários, enciclopédias, coleções de fábulas e poesias. O modelo foi então melhorado através de DPO online usando um LLM moderno como juiz; pela avaliação interna, o seguimento de instruções melhorou de 2,0 para 3,4 em 5 pontos.
Os autores planejam escalar o corpus para mais de 1 trilhão de tokens, expandi-lo além do inglês e lançar um modelo vintage equivalente a GPT-3 no verão de 2026.
Na análise final, Talkie-1930 importa não como um chatbot nostálgico, mas como um laboratório para testar questões fundamentais sobre IA: o que o modelo genuinamente compreende, o que apenas memorizou, quão longe pode generalizar sem dicas do futuro e quanto a web moldou o caráter dos LLMs modernos. Se o projeto conseguir reduzir vazamentos e ruído de OCR, os pesquisadores ganharão uma das ferramentas mais limpas para estudar os limites da generalização em modelos de linguagem.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.