Habr AI→ original

DeepSeek e Qwen tentaram concluir "Everlasting Summer", mas ficaram presos no labirinto

LLMs locais foram testados em "Everlasting Summer": o jogo em Ren’Py foi ligado ao Ollama por uma ponte TCP, e os modelos tiveram de escolher falas e rotas…

Processado por IA de Habr AI; editado por Hamidun News
DeepSeek e Qwen tentaram concluir "Everlasting Summer", mas ficaram presos no labirinto
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Um post no blog da Selectel no Habr descreveu um experimento em que modelos grandes de linguagem locais foram conectados à novela visual "Infinito Verão" e forçados a tomar decisões de enredo em vez do jogador. Tecnicamente a integração funcionou, mas na prática até mesmo modelos fortes frequentemente se confundiam com as respostas, ficavam lentos em contexto longo e levavam a história a finais malsucedidos.

Como o teste foi configurado

Escolheram "Infinito Verão" especificamente porque a novela visual consiste quase inteiramente de texto, o que significa que explora o ponto forte dos LLMs. O jogo tem 13 finais, e os relacionamentos com personagens mudam dependendo do diálogo e das ações, então este formato se mostrou um campo de testes conveniente para verificar como o modelo se comporta em um diálogo de enredo longo. Uma vantagem adicional era que alguns dos modelos locais não conheciam este jogo de antemão e não conseguiam simplesmente "lembrar" dos movimentos corretos.

O lado técnico foi construído em torno do Ren'Py, o engine que o jogo usa. O autor adicionou um arquivo bridge.rpy ao projeto, iniciou um servidor TCP dentro do jogo e interceptou funções-chave: saída de diálogo através de say, menus de escolha através de display_menu e interações de mapa através de store.

Dessa forma o jogo começou a enviar todo o diálogo para fora, enquanto um coordenador externo tomava decisões em vez de um humano. Os modelos rodavam localmente em um servidor em nuvem com 12 vCPU, 128 GB RAM, uma H100 e 300 GB SSD através de av/harbor, Docker e Ollama. Tiveram que contornar um mini-jogo de carta de enredo separadamente para que o modelo não precisasse aprender mecânicas adicionais não relacionadas a escolhas baseadas em texto.

Onde as coisas quebraram

Depois do patch, o jogo começou a ser controlado externamente através do Ollama. O coordenador coletava diálogo, o marcava com papéis system, tool, user e assistant, e enviava ao modelo um pedido simples: você enfrenta uma escolha, sugira a opção certa e responda com um número. No papel o esquema parecia direto, mas já nas primeiras cenas os modelos começaram a responder como humanos: adicionando explicações, repetindo a lista de opções, escolhendo um número inexistente ou emitindo frases no formato errado. Por causa disso tiveram que introduzir um pedido adicional que extraía separadamente o número da resposta do texto.

O segundo problema se mostrou ainda mais doloroso: o contexto crescia muito rapidamente. Apenas no prólogo havia 134 linhas, no primeiro dia — 862, e o jogo inteiro contém dezenas de milhares de linhas. Depois do primeiro terço da progressão, cada ponto de bifurcação podia levar 5–7 minutos para processar. A solução se mostrou crua mas funcional: mensagens antigas começaram a ser condensadas em breves resumos em lotes de cem para que o diálogo ativo contivesse no máximo duzentas mensagens. Isso acelerou notavelmente as respostas e reduziu a proporção de reações estranhas.

Como as execuções do teste terminaram

Após a calibração, cinco modelos locais foram enviados para o teste final: DeepSeek-R1:70b, Qwen3.5:9b, Qwen2.5:3b, gpt-oss:20b e Gemma3:27b. Todos jogaram o jogo do início sem acesso a passagens prontas, e o coordenador registrou as escolhas feitas, respostas intermediárias e raciocínio.

A ideia era simples: testar não a teoria mas a capacidade real do modelo de manter um enredo, navegar bifurcações e levar uma história longa a um final coerente.

  • DeepSeek-R1:70b chegou ao final principal ruim nos testes mas ficou preso em um loop no labirinto.
  • gpt-oss:20b consistentemente chegou ao final principal ruim sem surpresas notáveis.
  • Qwen3.5:9b se moveu rapidamente mas gastou mais de vinte minutos em uma escolha.
  • Qwen2.5:3b conseguiu chegar a um final ruim na rota de Lena.
  • Gemma3:27b se perdeu no labirinto duas vezes e chegou ao final ruim de Alice nos testes.
"O gerador de números pseudoaleatórios mais caro", assim o autor

descreveu o sistema depois das execuções.

O resultado geral saiu fraco não apenas por causa dos finais em si. O problema chave se manifestou no labirinto, onde era necessário levar em conta as voltas já feitas e não repetir a mesma escolha. Foi lá que os modelos mais frequentemente ficaram presos no padrão antigo e reproduziram a resposta anterior mesmo quando ela já levava a um beco sem saída. Considerando que o jogo tem 13 finais e muitas linhas de enredo quebram com uma única decisão errada perto do fim, até mesmo um agente formalmente funcional permanece um jogador muito pouco confiável.

O que isso significa

O experimento mostrou que LLMs locais já podem ser conectados com bastante rapidez a um jogo baseado em texto através de Ren'Py, Ollama e uma simples ponte de rede. Mas isso ainda não é uma história sobre um agente autônomo que entende com confiança um enredo longo e joga estrategicamente através de uma novela visual: sem normalização rígida de respostas, compressão de contexto e contornos manuais, tais modelos facilmente caem em loops, hesitam em escolhas e mais frequentemente chegam a resultados ruins do que bons.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…