DeepSeek y Qwen intentaron pasarse "Everlasting Summer", pero se atascaron en el laberinto
Se probaron LLM locales en "Everlasting Summer": el juego en Ren’Py se conectó a Ollama mediante un puente TCP, y se hizo que los modelos eligieran líneas de…
Procesado por IA desde Habr AI; editado por Hamidun News
Un artículo en el blog de Selectel en Habr describió un experimento en el que modelos grandes de lenguaje locales se conectaron a la novela visual "Verano Infinito" y se les obligó a tomar decisiones de trama en lugar del jugador. Técnicamente la integración funcionó, pero en la práctica incluso modelos fuertes a menudo se confundían con las respuestas, se ralentizaban en contexto largo y llevaban la historia a finales fallidos.
Cómo se configuró la prueba
Eligieron "Verano Infinito" específicamente porque la novela visual consta casi en su totalidad de texto, lo que significa que aprovecha el punto fuerte de los LLMs. El juego tiene 13 finales, y las relaciones con los personajes cambian según el diálogo y las acciones, por lo que este formato resultó ser un campo de pruebas conveniente para verificar cómo se comporta el modelo en un diálogo de trama largo. Una ventaja adicional era que algunos de los modelos locales no conocían este juego de antemano y no podían simplemente "recordar" los movimientos correctos.
El lado técnico se construyó alrededor de Ren'Py, el motor que utiliza el juego. El autor añadió un archivo bridge.rpy al proyecto, lanzó un servidor TCP dentro del juego e interceptó funciones clave: salida de diálogo a través de say, menús de elección a través de display_menu e interacciones de mapa a través de store.
De esta manera el juego comenzó a enviar todo el diálogo hacia afuera, mientras que un coordinador externo tomaba decisiones en lugar de un humano. Los modelos se ejecutaban localmente en un servidor en la nube con 12 vCPU, 128 GB RAM, una H100 y 300 GB SSD a través de av/harbor, Docker y Ollama. Tuvieron que eludir un mini-juego de cartas de trama por separado para que el modelo no tuviera que aprender mecánicas adicionales no relacionadas con las opciones basadas en texto.
Dónde se rompió todo
Después del parche, el juego comenzó a ser controlado externamente a través de Ollama. El coordinador recopilaba diálogo, lo etiquetaba con roles system, tool, user y assistant, y enviaba al modelo una solicitud simple: te enfrentas a una opción, sugiere la opción correcta y responde con un número. En papel el esquema lucía directo, pero ya en las primeras escenas los modelos comenzaron a responder como humanos: añadiendo explicaciones, repitiendo la lista de opciones, eligiendo un número inexistente o emitiendo frases en el formato equivocado. Por esto tuvieron que introducir una solicitud adicional que extraía por separado el número de respuesta del texto.
El segundo problema resultó ser aún más doloroso: el contexto crecía demasiado rápido. Solo en el prólogo había 134 líneas, en el primer día — 862, y todo el juego contiene decenas de miles de líneas. Después del primer tercio de la progresión, cada punto de bifurcación podía tardar 5–7 minutos en procesarse. La solución resultó ser cruda pero funcional: los mensajes antiguos comenzaron a condensarse en breves resúmenes en lotes de cien para que el diálogo activo contuviera no más de doscientos mensajes. Esto aceleró notablemente las respuestas y redujo la proporción de reacciones extrañas.
Cómo terminaron las ejecuciones de la prueba
Después de la calibración, cinco modelos locales se enviaron a la prueba final: DeepSeek-R1:70b, Qwen3.5:9b, Qwen2.5:3b, gpt-oss:20b y Gemma3:27b. Todos jugaron el juego desde el principio sin acceso a partidas completadas, y el coordinador registró las opciones realizadas, respuestas intermedias y razonamientos.
La idea era simple: probar no la teoría sino la capacidad real del modelo para mantener una trama, navegar bifurcaciones y llevar una historia larga a un final coherente.
- DeepSeek-R1:70b llegó al final principal malo en las pruebas pero quedó atrapado en un bucle en el laberinto.
- gpt-oss:20b consistentemente llegó al final principal malo sin sorpresas notables.
- Qwen3.5:9b se movió rápidamente pero pasó más de veinte minutos en una opción.
- Qwen2.5:3b consiguió llegar a un final malo en la ruta de Lena.
- Gemma3:27b se perdió en el laberinto dos veces y llegó al final malo de Alicia en las pruebas.
"El generador de números pseudoaleatorios más caro", así describió el
autor el sistema después de las ejecuciones.
El resultado general salió débil no solo por los finales en sí. El problema clave se manifestó en el laberinto, donde era necesario tener en cuenta los giros ya realizados y no repetir la misma opción. Ahí fue donde los modelos más a menudo quedaron atrapados en el patrón antiguo y reprodujeron la respuesta anterior incluso cuando ya conducía a un callejón sin salida. Considerando que el juego tiene 13 finales y muchas líneas de trama se rompen con una única decisión errónea cerca del final, incluso un agente formalmente funcional sigue siendo un jugador demasiado poco confiable.
Qué significa esto
El experimento demostró que los LLMs locales ya pueden conectarse con bastante rapidez a un juego basado en texto a través de Ren'Py, Ollama y un simple puente de red. Pero esta aún no es una historia sobre un agente autónomo que entienda con confianza una trama larga y juegue estratégicamente a través de una novela visual: sin normalización estricta de respuestas, compresión de contexto y contornos manuales, tales modelos se atascan fácilmente en bucles, dudan en las opciones y más a menudo llegan a resultados malos que buenos.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.