Project Genie de Google DeepMind: cómo crear mundos enteros con prompts de texto
Google DeepMind ha publicado una guía para usar Project Genie — un sistema de generación de mundos virtuales interactivos a partir de prompts de texto. La…
Procesado por IA desde Google AI Blog; editado por Hamidun News
Imagina que para crear un nivel de videojuego o un mundo virtual ya no necesitas un equipo de diseñadores, programadores y artistas. Es suficiente escribir algunas frases—y el sistema generará un espacio interactivo por el que puedas moverte e interactuar. Esto es exactamente lo que promete Project Genie de Google DeepMind, y ahora la compañía está compartiendo recomendaciones prácticas para trabajar con esta herramienta.
Project Genie no es exactamente un proyecto nuevo. Las primeras menciones aparecieron en 2024, cuando Google DeepMind presentó un modelo de investigación capaz de generar simples plataformadores bidimensionales a partir de una única imagen o descripción textual. Sin embargo, desde entonces, el sistema ha recorrido un largo camino. En su iteración actual, Project Genie permite crear espacios virtuales significativamente más complejos y detallados, y la calidad del resultado depende directamente de cómo el usuario formula su solicitud. Por eso Google decidió lanzar una especie de guía de ingeniería de prompts adaptada específicamente para la generación de mundos.
Los cuatro principios que propone Google DeepMind pueden parecer obvios a primera vista, pero cada uno está respaldado por una comprensión profunda de cómo los modelos generativos interpretan las solicitudes de los usuarios. El primero y quizás más importante es la especificidad de la descripción. El modelo funciona significativamente mejor cuando en lugar de un abstracto "bosque hermoso" describes "un denso bosque de coníferas con niebla matinal entre los troncos de pinos y musgo suave en las rocas".
El segundo principio se refiere a la estructura espacial: Genie entiende mejor los prompts que especifican explícitamente las relaciones entre objetos—qué está en el primer plano, qué está en el fondo, qué elementos dominan la escena. El tercer principio es la iteratividad: el sistema admite el refinamiento secuencial del resultado, y los mejores mundos no nacen de la primera solicitud, sino a través de una serie de refinamientos. Finalmente, el cuarto principio está relacionado con la interactividad—se recomienda a los usuarios especificar explícitamente qué elementos del mundo deben ser dinámicos y cuáles deben ser estáticos.
Técnicamente, Project Genie representa el siguiente paso evolutivo después de los modelos generativos para imágenes y video. Si Imagen y Veo aprendieron a crear contenido estático y dinámico visualmente convincente, entonces Genie añade una capa de interactividad a esto—la capacidad no solo de mirar un mundo generado, sino de actuar dentro de él. Esta es una tarea fundamentalmente más compleja porque el modelo debe no solo crear un espacio visualmente coherente, sino también considerar la física de los objetos, la lógica de las interacciones y la consistencia del mundo al cambiar el ángulo de visión.
Esencialmente, Google DeepMind está construyendo una base para lo que la industria llama "generación procedural de nueva generación"—solo que en lugar de reglas algorítmicas, aquí funciona la comprensión de redes neuronales de cómo funcionan los espacios.
Las consecuencias de esta tecnología para la industria son difíciles de exagerar. El diseño de juegos es la primera y más obvia área de aplicación. Los desarrolladores independientes que carecen de recursos para crear vastos mundos de juegos obtienen una herramienta capaz de acelerar radicalmente la creación de prototipos. Pero el potencial de Project Genie se extiende mucho más allá de los juegos. Los arquitectos pueden usar sistemas similares para visualizar rápidamente conceptos espaciales. Las plataformas educativas pueden usarlas para crear reconstrucciones históricas interactivas o simulaciones científicas. Los metaversos, de los que se hablaba tanto hace unos años, de repente adquieren sentido práctico si llenar espacios virtuales de contenido deja de ser un cuello de botella.
También es importante señalar el contexto competitivo. Google no es la única compañía que trabaja en la generación de entornos interactivos. Investigación similar se está realizando en Meta y en varios startups, como World Labs de Fei-Fei Li. Sin embargo, Google tiene una ventaja significativa—la integración del ecosistema. Project Genie podría estar vinculado a Google Maps para generar espacios urbanos realistas, a YouTube para aprender de miles de millones de horas de contenido de video, a Android para distribución móvil. Este es un caso en el que la superioridad de la infraestructura podría resultar decisiva.
Sin embargo, la publicación de una guía práctica en lugar de un informe técnico completo plantea preguntas. Google claramente quiere atraer a una audiencia amplia de creadores de contenido a Project Genie, pero por ahora no está revelando detalles sobre la accesibilidad de la herramienta, sus limitaciones y planes de comercialización. El hecho de que la compañía esté enseñando a los usuarios a escribir prompts para la generación de mundos sugiere que la tecnología se está acercando a la etapa de un producto público.
La pregunta es solo si Project Genie se convertirá en un servicio independiente, parte de Google Cloud o un componente de una plataforma más amplia. En cualquier caso, la línea entre "describir un mundo" y "construir un mundo" se está volviendo cada vez más fina, y esta es una de las tendencias más intrigantes en el desarrollo de la inteligencia artificial generativa.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.