Project Genie, do Google DeepMind: como criar mundos inteiros com prompts de texto
O Google DeepMind publicou um guia de uso do Project Genie — um sistema de geração de mundos virtuais interativos a partir de prompts de texto. A empresa…
Processado por IA de Google AI Blog; editado por Hamidun News
Imagine que para criar um nível de videogame ou um mundo virtual, você não precise mais de uma equipe de designers, programadores e artistas. Basta escrever algumas frases—e o sistema irá gerar um espaço interativo pelo qual você pode se mover e interagir. É exatamente isso que promete o Project Genie do Google DeepMind, e agora a empresa está compartilhando recomendações práticas para trabalhar com essa ferramenta.
O Project Genie não é exatamente um projeto novo. As primeiras menções apareceram em 2024, quando o Google DeepMind apresentou um modelo de pesquisa capaz de gerar simples plataformadores bidimensionais a partir de uma única imagem ou descrição textual. No entanto, desde então, o sistema percorreu um longo caminho. Em sua iteração atual, o Project Genie permite criar espaços virtuais significativamente mais complexos e detalhados, e a qualidade do resultado depende diretamente de como o usuário formula seu pedido. É por isso que o Google decidiu lançar uma espécie de guia de engenharia de prompts adaptado especificamente para geração de mundos.
Os quatro princípios que o Google DeepMind propõe podem parecer óbvios à primeira vista, mas cada um deles é respaldado por uma compreensão profunda de como os modelos generativos interpretam solicitações de usuários. O primeiro e talvez mais importante é a especificidade da descrição. O modelo funciona significativamente melhor quando, em vez de uma "bela floresta" abstrata, você descreve "uma densa floresta de coníferas com neblina matinal entre os troncos de pinheiros e musgo macio nas pedras".
O segundo princípio diz respeito à estrutura espacial: Genie compreende melhor os prompts que explicitamente especificam as relações entre objetos—o que está em primeiro plano, o que está em segundo plano, quais elementos dominam a cena. O terceiro princípio é a iteratividade: o sistema suporta refinamento sequencial do resultado, e os melhores mundos não nascem do primeiro pedido, mas através de uma série de refinamentos. Por fim, o quarto princípio está relacionado à interatividade—recomenda-se aos usuários especificar explicitamente quais elementos do mundo devem ser dinâmicos e quais devem ser estáticos.
Tecnicamente, o Project Genie representa o próximo passo evolutivo depois dos modelos generativos para imagens e vídeo. Se o Imagen e o Veo aprenderam a criar conteúdo estático e dinâmico visualmente convincente, então o Genie adiciona uma camada de interatividade a isso—a capacidade não apenas de olhar para um mundo gerado, mas de agir dentro dele. Esta é uma tarefa fundamentalmente mais complexa porque o modelo deve não apenas criar um espaço visualmente coerente, mas também considerar a física dos objetos, a lógica de interações e a consistência do mundo ao alterar o ângulo de visão.
Essencialmente, o Google DeepMind está construindo uma fundação para o que a indústria chama de "geração procedural da nova geração"—apenas em vez de regras algorítmicas, a compreensão de redes neurais de como os espaços funcionam está em jogo.
As consequências dessa tecnologia para a indústria são difíceis de exagerar. O design de jogos é a primeira e mais óbvia área de aplicação. Desenvolvedoras independentes que não têm recursos para criar vastos mundos de jogos obtêm uma ferramenta capaz de acelerar radicalmente a prototipagem. Mas o potencial do Project Genie se estende muito além dos jogos. Arquitetos podem usar sistemas similares para visualizar rapidamente conceitos espaciais. Plataformas educacionais podem usá-las para criar reconstruções históricas interativas ou simulações científicas. Metaversos, que foram tão discutidos alguns anos atrás, de repente ganham significado prático se preencher espaços virtuais com conteúdo deixa de ser um gargalo.
Também é importante notar o contexto competitivo. Google não é a única empresa trabalhando na geração de ambientes interativos. Pesquisa similar está sendo conduzida na Meta e em uma série de startups, como World Labs de Fei-Fei Li. No entanto, Google tem uma vantagem significativa—integração do ecossistema. O Project Genie poderia potencialmente ser vinculado ao Google Maps para gerar espaços urbanos realistas, ao YouTube para aprender de bilhões de horas de conteúdo de vídeo, ao Android para distribuição móvel. Este é um caso em que a superioridade infraestrutural poderia ser decisiva.
No entanto, a publicação de um guia prático em vez de um relatório técnico completo levanta questões. Google claramente quer atrair um público amplo de criadores de conteúdo para o Project Genie, mas por enquanto não está revelando detalhes sobre acessibilidade da ferramenta, suas limitações e planos de comercialização. O próprio fato de a empresa estar ensinando aos usuários a escrever prompts para geração de mundos sugere que a tecnologia está se aproximando da etapa de um produto público.
A questão é apenas se o Project Genie se tornará um serviço autônomo, parte do Google Cloud ou um componente de uma plataforma mais ampla. Em qualquer caso, a linha entre "descrever um mundo" e "construir um mundo" está ficando cada vez mais fina, e esta é uma das tendências mais intrigantes no desenvolvimento da inteligência artificial generativa.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.