Emu2 в Nature: китайские ученые нашли единый código для реальности
Por muito tempo, a inteligência artificial moderna lembrava um monstro de Frankenstein de alta tecnologia. Nos acostumamos com o fato de que as redes neurais…
Processado por IA de Jiqizhixin (机器之心); editado por Hamidun News
Por muito tempo, a inteligência artificial moderna lembrava um monstro de Frankenstein de alta tecnologia. Nos acostumamos com o fato de que as redes neurais possuem diferentes "órgãos" para diferentes sentidos: modelos de linguagem como o GPT se destacavam brilhantemente com texto através de autorregressão, predizendo a próxima palavra, enquanto geradores de imagens como Midjourney ou Stable Diffusion viviam em um mundo de difusão, extraindo ordem do caos de pixels aleatórios. Essa divisão parecia fundamental e imutável, como a diferença entre lógica e imaginação.
No entanto, pesquisadores da Academia Pekingana de Inteligência Artificial (BAAI) decidiram que esse dualismo arquitetônico merecia ser deixado no passado. Seu novo trabalho sobre o modelo multimodal Emu2, recém-publicado na revista Nature, faz uma afirmação audaciosa: compreender e criar este mundo requer apenas um único princípio algorítmico. A essência do avanço reside na unificação.
Os cientistas conseguiram provar que qualquer informação—seja um tratado filosófico, um vídeo de um gato correndo ou um esquema de microchip—pode ser reduzida a um único formato de token. No sistema Emu2, uma imagem não é mais um conjunto de pixels no sentido convencional. Ela se transforma em uma sequência de "palavras visuais" que a rede neural aprende a predizer assim como predizemos o final desta frase.
Essa abordagem, chamada aprendizado autorregressivo, foi considerada por muito tempo muito pesada para gráficos. Mas os engenheiros chineses, usando um modelo com 37 bilhões de parâmetros, demonstraram que com a abordagem correta, a autorregressão não apenas iguala a difusão em qualidade, mas a supera em flexibilidade. Por que quebrar algo que funcionava bem o suficiente?
O problema dos sistemas atuais está em suas "costuras". Quando você tenta juntar um cérebro textual com olhos visuais, é preciso construir pontes-adaptadores complexas, nas quais significado e contexto inevitavelmente se perdem. Emu2, porém, possui multimodalidade inerente.
Ela não traduz da linguagem das imagens para a linguagem das palavras—ela pensa originalmente em uma linguagem onde pixel e letra têm igual valor. Isso permite que o modelo demonstre eficiência assustadora em aprendizado in-context. Você pode mostrar-lhe alguns exemplos de como editar uma foto, e ela instantaneamente compreende a lógica da tarefa sem qualquer treinamento adicional.
Essa é precisamente a magia que certa vez tornou o GPT-3 uma sensação global, mas agora ela se espalhou por todo o espaço visual. O contexto deste evento não pode ser ignorado. Publicação na Nature é o mais alto sinal de qualidade no mundo científico, e o fato de ter sido concedido à BAAI fala por si.
Enquanto gigantes ocidentais como OpenAI ou Google competem pelo sigilo de seus laboratórios, pesquisadores chineses constroem metodicamente a base teórica para a próxima geração de IA. Emu2 efetivamente traça uma linha sob a era das ferramentas especializadas. Estamos entrando em uma era de mecanismos universais de previsão da realidade.
Se tudo ao nosso redor é uma sequência de dados, então vencerá aquele cuja modelo melhor prediz o próximo elemento dessa sequência, independentemente de sua natureza. Claro, a transição para autorregressão pura exige recursos computacionais colossais. Este é um jogo para aqueles com acesso ilimitado a GPUs e paciência infinita ao ajustar hiperparâmetros.
Mas a história da tecnologia nos ensina: a universalidade elegante sempre derrota as soluções especializadas em longo prazo. Já vimos como transformers "devoraram" redes recorrentes na linguística. Agora estamos observando como eles começam a absorver o mundo da visão computacional.
Isso não é apenas outro modelo, é um manifesto de uma nova pureza arquitetônica que forçará muitos a reconsiderar seus roadmaps para os próximos anos. O essencial: Pequim oficialmente consolidou sua posição como líder na teoria fundamental de IA, provando que o futuro pertence aos modelos autorregressivos unificados. Isso significa que as redes neurais de difusão estão destinadas à pilha da história, ou encontrarão seu nicho em tarefas muito especializadas?
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.