MarkTechPost→ original

Google Gemini 3 Deep Think: novo recorde em testes de inteligência geral

O Google anunciou uma atualização do Gemini 3 Deep Think, focada em ciência e engenharia. O principal resultado foi 84,6% no benchmark ARC-AGI-2, considerado…

Processado por IA de MarkTechPost; editado por Hamidun News
Google Gemini 3 Deep Think: novo recorde em testes de inteligência geral
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

Google está cruzando uma nova fronteira no desenvolvimento da inteligência artificial. A empresa anunciou uma atualização do Gemini 3 Deep Think, que atinge uma pontuação de 84,6% no benchmark ARC-AGI-2 — um teste que cientistas consideram como a última barreira séria antes de alcançar a inteligência geral. Isso não é simplesmente uma melhoria incremental do modelo, mas uma mudança fundamental em como as redes neurais artificiais resolvem problemas complexos. Em vez de gerar texto simples, o sistema agora utiliza um modo de raciocínio profundo com verificação interna, permitindo que a máquina verifique sua própria lógica em tempo real.

Para entender a significância deste passo, vale a pena lembrar o que aconteceu na indústria nos últimos anos. Grandes modelos de linguagem como GPT e Claude se destacam na geração de texto, mas frequentemente tropeçam em tarefas que exigem inferência lógica em múltiplas etapas e verificação de resultados. ARC-AGI-2 foi especificamente projetado por pesquisadores como um teste que resiste ao simples dimensionamento de modelos — é um conjunto de tarefas de lógica e raciocínio abstrato que exigem raciocínio real, não apenas previsão da próxima palavra. Uma pontuação de 84,6% significa que Gemini 3 Deep Think resolve quatro em cinco dessas tarefas corretamente, algo que era impossível anteriormente mesmo para os sistemas mais poderosos.

Tecnicamente, isso é alcançado através de um novo mecanismo de raciocínio interno. O modelo não se apressa mais em fornecer uma resposta, mas passa por vários estágios de deliberação, verificando cada etapa da lógica antes de formular a resposta final. É semelhante a como um matemático não apenas declara a resposta, mas trabalha o problema passo a passo, verificando cada cálculo. Google incorporou ao modelo uma capacidade de auto-verificação, que reduz radicalmente a probabilidade de erros lógicos. Essa abordagem é aplicável não apenas a quebra-cabeças abstratos, mas também a tarefas científicas e de engenharia reais que exigem análise profunda e verificação de hipóteses.

É precisamente por isso que Google posiciona essa atualização como uma ferramenta para ciência e engenharia, em vez de entretenimento. O modelo agora é capaz de auxiliar pesquisadores no projeto de sistemas complexos, na verificação de hipóteses científicas e na solução de problemas de engenharia que exigem análise multinível. Isso poderia acelerar o desenvolvimento de novos materiais, medicamentos, arquiteturas de microchips e outros sistemas complexos, onde cada erro custa tempo e dinheiro significativos.

O que isso significa para o futuro da AGI — inteligência artificial geral? Uma pontuação de 84,6% no ARC-AGI-2 não é uma linha de chegada, mas um sinal claro de que estamos nos movendo não em direção a geradores de texto cada vez mais poderosos, mas em direção a sistemas capazes de raciocínio genuíno. Este é um paradigma que difere do que dominou nos últimos anos. A mudança de dimensionamento para trilhões de parâmetros para implementação de mecanismos de verificação e raciocínio passo a passo pode ser exatamente o que é necessário para o progresso futuro.

No entanto, devemos ser cuidadosos com nossas formulações. Uma pontuação alta em um único benchmark não significa que a AGI já chegou. ARC-AGI-2 testa um tipo específico de inteligência — raciocínio lógico abstrato. A inteligência geral real exigirá sucesso em muitas outras frentes: compreender contexto, lidar com incerteza, adaptar-se a novas situações. Não obstante, a realização de Google mostra que o caminho para isso está ficando mais claro. Os modelos estão aprendendo não apenas a gerar, mas a pensar, verificar e justificar.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…