Google Gemini 3 Deep Think: novo recorde em testes de inteligência geral
O Google anunciou uma atualização do Gemini 3 Deep Think, focada em ciência e engenharia. O principal resultado foi 84,6% no benchmark ARC-AGI-2, considerado…
Processado por IA de MarkTechPost; editado por Hamidun News
Google está cruzando uma nova fronteira no desenvolvimento da inteligência artificial. A empresa anunciou uma atualização do Gemini 3 Deep Think, que atinge uma pontuação de 84,6% no benchmark ARC-AGI-2 — um teste que cientistas consideram como a última barreira séria antes de alcançar a inteligência geral. Isso não é simplesmente uma melhoria incremental do modelo, mas uma mudança fundamental em como as redes neurais artificiais resolvem problemas complexos. Em vez de gerar texto simples, o sistema agora utiliza um modo de raciocínio profundo com verificação interna, permitindo que a máquina verifique sua própria lógica em tempo real.
Para entender a significância deste passo, vale a pena lembrar o que aconteceu na indústria nos últimos anos. Grandes modelos de linguagem como GPT e Claude se destacam na geração de texto, mas frequentemente tropeçam em tarefas que exigem inferência lógica em múltiplas etapas e verificação de resultados. ARC-AGI-2 foi especificamente projetado por pesquisadores como um teste que resiste ao simples dimensionamento de modelos — é um conjunto de tarefas de lógica e raciocínio abstrato que exigem raciocínio real, não apenas previsão da próxima palavra. Uma pontuação de 84,6% significa que Gemini 3 Deep Think resolve quatro em cinco dessas tarefas corretamente, algo que era impossível anteriormente mesmo para os sistemas mais poderosos.
Tecnicamente, isso é alcançado através de um novo mecanismo de raciocínio interno. O modelo não se apressa mais em fornecer uma resposta, mas passa por vários estágios de deliberação, verificando cada etapa da lógica antes de formular a resposta final. É semelhante a como um matemático não apenas declara a resposta, mas trabalha o problema passo a passo, verificando cada cálculo. Google incorporou ao modelo uma capacidade de auto-verificação, que reduz radicalmente a probabilidade de erros lógicos. Essa abordagem é aplicável não apenas a quebra-cabeças abstratos, mas também a tarefas científicas e de engenharia reais que exigem análise profunda e verificação de hipóteses.
É precisamente por isso que Google posiciona essa atualização como uma ferramenta para ciência e engenharia, em vez de entretenimento. O modelo agora é capaz de auxiliar pesquisadores no projeto de sistemas complexos, na verificação de hipóteses científicas e na solução de problemas de engenharia que exigem análise multinível. Isso poderia acelerar o desenvolvimento de novos materiais, medicamentos, arquiteturas de microchips e outros sistemas complexos, onde cada erro custa tempo e dinheiro significativos.
O que isso significa para o futuro da AGI — inteligência artificial geral? Uma pontuação de 84,6% no ARC-AGI-2 não é uma linha de chegada, mas um sinal claro de que estamos nos movendo não em direção a geradores de texto cada vez mais poderosos, mas em direção a sistemas capazes de raciocínio genuíno. Este é um paradigma que difere do que dominou nos últimos anos. A mudança de dimensionamento para trilhões de parâmetros para implementação de mecanismos de verificação e raciocínio passo a passo pode ser exatamente o que é necessário para o progresso futuro.
No entanto, devemos ser cuidadosos com nossas formulações. Uma pontuação alta em um único benchmark não significa que a AGI já chegou. ARC-AGI-2 testa um tipo específico de inteligência — raciocínio lógico abstrato. A inteligência geral real exigirá sucesso em muitas outras frentes: compreender contexto, lidar com incerteza, adaptar-se a novas situações. Não obstante, a realização de Google mostra que o caminho para isso está ficando mais claro. Os modelos estão aprendendo não apenas a gerar, mas a pensar, verificar e justificar.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.