Google Gemini 3 Deep Think: nuevo récord en pruebas de inteligencia general
Google anunció una actualización de Gemini 3 Deep Think centrada en la ciencia y la ingeniería. El logro clave fue una puntuación del 84,6% en el benchmark…
Procesado por IA desde MarkTechPost; editado por Hamidun News
Google está cruzando una nueva frontera en el desarrollo de la inteligencia artificial. La empresa anunció una actualización de Gemini 3 Deep Think, que logra una puntuación del 84,6% en el benchmark ARC-AGI-2 — una prueba que los científicos consideran como la última barrera seria antes de lograr la inteligencia general. Esto no es simplemente una mejora incremental del modelo, sino un cambio fundamental en cómo las redes neuronales artificiales resuelven problemas complejos. En lugar de generar texto simple, el sistema ahora utiliza un modo de razonamiento profundo con verificación interna, permitiendo que la máquina verifique su propia lógica en tiempo real.
Para entender la significancia de este paso, vale la pena recordar qué sucedió en la industria en los últimos años. Los grandes modelos de lenguaje como GPT y Claude se destacan en la generación de texto, pero frecuentemente tropiezan con tareas que requieren inferencia lógica en múltiples pasos y verificación de resultados. ARC-AGI-2 fue diseñado específicamente por investigadores como una prueba que resiste el simple escalado de modelos — es un conjunto de tareas de lógica y razonamiento abstracto que requieren razonamiento real, no solo predicción de la siguiente palabra.
Una puntuación de 84,6% significa que Gemini 3 Deep Think resuelve correctamente cuatro de cada cinco de estas tareas, algo que era imposible anteriormente incluso para los sistemas más potentes.
Técnicamente, esto se logra a través de un nuevo mecanismo de razonamiento interno. El modelo ya no se apresura a proporcionar una respuesta, sino que pasa por varios estadios de deliberación, verificando cada paso de la lógica antes de formular la respuesta final. Es similar a cómo un matemático no simplemente declara la respuesta, sino que trabaja el problema paso a paso, verificando cada cálculo. Google ha incorporado al modelo una capacidad de auto-verificación, que reduce radicalmente la probabilidad de errores lógicos. Este enfoque es aplicable no solo a rompecabezas abstractos, sino también a tareas científicas e ingenieriles reales que requieren análisis profundo y verificación de hipótesis.
Es precisamente por esto que Google posiciona esta actualización como una herramienta para la ciencia y la ingeniería, en lugar del entretenimiento. El modelo ahora es capaz de asistir a investigadores en el diseño de sistemas complejos, la verificación de hipótesis científicas y la solución de problemas de ingeniería que requieren análisis multinivel. Esto podría acelerar el desarrollo de nuevos materiales, medicamentos, arquitecturas de microchips y otros sistemas complejos, donde cada error cuesta tiempo y dinero significativos.
¿Qué significa esto para el futuro de la AGI — inteligencia artificial general? Una puntuación de 84,6% en ARC-AGI-2 no es una línea de meta, sino una señal clara de que nos estamos moviendo no hacia generadores de texto cada vez más potentes, sino hacia sistemas capaces de un razonamiento genuino. Este es un paradigma que difiere de lo que ha dominado los últimos años. El cambio de escalar a trillones de parámetros a la implementación de mecanismos de verificación y razonamiento paso a paso puede ser exactamente lo que se necesita para el progreso futuro.
Sin embargo, debemos ser cuidadosos con nuestras formulaciones. Una puntuación alta en un solo benchmark no significa que la AGI ya esté aquí. ARC-AGI-2 prueba un tipo específico de inteligencia — razonamiento lógico abstracto. La inteligencia general real requerirá éxito en muchos otros frentes: comprensión del contexto, manejo de la incertidumbre, adaptación a nuevas situaciones. Sin embargo, el logro de Google muestra que el camino hacia esto se está volviendo más claro. Los modelos están aprendiendo no solo a generar, sino a pensar, verificar y justificar.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.