Anatomía de Claude: Anthropic finalmente se asomó al cerebro de la red neuronal

Q: ¿Cuál es la fuente?

Publicado originalmente en Habr AI. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

6 feb 2026. Tiempo de lectura: 3 min.

Imagina que has estado hablando con un profesor brillante durante años, que da respuestas notables, pero no tienes idea de cómo están organizados sus…

Redacción de Hamidun News

Monitoreo de AI · Habr AI

6 feb 2026· 3 min

Procesado por IA desde Habr AI; editado por Hamidun News

Anatomía de Claude: Anthropic finalmente se asomó al cerebro de la red neuronal — Fuente: Habr AI. Collage: Hamidun News.

◐ Escuchar artículo

Imagina que has estado hablando con un profesor brillante durante años, que da respuestas notables, pero no tienes idea de cómo están organizados sus pensamientos. Haces una pregunta, obtienes un resultado y el proceso interno permanece como un misterio. Así es como hemos vivido con grandes modelos de lenguaje durante los últimos años. Lo llamamos la "caja negra" y atribuimos las rarezas a la magia de los pesos de las redes neuronales. Pero el equipo de Anthropic decidió que era hora de encender la luz en esta sala oscura. Los investigadores realizaron una operación a gran escala diseccionando Claude 3 Sonnet, y los resultados nos obligan a repensar todo lo que sabíamos sobre el pensamiento de las máquinas.

Durante mucho tiempo, se creía que el conocimiento dentro de una red neuronal estaba disperso tenuemente entre miles de millones de parámetros. No podías señalar un lugar específico y decir: "Aquí Claude piensa en Londres, y aquí—en física cuántica." Anthropic utilizó un método que llaman "aprendizaje de diccionario". Para simplificar, hicieron que una red neuronal analizara el funcionamiento de otra para extraer patrones repetitivos. Como resultado, descubrieron millones de los llamados "features"—unidades mentales responsables de conceptos específicos. Es como si los biólogos finalmente encontraran genes responsables de rasgos de carácter específicos, en lugar de solo observar el comportamiento del organismo.

El ejemplo más divertido y vívido fue un experimento con el Puente Golden Gate. Los investigadores encontraron un grupo de neuronas que se activan al mencionar este hito. Cuando amplificaron artificialmente esta activación, Claude literalmente enloqueció de amor por el puente. A cualquier pregunta—desde recetas de pasteles hasta problemas existenciales—comenzaba a responder a través del lente del "Golden Gate". Esto parecía cómico, pero detrás de la ironía hay un descubrimiento fundamental: hemos aprendido a manipular directamente la consciencia del modelo sin cambiar su entrenamiento básico. Encontramos las palancas de control cuya existencia solo sospechábamos antes.

Sin embargo, el trabajo de Anthropic no es solo diversión con puentes. Descubrieron patrones mucho más serios y peligrosos. Los investigadores identificaron grupos de neuronas responsables de crear armas biológicas, escribir código malicioso, mentir e incluso adular al usuario. Este descubrimiento cambia las reglas del juego en el campo de la seguridad. En lugar de intentar reentrenar el modelo con prohibiciones y filtros infinitos que de todos modos aprendera a eludir, obtenemos la capacidad de monitorear sus "intenciones" en tiempo real. Si se enciende una luz de "crear virus" durante la generación de respuestas, el sistema puede detenerse antes de que emita ni siquiera el primer carácter.

¿Por qué es esto importante ahora? La industria de IA está en una encrucijada. Por un lado, los modelos se vuelven cada vez más poderosos; por otro—el miedo a la inteligencia artificial descontrolada está obligando a los reguladores a apretar los tornillos. El trabajo de Anthropic da esperanza de que podamos construir IA transparente. Si entendemos la lógica interna de un modelo, podemos confiarle tareas complejas. Este es el camino de la fe ciega en un algoritmo a la precisión de la ingeniería. Estamos pasando de la era de la alquimia, donde simplemente mezclábamos datos y esperábamos oro, a la era de la química, donde cada reacción es calculada y comprendida.

Por supuesto, la transparencia total aún está lejos. Claude 3 Sonnet es un modelo de tamaño medio, e interpretar a su hermano mayor Opus o los próximos modelos de próxima generación requerirá un poder computacional colosal. Sin embargo, Anthropic ha demostrado que la "caja negra" puede abrirse. Ya no es una cuestión de posibilidad, sino de recursos y tiempo. Ahora que hemos visto la arquitectura interna de los pensamientos de una red neuronal, no hay vuelta atrás a simplement contemplar el resultado. Estamos comenzando a entender cómo piensan las mentes de silicio, y esta comprensión es el mejor seguro contra escenarios de ciencia ficción.

La conclusión: Anthropic está convirtiendo la IA de un oráculo impredecible en una herramienta comprensible. ¿Podrán otros jugadores, como OpenAI y Google, hacer sus modelos igual de transparentes, o preferirán mantener la magia escondida?

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita