OpenMythos: reconstrucción de código abierto de la arquitectura Claude Mythos en PyTorch con 770M parámetros
Anthropic nunca publicó un artículo técnico sobre Claude Mythos — pero la comunidad investigadora no se detuvo. El desarrollador Kye Gomez lanzó el proyecto…
Procesado por IA desde MarkTechPost; editado por Hamidun News
Anthropic nunca ha publicado un artículo técnico sobre Claude Mythos. Esto no ha detenido a la comunidad investigadora — y ahora el proyecto OpenMythos ha aparecido en GitHub, intentando responder a la pregunta: ¿cómo exactamente está estructurada esta arquitectura? El autor del proyecto, Kye Gomez, abordó la tarea desde primeros principios.
No se basó en filtraciones internas ni información privilegiada — únicamente en publicaciones revisadas por pares e investigaciones públicamente disponibles en el campo de arquitecturas de grandes modelos de lenguaje. El resultado es una reconstrucción completa de la presumida arquitectura Claude Mythos, implementada en PyTorch. El principal hallazgo técnico del proyecto: un modelo con 770 millones de parámetros demuestra un desempeño comparable al de arquitecturas transformadores estándar con 1.
300 millones de parámetros. Si esta observación es correcta, apunta a un enfoque fundamentalmente diferente para el escalado — no a través del aumento del número de parámetros, sino mediante una organización más eficiente de los mismos. Entre las presumidas soluciones arquitectónicas que Gomez reconstruyó en OpenMythos se encuentran mecanismos de atención especializados, esquemas de normalización no estándar y, aparentemente, un alejamiento del esquema clásico decoder-only de modelos similares a GPT.
Es la combinación de estas soluciones, según el autor, la que proporciona una eficiencia paramétrica anormalmente alta. Es importante entender: OpenMythos no es ingeniería inversa en el sentido técnico ni un intento de reproducir los pesos del modelo real de Anthropic. Es una hipótesis teórica formalizada en código funcional.
Gomez lo afirma explícitamente en la documentación: el proyecto refleja una posible interpretación de cómo podría estar estructurada tal arquitectura, en lugar de pretender la reproducción exacta del original. Sin embargo, el hecho mismo de la aparición de este proyecto es revelador. La opacidad de Anthropic respecto a los detalles arquitectónicos de Claude se ha convertido en la norma — la empresa publica investigaciones sobre seguridad, interpretabilidad y aprendizaje reforzado, pero evita revelar los detalles técnicos de sus modelos insignia.
Esto crea un vacío informativo que la comunidad llena por sí sola. OpenMythos no es el primer intento de este tipo. Anteriormente, la comunidad se ha dedicado a reconstruir las arquitecturas de GPT-4 y Gemini Ultra, basándose en indicadores indirectos de benchmarks, patrones de error y publicaciones de autores afiliados.
La diferencia es que aquí estamos tratando con una arquitectura que Anthropic nunca ha anunciado oficialmente — Claude Mythos se menciona únicamente en el contexto de rumores y filtraciones no confirmadas. Para los profesionales del aprendizaje automático, OpenMythos es interesante principalmente como fuente de ideas arquitectónicas. Incluso si la reconstrucción resulta ser inexacta, soluciones específicas — en organización de atención, esquemas de normalización, enfoques de escalado — pueden resultar útiles independientemente de su origen.
El proyecto se publica bajo una licencia abierta, con código disponible en GitHub. Esto significa que cualquiera puede ejecutar la arquitectura, verificar las características declaradas y proponer sus propias interpretaciones. En esencia, Gomez ha abierto una investigación colectiva — y ahora la comunidad la continuará.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.