OpenMythos : reconstruction open-source de l'architecture Claude Mythos en PyTorch avec 770M paramètres
Anthropic n'a jamais publié d'article technique sur Claude Mythos — mais la communauté de recherche ne s'est pas arrêtée. Le développeur Kye Gomez a lancé le…
Traité par IA depuis MarkTechPost ; édité par Hamidun News
Anthropic n'a jamais publié d'article technique sur Claude Mythos. Cela n'a pas arrêté la communauté de recherche — et maintenant le projet OpenMythos a émergé sur GitHub, tentant de répondre à la question : comment exactement cette architecture est-elle structurée ? L'auteur du projet, Kye Gomez, a abordé la tâche à partir des premiers principes.
Il ne s'est pas appuyé sur des fuites internes ou des informations confidentielles — uniquement sur des publications examinées par les pairs et des recherches publiquement disponibles dans le domaine des architectures de grands modèles de langage. Le résultat est une reconstruction complète de l'architecture présumée de Claude Mythos, implémentée en PyTorch. La principale découverte technique du projet : un modèle avec 770 millions de paramètres démontre des performances comparables aux architectures transformateurs standard de 1,3 milliard de paramètres.
Si cette observation est correcte, elle pointe vers une approche fondamentalement différente de la mise à l'échelle — non pas par l'augmentation du nombre de paramètres, mais par une organisation plus efficace de ces derniers. Parmi les solutions architecturales présumées que Gomez a reconstruites dans OpenMythos figurent des mécanismes d'attention spécialisés, des schémas de normalisation non standards et apparemment, un éloignement du schéma classique decoder-only des modèles de type GPT. C'est la combinaison de ces solutions, selon l'auteur, qui fournit une efficacité paramétrique anormalement élevée.
Il est important de comprendre : OpenMythos n'est ni de l'ingénierie inverse au sens technique ni une tentative de reproduire les poids du modèle réel d'Anthropic. C'est une hypothèse théorique formalisée en code fonctionnel. Gomez le déclare explicitement dans la documentation : le projet reflète une interprétation possible de la manière dont une telle architecture pourrait être structurée, plutôt que de prétendre à une reproduction exacte de l'original.
Néanmoins, le seul fait de l'émergence de ce projet est révélateur. L'opacité d'Anthropic concernant les détails architecturaux de Claude est devenue la norme — l'entreprise publie des recherches sur la sécurité, l'interprétabilité et l'apprentissage par renforcement, mais évite de révéler les détails techniques de ses modèles phares. Cela crée un vide informatif que la communauté comble d'elle-même.
OpenMythos n'est pas la première tentative de ce genre. Auparavant, la communauté s'est engagée dans la reconstruction des architectures de GPT-4 et Gemini Ultra, en s'appuyant sur des indicateurs indirects issus des benchmarks, des schémas d'erreurs et des publications d'auteurs affiliés. La différence est qu'ici nous avons affaire à une architecture qu'Anthropic n'a jamais officiellement annoncée — Claude Mythos n'est mentionné que dans le contexte de rumeurs et de fuites non confirmées.
Pour les praticiens de l'apprentissage automatique, OpenMythos est intéressant principalement comme source d'idées architecturales. Même si la reconstruction s'avère imprécise, des solutions spécifiques — en matière d'organisation de l'attention, de schémas de normalisation, d'approches de mise à l'échelle — peuvent s'avérer utiles indépendamment de leur origine. Le projet est publié sous une licence ouverte, avec le code disponible sur GitHub.
Cela signifie que n'importe qui peut exécuter l'architecture, vérifier les caractéristiques déclarées et proposer ses propres interprétations. Essentiellement, Gomez a ouvert une enquête collective — et maintenant la communauté la poursuivra.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.