Anthropic complique sans cesse ses tests à cause de la triche avec Claude
L'équipe d'optimisation des performances d'Anthropic s'est heurtée à un défi inhabituel: son modèle Claude est devenu trop efficace pour résoudre les tests…
Traité par IA depuis TechCrunch ; édité par Hamidun News
ANTHROPIC COMPLIQUE CONSTAMMENT LES TESTS EN RAISON DE LA TRICHE AVEC CLAUDE
À une époque de développement rapide de l'intelligence artificielle, lorsque de puissants modèles de langage deviennent accessibles à un large éventail d'utilisateurs, les méthodes traditionnelles d'évaluation des qualifications des spécialistes font face à des défis sans précédent. L'équipe d'optimisation des performances de la société américaine Anthropic, connue pour le développement du réseau de neurones avancé Claude, s'est heurtée à un problème inhabituel : sa propre création, ou plutôt, des outils d'IA qui lui ressemblent, ont commencé à « tricher » lors des entretiens.
Depuis le début de 2024, Anthropic utilise un format de devoirs de codage à domicile pour tester les compétences techniques des candidats aux postes d'ingénierie. Cette approche est destinée à donner aux candidats la possibilité de démontrer leurs connaissances et compétences dans un environnement plus calme et réfléchi que ne le permet un entretien standard. Cependant, le développement d'outils d'IA pour l'écriture de code, tels que GitHub Copilot, ainsi que les améliorations apportées aux modèles de langage de grande taille eux-mêmes, ont conduit à ce que ces tâches soient résolues trop facilement avec leur aide.
Cela a créé une situation où l'évaluation objective des qualifications d'un candidat est devenue difficile, car il était impossible de dire avec certitude si le candidat lui-même avait résolu la tâche ou si c'était l'intelligence artificielle.
Pour contrer cette tendance et prévenir la fraude, les ingénieurs d'Anthropic doivent constamment réviser et compliquer les tâches de test. La tâche consiste à créer des problèmes qui exigent une compréhension contextuelle approfondie, des approches non conventionnelles et de la créativité—des domaines où les modèles d'IA modernes, malgré leurs capacités impressionnantes, restent encore en deçà des humains. Il s'agit de tâches qui ne demandent pas simplement de reproduire des algorithmes connus ou d'écrire du code typique, mais plutôt de problèmes où il est nécessaire d'analyser des systèmes complexes, de prendre des décisions dans l'incertitude, d'intégrer des connaissances disparates et de démontrer une pensée originale.
De telles tâches sont plus difficiles à automatiser et plus difficiles à « fournir » à un modèle de langage pour obtenir une solution toute prête.
Cette situation met en évidence la complexité croissante de l'évaluation des compétences humaines à une époque de disponibilité généralisée d'outils d'IA puissants. La frontière entre la compétence humaine et les capacités de l'intelligence artificielle devient de plus en plus floue. Les entreprises du monde entier commencent à envisager de nouvelles approches du recrutement et de l'évaluation du personnel qui pourraient tenir compte des réalités du paysage technologique actuel.
Peut-être que l'avenir réside dans l'évaluation non seulement du résultat final mais aussi du processus de résolution du problème lui-même, dans l'analyse du processus de pensée, dans le test de la capacité à s'adapter et à apprendre. Anthropic, face à ce défi à l'avant-garde, démontre effectivement comment l'industrie est forcée de s'adapter à des conditions changeantes où l'IA devient non seulement un outil de travail mais un facteur qui change les règles du jeu dans le processus d'embauche.
En conclusion, l'augmentation constante de la complexité des tâches de test chez Anthropic est un exemple frappant de la façon dont le progrès technologique exige de la flexibilité et de l'innovation dans toutes les sphères de l'activité humaine, y compris le processus de sélection du personnel. Cela nous force à reconsidérer le concept même de compétence professionnelle et à rechercher de nouvelles méthodes d'évaluation plus fiables qui puissent distinguer le véritable talent humain des réponses générées habilement par l'IA. Une époque où l'IA devient un assistant universel exige de nouvelles approches pour évaluer ce que signifie réellement être un spécialiste compétent.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.