IEEE Spectrum AI→ original

Nouvelle frontière de l'IA : des données à l'expérience d'interaction

La dernière décennie, les progrès en intelligence artificielle ont été mesurés par l'échelle : des modèles plus grands, des ensembles de données plus…

Traité par IA depuis IEEE Spectrum AI ; édité par Hamidun News
Nouvelle frontière de l'IA : des données à l'expérience d'interaction
Source : IEEE Spectrum AI. Collage: Hamidun News.
◐ Écouter l'article

La dernière décennie, les progrès en intelligence artificielle ont été mesurés par l'échelle : des modèles plus grands, des ensembles de données plus volumineux et plus de puissance de calcul. Cette approche a conduit à des percées remarquables dans les modèles de langage de grande taille (LLMs). En seulement cinq ans, l'IA a fait un bond des modèles comme GPT-2, qui pouvaient à peine imiter la cohérence, aux systèmes comme GPT-4, qui peuvent raisonner et participer à un dialogue significatif. Et maintenant, les premiers prototypes d'agents d'IA qui peuvent naviguer dans les bases de code ou parcourir les pages Web pointent vers une nouvelle frontière entièrement.

Mais l'échelle seule ne peut mener l'IA que jusqu'à présent. Le prochain bond ne viendra pas simplement de l'augmentation de la taille des modèles. Il viendra de la combinaison de données de plus en plus haute qualité avec les mondes que nous construisons pour entraîner les modèles. Et la question la plus importante devient : à quoi ressemblent les salles de classe pour l'IA ?

Au cours des derniers mois, la Silicon Valley a fait ses paris, et les laboratoires investissent des milliards dans la construction de telles salles de classe, appelées environnements d'apprentissage par renforcement (RL). Ces environnements permettent aux machines d'expérimenter, d'échouer et de s'améliorer dans des espaces numériques réalistes.

L'histoire de l'IA moderne s'est déroulée en ères, chacune définie par le type de données consommées par les modèles. D'abord est venu l'ère du préentraînement sur des ensembles de données à l'échelle d'Internet. Ces données publiques ont permis aux machines d'imiter le langage humain en reconnaissant des modèles statistiques. Ensuite, les données combinées avec l'apprentissage par renforcement à partir des commentaires humains — une méthode qui utilise des travailleurs du crowdsourcing pour évaluer les réponses des LLM — ce qui a rendu l'IA plus utile, réactive et alignée avec les préférences humaines.

Aujourd'hui, les données restent le fondement. C'est la matière première à partir de laquelle l'intelligence est construite. Mais nous entrons dans une nouvelle phase où les données seules ne suffisent plus. Pour déverrouiller la prochaine frontière, nous devons combiner des données de haute qualité avec des environnements qui permettent une interaction illimitée, un retour continu et un apprentissage par l'action. Les environnements RL ne remplacent pas les données ; ils amplifient ce que les données peuvent faire en permettant aux modèles d'appliquer les connaissances, de tester les hypothèses et d'affiner le comportement dans des conditions réalistes.

Dans un environnement RL, un modèle apprend à travers une boucle simple : il observe l'état du monde, effectue une action et reçoit une récompense qui indique si cette action a contribué à atteindre l'objectif. Au fil de nombreuses itérations, le modèle découvre progressivement des stratégies qui conduisent à de meilleurs résultats. Le changement crucial est que l'apprentissage devient interactif — les modèles ne prédisent pas seulement le prochain token, mais s'améliorent par essai, erreur et retour.

Par exemple, les modèles de langage peuvent déjà générer du code dans une simple configuration de chat. Placez-les dans un environnement de codage en direct où ils peuvent obtenir du contexte, exécuter leur code, déboguer les erreurs et affiner leur solution, et quelque chose change. Ils passent du conseil à la résolution autonome de problèmes.

Dans un monde piloté par les logiciels, la capacité de l'IA à générer et à tester du code au niveau de la production dans des référentiels vastes sera un changement sérieux dans les capacités. Ce bond ne se fera pas simplement en augmentant les ensembles de données ; cela se fera en raison des environnements immersifs où les agents peuvent expérimenter, trébucher et apprendre par itération — tout comme le font les programmeurs humains. Le monde réel du développement est désorganisé : les programmeurs doivent faire face à des erreurs mal définies, à des bases de code enchevêtrées et à des exigences vagues.

Entraîner l'IA à gérer ce désordre est la seule façon dont elle pourrait jamais passer de la production de tentatives sujettes aux erreurs à la création de solutions cohérentes et fiables.

La navigation sur le Web est aussi désorganisée. Les pop-ups, les murs de connexion, les liens brisés et les informations obsolètes sont tissés dans les flux de travail de navigation quotidiens. Les humains gèrent ces défaillances presque instinctivement, mais l'IA ne peut développer cette capacité qu'en s'entraînant dans des environnements qui imitent l'imprévisibilité d'Internet. Les agents doivent apprendre à se rétablir des erreurs, à reconnaître et à surmonter les obstacles de l'interface utilisateur, et à exécuter des flux de travail en plusieurs étapes dans les applications largement utilisées.

Chaque grand bond dans le développement de l'IA s'est appuyé sur une infrastructure invisible, comme les annotateurs étiquetant les ensembles de données, les chercheurs entraînant les modèles de récompense et les ingénieurs construisant des échafaudages pour que les LLM utilisent les outils et les actions. Trouver de grands volumes d'ensembles de données de haute qualité était autrefois un goulot d'étranglement en IA, et le résoudre a déclenché la vague précédente de progrès. Aujourd'hui, le goulot d'étranglement n'est pas les données — c'est la création d'environnements RL qui sont riches, réalistes et véritablement utiles.

Le prochain stade du progrès de l'IA ne sera pas une question de chance d'échelle. Ce sera le résultat de la combinaison d'une base solide de données avec des environnements interactifs qui apprennent aux machines à agir, à s'adapter et à raisonner dans des scénarios complexes du monde réel. Les bacs à sable de codage, les terrains de jeu du système d'exploitation et du navigateur, et la simulation sûre transformeront la prédiction en compétence.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…