CollectivIQ veut rendre l’AI plus fiable en interrogeant 14 modèles à la fois
La startup CollectivIQ propose une nouvelle approche de la fiabilité des réponses générées par AI : au lieu d’un seul chatbot, le système interroge jusqu’à…
Traité par IA depuis TechCrunch ; édité par Hamidun News
Le problème des hallucinations dans les modèles de langage reste l'une des principales barrières à la confiance de masse envers l'intelligence artificielle. Quiconque a reçu de ChatGPT des informations présentées avec assurance mais complètement fictives sait ce sentiment : la technologie impressionne, mais lui faire confiance aveuglément est dangereux. La startup CollectivIQ a décidé d'attaquer ce problème sous un angle inattendu — non pas en améliorant un seul modèle, mais en interrogeant simultanément quatorze d'entre eux.
L'idée, que TechCrunch a signalée, est élégante dans sa simplicité. CollectivIQ agrège les réponses de ChatGPT, Gemini, Claude, Grok et jusqu'à dix autres modèles de langage en même temps. Un utilisateur saisit une requête une fois et reçoit un panorama de réponses, où il peut comparer les formulations, identifier les points d'accord et, plus important encore, remarquer les désaccords. Si treize sur quatorze modèles disent une chose et un dit une autre, c'est un signal puissant. Si les modèles sont en désaccord à parts égales, c'est aussi une information précieuse : cela signifie que la question est plus complexe qu'il n'y paraît, et faire confiance aveuglément à une seule réponse ne vaut pas la peine.
Pour comprendre pourquoi cette approche pourrait fonctionner, il vaut la peine de rappeler un phénomène que la théorie de la décision appelle la « sagesse des foules ». Francis Galton a découvert dès 1906 que l'évaluation moyenne d'un grand groupe de personnes s'avère plus précise que l'opinion de n'importe quel expert individuel. CollectivIQ transfère essentiellement ce principe au monde des grands modèles de langage.
Chacun d'eux est entraîné sur des données différentes, avec des accents et des limitations différents. GPT-4o est forte dans le raisonnement, Claude — dans la précision et le suivi des instructions, Gemini — dans la multimodalité et le travail avec l'information actuelle, Grok — dans le ton informel et l'accès aux données des réseaux sociaux. Lorsque leurs réponses sont combinées, les faiblesses d'un modèle sont compensées par les points forts d'un autre.
Techniquement, la mise en œuvre d'un tel service pose plusieurs questions sérieuses. D'abord — le coût. Chaque requête à une API commerciale coûte des tokens, et multiplier par quatorze transforme les centimes en sommes notables.
Pour un utilisateur ordinaire qui demande une recette de bortsch, c'est excessif. Mais pour les professionnels — avocats, médecins, analystes, journalistes — pour qui la précision est critique, l'économie pourrait fonctionner. La deuxième question est la vitesse.
Les requêtes parallèles à différentes API ont des temps de réponse différents, et l'utilisateur devra soit attendre le modèle le plus lent, soit recevoir les réponses de manière asynchrone, au fur et à mesure qu'elles arrivent. La troisième est la conception de l'interface. Présenter quatorze réponses de manière à ce qu'une personne ne se perde pas dans l'information mais extraie rapidement l'essentiel — c'est un problème de conception sérieux.
CollectivIQ n'apparaît pas dans le vide. Le marché a déjà des métamoteurs de recherche de modèles d'IA : Poe de Quora donne accès à plusieurs modèles dans une seule interface, et des services comme TypingMind et OpenRouter permettent de basculer entre les fournisseurs. Mais aucun n'a misé sur la comparaison simultanée comme outil de vérification. CollectivIQ positionne la multimodalité non pas comme une commodité, mais comme une méthode pour augmenter la fiabilité — et c'est un récit fondamentalement différent. Au lieu de « choisissez le meilleur modèle » — « ne faites confiance à aucun seul, comparez-les tous ».
Il y a aussi un contexte plus profond. L'industrie de l'intelligence artificielle connaît une crise de confiance. Les recherches montrent que les utilisateurs sont de plus en plus sceptiques quant aux réponses des chatbots, mais continuent de les utiliser — simplement parce qu'il n'y a pas d'alternatives. CollectivIQ offre une solution intermédiaire : elle ne force pas la confiance aveugle et n'exige pas d'abandonner l'IA, mais donne un outil pour l'analyse critique. En un sens, c'est un retour au principe journalistique de la vérification croisée des sources, sauf que les sources sont des réseaux de neurones.
La question principale est de savoir si ce modèle passe à l'échelle. Si les grands fournisseurs commencent à restreindre l'accès à l'API pour les agrégateurs ou augmentent les prix, l'entreprise CollectivIQ sera menacée. De plus, à mesure que les modèles deviennent de plus en plus similaires les uns aux autres, en apprenant à partir d'ensembles de données qui se chevauchent, la valeur de la comparaison multimodèle peut diminuer. Mais tant que la diversité des approches persiste, l'idée du crowdsourcing parmi les IA semble à la fois ingénieuse et pratique. Peut-être que l'avenir de l'intelligence artificielle fiable n'est pas un seul modèle parfait, mais un chœur d'imparfaits, où une fausse note s'entend immédiatement.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.