Agrégateurs de LLM : comment choisir des modèles gratuits qui fonctionnent vraiment et ne pas fausser le résultat
Choisir un modèle gratuit dans une liste semble simple. En pratique, la moitié des modèles est instable, certains disparaissent des résultats et la qualité vari

Si un projet nécessite de choisir un LLM, la plupart du temps vous empruntez le chemin le plus évident : une longue liste de modèles, vous en choisissez un, vous envoyez la demande. Ça marche sur courte distance. Sur longue distance, ça commence à casser.
Où l'Approche Simple S'Effondre
Les problèmes n'apparaissent pas dans l'interface, mais dans le comportement des fournisseurs et des modèles eux-mêmes :
- Modèles free instables — listés comme gratuits, mais réagissent de façon instable, disparaissent pendant les pannes du fournisseur
- Les modèles disparaissent — disponibles hier, supprimés aujourd'hui par le fournisseur ou fermés aux nouveaux utilisateurs
- Dégradation de la qualité — formellement vivants, mais ne conviennent que pour la démo ou les tâches simples
- Désaccord frontend-backend — la liste sur l'interface est décalée d'un ou deux jours, tandis que le backend connaît une réalité différente
- Erreurs et redirections — vous avez demandé un modèle, vous avez reçu une erreur, ou la réponse est venue d'un modèle complètement différent
Le principal problème : l'interface ne sait pas quel modèle a réellement répondu. L'utilisateur a sélectionné Claude 3.5, mais la réponse est venue de Gemini — et il ne le saura pas. Cela crée de la confusion : si la qualité de la réponse ne correspond pas au modèle sélectionné, l'utilisateur perd confiance.
Une Boucle Rigide d'Ingénierie au Lieu d'un Catalogue
La solution n'est pas construite par une liste infinie, mais par le contrôle au backend :
Étape 1 : nettoyage de la liste. Le backend reçoit une liste brute de modèles du fournisseur, la filtre — garde uniquement les options free appropriées, supprime les instables, élimine les doublons. Vous pouvez ajouter des health checks — interroger périodiquement chaque modèle et vérifier s'il est vivant.
Étape 2 : un modèle par marque. Même si OpenAI a 5 modèles free dans la liste, le frontend en reçoit un, le plus stable. Cela simplifie le choix pour l'utilisateur et réduit la probabilité de tomber sur un mauvais modèle.
Étape 3 : fallback entre les marques. Lors d'une demande réelle — si le premier modèle a renvoyé une erreur, essayez automatiquement le deuxième, puis le troisième. L'utilisateur ne saura rien de l'échec, pour lui ça prendra juste un peu plus de temps.
Étape 4 : honnêteté dans la réponse. Retournez non seulement le texte généré, mais aussi `actual_model` — quel modèle l'a réellement généré. Maintenant l'interface peut dire honnêtement à l'utilisateur : « La réponse vient de GPT 4o mini, car le modèle principal était en downtime. »
« Le problème ne vient pas de comment montrer joliment une liste de modèles.
Le problème vient de comment construire un système qui choisit les modèles free vivants et ne ment pas sur le résultat » — voilà l'essence de la tâche.
Cela transforme un catalogue instable en une boucle prévisible. Le fournisseur a supprimé un modèle — le backend le remarquera lors du prochain contrôle et mettra à jour la liste sur le frontend. Le modèle est tombé en panne — le fallback se déclenche, l'utilisateur reçoit une réponse d'un autre fournisseur.
Ce Que Cela Signifie
Choisir un LLM cesse d'être une tâche d'UI et devient une tâche d'ingénierie — avec nettoyage des données, health checks, logique de fallback et suivi honnête. Pour le produit, cela signifie la fiabilité et moins de questions d'assistance. Pour l'utilisateur — le choix fonctionne, les réponses arrivent, l'interface ne ment pas.