Flag Soft : le benchmark « Dali Trial » a aidé à sélectionner les LLMs selon la qualité, la vitesse et le coût
En sélectionnant un LLM pour son projet personnel, l'auteur a développé son propre benchmark « Dali Trial » et comparé les modèles selon la qualité, la…
Traité par IA depuis Habr AI ; édité par Hamidun News
Le choix d'un LLM pour un véritable produit se réduit rarement à la comparaison de beaux démos. L'auteur a abordé la tâche de manière pratique : en cherchant un modèle pour son premier projet personnel, il a assemblé son propre benchmark appelé "L'Épreuve de Dalí" et a testé des LLMs populares non pas sur la base de leurs promesses grandioses, mais sur trois choses qui importent vraiment pour la mise en œuvre : la qualité des réponses, la vitesse et le coût. L'idée est née d'un problème d'ingénierie assez banal.
Quand vous devez choisir un modèle pour votre propre projet, la question abstraite "quel est le meilleur LLM" se transforme rapidement en un ensemble de contraintes pratiques. Un modèle écrit de façon convaincante mais répond trop lentement. Un autre rentre dans le budget mais perd le fil dans les instructions longues.
Un troisième réussit constamment les tests, mais le coût final le rend inadapté à un produit de masse. C'est précisément à ce moment que le test fait maison est apparu, qui s'est avéré utile non seulement pour une expérience personnelle, mais aussi pour les solutions de produits de Flag Soft. "L'Épreuve de Dalí" repose sur une logique simple mais solide.
Si un modèle doit être intégré dans un produit, il doit être comparé non pas sur la base d'une seule impression d'un chat, mais par le même ensemble de tâches. La qualité dans cette approche ne signifie pas simplement "aimer la réponse ou non", mais la capacité du modèle à préserver le sens, à suivre les instructions, à ne pas perdre les détails et à fournir un résultat qui peut être utilisé sans longue édition manuelle. La vitesse n'est pas moins importante : pour un outil interne, vous pouvez tolérer quelques secondes supplémentaires, mais dans un service destiné aux utilisateurs, chaque délai affecte la rétention et la conversion.
Le coût est le troisième paramètre obligatoire, car même un modèle puissant peut s'avérer trop cher lors de la mise à l'échelle sur des milliers de requêtes. C'est la valeur du benchmark : il ne cherche pas un champion absolu, mais montre l'équilibre. En pratique, le modèle qui écrit simplement mieux ne gagne presque jamais.
Celui qui gagne est celui qui offre une qualité acceptable au bon moment et à un prix compatible avec l'économie unitaire du produit. Pour une entreprise qui souhaite intégrer un LLM dans un véritable service, c'est beaucoup plus utile que des tableaux impressionnants avec des scores abstraits. Cette méthode d'évaluation aide à prévoir à l'avance où apparaîtra le goulot d'étranglement : dans le délai de réponse, dans le budget des tokens ou dans le comportement instable du modèle sur des requêtes similaires.
Particulièrement intéressante est la conclusion pratique de l'auteur : le benchmark a aidé à sélectionner non pas "le modèle le plus intelligent" en général, mais le LLM optimal pour l'intégration dans les produits de Flag Soft. C'est une distinction importante. Les équipes commencent souvent la mise en œuvre avec un modèle de premier ordre, puis sont forcées de revenir à une alternative moins chère ou plus rapide.
Ici, la logique est inverse : d'abord les exigences réelles sont formulées, puis un modèle est sélectionné pour les satisfaire. Cet ordre réduit le risque de refonte coûteuse, quand l'architecture est déjà liée à un fournisseur qui ne respecte pas l'économie, la vitesse de réponse ou le niveau de service attendu. L'approche de l'auteur est utile aussi parce qu'elle reflète l'état réel du marché des LLM.
Pour différents scénarios, différents modèles peuvent gagner : génération de texte, résumé, recherche de connaissances, assistance aux opérateurs, autocomplétion dans l'interface ou traitement des demandes des clients. Le même candidat peut exceller dans les tâches créatives et échouer là où la discipline stricte de suivi des instructions est nécessaire. C'est pourquoi les benchmarks personnalisés deviennent non pas un luxe mais une hygiène de base pour toute équipe qui prévoit de payer pour un modèle à partir de son propre budget et d'être responsable de l'expérience utilisateur.
Le point principal d'"L'Épreuve de Dalí" est simple : les LLMs doivent être choisies de la même manière que toute technologie d'infrastructure : par des métriques vérifiables, non par le battage médiatique. Si une équipe a son propre ensemble de tâches, une limite de temps de réponse et un budget clair, elle obtiendra presque certainement une réponse plus précise qu'à partir d'un classement général. Pour le marché, c'est un autre signal : l'ère du choix d'un modèle "par réputation" prend fin, et le pragmatisme d'ingénierie prend la place centrale.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.