Cohere a publié un modèle open-source pour la transcription — 2 milliards de paramètres et 14 langues
Cohere a publié un modèle vocal open-source conçu spécialement pour la transcription. Avec seulement 2 milliards de paramètres, il est pensé pour fonctionner…
Traité par IA depuis TechCrunch ; édité par Hamidun News
Cohere a lancé un modèle open-source pour la transcription vocale. Contrairement à la plupart de ses concurrents, le modèle ne pèse que 2 milliards de paramètres — c'était délibéré, pour permettre son exécution sur un GPU de consommation ordinaire sans recourir à des clusters de serveurs coûteux ou à des API cloud. L'entreprise positionne le nouvel outil comme un instrument pour les développeurs qui souhaitent déployer la transcription en interne.
Cohere est une entreprise canadienne d'IA fondée en 2019 par d'anciens membres de Google Brain. Jusqu'à présent, elle était connue principalement comme fournisseur de modèles de langage d'entreprise : son modèle Command phare concurrence GPT-4 et Claude dans le segment entreprise, et son système d'embeddings Embed est utilisé dans des milliers d'applications de production pour la recherche sémantique. Les outils vocaux sont une nouvelle direction pour l'entreprise, et immédiatement avec un accent sur la spécialisation : au lieu d'une solution multimodale universelle, ils ont lancé un outil affiné pour une seule tâche.
Le marché de la reconnaissance automatique de la parole subit une transformation. Historiquement, il était contrôlé par les géants technologiques : Google Speech-to-Text, Amazon Transcribe, Microsoft Azure Speech. Tous fonctionnent selon un modèle cloud — l'audio est envoyé aux serveurs du fournisseur, y est traité et le texte est retourné. Cela crée deux problèmes : des dépenses croissantes avec des volumes importants et des préoccupations de confidentialité, critiques pour certains secteurs. Les grands fournisseurs gagnent de l'argent à l'échelle, mais pour les startups et les entreprises de taille moyenne, le coût de la transcription cloud devient rapidement un poste de dépense significatif.
Un tournant s'est produit en 2022, lorsque OpenAI a lancé Whisper — un modèle de transcription open-source pouvant être exécuté localement. Whisper a changé le marché : les développeurs ont massivement basculé vers la transcription auto-hébergée, et des variantes rapides ont émergé comme faster-whisper basé sur CTranslate2 et des versions allégées distillées. Cependant, Whisper a des limitations connues. Les versions grandes nécessitent un GPU avec 8–10 GB de VRAM, et le modèle lui-même n'a pas reçu de mises à jour significatives depuis la sortie de Large v3 en 2023. Le marché attendait une alternative digne. C'est là que se crée un espace pour le modèle de Cohere.
2 milliards de paramètres — ce n'est pas un compromis, mais un pari délibéré sur l'accessibilité. Pour la comparaison : Whisper Large v3, considéré comme l'étalon de qualité, dispose de 1,5 milliard de paramètres et nécessite un minimum de 8 GB de VRAM en demi-précision. Le modèle de Cohere est légèrement plus large en nombre de paramètres, mais, à en juger par la compatibilité déclarée avec les GPU de consommation, est mieux optimisé pour s'exécuter sans centre de données. La prise en charge de 14 langues couvre la plupart des scénarios de production pour les entreprises mondiales.
Le statut open-source est aussi une question de confidentialité. Les entreprises des secteurs financier, médical, juridique et gouvernemental ne peuvent pas simplement envoyer des conversations et des enregistrements sensibles aux serveurs de fournisseurs tiers. Les exigences réglementaires de HIPAA, GDPR, la loi 152-ФЗ russe et les lois similaires exigent un contrôle sur le traitement des données. La transcription auto-hébergée supprime complètement cette barrière : l'audio est traité localement, rien ne s'en va.
Jusqu'à présent, la seule option mature pour de tels scénarios restait Whisper avec ses limitations en production. Publier un outil ouvert est aussi un coup stratégique de Cohere. Un modèle gratuit attire les développeurs dans l'écosystème de l'entreprise, crée une dépendance future envers les produits cloud d'entreprise lors de la montée en charge et construit la réputation d'un partenaire digne de confiance.
C'est la même logique que Meta utilise avec Llama et Mistral avec ses modèles ouverts : d'abord construire la confiance par l'ouverture, puis monétiser par l'enterprise. Des benchmarks indépendants apparaîtront dans les prochaines semaines. Pour l'instant, il n'est pas clair comment le modèle se comporte sous un bruit intense, des accents difficiles et une terminologie spécialisée.
Si la précision s'avère comparable à Whisper Large v3, cela changera significativement l'équilibre des forces dans le segment de la transcription open-source. Les développeurs construisant des systèmes de transcription de réunions, des centres d'appels, des outils de documentation médicale ou des notes vocales devraient ajouter le modèle de Cohere à leur liste de candidats pour les tests.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.