MarkTechPost→ original

IBM a lancé Granite 4.0 1B Speech — un modèle vocal multilingue compact pour l'edge AI

IBM a lancé Granite 4.0 1B Speech, un modèle compact pour l'ASR multilingue et la traduction bidirectionnelle de la parole. Il a deux fois moins de…

Traité par IA depuis MarkTechPost ; édité par Hamidun News
IBM a lancé Granite 4.0 1B Speech — un modèle vocal multilingue compact pour l'edge AI
Source : MarkTechPost. Collage: Hamidun News.
◐ Écouter l'article

IBM a lancé Granite 4.0 1B Speech — un modèle compact parole-langage pour la reconnaissance vocale multilingue et la traduction bidirectionnelle. Ce qui importe dans cette nouvelle n'est pas seulement une nouvelle version, mais le pari d'IBM sur les scénarios de production où la mémoire, la latence et le coût d'inférence sont aussi critiques que la qualité sur les points de repère.

Ce qui a changé

Granite 4.0 1B Speech remplace les configurations plus lourdes de la gamme Granite Speech et met l'accent sur l'efficacité. Selon IBM, le modèle a moitié moins de paramètres que granite-speech-3.

3-2b, tout en atteignant une meilleure précision ASR en anglais, le support de la reconnaissance vocale en japonais, le biais de liste de mots clés et une inférence plus rapide grâce à l'ajustement fin de l'encodeur et au décodage spéculatif. L'idée est simple : ne pas augmenter la taille à tout prix, mais supprimer le poids superflu sans perdre les capacités fondamentales dont les équipes ont besoin en production réelle. IBM souligne séparément l'approche d'entraînement.

Le modèle est construit sur granite-4.0-1b-base, qui a été ajusté pour les tâches vocales par alignement de modalité. Le mélange d'entraînement comprenait des corpus ASR et AST ouverts, ainsi que des ensembles de données synthétiques pour la langue japonaise, ASR biaisé par mots clés et traduction vocale.

Pour les développeurs, c'est un signal important : IBM ne construit pas une pile vocale fermée uniquement pour le cloud, mais développe un modèle ouvert qui peut être adapté à vos propres pipelines et matériel.

Langues et tâches

Granite 4.0 1B Speech est conçu pour les scénarios d'entreprise où la transcription et la traduction vocale bidirectionnelle sont nécessaires. L'ensemble de base des langues d'entrée supportées comprend l'anglais, le français, l'allemand, l'espagnol, le portugais et le japonais. Pour la traduction, IBM positionne le modèle comme un outil pour la parole en texte et la traduction vocale vers l'anglais et depuis l'anglais pour ces langues, et spécifie séparément les scénarios anglais-italien et anglais-mandarin. Cela rend la version utile non seulement pour les centres d'appels et les interfaces vocales, mais aussi pour les pipelines de traduction internes.

  • Reconnaissance vocale en anglais, français, allemand, espagnol, portugais et japonais
  • Traduction vocale bidirectionnelle pour les paires avec l'anglais
  • Scénarios séparés anglais-vers-italien et anglais-vers-mandarin
  • Biais par liste de mots clés pour les noms, les marques et les abréviations
  • Fonctionnement dans les scénarios où la faible latence et la mémoire limitée sont critiques

Un autre avantage pratique est la licence Apache 2.0. Pour les équipes d'entreprise, cela réduit les frictions au stade du pilote et de l'évaluation juridique : le modèle peut être déployé localement, intégré à votre propre pile et non lié à un accès API uniquement à un stade précoce. Face à un marché où de nombreux systèmes vocaux ne sont disponibles que comme service cloud avec des restrictions commerciales, ce format offre plus de liberté pour la personnalisation, le déploiement hors ligne et le contrôle des données.

Déploiement et métriques

Selon la fiche modèle, Granite 4.0 1B Speech est déjà en tête du classement OpenASR avec un WER moyen de 5,52 et un RTFx de 280,02. Dans la ventilation par ensemble de données, IBM montre, par exemple, 1,42 sur LibriSpeech Clean, 2,85 sur LibriSpeech Other et 3,10 sur Tedlium.

Pour de tels lancements, c'est un argument important : le modèle est positionné non pas seulement comme « petit et bon marché », mais comme un système compact qui maintient toujours un très haut niveau sur les tests publics standard. En termes de déploiement, IBM a essayé de supprimer les barrières inutiles. Le modèle est supporté dans **transformers 4.

52.1+, fonctionne via vLLM et dispose d'un chemin séparé pour mlx-audio** sur Apple Silicon. Le pipeline de référence utilise l'audio mono à 16 kHz, la demande est formée via le préfixe `<|audio|>` et le biais de mots clés peut être ajouté directement au prompt.

Architecturalement, Granite Speech reste un système à deux passages : d'abord le modèle convertit l'audio en texte, puis si nécessaire un appel de modèle de langage séparé traite la transcription. Pour la production, c'est pratique car la reconnaissance et la logique en aval peuvent être mises à l'échelle et réglées indépendamment.

Ce que cela signifie

IBM parie sur le segment de l'IA vocale où le modèle gagnant n'est pas le plus grand, mais celui qui peut réellement s'exécuter sur des ressources limitées sans perdre en qualité. Si Granite 4.0 1B Speech se consolide dans les déploiements de production, le marché aura une autre solide option open-source pour la transcription locale, la traduction vocale et les services edge sans dépendance lourde au cloud.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…