Tencent ouvre Covo-Audio — modèle 7B pour dialogues vocaux et raisonnement audio

Q: Quelle est la source ?

Publication originale sur MarkTechPost. Hamidun News traite et adapte les contenus avec l'IA.

Q: Quand a-t-il été publié ?

30 avr. 2026. Temps de lecture : 3 min.

Tencent AI Lab a ouvert le code source de Covo-Audio — un Large Audio Language Model 7B pour dialogues vocaux en temps réel. Le modèle accepte les flux audio…

Rédaction de Hamidun News

Veille IA · MarkTechPost

30 avr. 2026· 2 min

Traité par IA depuis MarkTechPost ; édité par Hamidun News

Tencent ouvre Covo-Audio — modèle 7B pour dialogues vocaux et raisonnement audio — Source : MarkTechPost. Collage: Hamidun News.

◐ Écouter l'article

Tencent AI Lab a ouvert le code source de Covo-Audio — un Large Audio Language Model de 7 milliards de paramètres conçu pour les dialogues vocaux en temps réel. Le développement combine le traitement de la parole et la compréhension du langage dans une architecture end-to-end unique : le système accepte des flux audio continus et retourne les réponses également au format audio.

Ce que Tencent a lancé

Le point clé de la sortie de Covo-Audio n'est pas seulement un nouveau modèle avec sept milliards de paramètres, mais une tentative de consolider l'intelligence vocale dans une seule boucle. Au lieu de la chaîne familière de reconnaissance vocale, de traitement de texte et de synthèse vocale, Tencent propose une approche end-to-end où l'audio continu est traité au sein d'un système unifié. Ce format est nécessaire pour des conversations plus naturelles : moins de transformations intermédiaires, moins de délais et moins de points où l'intonation, les pauses et le contexte de la parole vivante sont perdus.

Avec le modèle, Tencent AI Lab a également ouvert le code source d'un pipeline d'inférence pour les scénarios en temps réel. C'est une partie importante de la sortie, car les poids de modèle seuls offrent rarement un chemin rapide vers la production. L'accent ici est spécifiquement sur l'utilisation pratique : assistants vocaux, interfaces conversationnelles, service client et autres services où non seulement la précision de la réponse compte, mais aussi la vitesse de réaction. Pour l'écosystème open-source, c'est plus utile que de publier simplement une démo de recherche.

Comment fonctionne l'approche

Dans la description de Covo-Audio, Tencent décrit quatre composants architecturaux principaux nécessaires pour une interaction transparente entre la logique audio et linguistique. L'idée est que le modèle ne convertit pas simplement le son en texte, mais travaille avec le signal vocal comme un porteur pleinement signifiant. Ceci est important pour les tâches où le sens est transmis non seulement par les mots, mais aussi par le tempo, les pauses, l'accent ou la structure générale du dialogue.

Essentiellement, Covo-Audio évolue vers un format où l'analyse vocale, le raisonnement et la génération de réponse deviennent des parties d'un processus unique. Cela ne garantit pas une supériorité automatique sur les cascades classiques, mais change le compromis d'ingénierie. Les équipes n'ont plus besoin de coller les modules ASR, LLM et TTS séparés aussi fortement, ce qui signifie qu'elles peuvent expérimenter plus rapidement avec de nouveaux produits vocaux et tester comment un modèle audio unifié se comporte dans le dialogue réel.

7 milliards de paramètres dans un modèle unique
Traitement end-to-end de l'entrée et de la sortie audio
Gestion de la parole continue, pas seulement des fragments discrets
Focus sur les conversations en temps réel et les tâches de raisonnement
Publication non seulement du modèle, mais aussi du pipeline d'inférence

Où se situe la valeur pratique

Pour les développeurs d'interfaces vocales, la sortie est intéressante pour plusieurs raisons. D'abord, un modèle open-source de cette classe peut être étudié, affiné et intégré dans des pipelines personnalisés sans attendre une API fermée. Deuxièmement, le marché se déplace clairement vers des systèmes qui peuvent parler directement, sans couche de texte supplémentaire entre l'utilisateur et la réponse. C'est particulièrement important là où la latence est littéralement audible : dans les assistants, les bots vocaux, les traducteurs et les services d'assistance.

La capacité de raisonnement mérite une mention spéciale. De nombreux systèmes audio reconnaissent déjà bien la parole et synthétisent la voix, mais c'est plus difficile quand il s'agit de maintenir le contexte et de générer des réponses significatives dans la conversation en direct. Si Covo-Audio combine vraiment la perception audio et le raisonnement linguistique dans une architecture unique, cela la rend remarquable non seulement comme une sortie de recherche, mais aussi comme point de référence pour la prochaine génération de systèmes d'IA conversationnelle. Même sans revendications d'intégration de masse immédiate, la direction de développement ici est claire.

Ce que cela signifie

Tencent montre que la concurrence en IA vocale se déplace des simples chaînes « reconnaître le texte — générer le texte — vocaliser » vers des modèles audio natifs qui écoutent et répondent dans un seul flux. Pour les équipes construisant des agents vocaux, c'est un signal pour regarder non seulement la qualité de la reconnaissance, mais aussi la latence, la naturalité du dialogue et la capacité du modèle à raisonner directement dans le canal audio.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite