Cet article n'est pas encore traduit en français — l'original russe est affiché.
MarkTechPost→ original

Interfaze a lancé un modèle ASR open source par diffusion pour la reconnaissance de six langues

Le 2 juillet 2026, Interfaze a ouvert le code source de diffusion-gemma-asr-small, un modèle de reconnaissance de la parole qui fonctionne par diffusion…

Traité par IA depuis MarkTechPost ; édité par Hamidun News
Interfaze a lancé un modèle ASR open source par diffusion pour la reconnaissance de six langues
Source : MarkTechPost. Collage: Hamidun News.
◐ Écouter l'article

Interfaze 2 июля 2026 года опубликовала в открытом доступе diffusion-gemma-asr-small — мультиязычную модель автоматического распознавания речи, которая транскрибирует аудио через диффузию, а не авторегрессию. Адаптер весом около 42 млн параметров подключается к замороженным весам DiffusionGemma от Google и покрывает шесть языков без разделения на языко-специфичные ветки.

Как работает диффузионное распознавание речи?

Большинство публичных ASR-систем — авторегрессивные: модель генерирует транскрипцию последовательно, токен за токеном, и время работы растёт пропорционально длине записи. Whisper от OpenAI, MMS и Seamless от Meta, Distil-Whisper — все они работают именно по этому принципу. diffusion-gemma-asr-small устроена иначе.

В её основе лежит DiffusionGemma — языковая модель Google, обученная методом диффузии: вместо последовательной генерации она восстанавливает текст из зашумлённого состояния параллельно, за несколько шагов шумоподавления. Interfaze добавила к этой основе аудио-адаптер: он учит модель соотносить звуковой сигнал с нужным текстом, при этом веса DiffusionGemma остаются замороженными и не обновляются при обучении адаптера. Практическое следствие: вычислительная стоимость транскрипции определяется заданным числом denoising-шагов, а не длиной аудио.

Разработчик сам выбирает баланс между скоростью и качеством — больше шагов означает выше точность, но дольше время.

Что внутри модели?

  • Дата релиза в открытом доступе — 2 июля 2026 года Размер аудио-адаптера — около 42 млн параметров Базовая модель — DiffusionGemma от Google (веса заморожены, не обновляются) Поддерживаемые языки — шесть (конкретный список не раскрыт в анонсе) Стоимость инференса зависит от числа шагов шумоподавления, не от длины записи Один адаптер на шесть языков — ключевая архитектурная ставка. Большинство мультиязычных моделей используют либо языко-специфичные головы, либо отдельный чекпоинт на каждый язык. Здесь DiffusionGemma уже содержит мультиязычные текстовые представления, и адаптеру нужно лишь научить её принимать аудио — без дублирования весов под каждый язык. Для сравнения: полная версия Whisper large-v3 от OpenAI содержит 1,5 млрд параметров — адаптер Interfaze примерно в 35 раз компактнее по числу дообучаемых весов.

Что это значит для разработчиков ASR?

Диффузионный подход в распознавании речи — редкость в публичном пространстве. Большинство открытых ASR-систем построены на авторегрессии или CTC-декодировании. diffusion-gemma-asr-small — первый публичный пример переиспользования диффузионной языковой модели в качестве ASR-бэкенда через минимальный адаптер. Для исследовательского сообщества это подтверждение концепции и отправная точка: открытые веса позволяют изучить архитектуру и попробовать адаптировать её к смежным задачам — многоязычному ASR, code-switching, распознаванию речи с акцентом. Для практического применения нужны данные, которые анонс не раскрывает: конкретные языки, точность на стандартных бенчмарках (WER на LibriSpeech, Common Voice, Fleurs), реальная скорость инференса в сравнении с Whisper. Без этих цифр оценить конкурентоспособность модели в продакшн-сценариях пока затруднительно.

Что это значит

Interfaze открыла практически неизведанное направление — диффузионный ASR с дообучением только лёгкого адаптера поверх готовой языковой модели. Если подход подтвердит конкурентное качество на бенчмарках, он предложит интересную альтернативу авторегрессивным системам: предсказуемую латентность, гибкую настройку качества через число шагов и компактный весовой бюджет. *Meta признана экстремистской организацией и запрещена в РФ.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Besoin d'une IA qui travaille dans votre entreprise — pas seulement dans votre fil d'actualité?

Je construis de l'IA en production pour les entreprises — CRM sur mesure, outils internes, agents autonomes, automatisation des processus. Vous en êtes propriétaire, adaptée à votre processus, sans coût par utilisateur. Réalisé par Zhemal Khamidun, CPO d'AlpinaGPT (plateforme IA, 6 000+ utilisateurs).

Qu'en pensez-vous ?
Chargement des commentaires…