Interfaze a lancé un modèle ASR open source par diffusion pour la reconnaissance de six langues
Le 2 juillet 2026, Interfaze a ouvert le code source de diffusion-gemma-asr-small, un modèle de reconnaissance de la parole qui fonctionne par diffusion…
Traité par IA depuis MarkTechPost ; édité par Hamidun News
Interfaze 2 июля 2026 года опубликовала в открытом доступе diffusion-gemma-asr-small — мультиязычную модель автоматического распознавания речи, которая транскрибирует аудио через диффузию, а не авторегрессию. Адаптер весом около 42 млн параметров подключается к замороженным весам DiffusionGemma от Google и покрывает шесть языков без разделения на языко-специфичные ветки.
Как работает диффузионное распознавание речи?
Большинство публичных ASR-систем — авторегрессивные: модель генерирует транскрипцию последовательно, токен за токеном, и время работы растёт пропорционально длине записи. Whisper от OpenAI, MMS и Seamless от Meta, Distil-Whisper — все они работают именно по этому принципу. diffusion-gemma-asr-small устроена иначе.
В её основе лежит DiffusionGemma — языковая модель Google, обученная методом диффузии: вместо последовательной генерации она восстанавливает текст из зашумлённого состояния параллельно, за несколько шагов шумоподавления. Interfaze добавила к этой основе аудио-адаптер: он учит модель соотносить звуковой сигнал с нужным текстом, при этом веса DiffusionGemma остаются замороженными и не обновляются при обучении адаптера. Практическое следствие: вычислительная стоимость транскрипции определяется заданным числом denoising-шагов, а не длиной аудио.
Разработчик сам выбирает баланс между скоростью и качеством — больше шагов означает выше точность, но дольше время.
Что внутри модели?
- Дата релиза в открытом доступе — 2 июля 2026 года Размер аудио-адаптера — около 42 млн параметров Базовая модель — DiffusionGemma от Google (веса заморожены, не обновляются) Поддерживаемые языки — шесть (конкретный список не раскрыт в анонсе) Стоимость инференса зависит от числа шагов шумоподавления, не от длины записи Один адаптер на шесть языков — ключевая архитектурная ставка. Большинство мультиязычных моделей используют либо языко-специфичные головы, либо отдельный чекпоинт на каждый язык. Здесь DiffusionGemma уже содержит мультиязычные текстовые представления, и адаптеру нужно лишь научить её принимать аудио — без дублирования весов под каждый язык. Для сравнения: полная версия Whisper large-v3 от OpenAI содержит 1,5 млрд параметров — адаптер Interfaze примерно в 35 раз компактнее по числу дообучаемых весов.
Что это значит для разработчиков ASR?
Диффузионный подход в распознавании речи — редкость в публичном пространстве. Большинство открытых ASR-систем построены на авторегрессии или CTC-декодировании. diffusion-gemma-asr-small — первый публичный пример переиспользования диффузионной языковой модели в качестве ASR-бэкенда через минимальный адаптер. Для исследовательского сообщества это подтверждение концепции и отправная точка: открытые веса позволяют изучить архитектуру и попробовать адаптировать её к смежным задачам — многоязычному ASR, code-switching, распознаванию речи с акцентом. Для практического применения нужны данные, которые анонс не раскрывает: конкретные языки, точность на стандартных бенчмарках (WER на LibriSpeech, Common Voice, Fleurs), реальная скорость инференса в сравнении с Whisper. Без этих цифр оценить конкурентоспособность модели в продакшн-сценариях пока затруднительно.
Что это значит
Interfaze открыла практически неизведанное направление — диффузионный ASR с дообучением только лёгкого адаптера поверх готовой языковой модели. Если подход подтвердит конкурентное качество на бенчмарках, он предложит интересную альтернативу авторегрессивным системам: предсказуемую латентность, гибкую настройку качества через число шагов и компактный весовой бюджет. *Meta признана экстремистской организацией и запрещена в РФ.
Besoin d'une IA qui travaille dans votre entreprise — pas seulement dans votre fil d'actualité?
Je construis de l'IA en production pour les entreprises — CRM sur mesure, outils internes, agents autonomes, automatisation des processus. Vous en êtes propriétaire, adaptée à votre processus, sans coût par utilisateur. Réalisé par Zhemal Khamidun, CPO d'AlpinaGPT (plateforme IA, 6 000+ utilisateurs).
L'essentiel de l'IA — une fois par semaine
Sept actus qui ont vraiment compté, choisies à la main. Sans bruit ni communiqués.
C'est fait ! Vérifiez votre boîte mail pour la confirmation.