Interfaze lanzó un modelo ASR de código abierto por difusión para el reconocimiento de seis idiomas
El 2 de julio de 2026, Interfaze abrió el código fuente de diffusion-gemma-asr-small, un modelo de reconocimiento del habla que funciona mediante difusión y…
Procesado por IA desde MarkTechPost; editado por Hamidun News
Interfaze 2 июля 2026 года опубликовала в открытом доступе diffusion-gemma-asr-small — мультиязычную модель автоматического распознавания речи, которая транскрибирует аудио через диффузию, а не авторегрессию. Адаптер весом около 42 млн параметров подключается к замороженным весам DiffusionGemma от Google и покрывает шесть языков без разделения на языко-специфичные ветки.
Как работает диффузионное распознавание речи?
Большинство публичных ASR-систем — авторегрессивные: модель генерирует транскрипцию последовательно, токен за токеном, и время работы растёт пропорционально длине записи. Whisper от OpenAI, MMS и Seamless от Meta, Distil-Whisper — все они работают именно по этому принципу. diffusion-gemma-asr-small устроена иначе.
В её основе лежит DiffusionGemma — языковая модель Google, обученная методом диффузии: вместо последовательной генерации она восстанавливает текст из зашумлённого состояния параллельно, за несколько шагов шумоподавления. Interfaze добавила к этой основе аудио-адаптер: он учит модель соотносить звуковой сигнал с нужным текстом, при этом веса DiffusionGemma остаются замороженными и не обновляются при обучении адаптера. Практическое следствие: вычислительная стоимость транскрипции определяется заданным числом denoising-шагов, а не длиной аудио.
Разработчик сам выбирает баланс между скоростью и качеством — больше шагов означает выше точность, но дольше время.
Что внутри модели?
- Дата релиза в открытом доступе — 2 июля 2026 года Размер аудио-адаптера — около 42 млн параметров Базовая модель — DiffusionGemma от Google (веса заморожены, не обновляются) Поддерживаемые языки — шесть (конкретный список не раскрыт в анонсе) Стоимость инференса зависит от числа шагов шумоподавления, не от длины записи Один адаптер на шесть языков — ключевая архитектурная ставка. Большинство мультиязычных моделей используют либо языко-специфичные головы, либо отдельный чекпоинт на каждый язык. Здесь DiffusionGemma уже содержит мультиязычные текстовые представления, и адаптеру нужно лишь научить её принимать аудио — без дублирования весов под каждый язык. Для сравнения: полная версия Whisper large-v3 от OpenAI содержит 1,5 млрд параметров — адаптер Interfaze примерно в 35 раз компактнее по числу дообучаемых весов.
Что это значит для разработчиков ASR?
Диффузионный подход в распознавании речи — редкость в публичном пространстве. Большинство открытых ASR-систем построены на авторегрессии или CTC-декодировании. diffusion-gemma-asr-small — первый публичный пример переиспользования диффузионной языковой модели в качестве ASR-бэкенда через минимальный адаптер. Для исследовательского сообщества это подтверждение концепции и отправная точка: открытые веса позволяют изучить архитектуру и попробовать адаптировать её к смежным задачам — многоязычному ASR, code-switching, распознаванию речи с акцентом. Для практического применения нужны данные, которые анонс не раскрывает: конкретные языки, точность на стандартных бенчмарках (WER на LibriSpeech, Common Voice, Fleurs), реальная скорость инференса в сравнении с Whisper. Без этих цифр оценить конкурентоспособность модели в продакшн-сценариях пока затруднительно.
Что это значит
Interfaze открыла практически неизведанное направление — диффузионный ASR с дообучением только лёгкого адаптера поверх готовой языковой модели. Если подход подтвердит конкурентное качество на бенчмарках, он предложит интересную альтернативу авторегрессивным системам: предсказуемую латентность, гибкую настройку качества через число шагов и компактный весовой бюджет. *Meta признана экстремистской организацией и запрещена в РФ.
¿Necesitas IA funcionando dentro de tu empresa — no solo en tu feed de noticias?
Construyo IA en producción para empresas — CRM a medida, herramientas internas, agentes autónomos, automatización de procesos. Tuya, adaptada a tu proceso, sin coste por usuario. Creado por Zhemal Khamidun, CPO de AlpinaGPT (plataforma de IA, 6.000+ usuarios).
Lo esencial de la IA — una vez por semana
Siete historias que de verdad importaron, elegidas a mano. Sin ruido ni notas de prensa.
¡Listo! Revisa tu correo para la confirmación.