Este artículo aún no está traducido al español — se muestra el original en ruso.
MarkTechPost→ original

Interfaze lanzó un modelo ASR de código abierto por difusión para el reconocimiento de seis idiomas

El 2 de julio de 2026, Interfaze abrió el código fuente de diffusion-gemma-asr-small, un modelo de reconocimiento del habla que funciona mediante difusión y…

Procesado por IA desde MarkTechPost; editado por Hamidun News
Interfaze lanzó un modelo ASR de código abierto por difusión para el reconocimiento de seis idiomas
Fuente: MarkTechPost. Collage: Hamidun News.
◐ Escuchar artículo

Interfaze 2 июля 2026 года опубликовала в открытом доступе diffusion-gemma-asr-small — мультиязычную модель автоматического распознавания речи, которая транскрибирует аудио через диффузию, а не авторегрессию. Адаптер весом около 42 млн параметров подключается к замороженным весам DiffusionGemma от Google и покрывает шесть языков без разделения на языко-специфичные ветки.

Как работает диффузионное распознавание речи?

Большинство публичных ASR-систем — авторегрессивные: модель генерирует транскрипцию последовательно, токен за токеном, и время работы растёт пропорционально длине записи. Whisper от OpenAI, MMS и Seamless от Meta, Distil-Whisper — все они работают именно по этому принципу. diffusion-gemma-asr-small устроена иначе.

В её основе лежит DiffusionGemma — языковая модель Google, обученная методом диффузии: вместо последовательной генерации она восстанавливает текст из зашумлённого состояния параллельно, за несколько шагов шумоподавления. Interfaze добавила к этой основе аудио-адаптер: он учит модель соотносить звуковой сигнал с нужным текстом, при этом веса DiffusionGemma остаются замороженными и не обновляются при обучении адаптера. Практическое следствие: вычислительная стоимость транскрипции определяется заданным числом denoising-шагов, а не длиной аудио.

Разработчик сам выбирает баланс между скоростью и качеством — больше шагов означает выше точность, но дольше время.

Что внутри модели?

  • Дата релиза в открытом доступе — 2 июля 2026 года Размер аудио-адаптера — около 42 млн параметров Базовая модель — DiffusionGemma от Google (веса заморожены, не обновляются) Поддерживаемые языки — шесть (конкретный список не раскрыт в анонсе) Стоимость инференса зависит от числа шагов шумоподавления, не от длины записи Один адаптер на шесть языков — ключевая архитектурная ставка. Большинство мультиязычных моделей используют либо языко-специфичные головы, либо отдельный чекпоинт на каждый язык. Здесь DiffusionGemma уже содержит мультиязычные текстовые представления, и адаптеру нужно лишь научить её принимать аудио — без дублирования весов под каждый язык. Для сравнения: полная версия Whisper large-v3 от OpenAI содержит 1,5 млрд параметров — адаптер Interfaze примерно в 35 раз компактнее по числу дообучаемых весов.

Что это значит для разработчиков ASR?

Диффузионный подход в распознавании речи — редкость в публичном пространстве. Большинство открытых ASR-систем построены на авторегрессии или CTC-декодировании. diffusion-gemma-asr-small — первый публичный пример переиспользования диффузионной языковой модели в качестве ASR-бэкенда через минимальный адаптер. Для исследовательского сообщества это подтверждение концепции и отправная точка: открытые веса позволяют изучить архитектуру и попробовать адаптировать её к смежным задачам — многоязычному ASR, code-switching, распознаванию речи с акцентом. Для практического применения нужны данные, которые анонс не раскрывает: конкретные языки, точность на стандартных бенчмарках (WER на LibriSpeech, Common Voice, Fleurs), реальная скорость инференса в сравнении с Whisper. Без этих цифр оценить конкурентоспособность модели в продакшн-сценариях пока затруднительно.

Что это значит

Interfaze открыла практически неизведанное направление — диффузионный ASR с дообучением только лёгкого адаптера поверх готовой языковой модели. Если подход подтвердит конкурентное качество на бенчмарках, он предложит интересную альтернативу авторегрессивным системам: предсказуемую латентность, гибкую настройку качества через число шагов и компактный весовой бюджет. *Meta признана экстремистской организацией и запрещена в РФ.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Necesitas IA funcionando dentro de tu empresa — no solo en tu feed de noticias?

Construyo IA en producción para empresas — CRM a medida, herramientas internas, agentes autónomos, automatización de procesos. Tuya, adaptada a tu proceso, sin coste por usuario. Creado por Zhemal Khamidun, CPO de AlpinaGPT (plataforma de IA, 6.000+ usuarios).

¿Qué te parece?
Cargando comentarios…