لم تتم ترجمة هذا المقال إلى العربية بعد — يُعرض النص الأصلي بالروسية.
MarkTechPost→ المصدر

أطلقت Interfaze نموذج ASR مفتوح المصدر قائمًا على الانتشار للتعرف على ست لغات

في 2 يوليو 2026، فتحت Interfaze الشيفرة المصدرية لنموذج diffusion-gemma-asr-small، وهو نموذج للتعرف على الكلام يعمل بالانتشار لا بالانحدار الذاتي. ويضيف…

معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
أطلقت Interfaze نموذج ASR مفتوح المصدر قائمًا على الانتشار للتعرف على ست لغات
المصدر: MarkTechPost. كولاج: Hamidun News.
◐ استمع للمقال

Interfaze 2 июля 2026 года опубликовала в открытом доступе diffusion-gemma-asr-small — мультиязычную модель автоматического распознавания речи, которая транскрибирует аудио через диффузию, а не авторегрессию. Адаптер весом около 42 млн параметров подключается к замороженным весам DiffusionGemma от Google и покрывает шесть языков без разделения на языко-специфичные ветки.

Как работает диффузионное распознавание речи?

Большинство публичных ASR-систем — авторегрессивные: модель генерирует транскрипцию последовательно, токен за токеном, и время работы растёт пропорционально длине записи. Whisper от OpenAI, MMS и Seamless от Meta, Distil-Whisper — все они работают именно по этому принципу. diffusion-gemma-asr-small устроена иначе.

В её основе лежит DiffusionGemma — языковая модель Google, обученная методом диффузии: вместо последовательной генерации она восстанавливает текст из зашумлённого состояния параллельно, за несколько шагов шумоподавления. Interfaze добавила к этой основе аудио-адаптер: он учит модель соотносить звуковой сигнал с нужным текстом, при этом веса DiffusionGemma остаются замороженными и не обновляются при обучении адаптера. Практическое следствие: вычислительная стоимость транскрипции определяется заданным числом denoising-шагов, а не длиной аудио.

Разработчик сам выбирает баланс между скоростью и качеством — больше шагов означает выше точность, но дольше время.

Что внутри модели?

  • Дата релиза в открытом доступе — 2 июля 2026 года Размер аудио-адаптера — около 42 млн параметров Базовая модель — DiffusionGemma от Google (веса заморожены, не обновляются) Поддерживаемые языки — шесть (конкретный список не раскрыт в анонсе) Стоимость инференса зависит от числа шагов шумоподавления, не от длины записи Один адаптер на шесть языков — ключевая архитектурная ставка. Большинство мультиязычных моделей используют либо языко-специфичные головы, либо отдельный чекпоинт на каждый язык. Здесь DiffusionGemma уже содержит мультиязычные текстовые представления, и адаптеру нужно лишь научить её принимать аудио — без дублирования весов под каждый язык. Для сравнения: полная версия Whisper large-v3 от OpenAI содержит 1,5 млрд параметров — адаптер Interfaze примерно в 35 раз компактнее по числу дообучаемых весов.

Что это значит для разработчиков ASR?

Диффузионный подход в распознавании речи — редкость в публичном пространстве. Большинство открытых ASR-систем построены на авторегрессии или CTC-декодировании. diffusion-gemma-asr-small — первый публичный пример переиспользования диффузионной языковой модели в качестве ASR-бэкенда через минимальный адаптер. Для исследовательского сообщества это подтверждение концепции и отправная точка: открытые веса позволяют изучить архитектуру и попробовать адаптировать её к смежным задачам — многоязычному ASR, code-switching, распознаванию речи с акцентом. Для практического применения нужны данные, которые анонс не раскрывает: конкретные языки, точность на стандартных бенчмарках (WER на LibriSpeech, Common Voice, Fleurs), реальная скорость инференса в сравнении с Whisper. Без этих цифр оценить конкурентоспособность модели в продакшн-сценариях пока затруднительно.

Что это значит

Interfaze открыла практически неизведанное направление — диффузионный ASR с дообучением только лёгкого адаптера поверх готовой языковой модели. Если подход подтвердит конкурентное качество на бенчмарках, он предложит интересную альтернативу авторегрессивным системам: предсказуемую латентность, гибкую настройку качества через число шагов и компактный весовой бюджет. *Meta признана экстремистской организацией и запрещена в РФ.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تحتاج إلى ذكاء اصطناعي يعمل داخل شركتك — وليس فقط في موجز الأخبار؟

أبني ذكاءً اصطناعياً جاهزاً للإنتاج للشركات — أنظمة CRM مخصّصة، أدوات داخلية، وكلاء مستقلون، أتمتة سير العمل. ملك لك، مصمّم وفق عمليتك، دون رسوم لكل مستخدم. من إعداد جمال خميدون، مدير المنتجات في AlpinaGPT (منصة ذكاء اصطناعي، أكثر من 6000 مستخدم).

ما رأيك؟
جارٍ تحميل التعليقات…