أطلقت IBM Granite 4.0 1B Speech — نموذجًا صوتيًا متعدد اللغات ومضغوطًا لـ edge AI
أطلقت IBM Granite 4.0 1B Speech، وهو نموذج مضغوط لـ ASR متعدد اللغات والترجمة ثنائية الاتجاه للكلام. ويضم نصف عدد المعلمات مقارنةً بـ Granite Speech 3.3 2B، مع

IBM выпустила Granite 4.0 1B Speech — компактную рече-языковую модель для мультиязычного распознавания речи и двустороннего перевода. В этой новости важен не просто новый релиз, а ставка IBM на продовые сценарии, где память, задержка и стоимость инференса так же критичны, как и качество на бенчмарках.
Что изменилось
Granite 4.0 1B Speech пришла на смену более тяжёлым конфигурациям в линейке Granite Speech и делает акцент на эффективности. По данным IBM, у модели вдвое меньше параметров, чем у granite-speech-3.
3-2b, при этом она получила улучшенную точность английского ASR, поддержку японского распознавания речи, keyword list biasing и более быстрый inference за счёт дообучения энкодера и speculative decoding. Идея простая: не наращивать размер любой ценой, а убрать лишний вес без потери базовых возможностей, которые нужны командам в реальной эксплуатации. Отдельно IBM подчёркивает подход к обучению.
Модель построена на базе granite-4.0-1b-base, которую дообучили на speech-задачи через modality alignment. В тренировочный микс вошли открытые ASR- и AST-корпуса, а также синтетические датасеты для японского языка, keyword-biased ASR и speech translation.
Для разработчиков это важный сигнал: IBM не делает закрытый voice-стек только под облако, а развивает открытую модель, которую можно адаптировать под собственные пайплайны и железо.
Языки и задачи
Granite 4.0 1B Speech рассчитана на корпоративные сценарии, где нужны и транскрибация, и перевод речи в обе стороны. Базовый набор поддерживаемых входных языков включает английский, французский, немецкий, испанский, португальский и японский. Для перевода IBM позиционирует модель как инструмент для speech-to-text и speech translation к английскому и от английского для этих языков, а также отдельно указывает сценарии English-to-Italian и English-to-Mandarin. Это делает релиз полезным не только для call-центров и voice-интерфейсов, но и для внутренних переводческих пайплайнов.
- Распознавание речи на английском, французском, немецком, испанском, португальском и японском Двусторонний перевод речи для пар с английским Отдельные сценарии English-to-Italian и English-to-Mandarin Biasing по списку ключевых слов для имён, брендов и аббревиатур Работа в сценариях, где важны низкая задержка и ограниченная память Ещё один практический плюс — лицензия Apache 2.0. Для enterprise-команд это снижает трение на этапе пилота и юридической оценки: модель можно развернуть локально, встроить в свой стек и не завязываться на API-only доступ уже на раннем этапе. На фоне рынка, где многие speech-системы доступны только как облачный сервис с коммерческими ограничениями, такой формат даёт больше свободы для кастомизации, офлайн-развёртывания и контроля над данными.
Развёртывание и метрики
По данным модельной карточки, Granite 4.0 1B Speech уже вышла на первое место в OpenASR leaderboard со средним WER 5.52 и RTFx 280.
02. В разбивке по датасетам IBM показывает, например, 1.42 на LibriSpeech Clean, 2.
85 на LibriSpeech Other и 3.10 на Tedlium. Для таких релизов это важный аргумент: модель позиционируется не как просто «маленькая и дешёвая», а как компактная система, которая всё ещё держит очень сильный уровень на стандартных публичных тестах.
С точки зрения внедрения IBM постаралась убрать лишние барьеры. Модель поддерживается в **transformers 4.52.
1+, запускается через vLLM и отдельно имеет путь для mlx-audio** на Apple Silicon. В референсном пайплайне используется mono-аудио 16 кГц, запрос формируется через префикс `<|audio|>`, а keyword biasing можно добавить прямо в prompt. Архитектурно Granite Speech остаётся двухпроходной системой: сначала модель превращает аудио в текст, а затем при необходимости отдельный вызов языковой модели обрабатывает уже транскрипт.
Для продакшна это удобно, потому что распознавание и downstream-логику можно масштабировать и настраивать независимо.
Что это значит IBM делает ставку на тот сегмент voice AI, где
выигрывает не самая большая модель, а та, которую реально можно запустить на ограниченных ресурсах без потери качества. Если Granite 4.0 1B Speech закрепится в продовых внедрениях, рынок получит ещё один сильный open-source вариант для локальной транскрибации, перевода речи и edge-сервисов без тяжёлой облачной зависимости.