IBM выпустила Granite 4.0 1B Speech — компактную мультиязычную модель речи для edge-ИИ
IBM выпустила Granite 4.0 1B Speech — компактную модель для мультиязычного ASR и двустороннего перевода речи. У неё вдвое меньше параметров, чем у Granite Speec

IBM выпустила Granite 4.0 1B Speech — компактную рече-языковую модель для мультиязычного распознавания речи и двустороннего перевода. В этой новости важен не просто новый релиз, а ставка IBM на продовые сценарии, где память, задержка и стоимость инференса так же критичны, как и качество на бенчмарках.
Что изменилось
Granite 4.0 1B Speech пришла на смену более тяжёлым конфигурациям в линейке Granite Speech и делает акцент на эффективности. По данным IBM, у модели вдвое меньше параметров, чем у granite-speech-3.
3-2b, при этом она получила улучшенную точность английского ASR, поддержку японского распознавания речи, keyword list biasing и более быстрый inference за счёт дообучения энкодера и speculative decoding. Идея простая: не наращивать размер любой ценой, а убрать лишний вес без потери базовых возможностей, которые нужны командам в реальной эксплуатации. Отдельно IBM подчёркивает подход к обучению.
Модель построена на базе granite-4.0-1b-base, которую дообучили на speech-задачи через modality alignment. В тренировочный микс вошли открытые ASR- и AST-корпуса, а также синтетические датасеты для японского языка, keyword-biased ASR и speech translation.
Для разработчиков это важный сигнал: IBM не делает закрытый voice-стек только под облако, а развивает открытую модель, которую можно адаптировать под собственные пайплайны и железо.
Языки и задачи
Granite 4.0 1B Speech рассчитана на корпоративные сценарии, где нужны и транскрибация, и перевод речи в обе стороны. Базовый набор поддерживаемых входных языков включает английский, французский, немецкий, испанский, португальский и японский. Для перевода IBM позиционирует модель как инструмент для speech-to-text и speech translation к английскому и от английского для этих языков, а также отдельно указывает сценарии English-to-Italian и English-to-Mandarin. Это делает релиз полезным не только для call-центров и voice-интерфейсов, но и для внутренних переводческих пайплайнов.
- Распознавание речи на английском, французском, немецком, испанском, португальском и японском Двусторонний перевод речи для пар с английским Отдельные сценарии English-to-Italian и English-to-Mandarin Biasing по списку ключевых слов для имён, брендов и аббревиатур Работа в сценариях, где важны низкая задержка и ограниченная память Ещё один практический плюс — лицензия Apache 2.0. Для enterprise-команд это снижает трение на этапе пилота и юридической оценки: модель можно развернуть локально, встроить в свой стек и не завязываться на API-only доступ уже на раннем этапе. На фоне рынка, где многие speech-системы доступны только как облачный сервис с коммерческими ограничениями, такой формат даёт больше свободы для кастомизации, офлайн-развёртывания и контроля над данными.
Развёртывание и метрики
По данным модельной карточки, Granite 4.0 1B Speech уже вышла на первое место в OpenASR leaderboard со средним WER 5.52 и RTFx 280.
02. В разбивке по датасетам IBM показывает, например, 1.42 на LibriSpeech Clean, 2.
85 на LibriSpeech Other и 3.10 на Tedlium. Для таких релизов это важный аргумент: модель позиционируется не как просто «маленькая и дешёвая», а как компактная система, которая всё ещё держит очень сильный уровень на стандартных публичных тестах.
С точки зрения внедрения IBM постаралась убрать лишние барьеры. Модель поддерживается в **transformers 4.52.
1+, запускается через vLLM и отдельно имеет путь для mlx-audio** на Apple Silicon. В референсном пайплайне используется mono-аудио 16 кГц, запрос формируется через префикс `<|audio|>`, а keyword biasing можно добавить прямо в prompt. Архитектурно Granite Speech остаётся двухпроходной системой: сначала модель превращает аудио в текст, а затем при необходимости отдельный вызов языковой модели обрабатывает уже транскрипт.
Для продакшна это удобно, потому что распознавание и downstream-логику можно масштабировать и настраивать независимо.
Что это значит IBM делает ставку на тот сегмент voice AI, где
выигрывает не самая большая модель, а та, которую реально можно запустить на ограниченных ресурсах без потери качества. Если Granite 4.0 1B Speech закрепится в продовых внедрениях, рынок получит ещё один сильный open-source вариант для локальной транскрибации, перевода речи и edge-сервисов без тяжёлой облачной зависимости.