MarkTechPost→ оригинал

IBM released Granite 4.0 1B Speech — a compact multilingual speech model for edge AI

IBM released Granite 4.0 1B Speech, a compact model for multilingual ASR and bidirectional speech translation. It has half as many parameters as Granite Speech

IBM released Granite 4.0 1B Speech — a compact multilingual speech model for edge AI
Источник: MarkTechPost. Коллаж: Hamidun News.

IBM выпустила Granite 4.0 1B Speech — компактную рече-языковую модель для мультиязычного распознавания речи и двустороннего перевода. В этой новости важен не просто новый релиз, а ставка IBM на продовые сценарии, где память, задержка и стоимость инференса так же критичны, как и качество на бенчмарках.

Что изменилось

Granite 4.0 1B Speech пришла на смену более тяжёлым конфигурациям в линейке Granite Speech и делает акцент на эффективности. По данным IBM, у модели вдвое меньше параметров, чем у granite-speech-3.

3-2b, при этом она получила улучшенную точность английского ASR, поддержку японского распознавания речи, keyword list biasing и более быстрый inference за счёт дообучения энкодера и speculative decoding. Идея простая: не наращивать размер любой ценой, а убрать лишний вес без потери базовых возможностей, которые нужны командам в реальной эксплуатации. Отдельно IBM подчёркивает подход к обучению.

Модель построена на базе granite-4.0-1b-base, которую дообучили на speech-задачи через modality alignment. В тренировочный микс вошли открытые ASR- и AST-корпуса, а также синтетические датасеты для японского языка, keyword-biased ASR и speech translation.

Для разработчиков это важный сигнал: IBM не делает закрытый voice-стек только под облако, а развивает открытую модель, которую можно адаптировать под собственные пайплайны и железо.

Языки и задачи

Granite 4.0 1B Speech рассчитана на корпоративные сценарии, где нужны и транскрибация, и перевод речи в обе стороны. Базовый набор поддерживаемых входных языков включает английский, французский, немецкий, испанский, португальский и японский. Для перевода IBM позиционирует модель как инструмент для speech-to-text и speech translation к английскому и от английского для этих языков, а также отдельно указывает сценарии English-to-Italian и English-to-Mandarin. Это делает релиз полезным не только для call-центров и voice-интерфейсов, но и для внутренних переводческих пайплайнов.

  • Распознавание речи на английском, французском, немецком, испанском, португальском и японском Двусторонний перевод речи для пар с английским Отдельные сценарии English-to-Italian и English-to-Mandarin Biasing по списку ключевых слов для имён, брендов и аббревиатур Работа в сценариях, где важны низкая задержка и ограниченная память Ещё один практический плюс — лицензия Apache 2.0. Для enterprise-команд это снижает трение на этапе пилота и юридической оценки: модель можно развернуть локально, встроить в свой стек и не завязываться на API-only доступ уже на раннем этапе. На фоне рынка, где многие speech-системы доступны только как облачный сервис с коммерческими ограничениями, такой формат даёт больше свободы для кастомизации, офлайн-развёртывания и контроля над данными.

Развёртывание и метрики

По данным модельной карточки, Granite 4.0 1B Speech уже вышла на первое место в OpenASR leaderboard со средним WER 5.52 и RTFx 280.

02. В разбивке по датасетам IBM показывает, например, 1.42 на LibriSpeech Clean, 2.

85 на LibriSpeech Other и 3.10 на Tedlium. Для таких релизов это важный аргумент: модель позиционируется не как просто «маленькая и дешёвая», а как компактная система, которая всё ещё держит очень сильный уровень на стандартных публичных тестах.

С точки зрения внедрения IBM постаралась убрать лишние барьеры. Модель поддерживается в **transformers 4.52.

1+, запускается через vLLM и отдельно имеет путь для mlx-audio** на Apple Silicon. В референсном пайплайне используется mono-аудио 16 кГц, запрос формируется через префикс `<|audio|>`, а keyword biasing можно добавить прямо в prompt. Архитектурно Granite Speech остаётся двухпроходной системой: сначала модель превращает аудио в текст, а затем при необходимости отдельный вызов языковой модели обрабатывает уже транскрипт.

Для продакшна это удобно, потому что распознавание и downstream-логику можно масштабировать и настраивать независимо.

Что это значит IBM делает ставку на тот сегмент voice AI, где

выигрывает не самая большая модель, а та, которую реально можно запустить на ограниченных ресурсах без потери качества. Если Granite 4.0 1B Speech закрепится в продовых внедрениях, рынок получит ещё один сильный open-source вариант для локальной транскрибации, перевода речи и edge-сервисов без тяжёлой облачной зависимости.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…