MarkTechPost→ оригинал

xAI launches separate Grok APIs for speech recognition and synthesis for corporate developers

xAI has launched separate Grok APIs for speech recognition and synthesis, selling its voice stack as standalone infrastructure for the first time. STT supports

xAI launches separate Grok APIs for speech recognition and synthesis for corporate developers
Источник: MarkTechPost. Коллаж: Hamidun News.

xAI выпустила отдельные API для распознавания и синтеза речи и тем самым превратила голосовые функции Grok из внутреннего продукта в отдельный инфраструктурный сервис для разработчиков. Речь идёт о двух сервисах — Speech-to-Text и Text-to-Speech, которые работают на той же технологической базе, что уже используется в мобильном Grok, автомобилях Tesla и поддержке Starlink. Для xAI это не просто ещё одна функция в API, а прямой выход на рынок голосовых платформ, где уже закрепились ElevenLabs, Deepgram и AssemblyAI.

С практической точки зрения главный акцент xAI делает на корпоративные сценарии. API Speech-to-Text поддерживает пакетную обработку и потоковую расшифровку в реальном времени. По данным документации xAI, пакетный режим стоит 0,10 доллара за час аудио, потоковый — 0,20 доллара.

Сервис работает более чем с 25 языками и умеет не только переводить речь в сырой текст, но и структурировать результат: расставлять числа, даты, валюты и другие элементы в нормальной письменной форме. Для команд, которые строят колл-центры, голосовых помощников, сервисы протоколирования встреч или автоматизацию телефонии, это важнее, чем может показаться на первый взгляд: после такой нормализации текст проще индексировать, анализировать и отправлять дальше в LLM-цепочки. У STT-части есть и набор функций, который явно рассчитан на production-нагрузку.

xAI заявляет поддержку 12 аудиоформатов, файлов до 500 МБ, таймкоды на уровне слов, diarization для разделения спикеров и multichannel-режим для записи по каналам. Иными словами, сервис рассчитан не только на простые голосовые заметки, но и на переговоры, подкасты, клиентские звонки и сложные многоканальные записи. Отдельно xAI подчёркивает качество распознавания сущностей в телефонных разговорах — имён, дат, номеров счетов и других чувствительных деталей, которые обычно ломают точность обычных ASR-систем.

Самая сильная часть анонса — ценовое и качественное позиционирование против конкурентов. По собственным бенчмаркам xAI, Grok STT показал 5,0% ошибки на задаче распознавания сущностей в телефонных разговорах против 12,0% у ElevenLabs, 13,5% у Deepgram и 21,3% у AssemblyAI. На общей выборке xAI сообщает 6,9% word error rate.

Эти цифры пока стоит воспринимать как внутренние заявления самой компании, а не независимую отраслевую оценку, но даже в таком виде посыл понятен: xAI хочет продавать не «ещё один голосовой API», а более точную систему для бизнес-коммуникаций, где критичны имена, суммы, даты и юридическая терминология. Второй сервис, Text-to-Speech, дополняет эту стратегию и тоже подан как инструмент для разработчиков, а не просто демонстрационный голосовой эффект. xAI оценила синтез в 4,20 доллара за 1 миллион символов и открыла к нему доступ через обычный REST API и WebSocket для генерации в реальном времени.

В TTS доступно пять голосов, поддержка 20 языков и несколько форматов вывода — от стандартного MP3 до PCM и телефонических mu-law и A-law. Ключевая особенность — speech tags: разработчик может вставлять в текст управляющие маркеры вроде шёпота, паузы, смеха, акцента или замедления темпа. Это делает API пригодным для голосовых агентов, IVR-сценариев, обучающих продуктов и медиаформатов, где сухой «роботический» синтез уже не устраивает рынок.

Важно и то, как xAI раскладывает свою голосовую линейку. Ранее компания продвигала Grok Voice и voice agent API как цельный разговорный интерфейс. Теперь она продаёт STT и TTS по отдельности, позволяя компаниям собирать собственный стек: отдельно распознавать входящий аудиопоток, отдельно синтезировать ответы, а LLM-логику держать у себя или подключать через другой сервис.

Для enterprise-разработчиков это заметно снижает порог интеграции, потому что не нужно сразу принимать весь голосовой стек xAI целиком. Вывод простой: xAI пытается занять место не только в гонке чат-ботов, но и в более прикладном сегменте голосовой инфраструктуры. Если заявленные цены, задержки и качество подтвердятся в реальных внедрениях, у компании есть шанс быстро зайти в корпоративные кейсы — от поддержки клиентов до внутренних голосовых ассистентов.

Но окончательно рынок будет судить не по анонсу, а по стабильности API, прозрачности лимитов, качеству на разных языках и тому, насколько хорошо эта система работает вне собственных демо и бенчмарков xAI.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…