Cohere lanzó un modelo open-source para transcripción — 2 mil millones de parámetros y 14 idiomas
Cohere lanzó un modelo de voz de código abierto diseñado específicamente para transcripción. Con solo 2 mil millones de parámetros, está pensado para ejecutarse

Cohere выпустила открытую голосовую модель, специально разработанную для транскрипции речи. В отличие от большинства аналогов, модель весит всего 2 миллиарда параметров — это сделано намеренно, чтобы её можно было запустить на обычном потребительском GPU, не прибегая к дорогостоящим серверным кластерам или облачным API. Компания позиционирует новинку как инструмент для разработчиков, которые хотят развернуть транскрипцию у себя.
Cohere — канадская AI-компания, основанная в 2019 году выходцами из Google Brain. До сих пор её знали прежде всего как поставщика корпоративных языковых моделей: флагманская Command-модель конкурирует с GPT-4 и Claude в enterprise-сегменте, а система эмбеддингов Embed используется в тысячах производственных приложений для семантического поиска. Голосовые инструменты — новое направление для компании, и сразу с акцентом на специализацию: вместо универсального мультимодального решения выпущен инструмент, заточенный под одну задачу.
Рынок автоматического распознавания речи переживает трансформацию. Исторически его контролировали технологические гиганты: Google Speech-to-Text, Amazon Transcribe, Microsoft Azure Speech. Все они работают по облачной модели — аудио уходит на серверы провайдера, там обрабатывается, возвращается текст.
Это создаёт две проблемы: растущие расходы при больших объёмах и вопросы конфиденциальности, критичные для ряда отраслей. Крупные провайдеры зарабатывают на масштабе, но для стартапов и средних компаний стоимость облачной транскрипции быстро становится значимой статьёй расходов. Перелом наступил в 2022 году, когда OpenAI выпустила Whisper — открытую модель транскрипции, которую можно запустить локально.
Whisper изменил рынок: разработчики массово перешли на self-hosted транскрипцию, появились быстрые варианты вроде faster-whisper на базе CTranslate2 и облегчённые дистиллированные версии. Однако Whisper имеет известные ограничения. Большие версии требуют GPU с 8–10 GB VRAM, а сама модель с момента выхода Large v3 в 2023 году не получала значимых обновлений.
Рынок ждал достойной альтернативы. Именно здесь появляется пространство для модели Cohere. 2 миллиарда параметров — это не компромисс, а осознанная ставка на доступность.
Для сравнения: Whisper Large v3, считающийся эталоном качества, имеет 1,5 миллиарда параметров и требует минимум 8 GB VRAM в половинной точности. Модель Cohere чуть крупнее по числу параметров, но, судя по заявленной совместимости с потребительскими GPU, лучше оптимизирована для запуска без дата-центра. Поддержка 14 языков охватывает большинство производственных сценариев глобальных компаний.
Open-source статус — это ещё и вопрос приватности. Компании в финансовом, медицинском, юридическом и государственном секторах не могут просто отправлять чувствительные переговоры и записи на серверы сторонних провайдеров. Регуляторные требования HIPAA, GDPR, российского 152-ФЗ и аналогичных законов требуют контроля над обработкой данных.
Self-hosted транскрипция снимает этот барьер полностью: аудио обрабатывается локально, ничего не уходит наружу. До сих пор единственным зрелым вариантом для таких сценариев оставался Whisper с его ограничениями в продакшне. Публикация открытого инструмента — также стратегический ход Cohere.
Бесплатная модель привлекает разработчиков в экосистему компании, формирует будущую зависимость от корпоративных облачных продуктов при масштабировании бизнеса и строит репутацию партнёра, которому можно доверять. Это та же логика, которую Meta использует с Llama, а Mistral — со своими открытыми моделями: сначала строить доверие через открытость, затем монетизировать через enterprise. Независимые бенчмарки появятся в ближайшие недели.
Пока неясно, как модель ведёт себя в условиях сильного шума, сложных акцентов и специализированной терминологии. Если точность окажется сопоставимой с Whisper Large v3, это существенно изменит расстановку сил в сегменте open-source транскрипции. Разработчикам, строящим системы расшифровки встреч, call-центры, инструменты медицинской документации или голосовые заметки, стоит добавить модель Cohere в список кандидатов для тестирования.