WisprFlow, Whisper and GigaAM: who recognizes Russian-English speech better
Voice input for neural network commands and code work is constrained not by speed, but by the ability to understand Russian-English code-switching. A new review

Голосовой ввод перестал быть просто удобной надстройкой: для тех, кто общается с LLM, работает в Cursor и диктует команды вперемешку на русском и английском, он становится полноценным интерфейсом. В новом разборе автор сравнил приложения и модели, которые должны понимать фразы вроде «объясни на русском», «открой в Cursor» и «проверь, что deploy прошёл», и показал, какие решения реально пригодны для такой смешанной речи в 2026 году. Материал опирается на полгода практических тестов.
В центре внимания не абстрактная точность распознавания по отдельным языкам, а более сложный сценарий, знакомый разработчикам, аналитикам и активным пользователям ИИ: быстрое переключение между русским и английским внутри одной фразы, корректная передача названий продуктов, терминов и элементов кода, а также внятная пунктуация без долгой постобработки. Именно на этом этапе часто ломаются даже сильные системы: английские слова превращаются в кириллицу, команды теряют смысл, а надиктованный текст требует ручной правки. По приложениям автор сравнил пять вариантов из разных категорий: WisprFlow, SpeakFlow, Handy, OpenWhispr и SuperWhisper.
В выборке есть облачные и локальные решения, платные продукты и open source-инструменты. Один из главных выводов обзора в том, что облачный WisprFlow уже можно заменить бесплатной open source-альтернативой без заметной потери качества. Для пользователя это не просто экономия на подписке, а ещё и более высокий контроль над приватностью, скоростью работы и настройками локального пайплайна.
Отдельно автор отмечает и свой вклад в экосистему: один из его pull request был принят в основную ветку open source-проекта. Не менее важной получилась и часть про модели. В бенчмарке участвовали Whisper Large v3, Whisper Turbo, GigaAM v3 от Сбера, Canary 1B v2 от NVIDIA и Parakeet V3.
Базовым ориентиром в таких сравнениях по-прежнему остаётся Whisper, но статья показывает, что реальный результат зависит не только от самой модели, но и от того, как именно она запускается. Автор отдельно сравнил Whisper Turbo и Large v3 на RTX 5070 Ti и получил неожиданный результат: на архитектуре Blackwell запуск через Vulkan оказался примерно на 50% быстрее, чем через CUDA. Для локального сценария это важная практическая деталь, потому что разница напрямую влияет на задержку, плавность диктовки и общий выбор стека.
Альтернативы Whisper тоже выглядят уже не как чистый эксперимент. По наблюдениям автора, GigaAM v3 и Canary 1B v2 в ряде сценариев действительно подбираются к уровню лидера, но их слабые места проявляются на смешанной речи, когда английское слово нужно не перевести и не транслитерировать, а сохранить без искажений. Показательный пример из обзора — ситуация, в которой Gemini превращается в Jemni.
Для обычной заметки это неприятно, но терпимо; для голосовой работы с ИИ-инструментами, IDE, названиями библиотек и командами деплоя такая ошибка может ломать смысл целиком. Именно поэтому в техническом использовании качество обработки код-свитчинга важнее усреднённой метрики точности. Ещё один практический вывод касается пунктуации.
Автор пишет, что проблему пропадающих запятых и точек в 99% случаев удалось решить одним текстовым промптом, без LLM-постпроцессоров и дополнительной задержки. Это важное наблюдение для всех, кто строит голосовой workflow вокруг редакторов, чатов с нейросетями и заметок: неудобство часто возникает не из-за неверно распознанных слов, а из-за того, что текст потом приходится дочищать отдельными слоями обработки. Если пунктуацию можно стабилизировать на уровне базового сценария, голос действительно начинает конкурировать с клавиатурой не только по скорости, но и по удобству повседневной работы.
Вывод из этого обзора простой: к апрелю 2026 года рынок голосового ввода для русско-английской смеси заметно повзрослел, но универсального победителя всё ещё нет. Если нужен максимально предсказуемый результат, Whisper и сильные приложения вокруг него пока задают планку. Если важны локальность, цена и контроль над стеком, open source-решения уже выглядят как реальная альтернатива облачным сервисам.
А главным критерием становится не рекламная «точность», а способность системы без сбоев пережить живую техническую речь, где русский, английский и команды для нейросетей звучат в одном предложении.