Reachy Mini научили разговаривать локально без облака

Q: Источник материала?

Оригинальная публикация на Hugging Face Blog. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-29. Время чтения: 3 мин.

Робот Reachy Mini теперь может разговаривать полностью локально. Весь стек — VAD, STT, LLM, TTS — работает без облака и API. Пользователи сами выбирают модели,

ЖХ

Редакция Hamidun News

AI‑мониторинг · Hugging Face Blog

2026-05-29· 3 мин

Reachy Mini научили разговаривать локально без облака — Источник: Hugging Face Blog. Коллаж: Hamidun News.

◐ Слушать статью

Гуманоидный робот Reachy Mini от Pollen Robotics теперь может полностью работать локально. Весь стек распознавания речи — от голоса до ответа — выполняется на локальном устройстве без отправки данных в облако. Это первый полный пример того, как AI-робот может быть полностью независим от облачных сервисов.

Как именно работает локальный стек

Reavchy Mini использует каскадный pipeline, где каждый компонент передаёт результат следующему на локальном устройстве. Человек говорит — VAD (Voice Activity Detection) обнаруживает речь, STT (Speech-to-Text) преобразует её в текст, LLM обрабатывает текст и генерирует ответ, затем TTS (Text-to-Speech) озвучивает результат. Hugging Face предоставил готовый пример с открытыми компонентами и WebSocket API, совместимым с Realtime API стандартом, чтобы разработчики могли сразу начать использовать. Запуск требует минимума: установить локальный LLM через llama.cpp, mlx (для Apple Silicon) или другой фреймворк, затем запустить speech-to-speech библиотеку. Всё это займёт несколько команд в терминале. Робот подключается к локальному бэкенду через UI приложения.

Какие компоненты входят в стек

Локальный стек состоит из четырёх модулей, каждый из которых можно заменить: VAD (Voice Activity Detection) — Silero VAD v5 точно обнаруживает, когда человек начал и закончил говорить, игнорирует фоновый шум STT (Speech-to-Text) — Parakeet-TDT 0.6B v3 преобразует голос в текст с минимальной задержкой LLM (Language Model) — Gemma, Llama или любая другая модель по выбору, может быть локальная или на удалённом сервере TTS (Text-to-Speech) — Qwen3-TTS озвучивает ответ робота в реальном времени Разработчик может заменить любой компонент. Например, если нужна поддержка специфичного языка, найти лучшую STT модель для этого языка. Если задача требует максимальной скорости ответа, оптимизировать VAD и LLM под низкую задержку.

Зачем это важно для разработчиков и компаний

Раньше AI-робот был привязан к облачному провайдеру: какую модель использует OpenAI или Google, ту и используешь, платишь за каждую минуту, данные отправляются на серверы корпорации. Теперь это ограничение исчезнет. Локальный стек решает три ключевые проблемы одновременно. Во-первых, приватность: аудиопотоки и текст никогда не покидают локальную сеть — это критично для производственных сценариев, медицины, корпоративных сред. Во-вторых, экономика: нет расходов на облачные API, которые могут быть существенными при длительных сессиях. В-третьих, полный контроль: пользователь выбирает модели, может менять их без привязки к облачному провайдеру.

«Каскады — самый гибкий вариант в open-source экосистеме сегодня», — пишут авторы в посте

Hugging Face, подчёркивая, что компоненты легко комбинируются и заменяются.

Что это означает для будущего робототехники Это важный шаг в демократизации AI-робототехники.

Гуманоидные роботы становятся не просто облачными сервисами с механикой, а полноценными независимыми системами, которые каждый может кастомизировать под свои задачи. Исследователи теперь могут сосредоточиться на алгоритмах и интеграции, а не на облачной инфраструктуре.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com