Habr AI→ оригинал

Sova AI lança assistente Android que controla telefone sem PC e root

Sova AI apresentou um assistente Android que controla aplicativos diretamente em um smartphone sem ADB, USB, root e conexão com computador. O agente funciona po

Sova AI lança assistente Android que controla telefone sem PC e root
Источник: Habr AI. Коллаж: Hamidun News.

Sova AI пытается занять нишу, которую крупные игроки пока толком не закрыли: сделать ИИ-ассистента, который не просто отвечает на запросы, а реально действует внутри Android-приложений прямо на смартфоне. Проект подается как первый мобильный агент такого типа, которому не нужны ни ADB, ни USB-подключение, ни root, ни связка с ПК. Пользователь устанавливает обычное приложение, при желании назначает его системным ассистентом и может отдавать голосовые или текстовые команды, после чего агент сам открывает нужные сервисы, нажимает кнопки, скроллит экраны и проходит шаги так, как это сделал бы человек.

Главная ставка Sova AI — не на очередной чат-интерфейс, а на идею постоянного присутствия в мобильном устройстве. На рынке уже есть решения из категории mobile-use, но многие из них по-прежнему требуют подключения телефона к компьютеру, отладки через кабель или других технических обходных путей. Для массового пользователя это неудобно: если рядом уже стоит ПК, логичнее поручить задачу классическому computer-use или browser-use.

Авторы проекта исходят из другого сценария: телефон должен оставаться самостоятельной средой, где помощник может выполнить рутинное действие в любой момент — по дороге, в очереди, между встречами или в ситуации, когда ноутбука просто нет под рукой. Технически агент опирается на Android Accessibility API. Это позволяет ему видеть структуру экрана через дерево интерфейса, находить элементы управления и воспроизводить действия пользователя: нажатия, прокрутку, переходы между приложениями и другие базовые шаги.

Но разработчики отдельно подчеркивают, что одних только скриншотов для такой задачи недостаточно. Модели не всегда стабильно интерпретируют изображения интерфейса, по-разному обрабатывают качество картинки и могут ошибаться на мелких элементах. Поэтому в Sova AI сделали гибридный подход: данные из дерева экрана сочетаются с визуальным контекстом, чтобы повысить точность и одновременно не раздувать расход токенов на каждую операцию.

Эта экономическая часть для продукта не менее важна, чем сама магия автоматизации. Если мобильный агент должен уметь проходить много шагов внутри приложений, стоимость каждого сценария быстро становится критичной. Создатели Sova AI прямо говорят, что пытались избежать ситуации, в которой пользователь тратит слишком много ресурсов на банальное действие вроде заказа еды или выполнения короткой бытовой задачи.

Отсюда и фокус на сочетании структурных данных с картинкой, а не на чистом vision-подходе. Дополнительно агент можно назначить помощником по умолчанию, чтобы запускать его голосом и сразу переводить команду в действие, а не в очередной ответ в стиле «я не могу взаимодействовать с приложениями». Отдельный интерес здесь в том, что Sova AI предлагает более жесткое определение слова «ассистент».

В последние два года рынок заполнили сервисы, которые хорошо суммируют, ищут, подсказывают и поддерживают диалог, но останавливаются на границе реального действия. Sova AI пытается эту границу сдвинуть и превратить смартфон в площадку для агентного интерфейса, где ИИ не только объясняет, что нужно сделать, но и сам проходит нужную последовательность шагов. Пока проект доступен на Android, а версия для iOS находится в разработке, что логично: именно Android сегодня дает больше пространства для подобной интеграции.

Вывод простой: Sova AI показывает, куда может двигаться следующая волна пользовательских ИИ-продуктов — от разговорных помощников к исполнительным агентам. Если такой подход окажется достаточно надежным, быстрым и недорогим, у mobile-use появится шанс стать отдельным массовым сегментом, а не демонстрацией для разработчиков. Но вместе с удобством неизбежно вырастут требования к точности, приватности и контролю над разрешениями.

Для пользователя это уже не просто чат, а софт, который получает доступ к интерфейсу телефона и действует от его имени.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…