Habr AI→ оригинал

Как разработчик создал навык генерации музыки для Яндекс Алисы

Разработчик создал навык для Яндекс Алисы, который генерирует музыку по команде. Говоришь «создай песню про море» — ждёшь минуту. Автор критикует устаревшие нав

Как разработчик создал навык генерации музыки для Яндекс Алисы
Источник: Habr AI. Коллаж: Hamidun News.
◐ Слушать статью

Разработчик из Мельбурна создал навык для Яндекс Алисы, который генерирует музыку прямо во время разговора. Команда простая: скажи «создай песню про море», подожди минуту — и умная колонка её воспроизводит.

Почему разработчик это сделал

Автор растит дочь в русскоязычной семье в Мельбурне и хочет, чтобы русский язык был для неё не только бытовым, но и языком, где происходит что-то интересное и современное. Он купил две Яндекс Алисы (версии Макс и Про) потому, что для русского языка в сегменте умных колонок нет нормальных альтернатив. Amazon Echo, Apple HomePod, Google Nest едва понимают русский на уровне школьной тройки, тогда как Яндекс с ним справляется из коробки.

Проблема: маркетплейс застрял во времени

Когда автор открыл Яндекс Диалоги (это маркетплейс навыков для Алисы), его ждало разочарование. Там собраны примитивные проекты из эпохи до ChatGPT: детские математические задачки, простенькие ролевые игры, сказки. Мёртвый продукт, как выражается разработчик. Он посмотрел на это и подумал: ну ребята, можно же сделать что-то живое и полезное.

Как техически работает генерация Навык использует современные модели генерации аудио.

Когда пользователь говорит «создай песню про море», система выполняет несколько шагов подряд: Обрабатывает голосовую команду и преобразует её в текст Отправляет описание в модель генерации музыки Получает готовый аудиофайл Воспроизводит его через динамик колонки Весь цикл занимает около минуты. По сути, это первый практический пример использования Audio Diffusion или подобных технологий в российской экосистеме голосовых ассистентов. Раньше такое было уделом лабораторий и демонстраций, теперь оно в руках конечного пользователя.

Почему реализовалось за два вечера

На такой срок работы уходит не потому, что это просто — а потому, что автор был хорошо подготовлен. У него уже был готовый шаблон инфраструктуры и опыт двух-трёх похожих pet-проектов. Если начинать с нуля, потребовалось бы значительно больше времени. Но сам факт, что навык получился достаточно простым в реализации, показывает: API Яндекса доступны для экспериментов, и барьер входа не катастрофически высок.

Что это означает Это не революция и не замена музыкальным продюсерам.

Это сигнал, что русскоязычные разработчики могут экспериментировать с современными генеративными моделями в рамках уже готовой платформы. Вместо мёртвого маркетплейса, где царствуют сказки и ролевые игры, может быть поле для живых, полезных проектов, которые реально интересны пользователям.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…