Habr AI→ оригинал

Busca musical NEWAVE: por que suas playlists nunca mais serão as mesmas

Поиск музыки по жанрам и годам уходит в прошлое. NEWAVE представила систему интеллектуального ретривала, которая понимает текстовые запросы на человеческом язык

Busca musical NEWAVE: por que suas playlists nunca mais serão as mesmas
Источник: Habr AI. Коллаж: Hamidun News.

Поиск музыки в стриминговых сервисах долгое время напоминал работу в архивном отделе библиотеки: если ты не знаешь точного названия или хотя бы жанра, твои шансы найти «то самое» стремятся к нулю. Мы годами привыкали к жестким фильтрам, тегам и категориям, которые придумали маркетологи, а не слушатели. Но команда NEWAVE решила, что пора заканчивать с этим бюрократическим подходом к искусству и научить машины понимать музыку так, как ее понимаем мы — через образы, эмоции и контекст. Вместо того чтобы заставлять пользователя тыкать в кнопки «рок» или «2010-е», разработчики создали систему интеллектуального ретривала, которая буквально слышит то, что вы пишете в поисковой строке.

В основе проекта лежит довольно изящная, но технически сложная концепция двуэнкодерных нейросетей. Если не уходить в дебри кода, представьте себе двух переводчиков. Один слушает аудиодорожку и переводит ее в набор математических координат, а другой делает то же самое с вашим текстовым запросом. Задача обучения в данном случае — сделать так, чтобы «грустная скрипка» в тексте и реальная аудиозапись со скрипкой оказались в одной и той же точке этого математического пространства. Для этого NEWAVE использовали контрастивное обучение: модель заставляли не просто узнавать похожие объекты, но и активно отталкивать непохожие. Это позволило системе улавливать тончайшие нюансы, которые обычно теряются при простой разметке тегами.

Проблема большинства существующих решений заключается в их ограниченности: они либо хорошо понимают текст, но плохо разбираются в звуке, либо наоборот. Чтобы избежать этой ловушки, разработчики задействовали сразу десять различных датасетов. Это не просто вопрос объема данных, это вопрос разнообразия. Один датасет может быть богат на технические описания темпа и инструментов, другой — на эмоциональные отзывы слушателей. Объединив их, NEWAVE научили свою систему понимать, что «музыка для поездки по ночному городу» — это не просто определенный BPM, а специфическое сочетание синтезаторов, реверберации и ритмического рисунка.

Особого внимания заслуживает использование механизма late fusion. В мире ML это часто становится решающим фактором между «просто работает» и «работает идеально». Вместо того чтобы смешивать все признаки в одну кучу в самом начале, система анализирует данные по разным каналам и объединяет их результаты уже на финальном этапе принятия решения. Это позволяет сохранить чистоту признаков каждого домена — и текста, и звука — и выдать максимально релевантный результат. В итоге мы получаем поиск, который понимает запрос «что-то в духе раннего Radiohead, но с более агрессивным басом» без необходимости ручной разметки миллионов треков.

Зачем все это нужно индустрии? Ответ лежит на поверхности: нынешняя модель рекомендаций в крупных сервисах начинает выгорать. Алгоритмы часто зацикливаются на похожих артистах, создавая эхо-комнаты, из которых слушателю трудно выбраться. Интеллектуальный ретривал от NEWAVE открывает двери для так называемого «нулевого поиска», когда вам не нужно знать имя исполнителя, чтобы найти новую любимую песню. Это меняет правила игры не только для слушателей, но и для независимых музыкантов, чье творчество теперь может быть найдено по описанию атмосферы, а не только благодаря многомиллионным маркетинговым бюджетам и попаданию в официальные плейлисты.

Конечно, мы всё еще находимся в начале пути, где ИИ пытается интерпретировать человеческие чувства через векторы и матрицы. Но прогресс NEWAVE показывает, что грань между техническим описанием файла и его эмоциональным содержанием становится всё более размытой. Если раньше мы подстраивались под интерфейсы поисковых машин, то теперь машины наконец-то начинают подстраиваться под наш язык. И это, пожалуй, самое логичное развитие технологий в эпоху, когда контента стало слишком много, а времени на его ручную сортировку — слишком мало.

Главное: NEWAVE доказали, что музыкальный поиск может быть человечным. Означает ли это конец эпохи кураторских плейлистов, или ИИ просто станет их идеальным ассистентом?

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…