DeepMind Blog→ оригинал

Gemini научился создавать музыку по тексту и фото

Google добавила в приложение Gemini функцию генерации музыки на базе модели Lyria 3 — самой продвинутой разработки компании в этой области. Пользователи могут с

Gemini научился создавать музыку по тексту и фото
Источник: DeepMind Blog. Коллаж: Hamidun News.

Граница между текстом и звуком стала тоньше: Google встроила в приложение Gemini инструмент генерации музыки на основе модели Lyria 3. Теперь любой пользователь может описать желаемое звучание словами или загрузить фотографию — и получить готовый 30-секундный трек. Никаких нот, никаких студийных знаний, никакого специального оборудования. Это не просто новая функция в длинном списке обновлений — это попытка Google переопределить, кто вообще имеет право называться автором музыки.

Чтобы понять масштаб этого шага, важно вспомнить контекст. Генерация аудио по тексту существует уже несколько лет: Suno, Udio, MusicGen от Meta — все они предлагали похожие возможности разной степени качества. Но большинство этих сервисов существовали отдельно от массовых продуктов, требовали регистрации в специализированных приложениях и оставались нишевым увлечением технически подготовленной аудитории. Google делает ставку на другое: Lyria 3 встроена непосредственно в Gemini — приложение, которым пользуются сотни миллионов человек по всему миру. Порог входа исчезает почти полностью.

Lyria 3 — это самая продвинутая музыкальная модель Google на сегодняшний день. Компания разрабатывала её в рамках исследовательского направления DeepMind, и теперь результат этой работы переходит из лаборатории в карман обычного пользователя. Механика проста: вы описываете настроение, жанр, инструменты или атмосферу текстом — например, "расслабляющий lo-fi с фортепиано и дождём за окном" — и модель генерирует трек. Альтернативный путь ещё интереснее: можно загрузить изображение, и Lyria 3 сама интерпретирует его визуальное содержание в музыкальный образ. Закат над морем превращается в одну мелодию, городская суета — в совершенно другую. Именно этот мультимодальный подход отличает предложение Google от большинства конкурентов.

Для индустрии это сигнал с несколькими уровнями смысла. Первый — очевидный: крупнейшие технологические компании всерьёз конкурируют за творческую аудиторию. OpenAI уже интегрировала генерацию изображений в ChatGPT, Meta развивает собственные мультимодальные инструменты, Apple тихо строит AI-функции в своей экосистеме. Google с Lyria 3 в Gemini делает музыку следующим полем битвы. Второй уровень сложнее: появление таких инструментов в массовом продукте неизбежно поднимает вопросы авторского права и монетизации. На каких данных обучена Lyria 3? Что происходит с треком, который вы сгенерировали — можно ли его публиковать, продавать, использовать в коммерческих проектах? Пока Google официально не дала исчерпывающих ответов, и это остаётся зоной неопределённости, которую индустрия будет внимательно наблюдать.

Для рядового пользователя последствия куда более прямолинейны. Подкастер получает возможность создать уникальную заставку за минуту. Автор видеоконтента — фоновую музыку без необходимости искать треки с лицензией Creative Commons. Человек, у которого в голове давно звучит какая-то мелодия, наконец может её материализовать, не зная ни одной ноты. Именно эта аудитория — не профессиональные музыканты, а миллионы людей с творческими потребностями без технических возможностей — и есть настоящая цель Google. Тридцать секунд, конечно, немного, но это вполне достаточный формат для джинглов, заставок, атмосферных вставок и экспериментов.

Смотреть в будущее здесь следует без лишней эйфории, но и без скептицизма. Музыкальная генерация пока далека от того, чтобы угрожать профессиональным композиторам — так же, как текстовые ИИ не вытеснили журналистов. Но она меняет экономику творчества: снижает стоимость производства контента, расширяет круг людей, способных этот контент создавать, и создаёт новые профессиональные роли — тех, кто умеет грамотно формулировать запросы и редактировать результат. Lyria 3 в Gemini — это не конец музыкальной профессии, а начало разговора о том, что значит быть автором в эпоху, когда инструмент сам умеет играть.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…