Google AI Blog→ оригинал

Gemini научился создавать музыку по текстовому описанию

Google расширил возможности своего ИИ-ассистента Gemini, добавив функцию генерации музыки. Теперь пользователи могут создавать 30-секундные музыкальные композиц

Gemini научился создавать музыку по текстовому описанию
Источник: Google AI Blog. Коллаж: Hamidun News.

Google расширил возможности своего флагманского искусственного интеллекта Gemini, добавив функцию генерации музыки. Теперь пользователи могут создавать 30-секундные музыкальные композиции на основе текстовых запросов или изображений, используя передовую модель Lyria 3. Эта интеграция открывает новые горизонты для творческого самовыражения через ИИ, позволяя быстро получать уникальные аудиофрагменты для различных проектов.

Контекст: Эволюция творческого ИИ

Последние несколько лет ознаменовались стремительным развитием генеративных моделей искусственного интеллекта. Изначально фокусируясь на тексте и изображениях, эти технологии постепенно осваивают новые области, включая аудио и музыку. Google, являясь одним из лидеров в области ИИ, активно инвестирует в разработку мультимодальных моделей, способных обрабатывать и генерировать информацию различных форматов. Gemini, будучи одной из самых продвинутых разработок компании, теперь демонстрирует свою способность не только понимать и создавать текст или изображения, но и сочинять музыку. Интеграция модели Lyria 3, специально разработанной для генерации высококачественного аудио, знаменует собой важный шаг в этом направлении.

Глубокое погружение: Как это работает?

Новая функция Gemini позволяет пользователям превращать свои идеи в музыкальные треки. Процесс начинается с ввода текстового описания желаемой композиции. Это может быть что угодно: от описания настроения («грустная мелодия для дождливого дня») до жанровых предпочтений («энергичный рок-рифф в стиле 80-х») или даже конкретных инструментов («фортепианная баллада с легким струнным аккомпанементом»). Кроме того, Gemini способен генерировать музыку на основе изображений, интерпретируя визуальную информацию и преобразуя ее в звуковые ландшафты. Модель Lyria 3, лежащая в основе этой возможности, обучена на обширном массиве музыкальных данных, что позволяет ей создавать разнообразные и качественные композиции. Полученные треки имеют продолжительность до 30 секунд, что делает их идеальными для использования в качестве фоновой музыки, джинглов, звуковых эффектов или вдохновения для дальнейшего творчества.

Импликации: Новые возможности для творчества и бизнеса

Появление такой функции в Gemini имеет далеко идущие последствия. Для музыкантов и продюсеров это может стать мощным инструментом для быстрого прототипирования идей, поиска новых звуковых решений или создания уникальных аранжировок. Блогеры, создатели контента и разработчики игр получат возможность легко генерировать оригинальную фоновую музыку для своих проектов, избегая проблем с авторскими правами и высокими затратами на лицензирование. Даже обычные пользователи смогут экспериментировать с музыкой, воплощая свои творческие фантазии без необходимости обладать специальными навыками. Это демократизирует процесс создания музыки, делая его доступным для более широкой аудитории. Кроме того, такая технология может найти применение в образовательных целях, помогая студентам изучать музыкальные жанры и структуры.

Заключение: Музыка будущего уже здесь

Интеграция музыкальной генерации в Gemini — это не просто очередное обновление, а свидетельство растущей мощи и универсальности искусственного интеллекта. Превращая текстовые описания и изображения в полноценные музыкальные фрагменты, Google открывает новую эру в творческом самовыражении. Способность ИИ понимать и воспроизводить сложные аспекты человеческого творчества, такие как музыка, подчеркивает его потенциал в качестве партнера для людей в различных сферах деятельности. Это лишь начало пути, и можно ожидать, что в будущем ИИ-инструменты станут еще более изощренными, предоставляя беспрецедентные возможности для создания и взаимодействия с искусством.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…