Habr AI→ оригинал

Suno 5.5 melhora a cópia de voz e a preservação da melodia no modo Cover

O Suno 5.5 avançou de forma clara na função Your Voice: em testes com 11 datasets de voz, o serviço já entrega vocais reconhecíveis e consegue cantar a partir d

Suno 5.5 melhora a cópia de voz e a preservação da melodia no modo Cover
Источник: Habr AI. Коллаж: Hamidun News.
◐ Слушать статью

Suno 5.5 заметно приблизилась к клонированию пользовательского вокала и к более управляемой аранжировке. Практические тесты показывают: сервис уже умеет делать голос узнаваемым и переносить свою мелодию в песню, но до полностью предсказуемого результата ему пока далеко.

Как собирается голос

Главная идея тестов вокруг Your Voice в Suno 5.5 — голос нельзя свести к одному тембру. Для правдоподобного синтеза система фактически работает как минимум с тремя слоями: тембром, интонацией и артикуляцией.

Тембр отвечает за «окраску» звука, интонация — за мелодию, вибрато и мелизмы, а артикуляция — за то, как произносятся и пропеваются слова. Такое разделение даёт гибкость: модель может сохранить узнаваемый оттенок голоса, но при этом перестроить подачу, язык и манеру исполнения. Чтобы проверить, как Suno ведёт себя на реальном материале, автор собрал 11 голосовых наборов, или датасетов, из вокала и речи.

Сначала в ход пошли короткие DS длиной около одной-полутора минут, затем — более длинные и специализированные подборки до четырёх минут. Логика простая: чем точнее описан голосовой материал, тем выше шанс, что модель не сорвётся в усреднённый дефолтный вокал. Именно на таком наборе проще увидеть, что она запоминает лучше всего.

нейтральный, «опорный» и breathy-вокал для разных подач театральная и выразительная речь для проверки манеры набор из одной песни для точного попадания в конкретный характер сборка из нескольких песен для большей универсальности Отдельно важно, что Suno реагирует не только на сам тембр, но и на характер исходника. Если в датасете есть яркая интонация, речитативность или необычная манера, модель чаще переносит именно это. Поэтому один универсальный набор под все жанры здесь пока не работает: для разной музыки нужны разные заготовки.

Особенно заметно это на эмоциональных фразах и переходах между куплетами, где система легко подхватывает манеру, но не всегда удерживает точное сходство по всему треку.

Что показали тесты

На 11 датасетах было сделано несколько десятков генераций в девяти стилях с разными параметрами Weirdness, Style influence и Audio influence. Общий вывод получился обнадёживающим: там, где в исходном материале заметны либо сильный тембр, либо характерная интонация, «певец» в результате уже узнаётся. Лучше всего срабатывали expressive-речевые наборы, theatrical-подача и датасеты с выраженным vocal color, а вот более универсальные Song Set и One Song не всегда давали максимальное сходство.

«Это ты», — так близкие автора оценили часть генераций.

Второй важный вывод касается аранжировки. Связка Your Voice с режимом Cover позволяет загрузить простой MIDI-черновик, переведённый в mp3, и получить песню уже со своей мелодией и своим голосом. На практике это означает, что Suno можно использовать не только как генератор «песни по тексту», но и как инструмент для быстрого наброска аранжировки. Лучше всего работает максимально сухой и простой черновик без лишних эффектов: мелодия, ритм и гармония должны быть заданы чётко, но без перегруза деталями.

Где есть ограничения Даже в удачных примерах качество сильно зависит от трёх условий.

Во-первых, черновик должен лежать в комфортном диапазоне для конкретного голосового набора: если мелодия выходит слишком высоко или низко, Suno начинает морфить вокал в стандартный. Во-вторых, стиль генерации должен соответствовать природе датасета: рэп с оперным набором или рок с breathy-голосом дают странный результат. В-третьих, параметр Audio influence лучше держать достаточно высоким, если задача — сохранить именно свой голос, а не красивую, но чужую вариацию.

Проблем хватает и на техническом уровне. В начале апреля 2026 года в тестах регулярно встречались одни и те же сбои: примерно после третьей минуты голосовой набор забывался, текст мог повторяться и растягивать трек до восьми минут, в аудио появлялись мягкие швы, а аккомпанемент иногда заметно проседал с началом вокальной партии. Плюс сама система не всегда точно читает сложную гармонию и насыщенные аранжировки.

Поэтому самые надёжные результаты пока получаются не на готовых плотных треках, а на простых, сухих и хорошо контролируемых набросках.

Что это значит

Suno 5.5 уже вышла из стадии фокуса «смешно, но непохоже» и перешла в зону практического применения для демо, быстрых аранжировок и экспериментов с персонализированным вокалом. Но это всё ещё не кнопка для идеального цифрового двойника: чтобы получить убедительный результат, придётся отдельно подбирать датасеты, следить за диапазоном, упрощать черновики и мириться с тем, что на длинных и сложных песнях система пока срывается в компромисс.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…