Habr AI→ оригинал

Suno 5.5 أصبحت أفضل في نسخ الصوت والحفاظ على اللحن في وضع Cover

حققت Suno 5.5 تقدماً ملحوظاً في ميزة Your Voice: ففي اختبارات على 11 مجموعة بيانات صوتية، باتت الخدمة تنتج غناءً يمكن التعرف عليه ويمكنها الغناء انطلاقاً من مسو

Suno 5.5 أصبحت أفضل في نسخ الصوت والحفاظ على اللحن في وضع Cover
Источник: Habr AI. Коллаж: Hamidun News.
◐ Слушать статью

Suno 5.5 заметно приблизилась к клонированию пользовательского вокала и к более управляемой аранжировке. Практические тесты показывают: сервис уже умеет делать голос узнаваемым и переносить свою мелодию в песню, но до полностью предсказуемого результата ему пока далеко.

Как собирается голос

Главная идея тестов вокруг Your Voice в Suno 5.5 — голос нельзя свести к одному тембру. Для правдоподобного синтеза система фактически работает как минимум с тремя слоями: тембром, интонацией и артикуляцией.

Тембр отвечает за «окраску» звука, интонация — за мелодию, вибрато и мелизмы, а артикуляция — за то, как произносятся и пропеваются слова. Такое разделение даёт гибкость: модель может сохранить узнаваемый оттенок голоса, но при этом перестроить подачу, язык и манеру исполнения. Чтобы проверить, как Suno ведёт себя на реальном материале, автор собрал 11 голосовых наборов, или датасетов, из вокала и речи.

Сначала в ход пошли короткие DS длиной около одной-полутора минут, затем — более длинные и специализированные подборки до четырёх минут. Логика простая: чем точнее описан голосовой материал, тем выше шанс, что модель не сорвётся в усреднённый дефолтный вокал. Именно на таком наборе проще увидеть, что она запоминает лучше всего.

нейтральный, «опорный» и breathy-вокал для разных подач театральная и выразительная речь для проверки манеры набор из одной песни для точного попадания в конкретный характер сборка из нескольких песен для большей универсальности Отдельно важно, что Suno реагирует не только на сам тембр, но и на характер исходника. Если в датасете есть яркая интонация, речитативность или необычная манера, модель чаще переносит именно это. Поэтому один универсальный набор под все жанры здесь пока не работает: для разной музыки нужны разные заготовки.

Особенно заметно это на эмоциональных фразах и переходах между куплетами, где система легко подхватывает манеру, но не всегда удерживает точное сходство по всему треку.

Что показали тесты

На 11 датасетах было сделано несколько десятков генераций в девяти стилях с разными параметрами Weirdness, Style influence и Audio influence. Общий вывод получился обнадёживающим: там, где в исходном материале заметны либо сильный тембр, либо характерная интонация, «певец» в результате уже узнаётся. Лучше всего срабатывали expressive-речевые наборы, theatrical-подача и датасеты с выраженным vocal color, а вот более универсальные Song Set и One Song не всегда давали максимальное сходство.

«Это ты», — так близкие автора оценили часть генераций.

Второй важный вывод касается аранжировки. Связка Your Voice с режимом Cover позволяет загрузить простой MIDI-черновик, переведённый в mp3, и получить песню уже со своей мелодией и своим голосом. На практике это означает, что Suno можно использовать не только как генератор «песни по тексту», но и как инструмент для быстрого наброска аранжировки. Лучше всего работает максимально сухой и простой черновик без лишних эффектов: мелодия, ритм и гармония должны быть заданы чётко, но без перегруза деталями.

Где есть ограничения Даже в удачных примерах качество сильно зависит от трёх условий.

Во-первых, черновик должен лежать в комфортном диапазоне для конкретного голосового набора: если мелодия выходит слишком высоко или низко, Suno начинает морфить вокал в стандартный. Во-вторых, стиль генерации должен соответствовать природе датасета: рэп с оперным набором или рок с breathy-голосом дают странный результат. В-третьих, параметр Audio influence лучше держать достаточно высоким, если задача — сохранить именно свой голос, а не красивую, но чужую вариацию.

Проблем хватает и на техническом уровне. В начале апреля 2026 года в тестах регулярно встречались одни и те же сбои: примерно после третьей минуты голосовой набор забывался, текст мог повторяться и растягивать трек до восьми минут, в аудио появлялись мягкие швы, а аккомпанемент иногда заметно проседал с началом вокальной партии. Плюс сама система не всегда точно читает сложную гармонию и насыщенные аранжировки.

Поэтому самые надёжные результаты пока получаются не на готовых плотных треках, а на простых, сухих и хорошо контролируемых набросках.

Что это значит

Suno 5.5 уже вышла из стадии фокуса «смешно, но непохоже» и перешла в зону практического применения для демо, быстрых аранжировок и экспериментов с персонализированным вокалом. Но это всё ещё не кнопка для идеального цифрового двойника: чтобы получить убедительный результат, придётся отдельно подбирать датасеты, следить за диапазоном, упрощать черновики и мириться с тем, что на длинных и сложных песнях система пока срывается в компромисс.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…