ACE-Step 1.5 d’ACE Studio surpasse Suno v5 et exécute la génération musicale en local

Q: Quelle est la source ?

Publication originale sur Habr AI. Hamidun News traite et adapte les contenus avec l'IA.

Q: Quand a-t-il été publié ?

2 mai 2026. Temps de lecture : 4 min.

ACE-Step 1.5 d’ACE Studio et StepFun est un cas rare où la génération musicale open source rattrape l’AI commercial. Le modèle fonctionne en local à partir…

Rédaction de Hamidun News

Veille IA · Habr AI

2 mai 2026· 3 min

Traité par IA depuis Habr AI ; édité par Hamidun News

ACE-Step 1.5 d’ACE Studio surpasse Suno v5 et exécute la génération musicale en local — Source : Habr AI. Collage: Hamidun News.

◐ Écouter l'article

ACE-Step 1.5 prétend être le premier vrai modèle open source puissant pour la génération de musique qui non seulement fonctionne localement, mais égale aussi les services fermés en qualité. Selon les développeurs et l'analyse sur Habr, le modèle surpasse Suno v5 sur SongEval, fonctionne à partir de 4 Go de VRAM et génère une piste complète en quelques secondes.

Pourquoi c'est important

Jusqu'à présent, le marché de l'IA pour la musique était divisé assez simplement : si les utilisateurs avaient besoin de résultats pratiques et de haute qualité, ils allaient sur Suno, Udio ou d'autres services fermés. Des alternatives open source existaient, mais perdaient généralement soit en qualité, soit en vitesse, soit en exigences matérielles. ACE-Step 1.

5 tente de briser ce schéma. Le modèle a été lancé par ACE Studio et StepFun, et avec la sortie, ils ont publié un article sur arXiv — pour les générateurs de musique, c'est toujours rare. Selon le tableau officiel, ACE-Step 1.

5 obtient 8.09 sur SongEval, et la version ACE-Step 1.5 XL obtient 8.

12. À titre de comparaison, Suno v5 sur le même tableau a 7.87.

En même temps, le modèle affiche de forts indicateurs pour Lyric Alignment : 8.35 pour la version de base et 8.42 pour XL.

En pratique, cela signifie non seulement une note globale plus élevée de la piste, mais aussi un meilleur alignement vocal avec le texte, ce qui reste l'une des tâches les plus difficiles pour la musique générative.

Comment fonctionne le modèle L'idée clé d'ACE-Step est de séparer la composition et la synthèse.

À la première étape, un Language Model fonctionne, qui prend le prompt de l'utilisateur et le transforme en un plan détaillé de la chanson : genre, tempo, structure des couplets et des refrains, instruments, paroles et métadonnées. Dans l'article, ce module est décrit comme une sorte d'agent compositeur. Il ne génère pas directement du son, mais enlève du module audio principal la tâche de deviner ce que l'utilisateur voulait réellement.

Plus le plan est précis, moins il y a de chaos à l'étape suivante. À la deuxième étape, Diffusion Transformer entre en jeu. La version de base utilise DiT avec environ 2 milliards de paramètres, XL — 4 milliards.

Il reçoit le plan prêt et synthétise l'audio dans l'espace latent, et l'accélération est obtenue par distillation : au lieu des 50–100 étapes de diffusion habituelles, le modèle tient en 4–8 étapes. D'où les chiffres de vitesse : une piste complète en environ 2 secondes sur A100 et moins de 10 secondes sur RTX 3090. C'est précisément la combinaison de LM comme planificateur et DiT comme moteur de rendu qui rend cette sortie remarquable.

Ce qu'il peut faire en pratique

En plus du text-to-music habituel, ACE-Step 1.5 essaie de devenir un outil universel pour le travail musical, pas seulement un générateur pour une seule piste basée sur une description. Le projet incorpore le même scénario attendu du logiciel professionnel : vous ne pouvez pas seulement créer une chanson de zéro, mais aussi intervenir dans un matériel existant, reconstruire une section séparée, réarranger la source ou adapter l'accompagnement à la voix. Pour un système open source, c'est déjà le niveau d'un environnement de travail complet, pas seulement une démonstration.

Génération de reprises — réarrangement d'une composition existante dans un style différent Repainting — régénération de fragments séparés sans reconstruire toute la piste Vocal-to-BGM — création d'accompagnement pour des voix prêtes LoRA fine-tuning — ajustement à votre propre style sur un petit ensemble de chansons Support de 50+ langues et pistes de 10 secondes à 10 minutes Un autre argument solide concerne les exigences matérielles. Le mode de base peut fonctionner localement avec moins de 4 Go de VRAM, et pour les configurations plus lourdes, des options de déchargement sont disponibles. Le projet supporte non seulement NVIDIA, mais aussi Mac sur Apple Silicon, AMD et Intel, et le lancement local revient à des scripts prêts avec interface Gradio. Pour les musiciens, producteurs et développeurs, c'est une opportunité réelle d'expérimenter sans abonnement cloud et sans envoyer de matériel à un service externe.

Où se trouvent les points faibles

Les développeurs ne cachent pas le fait que le modèle a des limitations notables. Le problème principal est l'instabilité des résultats. Le même prompt peut produire une piste forte sur une seed et faible sur une autre, donc les auteurs appellent directement ce comportement gacha-style.

Également énumérés : des voix rudes manquant de nuance appropriée, une faible performance dans certains genres comme le rap chinois, des transitions non naturelles lors du repainting et un contrôle trop grossier des paramètres musicaux. En d'autres termes, il n'est pas encore possible de définir une chanson avec une logique harmonique précise et des résultats entièrement prévisibles. Pour cette raison, il est important de ne pas confondre le modèle et le service.

Suno gagne toujours avec la plupart des utilisateurs sur la simplicité : ouvrez le site, écrivez un couple de lignes, obtenez une chanson. ACE-Step 1.5 nécessite l'installation, GPU, l'ajustement des prompts et la tolérance à la variabilité.

Mais en retour, il offre la confidentialité, un pipeline local, sans abonnement obligatoire et la capacité d'affiner via LoRA. Pour un utilisateur de masse, ce n'est pas encore un remplacement pour Suno, mais pour ceux qui ont besoin de contrôle sur le processus, la situation change déjà.

Ce que cela signifie ACE-Step 1.5 montre que la génération de musique

cesse d'être une zone réservée aux seules plateformes fermées. Si un modèle open source dépasse déjà un acteur commercial sur certaines métriques et fonctionne sur du matériel grand public, le marché se dirigera vers des outils IA pour la musique locaux, personnalisables et moins chers.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite