Habr AI→ original

Busca musical NEWAVE: por que suas playlists nunca mais serão as mesmas

A busca de música em serviços de streaming há muito tempo lembra trabalhar em um departamento de arquivo de biblioteca: se você não conhece o título exato ou…

Processado por IA de Habr AI; editado por Hamidun News
Busca musical NEWAVE: por que suas playlists nunca mais serão as mesmas
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

A busca de música em serviços de streaming há muito tempo lembra trabalhar em um departamento de arquivo de biblioteca: se você não conhece o título exato ou pelo menos o gênero, suas chances de encontrar "aquele" se aproximam de zero. Durante anos nos acostumamos com filtros rígidos, tags e categorias inventadas por marqueteiros, não por ouvintes. Mas a equipe da NEWAVE decidiu que era hora de acabar com essa abordagem burocrática da arte e ensinar as máquinas a entender a música da forma como entendemos—através de imagens, emoções e contexto.

Em vez de forçar os usuários a clicar em botões rotulados "rock" ou "anos 2010", os desenvolvedores criaram um sistema de recuperação inteligente que literalmente ouve o que você digita na barra de pesquisa.

O projeto é construído em um conceito bastante elegante, mas tecnicamente complexo de redes neurais de duplo codificador. Se não entrarmos em profundidade no código, imagine dois tradutores. Um ouve uma faixa de áudio e a traduz em um conjunto de coordenadas matemáticas, enquanto o outro faz o mesmo com sua consulta de texto.

A tarefa de treinamento, neste caso, é garantir que "violino triste" no texto e uma gravação de áudio real com violino acabem no mesmo ponto desse espaço matemático. Para conseguir isso, a NEWAVE empregou aprendizado contrastivo: o modelo foi forçado não apenas a reconhecer objetos similares, mas a repelir ativamente os dissimilares. Isso permitiu ao sistema captar os matizes mais finos que geralmente se perdem com anotações simples de tags.

O problema com a maioria das soluções existentes é sua limitação: elas entendem bem o texto, mas compreendem mal o som, ou vice-versa. Para evitar essa armadilha, os desenvolvedores envolveram dez conjuntos de dados diferentes de uma vez. Não é simplesmente uma questão de volume de dados; é sobre diversidade. Um conjunto de dados pode ser rico em descrições técnicas de tempo e instrumentos, outro em avaliações emocionais de ouvintes. Ao combiná-los, a NEWAVE ensinou seu sistema a entender que "música para um passeio pela cidade à noite" não é apenas um BPM determinado, mas uma combinação específica de sintetizadores, reverberação e padrão rítmico.

O uso do mecanismo de fusão tardia merece atenção especial. No mundo do ML, frequentemente se torna o fator decisivo entre "apenas funciona" e "funciona perfeitamente". Em vez de misturar todos os recursos em uma pilha desde o início, o sistema analisa dados em diferentes canais e combina seus resultados no estágio final de tomada de decisão. Isso preserva a pureza dos recursos de cada domínio—tanto texto quanto som—e oferece o resultado mais relevante. Como resultado, obtemos uma busca que entende a consulta "algo no estilo do Radiohead inicial, mas com um baixo mais agressivo" sem a necessidade de anotação manual de milhões de faixas.

Por que a indústria precisa de tudo isso? A resposta está na superfície: o modelo de recomendação atual em serviços principais está começando a se queimar. Os algoritmos frequentemente ficam presos em loops de artistas similares, criando câmaras de eco das quais é difícil para os ouvintes escapar. A recuperação inteligente da NEWAVE abre portas para o que se chama "busca zero", quando você não precisa conhecer o nome de um artista para encontrar sua nova música favorita. Isso muda as regras do jogo não apenas para ouvintes, mas para músicos independentes cuja criatividade agora pode ser encontrada pela descrição da atmosfera, em vez de através de orçamentos de marketing de milhões e colocação em playlists oficiais.

É claro que ainda estamos no início do caminho, onde a IA tenta interpretar sentimentos humanos através de vetores e matrizes. Mas o progresso da NEWAVE mostra que a linha entre a descrição técnica de um arquivo e seu conteúdo emocional está se tornando cada vez mais turva. Se antes nos adaptávamos aos interfaces dos mecanismos de busca, agora as máquinas estão finalmente começando a se adaptar ao nosso idioma. E isso é talvez o desenvolvimento mais lógico da tecnologia em uma era em que há muito conteúdo e muito pouco tempo para organizá-lo manualmente.

O essencial: A NEWAVE provou que a busca musical pode ser humana. Isso significa o fim da era das playlists curadas, ou a IA simplesmente se tornará sua assistente perfeita?

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…