Gemini agora cria música a partir de texto e fotos
O Google adicionou ao app Gemini um recurso de geração de música baseado no modelo Lyria 3, o desenvolvimento mais avançado da empresa nessa área. Os…
Processado por IA de DeepMind Blog; editado por Hamidun News
A fronteira entre texto e som ficou mais tênue: Google incorporou uma ferramenta de geração de música baseada no modelo Lyria 3 no aplicativo Gemini. Agora qualquer usuário pode descrever o som desejado com palavras ou fazer upload de uma foto—e obter uma faixa de 30 segundos pronta. Nenhuma notação musical, nenhum conhecimento de estúdio, nenhum equipamento especial. Isso não é apenas um novo recurso em uma longa lista de atualizações—é uma tentativa do Google de redefinir quem realmente tem o direito de ser chamado de autor de música.
Para entender a escala desse passo, é importante lembrar do contexto. A geração de áudio a partir de texto existe há vários anos: Suno, Udio, MusicGen do Meta—todos ofereciam recursos similares de qualidade variável. Mas a maioria desses serviços existia separada dos produtos convencionais, exigia registro em aplicações especializadas e permanecia como um hobby nicho de audiências tecnicamente preparadas. Google está apostando em algo diferente: Lyria 3 está incorporada diretamente no Gemini—um aplicativo usado por centenas de milhões de pessoas em todo o mundo. A barreira de entrada desaparece quase completamente.
Lyria 3 é o modelo musical mais avançado do Google até agora. A empresa o desenvolveu como parte da direção de pesquisa do DeepMind, e agora o resultado desse trabalho está saindo do laboratório para o bolso de um usuário comum. A mecânica é simples: você descreve o humor, gênero, instrumentos ou atmosfera em texto—por exemplo, "lo-fi relaxante com piano e chuva pela janela"—e o modelo gera uma faixa.
O caminho alternativo é ainda mais interessante: você pode fazer upload de uma imagem, e Lyria 3 interpreta seu conteúdo visual em uma imagem musical. Um pôr do sol sobre o mar se torna uma melodia, o burburinho da cidade se torna algo completamente diferente. É essa abordagem multimodal que diferencia a oferta do Google da maioria dos concorrentes.
Para a indústria, este é um sinal com vários níveis de significado. O primeiro é óbvio: as maiores empresas de tecnologia estão competindo seriamente pela audiência criativa. OpenAI já integrou geração de imagens no ChatGPT, Meta está desenvolvendo suas próprias ferramentas multimodais, Apple constrói silenciosamente funções de IA em seu ecossistema.
Google com Lyria 3 no Gemini faz da música o próximo campo de batalha. O segundo nível é mais complexo: o surgimento de tais ferramentas em um produto convencional inevitavelmente levanta questões sobre direitos autorais e monetização. Em quais dados Lyria 3 foi treinada?
O que acontece com a faixa que você gerou—você pode publicá-la, vendê-la, usá-la em projetos comerciais? Até agora, Google não forneceu respostas oficiais exaustivas, e isso permanece uma zona de incerteza que a indústria observará atentamente.
Para o usuário comum, as consequências são muito mais diretas. Um podcaster obtém a capacidade de criar uma introdução única em um minuto. Um criador de conteúdo de vídeo obtém música de fundo sem precisar procurar faixas com licença Creative Commons. Uma pessoa que há muito tempo tem uma melodia em sua mente pode finalmente materializá-la sem conhecer uma única nota. É essa audiência—não músicos profissionais, mas milhões de pessoas com necessidades criativas e sem meios técnicos—que é o verdadeiro alvo do Google. Trinta segundos é certamente breve, mas é um formato perfeitamente suficiente para jingles, introduções, inserções atmosféricas e experimentos.
Deve-se olhar para o futuro aqui sem euforia excessiva, mas também sem ceticismo. A geração de música ainda está longe de ameaçar compositores profissionais—assim como IAs de texto não deslocaram jornalistas. Mas está mudando a economia da criatividade: reduzindo o custo de produção de conteúdo, expandindo o círculo de pessoas capazes de criar conteúdo e criando novos papéis profissionais—aqueles que podem formular requisitos com habilidade e editar o resultado. Lyria 3 no Gemini não é o fim da profissão musical, mas o início de uma conversa sobre o que significa ser um autor em uma era em que a ferramenta em si sabe tocar.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.