TechCrunch→ original

Voz em vez de texto: ElevenLabs aposta na morte do teclado

Sejamos honestos: digitar em um teclado, especialmente em uma tela de vidro de smartphone — é uma muleta. Inventamos essa forma de comunicação com máquinas…

Processado por IA de TechCrunch; editado por Hamidun News
Voz em vez de texto: ElevenLabs aposta na morte do teclado
Fonte: TechCrunch. Colagem: Hamidun News.
◐ Ouvir artigo

Sejamos honestos: digitar em um teclado, especialmente em uma tela de vidro de smartphone — é uma muleta. Inventamos essa forma de comunicação com máquinas porque as máquinas eram burras e entendiam apenas comandos exatos. Mas na Web Summit Qatar, o CEO da ElevenLabs, Mati Stanishevsky, articulou o que flutua no ar do Vale do Silício: essa muleta em breve será enviada para a lixeira da história. Voz — essa é a interface real, nativa do futuro.

A declaração não veio no vácuo. Veja o que está acontecendo ao nosso redor. Durante anos nos treinamos para ser bons "engenheiros de prompt", escolhendo palavras para chatbots, mas a indústria está mudando drasticamente de direção. OpenAI está lançando modos de voz que conseguem gargalhar e interromper você, Google está integrando Gemini no Android para que você fale com seu telefone em vez de tocar nele, Apple, segundo boatos, está preparando um Siri que finalmente deixará de ser motivo de piadas. Stanishevsky simplesmente destacou uma tendência óbvia: a barreira entre o pensamento humano e a ação da máquina deve desaparecer.

Por que isso é importante agora? Antes, assistentes de voz eram burros. Ouviam palavras mas não entendiam o contexto. Agora, com um poderoso LLM por trás, a situação mudou. ElevenLabs, que começou como uma startup de clonagem de voz (e causou sensação no mundo dos deepfakes), agora se posiciona como a arquiteta deste novo mundo. Sua tecnologia permite que a IA não apenas murmure texto, mas transmita emoções, pausas e entonações. Isso remove o efeito "vale da estranheza" e torna a conversa com uma máquina perturbadoramente natural.

O que é interessante aqui é como isso muda nossa interação com o "hardware". Se a voz se torna a interface principal, por que precisamos de telas de 6,7 polegadas? Isso abre a porta para aqueles gadgets vestíveis que atualmente fracassam nas vendas (oi, Humane AI Pin e Rabbit R1). Talvez o problema não fosse o fator de forma, mas que o software ainda não estava pronto para diálogo completo. ElevenLabs e seus colegas da indústria estão tentando resolver o problema da latência de resposta. Para substituir o teclado, a IA deve responder instantaneamente, como um interlocutor vivo, não pensar por três segundos sobre o tempo.

É claro que permanecem questões de privacidade. Falar com IA no metrô ou em um open office — não é a melhor ideia. Mas em casa, em um carro ou através de fones de ouvido, isso se torna uma nova norma. Estamos retornando a onde começamos a comunicação humana — à palavra falada, apenas agora nosso interlocutor será um chip de silício que nunca se cansa e sabe tudo no mundo.

O principal: Interfaces estão ficando invisíveis. Se a previsão se concretizar, o design de aplicativos e sites ficará em segundo plano, e a principal vantagem competitiva será o quão "humana" e inteligente for a voz do seu serviço.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…