Voz en lugar de texto: ElevenLabs apuesta por la muerte del teclado
Seamos honestos: escribir en un teclado, especialmente en una pantalla de vidrio de smartphone — es una muleta. Inventamos esta forma de comunicación con…
Procesado por IA desde TechCrunch; editado por Hamidun News
Seamos honestos: escribir en un teclado, especialmente en una pantalla de vidrio de smartphone — es una muleta. Inventamos esta forma de comunicación con máquinas porque las máquinas eran estúpidas y entendían solo comandos exactos. Pero en la Web Summit Qatar, el CEO de ElevenLabs, Mati Stanishevsky, articuló lo que flota en el aire de Silicon Valley: esta muleta pronto será enviada al cubo de basura de la historia. Voz — esa es la interfaz real, nativa del futuro.
La declaración no vino en el vacío. Mira lo que está sucediendo a nuestro alrededor. Durante años nos entrenamos para ser buenos "ingenieros de prompt", eligiendo palabras para chatbots, pero la industria está cambiando drásticamente de dirección. OpenAI está lanzando modos de voz que pueden reír e interrumpirte, Google está integrando Gemini en Android para que hables con tu teléfono en lugar de tocarlo, Apple, según los rumores, está preparando un Siri que finalmente dejará de ser motivo de burlas. Stanishevsky simplemente destacó una tendencia obvia: la barrera entre el pensamiento humano y la acción de la máquina debe desaparecer.
¿Por qué es esto importante ahora? Antes, los asistentes de voz eran estúpidos. Escuchaban palabras pero no entendían el contexto. Ahora, con un poderoso LLM detrás, la situación ha cambiado. ElevenLabs, que comenzó como una startup de clonación de voz (e hizo olas en el mundo de los deepfakes), ahora se posiciona como la arquitecta de este nuevo mundo. Su tecnología permite que la IA no solo murmure texto, sino que transmita emociones, pausas e entonaciones. Esto elimina el efecto "uncanny valley" y hace que la conversación con una máquina sea inquietantemente natural.
Lo interesante aquí es cómo esto cambia nuestra interacción con el "hardware". Si la voz se convierte en la interfaz principal, ¿por qué necesitamos pantallas de 6,7 pulgadas? Esto abre la puerta para esos gadgets portátiles que actualmente fracasan en ventas (hola, Humane AI Pin y Rabbit R1). Quizás el problema no era el factor de forma, sino que el software aún no estaba listo para el diálogo completo. ElevenLabs y sus colegas de la industria están intentando resolver el problema de la latencia de respuesta. Para reemplazar el teclado, la IA debe responder instantáneamente, como un interlocutor vivo, no pensar durante tres segundos sobre el clima.
Por supuesto, quedan preguntas sobre privacidad. Hablar con IA en el metro o en una oficina abierta — no es la mejor idea. Pero en casa, en un automóvil o a través de auriculares, se convierte en una nueva norma. Estamos volviendo a donde comenzó la comunicación humana — a la palabra hablada, solo que ahora nuestro interlocutor será un chip de silicio que nunca se cansa y lo sabe todo en el mundo.
Lo principal: Las interfaces se están volviendo invisibles. Si el pronóstico se cumple, el diseño de aplicaciones y sitios web pasará a un segundo plano, y la principal ventaja competitiva será qué tan "humana" e inteligente sea la voz de su servicio.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.