La voix au lieu du texte : ElevenLabs mise sur la mort du clavier
Soyons honnêtes : taper sur un clavier, surtout sur l'écran en verre d'un smartphone — c'est une béquille. Nous avons inventé cette façon de communiquer avec…
Traité par IA depuis TechCrunch ; édité par Hamidun News
Soyons honnêtes : taper sur un clavier, surtout sur l'écran en verre d'un smartphone — c'est une béquille. Nous avons inventé cette façon de communiquer avec les machines parce que les machines étaient stupides et ne comprenaient que les commandes exactes. Mais à la Web Summit Qatar, le PDG d'ElevenLabs, Mati Stanishevsky, a articulé ce qui flotte dans l'air de Silicon Valley : cette béquille sera bientôt envoyée aux poubelles de l'histoire. La voix — c'est la vraie interface native de l'avenir.
La déclaration n'a pas été faite dans le vide. Regardez ce qui se passe autour de nous. Pendant des années, nous nous sommes entraînés à être de bons "ingénieurs de prompt", choisissant des mots pour les chatbots, mais l'industrie change drastiquement de direction. OpenAI déploie des modes de voix qui peuvent ricaner et vous interrompre, Google intègre Gemini dans Android pour que vous parliez à votre téléphone au lieu de le toucher, Apple, selon les rumeurs, prépare un Siri qui cessera enfin d'être une source de plaisanteries. Stanishevsky a simplement souligné une tendance évidente : la barrière entre la pensée humaine et l'action machine doit disparaître.
Pourquoi est-ce important maintenant ? Avant, les assistants vocaux étaient stupides. Ils entendaient des mots mais ne comprenaient pas le contexte. Maintenant, avec un puissant LLM derrière eux, la situation a changé. ElevenLabs, qui a commencé comme une startup de clonage vocal (et a fait sensation dans le monde des deepfakes), se positionne désormais comme l'architecte de ce nouveau monde. Sa technologie permet à l'IA non seulement de marmonner du texte, mais de transmettre des émotions, des pauses et des intonations. Cela supprime l'effet de "vallée de l'étrange" et rend la conversation avec une machine étrangement naturelle.
Ce qui est intéressant ici, c'est comment cela change notre interaction avec le "matériel". Si la voix devient l'interface principale, pourquoi avons-nous besoin d'écrans de 6,7 pouces ? Cela ouvre la porte à ces gadgets portables qui floppent actuellement dans les ventes (bonjour, Humane AI Pin et Rabbit R1). Peut-être que le problème n'était pas le facteur de forme, mais que le logiciel n'était pas encore prêt pour un dialogue complet. ElevenLabs et ses collègues de l'industrie tentent de résoudre le problème de la latence de réponse. Pour remplacer le clavier, l'IA doit répondre instantanément, comme un vrai interlocuteur, pas réfléchir pendant trois secondes sur la météo.
Bien sûr, il y a des questions de confidentialité. Parler à l'IA dans le métro ou dans un open space — ce n'est pas la meilleure idée. Mais à la maison, dans une voiture ou via des écouteurs, cela devient une nouvelle norme. Nous revenons à où a commencé la communication humaine — à la parole, sauf que maintenant notre interlocuteur sera une puce de silicium qui ne se fatigue jamais et sait tout au monde.
L'essentiel : Les interfaces deviennent invisibles. Si la prévision se réalise, la conception des applications et des sites web passera au second plan, et le principal avantage concurrentiel sera à quel point la voix de votre service sera "humaine" et intelligente.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.