Habr AI→ original

Comment Sber a entraîné ses enceintes connectées à générer des scénarios de maison intelligente par commande vocale

Les enceintes Sber créent désormais des scénarios de maison intelligente à partir de commandes vocales. Dites "éteins la lumière en partant" et l’AI générera l’

Comment Sber a entraîné ses enceintes connectées à générer des scénarios de maison intelligente par commande vocale
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Sber a entraîné GigaChat dans ses enceintes intelligentes pour créer des scénarios de domotique directement à partir de commandes vocales. Maintenant, les utilisateurs peuvent dire : « Crée un scénario pour que quand je quitte la maison, les lumières et le chauffage s'éteignent » — et l'enceinte générera automatiquement l'automatisation sans toucher l'écran.

La voix au lieu de la navigation

Jusqu'à récemment, créer un scénario nécessitait d'ouvrir une application, de trouver les bons appareils dans la liste, de les lier avec des conditions et d'enregistrer manuellement les règles. Le processus était fastidieux : fermer la compétence dans ses doigts, toucher l'écran trois fois, trouver les filtres — cela rebutait les utilisateurs ordinaires. Maintenant, une seule phrase suffit.

GigaChat analyse l'intention de l'utilisateur, détermine les appareils impliqués et génère le scénario en quelques secondes. Essentiellement, c'est similaire à des commandes comme « OK Google, crée une routine », mais Sber a mis en œuvre sa propre approche, ne choisissant pas le chemin classique du fine-tuning sur des milliers d'exemples. Au lieu de cela, les ingénieurs ont choisi l'apprentissage en contexte : les informations sur les appareils spécifiques de l'utilisateur sont transmises directement au contexte de GigaChat avant la génération.

Le modèle voit la topologie réelle de la maison et y travaille sans réentraînement préalable. Cela économise sur l'étiquetage des données et accélère l'adaptation aux nouveaux appareils — si un utilisateur achète une nouvelle lampe, il n'a pas besoin d'attendre une mise à jour du modèle.

La personnalisation est le principal défi

Le défi principal de la domotique est la personnalisation absolue. Un utilisateur a 30 appareils, un autre en a trois. Quelqu'un appelle une lampe une « lampe », un autre l'appelle « lumière de la chambre », un tiers l'appelle « soleil au-dessus du lit ».

Les capteurs, les interrupteurs, les scripts personnalisés — tout peut être nommé complètement différemment. Les LLM ordinaires ont souvent du mal avec cette variabilité : ils épuisent les appareils en conjectures aveugles, confondent les pièces, mal interprètent l'intention. Mais ici, une erreur est inacceptable — ce n'est pas une blague sur les recommandations musicales.

Si un scénario fonctionne mal, un utilisateur gèlera la nuit parce que le chauffage ne s'allumera pas. Ou le climatiseur fonctionnera pendant la journée dans un appartement vide, consommant de l'électricité. La solution des ingénieurs de Sber : ne pas réentraîner le modèle pour chaque utilisateur (c'est impossible), mais lui donner un « répertoire » complet dans le contexte de la requête.

Avant d'appeler GigaChat, le backend collecte les descriptions de tous les appareils de cet utilisateur — quelles fonctions ils ont, dans quelle pièce ils sont, quels noms les identifient. GigaChat voit ces informations et peut les utiliser en toute sécurité.

Comment ça marche

Le pipeline fonctionne à peu près comme suit :

  • L'utilisateur parle à l'enceinte : « Crée un scénario bonne nuit »
  • L'enceinte reconnaît la parole et envoie le texte au backend
  • Le backend demande le catalogue complet des appareils de l'utilisateur avec les descriptions de fonctions
  • Le catalogue + la requête sont transmis à GigaChat, qui génère une description YAML du scénario
  • La machine de scénarios valide le résultat — vérifie que tous les appareils existent réellement
  • Si la vérification réussit, le scénario est enregistré et devient actif

La validation au niveau de la machine de scénarios est un filet de sécurité. Si GigaChat fait une petite erreur (par exemple, mentionne un capteur qui n'existe pas ou se trompe dans la syntaxe de la commande), la machine le remarquera et le corrigera ou demandera à l'utilisateur de clarifier. Sber a appelé cette machine une machine de scénarios — elle fonctionne comme une vérification des erreurs pour chaque règle générée.

Ce que cela signifie

La maison intelligente devient plus accessible à la personne ordinaire. Si une enceinte crée correctement des scénarios par la voix, alors un novice n'a pas besoin de mémoriser l'interface ni de lire 50 pages d'instructions. Dis simplement ce que tu veux et le système le fera. C'est une étape importante pour que les maisons intelligentes sortent du créneau des passionnés vers le marché de masse, où les gens valorisent la simplicité par-dessus tout.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.
Qu'en pensez-vous ?
Chargement des commentaires…