Cómo Sber entrenó a los altavoces inteligentes para generar rutinas de hogar inteligente por voz
Los altavoces de Sber ahora crean rutinas de hogar inteligente a partir de comandos de voz. Di "apaga la luz al salir" y la AI generará la automatización. La pr

Sber entrenó a GigaChat en sus altavoces inteligentes para crear escenarios de automatización del hogar directamente a partir de comandos de voz. Ahora los usuarios pueden decir: "Crea un escenario para que cuando me vaya de casa se apaguen las luces y la calefacción" — y el altavoz generará automáticamente la automatización sin tocar la pantalla.
Voz en lugar de navegación
Hasta hace poco, crear un escenario requería abrir una aplicación, encontrar los dispositivos correctos en la lista, vincularlos con condiciones y guardar manualmente las reglas. El proceso era tedioso: cerrar la habilidad en los dedos, tocar la pantalla tres veces, encontrar filtros — esto disuadía a los usuarios ordinarios. Ahora una sola frase es suficiente.
GigaChat analiza la intención del usuario, determina qué dispositivos están involucrados y genera el escenario en segundos. Esencialmente, es similar a comandos como "OK Google, crea una rutina", pero Sber implementó su propio enfoque, sin elegir el camino clásico del fine-tuning en miles de ejemplos. En su lugar, los ingenieros eligieron el aprendizaje en contexto: la información sobre los dispositivos específicos del usuario se pasa directamente al contexto de GigaChat antes de la generación.
El modelo ve la topología real del hogar y trabaja con ella sin reentrenamiento previo. Esto ahorra en etiquetado de datos y acelera la adaptación a nuevos dispositivos — si un usuario compra una nueva lámpara, no necesita esperar una actualización del modelo.
La personalización es el principal desafío
El principal desafío en la gestión del hogar inteligente es la personalización absoluta. Un usuario tiene 30 dispositivos, otro tiene tres. Alguien llama a una lámpara "lámpara", otro la llama "luz del dormitorio", un tercero la llama "sol sobre la cama".
Sensores, interruptores, scripts personalizados — todo puede ser nombrado de forma completamente diferente. Los LLM ordinarios a menudo tienen dificultades con tal variabilidad: agotan dispositivos en conjeturas ciegas, confunden habitaciones, malinterpretan la intención. Pero aquí un error es inaceptable — no es una broma sobre recomendaciones musicales.
Si un escenario funciona incorrectamente, un usuario se congelará por la noche porque la calefacción no se encenderá. O el aire acondicionado funcionará durante el día en un apartamento vacío, consumiendo electricidad. La solución de los ingenieros de Sber: no reentrenar el modelo para cada usuario (eso es imposible), sino darle un "directorio" completo en el contexto de la solicitud.
Antes de llamar a GigaChat, el backend recopila descripciones de todos los dispositivos de este usuario — qué funciones tienen, en qué habitación están, qué nombres los identifican. GigaChat ve esta información y puede usarla con seguridad.
Cómo funciona
El pipeline funciona aproximadamente así:
- El usuario habla al altavoz: "Crea un escenario de buenas noches"
- El altavoz reconoce el habla y envía el texto al backend
- El backend solicita todo el catálogo de dispositivos del usuario con descripciones de funciones
- El catálogo + solicitud se pasan a GigaChat, que genera una descripción YAML del escenario
- La máquina de escenarios valida el resultado — verifica que todos los dispositivos realmente existen
- Si la verificación pasa, el escenario se guarda y se activa
La validación en el nivel de máquina de escenarios es una red de seguridad. Si GigaChat comete un pequeño error (por ejemplo, menciona un sensor que no existe o se equivoca en la sintaxis del comando), la máquina lo notará y lo corregirá o le pedirá al usuario que aclare. Sber llamó a esta máquina máquina de escenarios — funciona como una verificación de errores para cada regla generada.
Lo que esto significa
El hogar inteligente se vuelve más accesible para la persona común. Si un altavoz crea correctamente escenarios por voz, entonces un novato no necesita memorizar la interfaz ni leer 50 páginas de instrucciones. Solo di lo que quieres y el sistema lo hará. Este es un paso importante para que los hogares inteligentes salgan del nicho de entusiastas al mercado masivo, donde las personas valoran la simplicidad por encima de todo.