Habr AI→ original

Como a Sber treinou as caixas inteligentes para gerar rotinas de casa inteligente por voz

As caixas inteligentes da Sber agora criam rotinas de casa inteligente por comandos de voz. Diga "apague a luz ao sair" e a AI gerará a automação. A principal d

Como a Sber treinou as caixas inteligentes para gerar rotinas de casa inteligente por voz
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

O Sber ensinou o GigaChat em seus smart speakers a criar cenários de automação residencial diretamente a partir de comandos de voz. Agora os usuários podem dizer: "Crie um cenário para que quando eu sair de casa, as luzes e o aquecimento se desliguem" — e o alto-falante gerará automaticamente a automação sem tocar na tela.

Voz em vez de navegação

Até pouco tempo atrás, criar um cenário exigia abrir um aplicativo, encontrar os dispositivos certos na lista, vinculá-los com condições e salvar manualmente as regras. O processo era entediante: fechar a habilidade nos dedos, tocar a tela três vezes, encontrar filtros — isso afastava usuários comuns. Agora uma única frase é suficiente.

O GigaChat analisa a intenção do usuário, determina quais dispositivos estão envolvidos e gera o cenário em segundos. Essencialmente, é semelhante a comandos como "OK Google, crie uma rotina", mas o Sber implementou sua própria abordagem, não escolhendo o caminho clássico de fine-tuning em milhares de exemplos. Em vez disso, os engenheiros escolheram aprendizado em contexto: informações sobre os dispositivos específicos do usuário são passadas diretamente para o contexto do GigaChat antes da geração.

O modelo vê a topologia real da casa e trabalha com ela sem retreinamento prévio. Isso economiza na rotulagem de dados e acelera a adaptação a novos dispositivos — se um usuário comprar uma nova luminária, não precisa esperar por uma atualização de modelo.

Personalização é o principal desafio

O principal desafio no gerenciamento de casas inteligentes é a personalização absoluta. Um usuário tem 30 dispositivos, outro tem três. Alguém chama uma lâmpada de "lâmpada", outro a chama de "luz do quarto", um terceiro a chama de "sol sobre a cama".

Sensores, interruptores, scripts personalizados — tudo pode ser nomeado de forma completamente diferente. LLMs regulares frequentemente lutam com essa variabilidade: eles esgotam dispositivos em palpites cegos, confundem quartos, interpretam mal a intenção. Mas aqui um erro é inaceitável — não é uma piada sobre recomendações de música.

Se um cenário funcionar incorretamente, um usuário pode congelar à noite porque o aquecimento não ligará. Ou o ar condicionado funcionará durante o dia em um apartamento vazio, consumindo eletricidade. A solução dos engenheiros do Sber: não retreinar o modelo para cada usuário (é impossível), mas fornecer um "diretório" completo no contexto da solicitação.

Antes de chamar o GigaChat, o backend coleta descrições de todos os dispositivos deste usuário — que funções eles têm, em qual quarto estão, que nomes os identificam. O GigaChat vê essa informação e pode usá-la com segurança.

Como funciona

O pipeline funciona aproximadamente assim:

  • O usuário fala ao alto-falante: "Crie um cenário de boa noite"
  • O alto-falante reconhece a fala e envia o texto para o backend
  • O backend solicita todo o catálogo de dispositivos do usuário com descrições de funções
  • O catálogo + solicitação são passados ao GigaChat, que gera uma descrição YAML do cenário
  • A máquina de cenários valida o resultado — verifica se todos os dispositivos realmente existem
  • Se a verificação passar, o cenário é salvo e se torna ativo

A validação no nível da máquina de cenários é uma rede de segurança. Se o GigaChat cometer um pequeno erro (por exemplo, mencionar um sensor que não existe ou errar a sintaxe do comando), a máquina notará e corrigirá ou pedirá ao usuário para esclarecer. O Sber chamou essa máquina de máquina de cenários — funciona como uma verificação de erros para cada regra gerada.

O que isso significa

A casa inteligente se torna mais acessível para a pessoa comum. Se um alto-falante cria corretamente cenários por voz, então um iniciante não precisa memorizar a interface nem ler 50 páginas de instruções. Apenas diga o que deseja e o sistema fará. Este é um passo importante para que as casas inteligentes saiam do nicho dos entusiastas para o mercado em massa, onde as pessoas valorizam a simplicidade acima de tudo.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.
O que você acha?
Carregando comentários…