Habr AI→ original

Como a Sber treinou as caixas inteligentes para gerar rotinas de casa inteligente por voz

As caixas inteligentes da Sber agora criam rotinas de casa inteligente por comandos de voz. Diga "apague a luz ao sair" e a AI gerará a automação. A…

Processado por IA de Habr AI; editado por Hamidun News
Como a Sber treinou as caixas inteligentes para gerar rotinas de casa inteligente por voz
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

O Sber ensinou o GigaChat em seus smart speakers a criar cenários de automação residencial diretamente a partir de comandos de voz. Agora os usuários podem dizer: "Crie um cenário para que quando eu sair de casa, as luzes e o aquecimento se desliguem" — e o alto-falante gerará automaticamente a automação sem tocar na tela.

Voz em vez de navegação

Até pouco tempo atrás, criar um cenário exigia abrir um aplicativo, encontrar os dispositivos certos na lista, vinculá-los com condições e salvar manualmente as regras. O processo era entediante: fechar a habilidade nos dedos, tocar a tela três vezes, encontrar filtros — isso afastava usuários comuns. Agora uma única frase é suficiente.

O GigaChat analisa a intenção do usuário, determina quais dispositivos estão envolvidos e gera o cenário em segundos. Essencialmente, é semelhante a comandos como "OK Google, crie uma rotina", mas o Sber implementou sua própria abordagem, não escolhendo o caminho clássico de fine-tuning em milhares de exemplos. Em vez disso, os engenheiros escolheram aprendizado em contexto: informações sobre os dispositivos específicos do usuário são passadas diretamente para o contexto do GigaChat antes da geração.

O modelo vê a topologia real da casa e trabalha com ela sem retreinamento prévio. Isso economiza na rotulagem de dados e acelera a adaptação a novos dispositivos — se um usuário comprar uma nova luminária, não precisa esperar por uma atualização de modelo.

Personalização é o principal desafio

O principal desafio no gerenciamento de casas inteligentes é a personalização absoluta. Um usuário tem 30 dispositivos, outro tem três. Alguém chama uma lâmpada de "lâmpada", outro a chama de "luz do quarto", um terceiro a chama de "sol sobre a cama".

Sensores, interruptores, scripts personalizados — tudo pode ser nomeado de forma completamente diferente. LLMs regulares frequentemente lutam com essa variabilidade: eles esgotam dispositivos em palpites cegos, confundem quartos, interpretam mal a intenção. Mas aqui um erro é inaceitável — não é uma piada sobre recomendações de música.

Se um cenário funcionar incorretamente, um usuário pode congelar à noite porque o aquecimento não ligará. Ou o ar condicionado funcionará durante o dia em um apartamento vazio, consumindo eletricidade. A solução dos engenheiros do Sber: não retreinar o modelo para cada usuário (é impossível), mas fornecer um "diretório" completo no contexto da solicitação.

Antes de chamar o GigaChat, o backend coleta descrições de todos os dispositivos deste usuário — que funções eles têm, em qual quarto estão, que nomes os identificam. O GigaChat vê essa informação e pode usá-la com segurança.

Como funciona

O pipeline funciona aproximadamente assim:

  • O usuário fala ao alto-falante: "Crie um cenário de boa noite"
  • O alto-falante reconhece a fala e envia o texto para o backend
  • O backend solicita todo o catálogo de dispositivos do usuário com descrições de funções
  • O catálogo + solicitação são passados ao GigaChat, que gera uma descrição YAML do cenário
  • A máquina de cenários valida o resultado — verifica se todos os dispositivos realmente existem
  • Se a verificação passar, o cenário é salvo e se torna ativo

A validação no nível da máquina de cenários é uma rede de segurança. Se o GigaChat cometer um pequeno erro (por exemplo, mencionar um sensor que não existe ou errar a sintaxe do comando), a máquina notará e corrigirá ou pedirá ao usuário para esclarecer. O Sber chamou essa máquina de máquina de cenários — funciona como uma verificação de erros para cada regra gerada.

O que isso significa

A casa inteligente se torna mais acessível para a pessoa comum. Se um alto-falante cria corretamente cenários por voz, então um iniciante não precisa memorizar a interface nem ler 50 páginas de instruções. Apenas diga o que deseja e o sistema fará. Este é um passo importante para que as casas inteligentes saiam do nicho dos entusiastas para o mercado em massa, onde as pessoas valorizam a simplicidade acima de tudo.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…