Claude Sonnet Ajuda Executivos a Montar Diretor de IA para Decisões Críticas em 8 Horas
No Snow BASE, uma equipe de executivos C-suite e um engenheiro de IA montou CAITO em oito horas — um diretor de IA que resiste à pressão de CEOs, CFOs e COOs…
Processado por IA de Habr AI; editado por Hamidun News
Em um único dia útil, uma equipe de CEO, CTO, CIO e engenheiro de IA montou não um chatbot, mas um assistente de IA gerencial capaz de argumentar com a liderança e manter sua posição sob pressão. Na intensiva fechada Snow BASE, o projeto CAITO, Chief AI & Technology Officer, deveria tomar decisões em um caso de crise da divisão de varejo e mudar de opinião apenas quando os fatos mudam. O hackathon em Sochi foi organizado pelo AI Talent Hub da Universidade ITMO e South HUB.
Os participantes tiveram oito horas para resolver o caso: uma grande empresa de varejo enfrenta simultaneamente o colapso de seu sistema de recomendação devido a desvio de dados sazonal, a infraestrutura já está operando no limite, os gastos com nuvem estão crescendo mais rápido que a receita, e novos requisitos sob a Lei Federal 152-FZ aumentam o risco de multas. Na mesa diante da diretoria pesa uma escolha desagradável: escalar o sistema, congelar o desenvolvimento ou adiar o lançamento, com apenas 14 dias para decidir. A equipe CAITO construiu um modelo gerencial em torno desta tarefa em que a IA não deveria simplesmente responder perguntas, mas manter o equilíbrio entre os interesses de CEO, CFO, COO e o bloco técnico.
É precisamente aqui que os LLMs comuns frequentemente falham. Se o modelo simplesmente continua o diálogo, ele começa a se adaptar ao último e mais insistente interlocutor: o CEO pressiona por crescimento a qualquer custo, o CFO exige ROI imediato e corta investimentos, o COO lembra sobre SLA e restrições operacionais. Como resultado, em vez de uma posição gerencial, você obtém um espelho da pressão atual.
Então a equipe escolheu uma abordagem maximamente pragmática: primeiro construir raciocínio single-shot robusto, onde cada movimento requer uma chamada de modelo, e apenas depois verificar se um loop agentic mais complexo é necessário. Este modo forneceu latência de resposta previsível no nível de alguns segundos, uma saída JSON estruturada, e depuração mais simples em condições de hackathon. Claude Sonnet foi escolhido como o modelo, e o serviço em si foi construído em Bun e TypeScript com acesso aos Foundation Models Cloud.
ru através de uma API compatível com OpenAI. A arquitetura CAITO repousava em três pilares. O primeiro era um prompt de sistema com um mandato rigoroso: o assistente deve primeiro formular uma solução, depois argumentos, registrar separadamente conflitos de métricas e não mudar de posição sem novos dados.
O segundo era workflow.yaml, onde papéis internos, seus pesos e ordem de consultas foram especificados: primeiro fatos de ML e economia, depois restrições operacionais, e apenas então política gerencial. O terceiro era memória de longo prazo.
Nela foram armazenados separadamente fatos imutáveis do caso e um histórico vivo de decisões tomadas, suposições, KPIs e mudanças de posição. Isso permitiu ao sistema lembrar o contexto e explicar por que a opinião permaneceu a mesma ou mudou. Durante a apresentação, a equipe mostrou três cenários.
No primeiro, CAITO foi confrontado com dados contraditórios e verificou em quais fontes se baseava; para reduzir o risco de alucinação, a resposta começou a mostrar de onde vieram os números-chave. No segundo cenário, o assistente foi pressionado pelo CEO exigindo ação imediata, mas o sistema manteve seu enquadramento e respondeu que sem dados atualizados apenas riscos poderiam ser esclarecidos, não a solução reescrita. No terceiro cenário, a pressão veio em ondas: primeiro novos dados, depois ataque emocional, depois outro pacote de informações.
Aqui CAITO teve que distinguir mudança real de situação de pressão repetida e reconsiderar posição apenas com base em fatos. Em paralelo, a equipe conseguiu montar uma alternativa — um pipeline multi-agente de dez papéis especializados com roteamento de tarefas separado. Em métricas individuais, tal esquema mostrou melhor desdobramento analítico, especialmente onde foi necessário distinguir cuidadosamente novos sinais da pressão antiga.
Mas dentro de oito horas, a principal vantagem se mostrou não a riqueza da arquitetura, mas sua confiabilidade. Na apresentação final, o vencedor foi escolhido por placar, onde 70 por cento da pontuação vieram da automação e 30 por cento do júri; qualidade das decisões gerenciais e resistência ao estresse foram avaliadas, bem como funcionalidade, segurança, estabilidade, UX e custo. A solução single-shot principal conquistou o primeiro lugar para a equipe.
Deste caso sai uma conclusão bastante prática. Para IA que deve participar de decisões gerenciais, o que importa mais não é o número de agentes, mas mandato claro, regras claras de escalação e memória de suposições previamente feitas. Uma orquestra multi-agente impressionante pode fornecer profundidade, mas sob prazo frequentemente perde para um esquema simples, explicável e robusto.
O próximo passo para CAITO é fluxo de trabalho agentic com function calling, chamadas de função asincronas, RAG dinâmico e rastreamento completo. Mas já agora o projeto demonstra algo mais importante: IA pode assumir uma parte significativa da preparação da posição gerencial, enquanto responsabilidade final e verificação de fatores não óbvios ainda permanecem com humanos.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.