Habr AI→ original

Claude Sonnet Ayuda a Ejecutivos a Construir Director de IA para Decisiones Críticas en 8 Horas

En Snow BASE, un equipo de ejecutivos C-suite e ingeniero de IA construyó CAITO en ocho horas — un director de IA que resiste la presión de CEOs, CFOs y COOs…

Procesado por IA desde Habr AI; editado por Hamidun News
Claude Sonnet Ayuda a Ejecutivos a Construir Director de IA para Decisiones Críticas en 8 Horas
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

En un único día de trabajo, un equipo de CEO, CTO, CIO e ingeniero de IA ensamblaron no un chatbot, sino un asistente de IA gerencial capaz de discutir con el liderazgo y mantener su posición bajo presión. En el intensivo cerrado Snow BASE, el proyecto CAITO, Chief AI & Technology Officer, debería tomar decisiones en un caso de crisis de la división minorista y cambiar de opinión solo cuando los hechos cambien. El hackathon en Sochi fue organizado por AI Talent Hub de la Universidad ITMO y South HUB.

A los participantes se les dieron ocho horas para resolver el caso: un gran negocio minorista enfrenta simultáneamente el colapso de su sistema de recomendación debido a la deriva de datos estacional, la infraestructura ya está funcionando al límite, el gasto en nube crece más rápido que los ingresos, y los nuevos requisitos bajo la Ley Federal 152-FZ aumentan el riesgo de multas. Sobre la mesa ante la junta directiva pesa una opción desagradable: escalar el sistema, congelar el desarrollo o posponer el lanzamiento, con solo 14 días para decidir. El equipo CAITO construyó un modelo gerencial alrededor de esta tarea en el cual la IA no debería simplemente responder preguntas, sino mantener el equilibrio entre los intereses de CEO, CFO, COO y el bloque técnico.

Este es precisamente el lugar donde los LLM ordinarios frecuentemente fallan. Si el modelo simplemente continúa el diálogo, comienza a adaptarse al último e interlocutor más insistente: el CEO presiona por crecimiento a cualquier costo, el CFO exige ROI inmediato y corta inversiones, el COO recuerda sobre SLA y limitaciones operacionales. Como resultado, en lugar de una posición gerencial, obtienes un espejo de la presión actual.

Así que el equipo eligió un enfoque maximalmente pragmático: primero construir razonamiento single-shot robusto, donde cada movimiento requiere una llamada de modelo, y solo entonces verificar si se necesita un bucle agencial más complejo. Este modo proporcionó latencia de respuesta predecible al nivel de varios segundos, una salida JSON estructurada, y depuración más simple en condiciones de hackathon. Claude Sonnet fue elegido como el modelo, y el servicio en sí fue construido en Bun y TypeScript con acceso a los Foundation Models de Cloud.

ru a través de una API compatible con OpenAI. La arquitectura CAITO se sustentaba en tres pilares. El primero era un prompt de sistema con un mandato riguroso: el asistente debe primero formular una solución, luego argumentos, registrar por separado conflictos de métricas y no cambiar posición sin nuevos datos.

El segundo era workflow.yaml, donde se especificaron roles internos, sus pesos y orden de consultas: primero hechos de ML y economía, luego limitaciones operacionales, y solo entonces política gerencial. El tercero era memoria a largo plazo.

En ella se almacenaban por separado hechos inmutables del caso e un historial vivo de decisiones tomadas, suposiciones, KPIs y cambios de posición. Esto permitió al sistema recordar el contexto y explicar por qué la opinión se mantuvo igual o cambió. Durante la presentación, el equipo mostró tres escenarios.

En el primero, CAITO fue confrontado con datos contradictorios y se verificó en qué fuentes se basaba; para reducir el riesgo de alucinación, la respuesta comenzó a mostrar de dónde provenían las cifras clave. En el segundo escenario, el asistente fue presionado por el CEO exigiendo acción inmediata, pero el sistema mantuvo su marco y respondió que sin datos actualizados solo se podrían aclarar riesgos, no reescribir la solución. En el tercer escenario, la presión vino en olas: primero nuevos datos, luego ataque emocional, luego otro paquete de información.

Aquí CAITO tuvo que distinguir el cambio real de la situación de la presión repetida y reconsiderar la posición solo basado en hechos. En paralelo, el equipo logró ensamblar una alternativa — un pipeline multiagente de diez roles especializados con enrutamiento de tareas separado. En métricas individuales, tal esquema mostró mejor desglose analítico, especialmente donde fue necesario distinguir cuidadosamente nuevas señales de la presión antigua.

Pero dentro de ocho horas, la principal ventaja resultó ser no la riqueza de la arquitectura, sino su confiabilidad. En la presentación final, el ganador fue elegido por tabla de clasificación, donde el 70 por ciento de la puntuación provenía de automatización y el 30 por ciento del jurado; se evaluó la calidad de decisiones gerenciales y resistencia al estrés, así como funcionalidad, seguridad, estabilidad, UX y costo. La solución single-shot principal le trajo al equipo el primer lugar.

De este caso surge una conclusión bastante práctica. Para IA que debe participar en decisiones gerenciales, lo que importa más no es el número de agentes, sino mandato claro, reglas de escalada transparentes y memoria de suposiciones previamente hechas. Una orquesta multiagente impresionante puede proporcionar profundidad, pero bajo plazo frecuentemente pierde ante un esquema simple, explicable y robusto.

El siguiente paso para CAITO es flujo de trabajo agentic con function calling, llamadas de rol asincrónicas, RAG dinámico y rastreo completo. Pero ya ahora el proyecto demuestra algo más importante: la IA puede asumir una parte significativa de la preparación de la posición gerencial, mientras que la responsabilidad final y verificación de factores no obvios aún permanecen con los humanos.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…