ZDNet AI→ original

Thomson Reuters plantea cuatro reglas para agentes de AI en los que las empresas pueden confiar

Los agentes de AI se incorporan cada vez más a los flujos de trabajo reales, pero la confianza en ellos no depende de la potencia del modelo, sino del…

Procesado por IA desde ZDNet AI; editado por Hamidun News
Thomson Reuters plantea cuatro reglas para agentes de AI en los que las empresas pueden confiar
Fuente: ZDNet AI. Collage: Hamidun News.
◐ Escuchar artículo

Los agentes de IA se están moviendo rápidamente de experimentos a flujos de trabajo, y las empresas enfrentan una pregunta clave: ¿cómo hacerlos lo suficientemente confiables para tareas del mundo real? Thomson Reuters cree que la respuesta no está en la magia de los modelos, sino en la disciplina del desarrollo, las pruebas y la integración con herramientas existentes.

Cómo Medir el Éxito

Según Joel Hron, CTO de Thomson Reuters Labs, el primer paso es definir de antemano qué constituye realmente un buen resultado. Para sistemas de agentes, esto es más difícil que para el software común: no es suficiente verificar que una respuesta "se vea correcta". Necesitas describir formalmente qué cualidades hacen un buen resultado, dónde el agente puede fallar, qué desviaciones el negocio tolerará y en qué punto es necesaria la intervención humana. La empresa utiliza múltiples niveles de evaluación para no depender de una sola métrica o conjunto de pruebas:

  • benchmarks públicos para evaluación inicial de nuevos modelos
  • pruebas internas con criterios claros de calidad de respuestas
  • comprobaciones automatizadas para ciclos de desarrollo rápidos
  • evaluación final por expertos del dominio

La automatización ayuda a acelerar las iteraciones, pero la confianza final sigue necesitando pasar por personas. Hron enfatiza que antes de lanzar un producto, el equipo quiere confirmación de expertos humanos, no solo de métricas y pruebas automatizadas. Para mercados donde un error cuesta dinero, tiempo o riesgos legales, este enfoque no es una precaución excesiva sino un requisito obligatorio. De lo contrario, un agente podría mostrar excelentes resultados de demostración pero fallar en el mundo real, donde importan los matices y el contexto profesional.

Lenguaje Común para los Equipos

La segunda conclusión de Thomson Reuters es que un agente no puede diseñarse separadamente de la interfaz y la experiencia del usuario. Si una empresa quiere que sus empleados trabajen con un agente como con un colega digital, necesitan un lenguaje común, una interfaz intuitiva y una lógica de interacción transparente. Los usuarios deben ver no solo el resultado, sino el razonamiento del sistema: qué pasos da, dónde solicita datos, cuándo utiliza herramientas y cuándo necesita revisión humana. Sin esta transparencia, el agente se percibe como una caja negra, no como un asistente.

Esto lleva a un consejo práctico: diseñadores, equipos de producto y científicos de datos no deben trabajar en canales separados sino trabajar literalmente juntos. Hron lo describe sin romance—simplemente necesitas sentar a los diseñadores al lado de los científicos de datos y obligarlos a discutir regularmente qué está pasando dentro del agente. Cuanto más estrecho sea este acoplamiento, más rápido surge una interfaz que no oculta el pensamiento del sistema sino que lo hace manejable. Para el negocio, esto también es protección contra la falsa autonomía, cuando una interfaz bonita enmascara una lógica inestable.

Herramientas y Socios

La tercera lección es: no intentes construir un agente "todopoderoso" que pueda hacerlo todo solo. Thomson Reuters toma un camino diferente: descomponer productos existentes y convertir sus funciones en herramientas verificadas con las que el agente puede trabajar. Si una empresa tiene docenas de aplicaciones maduras acumuladas a lo largo de los años, se convierten no en una carga sino en un conjunto de módulos confiables para la nueva arquitectura de agentes. Este enfoque es especialmente importante ahora, cuando los modelos están haciendo un progreso significativo en generación de código, ejecución de planes y razonamiento multietapa, pero aún no pueden garantizar la previsibilidad por sí solos.

"No estamos jugando al 90%.

Estamos jugando al 99% y 99,9%", es cómo Hron describe el estándar para productos de agentes de IA.

Esto lleva al cuarto consejo: aprender no solo dentro de tu empresa. Thomson Reuters lanzó la Trust in AI Alliance con Anthropic, AWS, Google Cloud y OpenAI, y también desarrolla asociaciones con Imperial College London. El enfoque de tales iniciativas es la explicabilidad, la transparencia y esos "últimos nueves" de precisión que separan un prototipo impresionante de un producto funcional. Para las empresas, esto es una señal: una pila de agentes no puede construirse en aislamiento si el objetivo no es solo implementar una característica de moda, sino llevar el sistema a un nivel en el que se pueda confiar con decisiones reales.

Qué Significa Esto

El punto principal del artículo es sencillo: los negocios no deben esperar a un agente perfecto mítico. Los sistemas confiables se construyen a partir de criterios de calidad medibles, colaboración estrecha entre equipos de producto y técnicos, herramientas internas verificadas e intercambio externo de prácticas. Los ganadores no serán las empresas cuyo agente suena más inteligente, sino aquellas cuyo comportamiento del agente está mejor probado, es más comprensible para los usuarios y está más profundamente integrado en el trabajo operacional real.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…