Databricks implementó GPT-5.5 en agentes corporativos de AI tras un récord en OfficeQA Pro
Databricks integró GPT-5.5 en escenarios corporativos con agentes tras un sólido resultado en OfficeQA Pro, un benchmark para trabajo complejo con documentos. E

Databricks anunció el 15 de mayo de 2026 que está abriendo GPT-5.5 para escenarios de agentes corporativos. La ocasión fue el mejor resultado del modelo en OfficeQA Pro — el benchmark de la empresa para trabajo pesado con documentos, donde los resultados precisos importan más que las respuestas elocuentes.
Por
Qué OfficeQA Pro Es Importante OfficeQA Pro prueba no la erudición general del modelo, sino todo el flujo de trabajo: ¿puede el modelo analizar un documento, extraer los números correctos, encontrar fragmentos relevantes, conectar múltiples fuentes y proporcionar una respuesta fundamentada en datos? Este es un punto crítico para los agentes de IA corporativos. Los sistemas en producción se rompen más frecuentemente no porque el modelo "no pueda pensar", sino porque se confunde en tablas, pierde un número en un escaneo o lee incorrectamente un PDF antiguo.
En su informe técnico, Databricks describe OfficeQA Pro como un conjunto de 133 preguntas basadas en un corpus de boletines del Tesoro de EE.UU. que abarca casi 100 años — de 1939 a 2025.
Contiene aproximadamente 89 mil páginas y más de 26 millones de valores numéricos. Tal conjunto simula bien un entorno corporativo real: archivos, documentos largos, tablas mal digitalizadas, formatos obsoletos y datos donde un error de un solo dígito cambia todo el resultado del agente.
Resultados de GPT-5.5
En el caso de estudio de OpenAI para Databricks, se dice que GPT-5.5 en modo de prueba de agente redujo la tasa de error en un 46% en comparación con GPT-5.4 y se convirtió en el primer modelo en superar el 50% de precisión en OfficeQA Pro.
En una nota de lanzamiento separada para GPT-5.5, OpenAI proporciona una medida más precisa — 54,1% en este benchmark. Frente a los resultados anteriores, este es un cambio notable: en el informe de marzo de OfficeQA Pro, los agentes frontier con acceso directo al corpus promediaron solo el 34,1%.
Databricks destaca específicamente que las ganancias más fuertes vinieron en escenarios de análisis pesado. GPT-5.5 lee mejor documentos antiguos y PDF escaneados, extrae números con más precisión y menos frecuentemente entra en bucles de búsqueda innecesarios dentro de tareas multietapa.
Según el equipo, el modelo se volvió más confiable tanto en la extracción de contexto como en la orquestración de múltiples pasos sin supervisión adicional.
"Con
Codex y 5.5, obtuvimos el mejor resultado entre todos los agentes y modelos", dijo Arnav Singhvi, ingeniero investigador de Databricks.
Cómo
Se Está Implementando Ahora Databricks está abriendo GPT-5.5 para escenarios de clientes a través de Unity AI Gateway. El modelo se puede usar dentro de flujos de trabajo construidos en Agent Bricks y Supervisor API.
Según la documentación de Databricks, Supervisor API elimina parte de la orquestación de bajo nivel de los equipos: un desarrollador especifica el modelo, herramientas e instrucciones en una única solicitud, y la propia plataforma ejecuta el ciclo del agente, invoca herramientas, selecciona pasos siguientes y ensambla la respuesta final. En la práctica, esto significa que GPT-5.5 en Databricks se incrustra no como un widget de chat separado, sino como una capa de control encima de datos corporativos y sub-agentes especializados.
Alrededor del modelo, Databricks construye un flujo de trabajo empresarial típico: un único punto de conexión para modelos y agentes a través de Unity AI Gateway observabilidad, límites, rutas de fallback y auditoría integración con Agent Bricks, servidores MCP, funciones de Unity Catalog y otras herramientas control de acceso para que los usuarios solo vean fuentes y sub-agentes permitidos Parte de estos componentes, incluyendo Unity AI Gateway y Supervisor API, Databricks aún marca como beta en su documentación. Pero la dirección es clara: el modelo se evalúa no por sí solo, sino como componente de un sistema corporativo gestionado, verificable y seguro.
Lo
Que Significa Databricks demuestra un vector pragmático para IA corporativa: el ganador no es simplemente el modelo más elocuente, sino el que lee documentos confusos de manera confiable, no pierde números y conduce escenarios de trabajo largos sin errores innecesarios. Si GPT-5.5 mantiene este nivel en producción, se implementará no para demostraciones, sino para automatizar procesos documentales y analíticos reales.