OpenAI Blog→ оригинал

Databricks implementou o GPT-5.5 em agentes corporativos de AI após recorde no OfficeQA Pro

A Databricks integrou o GPT-5.5 a cenários corporativos com agentes após um forte resultado no OfficeQA Pro, um benchmark para trabalho complexo com documentos.

Databricks implementou o GPT-5.5 em agentes corporativos de AI após recorde no OfficeQA Pro
Fonte: OpenAI Blog. Коллаж: Hamidun News.
◐ Слушать статью

Databricks anunciou em 15 de maio de 2026 que está abrindo GPT-5.5 para cenários de agentes corporativos. A ocasião foi o melhor resultado do modelo no OfficeQA Pro — o benchmark da empresa para trabalho pesado com documentos, onde resultados precisos importam mais que respostas eloquentes.

Por

Que OfficeQA Pro É Importante OfficeQA Pro testa não a erudição geral do modelo, mas todo o fluxo de trabalho: o modelo consegue analisar um documento, extrair os números certos, encontrar trechos relevantes, conectar múltiplas fontes e fornecer uma resposta fundamentada em dados? Este é um ponto crítico para agentes de IA corporativos. Sistemas em produção quebram mais frequentemente não porque o modelo "não consegue pensar", mas porque fica confuso em tabelas, perde um número em uma digitalização ou lê incorretamente um PDF antigo.

Em seu relatório técnico, Databricks descreve OfficeQA Pro como um conjunto de 133 questões com base em um corpus de boletins do Tesouro dos EUA abrangendo quase 100 anos — de 1939 a 2025. Contém cerca de 89 mil páginas e mais de 26 milhões de valores numéricos. Tal conjunto simula bem um ambiente corporativo real: arquivos, documentos longos, tabelas mal digitalizadas, formatos desatualizados e dados onde um erro de um único dígito muda todo o resultado do agente.

Resultados do GPT-5.5

No estudo de caso da OpenAI para Databricks, consta que GPT-5.5 em modo de teste de agente reduziu a taxa de erro em 46% comparado ao GPT-5.4 e se tornou o primeiro modelo a exceder 50% de precisão no OfficeQA Pro.

Em uma nota de lançamento separada para GPT-5.5, OpenAI fornece uma medida mais precisa — 54,1% neste benchmark. Diante dos resultados anteriores, esta é uma mudança notável: no relatório de março de OfficeQA Pro, agentes frontier com acesso direto ao corpus tiveram média de apenas 34,1%.

Databricks destaca especificamente que os ganhos mais fortes vieram em cenários de análise pesada. GPT-5.5 lê melhor documentos antigos e PDFs digitalizados, extrai números com mais precisão e menos frequentemente entra em loops de pesquisa desnecessários dentro de tarefas com múltiplas etapas.

De acordo com a equipe, o modelo se tornou mais confiável tanto na extração de contexto quanto na orquestração de múltiplas etapas sem supervisão adicional.

"Com

Codex e 5.5, obtivemos o melhor resultado entre todos os agentes e modelos", disse Arnav Singhvi, engenheiro pesquisador da Databricks.

Como

Está Sendo Implantado Agora Databricks está abrindo GPT-5.5 para cenários de clientes através do Unity AI Gateway. O modelo pode ser usado em fluxos de trabalho construídos no Agent Bricks e Supervisor API.

Conforme documentação da Databricks, Supervisor API remove parte da orquestração de baixo nível das equipes: um desenvolvedor especifica o modelo, ferramentas e instruções em uma única solicitação, e a própria plataforma executa o ciclo do agente, invoca ferramentas, seleciona próximas etapas e monta a resposta final. Na prática, isso significa que GPT-5.5 no Databricks é incorporado não como um widget de chat separado, mas como uma camada de controle acima de dados corporativos e sub-agentes especializados.

Em torno do modelo, Databricks constrói um fluxo de trabalho empresarial típico: um único ponto de conexão para modelos e agentes através do Unity AI Gateway observabilidade, limites, rotas de fallback e trilha de auditoria integração com Agent Bricks, servidores MCP, funções do Unity Catalog e outras ferramentas controle de acesso para que usuários vejam apenas fontes e sub-agentes permitidos Parte destes componentes, incluindo Unity AI Gateway e Supervisor API, Databricks ainda marca como beta em sua documentação. Mas a direção é clara: o modelo é avaliado não por si só, mas como componente de um sistema corporativo gerenciado, verificável e seguro.

O

Que Isto Significa Databricks demonstra um vetor pragmático para IA corporativa: o vencedor não é simplesmente o modelo mais eloquente, mas aquele que lê documentos confusos de forma confiável, não perde números e conduz cenários de trabalho longos sem erros desnecessários. Se GPT-5.5 manter este nível em produção, será implantado não para demonstrações, mas para automatizar processos documentais e analíticos reais.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
O que você acha?
Carregando comentários…