Databricks внедрила GPT-5.5 в корпоративные AI-агенты после рекорда на OfficeQA Pro
Databricks подключила GPT-5.5 к корпоративным агентным сценариям после сильного результата на OfficeQA Pro — бенчмарке для сложной работы с документами. Модель

Databricks объявила 15 мая 2026 года, что открывает GPT-5.5 для корпоративных агентных сценариев. Поводом стал лучший результат модели на OfficeQA Pro — бенчмарке компании для тяжёлой работы с документами, где важны не красивые ответы, а точность на каждом шаге.
Почему важен тест
OfficeQA Pro проверяет не общую эрудицию модели, а весь рабочий контур целиком: может ли она распарсить документ, извлечь нужные цифры, найти релевантный фрагмент, связать несколько источников и дать ответ с опорой на данные. Для корпоративных AI-агентов это болезненное место. Продакшн-системы чаще ломаются не потому, что модель «не умеет думать», а потому, что она путается в таблицах, теряет цифру в скане или неправильно читает старый PDF.
В техническом отчёте Databricks OfficeQA Pro описан как набор из 133 вопросов по корпусу бюллетеней Казначейства США почти за 100 лет — с 1939 по 2025 год. В нём около 89 тысяч страниц и более 26 миллионов числовых значений. Такой набор хорошо имитирует реальную корпоративную среду: архивы, длинные документы, неровно оцифрованные таблицы, устаревшие форматы и данные, где ошибка в одном числе меняет весь вывод агента.
Результат GPT-5.5 В кейсе
OpenAI для Databricks говорится, что GPT-5.5 в агентном тестовом контуре сократила число ошибок на 46% по сравнению с GPT-5.4 и стала первой моделью, которая превысила 50% точности на OfficeQA Pro.
В отдельном материале о релизе GPT-5.5 OpenAI приводит более точную оценку — 54,1% на этом бенчмарке. На фоне прошлых результатов это заметный сдвиг: в мартовском отчёте OfficeQA Pro frontier-агенты с прямым доступом к корпусу в среднем набирали лишь 34,1%.
Databricks отдельно подчёркивает, что самый сильный прирост пришёлся на сценарии с тяжёлым парсингом. GPT-5.5 лучше читает старые документы и сканированные PDF, точнее вытаскивает цифры и реже уходит в лишние поисковые обходы внутри многошаговой задачи.
По словам команды, модель стала надёжнее и в извлечении контекста, и в оркестрации нескольких шагов без дополнительного надзора.
«С
Codex и 5.5 мы получили лучший результат среди всех агентов и моделей», — так итог описал инженер-исследователь Databricks Арнав Сингхви.
Как это внедряют
Теперь Databricks открывает GPT-5.5 для клиентских сценариев через Unity AI Gateway. Модель можно использовать внутри воркфлоу, построенных на Agent Bricks и Supervisor API.
По документации Databricks, Supervisor API снимает с команд часть низкоуровневой оркестрации: разработчик задаёт модель, инструменты и инструкции одним запросом, а сама платформа запускает агентный цикл, вызывает инструменты, выбирает следующие шаги и собирает финальный ответ. На практике это означает, что GPT-5.5 в Databricks встраивают не как отдельный чат-виджет, а как управляющий слой поверх корпоративных данных и специализированных подагентов.
Вокруг модели Databricks строит типичный enterprise-контур: единая точка подключения моделей и агентов через Unity AI Gateway наблюдаемость, лимиты, fallback-маршруты и аудит запросов связка с Agent Bricks, MCP-серверами, функциями Unity Catalog и другими инструментами разграничение прав доступа, чтобы пользователь видел только разрешённые источники и подагентов Часть этих компонентов, включая Unity AI Gateway и Supervisor API, Databricks в документации всё ещё помечает как beta. Но направление уже очевидно: модель оценивают не сама по себе, а как компонент управляемой, проверяемой и безопасной корпоративной системы.
Что это значит
Databricks показывает довольно прагматичный вектор для корпоративного AI: выигрывает не просто самая разговорчивая модель, а та, которая стабильно читает кривые документы, не теряет числа и ведёт длинный рабочий сценарий без лишних ошибок. Если GPT-5.5 удержит этот уровень в продакшне, её будут внедрять не ради демо, а ради автоматизации реальных документных и аналитических процессов.