Databricks внедрила GPT-5.5 в корпоративные AI-агенты после рекорда на OfficeQA Pro

Q: Источник материала?

Оригинальная публикация на OpenAI Blog. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-16. Время чтения: 3 мин.

Databricks подключила GPT-5.5 к корпоративным агентным сценариям после сильного результата на OfficeQA Pro — бенчмарке для сложной работы с документами. Модель

ЖХ

Редакция Hamidun News

AI‑мониторинг · OpenAI Blog

2026-05-16· 2 мин

Databricks внедрила GPT-5.5 в корпоративные AI-агенты после рекорда на OfficeQA Pro — Источник: OpenAI Blog. Коллаж: Hamidun News.

◐ Слушать статью

Databricks объявила 15 мая 2026 года, что открывает GPT-5.5 для корпоративных агентных сценариев. Поводом стал лучший результат модели на OfficeQA Pro — бенчмарке компании для тяжёлой работы с документами, где важны не красивые ответы, а точность на каждом шаге.

Почему важен тест

OfficeQA Pro проверяет не общую эрудицию модели, а весь рабочий контур целиком: может ли она распарсить документ, извлечь нужные цифры, найти релевантный фрагмент, связать несколько источников и дать ответ с опорой на данные. Для корпоративных AI-агентов это болезненное место. Продакшн-системы чаще ломаются не потому, что модель «не умеет думать», а потому, что она путается в таблицах, теряет цифру в скане или неправильно читает старый PDF.

В техническом отчёте Databricks OfficeQA Pro описан как набор из 133 вопросов по корпусу бюллетеней Казначейства США почти за 100 лет — с 1939 по 2025 год. В нём около 89 тысяч страниц и более 26 миллионов числовых значений. Такой набор хорошо имитирует реальную корпоративную среду: архивы, длинные документы, неровно оцифрованные таблицы, устаревшие форматы и данные, где ошибка в одном числе меняет весь вывод агента.

Результат GPT-5.5 В кейсе

OpenAI для Databricks говорится, что GPT-5.5 в агентном тестовом контуре сократила число ошибок на 46% по сравнению с GPT-5.4 и стала первой моделью, которая превысила 50% точности на OfficeQA Pro.

В отдельном материале о релизе GPT-5.5 OpenAI приводит более точную оценку — 54,1% на этом бенчмарке. На фоне прошлых результатов это заметный сдвиг: в мартовском отчёте OfficeQA Pro frontier-агенты с прямым доступом к корпусу в среднем набирали лишь 34,1%.

Databricks отдельно подчёркивает, что самый сильный прирост пришёлся на сценарии с тяжёлым парсингом. GPT-5.5 лучше читает старые документы и сканированные PDF, точнее вытаскивает цифры и реже уходит в лишние поисковые обходы внутри многошаговой задачи.

По словам команды, модель стала надёжнее и в извлечении контекста, и в оркестрации нескольких шагов без дополнительного надзора.

«С

Codex и 5.5 мы получили лучший результат среди всех агентов и моделей», — так итог описал инженер-исследователь Databricks Арнав Сингхви.

Как это внедряют

Теперь Databricks открывает GPT-5.5 для клиентских сценариев через Unity AI Gateway. Модель можно использовать внутри воркфлоу, построенных на Agent Bricks и Supervisor API.

По документации Databricks, Supervisor API снимает с команд часть низкоуровневой оркестрации: разработчик задаёт модель, инструменты и инструкции одним запросом, а сама платформа запускает агентный цикл, вызывает инструменты, выбирает следующие шаги и собирает финальный ответ. На практике это означает, что GPT-5.5 в Databricks встраивают не как отдельный чат-виджет, а как управляющий слой поверх корпоративных данных и специализированных подагентов.

Вокруг модели Databricks строит типичный enterprise-контур: единая точка подключения моделей и агентов через Unity AI Gateway наблюдаемость, лимиты, fallback-маршруты и аудит запросов связка с Agent Bricks, MCP-серверами, функциями Unity Catalog и другими инструментами разграничение прав доступа, чтобы пользователь видел только разрешённые источники и подагентов Часть этих компонентов, включая Unity AI Gateway и Supervisor API, Databricks в документации всё ещё помечает как beta. Но направление уже очевидно: модель оценивают не сама по себе, а как компонент управляемой, проверяемой и безопасной корпоративной системы.

Что это значит

Databricks показывает довольно прагматичный вектор для корпоративного AI: выигрывает не просто самая разговорчивая модель, а та, которая стабильно читает кривые документы, не теряет числа и ведёт длинный рабочий сценарий без лишних ошибок. Если GPT-5.5 удержит этот уровень в продакшне, её будут внедрять не ради демо, а ради автоматизации реальных документных и аналитических процессов.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com