OpenAI Blog→ оригинал

Databricks a déployé GPT-5.5 dans des agents AI d'entreprise après un record sur OfficeQA Pro

Databricks a intégré GPT-5.5 à des scénarios agentiques d'entreprise après un résultat solide sur OfficeQA Pro, un benchmark pour le traitement complexe de docu

Databricks a déployé GPT-5.5 dans des agents AI d'entreprise après un record sur OfficeQA Pro
Source : OpenAI Blog. Коллаж: Hamidun News.
◐ Слушать статью

Databricks a annoncé le 15 mai 2026 qu'elle ouvre GPT-5.5 pour les scénarios d'agents d'entreprise. L'occasion était le meilleur résultat du modèle sur OfficeQA Pro — l'étalon de mesure de l'entreprise pour les travaux lourds sur documents, où les résultats précis importent plus que les réponses éloquentes.

Pourquoi

OfficeQA Pro Est Important OfficeQA Pro teste non pas l'érudition générale du modèle, mais tout le flux de travail : le modèle peut-il analyser un document, extraire les bons chiffres, trouver des passages pertinents, connecter plusieurs sources et fournir une réponse fondée sur des données ? C'est un point critique pour les agents d'IA d'entreprise. Les systèmes en production se cassent plus souvent non pas parce que le modèle « ne peut pas penser », mais parce qu'il se confond dans les tableaux, perd un chiffre dans une numérisation ou lit mal un ancien PDF.

Dans son rapport technique, Databricks décrit OfficeQA Pro comme un ensemble de 133 questions basées sur un corpus de bulletins du Trésor américain couvrant près de 100 ans — de 1939 à 2025. Il contient environ 89 mille pages et plus de 26 millions de valeurs numériques. Un tel ensemble simule bien un environnement d'entreprise réel : archives, longs documents, tableaux mal numérisés, formats obsolètes et données où une erreur d'un seul chiffre change tout le résultat de l'agent.

Résultats de GPT-5.5

Dans l'étude de cas d'OpenAI pour Databricks, il est indiqué que GPT-5.5 en mode de test d'agent a réduit le taux d'erreur de 46% par rapport à GPT-5.4 et est devenu le premier modèle à dépasser 50% de précision sur OfficeQA Pro.

Dans une note de sortie séparée pour GPT-5.5, OpenAI fournit une mesure plus précise — 54,1% sur cet étalon. Par rapport aux résultats précédents, c'est un changement notable : dans le rapport de mars d'OfficeQA Pro, les agents frontier avec accès direct au corpus ont en moyenne obtenu seulement 34,1%.

Databricks souligne spécifiquement que les gains les plus importants proviennent de scénarios d'analyse lourde. GPT-5.5 lit mieux les anciens documents et les PDF numérisés, extrait les chiffres plus précisément et entre moins souvent dans des boucles de recherche inutiles dans les tâches multi-étapes.

Selon l'équipe, le modèle est devenu plus fiable tant dans l'extraction de contexte que dans l'orchestration de plusieurs étapes sans surveillance supplémentaire.

"Avec

Codex et 5.5, nous avons obtenu le meilleur résultat parmi tous les agents et modèles", a déclaré Arnav Singhvi, ingénieur chercheur chez Databricks.

Comment C'Est

Déployé Maintenant Databricks ouvre maintenant GPT-5.5 pour les scénarios de clients via Unity AI Gateway. Le modèle peut être utilisé dans les flux de travail construits sur Agent Bricks et Supervisor API.

Selon la documentation de Databricks, Supervisor API supprime une partie de l'orchestration de bas niveau des équipes : un développeur spécifie le modèle, les outils et les instructions en une seule demande, et la plateforme elle-même exécute la boucle de l'agent, invoque les outils, sélectionne les étapes suivantes et assemble la réponse finale. En pratique, cela signifie que GPT-5.5 dans Databricks est intégré non pas comme un widget de chat séparé, mais comme une couche de contrôle au-dessus des données d'entreprise et des sous-agents spécialisés.

Autour du modèle, Databricks construit un flux de travail d'entreprise typique : un seul point de connexion pour les modèles et agents via Unity AI Gateway observabilité, limites, routes de secours et audit intégration avec Agent Bricks, serveurs MCP, fonctions Unity Catalog et autres outils contrôle d'accès pour que les utilisateurs ne voient que les sources et sous-agents autorisés Partie de ces composants, y compris Unity AI Gateway et Supervisor API, Databricks les marque toujours comme bêta dans sa documentation. Mais la direction est claire : le modèle est évalué non pas en lui-même, mais comme composant d'un système d'entreprise géré, vérifiable et sécurisé.

Ce

Que Cela Signifie Databricks démontre un vecteur pragmatique pour l'IA d'entreprise : le gagnant n'est pas simplement le modèle le plus éloquent, mais celui qui lit de manière fiable les documents désordonnés, ne perd pas les chiffres et conduit de longs scénarios de travail sans erreurs inutiles. Si GPT-5.5 maintient ce niveau en production, il sera déployé non pas pour des démonstrations, mais pour automatiser les processus documentaires et analytiques réels.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Qu'en pensez-vous ?
Chargement des commentaires…