OpenAI Blog→ оригинал

أدخلت Databricks نموذج GPT-5.5 إلى وكلاء AI المؤسسيين بعد رقم قياسي على OfficeQA Pro

دمجت Databricks نموذج GPT-5.5 في سيناريوهات الوكلاء المؤسسية بعد نتيجة قوية على OfficeQA Pro، وهو معيار للعمل المعقد مع المستندات. وكان النموذج أول من تجاوز عتب

أدخلت Databricks نموذج GPT-5.5 إلى وكلاء AI المؤسسيين بعد رقم قياسي على OfficeQA Pro
المصدر: OpenAI Blog. Коллаж: Hamidun News.
◐ Слушать статью

أعلنت Databricks في 15 مايو 2026 أنها تفتح GPT-5.5 لسيناريوهات وكلاء المؤسسات. كانت المناسبة أفضل نتيجة حققتها النموذج في OfficeQA Pro — معيار الشركة للعمل الثقيل مع المستندات، حيث تكون النتائج الدقيقة أهم من الإجابات البليغة.

لماذا يعتبر

OfficeQA Pro مهماً يختبر OfficeQA Pro ليس المعرفة العامة للنموذج، بل سير العمل الكامل: هل يمكن للنموذج تحليل مستند واستخراج الأرقام الصحيحة والعثور على فقرات ذات صلة وربط مصادر متعددة وتقديم إجابة مدعومة بالبيانات؟ هذه نقطة حرجة لوكلاء الذكاء الاصطناعي في المؤسسات. تتعطل الأنظمة الموجودة في الإنتاج في كثير من الأحيان ليس لأن النموذج "لا يستطيع التفكير"، بل لأنه يختلط في الجداول أو يفقد رقماً في الماسح الضوئي أو يقرأ ملف PDF القديم بشكل غير صحيح. في تقريره التقني، يصف Databricks OfficeQA Pro بأنه مجموعة من 133 سؤالاً بناءً على مجموعة من النشرات الصادرة عن وزارة الخزانة الأمريكية تغطي ما يقرب من 100 سنة — من 1939 إلى 2025.

تحتوي على حوالي 89 ألف صفحة وأكثر من 26 مليون قيمة رقمية. تحاكي مثل هذه المجموعة بشكل جيد بيئة مؤسسية حقيقية: الأرشيفات والمستندات الطويلة والجداول المرقمنة بشكل سيء والتنسيقات القديمة والبيانات حيث يؤدي خطأ رقمي واحد إلى تغيير مخرجات الوكيل بالكامل.

نتائج GPT-5.5 في دراسة الحالة الخاصة بـ

OpenAI لـ Databricks، يُذكر أن GPT-5.5 في وضع اختبار الوكيل قللت معدل الخطأ بنسبة 46٪ مقارنة بـ GPT-5.4 وأصبحت أول نموذج يتجاوز دقة 50٪ في OfficeQA Pro.

في ملاحظة إصدار منفصلة لـ GPT-5.5، تقدم OpenAI قياساً أكثر دقة — 54.1٪ في هذا المعيار.

في ضوء النتائج السابقة، هذا تحول ملحوظ: في تقرير مارس الخاص بـ OfficeQA Pro، حققت وكلاء frontier بالوصول المباشر إلى المجموعة في المتوسط 34.1٪ فقط. تؤكد Databricks بشكل خاص أن أقوى المكاسب جاءت في سيناريوهات التحليل الثقيل.

يقرأ GPT-5.5 المستندات القديمة وملفات PDF الممسوحة بشكل أفضل ويستخرج الأرقام بدقة أكبر وندخل بشكل أقل في حلقات البحث غير الضرورية ضمن المهام متعددة الخطوات. وفقاً للفريق، أصبح النموذج أكثر موثوقية سواء في استخراج السياق أو في تنسيق عدة خطوات دون إشراف إضافي.

"مع

Codex و5.5، حصلنا على أفضل نتيجة بين جميع الوكلاء والنماذج"، قال أرناف سينغفي، مهندس الأبحاث في Databricks.

كيفية النشر الآن تفتح

Databricks الآن GPT-5.5 لسيناريوهات العملاء من خلال Unity AI Gateway. يمكن استخدام النموذج داخل سير العمل المبنية على Agent Bricks و Supervisor API.

وفقاً لتوثيق Databricks، تزيل Supervisor API جزءاً من التنسيق منخفض المستوى من الفرق: يحدد المطور النموذج والأدوات والتعليمات في طلب واحد، والمنصة نفسها تقوم بتشغيل حلقة الوكيل واستدعاء الأدوات واختيار الخطوات التالية وتجميع الإجابة النهائية. في الممارسة العملية، هذا يعني أن GPT-5.5 في Databricks يتم تضمينها ليس كعنصر واجهة دردشة منفصل، بل كطبقة تحكم فوق البيانات المؤسسية والوكلاء الفرعيين المتخصصين.

حول النموذج، تبني Databricks سير عمل مؤسسي نموذجي: نقطة اتصال واحدة للنماذج والوكلاء من خلال Unity AI Gateway قابلية الملاحظة والحدود والمسارات الاحتياطية والتدقيق التكامل مع Agent Bricks وخوادم MCP ووظائف Unity Catalog والأدوات الأخرى التحكم في الوصول بحيث يرى المستخدمون فقط المصادر والوكلاء الفرعيين المسموح بهم يميز Databricks جزءاً من هذه المكونات، بما في ذلك Unity AI Gateway و Supervisor API، بأنها نسخة تجريبية في توثيقها. لكن الاتجاه واضح: يتم تقييم النموذج ليس بمفرده، بل كمكون لنظام مؤسسي يتم إدارته والتحقق منه وآمن.

ما يعنيه هذا تُظهر

Databricks متجهاً براغماتياً للذكاء الاصطناعي في المؤسسات: الفائز ليس ببساطة النموذج الأكثر بلاغة، بل الذي يقرأ المستندات الفوضوية بشكل موثوق ولا يفقد الأرقام ويجري سيناريوهات عمل طويلة دون أخطاء غير ضرورية. إذا حافظ GPT-5.5 على هذا المستوى في الإنتاج، فسيتم نشره ليس لأغراض العروض التوضيحية، بل لأتمتة العمليات الوثائقية والتحليلية الحقيقية.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
ما رأيك؟
جارٍ تحميل التعليقات…