NVIDIA تكشف عن NeMo Retriever — بحث وكيلي للبيانات المؤسسية المعقدة

قدمت NVIDIA خط أنابيب جديدا لـ NeMo Retriever يحول البحث إلى عملية وكيلية: يخطط النموذج للخطوات بنفسه، ويعيد صياغة الاستعلامات، ويختار المستندات عبر عدة تكرارات. وقد احتلت البنية بالفعل المركز الأول في ViDoRe v3 والثاني في BRIGHT. وفي الوقت نفسه، يقر المطورون بصراحة بالمقايضة: تتحسن الجودة، لكن زمن الاستجابة وتكلفة كل استعلام يرتفعان أيضا.

Khamidun Zhemal

رصد الذكاء الاصطناعي · Hugging Face Blog

30 أبريل 2026· 3 د

معالج بواسطة الذكاء الاصطناعي من Hugging Face Blog؛ بتحرير Hamidun News

NVIDIA تكشف عن NeMo Retriever — بحث وكيلي للبيانات المؤسسية المعقدة — المصدر: Hugging Face Blog. كولاج: Hamidun News.

◐ استمع للمقال

قدمت NVIDIA خط أنابيب agentic جديد لـ NeMo Retriever — نظام بحث لا يقتصر على مقارنة التشابه الدلالي. بدلاً من استعلام واحد، يطلق دورة من البحث وتقييم النتائج الوسيطة وتحسين الاستراتيجية، مما ساعد الحل على احتلال المرتبة الأولى في تصنيف ViDoRe v3 والمرتبة الثانية في BRIGHT.

لماذا البحث الواحد غير كافٍ

يعمل البحث الكثيف الكلاسيكي بشكل جيد عندما يكون من الكافي العثور على مستندات متشابهة دلالياً مع الاستعلام. لكن في السيناريوهات المؤسسية، هذا غالباً ما لا يكون كافياً: قد تكون المستندات معقدة بصرياً، والاستعلامات قد تكون مركبة، والإجابات قد تكون موزعة عبر مصادر متعددة. في مثل هذه المهام، تحتاج ليس فقط إلى مطابقة التضمينات، بل إلى القدرة على تقسيم السؤال إلى أجزاء واختبار الفرضيات وتغيير اتجاه البحث عدة مرات. تصف NVIDIA هذا كفجوة بين نوعين من الأنظمة. يمكن لأجهزة البحث فحص كميات ضخمة من البيانات بسرعة، لكنها بالكاد تفكر. يمكن لنماذج اللغات الكبيرة التخطيط والقيام باستدلالات منطقية، لكنها لا تستطيع معالجة ملايين المستندات على الفور. يجب أن يغلق البحث الوكيلي هذه الفجوة من خلال دمج كلا الأسلوبين في دورة واحدة.

كيفية عمل الدورة

يتم بناء خط الأنابيب على بنية ReACT. لا يتلقى الوكيل مهمة بصيغة "استعلام واحد — نتيجة واحدة"، بل يتصرف خطوة بخطوة: يفكر، يستدعي أداة retrieve(query, top_k)، يحلل ما تم العثور عليه ويقرر ما يجب فعله بعد ذلك. يتم تجميع الإجابة النهائية من خلال أداة منفصلة final_results تعيد قائمة بالمستندات الأكثر صلة. وفقاً للفريق، ظهرت عدة أنماط مفيدة بشكل طبيعي أثناء العملية:

توليد استعلامات أكثر دقة مع ظهور حقائق جديدة؛
إعادة صياغة مستمرة حتى يجد النظام إشارة مفيدة؛
تقسيم سؤال معقد إلى عدة مهام فرعية بسيطة؛
إعادة ترتيب المستندات التي تم العثور عليها قبل الاختيار النهائي.

إذا وصل الوكيل إلى حد الخطوات أو طول السياق، فإن خط الأنابيب لا ينقطع عشوائياً. يتم استخدام Reciprocal Rank Fusion كحماية: تحصل المستندات على درجة نهائية بناءً على مواضعها في محاولات بحث مختلفة، ويعيد النظام دائماً مجموعة ذات معنى من النتائج.

حيث فاز خط الأنابيب

النتيجة الرئيسية — ليس فقط مكان في لوحة الترتيب، بل العمومية. حصل نفس خط الأنابيب، دون تغيير البنية الأساسية، على المرتبة الأولى في ViDoRe v3 مع NDCG@10 69.22 والمرتبة الثانية في BRIGHT مع NDCG@10 50.

90. المقياس الأول مهم للمستندات المؤسسية الغنية بصرياً والمتنوعة، والثاني للمهام التي تتطلب تفكيراً متعدد الخطوات. قارن المؤلفون بشكل منفصل نهجهم مع حلول أكثر تخصصاً.

على سبيل المثال، يتصدر INF-X-Retriever في BRIGHT برتيبة 63.40، لكن على ViDoRe v3 في نفس التكوين مع nemotron-colembed-vl-8b-v2 أظهر 62.31 — أقل حتى من البحث الكثيف المنتظم بنفس نموذج التضمين عند 64.

36. تستخدم NVIDIA هذه المقارنة كحجة لصالح نهج قابل للتعميم: تنتقل الدورة الوكيلية بشكل أفضل عبر أنواع المهام المختلفة من خطوط الأنابيب المصممة لمعيار واحد. من المثير للاهتمام أيضاً أن الفريق أعاد هيكلة البنية الأساسية من أجل السرعة.

في البداية، تم نشر جهاز البحث كخادم MCP، وهو أمر منطقي للوصول إلى أدوات خارجية من قبل نماذج اللغات الكبيرة. لكن في الواقع، أضاف هذا استدعاءات شبكة إضافية وعملية منفصلة وخطر أخطاء تكوين صامتة وأعطال تحت الحمل. نتيجة لذلك، تم استبدال مخطط MCP بجهاز بحث singleton آمن من حيث الخيوط داخل العملية: يتم تحميل النموذج والتضمينات مرة واحدة فقط، ويتم مزامنة الوصول من خلال قفل، وتبقى واجهة retrieve() كما هي.

أزال هذا فئة كاملة من المشاكل التشغيلية وسرع التجارب.

تكلفة البحث المستقل

تصرح NVIDIA مباشرة بأن هذه الجودة لها ثمن. البحث الوكيلي أبطأ بشكل ملحوظ وأكثر تكلفة من البحث الكثيف المنتظم. على ViDoRe v3، استغرق استعلام واحد في المتوسط 136.

3 ثانية، وتطلب حوالي 760 ألف رمز إدخال و 6.3 آلاف رمز إخراج، وقام الوكيل بمتوسط 9.2 استدعاءات بحث.

بالنسبة للمهام في الوقت الفعلي، هذا ملف تعريف ثقيل، خاصة عند التعامل مع حمل جماعي. قارن الفريق أيضاً النماذج المغلقة والمفتوحة. على ViDoRe v3، أثبتت المجموعة مع Opus 4.

5 أنها الأفضل، لكن الانتقال إلى gpt-oss-120b المفتوح الأوزان أسفر فقط عن تدهور متوسط في الجودة — من 69.22 إلى 66.38.

على BRIGHT، كانت الفجوة أكبر، مما يشير إلى اعتماد المهام المعقدة للتفكير على نماذج حدود أكثر قوة. الخطوة التالية لـ NVIDIA هي محاولة نقل هذه الأنماط الوكيلية إلى نماذج مفتوحة متخصصة أكثر إحكاماً لتقليل التكلفة والكمون دون خسارة كبيرة في الجودة.

ما يعنيه هذا

يتحرك البحث عبر البيانات المؤسسية بسرعة بعيداً عن نموذج "أدخل استعلاماً — احصل على مستندات مشابهة". توضح NVIDIA أن المستوى التالي هو وكيل يمكنه البحث بشكل تكراري وتغيير التكتيكات ودمج التفكير مع البحث. بينما هذا النهج مكلف وبطيء حالياً، فإنه بالفعل يبدو بمثابة معمارية قابلة للعمل وليس تجربة في المختبر للسيناريوهات المعقدة ذات المخاطر العالية.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 50 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تحتاج إلى ذكاء اصطناعي يعمل داخل شركتك — وليس فقط في موجز الأخبار؟

أبني ذكاءً اصطناعياً جاهزاً للإنتاج للشركات — أنظمة CRM مخصّصة، أدوات داخلية، وكلاء مستقلون، أتمتة سير العمل. ملك لك، مصمّم وفق عمليتك، دون رسوم لكل مستخدم. من إعداد جمال خميدون، مدير المنتجات في AlpinaGPT (منصة ذكاء اصطناعي، أكثر من 6000 مستخدم).

احجز استشارة مجانية →