أطلقت NVIDIA نموذج Nemotron 3 Nano Omni للمستندات الطويلة والصوت والفيديو ووكلاء الذكاء الاصطناعي

أطلقت NVIDIA نموذج Nemotron 3 Nano Omni — نموذج متعدد الأنماط للمستندات والصوت والفيديو ومهام الوكلاء في الواجهات. يمكنه معالجة المستندات التي تحتوي على 100+ صفحة والعمل مع تسجيلات الكلام الطويلة وتحليل لقطات الشاشة. وفقاً للمقاييس المنشورة من قبل الشركة، يتفوق النموذج بشكل ملحوظ على نموذج Nemotron Nano V2 VL السابق ويتمتع بكفاءة أفضل من عدة بدائل ذات أوزان مفتوحة.

Khamidun Zhemal

رصد الذكاء الاصطناعي · Hugging Face Blog

28 أبريل 2026· 3 د

معالج بواسطة الذكاء الاصطناعي من Hugging Face Blog؛ بتحرير Hamidun News

أطلقت NVIDIA نموذج Nemotron 3 Nano Omni للمستندات الطويلة والصوت والفيديو ووكلاء الذكاء الاصطناعي — المصدر: Hugging Face Blog. كولاج: Hamidun News.

◐ استمع للمقال

في 28 أبريل 2026، قدّمت NVIDIA نموذج Nemotron 3 Nano Omni — نموذج متعدد الأنماط بسياق طويل للمستندات والصوت والفيديو وسيناريوهات الوكلاء في الواجهات. تراهن الشركة على المهام العملية: من تحليل ملفات PDF المعقدة وتسجيلات الشاشة إلى التعرف على الكلام والاستدلال على عدة أنواع بيانات في نفس الوقت.

ما المهام التي يحلها Nemotron 3 Nano Omni؟

لا يتم تموضع Nemotron 3 Nano Omni ببساطة كنموذج OCR أو نموذج VLM آخر للصور. تصفه NVIDIA بأنه نظام عام لخمسة فئات من أحمال العمل: تحليل المستندات الحقيقية والتعرف التلقائي على الكلام وفهم مقاطع فيديو طويلة مع الصوت والمساعدة في سيناريوهات الواجهة الرسومية والاستدلال المتعدد الأنماط العام. نحن نتحدث ليس عن أمثلة توضيحية قصيرة، بل عن مستندات تحتوي على جداول وصيغ ومراجع متقاطعة بين الصفحات والشرائح ولقطات الشاشة وتسجيلات الشاشة مع التعليقات الصوتية.

في السيناريو القائم على المستند، يتعامل النموذج حسب قول الشركة مع ملفات تتجاوز 100 صفحة ويجب أن يحتفظ في نفس الوقت بالتفاصيل الدقيقة والهيكل العام. بالنسبة للصوت والفيديو، يكون التركيز على المواد الطويلة: مقاطع فيديو تعليمية واجتماعات مع شرائح وعروض المنتجات وتسجيلات الدعم. بالنسبة لمهام الوكلاء، يعتبر العمل مع لقطات الشاشة وحالة الواجهة مهمًا — يمكن للنموذج أن يفسر ما يراه على الشاشة ويساعد في اختيار الإجراء التالي.

العقود متعددة الصفحات والتقارير والمستندات التقنية
تسجيلات الشاشة والدروس التعليمية مع المرافقة الصوتية
التعرف على الكلام الطويل مع الضوضاء والأكنات والمتحدثين المختلفين
تحليل الواجهة الرسومية ولقطات الشاشة لسيناريوهات computer-use

ما الموجود داخل النموذج

تم بناء البنية حول عمود Nemotron 3 Nano 30B-A3B اللغوي واثنين من المشفرات المتخصصة: C-RADIOv4-H للبيانات البصرية و Parakeet-TDT-0.6B للصوت. يتم تنفيذ الاتصال بين الأنماط و LLM من خلال محولات خفيفة الوزن لجلب كل شيء في تسلسل رموز واحد.

داخل العمود، تستخدم NVIDIA نهجًا هجينًا: 23 طبقة Mamba للسياق الطويل و 23 طبقة MoE مع 128 خبيرًا وتوجيه top-6 بالإضافة إلى 6 طبقات انتباه للاتصالات العالمية والاستدلال المعقد. يتم التركيز بشكل خاص على العمل الفعال مع البيانات البصرية الكثيفة. بدلاً من الفسيفساء التي استُخدمت في النسخة السابقة، حصل النموذج على دقة ديناميكية بنسبة العرض إلى الارتفاع الأصلية: يتم تخصيص 1024 إلى 13312 رقعة بصرية لكل صورة.

بالنسبة للفيديو، يتم تطبيق آليتي ضغط. يجمع Conv3D أزواج الإطارات المجاورة قبل التغذية إلى ViT، و EVS في مرحلة الاستنتاج يتجاهل الرموز الثابتة ويحتفظ فقط بالتغييرات الديناميكية. بالنسبة للصوت، فإن الانتقال إلى الإدخال الأصلي مهم: يعمل النموذج ليس فقط مع النسخة المكتوبة بل مع مسار الصوت نفسه، وتم تدريبه على مقاطع تصل إلى 20 دقيقة، مع إعلان السياق العام للـ LLM على أكثر من خمس ساعات.

النتائج والتوفر

في المعايير المنشورة، قام Nemotron 3 Nano Omni بتحسينات كبيرة مقارنة بـ Nemotron Nano V2 VL وغالبًا ما يتفوق على Qwen3-Omni 30B-A3B. وفقاً لـ NVIDIA، يحقق النموذج 57.5 على MMLongBench-Doc مقابل 38.

0 للنسخة السابقة و 65.8 على OCRBenchV2-En و 63.6 على استدلال CharXiv.

في مهام الواجهة الرسومية يظهر 47.4 على OSWorld مقابل 11.0 للنموذج السابق وفي الفيديو متعدد الأنماط — 72.

2 على Video-MME و 55.4 على WorldSense و 74.1 على DailyOmni.

بالنسبة للصوت يتم الإعلان عن 89.4 على VoiceBench و 5.95 WER على HF Open ASR حيث الأقل أفضل.

وليس أقل أهمية بالنسبة للمطورين التكلفة والسرعة. تكتب NVIDIA عن زيادة 7.4 أضعاف في كفاءة النظام في سيناريوهات متعددة الوثائق و 9.

2 أضعاف في حالات استخدام الفيديو مقارنة بنماذج متعددة الأنماط المفتوحة الأخرى بقابلية تفاعل مماثلة. تؤكد الشركة أيضًا على سرعة أعلى بمقدار 2.9 مرة للاستدلال بسيط التدفق في المهام متعددة الأنماط.

تم بالفعل نشر نقاط التفتيش على Hugging Face بتنسيقات BF16 و FP8 و NVFP4، لذا يمكن اختبار النموذج ليس فقط كإصدار بحثي بل أيضًا كأساس لخطوط الأنابيب التطبيقية.

ما معنى هذا

تتحرك NVIDIA بوضوح ليس نحو عرض توضيحي آخر في الواجهة، بل نحو سيناريوهات حقيقية للمؤسسات حيث تحتاج إلى قراءة المستندات الطويلة في نفس الوقت وفهم الصوت ورؤية الواجهة والحفاظ على سياق كبير دون زيادة حادة في التكلفة. إذا تم تأكيد المقاييس المعلنة في التكاملات الحقيقية، فإن Nemotron 3 Nano Omni سيكون مرشحًا قويًا بأوزان مفتوحة لـ AI للمستندات وفهم الفيديو ووكلاء computer-use.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 50 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تحتاج إلى ذكاء اصطناعي يعمل داخل شركتك — وليس فقط في موجز الأخبار؟

أبني ذكاءً اصطناعياً جاهزاً للإنتاج للشركات — أنظمة CRM مخصّصة، أدوات داخلية، وكلاء مستقلون، أتمتة سير العمل. ملك لك، مصمّم وفق عمليتك، دون رسوم لكل مستخدم. من إعداد جمال خميدون، مدير المنتجات في AlpinaGPT (منصة ذكاء اصطناعي، أكثر من 6000 مستخدم).

احجز استشارة مجانية →