قدمت StepFun نموذج Step 3.7 Flash على معالجات NVIDIA GPU للعمل متعدد الأنماط
أطلقت StepFun نموذج Step 3.7 Flash على معالجات NVIDIA GPU — وهو نموذج متعدد الأنماط يتضمن 198 مليار معامل. يعالج النصوص والصور والفيديوهات والمستندات في…
معالج بواسطة الذكاء الاصطناعي من NVIDIA Developer Blog؛ بتحرير Hamidun News
قدمت StepFun نموذج Step 3.7 Flash — وهو نموذج ذكاء اصطناعي متعدد الأنماط قادر على تحليل النصوص والصور والفيديوهات والمستندات في الوقت ذاته. يتوفر النموذج بالفعل على معالجات NVIDIA ومصمم للتطبيقات الشركاتية على نطاق واسع.
ما هو Step 3.7 Flash
Step 3.7 Flash هو نموذج لغة يتضمن 198 مليار معامل مع دعم متعدد الأنماط. على عكس النماذج النصية، فهو يستقبل عدة أنواع من البيانات المدخلة في الوقت ذاته: الاستعلامات النصية والصور عالية الدقة وتسلسلات الفيديو والمسوحات الضوئية للمستندات. يسمح هذا للتطبيقات بالعمل مع سيناريوهات الأعمال الحقيقية، حيث لا تأتي المعلومات في صيغة واحدة فقط. تم تدريب النموذج على معالجة هذه البيانات في الوقت الفعلي، دون الحاجة إلى معالجة مسبقة أو تحويل المدخلات. يعني التكامل مع البنية التحتية NVIDIA أن الشركات يمكنها استخدام مجموعات GPU الموجودة بالفعل دون الحاجة إلى الانتقال إلى أنظمة جديدة.
الإمكانيات متعددة الأنماط
يغطي Step 3.7 Flash السيناريوهات الشركاتية الرئيسية: • البحث عن طريق المحتوى البصري — يعثر على المعلومات المطلوبة في أرشيفات الصور والفيديوهات • تحليل المستندات — يستخرج البيانات من الجداول والعقود والتقارير والإيصالات • تحليل الفيديو — يفهم السياق ويستخرج التفاصيل من تسجيلات الكاميرات ومؤتمرات الفيديو • الاستعلامات الهجينة — يجيب على الأسئلة التي تتطلب مقارنة المعلومات من مصادر مختلفة
هذا النهج مفيد للشركات القانونية (تحليل العقود والمراسلات) والتصنيع (التحكم في الجودة عن طريق الفيديو) والطب (تحليل الصور والتقارير) والمالية (معالجة عدة مستندات).
التوسع والأداء
تؤكد StepFun أن Step 3.7 Flash ليس مشروع بحث، بل حل جاهز للإنتاج. تم تحسين النموذج لمعالجات NVIDIA GPU، بما في ذلك الهياكل المعمارية الجديدة. يعني هذا تأخيراً متوقعاً ودعماً لمعالجة الدفعات للأنظمة عالية الحمل وتوافقاً مضموناً مع البنية التحتية الشركاتية. يعتبر التوفر على معالجات NVIDIA حرجياً للشركات التي استثمرت بالفعل في مجموعات GPU. يمكنها إضافة خصائص متعددة الأنماط إلى التطبيقات الموجودة دون إعادة تدريب المهندسين أو إعادة كتابة خطوط الأنابيب.
ماذا يعني هذا؟
الانتقال من تحليل النصوص إلى متعددة الأنماط الكاملة في الذكاء الاصطناعي ليس مجرد إضافة ميزات، بل هو تغيير نموذجي. عندما ترى النموذج الشاشة كما يراها الإنسان (نص + صورة + فيديو في نفس الوقت)، تصبح تطبيقات جديدة ممكنة: أتمتة العمليات الروبوتية الذكية، وتحليل أحجام كبيرة من البيانات غير المنظمة، وأتمتة العمل مع المستندات على مستوى كان يتطلب الأشخاص سابقاً. يظهر Step 3.7 Flash أن هذا المستوى متاح الآن في شكل جاهز للإنتاج على البنية الأساسية القياسية.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.