Thinking Machines تطور AI يتحدث ويستمع في الوقت نفسه
تعمل Thinking Machines على AI يستمع ويرد في الوقت نفسه، كما في مكالمة هاتفية. النماذج التقليدية تعمل بشكل تسلسلي: تعالج أولًا كامل المدخلات، ثم تولد كامل الاستج

الآن، كل نموذج ذكاء اصطناعي يعمل وفقاً لمبدأ واحد: أنت تكتب، والنموذج يستمع. تنتظر، والنموذج يرد. تحاول Thinking Machines تغيير ذلك بإنشاء معمارية تعالج رسالتك وتولّد ردّاً في نفس الوقت — مثل محادثة هاتفية عادية.
مشكلة النهج الحالي
جميع نماذج اللغة الحديثة — من ChatGPT إلى Claude — تعمل وفقاً لمبدأ الطلب والرد. تُرسل رسالة كاملة، والنموذج يعالجها بالكامل، ثم ينتج ردّاً كاملاً. هذا يخلق شعوراً بأنك تتحدث مع روبوت وليس مع إنسان.
في المحادثة الحقيقية، الأمر مختلف. الناس يستمعون بينما يولّدون ردّاً. يمكنك أن تقاطع شخصاً ما، توضح تفصيلاً، تضيف سياقاً — وسيرد على الفور، دون البدء من جديد. لا أحد ينتظر حتى ينهي الآخر خطابه كاملاً لإعادة التفكير تماماً في الرد.
هذا يخلق تدفقاً طبيعياً وعضوياً للحوار. النهج الحالي للذكاء الاصطناعي يضع حداً صارماً: إدخال مكتمل → معالجة → إخراج مكتمل. لا مرونة، لا تكيف خلال العملية، لا شعور بالاتصال ثنائي الاتجاه.
ما تفعله Thinking Machines
تطور الشركة الناشئة نموذجاً يعالج تدفق الإدخال في الوقت الفعلي وفي نفس الوقت يولّد تدفق إخراج. بدلاً من انتظار الإدخال الكامل، يبدأ النظام في الرد بينما يستقبل معلومات من المستخدم. يفتح هذا عدة إمكانيات جديدة بشكل أساسي:
- الاستماع أثناء الرد — الاستجابة للبيانات الجديدة دون إعادة تحميل السياق
- المقاطعات الطبيعية — المقاطعة، كما هو الحال في حوار مباشر بين الناس
- التكيف بالنبرة — تغيير النبرة استجابة للإشارات الصوتية في الوقت الفعلي
- الإشارات غير اللفظية — الأخذ بعين الاعتبار الإيماءات والتعبيرات الوجهية في محادثات الفيديو
- الكمون الأدنى — عدم وجود فترات توقف بين التبادلات
بالنسبة للمساعدات الصوتية، هذا حاسم. عندما تتصل بمركز اتصال أو تطلب سيارة أجرة بالصوت، لا تريد أن تنتظر 3–5 ثوانٍ للمعالجة. تتحدث — المساعد يسمع ويرد فوراً، مثل إنسان.
تعقيد المعمارية للمشكلة
المعالجة المتزامنة للإدخال وتوليد الإخراج هي إعادة معمارية عميقة. المحولات، التي يُبنى عليها كل نموذج لغة حديث تقريباً، صُممت للعمل بشكل متسلسل: اقرأ السياق كاملاً، وليّد الرموز واحداً تلو الآخر. تغيير هذا المبدأ الأساسي يعني إعادة كتابة آليات الانتباه والتخزين المؤقت والتنبؤ.
تحتاج إلى الحفاظ على سياق متزايد من تدفق الإدخال مع توليد الإخراج في نفس الوقت، دون فقدان التماسك والمنطق في الرد. التحديات العملية ليست أقل خطورة: جودة الرد (ألا تصبح متسرعة وغير مكتملة؟)، الكمون (يلزم كمون أدنى لكي يبدو طبيعياً)، إدارة الذاكرة لتدفقات متزايدة. كيف تحافظ على خيط الحوار إذا كان الرد يعمل بالتوازي مع الإدخال؟ كيف لا تفقد تفصيلاً في نهاية الرسالة إذا بدأت بالفعل في الرد على البداية؟
ماذا يعني هذا
إذا نجح هذا النهج، فسيتوقف الحوار مع الذكاء الاصطناعي عن الشعور بأنه تفاعل مع نظام. سيكون حواراً — محادثة حقيقية، بدون شعور بالصلابة والتأخير، أقرب إلى التواصل البشري.
بالنسبة للمساعدات الصوتية وروبوتات الدردشة وخاصة مراكز الاتصال، هذا تحسين حاسم. اتصل العميل — المساعد يسمع فوراً ويرد، يمكنه أن يقاطع للتوضيح، يكيّف الرد بناءً على معلومات جديدة. هذا سيزيد من الرضا وسرعة حل المشاكل عدة مرات.