لماذا تراهن شركات الذكاء الاصطناعي على «نماذج العالم»؟

نقاش حصري من MIT Technology Review يكشف كيف تسعى شركات AI لتجاوز حدود LLMs وبناء أنظمة تفهم العالم المادي. ما هي نماذج العالم ولماذا قد تغير كل شيء؟

تعمل نماذج اللغة الضخمة (LLMs) بشكل مذهل طالما بقي النقاش داخل النصوص. لكن الواقع الفيزيائي—بقوانينه، وأبعاده، وعلاقاته السببية—لا يزال لغزًا صعبًا أمام الذكاء الاصطناعي اليوم. في نقاش مغلق للمشتركين بثته MIT Technology Review في 21 مايو 2026، اجتمع رئيس التحرير Mat Honan، ومحرر الذكاء الاصطناعي Will Douglas Heaven، والمراسلة المتخصصة Grace Huckins للبحث في سؤال جوهري: هل يمكن للذكاء الاصطناعي أن يتعلم فهم العالم الحقيقي؟ الإجابة تدور حول ما يُعرف بـ نماذج العالم (World Models).

ما هي نماذج العالم؟

ببساطة، نماذج العالم هي محاولة لبناء تمثيل داخلي للبيئة المادية داخل نظام الذكاء الاصطناعي. بدلًا من أن تبقى النماذج عالقة في فضاء النصوص والرموز، تُدرَّب على التفاعل مع مسارات الحركة، الأصوات، الصور، وحتى الأحاسيس اللمسية. الهدف هو تمكين النموذج من توقع نتيجة فعل معين—مثل دفع كأس على طاولة—بدون الحاجة إلى تجربة فيزيائية في كل مرة. هذه الفكرة ليست جديدة تمامًا؛ فقد سبق أن طرحها العالم Yann LeCun برؤية جريئة، لكنها أصبحت الآن في صدارة النقاش التقني العالمي.

لماذا نماذج العالم الآن؟

شركات الذكاء الاصطناعي الكبرى تدرك جيدًا أن LLMs وحدها لا تكفي لقيادة الروبوتات، أو توجيه المركبات الذاتية، أو بناء أنظمة تفهم الأسباب الحقيقية وراء الظواهر. النماذج الحالية يمكنها كتابة قصيدة عن التفاحة، لكنها لا تفهم أن التفاحة ستسقط إذا تركتها. نقلة النوع في نماذج العالم قد تسد هذه الفجوة بتزويد AI بـ «غريزة فيزيائية» بدائية. المصادر التي نوقشت في الجلسة تشير إلى أن التطورات الأخيرة في التعلم العميق والبيانات الحسية المتنوعة جعلت بناء مثل هذه النماذج أكثر واقعية من أي وقت مضى.

ماذا يعني هذا للقارئ العادي؟

إذا نجحت نماذج العالم، فسوف نرى روبوتات تتكيف مع بيئات غير مألوفة دون إعادة برمجة، وأجهزة ذكية تفهم إشاراتنا غير اللفظية (مثل إشارة اليد لإطفاء الضوء)، وخدمات توصيل تدور في الأزقة الضيقة بثقة. أحد التقارير المرتبطة بالنقاش يوضح كيف أن لعبة Pokémon Go قد ساعدت روبوتات التوصيل في الحصول على رؤية دقيقة للعالم—مثال عملي على دمج نماذج العالم مع الواقع المادي. لكن الطريق لا يزال طويلًا: التكاليف الحسابية هائلة، والبيانات المطلوبة للتعلّم الفيزيائي أغلى بكثير من النصوص، والنماذج الحالية لا تزال تظهر أخطاء طفولية عند مواجهة مواقف جديدة كليًا.

التحديات التي لم تُحل بعد

النقاش لم يخفي الصعوبات. نماذج العالم تحتاج إلى فهم مستمر للسببية—وهو ما تفتقر إليه معظم الشبكات العصبية الحالية. أيضًا، قد تتفوق النماذج في بيئة محاكاة لكنها تفشل في العالم الحقيقي بسبب فروق دقيقة في الإضاءة أو الملمس. أشار المحررون إلى أن هذه النماذج ستظل لفترة قصيرة حكرًا على المختبرات والشركات ذات الموارد الضخمة، قبل أن تبدأ بالانحدار نحو التطبيقات التجارية خلال السنوات القليلة القادمة.

خلاصة عملية

نماذج العالم ليست خيالًا علميًا، لكنها ليست أيضًا جاهزة للاستخدام المنزلي غدًا. للمطورين والباحثين العرب: هذا هو الوقت المناسب لمتابعة الأوراق البحثية من معهد MIT وStanford، والتركيز على دمج البيانات الحسية المتعددة (بصرية، صوتية، لمسية) في أنظمتهم. للمستخدم العادي: توقعوا تحسنًا تدريجيًا في المساعدات الصوتية والروبوتات الخدمية خلال السنوات الثلاث المقبلة. الأهم—كما خلص النقاش—أن الذكاء الاصطناعي لن يفهم العالم حقًا حتى يتعلم كيف يخطو خارج النص.

للمزيد: يمكنكم الاطلاع على تسجيل الجلسة الحصرية للمشتركين في MIT Technology Review، بالإضافة إلى المقالات المرتبطة مثل 10 Things That Matter in AI Right Now: World Models.

روابط مذكورة في المصدر

المصدر: MIT Technology Review