IBM تطلق جيلًا جديدًا من نماذج التضمين متعددة اللغات: دقة عالية بحجم صغير وسياق طويل جدًا

في عالم التطبيقات الذكية، التحدي الأكبر الذي يواجه المطورين هو إيجاد نموذج تضمين يجمع بين الأداء العالي والدعم المتقن للغات المتعددة، دون أن يُضحي بحجم صغير يسمح بتشغيله على أجهزة محدودة. هذا التوازن ظل صعب المنال لفترة طويلة، لكن IBM قررت أن تقلص الفجوة بشكل ملحوظ.

أعلنت IBM عبر مدونة Hugging Face عن إصدار الجيل الثاني من نماذج التضمين متعددة اللغات Granite Embedding Multilingual R2، وتضم الإصدارات نموذجين مفتوحين بالكامل بموجب رخصة Apache 2.0. النموذج الأول يحمل اسم granite-embedding-311m-multilingual-r2 بحجم 311 مليون معامل، والثاني هو granite-embedding-97m-multilingual-r2 بحجم 97 مليون معامل فقط. ما يميز هذه النماذج ليس فقط ترخيصها التجاري الآمن، بل أداؤها اللافت في فئتها الحجمية.

أداء رائد تحت 100 مليون معامل

النموذج المصغر بحجم 97 مليون معامل يحقق نتيجة 60.3 على معيار MTEB Multilingual Retrieval عبر 18 لغة، وهي أعلى نتيجة مسجلة لأي نموذج تضمين مفتوح المصدر تحت 100 مليون معامل. أما النموذج كامل الحجم 311 مليون معامل فيسجل 65.2 على نفس المعيار، محتلًا المرتبة الثانية بين النماذج المفتوحة تحت 500 مليون معامل. هذه الأرقام تجعل كلا النموذجين خيارين جاذبين جدًا للمشاريع التي تحتاج إلى دقة عالية دون تكلفة حسابية باهظة.

سياق طويل جدًا لتطبيقات RAG المتقدمة

قفزة كبيرة أخرى حدثت في طول السياق المدعوم: من 512 رمزًا في الجيل السابق (R1) إلى 32,768 رمزًا في R2، أي بزيادة 64 ضعفًا. هذا يعني أن النماذج الجديدة قادرة على معالجة فقرات ضخمة من النص دفعة واحدة، وهو أمر حيوي لأنظمة التوليد المعزز بالاسترجاع (RAG) ومحركات البحث التي تتعامل مع مستندات طويلة أو حواريّات متعددة المراحل. على سبيل المثال، يمكن الآن تضمين مقالة كاملة في متجه واحد بدقة أعلى، بدلاً من تجزئتها القسرية.

دعم واسع للغات ولغات البرمجة

النموذجان يدعمان أكثر من 200 لغة في مرحلة الترميز المسبق، لكن الأهم أن 52 لغة منها حصلت على تدريب محسّن للاسترجاع ثنائي اللغة وعبر اللغات، ومن ضمنها العربية. تشمل القائمة أيضًا اللغات الشائعة مثل الإنجليزية والصينية والفرنسية والإسبانية والهندية والتركية وغيرها. إضافة إلى ذلك، تم تدريب النماذج على 9 لغات برمجة هي Python وGo وJava وJavaScript وPHP وRuby وSQL وC وC++، مع دعم الاسترجاع عبر اللغات البرمجية، مما يفتح الباب لتطبيقات البحث عن الأكواد في فرق دولية.

تكامل فوري مع أطر العمل الشائعة

سهولة التبني كانت أولوية واضحة لدى IBM. النماذج تعمل فورًا مع مكتبات sentence-transformers وtransformers دون الحاجة إلى تعليمات خاصة بالمهمة. كما يمكن استبدال نموذج التضمين الحالي في LangChain وLlamaIndex وHaystack وMilvus بتغيير اسم النموذج فقط بسطر واحد. هذا يعني أن أي تطبيق يعتمد حاليًا على نموذج إنجليزي فقط يمكنه الحصول على دعم 200+ لغة دون تغيير أي كود إضافي أو إضافة تبعيات جديدة.

النموذج الأكبر 311M يدعم أيضًا Matryoshka Embeddings، وهي تقنية تسمح بتقليص أبعاد المتجهات حسب الحاجة (مثل 768، 512، 256) مع الحفاظ على جودة الاسترجاع، مما يمنح المطورين مرونة في موازنة الدقة وسرعة التخزين.

جاهزية مؤسسية مدروسة

IBM صممت هذين النموذجين ليكونا جاهزين للاستخدام المؤسسي. تم التدريب على مزيج من البيانات المنسقة داخليًا مع مراجعة حوكمة دقيقة لفحص التراخيص والملكية ومخاطر البيانات الشخصية. النماذج تتجنب عمدًا استخدام مجموعة بيانات MS‑MARCO وأي مجموعات ذات تراخيص غير تجارية. كما تتوفر أوزان النماذج بصيغة ONNX وOpenVINO للاستدلال الفعّال على وحدات المعالجة المركزية (CPU)، مما يسهل نشرها في بيئات الإنتاج دون الحاجة لمسرعات خاصة.

الخلاصة العملية للمطور العربي

إذا كنت تعمل على تطبيق يعتمد على استرجاع المعلومات بلغة العربية أو أي من اللغات الـ52 المدعومة، وتحتاج إلى نموذج خفيف سريع وسهل التكامل، فإن granite-embedding-97m-multilingual-r2 هو خيار ممتاز يمكنك تجربته اليوم. أما إذا كنت تتعامل مع نصوص طويلة جدًا وتحتاج قمة الأداء ضمن الميزانية المتوسطة، فالنموذج 311M مع Matryoshka يوفر لك توازنًا قويًا. كلاهما مفتوح بالكامل (Apache 2.0) ومناسب للاستخدام التجاري.

التطبيقات والروابط الرسمية

روابط مذكورة في المصدر

المصدر: Hugging Face Blog