NVIDIA تطلق Nemotron-Labs Diffusion: توليد نصوص أسرع بـ6 أضعاف عبر نماذج الانتشار

نموذج لغوي جديد من NVIDIA يجمع بين التوليد التتابعي والتوليد المتوازي، مما يسرّع إنتاج النص حتى 6 أضعاف مع إمكانية مراجعة الأخطاء. متاح بحجم 8B و3B و14B برخصة تجارية مرنة.

لطالما عانى مطورو التطبيقات المعتمدة على النماذج اللغوية الكبيرة من بطء التوليد النصي التقليدي. النماذج التتابعية (Autoregressive) تولّد كلمة كلمة، وكل خطوة تحتاج تحميل كل الأوزان من الذاكرة قبل البدء بالحساب، مما يترك معظم قدرة المعالج الرسومي خاملة تنتظر نقل البيانات. اليوم، تأتي NVIDIA بحل مختلف يغير هذه المعادلة.

ما الذي تقدمه Nemotron-Labs Diffusion؟

هي عائلة جديدة من نماذج الانتشار اللغوي (Diffusion Language Models) تنتج عدة رموز (tokens) بالتوازي ثم تحسّنها تدريجياً عبر خطوات متكررة. الفكرة ليست فقط زيادة السرعة، بل تمكين النموذج من مراجعة الأخطاء التي قد تتراكم أثناء التوليد التتابعي. النماذج متاحة بأحجام 3 مليار و8 مليار و14 مليار معلمة، بالإضافة إلى نموذج رؤية-لغة بحجم 8 مليار. جميعها مرخصة تحت رخصة NVIDIA Nemotron المفتوحة للاستخدام التجاري، بينما نموذج الرؤية-لغة مرخص برخصة كود مصدري تسمح بمرونة بحثية واسعة.

ثلاث طرق توليد في نموذج واحد

صُمم Nemotron-Labs Diffusion ليجمع بين نمطين كانا منفصلين سابقاً: التوليد التتابعي والتوليد بالانتشار. يمكن للمطور اختيار طريقة التشغيل بسهولة عند النشر دون تغيير كود التطبيق:

الوضع التتابعي (Autoregressive): يعمل مثل أي نموذج لغوي تقليدي للحفاظ على التوافقية.
وضع الانتشار (Diffusion): يولد النص كتلاً متوازية ثم يحسّنها عبر خطوات متعددة.
وضع التخمين الذاتي (Self‑speculation): يستخدم الانتشار لصياغة رموز مرشحة ثم يتحقق منها التوليد التتابعي، ليجمع بين سرعة الانتشار وموثوقية التحقق.

هذه المرونة تسمح باختيار الوضع الأنسب حسب حساسية التطبيق لزمن الاستجابة وحجم الدفعة (batch size).

أداء يتحدث عن نفسه

وفقاً للنتائج المعلنة، يحقق النموذج بحجم 8 مليار دقة أفضل بنسبة 1.2% مقارنة بـ Qwen3 8B. أما في سرعة التوليد – مقاسة بعدد الرموز لكل تمريرة أمامية (TPF) – فإن وضع الانتشار يصل إلى 2.6 ضعف سرعة النماذج التتابعية التقليدية. وضع التخمين الذاتي يرفع الرقم إلى 6 أضعاف في حالته الخطية و6.4 أضعاف في حالته التربيعية، مع الحفاظ على دقة مماثلة عبر المهام المختبرة.

كيف تم تدريب هذه النماذج؟

اعتمد الفريق على طريقة حديثة تسمى Efficient‑DLM، تتيح تحويل نموذج تتابعي مُدرَّب مسبقاً إلى نموذج انتشار من خلال استمرار التدريب وتعديل آلية الانتباه (attention) لتعمل كتلاً (block‑wise). هذا التصميم يحافظ على قدرات النموذج الأصلي مع تمكين فك التشفير المتوازي الذي يستفيد من ذاكرة التخزين المؤقت (KV‑cache). الكود الكامل للتدريب متاح من خلال إطار NVIDIA Megatron Bridge.

ماذا يعني هذا للمطور العربي؟

إذا كنت تبني روبوت محادثة حساساً للوقت، أو أداة لتوليد الكود تحتاج ردوداً فورية، أو خدمة تعيد صياغة نصوص بسرعة، فهذه النماذج توفر تسريعاً ملموساً دون التضحية بالدقة. يمكنك تجربة النماذج فوراً عبر صفحتها على Hugging Face، والاطلاع على وصفات التدريب في مستودع GitHub الرسمي. ومع أن النموذج لا يزال جديداً ويحتاج اختباراً على مهام عربية، إلا أن البنية الأساسية تَعِد بتحسينات عملية للمطورين الذين يعملون بموارد محدودة أو أحجام دفعات صغيرة.

التطبيقات والروابط الرسمية

مجموعة نماذج Nemotron‑Labs Diffusion على Hugging Face: hf.co/collections/nvidia/nemotron-labs-diffusion
وصفة التدريب والكود على GitHub: github.com/NVIDIA-NeMo/Megatron-Bridge
التقرير التقني المفصل: bit.ly/Nemotron-Labs-Diffusion-Report

باختصار، لا تقدم NVIDIA مجرد نموذج أسرع، بل إطاراً عملياً لاختيار التوازن بين السرعة والدقة في وقت النشر. يبقى أن نرى كيف سيتفاعل المجتمع العربي مع هذه النماذج، ومدى استجابتها للغة العربية بشكل خاص – وهو اختبار حقيقي لتطبيقاتنا المحلية.

روابط مذكورة في المصدر

المصدر: Hugging Face Blog