أطلق معهد الابتكار التكنولوجي، التابع لمجلس أبحاث التكنولوجيا المتطورة في أبوظبي، نموذج «نور» (NOOR)، وهو أكبر نموذج لمعالجة اللغة العربية الطبيعية في العالم.

يتميز نموذج «نور» (NOOR) بالقدرة على تنفيذ مهام تتجاوز نطاق اللغة - ليقدم خطوط بيانات متكاملة عالية الجودة، بما فيها خوارزميات البحث و«ترشيح» العناوين والقوائم ومعالجة المحتوى على نطاق واسع.

شعبية قوية


قالت الدكتورة ابتسام المزروعي، مديرة وحدة الذكاء الاصطناعي في معهد الابتكار التكنولوجي «اكتسبت نماذج اللغات الكبيرة شعبية قوية في عالم معالجة اللغات الطبيعية. ويحتوي Noor على 10 مليارات من المعلمات، ما يجعل منه نموذج معالجة اللغة العربية الطبيعية الأقوى في العالم. تعدّ مجموعة البيانات العربية الكبيرة الفريدة من نوعها والتي تم جمعها لتدريب النموذج نتيجة عدة أشهر من العمل الشاق الذي تضمن معالجة واستكشاف وترشيح مجموعة متنوعة من المصادر».

ويمكن Noor من توسيع نطاق النموذج العربي القياسي الحديث مستفيدًا من المعرفة في مجال نماذج اللغات الكبيرة من أجل بناء خبرات متعددة التخصصات ومتطورة في هذا الجيل الجديد من أبحاث الذكاء الاصطناعي.

مليارات الكلمات

لمعالجة واختيار مجموعات البيانات العربية عالية الجودة عبر النطاقات الأكبر في العالم، تتولى مجموعة بيانات نموذج «نور» التي تضم أكثر من 30 مليار كلمة، دمج بيانات الويب مع الكتب والأشعار والمقالات الإخبارية والمعلومات التقنية لتوسيع نطاق تطبيق النموذج بشكل كبير.

وتمّ تحديث بنية النموذج لتعكس أحدث التطورات في عالم التعلّم الآلي، بما في ذلك التحسينات مثل التضمين الأفضل لخصائص الكلمات الدلالية. مع إمكانية تحديد النص ذي الصلة بالمراجع عالية الجودة، وحماية النموذج من التعرض للرسائل الإلكترونية غير المرغوب بها.

سبب التسمية

اختير اسم نور للنموذج وهو يعني انبعاث الضوء، في خطوة من شأنها أن تثبت ارتباط نموذج اللغة العربية بتنوير العقل.