شهدت فاعلية ArabicNLP 2025 مهمة IslamicEval المشتركة، وهي أول مبادرة بحثية جماعية تُركز على تقييم أداء النماذج اللغوية في التعامل مع المحتوى الإسلامي، وقياس قدرة هذه النماذج على تجنب الهلوسة عند الاستشهاد بالقرآن الكريم أو الحديث النبوي.
تتكون المهمة من مسارين رئيسيين؛ الأول يركز على اكتشاف وتصحيح الهلوسة في الاقتباسات القرآنية والحديثية. والثاني يُقيم قدرة النماذج وأنظمة الاسترجاع على الإجابة عن الأسئلة القرآنية والحديثية بالاعتماد على مصادر موثوقة.
المهام البحثية
تتضمن مبادرة IslamicEval أربع مهام ضمن المسارين الرئيسيين:
المسار الأول: اكتشاف وتصحيح الهلوسة في الاقتباسات القرآنية والحديثية
- المهمة الأولى تتضمن تحديد مواضع الآيات والأحاديث داخل الاستجابة التي ينتجها النموذج، مع تقييم يعتمد على دقة الكشف عن المقاطع النصية.
- المهمة الثانية تتضمن التحقق من صحة النصوص المُكتشفة عبر مقارنتها بالمصادر الإسلامية المعتمدة.
- المهمة الثالثة تتضمن تصحيح الآيات أو الأحاديث الخاطئة بإعادتها إلى صورتها الكاملة الصحيحة وفق المصادر المشتركة.
المسار الثاني: تقييم قدرة النماذج على الإجابة على الأسئلة القرآنية والحديثية
- تتضمن المهمة نظام سؤال وجواب يعتمد على القرآن الكريم وصحيح البخاري، بهدف استرجاع المقاطع أو الأحاديث المرتبطة بالسؤال وترتيبها.
أبرز المشاركين
تجمع الورقة الرسمية التي نشرتها المهمة المشتركة قائمةً بالفرق البحثية التي شاركت في المهمة، مع ملخص موجز لما قدموه في كلا المسارين. وفيما يلي أبرز المشاركين:
فريق Burhan AI
قدّم أفضل أداء في المهمة الأولى من المسار الأول عبر ضبط نموذج gpt-4.1-mini للكشف عن مواضع الاقتباس مع تعزيزات شكلية وصرفية. وحقق نسبة 90.06% على مقياس F1، كما استخدم سلسلة تصحيح متعددة المراحل في بقية مهام المسار الأول بدقة بلغت 88.60% و66.56%.
فريق HUMAIN
بنى خط معالجة من ثلاث مراحل اعتمادًا على إطار TANL، وحقق نسبة 87.20% على مقياس F1 في المهمة الأولى من المسار الأول، مع دقة بنسبة 86.14% و 68.18% في بقية مهام المسار الأول.
فريق TCE
استخدم أسلوب few-shot prompting مع أحدث النماذج مثل Qwen-235B وGPT-4o لاكتشاف الاقتباسات القرآنية والحديثية. وهو أسلوب يعتمد على تضمين أمثلة دقيقة مع الأمر. في المهمة الأولى من المسار الأول، حقق الفريق 86.11% على مقياس F1، مع دقة بلغت 89.82% للمهمة الثانية من المسار نفسه، وهي النسبة الأعلى بهذه المهمة من بين الفرق المشاركة.
فريق Isnad AI
اقترح الفريق منظومةً لتحويل النصوص الإسلامية إلى بناء بيانات تدريب عالية الجودة، من خلال عمل قوالب سياقية من الآيات القرآنية والأحاديث.
تُبشر هذه المهمة ببدء استخدام تقنيات الذكاء الاصطناعي بقوة في التطبيقات والتقنيات القرآنية. ذلك لأن العائق الأكبر كان يتمثل في هلوسة النماذج وعدم قدرتها على تقديم حلول دقيقة تُلائم حساسية النصوص الدينية. ما رأيكم؟