انطلقت فعاليات مهمة Iqra’Eval المشتركة في مؤتمر ArabicNLP 2025 في مدينة سوجو الصينية. وهي مهمة بحثية تهدف إلى تقديم أول معيار دولي لتقويم النطق القرآني. وقد شارك العديد من الفرق البحثية في المهمة بدراسات تهدف إلى تسخير تقنيات الذكاء الاصطناعي في تطبيقات تلاوة القرآن.
أستعرض لكم هنا واحدة من أبرز الدراسات؛ وهي تجربة للفريق السعودي ANPLers من جامعة الأمير سلطان. قدم الفريق نموذجًا قائمًا على إعادة توظيف Whisper-large-v3 لتحويل الصوت مباشرة إلى سلسلة فونيمات (Speech-to-Phoneme – STP)، بهدف كشف الأخطاء الفونيمية في التلاوة.
الدراسة نُشرت ضمن أوراق ArabicNLP، وتتضمن نهجًا مختلفًا عما قدمته بقية الفرق المساهمة. فبدلًا من تدريب نموذج جديد من الصفر، أو الاعتماد على Wav2Vec2 وHuBERT كما فعلت فرق أخرى. اختار الباحثون نموذج Whisper-large-v3 الذي يُعد أحد أقوى نماذج تحويل الكلام إلى نص.
بدأ الفريق بتدريب النموذج على مجموعات البيانات التي أتاحتها Iqra'Eval في تجربة لتحويله إلى «محلل فونيمي» بدلًا من كونه «مُفرّغ نصي»، ثم شاركوا في الورقة البحثية نتائج هذه التجربة والتوصيات التي استنتجوها. فيما يلي أعضاء الفريق البحثي الذي عمل على الدراسة:
مجتمع نماء (NAMAA Community) بالرياض:
جامعة الأمير سلطان بالرياض:
مركز البحث والتطوير - أكاديمية طويق بالرياض:
البيانات المستخدمة في التدريب
اعتمد الفريق على بيانات Iqra’Eval الرسمية، وهي تتضمن 73,990 مقطعًا صوتيًا بإجمالي 82.4 ساعة تدريب. كما عدلوا على نموذج Whisper-large-v3 عبر حقن 68 فونيم عربي مع تعديلات أخرى ليستوعب هذه الرموز الجديدة. وجرى التدريب باستخدام 3 بطاقات GPU فقط من نوع A100 بمساحة 80GB.
النتائج والتوصيات
حقق النموذج المُعدل في التجربة استرجاعًا مرتفعًا (0.7624)، ما يُظهر قدرته على التقاط معظم الأخطاء. ومع ذلك، كانت الدقة منخفضة حتى (0.2045)، وهو ما يُشير إلى ميل النموذج لتصنيف كثير من النطق السليم على أنه خاطئ.
يرى الباحثون أن السبب قد يتمثل في القيود الحاسوبية التي منعتهم من تدريب النموذج لكم أكبر من البيانات. وتوصي الدراسة باتجاهات بحثية مستقبلية أبرزها تجربة نماذج مبنية على معمارية encoder–decoder المتخصصة في كشف الأخطاء الفونيمية، واستكشاف نماذج Nvidia Conformer CTC العربية التي أثبتت أداءً قويًا في مهام التعرف على الكلام.
ولذا فإن تجربة فريق ANPLers تُظهر لنا مسارات جديدة قد تُسهم في بناء أنظمة أكثر موثوقية لتحسين تقويم التلاوة القرآنية وإلهام أفكار جديدة في مجال اكتشاف أخطاء النطق. ما رأيكم؟