مع استمرار فعاليات حدث ArabicNLP 2025، أشارك معكم دراسة جديدة من الدراسات اللافتة التي ساهمت في مهمة Iqra’Eval المشتركة. وهي تستعرض عملية ضبط دقيق (Fine-Tuning) لنماذج التعرف على الكلام حتى تصبح قادرةً على الكشف عن الأخطاء الفونيمية في التلاوة القرآنية.
تُقدم الدراسة نظامًا باسم Metapseud، وهو نظام قائم على نموذج Wav2Vec2.0 عمل عليه الباحث أيمن منصور من جامعة السودان للعلوم التكنولوجيا.
منهجية العمل
اعتمدت هذه الدراسة على إعادة توظيف نموذج Wav2Vec2.0-Large-XSLR-53-Arabic المخصص للغات المتعددة، وتحويله إلى نموذج قادر على التعرف على الفونيمات القرآنية بدقة. وذلك عبر استراتيجية تدريب متعددة المراحل (Multi-Stage Fine-Tuning) تدمج بين الضبط الدقيق على بيانات واسعة المجال مع البيانات المتخصصة التي توفرها Iqra’Eval:
الضبط الدقيق واسع المجال
في هذه المرحلة، يتعرض النموذج أولًا لمجموعة واسعة من التلاوات القرآنية المتنوعة عبر مجموعة بيانات Tarteel-ai-EA-DI التي تضم نحو 245 ألف مقطع. الهدف هو تمكين النموذج من التقاط أنماط التلاوة، والبنية الإيقاعية (prosody)، وتوزيعات الفونيمات؛ ليبدأ في التحول تدريجيًا من نموذج عام للتعرف على الكلام إلى نموذج متخصص يُركز على الفونيمات القرآنية
تركز هذه المرحلة على التنويع الواسع لأساليب التلاوة القرآنية والاختلافات الصوتية بين القراء ليتعلم النموذج البنية العامة للفونيمات القرآنية.
الضبط الدقيق المتخصص
بعد التدريب الواسع، تُجرى عملية تخصيص أدق للنموذج باستخدام مجموعة بيانات توفرها Iqra’Eval. والتي تتألف من 79 ساعة من التسجيلات الصوتية باللغة العربية الفصحى الحديثة، مدمجة مع تلاوات قرآنية تحتوي على ترميز فونيمي دقيق.
تهدف هذه المرحلة إلى مواءمة النموذج مع التوزيعات الفونيمية الخاصة بالقرآن، وتحسين قدرته على تمييز الخصائص الصوتية وسمات الفونيم الدقيقة اللازمة للتقييم الدقيق للنطق، ما يخفض معدل خطأ الفونيمات (PER) بشكل واضح.
النتائج والتوصيات
أظهر النموذج أداءً جيدًا في مرحلة التطوير الداخلي، حيث حقق معدل خطأ للفونيمات (PER) يبلغ 0.21 تقريبًا. وهو معدل منخفض نسبيًا يعكس قدرة النموذج على التعرف على الفونيمات بفاعلية. كما سجل النموذج دقة تصل إلى 82.31% تقريبًا، مع نسبة 42.36% على مقياس F1 لكشف الأخطاء.
تشير هذه النتائج إلى قدرة النموذج على اكتشاف نسبة معتبرة من الأخطاء الفونيمية بدقة. ما يجعله نموذجًا واعدًا يمكن صقله والاعتماد عليه في كشف أخطاء التلاوة على مستوى الفونيم. وفي رأيي، قد يستفيد النموذج من توسيع قاعدة المتحدثين وإضافة تلاوات من لهجات وخلفيات صوتية متنوعة لرفع قدرة النموذج على التعميم.
شاركونا رأيكم.