شارك في المهمة البحثية المشتركة Iqra’Eval أكثر من 40 فريق بحثي؛ حصل على المركز الأول الفريق المصري BAIC، الذي قدم دراسة تهدف إلى بناء نظام Speech-to-Phonemes مخصص للغة العربية. يعمل على تحويل التلاوات الصوتية القرآنية إلى تسلسل فونيمي دقيق يمكن بواسطته اكتشاف أخطاء النطق وتشخيصها على مستوى الوحدة الصوتية (الفونيم). يتكون الفريق من ثلاثة باحثين:
- بسام مطر– جامعة الإسكندرية.
- محمد فايد – مركز الابتكار التطبيقي (AIC) وباحث زائر في Georgia Institute of Technology.
- أيمن خلف الله – مركز الابتكار التطبيقي (AIC).
آلية العمل
اعتمد النظام على استراتيجية تدريب من مرحلتين لتطوير نموذج صوتي-لغوي قادر على فهم النطق العربي بأدق تفاصيله.
المرحلة الأولى
بدأ الفريق من بإعادة تدريب نموذج Wav2Vec-BERT 2.0 على بيانات عربية واسعة تجاوزت 1800 ساعة صوتية، وهو نموذج صوتي متطور يُدرب ذاتيًا على فهم الموجات الصوتية.
وحول الفريق النصوص المرافقة لهذه البيانات إلى فونيمات عربية معيارية باستخدام أداة MSA-Phonetiser التي طورها فريق Iqra’Eval، ما مكّن النموذج من تحديد الخصائص الدقيقة للأصوات العربية في التجويد كالإطباق والتفخيم والهمز والمد.
المرحلة الثانية
خُصص النموذج لبيانات التلاوة القرآنية ضمن مجموعة QuranMB.v2، مع إدخال بيانات صناعية مولدة آليًا لزيادة التنوع الصوتي.
ولتحقيق ذلك:
- استُخدمت خوارزمية لإحداث ضوضاء نصية في الآيات القرآنية تمثل أخطاء بشرية حقيقية
- حُولت النصوص المعدلة إلى صوت باستخدام نموذج XTTS-v2، ما أتاح توليد تسجيلات جديدة لقراء افتراضيين بأداء متباين
نتج عن ذلك أكثر من 60 ساعة إضافية من التسجيلات الصوتية التي تعزز قدرة النموذج على التمييز بين النطق السليم والخاطئ. كذلك أُجري تحليل إحصائي لتوزيع الفونيمات في بيانات التدريب والتلاوة، وكشف التحليل عن فروقٍ واضحة في الفونيمات الطويلة (aa، ii، uu) الناتجة عن خصائص الأداء القرآني كالمدّ والتجويد، ما أكّد أهمية تكييف النموذج ليتوافق مع الطبيعة الصوتية الخاصة للتلاوة القرآنية.
النتائج
أظهرت نتائج التقييم على مقياس Iqra’Eval Benchmark أن النموذج حقق أداءً هو الأعلى بين جميع المشاركات بالمهمة. ومكّنت هذه النتائج نظام AraS2P من احتلال المركز الأول على لوحة التقييم النهائية لمبادرة Iqra’Eval 2025. كما أظهرت التحليلات النوعية أن النموذج أصبح أكثر قدرة على تمييز الفونيمات المرتبطة بالتشكيل والتشديد والمدّ، وهي عناصر جوهرية في سلامة التلاوة.
ولذا؛ فإن هذا النظام الواعد يمكن استخدامه في التطبيقات القرآنية التي تهتم بتسخير الذكاء الاصطناعي في الجوانب الصوتية العربية والتلاوات القرآنية. ما رأيكم؟