مرحبا مجتمع إتقان المميز، كنت قد تحدثت سابقا عن بعض التحديات التي تواجه التعرف الصوتي على القرآن الكريم، فرأيت اليوم أن أفتح بابًا للنقاش حول كيفية جمع التسجيلات لتخطي ما كان من مشكلات في التعرف الصوتي نتيجة نقص التسجيلات، إذ يُعد جمع تسجيلات صوتية للقرآن الكريم أمرًا بالغ الأهمية عند تدريب نماذج الذكاء الاصطناعي، وبخاصة نماذج تحليل الصوت، أو التعرف على الكلام، أو تصحيح التجويد.
أسباب الحاجة إلى تنوع ودقة التسجيلات الصوتية
1. ضمان صحة النطق والتجويد: يجب أن تكون التسجيلات لقرَّاء ذوي دقة وإتقان لأحكام التجويد: كالمَد، والغنة، والإدغام، والإخفاء... وغيرها. حيث تساعد هذه الدقة النموذج على تمييز الأخطاء وتصحيحها بكفاءة فيما بعد.
2. تقليل التحيّز: غالبية التسجيلات الشائعة متوفّرة بصوت قرّاء رجال متمكنين من الأحكام ومخارج الحروف، الأمر الذي يضيّق قدرة النماذج على التعرّف على أصوات النساء، أو الأطفال، أو المبتدئين.
3. تعزيز فعالية النموذج في مهام تعليم القرآن لمختلف الجنسيات: تعد المجموعة الصوتية المتنوعة جغرافيًّا ضرورية لبناء نماذج يمكنها فهم وتقييم أداء متعلّمي التجويد من مختلف الجنسيات واللهجات.
ما هي الموارد المتاحة التي يمكن الاعتماد عليها حاليًا؟
قاعدة البيانات Quran Recitations Dataset على (Hugging Face)
Quran Recitations: هو اسم لقاعدة بيانات (Dataset) متوفرة على منصة Hugging Face، تُركّز على قراءات أو تلاوات القرآن الكريم، إذ تجمع بين نصوص آيات القرآن والملفات الصوتية لتلاوتها من قُرّاء (Qāri’ / Reciters) معروفين.

QDAT مجموعة صوتية متنوعة[2]
QDAT أو Quran Data set for Audio of recitation هي مجموعة ملفات صوتية لتلاوة القرآن الكريم، تم جمعها بهدف بناء بيانات لتقييم تلاوة القرآن من حيث النطق والتجويد. أعدّها باحثون من جامعة الموصل بالعراق. تحتوي على نحو 1500 ملف صوتي لتلاوة القرآن الكريم ( 350 مقطعًا للذكور، 1159 مقطعًا للإناث) جُمعت من أكثر من 150 قارئًا، ثم تم تقييمها وتصنيفها يدوياً من قبل خبراء التجويد.
ومن أهم مزاياها:
· التقييم اليدوي من قبل خبراء التجويد مما يجعلها مناسبة لاختبارات دقيقة حول النطق وقواعد التجويد.
· توفِّر وسمًا دقيقًا لكل من القواعد التجويدية الثلاث الرئيسية (المدّ والغنَة والإخفاء)، بالإضافة إلى تقييم إجمالي للتلاوة، مما يسمح ببناء نماذج متعددة الطبقات (مثلاً نموذج لتقييم المد، وآخر للإخفاء، وآخر للنطق العام).

التجميع عبر التصنيف العميق (DNN و EfficientNet)
استُخدمت في تصنيف تطبيق قواعد التجويد بدقة تصل إلى 95–99% باستخدام QDAT كمجموعة تدريب.
النماذج المستخدمة
· DNN (Deep Neural Network): استخدمت بهدف تصنيف التلاوة حسب صحة تطبيق القاعدة التجويدية وهي شبكة عصبية عميقة متعددة الطبقات، استخدمت بعد استخراج ميزات صوتية (مثل MFCC – Mel-Frequency Cepstral Coefficients) من التسجيلات.
· وكذلك EfficientNet: وهي شبكة عميقة حديثة تُستخدم بالأساس في تصنيف الصور، لكن هنا الباحثين حوّلوا الإشارات الصوتية إلى Spectrograms (صور طيفية للصوت). ثم مرروها إلى EfficientNet لتتعلم الأنماط الصوتية المرتبطة بقواعد التجويد.
النتائج: عند تدريب هذه النماذج على بيانات QDAT:
تم الوصول إلى دقة تتراوح بين 95% – 99% في تصنيف القواعد الثلاث: المد والغنة والإخفاء. هذه النتيجة تُظهر أن التعلم العميق قادر على التعرف وبدقة على صحة تطبيق قواعد التجويد إذا ما وفرنا له بيانات موسومة جيدًا.
نماذج LSTM لاكتشاف الأخطاء
LSTM (Long Short-Term Memory) نوع من الشبكات العصبية المتقدمة (RNN – Recurrent Neural Networks) قادرة على تعلّم الأنماط المتتابعة (Sequences) مثل الصوت، والكلام، والنصوص. لذلك أرى أن هذه الطريقة مثالية لمعالجة تلاوة القرآن لأن التلاوة القرآنية عبارة عن تسلسل زمني للأصوات (حروف + حركات + مدود + غنّة …).
فيمكنه اكتشاف الخطأ في التوقيت من زيادة أو نقصان، فمثلًا:
- المد: قارئ لم يمد بمقدار صحيح.
- الغنّة: قلل أو حذف الغنّة.
- الإخفاء: نطق النون الساكنة، أو التنوين بوضوح زائد أو إدغام كامل بدل الإخفاء.
وحسب الورقة البحثية لـ Qdata فالنماذج المبنية على LSTM حققت نتائج دقتها أقل قليلًا من EfficientNet في التصنيف (95% الى 96%). ورغم ذلك أراها مفيدة جدًا لأنها تتابع الصوت لحظة بلحظة وتكشف الأخطاء داخل التسلسل، وليس فقط تصنيف عام.
فتطبيقيًا: يمكن استخدامها في تطبيقات تعليم التجويد بحيث يُظهر النظام للطالب الموضع الذي أخطأ فيه بالضبط، وليس مجرد "صح/خطأ".
مشروع Crowdsourced Quranic Audio Dataset
وهذا مشروع يتغلب على تحدي قلة الموارد المالية، حيث يهدف إلى بناء مجموعة صوتية من تلاوات القرآن عن طريق المشاركة الجماهيرية (Crowdsourcing) لغير العرب.
وآلية عمل هذا المشروع:
- أن يستمع أولًا لتلاوة قارئ محترف
- ثم يسجّل تلاوته الخاصة
- وبعدها يقارنها مع التلاوة المثالية
- وأخيرا يقرر ما إذا كان يريد أن يُشارك التسجيل للمُراجعة اللاحقة.
وصراحة أميل لفكرة المشاركة المجتمعية لما تزودنا به من تنوع وشمول يصعب الحصول عليه بحثيا، فيمكن لطفل أن يسجل وشاب وشيخ وامرأة وفتاة... هذا التنوع هو ما يكسب المشروع قوته.
يعرض الشكل الآتي واجهة NamazApp، ويوضح آلية عرض الآية المطلوبة من القرآن للمستخدم، كما يتيح له الاستماع إلى التلاوة من قِبل قارئ محترف (Qari)

أما في هذا الشكل Backend Architecture، فيوضح كيف تُخزن التسجيلات لدى المستخدم وكيف تُرسل إلى الخادم (السيرفر).

واعتمد الباحثون على فرضيتين:
- المتعلّمين المبتدئين خاصة من غير الناطقين بالعربية سيكونون على استعداد لتسجيل ومشاركة تلاواتهم.
- أما القُرّاء المتقنين للتجويد (proficient reciters) سيكونون على استعداد للمشاركة في تصنيف أو تقييم هذه التلاوات وتحديد ما إذا كانت صحيحة أو فيها أخطاء.
النتائج
· تم جمع ما يقارب 7000 تلاوة من المشاركين، وتم اختيار 1166 تلاوة لتُوسم فعليًا ضمن فئات معينة من التصنيف.
· دقة التصويت الجماهيري على القراءات (Crowd Accuracy) تم تقديرها بـ 0.77، مما يعني أن التصنيفات الجماهيرية كانت صحيحة في 77٪ من الوقت.
· الاتفاق بين المقيّمين (Inter-rater Agreement)، أي مدى التوافق بين آراء المقيمين أو المراجعين، بلغ 0.63، وهو مؤشر متوسط للتوافق بين المقيمين.
· أما الاتساق بين التصنيفات الآلية (Algorithmic Labels) وتصنيفات خبراء التجويد، فبلغ حوالي 0.89، مما يشير إلى أن التصنيفات التي أنتجها النظام كانت متوافقة بدرجة كبيرة مع تقييمات الخبراء.
خطوات مقترحة لجمع تسجيلات صوتية ناجحة وموثوقة
من خلال متابعة بعض المشاريع البحثية في مجال البيانات الصوتية، يمكننا تحديد مجموعة من الخطوات العملية التي تضمن جودة وموثوقية التسجيلات القرآنية، بدءًا من جمع البيانات وحتى الاستفادة منها في تطبيقات الذكاء الاصطناعي.
أ. تصميم استراتيجية جمع البيانات
وهنا الهدف هو وضع خطة واضحة تحدد مصادر التسجيلات، وآلية المشاركة، وطريقة دمجها وتنظيمها.
- اعتماد نهج المشاركة المجتمعية كمصدر crowdsourcing ذكي
دمج جميع البيانات داخل تطبيق تعليمي مثل NamazApp، مثلما ذكرت الورقة البحثية لمشروع Crowdsourced Quranic Audio Dataset بحيث يسجّل المستخدم قراءة آيات معينة ويعبّر عن تزامن الصوت والنص. وأيضا نظرا لما يتيحه من اختلاف في المشاركين وتنوع ألسنتهم ولهجاتهم.
عن طريق تحديد معلومات المسجِّل والمراجع مثل (العمر، الجنس، الخلفية اللغوية)، والسياق التقني (نوع الميكروفون، البيئة)، وهذا يدعم التحليل لاحقًا.
ب. التحقق والتصنيف (Annotation)
هو مصطلح واسع يعبر عن ترميز الصوت وإعادة وصفه بما يفهمه الذكاء الاصطناعي أو الكمبيوتر، فيراعي الزمان والموضع، فلو سمع "بسم" "في "بسم الله الرحمن الرحيم" سيكتب
[b] [i] [s] [m] [i] ولن يكتفي بوصف النطق بل سيضيف له تعليقات وشرح فمثلًا هنا يقول "بسم" قرأناها بالكسر في آخرها للالتقاء ساكنين واسم الجلالة "الله" قرأنا اللام مرققة لأنه سبقها ساكن…
وهكذا لو وصف آية أخرى يضيف مثلا هناك إدغام في موضع كذا وهنا مد طبيعي مدته حركتان…
- المراجعة البشرية المعتمدة (Expert Review)
ليقوم قرّاء محترفون بتقييم صحة تطبيق قواعد التجويد لكل تسجيل، ثم يتم حساب نسبة توافق بين المصنّفين (مثل inter rater agreement – ICC).
- الاستخدام الجزئي للذكاء الاصطناعي
تحليل أولي للتسجيل باستخدام أدوات مثل Google Speech to Text لمطابقة النص الصوتي مع الآية المنشودة، واستخدام محرك بحث قرآني مثل تقنية البحث القرآني المتقدمة من إتقان للتحقق من مطابقة المحتوى.
ج. بناء مجموعة صوتية متوازنة وموثوقة
وفي هذه الخطوة نقوم بإنشاء قاعدة بيانات متنوعة وذات جودة عالية. ويشمل ذلك دمج تسجيلات قراء محترفين مع مبتدئين لتحقيق توازن، مع التركيز على جمع أمثلة لأحكام التجويد الصحيحة والخاطئة معًا، حتى يتمكن الذكاء الاصطناعي من التمييز بينهما بكفاءة، ولأجل ذلك نحتاج إلى:
- دمج تسجيلات احترافية مع مبتدئة
مثلا مجموعة Quran Recitations تضم قرّاء متمرّسين، تُساعد في بناء إطار احترافي، بينما QDAT تضيف بعدًا تنوّعيًا مهمًا.
- تركيز على أحكام التجويد الأساسية
مثل المَد، الغنة، الإدغام، الإخفاء، وغيرها، مع تكرار لكل حكم بصيغ صحيحة وأخرى خاطئة، فنجمع قاعدة بيانات تضم قراءات فيها أخطاء في تطبيق الحكم وقراءات أخرى صحيحة؛ لضمان قدرة النموذج على التمييز بكفاءة.
د. الاستفادة في تطبيقات الذكاء الاصطناعي
ونهدف هنا إلى تحويل البيانات إلى أدوات عملية نافعة. عن طريق:
مثل EfficientNet أو LSTM لاكتشاف الأخطاء في التجويد مع دقة عالية.
- تصنيف النموذج بحسب المتحدث
لتقديم توصيات صوتية أو تصحيحية بناءً على الجنس، أو العمر، أو مستوى التحديد الصوتي.
بهذا أكون قد وضحت كيف يتم جمع تسجيلات صوتية للقرآن الكريم مناسبة لتدريب نماذج الذكاء الصناعي، لكن ورغم كل ما ذكرت، تجدر الإشارة إلى أنه ما زالت هناك تحديات تتحتاج للتعامل معها بحذر وبأفكار أحدث، وما زال الباب مفتوحًا بفرص سبق لمن أراد إثراء المكتبة التقنية الإسلامية بمجهوده ومشاركته، ويمكن العودة لموضوع: التحديات الفريدة للتعرف الصوتي على القرآن الكريم بالذكاء الاصطناعي للتعرف عليها هذه التحديات بالتفصيل.
وفي النهاية أتساءل معكم: ما هي أفضل طريقة برأيكم لجمع تسجيلات قرآنية تخدم الذكاء الاصطناعي؟ هل بالمبادرات التقنية، أم بالمشاركة المجتمعية؟ أم بمزيج بينهما؟ أحب أن أطلع على آرائكم وتجاربكم، فقد تكون مساهمتكم هي الشرارة التي تُثري هذا المجال وتفتح له آفاقًا جديدة.
[1] Datasets: MohamedRashad Quran-Recitations
[2] QDAT: A data set for Reciting the Quran
[3] Quranic Audio Dataset: Crowdsourced and Labeled Recitation from Non-Arabic Speakers