مع التقدم الكبير في تقنيات الذكاء الاصطناعي والتعلم العميق، أصبح من الممكن تطوير تطبيقات متقدمة للتعرف الصوتي على النصوص العربية، ومنها التلاوة القرآنية؛ مما يفتح آفاقًا واسعة في مجالات مثل: تعليم التلاوة، وتصحيح أخطاء التجويد، وتسهيل الوصول إلى المصحف للمكفوفين، وحتى البحث الصوتي في آيات القرآن.
لكن بناء مثل تلك النماذج لا يعتمد فقط على الخوارزميات القوية، بل يحتاج وبالدرجة الأولى إلى بيانات صوتية عالية الجودة، تشمل تسجيلات لتلاوات مختلفة، مع نصوص دقيقة مشكّلة ومزامنة مع الصوت. وهنا تبرز أهمية قواعد البيانات الصوتية المفتوحة للقرآن الكريم، التي تمكّن الباحثين والمطورين من تدريب نماذج فعّالة دون الحاجة إلى بناء مجموعة بيانات من الصفر.
نظرة عامة على مجموعات بيانات مفتوحة مرتبطة بالقرآن
دعونا نلقي نظرة على بعضٍ من تلك المجموعات البيانية مفتوحة المصدر والمرتبطة بشكل خاص بالقرآن الكريم
1- واجهات برمجة التطبيقات APIs ومجموعات البيانات القرآنية من Quran.Foundation
هي مجموعة من واجهات برمجة التطبيقات APIs من Quran.Foundation، وهي الجهة التي تدير موقع Quran.com وغيره من المشاريع القرآنية.
تُستخدم للوصول إلى محتوى القرآن الكريم برمجيًا، مثل:
التلاوات الصوتية recitations: يمكنك الحصول على تسجيلات لتلاوات لآيات، أو سور، أو أجزاء، أو من قرّاء معينين.
النص القرآني وما يحويه من: آيات، وسور، وأجزاء، ونصوص مكتوبة بالخط عثماني مع التشكيل والترجمات.

النسخة الحالية من المحتوى API هي v4.0.0. ويجب التنبيه إلى أنه يُطلب منك تعطيل الترجمة التلقائية في المتصفح عند عرض محتوى الترجمات لكي لا تحدث أخطاء دلالية.
الاستخدام خاضع لشروط المنصة Terms of Service
رغم أن الكود مفتوح، إلا أنّ الوصول إلى المحتوى نفسه (النص القرآني، والتراجم، والتلاوات، والتفاسير) ليس مطلقًا بلا شروط. إذ يجب أخذ API Key ومصادقة (OAuth2) أي أنهم يستطيعون تحديد:
هذا الشرط يعني أن المؤسسة ترغب في مراقبة طرق الاستخدام، وحماية المحتوى من إعادة التوزيع غير المنضبط، أو إساءة الاستغلال.
كذلك، النص القرآني نفسه محفوظ بحكم قدسيته، لكن الترجمات والتفاسير قد تخضع لحقوق ملكية فكرية أو تراخيص محددة تختلف من لغة إلى أخرى.
إذن، الكود مفتوح لكن المحتوى يخضع لإشراف وضبط حتى لا يُستغل خارج سياقه الشرعي أو العلمي.
مميزاتها الفريدة
تنوع التلاوات حسب القارئ
إمكانية الحصول على التسجيل الصوتي لآية أو سورة أو حتى جزء
مزامنة الصوت مع النص أو توفير روابط الصوت + النص في نفس نقطة النهاية الـ endpoint
محتوى API مدعوم بطريقة آمنة ومنظمة
إمكانية الوصول إلى بيانات مفيدة مثل durations، وتنسيق الملف، وأحيانًا تقسيمات صوتية segments)
2- تلاوات القرآن من Hugging Face (بواسطة Mohamed Rashad)
وهي مجموعة تسجيلات صوتية لآيات القرآن مصحوبة بالنص الكامل المُشكّل أو ما يعرف بـ diacritized، ومن عدد من القرّاء المعروفين لذا فهي ممتازة لتدريب نماذج تحويل الكلام إلى نص على القرآن، وتحليل الأداء في التلاوة. فوجود نصوص مشكّلة يقلل من صعوبة التعرف على النطق الصحيح ويحسّن تدريب نماذج التعرف الآلي على الكلام ASR. وبما أن البيانات موجودة ضمن مجموعات بيانات على Hugging Face، فيجب التأكَّد من شروط الاستخدام لترخيص المشروع حيث لا يوجد ترخيص صريح معلن إذ يجب في هذه الحالة من ناحية الأمان التواصل المباشر مع المطور، إذ نوّه المطور فقط إلى أن الاستخدام مشروط بالالتزام بالاعتبارات الأخلاقية والدينية.

3- مجموعة بيانات ترتيل AI - كل آية من القرآن (بواسطة Salama1429)
وهي تسجيلات صوتية لآيات القرآن الكريم مصحوبة بنصّها المشكَّل من قرّاء معروفين، منظّمة بحيث كل صف أو data point يمثل مقطعًا صوتيًا لآية مع النص واسم القارئ ومدة المقطع؛ لذلك يمكنني القول إنها مُعدّة للاستخدام في مهام مثل نماذج التعرف الصوتي، وتدريب أنظمة تحويل الكلام إلى نص أو نماذج تصحيح التلاوة، أو حتى تقييم التجويد، خاصة لمشاريع تعليم التلاوة.
في مستندات Tarteel وأوراقهم البحثية ذُكر أن مشروع Tarteel أو EveryAyah يتضمن في نسخ أو أجزاء منه بيانات موسومة بتوقيت "كلمة بكلمة" لبعض التسجيلات word level timestamps، وهذا مفيد جدًا لمهام المحاذاة أو تصحيح التجويد. لكن نسخة Salama1429/tarteel ai everyayah Quran على Hugging Face لا تُظهر حقل timestamps على مستوى كل كلمة في الـ schema العام فالحقل الظاهر لي هو duration فقط.
لذلك لمن احتاج محاذاة دقيقة "كلمة بكلمة"، قد يحتاج إما نسخة مخصّصة من التي اطلعتُ عليها، أو إجراء خطوة مزامنة قصرية لاحقًا لمطابقة النصوص مع التسجيلات الصوتية بشكل آلي، بحيث يحدد النظام مواقع الكلمات في الصوت بدقة. ربما باستخدام أدوات مثل Montreal Forced Aligner أو أدوات أخرى.
حسب صفحة المجموعة على Hugging Face، فالبيانات منشورة تحت رخصة CC BY NC 4.0 Creative Commons Attribution NonCommercial 4.0 International.

4- مجموعة بيانات اكتشاف الأخطاء في تلاوات سورة الإخلاص من منصة (Mendeley Data)
وكما يوضح الاسم فهي تسجيلات لتلاوة سورة الإخلاص من عدد من المستخدمين، وتم وسم البيانات يدويًا من قبل خبراء لتحديد إذا كانت التلاوة صحيحة أو بها أخطاء في التجويد؛ لذلك فهي مفيدة جدًا في مشاريع كشف أخطاء التجويد أو تقييم النطق الصحيح، لأنه يمكن تدريب النماذج على التمييز بين تلاوة سليمة وتلاوة خاطئة.
ولكن يجب الانتباه إلى أن: التركيز على سورة واحدة فقط، والحجم محدود تقريبا 1500 تسجيل. لذلك؛ لا تصلح بمفردها لتدريب نموذج شامل للتعرف التلقائي على الكلام ASR ، لكنها مهمة كبيانات إثرائية أو بيانات اختبار للتقييم.
وأيضا هي آتية من مصادر مختلفة: مواقع صوتية ومشاركات عبر Google Forms؛ فربما تكون بعض المقاطع بجودة أقل، بها ضوضاء خلفية، أو تأثر بالصدى، أو اختلاف في الميكروفون وغيرها. وهذا في نفس يعد نقطة قوة من حيث التنوع وتقليل التحيز. فأرى أنه من الأفضل عملِ فلترة: لإزالة المقاطع التي فيها ضجيج أو تشويش، أو مقاطع قصير جدًا، أو استبعاد التسجيلات ذات الصوت ضعيف.
رخصة البيانات هي: Creative Commons Attribution 4.0 International CC BY 4.0
5- QDAT: مجموعة بيانات تلاوة القرآن من جامعة الموصل
Quran Data set for Audio of recitation هي مجموعة ملفات صوتية لتلاوة القرآن الكريم، مخصّصة لتلاوة آية واحدة تُستخدم لاختبار تطبيقات كشف وتصحيح أخطاء التجويد، وصدر عنها وصف مفصّل في ورقة بحثية، وتم جمعها بهدف بناء بيانات لتقييم تلاوة القرآن من حيث النطق والتجويد. أعدّها باحثون من جامعة الموصل بالعراق. تحتوي على نحو 1500 ملف صوتي لتلاوة القرآن الكريم (350 مقطعًا للذكور، 1159 مقطعًا للإناث) جُمعت من أكثر من 150 قارئًا، ثم تم تقييمها وتصنيفها يدوياً من قبل خبراء التجويد. منشورة برخصة CC BY 4.0.
ومن أهم مزاياها:
التقييم اليدوي من قبل خبراء التجويد مما يجعلها مناسبة لاختبارات دقيقة حول النطق وقواعد التجويد.
توفِّر وسمًا دقيقًا لكل من قواعد التجويد الثلاث الرئيسية التي عملت عليها الورقة (المدّ والغنَة والإخفاء)، بالإضافة إلى تقييم إجمالي للتلاوة، مما يسمح ببناء نماذج متعددة الطبقات (مثلاً نموذج لتقييم المد، وآخر للإخفاء، وآخر للنطق العام).
بعض ما يجب الانتباه له عند استخدامها
نطاق البيانات محدود: آية واحدة وكذلك حالات تجويد محددة (المدّ والغنَة والإخفاء)
قد يكون هناك انحياز: فالمجموعة تحتوي على نحو 1500 ملف صوتي لتلاوة القرآن الكريم منها فقط 350 مقطعًا للذكور، في ذات الوقت الذي تحتوي فيه على 1159 مقطعًا للإناث.
جودة التسجيل ومصدره: فالورقة تذكر أن التسجيلات جُمعت عبر الإنترنت Whats App وتُعيد أن التسجيلات كانت في "بيئة خالية من الضوضاء" بقدر الإمكان، لكن من الواقعي توقع أن هناك اختلافات في جودة الميكروفونات، ومستوى الضجيج، وغيرها.
فالمجموعة مصدر ممتاز لمهمات كشف أخطاء تجويد معينة لأنّه مُعلّمة من خبراء وتحتوي بيانات من مئات القرّاء؛ لكنها ليست كافية بمفردها لتدريب نموذج شامل للتعرف التلقائي على الكلام ASR عام للقرآن.
6- مجموعة بيانات لتصنيف الصوتيات الخاصة بالقرآن الكريم من Mendeley Data
وهي عبارة عن ثلاثة مجلدات تضم تقريبا 600 عيّنة صوتية لتلاوات مباشرة live recordings من سورتي الفاتحة والبقرة لثلاثة قرّاء مشهورين هم: الحصري، وسعد الغامدي، ومشاري بن راشد. منشورة على Mendeley Data بواسطة إسراء حسّان.
تحمل الرخصة: Creative Commons Attribution 4.0 CC BY 4.0. مما يعني أنه مسموح بالاستخدام، والتعديل، وإعادة النشر، وحتى الاستخدام التجاري، شريطة أن تُنسب إلى المصدر بشكل واضح.
لكن يجب الانتباه إلى أن نطاق البيانات محدود: فالبيانات تغطي تسجيلات من سورتين فقط ولثلاثة قرّاء. يمكن أن يكون هذا مفيدًا لمهام تصنيف القارئ أو تصنيف نمط التلاوة في نطاق محدود، لكنه غير كافٍ كمجموعة بيانات عامة شاملة لتدريب نموذج تحويل الكلام إلى نص للقرآن كاملاً.
7- مشروع تجميـع بيانات صوتية للقرآن الكريم بالاعتماد على مساهمات الجمهور
وهذا مشروع يتغلب على تحدي قلة الموارد المالية، حيث يهدف إلى بناء مجموعة صوتية من تلاوات القرآن عن طريق المشاركة الجماهيرية (Crowdsourcing) لغير العرب برخصة CC BY 4.0.
وآلية عمل هذا المشروع:
أن يستمع أولًا لتلاوة قارئ محترف
ثم يسجّل تلاوته الخاصة
وبعدها يقارنها مع التلاوة المثالية
وأخيرا يقرر ما إذا كان يريد أن يُشارك التسجيل للمُراجعة اللاحقة.
وصراحة أميل لفكرة المشاركة المجتمعية لما تزودنا به من تنوع وشمول يصعب الحصول عليه بحثيا، فيمكن لطفل أن يسجل وشاب وشيخ وامرأة وفتاة... هذا التنوع هو ما يكسب المشروع قوته.
8- مجموعة بيانات إعداد القرآن المنشورة على (GitHub)
ومن مصادر البيانات التي وجدتها Prepare Quran Dataset من Obadx Recitations Segmenter. وهو مشروع بحثي جديد هذا المشروع جزء من البحث المعنون بـ"Automatic Pronunciation Error Detection and Correction of the Holy Quran’s Learners Using Deep Learning" الذي نُشر مؤخرًا.
الهدف منه توفير بيانات صوتية للتلاوات القرآنية من قرّاء محترفين، مُقسَّمة إلى مقاطع صغيرة بناءً على نقاط الوقف pause / waqf، وتحتوي على الترانسكريبشن المطابق، مع سياسة تحقق قوية من صحة النص المنطوق مقارنة بالنص الأصلي، وذلك باستخدام خوارزمية تُدعى "Tasmeea" وغيرها من الأدوات.
والملاحظ أن مجموعة البيانات ضخمة جدًا حيث تتضمّن أكثر من 850 ساعة صوتية، وتقريبا 300,000 مقطع صوتي موسوم بمعنى أن الصوت مترابط مع نصوص مع علامات تُساعد في مهام مثل اكتشاف أخطاء النطق أو التصحيح.
حسب المعلومات المتاحة عندي حاليًا، فمشروع Prepare Quran Dataset تم إعلانه بأنه مفتوح المصدر بالكامل؛ يُتيح الأكواد، والبيانات، والنماذج المستخدمة.
توصيات للمطورين
إذا كنت تكتب تطبيقًا لتعليم تلاوة القرآن، أو تقييم التجويد، أو التعرف على الآيات المنطوقة، فإليك بعض التوصيات:
1. اجمع مزيجًا من البيانات: عن طريق استخدام سجلات قرّاء مشهورين بالطريقتين المرتّلة والمجوّدة من Quran Recitations على سبيل المثال، وضمّ إليها تسجيلات من مستخدمين مبتدئين أو غير محترفين من مشروع Crowdsourced Quranic Audio Dataset مثلا، لتدريب النموذج على سيناريوهات الحياة الواقعية.
2. أضف بيانات خطأ وتجويد: استخدام مجموعات مثل Surah Al Ikhlas Error Dataset أو QDAT يساعد على تدريب النموذج على تقييم أخطاء التجويد وتصحيح النطق؛ بحيث لا يكتفي النموذج بتحويل الصوت إلى نص، بل يستطيع تقديم ملاحظات تصحيحية للمستخدم.
3. قم بفلترة وتصنيف التسجيلات من حيث جودة الصوت، وضجيج الخلفية، ودقة التلاوة، وربما تقسيمها حسب القراءة مثلا: قراءة حفص عن عاصم، قراءة ورش، المديّة، التجويد، وغيرها... إذا كان الهدف هو دعم أكثر من نمط واحد من التلاوة.
4. وظّف محاذاة الزمن بين الصوت والنص لتسهيل المقتطفات الخاصة بالكلمات، ومهام الاستماع المتزامن، أو لتصحيح الأخطاء عند موقع الكلمة داخل الآية.
5. راجع التراخيص لكل مصدر بيانات وتأكد من أن استخدامها في مشروعك سواء كان هدفك: التطوير، أو النشر، أو الخدمات عبر الإنترنت؛ واجعله متناسق مع شروط الرخص، خاصة إذا كنت تخطط لاستخدامها في تطبيقات تجارية أو تطبيقات تعليمية عامة.
كان الناس إلى القريب يعرّفون الثراء بما تملكه من ذهب، ومع ظهور وتطور الذكاء الاصطناعي أصبح الذهب في هذه الأيام هو قواعد البيانات الدقيقة؛ لذا لا بد من التنقيب الجيد عن مصادر مفتوحة للبيانات، لذا أسعد بمشاركتك أيها القارئ الكريم في التعليقات بالإشارة إلى مصادر أخرى للبيانات مفتوحة المصدر مفيدة لتطوير تطبيقات التعرف الصوتي على القرآن الكريم.