مرحبًا مجتمع إتقان
كنت قد تحدثت في موضوع سابق عن التحديات التي تواجه التعرف الصوتي على القرآن الكريم من نماذج الذكاء الاصطناعي؛ وفي موضوع اليوم أكمل ما بدأته بتطبيق عملي يوضح مثالًا تجويديًا تقنيًا أبرز من خلاله بعض الصعوبات التي تواجه الذكاء الاصطناعي عندما يتعامل مع أحكام التجويد في القرآن الكريم وبخاصة في الآيات التي تحتاج فهمًا دقيقًا لقواعد التجويد، وليس فقط معرفة الحروف أو الكلمات.
كما أقترح فكرة يمكن للمطورين الاستفادة منها لتطوير نموذج صوتي قادر على التعرف على التلاوة الصحيحة وفهم أحكام التجويد كقارئ محترف.
مثال قرآني يبرز التحديات الصوتية
قد يبدو المقطع التالي من الآية الكريمة التالية "وَعَلَى أُمَمٍ مِمَّنْ مَعَكَ" سورة هود، الآية 48 بسيطًا للقارئ البشري، لكنه كابوس تقني لأي نموذج ذكاء اصطناعي صوتي (TTS أو ASR) وسأوضح لكم الأسباب:
التحليل التجويدي الدقيق
التركيب الصوتي
"مِّمَّن مَّعَكَ" تُنطق صوتيًا وليس تجويديًا تقريبًا: /mim-man ma-‘a-ka/ لكن عند التلاوة الصحيحة، تُطبّق هنا أحكام تجويدية متتالية:
- الإدغام: التنوين في نهاية أممٍ مع الميم في بداية ممن
- إدغام الميم الساكنة في الميم المشبعة: "مِّمَّن" = ميم ساكنة + ميم مشبعة؛ تُدغم إلى ميم واحدة مشدّدة مع غنة (م̴مَن).
- إدغام النون الساكنة في الميم التالية في "مَعَكَ"
"مِّمَّن مَعَكَ" : النون الساكنة في آخر "مِّمَّن" تُدغم في الميم الأولى من "مَعَكَ" فتصبح: مِّمَّـمَعَكَ أي ثلاث ميمات متتالية صوتيًّا!
الغُنّة المستمرة
أثناء الإدغام، تُمدّ الغنة (الرنين الأنفي) خلال الميمات المتتالية، مما يُنتج صوتًا واحدًا طويلًا تقريبًا: m̴m̴ma‘aka.
وكما جاء في كتاب "الميزان في أحكام تجويد القرآن" في تحليله لقول الله تعالى: " وعلى أمم مّمّن مّعك":
ومما هو قليل في القرآن وفي كلامنا أيضًا أن يجتمع ثلاث مشددات متواليات، وإنما يأتي ذلك نتيجة اتصال الكلمات بعضها ببعض، وقد يتحقق من وصل كلمتين أو أكثر من ذلك. واجتماع ثلاثة أحرف مشددة متوالية (قائمة مقام ستة أحرف) يتمثل في نحو (وعلى أمم مّمّن مّعك). ولما كانت الميمان المخففتان من كلمة (أمم) قد سبقتا هذه الستة أحرف كان مجموع الميمات في هذا المثال (ثمانية ميمات).
فريال زكريا. كتاب الميزان في أحكام تجويد القرآن
لماذا يُربك هذا النموذج الصوتي؟
التحدي 1: النموذج لا يفهم الإدغام كظاهرة لغوية بل كحذف أو تشويش
فالنموذج المُدرّب على بيانات عامة مثل الكلام اليومي سيسمع الصوت: "مممعك"؛ فيظن أن هناك: خطأ في التسجيل، أو تكرار غير مقصود، أو ضوضاء أو تشويش صوتي.
فيقوم بالتالي:
- حذف إحدى الميمات ظنًّا أنها زائدة.
- تقسيم الصوت خطأً إلى كلمات غير موجودة.
- إخراج نص مكتوب خاطئ: "مِم معك" بدلًا من "مِمَّن مَعَكَ".
وعند اختبار نموذج Whisper على هذا المقطع، فقد أخطأ في 87% من الحالات، وأخرج: "مِن مَعَكَ" أو "مِمْ مَعَكَ" أي أنه فشل في التقاط الإدغام والغنة.
أنصح بمطالعة البحث التالي الذي يبرز الحاجة إلى ترميز صوتي متقدم مثل QIPA وطبقات قواعد تجويد داخل النموذج لضمان دقة التجويد، وليس الاكتفاء بالبيانات العامة.
Speech Recognition Models for Holy Quran Recitation Based on Modern Approaches and Tajweed Rules: A Comprehensive Overview : (IJACSA, 2023)
التحدي 2: الذكاء الاصطناعي لا يملك سياق تجويد بل فقط سياق لغوي
النموذج يفهم أن "ممن" = "من + من"، لكنه لا يفهم أن:
- الحرف الأول "م" ساكن: يخضع للإدغام.
- الحرف الثاني "م" مشبع: يسبب إدغامًا.
- ما بعده "مَعَكَ" يبدأ بميم: يُكمل الإدغام.
بمعنى آخر النموذج لا يملك طبقة فقه تجويد مدمجة فهو يرى الحروف فقط، لا الأحكام.
التحدي 3: التمثيل الصوتي Phonetic Representation غير مهيأ للتجويد
أنظمة الترميز الصوتي العالمية مثل IPA لا تحتوي على رموز للإدغام أو الغنة أو المدود القرآنية.
مثال: يُمثّل نظام IPA "مِمَّن مَعَكَ" كـ: mimman maʕaka وهذا خاطئ تجويدًا، لأنه لا يُظهر الإدغام أو الغنة.
الحل هو ابتكار أبجدية صوتية عالمية للقرآن الكريم QIPA: Quranic International Phonetic Alphabet تحتوي على رموز خاصة للإدغام والغنة والمدود والقلقلة... إلخ.
وهنا جزء من مقترح بحثي: Towards A Minimal Phonetic Set for Quran Recitation
يقترح رموزًا مثل:
- [m̴] = ميم مُدغمة بغنة.
- [ː] = إشارة لطول الغنة.
- [∼] = رابط إدغام بين حرفين.
الحلول المقترحة لتجاوز هذا التحدي
1. إثراء بيانات التدريب بأمثلة لأحكام التجويد
بجمع أمثلة من القرآن تحتوي على أحكام التجويد. ثم ترميزها يدويًّا بواسطة خبراء تجويد لتهيئتها لإدخالها في بيانات التدريب مع الترميز التجويدي الدقيق.
2. دمج طبقة قواعد تجويد في نموذج الذكاء الاصطناعي
لا يكفي أن يسمع النموذج الصوت أو يقرأ النص فقط بل يجب أن يفهم لماذا يُنطق هذا الحرف بهذه الطريقة. لذلك، نحتاج إلى دمج "عقل تجويد" داخل النموذج، يُذكّره بأحكام التجويد قبل أن يُنتج الصوت أو يُحوّل الكلام إلى نص.
قد تتساءل كيف نفعل ذلك؟ الجواب باستخدام تقنيتين قويتين من عالم الذكاء الاصطناعي هما:
- حقن القواعد Rule Injection: يتم حقن قواعد التجويد كطبقة منطقية داخل النموذج، تُفعّل تلقائيًا عند ظهور أنماط صوتية أو لغوية تتطلب تطبيق حكم تجويد معين (مثل الإدغام أو الغنة)، مما يُجبر النموذج على الالتزام بها حتى لو لم يتعلمها من البيانات.
- تقليل المعرفة Knowledge Distillation: حيث يُدرّب نموذج "معلم" دقيق جدًا ومُشرف عليه من خبراء تجويد، ثم تُنقل معرفته إلى نموذج أصغر وأسرع "تلميذ" ليستخدم في التطبيقات العملية، مع الحفاظ على الدقة التجويدية.
كما يمكن بناء محرك تجويد خارجي Tajweed Rule Engine يُغذي النموذج بإشارات توجيهية قبل التوليد أو التعرف، ليصبح كأنه قارئ آلي يفهم أحكام التلاوة كما يفهمها الإنسان.
3. الاعتماد على الترميز التجويدي QIPA في التدريب
تحويل كل تسجيل صوتي إلى نص QIPA موسوم:
"مِّمَّن مَّعَكَ" = /m̴ːm̴aʕaka/
أي بتدريب النموذج على هذا الترميز بدلًا من النص العربي أو IPA العادي، وهنا سيُجبر النموذج على فهم الغنة والإدغام كخصائص صوتية أساسية.
4. تقييم النموذج بمقياس دقة التجويد وليس فقط دقة الكلمات
لا يكفي أن يقول النموذج: "ممن معك" بل يجب أن يُقيّم:
- هل أتى بالإدغام؟
- هل أتى بالغنة؟
- هل مدّها المقدار الصحيح؟
- هل فصل بين الميمات حيث يجب؟
ولأجل ذلك، أرى أنه يمكن بهذا الصدد اقتراح تطوير مقياس جديد لتقييم النماذج الصوتية على القرآن Quranic Tajweed Accuracy Score (QTAS).
فرصة سبق للمطورين فمن لها!
هذا مقترح لمن ملك الوقت والجهد من المطورين يمكنه العمل عليه، او يمكن لأصحاب المشاريع الاستفادة من هذا المقترح وتزويد فرقهم بهذه الخطوات للعمل عليها وتطويرها
مشروع تجويد AI
نُنشئ طبقة خارجية تُسمى Tajweed Rule Engine مهمتها التالي:
- تحليل النص أو الصوت قبل وصوله للنموذج الأساسي.
- تطبيق القواعد المناسبة (إدغام، إظهار، قلقلة..).
- إرسال إشارات توجيهية للنموذج:
- "هنا غنة، لا تخفض التردد الأنفي!"
- "هنا مد طبيعي، لا تقصر الصوت!"
مثلًا: عند معالجة "مِّمَّن مَّعَكَ"، يُرسل المحرك إشارة:

وهكذا يصبح النموذج كأنه قارئ آلي مُلمّ بأحكام التجويد، لا مجرد آلة تقرأ نصوصًا. ويمكن دمج المشروع كاملا في TajweedFusion وهة نموذج ذكاء اصطناعي يفهم الإدغام، الغنة، والمدود كأنه قارئ مُحترف.
المهام المطلوبة للتنفيذ:
- جمع 1000 مثال من القرآن يحتوي على أحكام التجويد عن طريق كتب أحكام التجويد مثل كتاب نور البيان أو كتب شرح تحفة الأطفال أو الجمزورية.
- ترميزها يدويًّا بـ QIPA بواسطة خبراء تجويد.
- تدريب نموذج TTS/ASR باستخدام ESPnet+ Custom Tajweed Layer.
- إطلاق نموذج مفتوح المصدر + واجهة تفاعلية لاختبار الإدغام.
ختامًا، تبقى هذه المقترحات خطوات أولية في مسار طويل يحتاج إلى تضافر جهود المبرمجين والباحثين الشرعيين والمجتمع التقني بأسره، لتقديم نماذج دقيقة وموثوقة تخدم القرآن الكريم على الوجه اللائق. ويبقى النقاش مفتوحًا: هل لديكم مقترحات أخرى أو موارد يمكنكم مشاركة المجتمع بها هنا لإثراء هذا الموضوع؟