التحديات الفريدة للتعرف الصوتي على القرآن الكريم بالذكاء الاصطناعي
مرحبًا مجتمع إتقان أشارككم اليوم هذه التجربة والتي قد تكون شرارة لمشاريع كبيرة يكتب الله لها القَبول والنفع. ولعل بينكم من المطوّرين أو الباحثين أو أصحاب المبادرات من يجد فيما أطرحه هنا نقطة انطلاق لعملٍ جاد يسد ثغرة، أو يلبي حاجة ملحّة في هذا المجال المبارك.
فحينما كنا نعمل على مشروع تخرّجنا، كان من بين التحديات التي خضناها التعامل مع اللغة العربية، ومحاولة تحويل النصوص إلى صوت وكذلك التعرّف على الكلام وتحويله إلى نص مكتوب. فقطعنا شوطًا لا بأس به في هذا المبحث، وواجهتنا بعض الصعوبات التي تواجه أي باحث أو مطوّر حين يحاول أن يجعل الآلة تفهم لغة عميقة كاللغة العربية.
ومع أن تجربتنا لم تكن مرتبطة مباشرة بالقرآن الكريم، إلا أنني حين رأيت أن باب النقاش هنا في مجتمع إتقان مفتوحًا، أحببت أن أشارك ما عايشناه من تحديات، وما تبادر إلى ذهني من أفكار يمكن أن تكون ذات فائدة إذا طبّقت في خدمة التطبيقات القرآنية، خاصة في مجال التعرّف الصوتي على القرآن الكريم.
التحديات
لعل من بين أبرز التحديات التي تواجه المطورين عند العمل على نماذج التعرّف الصوتي على القرآن بالذكاء الاصطناعي: تحديات البيانات، وتحديات اللغة والتجويد، وتحديات إضافية مرتبطة بالقرآن الكريم وأحكام التجويد، وشدة الحاجة إلى الموثوقية: ولماذا لا يمكن التساهل… فدعونا نمر عليها ببعض التفصيل.
الحاجة إلى تسجيلات صوتية دقيقة ومتنوعة
وأول تحدٍّ يواجه المطورين هنا هو الحاجة إلى تسجيلات صوتية دقيقة ومتنوعة، فلماذا نحتاج إلى تسجيلات صوتية دقيقة ومتنوعة؟
أ. الدقة التجويدية ضرورة شرعية وتقنية
وكما أشار الغامدي، محمد بن أحمد، في أحكام التجويد في ضوء الكتاب والسنة، دار ابن الجوزي (2005): أن التجويد هو شرط أساسي في التلاوة الصحيحة. القرآن الكريم ليس نصًّا عاديًّا فهو كلام الله المنزل على نبيه محمد ﷺ، المتعبد بتلاوته، والمُحْكَم في ألفاظه وحروفه وحركاته. وأُمِر المسلمون بتلاوته "تَرْتِيلًا" (سورة المزمل: 4)، أي بتمهل وتدبر وأداء صحيح للأحرف والمخارج والحركات؛ لذا فأي خطأ في النطق أو التجويد حتى وإن كان تقنيًّا أو خوارزميًّا قد يؤدي إلى:
- تشويه المعنى (مثل: "قُلْ" vs. "قَلّ" الأولى أمر، والثانية تعني نقصَ).
- إثارة شبهات لدى المستمعين غير المتخصصين.
- إنتاج نماذج ذكاء اصطناعي تُستخدم في التطبيقات الدينية (مثل الروبوتات القارئة، المساعدات الصوتية) بشكل غير دقيق وهو ما يُعدّ إثمًا تقنيًّا وأخلاقيًّا.
ب. التنوع الصوتي يُحسّن أداء النموذج
تدريب نموذج صوتي (مثل TTS - Text-to-Speech أو ASR - Automatic Speech Recognition) على صوت واحد فقط يؤدي إلى:
- Overfitting: وهو مصطلح يُستخدم في تعلم الآلة Machine Learning، ويُقصد به أن النموذج يتعلم البيانات التدريبية (Training Data) وهي هنا خصائص صوت واحد فقط بشكل مبالغ فيه لدرجة إنه يحفظها تقريبًا، بدل من فهم أنماطها العامة فلا يستطيع أن يعمّمها جيدًا على أصوات أخرى.
- ضعف الأداء عند مواجهة لهجات أو نبرات أو سرعات مختلفة.
- عدم قدرة النموذج على التكيف مع المستخدمين من خلفيات ثقافية ولغوية متنوعة. لذا فنحن بحاجة إلى:
1) عدد كافٍ من القرّاء (لا يقل عن 50–100 قارئ لنموذج أساسي).
2) تنوع جغرافي: قُرّاء من مصر، والسعودية، والمغرب، وإندونيسيا، وتركيا... إلخ.
3) تنوع في العمر والجنس (رجال ونساء، شباب وكبار وحتى أطفال).
4) تنوع في السرعة والنبرة (تلاوة تدبرية، تلاوة سريعة، تلاوة تعليمية).
حيث أظهرت دراسة Ko, T., et al. (2015). A Study on Data Augmentation of Reverberant Speech for Robust Speech Recognition. IEEE ICASSP. أن التنوع في مصادر الصوت (المتحدثين، البيئات، السرعات) يُحسّن مرونة النموذج بنسبة تصل إلى 30%.
حقوق النشر والقيود القانونية على التسجيلات الصوتية
رغم توفر آلاف الساعات من التسجيلات الصوتية للقرآن الكريم من قِبل كبار القرّاء (مثل: الشيخ عبد الباسط، الشيخ مشاري العفاسي، الشيخ الحذيفي، الشيخ أيمن رشدي سويد... إلخ)، إلا أن أغلبها محمي بحقوق النشر، ولا يُسمح باستخدامها في مشاريع الذكاء الاصطناعي دون إذن صريح حتى لو كان الهدف تعليميًّا أو خيريًّا.
لذا لا يكفي أن تكون التسجيلات الصوتية دقيقة ويُطبّق القارئ فيها أحكام التجويد بصرامة-كما سنناقش لاحقا-، بل يجب أن تكون قابلة للاستخدام في مشاريع الذكاء الاصطناعي من الناحية القانونية. وغالبًا ما تواجه المشاريع البحثية عقبة كبيرة تتمثل في حماية حقوق النشر على التسجيلات الصوتية للقرآن الكريم، حتى لو كان الهدف منها خدمة دينية أو تعليمية.
كما أن غياب التراخيص المفتوحة (مثل Creative Commons) لكثير من البيانات القرآنية يجعل من الصعب على الباحثين والمطورين بناء نماذج قانونية ومستدامة.
حتى التسجيلات "المجانية" على اليوتيوب أو SoundCloud ليست حرة الاستخدام! فتحميلها واستخدامها في تدريب نماذج AI دون إذن يُعدّ خرقًا لحقوق النشر، وقد يؤدي إلى:
- حذف النموذج أو التطبيق.
- دعاوى قانونية.
- إيقاف التمويل أو النشر الأكاديمي.
كما يعاني المطورون ليس فقط من نقص البيانات بل أيضًا من نقص قواعد البيانات الدقيقة والموثوقة مفتوحة المصدر مرخّصة والتي يمكن الاعتماد عليها في تدريب النماذج. فمعظم مجموعات البيانات العربية الصوتية عامة وغير مُنظَّمة. وإلى الآن لا توجد مجموعات بيانات قرآنية مفتوحة بحجم كافٍ (مثل LibriSpeech للإنجليزية).
لذا وفي هذا الصدد تم إطلاق مشروع إتقان ليكون حلًّا جامعًا لهذا التشتت، فكما ذكروا في رؤيتهم: "نتطلع في إتقان إلى مستقبل يستطيع فيه أي مطور أو باحث أن يركز كل طاقته على الإبداع وتقديم قيمة مضافة لمشروعه، دون أن يقلق بشأن البنية التحتية. ورؤيتنا هي إنشاء مجتمع عالمي يجعل تطوير التقنيات القرآنية في متناول الجميع.
لتحقيق ذلك، نعمل على ثلاثة محاور استراتيجية:
بناء بنية تحتية تقنية موحدة تتضمن واجهات برمجية APIs ومكتبات وبيانات قرآنية دقيقة وموثوقة.
تأسيس مجتمع حيوي ومتعاون يضم المطورين والباحثين والمؤسسات المهتمة، ليكون المحرك الأساسي للابتكار وتبادل المعرفة.
تطوير نموذج عمل يضمن استمرارية المشاريع على المدى الطويل."
تحديات اللغة والتجويد.
وإن تجاوزنا تحديات البيانات فإننا أمام تحدٍّ أكبر وأعظم ألا وهو تحدي اللغة العربية وما تحظى بها من خصوصية فريدة ومعجم ضخم وجذور ومشتقات وأصول حتى إنه ليُعدّ علمًا كاملًا يحتاج أعوامًا من الدراسة وقلّ أن يُلمّ به عالم، فكيف بالمطورين!
وليس ذلك فحسب بل إننا بصدد الحديث عن التحديات التي تواجه التعرف الصوتي على القرآن؛ لذا فنحن أمام تحدي التجويد والقراءات وبحر واسع من الغنن والإدغام والإخفاء بأنواعهم، وصفات الحروف ومخارجها ومدودها والوقف والابتداء وتغيير المعنى الحساس لأي تغير فيما ذكرناه مهما كان طفيفًا. فدعونا نستعرض بعض تلك التحديات والتي سنقترح في نهاية الموضوع حلولا فعالة لها.
ضعف أداء النماذج الصوتية على اللغة العربية
رغم التقدم في معالجة اللغة الإنجليزية، لا تزال نماذج TTS (تحويل النص إلى كلام) و ASR (التعرّف التلقائي على الكلام) تواجه صعوبات كبيرة مع اللغة العربية، بسبب:
- الطبيعة الصوتية المعقدة
- وجود حروف ذات مخارج دقيقة (مثل: الضاد، الطاء، القاف).
- التفرقة بين الحروف المتشابهة صوتيًّا (مثل: السين والصاد، التاء والطاء).
- الحركات القصيرة التي تُغيّر المعنى (فتحة vs. كسرة).
عدم دعم القراءات والتجويد في النماذج الحالية:
كثير من النماذج الصوتية لا تُميّز بين "يَعْلَمُونَ" (بالياء) و"تَعْلَمُونَ" (بالتاء) من حيث السياق التجويدي إذا ما سبقهما حرف نون ساكنة مثلا.
كذلك لا تتعامل مع "المدود" و"الوقف" و"الابتداء" كخصائص صوتية يجب تعلّمها.
تحديات إضافية مرتبطة بالقرآن الكريم
القراءات المتعددة
10 قراءات؛ كل قراءة لها نطق خاص وطبيعة خاصة تصعب حتى على الحُفّاظ، لذا فالنموذج يجب أن يُدرّب على كل قراءة على حدة وأن يُميّز بينها. ففي اختلاف القراءات وألسنة العرب ما يطيل المهمة ويزيد طبقات النماذج الصوتية، مما يضطر المطورين من تقسيم البيانات حسب القراءة وكل قراءة لها أحكام وقف وابتداء وتنقيط واحيانا تشكيل، ثم تدريب نماذج منفصلة أو نموذج متعدد المهام (Multi-task Learning).
غياب التوحيد في الترميز الصوتي
من التحديات الإضافية المرتبطة بالقرآن الكريم مسألة غياب التوحيد في الترميز الصوتي لأحكام التجويد. فعلى عكس اللغات الطبيعية التي تمتلك أنظمة ترميز صوتي قياسية مثل IPA (International Phonetic Alphabet)، لا يوجد حتى الآن -حسب علمي- معيار عالمي يرمّز بدقة كل قاعدة من قواعد التجويد (مثل الإخفاء، الإدغام، الإقلاب...) بشكل يمكن للنماذج الحاسوبية أن تفهمه مباشرة.
هذا النقص يجعل من الصعب إنشاء تمثيل موحّد يمكن استخدامه عبر مختلف المشاريع والأبحاث، ويجبر المطورين على ابتكار طرق محلية خاصة بهم لترميز أصوات القراء وقواعد التجويد، مما يؤدي إلى صعوبة تبادل البيانات أو مقارنتها بين النماذج المختلفة.
حساسية الخطأ
خطأ بنسبة 1% في نموذج إنجليزي أو عربي-مما هو من كلام البشر-مقبول بل هو ممتاز، لكن إذا ما كنا نتحدث عن نموذج للتعرف الصوتي على القرآن فإن أي خطأ قد يغير المعنى.
قلة الخبراء التقنيين المتبحرين في علم التجويد
إذا ما أردنا الحديث عن نموذج للذكاء الاصطناعي للتعرف الصوتي على القرآن فإننا أمام انفصال بين الخبرة التقنية والخبرة الشرعية فقلما نجد المطورين الذين يجمعون بين فقه التجويد وخبرة الذكاء الاصطناعي، لذا نحن بحاجة التعاون المثمر بين المشرفين الشرعيين والخبراء التقنيين.
تحديات تقنية (النماذج والتقييم).
جودة الصوت التقنية
ولعل من أكبر التحديات التي تواجهها نماذج الذكاء الاصطناعي للتعرف الصوتي على القرآن الكريم أن العينات الصوتية (Sampling Rate) في النماذج التدريبية الصوتية لكبار القراء الذين يمكن الوثوق في صحة ودقة قراءتهم ليست جميعًا بدقة عالية ولذلك، يُنصح بأن يكون:
معدل العيّنة يُفضَّل أن يكون على الأقل 8 كيلوهرتز للنطاق الضيق (narrowband)، و16-48 كيلوهرتز للنطاق العريض أو جودة أعلى، وذلك حسب الغرض سواء كان: التدريب، أو الاستماع، أو البحث.
عمق البت يجب أن يكون على الأقل 12-بت PCM لتجنّب التأثير من الكمّ (quantization) كما هو مذكور في توصية ITU-T P.56 وهي معيار دولي من الاتحاد الدولي للاتصالات (ITU) يشرح طريقة آلية (Objective Method) لقياس مستوى الكلام الفعّال في التسجيلات الصوتية
تنسيق الصوت يُفضل أن يكون linear PCM غير مضغوط أو ضغط بلا خسارة إذا كان التخزين مهمًّا.
البيئة يجب أن تكون منخفضة الضوضاء، مع مستوى الضوضاء الخلفي قليل قدر الإمكان.
استخدام توصيات ITU-T مثل P.56 لقياس الـ Active Speech Level، وP.800 (أو التحديثات مثل P.800-series / P.808) لتقييم جودة الصوت موضوعيًا وذاتيًا.
وذلك حسبما جاء في توصية: ITU-T P.56 Recommendation
التكلفة العالية للتسجيل
وإذا اتجهنا نحو إنشاء تسجيلات جديدة، سنواجه عائق التمويل؛ مما يطيل الطريق أمام المطورين. لذلك يضطرون إلى معالجة الصوتيات المتاحة بالاعتماد على تقنيات تعزيز البيانات مثل تغيير طبقة الصوت، وتمديد أو ضغط الزمن، وحقن الضوضاء، وذلك لتعزيز التنوع وزيادة فعالية البيانات الصوتية.
وهنا يبرز السؤال: كيف يمكننا الجمع بين الدقة الشرعية والصرامة التقنية لضمان تلاوة صحيحة وموثوقة بالاعتماد على الذكاء الاصطناعي؟ وهل ترون أن الحل يكمن في بناء معايير وترميزات قياسية للتجويد، أم في تعزيز التعاون بين أهل الاختصاص الشرعي والخبراء التقنيين؟