نظرًا لتزايد الاهتمام بتطوير التطبيقات القرآنية ورفع جودة خدمتها للمستخدم المسلم، بدأت تظهر بعض المحاولات لتطوير تطبيقات قرآنية قائمة على الذكاء الاصطناعي وتدريب الآلة. ولعل أحد أكثر المجالات التي ما تزال تواجه تحديات كبيرة، مجال التطبيقات الصوتية التي تتعرف على جودة التلاوة والتجويد أو تصحح الأخطاء التي فيها، وتترجم النص القرآني المسموع إلى مكتوب بدقة كاملة. وذلك لصعوبة تعرف النماذج المستخدمة على مبادئ التجويد، والتقاط صوتها الصحيح.
لكن ومع توفر عدة تلاوات لقراء مشهورين تتسم بالجودة العالية والمثالية في ضبط أحكام التجويد، بات البعض يفكر. هل إذا دربت نموذجي على تلاوات القراء المشهورين سيفي هذا بالغرض؟ هل سيكون تطبيقي قادرًا على فهم أحكام التجويد بطريقة صحيحة دائمًا؟ أو حتى على مراجعة جودة قراءة المستخدم العادي؟ بغض النظر عن جودة الصوت لديه؟ بغض النظر عن طبيعة نطقه للحروف مثلًا؟ بغض النظر عن لكنته الغالبة في النطق؟
واقع هذا الجواب بكل اختصار طبعًا هو: لا! وسأشرح لك ذلك في النقطة الموالية.
لماذا لا تُعد هذه البيانات كافية؟
هناك عدة أسباب تجعل تدريب نموذجك على هذه البيانات حصرًا غير كافي لصنع تطبيق عالي الجودة أو يخدم المستخدم فعليًا، وذلك للأسباب الآتية.
عدم وجود تنوع كافي في أصوات وقراءات القراء المشهورين
عدد القراء المشهورين محدود، وكذلك عدد ساعات التلاوة المتوفرة والمفرغة نصيًا أقل مما هو مطلوب عادةً لتدريب نموذج كبير ودقيق. كذلك أصوات القراء ولكناتهم وأساليبهم في القراءة غير متنوعة كفاية أو متاحة بالحجم الكافي، فنماذج ASR الحديثة مثل Whisper وغيرها من نماذج التعلم الصوتي تتطلب آلاف الساعات من الصوت والنص المقابل بهذا المجال لضمان تحصيل نتائج دقيقة، في حين أن بيانات القراء المشهورين لا تصل إلى الحد المطلوب.
البعد النسبي لجودة الصوت عن الجودة الواقعية لدى المستخدم
تتسم بيانات القراء المشهورين بكونها بيانات عالية الجودة جدًا لدرجة تميل إلى المثالية أحيانًا، سواءً من ناحية المونتاج، الضوضاء، المايك المستخدم، تنقية الصوت، الحفاظ على مستوى الصوت، وغيرها، وهذا بطبيعة الحال لا يكون متاح على أرض الواقع للمستخدم العادي أو القارئ الذي يقدم بيانات أقل جودة من البيانات التي يمكن تحصيلها من القارئ المشهور؛ وبالتالي فالنموذج لن يتعلم بهذه الحالة كيفية التعامل مع التسجيلات الحقيقية العفوية من الهاتف العادي، أو في البيئات التي تحوي ضوضاء بدرجات متفاوتة.
وهنا عند تدريب النموذج على بيانات القراء المشهورين حصرًا، فلن يكون قادرًا على تمييز القراءات الصحيحة للقارئ العادي، من القراءات الخاطئة. وقد يعطي المستخدم أخطاء على أمور صحيحة.
البعد النسبي لجودة ضبط القراءة عن الجودة الواقعية لدى المستخدمة
يستخدم القراء المشهورين عادةً أداءً صوتيًا مضبوطًا جدًا وله نمط خاص (تجويد مثالي)؛ إذ يتحدثون بلغة عربية فصحى واضحة، في حين أن المستخدمين الحقيقيين لتطبيقات التلاوة قد يكونون:
- أطفال.
- كبار سن وصوتهم متذبذب.
- أشخاص من غير الناطقين بالعربية.
- متعلمين جدد لأحكام التجويد.
- مستخدمين من لهجات مختلفة (مغاربية، خليجية، شامية...إلخ).
لذا فالنموذج المدرب على تسجيلات القراء المشهورين فقط قد يفشل في فهم تلاوات قراء عاديين أو مبتدئين أو من لهجات مختلفة.
طيب، هل يعني هذا أن تدريب النموذج على أي قراءة متاحة هو السليم؟
منطقيًا وشرعيًا أيضًا، لا! فاستخدام أي بيانات متوفرة دون تحديد مسبق للمعايير أو الفلترة قد يفسد النموذج أكثر مما ينفعه، حتى أنه قد يؤدي إلى:
- أخطاء في التعرف على الكلمات.
- التباس في النطق بسبب تلاوات خاطئة.
- تعلم النموذج لأنماط صوتية غير مناسبة مثل التشويش، واللهجات غير المضبوطة، وأخطاء التجويد (وهذه لا يجب أن تحصل بها أخطاء).
وهذه أمور لا يجب القبول بها في تطبيق قرآني؛ إذ يجب أن يكون التطبيق دقيقًا بأعلى درجة ممكنة، وأن يكون قادرًا على التعامل مع أوسع شريحة وظروف ممكنة.
إذًا، ما هي الشروط التي تجعل القراءة المتاحة صالحة للتدريب؟
إذا كانت بيانات القراء المشهورين لوحدها غير كافية، واعتماد البيانات المتاحة أيضًا غير كافٍ لبناء نموذج صحيح ودقيق، فمن المؤكد أن هناك معايير أساسية يجب اعتمادها لانتقاء البيانات الصحيحة والكافية في نفس الوقت لتدريب النموذج! وهنا سأذكر:
1. جودة الصوت المقبولة
وهو أن لا تكون مثالية بالضرورة، لكن أن تتوفر على جودة معينة من قبيل:
- خلوها من الضوضاء المفرطة.
- بدون صدى مزعج أو أو تشويش دائم.
- أن تكون القراءة فيها واضحة ومفهومة.
2. دقة محتوى التلاوة
وهنا نحتاج للتأكد من تطابق الصوت مع النص القرآني، بحيث تكون تكون التلاوة لنفس الآية تمامًا، بدون حذف أو إضافة أو تشويش في الكلمات.
ويجب هنا أن تتسم التلاوة بما يلي:
- أن تكون صحيحةً لغويًا.
- خلوها من الأخطاء الفادحة مثل خلط الكلمات وتقديم وتأخير الآيات وغيرها.
تصنيف التنوع والتركيز عند تعليم الآلة على التعرف على النوع
والمقصود هنا، أن لا يتم تعليم الآلة أن كل القراءات واحد، بل تمييز نوع القراءة ونسبها لصنفها الخاص، فرواية ورش مثلًا تختلف عن رواية حفص، ويجب أن يتم تصنيفهما بوضوح.
أيضًا، من الضروري ربط كل مقطع ببياناته اللازمة، أي كل آية لها صنفها، قارؤها، عمره، لكنته، وغيرها، متى كان ذلك ممكنًا، وذلك للسماح للنموذج بفهم التنوع وفهم البيانات المدخلة من المستخدم لاحقًا.
لكن بصراحة يبقى التساؤل المطروح هنا. هل فعلًا يمكن الوصول إلى بيانات صوتية قرآنية دقيقة كافية مسموح باستخدامها لتدريب الآلة؟ وما هي التحديات الإضافية لبناء تطبيق قرآني صوتي دقيق؟ وهل من حلول إضافية دقيقة يمكننا الاعتماد عليها؟ شاركوني آراءكم وتجاربكم في التعليقات.