ميقات: منصة عالية الدقة لمزامنة التلاوات القرآنية تدعم روايتي حفص وورش

علي ملص

مزامنة التلاوة مع النص القرآني من أبرز التحديات التي تواجه المطورين الذين يعملون على بناء تطبيقات تتطلب عرض أو تعليم الكلمة عند نطقها، ورغم وجود نماذج عديدة وبرمجيات توفر إمكانية المزامنة آليًا، إلا أنه بعد تجربتي لتلك التطبيقات لاحظت أن معظمها يعاني من عيوب عديدة، ولهذا حاولت حلها عبر عمل منصة ميقات.

أهم أوجه القصور في البرامج والنماذج الحالية

تعاني كافة البرامج الحالية من دقة مزامنة منخفضة نسبيًا، خاصة للنصوص العربية والتلاوة، وتتراجع الدقة بشكل كبير عند مزامنة السور الطويلة مثل سورة البقرة أو آل عمران.

كذلك تكون البرامج صعبة الإعداد والاستخدام، إذ تعمل معظم الأدوات المجانية محليًا على جهاز المستخدم، ويتطلب إعدادها معرفة تقنية كبيرة، بالإضافة إلى جهاز بموارد قوية.

كيف حاولت حل هذه المشاكل؟

بنيت واجهة ويب أمامية تعمل من خلال المتصفح، وتتصل بخادم يعمل على جوجل كولاب، حيث يُشغل هناك نموذج الذكاء الاصطناعي وبرنامج التزمين.

ترسل الواجهة الملف الصوتي مع النص القرآني إلى كولاب، فيتم استخراج التوقيتات لكل كلمة أو لكل آية حسبما يدعم البرنامج والنموذج.

ثم تعاد التوقيتات إلى الواجهة لتتعامل معها وتتيح للمستخدم التأكد منها.

بالإضافة إلى ذلك طورت طريقة مزامنة هجينة تعتمد على WhisperX + CTC للحصول على دقة عالية. وسأقوم بإضافة طريقة المزامنة هذه إلى مشروع منجِّم لاحقًا، وذلك بعد أن يجربها المجتمع ويتأكد من أنها ذات دقة جيدة وموثوقة.

كيف تعمل طرق المزامنة؟

تعمل طرق المزامنة بأشكال مختلفة بحسب البرنامج والنموذج أو النماذج التي تستخدمها.

منجِّم

طريقة برنامج منجم تعتمد على نموذج Whisper مدرب على التلاوة الصوتية بالإضافة إلى مكتبات برمجية متخصصة، ويمكن الاطلاع على التفاصيل من خلال هذه المشاركة وهذه المشاركة الليتن وضح لنا الأخ @abdullah Mosaibah فيهما كيف يعمل منجم.

المزامنة الهجينة

تستخدم الطريقة الهجينة WhisperX + CTC نموذج WhisperX لاستخراج التوقيتات المبدئية الموثوقة، ثم لتجاوز أخطاء WhisperX في التعرف على بعض الكلمات، تُعتمد المطابقة الديناميكية حيث يستخدم مقياس التشابه Fuzzy Matching لربط الكلمات التي استخرجها WhisperX بالنص القرآني المرجعي، وفي حال تخطى WhisperX كلمة يتم إنشاء توقيت تقديري لها.

وفي الوقت نفسه يتم تمرير الصوت والنص القرآني لنموذج Wav2Vec2 الذي يعمل بتقنية CTC، حيث يطابق الصوت مع الحروف بشكل مباشر ويرجع توقيتات عالية الدقة، لكن عيبه أنه قد يخطئ إذا كان المقطع الصوتي طويلًا، وتراكم الأخطاء يؤدي إلى أخطاء أكبر مع تقدم الزمن في الملف الصوتي.

ولذلك فإن الطريقة الهجينة، تدمج نتائج المرحلتين، حيث تعتمد توقيتات WhisperX، ثم لكل كلمة يتم البحث في نتائج CTC ضمن نطاق 15 كلمة مجاورة، حيث يتم إيجاد توقيتات CTC للكلمة المعنية، وإذا كانت المسافة الزمنية بين نسختي التوقيت متقاربة، وكانت ثقة نموذج CTC جيدة، يتم استبدال توقيت WhisperX بتوقيت CTC الأكثر دقة.

ولتجنب القفزات الزمنية الخاطئة لنموذج CTC يتم اعتماد توقيتات WhisperX إذا كان توقيت CTC يبتعد عن توقيت WhisperX بأكثر من نصف ثانية.

وأخيرًا يتم توسيع نهايات الآيات، حيث يتم تمديد وقت نهاية الكلمة الأخيرة في الآية حتى بداية الكلمة التي تليها مع ترك فاصل صغير، وذلك إذا كانت هناك مسافة زمنية كافية، وهذا يحل مشكلة اقتطاع الحرف الأخير في المدود العارضة للسكون.

مزامنة WhisperX

تعتمد على نموذج Whisper الشهير من OpenAI وذلك بعد تحسينه، وتتميز بأنها سريعة نسبيًا لكنها أقل دقة من الطريقة السابقة، وقد تواجه مشاكل في تحديد الحواف الزمنية بدقة للكلمات المتقاربة.

مزامنة CTC

تعتمد على تحليل الإشارة الصوتية ومطابقتها مع النص حرفيًا، وهي سريعة لكنها تعاني من مشكلة تراكم الأخطاء في المقاطع الطويلة.

تجربة ميقات

تتميز الواجهة بأنها سهلة ولا تتطلب إعدادات معقدة، فبعد فتحها من خلال هذا الرابط (https://alinice1998.github.io/miqat/) تختار الرواية، ثم طريقة المزامنة.

بعد ذلك تنقر على زر أكواد التشغيل (COLAB)، فيظهر كود تحتاج إلى نسخه لتشغيله في جوجل كولاب.

ثم تتوجه إلى جوجل كولاب، وتنشئ مفكرة جديدة، ثم تختار Change runtime type.

وتتأكد من اختيار T4 GPU، لكي تحصل على خادم بكرت شاشة يسرع عملية التزمين بدلًا من خادم بـ CPU فقط، ثم تنقر على زر Save للحفظ.

بعد ذلك تنقر على زر Code، ثم تلصق الكود الذي نسخته من واجهة ميقات، وتنقر على زر تشغيل الموجود على جانبه.

وتنتظر عدة دقائق، عادة بين دقيقتين و 3 دقائق، وإذا ظهر لك مربع يسألك فيما إذا كنت تريد عمل إعادة تشغيل للجلسة، تنقر على زر Cancel.

وبعد الانتهاء من تنفيذ الكود، يظهر لك رابط، فتنسخه.

ثم تعود إلى واجهة ميقات، فتضع الرابط في حقل رابط خادم كولاب، ثم تختار السورة التي تريد مزامنتها وترفع الملف الصوتي الخاص بالتلاوة، ثم تنقر على زر بدء المزامنة.

ويختلف الوقت اللازم للمزامنة باختلاف طول السورة، وطريقة المزامنة المختارة، لكنها سريعة نسبيًا، إذ استغرقت معالجة سورة البقرة كاملة بطريقة WhisperX + CTC أقل من 1000 ثانية.

وبعد الانتهاء، يتم تشغيل التلاوة تلقائيًا مع تعليم موضع القراءة.

تعديل توقيت الكلمات أو الآيات

يمكن تشغيل تلاوة كلمة واحدة أو آية واحدة أو تعديل توقيتها بالنقر على الكلمة أو الآية، حيث يمكن التأكد من أن التوقيت مضبوط بشكل دقيق.

وعند النقر على تعديل التوقيت ستظهر أدوات تحكم في الأسفل تتيح تعديل التوقيت، ويمكن التنقل بين الكلمات عبر أسهم لوحة المفاتيح لتسهيل العمل.

وبعد التأكد من أن التوقيتات صحيحة، يمكن تحميلها بـ 3 تنسيقات هي JSON و SRT و VTT.

ماذا عن دقة التزمين؟

تختلف دقة وصحة تحديد التوقيتات للآيات والكلمات باختلاف الطريقة المستخدمة، وكذلك باختلاف طول السورة ووجود أو عدم وجود كلمات زائدة، بالإضافة بالطبع إلى الضجيج وجودة التسجيل الصوتي والصدى، وبناء على اختباراتي تتفوق الطريقة الهجينة في السور الطويلة.

فقد كانت دقة تحديد توقيتات سورة البقرة حوالي 95% للآيات، إذ تضمنت فقط حوالي 19 خطأ، بينما تكون الدقة عالية في معظم الطرق إذا كانت السورة قصيرة (في الطريقة الهجينة: خطأ واحد في سورة الملك، وبلا أي خطأ في سور الإخلاص والفاتحة والتين).

وختامًا، هل لديكم اقتراحات لبرامج ونماذج يمكن إضافتها إلى الواجهة لتجريبها وتحديد مميزات كل منها ومعرفة مدى دقتها؟ وإذا جربتم ميقات فما فهل ترون أن دقته جيدة أم يمكن تحسينها أكثر برمجيًا دون تدريب نماذج، وما هي اقتراحاتكم بهذا الخصوص؟

ملاحظة: منصة ميقات في نسختها الحالية هي عبارة عن حل تجريبي Prototype قابل للتوسعة لاحقًا ليعمل على خادم دائم، حيث أن الاعتماد على Google Colab مصمم لتسهيل التجربة وليس حلاً مخصصًا لبيئة الإنتاج Production.

ويمكن المساهمة في تطوير الواجهة من خلال المستودع المفتوح المصدر على GitHub:

https://github.com/alinice1998/miqat

كما يمكن المساهمة في تطوير طريقة التزمين الهجينة من خلال هذا المستودع:

https://github.com/alinice1998/colabwis

علا صالح

علي ملص

جهد مميز علي فدمجك لنموذج WhisperX مع CTC أعطى نتائج دقيقة بشكل لافت.. جربته على عدة ملفات صوتية بما فيها تسجيلات منخفضة الجودة سجلتها بنفسي وكانت النتائج صحيحة بالكامل لكن كانت عملية التزمين تستغرق وقتًا أطول قليلًا في هذه الحالة لاحظت أيضًا أن النظام لا يدعم امتداد m4a فقمت بتحويل الملفات إلى صيغة mp3 لاختبارها

لدي سؤال حول جزئية استخدامك ل fuzzy matching وطبقة مطابقة هجينة حسبما لاحظت في التجربة النص يتم استيراده مسبقًا عند اختيار السورة يعني لدينا reference text لكل آية والنص لا يتم توليده أو استخلاصه من تحليل الصوت ASR -وفق ما فهمت من تجربتي لميقات- فما فائدة وجود خيار تعديل النص

لو تشرح هذه الجزئية أكثر أو تصحح فهمي لها

المشروع واعد وأقترح أن تتم إضافة مقاييس تقييم دقيقة له مثل WLER و MAE وغيرها لتوثيق دقة النتائج وبخصوص البنية Colab ممتاز كمرحلة تجرييبة لكن لو أردت الانتقال لمرحلة الإنتاج سيكون من الأفضل نقل المعالجة إلى GPU server خاص بالمزامنة أو التفكير في حل آخر يسهل استخدام المشروع

بوركت جهودك أجد أن المشروع واعد جدًا أرجو أن يتم تبينه في تطبيقات التزمين

عادل بن يحي

بارك الله فيك اخي @علي ملص
الشرح واف وكاف ما شاء الله
لدي بعض التعقيبات اخي

اختيارك لدمج نموذجين اختيار مبتكر وجديد، خاصة اختيار نموذجين مختلفين او من الاحسن ان نقول متكاملين
اختيارك ل بيئة colab ، يساعد المطورين والمستخدمين على تجربة التطبيق دون المرور بتعقيدات تنصيب مكتبات وبرامج مختلفة وعادة معقدة وباحجام كبيرة، ارى ان هذا الخيار يجب ان يكون المعيار في هاته التطبيقات وللبيئات التجريبية.
اتخذت منهجا مختلفا، بدل جمع المعطيات و تدريب نموذجك الخاص قمت باختيار احسن النماذج الحالية وهو wisper ثم قمت بمعالجة الخلل في التزامن بإضافة طبقة إضافية من نموذج مختلف او مكمل ان صح التعبير
هل قمت بتجربة نماذج اخرى ؟
هل قمت بتجربية التطبيق على تلاوات اخرى مقال بسرعات مختلفة اسرع او ابطأ؟
هل لاحظت اختلافا في درجة الدقة ما بين التلاوات المختلفة؟
بالنسبة للنص القرآني، هل من الأفضل استعمال نص مختلف لكل رواية مثال في صورة الفاتحة ملك و مالك؟ كل ما وجته في الانترنات هو نص خاص برواية حفص خاصة
هل تستعمل النص القياسي ام الترميز العثماني؟
هل يمكن إضافة طبقة جديدة لتحليل الكلمة بدقة اكبر لدرجة التمكن من أحكام التلاوة والمدود؟

اعتذر عن الاطالة ولكني صراحة متحمس لهذا المشروع بارك الله فيك اخي
في الاخير حبذا لو تضيف مكتبة open-quran-view لتحسين عرض النص القرآني

علي ملص

عادل بن يحي

شكرًا د. عادل، وبارك الله فيك أيضًا.

أنا كنت قد نسيت وضع رابط التطبيق للتجريب في المنشور، وهذا هو https://alinice1998.github.io/miqat فأرجو أن تجربه من خلاله.

وبخصوص أسئلتك فسأجيب عليها بعد قليل بإذن الله.

علي ملص

عادل بن يحي

حياك الله د. عادل، وبوركت على هذه التعقيبات القيمة.

نعم أنا بالفعل استخدمت كولاب لهذه الأسباب التي ذكرتها، ورأيت أنه أسهل من التجريب محليًا بكثير.

وإجابة على أسئلتك المهمة:

هل قمت بتجربة نماذج أخرى؟ قبل الوصول إلى الطريقة الهجينة جربت نماذج عديدة منها نموذج Whisper القياسي، لكن لاحظت أنه يعاني من مشاكل عديدة، خاصة في السور الطويلة، حيث قد يفشل إذا كانت السورة طويلة، ولا يرجع توقيتات، أو قد يتخطى كلمات، ولا تكون دقته عالية على مستوى الكلمات.

وكذلك اختبرت نموذج Wav2Vec2 بمفرده، لكنني لاحظت أن دقته تتراجع كثيرًا كلما طال الملف الصوتي وتتراكم أخطاؤه ويصعب عمل آلية تصحيح برمجيًا، ولذلك دمجت WhisperX مع CTC.

هل قمت بتجربة التطبيق على تلاوات بسرعات مختلفة؟ نعم جربته على سرعات مختلفة، وهو يتعامل مع اختلاف السرعة بشكل ممتاز، ولم ألحظ فرقًا في الدقة باختلاف السرعة، لكنني لم أجرب هذا الجانب بشكل مكثف.
هل لاحظت اختلافًا في درجة الدقة ما بين التلاوات المختلفة؟ إذا كنت تقصد بالتلاوات المختلفة خصائص الملف الصوتي مثل القارئ والصدى والمؤثرات الصوتية، فنعم لاحظت اختلافًا لكن لم يكن الاختلاف كبيرًا، وعمومًا التلاوات المرتلة بوضوح أعطت نتائج شبه خالية من الأخطاء وكانت دقتها أعلى.
بالنسبة للنص القرآني، هل من الأفضل استعمال نص مختلف لكل رواية؟ هذا ما افترضته دون تجربة، لأنه منطقيًا من الأفضل تطابق النص مع الصوت.
هل تستعمل النص القياسي أم الترميز العثماني؟ في الواجهة أستخدم النص العثماني كما تلاحظ، لكن عند المعالجة لا يتم تمرير النص كما هو إلى نماذج الذكاء الاصطناعي، إنما أقوم بتجريد النص بالكامل وتمرير نص مبسط ومجرد من التشكيل ثم أمرره للنماذج، وبعد ذلك أعيد ربط التوقيتات بالنص العثماني الأصلي.
هل يمكن إضافة طبقة جديدة لتحليل الكلمة بدقة أكبر لدرجة التمكن من أحكام التلاوة والمدود؟ ذلك ممكن لكنه يتطلب استخدام نموذج ذكاء اصطناعي مختلف ومدرب على هذا الأمر، وأنا أطمح لذلك، لكن حتى الآن لم أجد نماذج قوية ومدربة جيدة وتتعامل مع الاختلافات، لكن أعتقد ستتوفر نماذج لهذا الأمر في وقت قريب إن شاء الله.

وبخصوص open-quran-view فشكرًا لك على هذا الاقتراح، وسأستخدمها إن شاء الله.

علي ملص

وأيضًا هناك بعض التحسينات البرمجية التي أعتقد ستحسن من دقة التزمين في البرنامج أو تسهل استخدامه، لكنني لم أجربها بعد، وهي:

استخدام نص إملائي مجرد جاهز ومدقق يدويًا بدلًا من معالجة النص العثماني برمجيًا.
عمل زر لإعادة تزمين آية أو كلمة معينة لوحدها، فمع إمكانية التعديل يدويًا يمكن إضافة زر لعمل إعادة تزمين لتلك الآية أو الكلمة، حيث يمكن أن ينتج ذلك دقة أعلى لأنه يتم تزمين ملف قصير.
في مشكلة في طريقة التزمين الهجينة، وهي أن في بعض الآيات ولبعض الحروف فقط قد يتم اقتطاع جزء بسيط من الحرف الأول من أول كلمة من الآية، وأعتقد يمكن حل هذا الأمر برمجيًا، حيث يمكن النظر إلى المسافة الزمنية الفارغة قبل أول كلمة من الآية وإذا كان هناك اتساع (لا تتعارض مع الكلمة الأخيرة من الآية السابقة قبل عمل التمديد الذي تحدثت عنه لتلافي مشكلة الاقتطاع عند المد العارض للسكون)، يتم إضافة 0.2 أو 0.1 ثانية لها في البداية.

ويمكن لأي شخص أن يجرب هذه التحسينات لنطور البرنامج وطريقة التزمين أكثر قبل العمل على إضافتها إلى برنامج منجم إن شاء الله.

علي ملص

علا صالح

شكرًا لك علا على تجريب البرنامج بشكل عميق، وعلى ملاحظاتك.

سبب تأخر المعالجة في الملفات ذات الجودة المنخفضة، هو أنه في التسجيلات الرديئة تزداد أخطاء التعرف على الكلام، مما يجعل خوارزمية Fuzzy/Dynamic Programming تحتاج إلى حسابات أكثر لربط النص المستخلص بالنص المرجعي، ما يطيل وقت المعالجة.

وبخصوص صيغة m4a فهي بالفعل غير مدعومة في الواجهة الخلفية، وهناك خطأ في الواجهة الأمامية يوضح أنها مدعومة.

وأما خيار تعديل النص فهو مفيد في طرق مزامنة أخرى غير الطريقة الهجينة، فالطريقة الهجينة تتعرف وتتجاوز العبارات والكلمات الزائدة، مثل أعوذ بالله من الشيطان الرجيم، وذلك عبر خوارزمية Dynamic Programming، أما طرق أخرى مثل CTC، فتحتاج إلى أن يتطابق النص المرسل تمامًا مع الصوت لكي تكون دقيقة.

واقتراحك بإضافة مقاييس تقييم دقيقة أمر مهم لمعرفة الدقة وتمثيلها بالأرقام، وكذلك أتفق معك في أن كولاب مناسب للتجريب، لكنه غير مناسب للإنتاج. وأنا أستخدمه لأن التجريب باستخدامه سهل، ويوفر الكثير من الوقت عبر إزالة الحاجة إلى تنزيل النماذج والمكتبات محليًا وتشغيلها على موارد جهاز قد تكون ضعيفة.

abdullah Mosaibah

رائع جدا ياعلي، جربته وفعلا الدقة رائعة
متى نقدر نشتغل على منجم مع بعض وندمج المخرجات في مكان واحد 😁

علي ملص

abdullah Mosaibah

شكرًا لك عبدالله، وأنا سعيد أن الدقة قد نالت إعجابك 😍

إن شاء الله أنا جاهز للعمل مباشرة على منجم، لكن لدي بعض التحسينات في بالي، فبرأيك هل نعمل على منجم أولًا ثم نجري تلك التحسينات أم العكس؟

ثبت مجتمعنا كتطبيق لتجربة افضل

انضم إلى نشرة إتقان 📩

انضم إلى نشرة إتقان 📩

شكراً لك!