توصيات ورشة بيانات التلاوة وتوسيمها لمواءمة تقنيات التسميع

إدارة المجتمع

نظمت كل من جامعة الملك فهد للبترول والمعادن، وجمعية مكنون، ومجتمع إتقان، يوم السبت الأول من ذي القعدة 1447ه، الموافق لـ 18 أبريل 2026، ورشة بيانات التلاوات وتوسيمها لمواءمة تقنيات التسميع؛ التي استمرت لـ 3 ساعات ونصف عبر برنامج Zoom، بهدف فهم وبناء تصور متكامل حول توفر بيانات التلاوات وجاهزيتها لبناء وتدريب نماذج الذكاء الاصطناعي في مجال التسميع، والخروج بتوصيات لرفع مستوى جاهزية التلاوات وآليات جمعها وتوسيمها.

محاور النقاش

حضر الورشة أكثر من 70 مطور وباحث ومهتم، وتمت مناقشة عدة محاور، أهمها:

استعراض آليات جمع البيانات الحالية وتوسيمها
مواءمة منهجية جمع البيانات وتوسيمها وضبط الجودة
استعراض التطبيقات والمنتجات الحالية لتصحيح التلاوة والتسميع
التوصيات وخطة التنفيذ والمتابعة

إدارة الورشة

أدار الورشة د. صدام العزاني، الباحث في مجال الذكاء الاصطناعي ضمن مركز الأبحاث المشترك بين سدايا وجامعة الملك فهد للبترول والمعادن (SDAIA-KFUPM Joint Research Center for AI)، حيث يقود اهتماماته البحثية في مجالات:
تعلم الآلة (Machine Learning)
معالجة اللغة الطبيعية (NLP)
الرؤية الحاسوبية (Computer Vision)
التعلم العميق والذكاء الاصطناعي التوليدي
وقد أسهمت إدارته في توجيه النقاشات بشكل عملي، وربط الطروحات البحثية بالتطبيقات الواقعية، مع التركيز على التحدي المحوري في هذا المجال: جودة البيانات وتوسيمها.

أبرز المساهمات والنقاشات

شهدت الورشة طرحًا ثريًا جمع بين الخبرة البحثية والتجارب التطبيقية، وفيما يلي أبرز المساهمات:

1. منهجية توسيم البيانات للدكتور وصفي الخطيب

شارك د. وصفي الخطيب من جامعة الملك فهد للبترول والمعادن عرضًا يوضح الهدف من توسيم البيانات، مع تقديم مقترح لطريقة التوسيم التي من شأنها رفع الدقة وتقليل عمل الموسم في المرحلة الموالية.

اقترح د. وصفي منهجية توسيم متعددة المراحل تعتمد على إعداد نص قياسي للموسم، ثم توسيم أولي من متخصص، ثم مراجعة التوسيم لضمان الجودة.

وقد تم التأكيد على أهمية اعتماد توسيم يعكس النطق الفعلي للمتعلم بدل الاكتفاء بالنص القياسي، بما يتيح تدريب النماذج على اكتشاف الأخطاء كما تقع في الواقع. كما طُرحت مقاربات لتبسيط عملية التوسيم، عبر الاعتماد على الرسم الإملائي وتقليل عدد الرموز المستخدمة، مع الاكتفاء بوسوم محدودة تعبّر عن حالات مثل الوقف والأخطاء والضوضاء.

2. تجربة فريق مسراج AI

شاركت م.زينة الدلال من فريق مسراج AI تجربة بدأها فريقها من 3 سنوات، قائمة على التوسيم بطريقة متقاربة من الطريقة التي اقترحها د.وصفي الخطيب، وذكرت أن جهدهم الأساسي كان على التنميط أكثر من تدريب النموذج.

كما لخصت م.زينة أبرز ما خلصت له تجربة مسراج AI كالتالي:

النموذج يتعلم أفضل عبر النص المنطوق أكثر من النص المكتوب
الموسمين في العادة من خارج المجال التقني، وارتكاب الأخطاء يبقى واردًا مهما بلغت دقتهم، وعمل أكثر من موسمين على نفس التسجيل يعطي نتائج أفضل.
التدريب المكثف للنموذج على السورة الواحدة أو عدد بسيط من السور يجعل النموذج حافظًا لها، فينعكس ذلك سلبًا على جودة عمله.
ضرورة أخذ تسجيلات متنوعة لتدريب النموذج جيدًا، ومحاولة محاكاة ظروف القارئ العادي، مع تدريب النموذج على كامل المصحف عوض الاكتفاء بسورة أو عدد بسيط من السور.

3. تجربة مشروع التعليم الآلي للقرآن الكريم وعلومه

شارك د.يحيى محمد الحاج، وهو باحث بالمركز العربي للأبحاث بقطر، تجربة بناء مشروع التعليم الآلي للقرآن الكريم وعلومه، الذي اعتمدوا فيه على تسجيل مجموعة من طلاب جمعية خيرية لتحفيظ القرآن في الرياض من أعمار 16 إلى 35 سنة.

أشار د.يحيى إلى عملهم على إعداد قاعدة بيانات صوتية باعتماد نظام ترميز صوتي للحروف وأحكام نطقها، كما عملوا على تقطيع الأصوات وترميزها إلى 3 مستويات هي: مستوى الكلمة، مستوى الفونيم، مستوى الألوفون.

4. تجربة مشروع المعلم القرآني

شارك عبد الله يوسف، وهو مسؤول مشروع المعلم القرآني وباحث وطالب دراسات عليا، تجربة فريقه في تدريب نموذج ذكاء اصطناعي قادر على اكتشاف أخطاء متعلمي القرآن من حروف وحركات وتجويد.

يركز مشروع المعلم القرآني على حل مشكلة عدم وجود رسم يطابق المنطوق، ولهذا تم التركيز على قوة التوصيف، حيث اعتمدوا على نمط العلماء المسلمين في توصيف القواعد وليس على IPA، كما علموا على إضافة 33 فونيم، واتبعوا الخطوات التالية في العمل:

تجميع تلاوات من قراء متقنين جدًا من الحذاق المتاحين بالنت
تقسيم التلاوات حسب الوقف وليس الآية
تحويل الرسم الإملائي للرسم العثماني
تحويل الرسم العثماني للرسم الصوتي للقرآني الكريم.
تدريب النموذج على معمارية Wav2Vec2BERT بالاعتماد على CTC متعدد المستويات

أعطى النموذج نتائج دقيقة بشكل ملحوظ، نتيجة التوسيم الدقيق.

5. تجربة شركة GainInsight في مشروع القطب المغاربي للسيادة الرقمية

شارك أ.محمد مزيردة، وهو مؤسس شركة GainInsight تجربة فريقه في توسيم البيانات الصوتية وفق رواية ورش عن نافع، مع التركيز على أهمية "الوقف الهبطي" كمعيار تقني محلي يضمن دقة أنظمة الذكاء الاصطناعي؛ وقد شارك مجموعة من الملاحظات من تجربتهم أهمها أن:

فقر البيانات الوصفية Mete data هو الثغرة الحقيقية
نموذج رواية ورش يعتبر نموذجًا مثاليًا
ضرورة تحويل علامات الوقف إلى وسوم إدراكية

وقد أشار أ.محمد مزيردة إلى أنهم قد وصلوا إلى قاعدة بيانات دقيقة بنسبة 99 بالمئة بسبب احترام جودة هندسة الآلة وليس بكثرة البيانات. كما أكد أن عملهم لا يربط آية بآية بل يعلم الآلة كيف تقرأ الوقف الهبطي وكيف تعي النمط الإدراكي للرواية.

توصيات ومقترحات من المشاركين في النقاشات

قدم عدة حضور مجموعة من المقترحات والتوصيات لرفع جودة التعامل مع البيانات وتوسيمها، شملت:

توفير منصة موحدة للبيانات وقواعد البيانات وتوسيمها
التوسيم الجيد للبيانات حسب اللهجة والقارئ، مع توحيد آلية التوسيم
إشراك الباحثين والجامعيين في العمل على التوسيم
تخصيص مشاريع لتوسيم المدود حصرًا أو تحديد الصفات التي تتأثر بها صحة تلاوة القارئ

كما تمت مشاركة بعض التوصيات لرفع جودة النماذج وتمثلت في:

تعليم أحكام التجويد باستخدام الإشارات الصوتية (الاهتزازات/الذبذبات).
إضافة طبقة إضافية لمراعاة طبيعة لهجة القارئ.
تدريب الآلة على بيانات أكثر تنوعًا لإعطائها كفاءة أعلى.

تبادل الخبرات والتعاون

شهدت الورشة تفاعلًا إيجابيًا على مستوى التعاون، حيث تبادل المشاركون مشاريعهم وبيانات التواصل الخاصة بهم، ومن أبرز ما تم التأكيد عليه:

بدء العمل على منهجيات مشتركة بالتعاون مع فريق مكنون.
مساعٍ لربط مشروع المعلم القرآني بجهات تمتلك بيانات أكبر (مثل شركة RDI) لدعم التدريب وتحسين النتائج.

Mayada Helmy

إدارة المجتمع
بارك الله في جهود كل القائمين على الورشة: جامعة الملك فهد للبترول والمعادن، وجمعية مكنون، ومجتمع إتقان. ونتطلع إلى النسخ القادمة من الورشة لمتابعة ما تم تحقيقه من التوصيات الحالية وبناء رؤى تسهم في تطوير بيانات التلاوة وتوسيمها لمواءمة تقنيات التسميع.

نأمل أن نرى الأفكار والجهود تتحول إلى نماذج حقيقية، وتعزيز ربط مشاريع قائمة وفاعلة بجهات ذات إمكانات أكبر لتطويرها كما في مشروع "المعلم القرآني".

علا صالح

إدارة المجتمع

الورشة كانت ثرية جدًا واستفدت منها كثيرًا لكن الطرح كان مكثفًا. ربما لو قسمت المساهمات على عدة أيام بحيث يخصص لكل يوم محور سيكون ذلك أدعى لفهم أعمق وتفاعل أكبر كما آمل إتاحة عروض ومواد المتحدثين للرجوع إليها لاحقًا

فيما يخص التوصيات لفتتني فكرة إنشاء منصة موحدة لبيانات التلاوة وتوحيد آليات التوسيم خاصة مع تحدي تشتت البيانات وهنا تبرز أهمية مناقشة كيف يمكن تصميم منصة تخدم مختلف الجهات دون تعقيد؟
هل الأنسب الاعتماد على crowdsourcing أم فرق متخصصة أم مزيج بينهما؟ وكيف يمكن ضمان جودة التوسيم مع التوسع؟

شخصيًا أرى أن الخطوة العملية لتنفيذ الفكرة هي تبني نموذج تعاوني مفتوح مع وجود آليات مراجعة واضحة لتسريع التقدم وتجنب تكرار الجهود.

ننتظر الخطوات القادمة والمبادرات العملية لتحويل التوصيات إلى واقع ملموس

جزاكم الله خيرًا وبارك في جهودكم جميعًا.

عادل بن يحي

السلام عليكم كنت سعيدا بالمشاركة في هاته المبادرة، كان هناك حماس كبير ونقاش مثمر ما شاء الله.

اعجبتني فكرة الترميز الصوتي لاحكام التجويد في القرآن في برنامج المعلم القرآني
رغم ان الترميز بني خصيصا لرواية حفص الا انه قابل للتطبيق على رواية ورش والروايات الأخرى
اجابنا مطور البرنامج أن هناك تطابقا كبيرا بين الاحكام في الروايات، ويمكن إضافة قواعد إضافية خاصة بكل رواية بسهولة

mmzerda

كانت الورشة خطوة ممتازة نحو توحيد الجهود البحثية في مجال التلاوات. وبناءً على ما تم طرحه من تجارب متنوعة، أقترح تخصيص ورش تقنية معمقة (Deep-Dive) تركز على 'معايير التوسيم الإدراكي' وتطبيقاتها في الروايات القرآنية المختلفة (مثل رواية ورش)، بعيداً عن حصر النماذج في رواية حفص فقط.

أؤكد على أهمية تحويل التوصيات إلى 'مكتبة أكواد معيارية' (Standardized Library) يمكن للمطورين والباحثين استخدامها مباشرة، وهو ما أسعى لتطويره حالياً من خلال شركة GainInsight، حيث نركز على معايير مثل 'الوقف الهبطي' كأداة تقنية لرفع دقة أنظمة الذكاء الاصطناعي. أنا على أتم الاستعداد للمساهمة في تنظيم أو تقديم ورش عمل تقنية مستقبلية تخدم هذا التوجه وتساهم في بناء قاعدة بيانات صوتية عالية الجودة.

بخصوص مداخلتي التي لم يسعفني الوقت لإتمامها في الورشة، أود التأكيد على نقطة جوهرية تتعلق بـ معيار IEEE P4011.

إن دمج هذا المعيار في مشاريعنا، خاصة في سياق البيانات القرآنية والتلاوات، يمثل الركيزة الأساسية لضمان التوافقية (Interoperability) والسيادة الرقمية للبيانات. إننا في شركة GainInsight نعمل على مواءمة منهجيات توسيم البيانات التي ناقشناها مع متطلبات هذا المعيار، لضمان بناء نماذج ذكاء اصطناعي لا تقتصر على الدقة التقنية فحسب، بل تراعي أيضاً البُعد المعياري والقابلية للاعتماد دولياً.

يسعدني أن أضع هذا التوجه كقيمة مضافة لأي تنسيق قادم مع فريق إتقان أو مع الزملاء المشاركين في مشاريع التعليم الآلي للقرآن الكريم.

mmzerda

أحسنتِ الطرح يا أستاذة @علا صالح، هذه التساؤلات هي جوهر التحدي. من وجهة نظري التقنية، النموذج الأنسب هو 'المزيج الهجين' (Hybrid Model): فرق متخصصة لوضع المعايير (Standardization) ومراجعة الجودة، مع الاعتماد على crowdsourcing ضمن أطر عمل صارمة (Validation Pipelines).

في GainInsight، نحن نرى أن المنصة الموحدة لن تنجح إلا إذا بنيت على 'بروتوكولات تبادل بيانات معيارية' (مثل IEEE P4011)، بحيث لا تكون المنصة مجرد مستودع، بل 'محرك توافقية'. يسعدني جداً أن نشارك في نقاش تقني متخصص حول 'تصميم هذه المنصة' في حال قرر المجتمع الانتقال للخطوة العملية القادمة.

ثبت مجتمعنا كتطبيق لتجربة افضل

انضم إلى نشرة إتقان 📩

انضم إلى نشرة إتقان 📩

شكراً لك!