نظمت كل من جامعة الملك فهد للبترول والمعادن، وجمعية مكنون، ومجتمع إتقان، يوم السبت الأول من ذي القعدة 1447ه، الموافق لـ 18 أبريل 2026، ورشة بيانات التلاوات وتوسيمها لمواءمة تقنيات التسميع؛ التي استمرت لـ 3 ساعات ونصف عبر برنامج Zoom، بهدف فهم وبناء تصور متكامل حول توفر بيانات التلاوات وجاهزيتها لبناء وتدريب نماذج الذكاء الاصطناعي في مجال التسميع، والخروج بتوصيات لرفع مستوى جاهزية التلاوات وآليات جمعها وتوسيمها.
محاور النقاش

حضر الورشة أكثر من 70 مطور وباحث ومهتم، وتمت مناقشة عدة محاور، أهمها:
- استعراض آليات جمع البيانات الحالية وتوسيمها
- مواءمة منهجية جمع البيانات وتوسيمها وضبط الجودة
- استعراض التطبيقات والمنتجات الحالية لتصحيح التلاوة والتسميع
- التوصيات وخطة التنفيذ والمتابعة
إدارة الورشة

أدار الورشة د. صدام العزاني، الباحث في مجال الذكاء الاصطناعي ضمن مركز الأبحاث المشترك بين سدايا وجامعة الملك فهد للبترول والمعادن (SDAIA-KFUPM Joint Research Center for AI)، حيث يقود اهتماماته البحثية في مجالات:
تعلم الآلة (Machine Learning)
معالجة اللغة الطبيعية (NLP)
الرؤية الحاسوبية (Computer Vision)
التعلم العميق والذكاء الاصطناعي التوليدي
وقد أسهمت إدارته في توجيه النقاشات بشكل عملي، وربط الطروحات البحثية بالتطبيقات الواقعية، مع التركيز على التحدي المحوري في هذا المجال: جودة البيانات وتوسيمها.
أبرز المساهمات والنقاشات
شهدت الورشة طرحًا ثريًا جمع بين الخبرة البحثية والتجارب التطبيقية، وفيما يلي أبرز المساهمات:
1. منهجية توسيم البيانات للدكتور وصفي الخطيب
شارك د. وصفي الخطيب من جامعة الملك فهد للبترول والمعادن عرضًا يوضح الهدف من توسيم البيانات، مع تقديم مقترح لطريقة التوسيم التي من شأنها رفع الدقة وتقليل عمل الموسم في المرحلة الموالية.
اقترح د. وصفي منهجية توسيم متعددة المراحل تعتمد على إعداد نص قياسي للموسم، ثم توسيم أولي من متخصص، ثم مراجعة التوسيم لضمان الجودة.
وقد تم التأكيد على أهمية اعتماد توسيم يعكس النطق الفعلي للمتعلم بدل الاكتفاء بالنص القياسي، بما يتيح تدريب النماذج على اكتشاف الأخطاء كما تقع في الواقع. كما طُرحت مقاربات لتبسيط عملية التوسيم، عبر الاعتماد على الرسم الإملائي وتقليل عدد الرموز المستخدمة، مع الاكتفاء بوسوم محدودة تعبّر عن حالات مثل الوقف والأخطاء والضوضاء.
2. تجربة فريق مسراج AI
شاركت م.زينة الدلال من فريق مسراج AI تجربة بدأها فريقها من 3 سنوات، قائمة على التوسيم بطريقة متقاربة من الطريقة التي اقترحها د.وصفي الخطيب، وذكرت أن جهدهم الأساسي كان على التنميط أكثر من تدريب النموذج.
كما لخصت م.زينة أبرز ما خلصت له تجربة مسراج AI كالتالي:
- النموذج يتعلم أفضل عبر النص المنطوق أكثر من النص المكتوب
- الموسمين في العادة من خارج المجال التقني، وارتكاب الأخطاء يبقى واردًا مهما بلغت دقتهم، وعمل أكثر من موسمين على نفس التسجيل يعطي نتائج أفضل.
- التدريب المكثف للنموذج على السورة الواحدة أو عدد بسيط من السور يجعل النموذج حافظًا لها، فينعكس ذلك سلبًا على جودة عمله.
- ضرورة أخذ تسجيلات متنوعة لتدريب النموذج جيدًا، ومحاولة محاكاة ظروف القارئ العادي، مع تدريب النموذج على كامل المصحف عوض الاكتفاء بسورة أو عدد بسيط من السور.
3. تجربة مشروع التعليم الآلي للقرآن الكريم وعلومه
شارك د.يحيى محمد الحاج، وهو باحث بالمركز العربي للأبحاث بقطر، تجربة بناء مشروع التعليم الآلي للقرآن الكريم وعلومه، الذي اعتمدوا فيه على تسجيل مجموعة من طلاب جمعية خيرية لتحفيظ القرآن في الرياض من أعمار 16 إلى 35 سنة.
أشار د.يحيى إلى عملهم على إعداد قاعدة بيانات صوتية باعتماد نظام ترميز صوتي للحروف وأحكام نطقها، كما عملوا على تقطيع الأصوات وترميزها إلى 3 مستويات هي: مستوى الكلمة، مستوى الفونيم، مستوى الألوفون.
4. تجربة مشروع المعلم القرآني
شارك عبد الله يوسف، وهو مسؤول مشروع المعلم القرآني وباحث وطالب دراسات عليا، تجربة فريقه في تدريب نموذج ذكاء اصطناعي قادر على اكتشاف أخطاء متعلمي القرآن من حروف وحركات وتجويد.
يركز مشروع المعلم القرآني على حل مشكلة عدم وجود رسم يطابق المنطوق، ولهذا تم التركيز على قوة التوصيف، حيث اعتمدوا على نمط العلماء المسلمين في توصيف القواعد وليس على IPA، كما علموا على إضافة 33 فونيم، واتبعوا الخطوات التالية في العمل:
- تجميع تلاوات من قراء متقنين جدًا من الحذاق المتاحين بالنت
- تقسيم التلاوات حسب الوقف وليس الآية
- تحويل الرسم الإملائي للرسم العثماني
- تحويل الرسم العثماني للرسم الصوتي للقرآني الكريم.
- تدريب النموذج على معمارية Wav2Vec2BERT بالاعتماد على CTC متعدد المستويات
أعطى النموذج نتائج دقيقة بشكل ملحوظ، نتيجة التوسيم الدقيق.
5. تجربة شركة GainInsight في مشروع القطب المغاربي للسيادة الرقمية
شارك أ.محمد مزيردة، وهو مؤسس شركة GainInsight تجربة فريقه في توسيم البيانات الصوتية وفق رواية ورش عن نافع، مع التركيز على أهمية "الوقف الهبطي" كمعيار تقني محلي يضمن دقة أنظمة الذكاء الاصطناعي؛ وقد شارك مجموعة من الملاحظات من تجربتهم أهمها أن:
- فقر البيانات الوصفية Mete data هو الثغرة الحقيقية
- نموذج رواية ورش يعتبر نموذجًا مثاليًا
- ضرورة تحويل علامات الوقف إلى وسوم إدراكية
وقد أشار أ.محمد مزيردة إلى أنهم قد وصلوا إلى قاعدة بيانات دقيقة بنسبة 99 بالمئة بسبب احترام جودة هندسة الآلة وليس بكثرة البيانات. كما أكد أن عملهم لا يربط آية بآية بل يعلم الآلة كيف تقرأ الوقف الهبطي وكيف تعي النمط الإدراكي للرواية.
توصيات ومقترحات من المشاركين في النقاشات
قدم عدة حضور مجموعة من المقترحات والتوصيات لرفع جودة التعامل مع البيانات وتوسيمها، شملت:
- توفير منصة موحدة للبيانات وقواعد البيانات وتوسيمها
- التوسيم الجيد للبيانات حسب اللهجة والقارئ، مع توحيد آلية التوسيم
- إشراك الباحثين والجامعيين في العمل على التوسيم
- تخصيص مشاريع لتوسيم المدود حصرًا أو تحديد الصفات التي تتأثر بها صحة تلاوة القارئ
كما تمت مشاركة بعض التوصيات لرفع جودة النماذج وتمثلت في:
- تعليم أحكام التجويد باستخدام الإشارات الصوتية (الاهتزازات/الذبذبات).
- إضافة طبقة إضافية لمراعاة طبيعة لهجة القارئ.
- تدريب الآلة على بيانات أكثر تنوعًا لإعطائها كفاءة أعلى.
تبادل الخبرات والتعاون
شهدت الورشة تفاعلًا إيجابيًا على مستوى التعاون، حيث تبادل المشاركون مشاريعهم وبيانات التواصل الخاصة بهم، ومن أبرز ما تم التأكيد عليه:
- بدء العمل على منهجيات مشتركة بالتعاون مع فريق مكنون.
- مساعٍ لربط مشروع المعلم القرآني بجهات تمتلك بيانات أكبر (مثل شركة RDI) لدعم التدريب وتحسين النتائج.