بناء خط معالجة Pipeline لاستخراج النصوص القرآنية وتحويلها لصيغة قياسية

علا صالح

أشارككم في هذا الموضوع خطوات بناء خط بيانات Data Pipeline لاستخراج النصوص القرآنية ضمن نظام متكامل لجمع بيانات القرآن الكريم من أحد المصادر الموثوقة عبر الإنترنت ومعالجتها ثم تصديرها بتنسيقات متعددة بحيث يمكن للمطورين استخدامها مباشرة في مشاريعهم.

أهمية تصميم Pipeline لمعالجة النصوص القرآنية

جمع بيانات دقيقة ومحدثة: تم استخدام واجهة موثوقة لاستخراج النصوص وهي واجهة alquran.cloud/api.
تنظيف وتوحيد النصوص: بإزالة التشكيل منها وتوحيد الحروف لتسهيل البحث والمطابقة النصية.
توفير تنسيقات متعددة: مثل JSON وSQLite لتلبية احتياجات مشاريع مختلفة سواء للويب أو التطبيقات المحلية.
التحقق من صحة البيانات: عن طريق التأكد من اكتمال أعداد السور والآيات التي تم استخراجها.
مرونة وقابلية التوسع: إمكانية إضافة مصادر أو تنسيقات جديدة دون إعادة كتابة البنية الأساسية بالكامل.

مراحل تنفيذ خط البيانات

صممت خط البيانات ليجمع النصوص القرآنية من الواجهة البرمجية التي توفرها منصة Al Quran Cloud كما ذكرت سابقًا، ويمكن بالطبع استخدام أي واجهة أخرى موثوقة توفر المطلوب.

يتضمن خط البيانات عدة أصناف classes رئيسية تعمل بتسلسل سأوضحه تاليًا بإيجاز:

الإعداد والتكوين

تُخزَّن الإعدادات العامة ضمن صنف باسم Config لتسهل تعديلها وإدارتها، تشمل:

عناوين الواجهة البرمجية API الأساسية
المهل الزمنية وحدود الاتصال
الأعداد الكلية المتوقعة للسور والآيات
مسارات افتراضية لملفات الخرج الناتج
كما يصنف التعداد RevelationType السور لمكية ومدنية كما يلي:

class Config:
   API_BASE_URL = "https://api.alquran.cloud/v1"
   TOTAL_SURAHS = 114
   TOTAL_VERSES = 6236
   DEFAULT_OUTPUT_DIR = "quran_output"

تسجيل الأحداث

يُفعَّل نظام تسجيل الأحداث Logging لتوثيق كل مرحلة من مراحل تنفيذ الـ Pipeline وتخزينها في ملف باسم quran_pipeline.log وهذا يفيد في تتبع الأداء ورصد الأخطاء وفهم التسلسل الزمني للعمل.

نماذج البيانات

يتم تعريف هياكل البيانات باستخدام مزخرف Decorator باسم dataclass@ لجعل البنية واضحة وآمنة. فكل آية تخزن ككائن VerseData يتضمن رقم السورة، ورقم الآية، والنص البسيط ونص الرسم العثماني. وباستخدام الخاصية frozen=True ستصبح هذه الكائنات غير قابلة للتعديل بعد إنشائها، مما يمنع أي تغييرات غير مقصودة عليها.

@dataclass(frozen=True)
class VerseData:
   surah_number: int
   verse_number: int
   text_simple: str
   text_uthmani: str = ""

تعريف استثناءات مخصصة

عرفت عدة استثناءات مخصصة Custom Exceptions لمعالجة الأخطاء:

DataCollectionError: في حال فشل في جمع البيانات من الـ API مثل مشاكل الشبكة أو استجابات غير متوقعة.
DataValidationError: عند وقوع خلل في التسلسل أو المحتوى بعد التحقق من البيانات كنقص في عدد الآيات.
DataExportError: في حال حدوث مشكلة أثناء تصدير البيانات لأحد التنسيقات المطلوبة.

جمع البيانات

استخدمت الصنف QuranAPIClient مع المكتبة AIOHTTP لإرسال الطلبات بطريقة غير متزامنة Asynchronous لإرسال عدة طلبات للواجهة البرمجية في نفس الوقت دون انتظار انتهاء كل طلب على حدة لتسريع التنفيذ.

كما أضفت آلية إعادة المحاولة التدريجية Exponential Backoff فعند فشل الاتصال نحاول إرسال الطلب تلقائيًا وهذا يفيد في التعامل مع الأعطال المؤقتة في الشبكة أو الواجهة البرمجية.

معالجة النصوص

ينظف الصنف ArabicTextProcessor النصوص القرآنية ويوحدها لتسهيل البحث والمقارنة، وابرز الوظائف التي يقوم بها:

توحيد الحروف: أي تحويل أشكال حرف الألف المختلفة أ، إ، آ إلى شكل موحد ا.
تنظيف النصوص: إزالة الرموز غير العربية وغير المرغوبة والمسافات الزائدة.
إزالة التشكيل: حذف الحركات لجعل النص أبسط وأكثر ملاءمة للمعالجة الآلية.
دمج النصوص: جمع النصين البسيط وبالرسم العثماني في كائن VerseData يمثل كل آية.

التحقق من البيانات

يتولى الصنف QuranDataValidator فحص جودة البيانات والتأكد من اكتمالها وصحتها قبل اعتمادها، وتشمل مهامه:

التأكد من وجود جميع سور القرآن وعددها 114 وجميع الآيات وعددها 6236، والتحقق من تسلسل الآيات داخل كل سورة بما يطابق الإحصائيات.
التحقق من وجود نص لكل آية وخلوه من أحرف غير عربية، وضمان كون النصوص مرمزة ومقروءة بشكل سليم.
التحقق من منطقية طول كل آية وأنه ضمن نطاق طبيعي (لا قصير جدًا ولا طويل على نحو غير مألوف) لكشف الأخطاء المحتملة في البيانات.
توليد تقرير مفصل للنتائج يتضمن عدد السور والآيات المفحوصة، والمشكلات المكتشفة.

تصدير البيانات

يتولى الصنف QuranDataExporter إنشاء المخرجات ويولد بيانات القرآن الكريم بصيغ مختلفة تشمل تنسيق قاعدة بيانات SQLite وملفات جيسون JSON، كما يتولى الصنف إدارة البيانات الوصفية metadata والتأكد من سلامة التصدير، ويسجل الأحداث والإشعارات عبر أداة logger.

الربط والتنفيذ

يتولى الصنف QuranPipeline ربط وتنسيق جميع المراحل في سير عمل واحد عبر الدالة execute:

جمع البيانات: استرجاع السور والآيات البسيطة والآيات بالرسم العثماني بشكل متزامن.
معالجة النصوص: توحيد الحروف، إزالة التشكيل، ودمج النصوص في كائنات VerseData.
التحقق من الصحة: التأكد من اكتمال السور والآيات وصحة النصوص.
التصدير: إنشاء ملفات JSON شاملة ومبسطة وقاعدة بيانات SQLite وإحصاءات تحليلية.
تسجيل الأحداث: توثيق كل خطوة وتحذير أو خطأ عبر logger.

كما تتولى الدالة main مهمة التنفيذ غير المتزامن لخط المعالجة باستخدام asyncio.run.

لتشغيل التطبيق نكتب:

python quran_pipeline.py

فتظهر لنا تباعًا كل مرحلة من مراحل التنفيذ في التيرمنال على النحو التالي:
Image description

مخرجات خط البيانات

بعد تشغيل الكود البرمجي للـPipeline وانتهاء تنفيذ كافة المراحل المترابطة ينشأ مجلد باسم quran_output في مجلد المشروع يحتوي على المخرجات التالية:

quran_complete.json: يشمل جميع النصوص (النص البسيط والنص بالرسم العثماني) وجميع المعلومات المتعلقة بالسور والآيات.
quran_simple.json: يحتوي النص البسيط فقط ويناسب تطبيقات البحث السريع أو التطبيقات خفيفة الوزن.
quran_database.sqlite: قاعدة بيانات SQLite منظمة تحوي السور والآيات لتسهيل الاستعلامات المحلية.
quran_statistics.json: ملف إحصائي يتضمن ملخصات كعدد الكلمات والحروف وتصنيف السور مكية أم مدنية، ويفيد في دراسات تحليلية أو عرض معلومات إحصائية عامة عن القرآن الكريم.
quran_pipeline.log: سجل كامل لسير العمل يحتوي على الرسائل المهمة والتحذيرات والأخطاء.

الكود البرمجي للمشروع

وفرت الكود الكامل للمشروع على مستودع جيتهب quran_pipeline. أرحب بالاطلاع عليه والمساهمة فيه بالتنبيه لأية أخطاء أو إضافة مصادر جديدة كالتفاسير والترجمات والبيانات الصوتية وغيرها من المصادر القرآنية، أو توفير تنسيقات تصدير أخرى يحتاجها المطورون مثل XML، CSV.

كانت هذه خلاصة تجربتي في بناء Pipeline لمعالجة البيانات القرآنية، أرجو أن تكون نقطة انطلاق لتطوير خط بيانات أكثر تطورًا وشمولية.
أود سماع تجاربكم وآرائكم، هل سبق أن كان لكم تجارب مشابهة في معالجة البيانات أو بناء Pipelines مشابهة، وما الأفكار التي تقترحونها لتطوير هذه الفكرة؟

رقية. ب

مشكورة جدًا يا علا على مشاركة الـ Pipeline وطريقة التنفيذ.
مع ذلك لدي سؤال، ذكرتِ ضمن الخطوات: "إزالة التشكيل من النصوص وتوحيد الحروف لتسهيل البحث والمطابقة النصية" في جزئية “تنظيف وتوحيد النصوص”.
هل برأيك هذا ضروري دائمًا، ألن يتسبب بطول النتائج الظاهرة للمستخدم أحيانًا قبل وصوله للنص المطلوب تحديدًا؟

وهل من طريقة للتدريب على النمطين ببنفس الوقت بحيث يستطيع المستخدم الوصول للنص المطلوب تحديدًا فقط بتشكيله وحروفه الدقيقة عند إدخالها، وفي نفس الوقت يستطيع الوصول إلى كافة الخيارات المتقاربة إذا كتب نصًا بدون تشكيل أو بحروف متقاربة مثل "ا" عوض "أ/ إ/ آ"؟

علا صالح

رقية. ب نعم رقية خطوة إزالة التشكيل ليست خطوة إلزامية وتعتمد على طبيعة نظام البحث. ففي أنظمة البحث القرآني المتقدمة يتم الاحتفاظ بنسخة مشكولة وأخرى منزوعة التشكيل داخل قاعدة البيانات وبذلك يمكن الجمع بين نمطين للبحث:

بحث دقيق Exact Match يعتمد على النص المشكلول.
بحث مرن Normalized Match يعتمد على النص الموحّد لتوسيع النتائج.

تقنيًا يمكن تحقيق ذلك عبر فهرسة مزدوجة أو Tokenization مخصص باستخدام أدوات مثل Elasticsearch بحيث يختار المستخدم نمط البحث بنفسه.

أنصح بمطالعة هذه الدراسة المفصلة التي تتناول خصائص اللغة العربية وتحديات استرجاع المعلومات فيها جزء متعلق بضرورة إزالة التشكيل Diacritic Removal وتوحيد الحروف والتحدي المتعلق بدقة النتائج.

تشير الدراسة لأن عملية إزالة التشكيل سريعة جداً وفعالة حسابياً بينما محاولة استرداد التشكيل Diacritic Recovery مكلفة وتجعل فهرسة كميات كبيرة من النصوص أمر مستهلك للكثير من الموارد.

أيضًا بالنسبة لتوحيد الحروف Letter Normalization هو ضروري للتعامل مع الخصائص الإملائية للغة العربية فقد يؤدي التمييز بين الأشكال المختلفة للحروف المتشابهة لإلحاق ضرر بفعالية الاسترجاع ويفضل التوحيد على محاولة تصحيح الأخطاء في كتابة الحرف لزيادة الكفاءة.

دينا أحمد

المشروع ده فعلا أهميته في إعادة استخدامه وتوفيره للوقت والجهد مع الموثوقية، ممكن توضحي لي يا علا ازاي ممكن نعيد استخدام الـPipeline ده في مصادر تانية للبيانات القرآنية زي الترجمات أو التفاسير؟

علا صالح

دينا أحمد
نعم دينا يمكن بسهولة تعديل كود Pipeline للتعامل مع أي مصدر بيانات قرآني آخر.

للقيام بذلك نحتاج للتعديلات الأساسية التالية:

نضيف في نموذج البيانات VerseData حقول جديدة لتمثيل الترجمة أو التفسير مثلاً: حقل للتفسير tafsir_text
في صنف جمع البيانات QuranAPIClient نعدل الدالة get_verses لتجلب التفسير أو نعرف دالة جديدة get_tafsir_by_edition لجلبه أو ننشئ class جديد لتوفير الخدمة إذا كان المصدر API مختلفًا تمامًا.
في كود معالجة النص ArabicTextProcessor نعدل الدالة merge_verse_texts لتشمل دمج البيانات الجديدة في نموذج VerseData المحدث.
في كود التحقق QuranDataValidator نحدث منطق التحقق ليشمل فحص جودة النصوص الجديدة.
في كود التصدير QuranDataExporter نضيف أعمدة جديدة لجدول قاعدة البيانات ونحدث استعلامات إدراج البيانات، ونضيف حقول جديدة لملف JSON لكل آية، ويمكن إنشاء ملفات مخصصة للحقول الجديدة كالتفسير أو الترجمة وإضافة إحصائيات جديدة حول البيانات المضافة.
في صنف التنسيق QuranPipeline نعدل دالة execute لاستدعاء الخطوات الجديدة وتمرير البيانات عبر مختلف مراحل الـ Pipeline.

في الرابط التالي كود Pipeline معدل يجلب تفسير الجلالين من الواجهة البرمجية Alquran.cloud إلى جانب جلب نصوص الآيات: github.com/engsaleh/quran_pipeline_Tf

عبدالوهاب الهندي

ما شاء الله، جزاكي الله خيراً أخت @علا صالح على المجهود والمشاركة، لدي بعض الاستفسارات من فضلك

١. ماهو الهدف الرئيسي من بناء هذا ال pipeline؟ هل هناك use cases حقيقية دفعتكِ لذلك؟ (خصوصاً مع إمكانية الحصول على البيانات القرآنية وتحميلها من مصادر معروفة ومتعددة مثل مجمع الملك فهد، quran.com، mp3quran، وغيرهم)
٢. لماذا تم اختيار https://alquran.cloud/api بالتحديد؟ لماذا مثلا ليس quran.com باعتبارهم جهة أكبر وأقدم -على حسب علمي-؟
٣. هل تم أخذ موافقة الجهة المالكة/الناشرة لهذه البيانات https://islamic.network على استخراج البيانات وتوفيرها offline للناس؟ خصوصاً أنهم موفرين APIs للاستفادة من هذه البيانات (ومما لا يخفى التكاليف المرتبة على ذلك وتشمل البنية التحتية والخوادم وتطوير وإدارة هذا ال APIs .. ولا كان أتاحوا كل هذه البيانات للتنزيل بشكل مباشر) الهدف بصراحة هو التأكد من عدم وجود أي إشكالات شرعية وأود سماع رأيك في ذلك

علا صالح

أشكرك أخ عبدالوهاب الهندي على هذه الاستفسارات المفيدة:

لدابة كان هدفي من الـ Pipeline تعليمي لتوضيح تجربة عملية تنظم جلب البيانات القرآنية ومعالجتها برمجيًا لكل مطور قد يحتاج لبناء نموذج مشابه، ولم يكن الهدف إنتاج محتوى قرآني بالمقام الأول.
اخترت alquran.cloud/api لكونها واجهة مجانية ومفتوحة المصدر وهي سهلة الاستخدام ولا تحتاج مفتاح API Key وتوفر بياناتها بصيغة JSON فكان من السهل دمجها مع الـ Pipeline بسرعة ودون تعقيدات. ويمكن بالطبع يمكن استبدال المصدر بواجهة quran.com فهي يلا شك من أفضل المصادر المجانية الموثوقة للنصوص القرآنية وتتميز بشمولية المحتوى وغناه وقد استخدمتها في تجربة سابقة ففضلت تجريب واجهة أخرى في هذا الموضوع.
بالنسبة لحقوق الاستخدام: اعتمدت على ما نشر في الصفحة الرئيسية لمنصة Al Quran Cloud ففي قسم Open Source مذكور:
All code for this app is open source and built with open source tools.
وفي قسم “Open Media” مذكور:
Quran audio, ayah images, the database everything is available for use
بناء عليه استخدمت الواجهة بشكل مفتوح.
ورغم ذلك، أشاركك الرأي في أهمية مراسلة الجهة المالكة لتأكيد الإذن الصريح قبل نشر النسخ غير المتصلة بالإنترنت سأعدل ملف README للإشارة إلى هذا الأمر.

Image description

انضم إلى نشرة إتقان 📩

انضم إلى نشرة إتقان 📩

شكراً لك!