هل تصلح النماذج اللغوية للاستخدام في كافة تطبيقات القرآن الكريم

هادي الأحمد

السلام عليكم مجتمع إتقان،

أثار اهتمامي الموضوع المطروح سابقاً في المجتمع حول حدود الاستفادة من الذكاء الاصطناعيّ في تطبيقات القرآن الكريم وأردت في الحقيقة المرور على بعض المحدوديّات التي تعاني منها النماذج اللغوية عموماً، وما تؤثّر فيه هذه المحدوديات عند التعامل مع تطبيقات القرآن الكريم، وكيف يمكن التعامل مع هذه المحدوديّات من طرف المطوّر وتجنّب الوقوع في المشاكل الحاصلة بسببها.

عيوب النماذج اللغوية المتأصّلة فيها

هذه مجموعة من العيوب البنيويّة المتأصلة في طريقة عمل النماذج اللغوية، لا يمكن لزيادة القدرات المعالجية أو تطوّر التقنيّات تخطيها ولا إصلاحها، بل هي من لبّ طريقة عمل الأداة؛ فكما لا تصلح المطرقة لفكّ برغيّ، لا تصلح النماذج اللغويّة لحلّ نوعٍ من المشاكل لم تصنع لأجله.

وهذا مهمّ للغاية في سياق تطبيقات القرآن الكريم، فهي تتعامل مع كلام الله، الذي لا يحتمل الخطأ في النقل أو النشر، ولا حتى "بنسب قليلة". وبهذا يصبح استخدام النماذج اللغوية التي تعتمد على التوقع الإحصائيّ للتعامل خطراً وعيباً لا ينفع مع طبيعة القرآن الذي لا يجوز تحريف ولا تغيير ولا تبديل شيء منه مهما صغر أو كبر.

البيانات المستخدمة في التدريب

جودة الإجابات التي تقدمها النماذج اللغوية حول أيّ سؤال أو موضوع يطرح عليها مرتبطة بجودة البيانات التي تستخدم في تدريب هذه النماذج، وفي كثيرٍ من الأحيان، لا يمكن للمستخدم في الحقيقة معرفة هذه البيانات ما لم يدرّب هو بنفسه هذا النموذج.

هذا ما يجعل الكثير من النماذج التجارية المتوفّرة في الأسواق اليوم أداةً يصعب الاعتماد عليها في سياق التطبيقات القرآنية، خصوصاً في المجالات الأكثر حساسيةً مثل التفسير والترجمة، ما لم يعتمد المطوّر على مصادر جيدة لتقديم السياق للنموذج اللغوي، حتى يكون قادراً على معالجتها والبحث فيها والاعتماد عليها في الإجابات.

دون هذا السياق، أنت تعتمد على البيانات الأصليّة التي تدرّبت عليها هذه النماذج، وفي كثير من الأحيان تعمل الشركات الكبرى المدرّبة لهذه النماذج على "العبث" بما يمكن لهذه النماذج الوصول إليه والرد عليه ومعالجته.

النماذج اللغوية صندوق مغلق

يمكن تصنيف خوارزميات تعلم الآلة بشكل أساسي إلى خوارزميات التعلم الموجّه والتعلم غير الموجّه.

في التعلم الموجّه (Supervised Learning)، يتم تدريب النموذج على بيانات مُصنّفة مسبقًا، حيث يكون كل مدخل (input) مرتبطًا بمخرج صحيح (output) محدد. الهدف هنا هو أن يتعلم النموذج العلاقة بين المدخلات والمخرجات لكي يتمكن من التنبؤ بالمخرجات الصحيحة لبيانات جديدة وغير مرئية.

على النقيض، في التعلم غير الموجّه (Unsupervised Learning)، تعطى الخوارزمية بيانات غير مصنفة، وتكون مهمتها هي اكتشاف الأنماط والتركيبات المخفية في هذه البيانات بنفسها، مثل تجميع البيانات المتشابهة في مجموعات (Clustering).

تعتمد النماذج اللغوية الكبيرة (LLMs)، مثل التي تعتمد عليها تطبيقات الذكاء الاصطناعي التوليدي، بشكل أساسي على التعلم الموجّه، حيث تدرب على كميات هائلة من النصوص والبيانات المصنّفة لتتعلم كيفية توليد استجابات منطقية ومتماسكة.

لكن في كلّتا الحالتين، لا يمكن للمطوّر "الإطلاع" على طريقة عمل النموذج اللغويّ من الداخل، فالغرض منه أساساً أن يصل لطريقة عملٍ بنفسه دون تدخّل بشريّ مباشر.

على عكس البرمجيات التقليدية، لا يمكن للمطوّر "تجربة" أداء نموذج لغويّ ما ليضمن تأديته المهمّة ذاتها بالطريقة ذاتها في كلّ المرّات، فالنموذج اللغوي لا يمشي على "خوازرمية ثابتة" للوصول إلى ذات الإجابة في كلّ مرة، بل يسلك طرقاً مختلفة، قد تكون باختلافاتٍ بسيطة لا تأثير لها على النتيجة النهائية، وقد تكون ذات تأثيرٍ هائل على تلك النتيجة.

المشكلة هنا أنّ المبرمج لن يكون قادراً على معرفة الطريق هذا أو تعطيل الطرق غير الصالحة للوصول للإجابة أو التعديل على الخوارزميات الداخلية الناجمة من تعلّم الآلة، ﻷن طريقة وصول النموذج لهذا الجواب مبهمة ومعقّدة ولم تصنع ليكون للمطوّر قدرة النظر فيها والتغيير فيها كما في البرمجيات التقليدية.

يمكن التحايل على هذا باستخدام أوامر النظام - System Prompts وغيرها من الأساليب التي تحاول حصر الإجابات بطريقة معيّنة، لكن هذه نفسه لا يمكن ضمان تطبيقها في كلّ مرة بنفس الطريقة.

ما يعنيه هذا لتطبيقات القرآن الكريم، أنّ أيّ مهمّة متكررةٍ تعتمد على قدرة المطوّر على السيطرة على نتائج النموذج اللغوي بالكامل، لن تكون ممكنة إن كان الهدف الحصول على نتيجة صحيحة بنسبة 100%، وهذا يعني أنّ تطبيقات البحث الدقيق والاقتباس سواء من القرآن الكريم أو من التفاسير، لن تكون قابلة للتنفيذ باستخدام النماذج اللغوية.

ما يمكن إنجازه في هذا السياق هو تطبيقات البحث السياقيّ والبحث التحليليّ للكلمات، حيث يمكن للمبرمج التسامح مع قدرٍ من الخطأ - فالنموذج اللغوي ليس مسؤولاً هنا عن تقديم الإجابة مباشرة، بل تقديم كلمات مفتاحية يتم استخدامها للبحث في مصادر بيانات موثوقة وثابتة.

النماذج اللغوية تهلوس

هلوسة النماذج اللغوية هي إنتاجها لإجابات أو معلومات لا ارتباط لها بالواقع ولا بالبيانات التدريبية، وهي مشكلةٌ قادمةٌ من عدم قدرة النماذج اللغوية التمييز بين ما "تعلمه" وما "تجهله"... فهي في النهاية لا تقدّم بيانات ثابتةٍ من "ذاكرتها" بل تحاول الوصول لإقرب إجابة بطريقة "إحصائيّة" لما يسأله المستخدم.

أي أنّ النماذج اللغوية ليست آلات استعادة للبيانات المحفوظة في داخلها، بل آلات "تحزير" ذات قدرة عاليةٍ على الوصول للإجابة المرجوّة.
في هذا السياق، يجب على المبرمج الذي ينوي استخدام النماذج اللغوية في مشروعه القرآنيّ الحذر من إنتاجات هذه النماذج من الهلوسات، وأن يحاول منع هذا من خلال أوامر النظام وتوفير السياق وغيرها من الأساليب، لكن مع هذا، عليه أن يدرك أنّ هذا من صفات النماذج اللغوية المبنيّة، وأن ينبّه المستخدم عليها، حتّى لا يقع المستخدم في خطأ بسببها.

هذا ما يجوب في خاطري حول هذا الموضوع، وقد حاولت الاقتصار في حديثي على المشاكل المبنيّة لا المشاكل التي يمكن تخطّيها مع الوقت، كحجم السياق الممكن للنماذج اللغوية التعامل معه، والذي من المحتمل أنّ نحلّه مع الوقت مع تطوّر العتاد والنماذج اللغوية نفسها.

هناك بالفعل دراسات حول الموضوع في محاولة لحلّ مشكلة هلوسات النماذج اللغويّة أو مشاكل الدقّة فيها، كهذه الدراسة حول "أفتنا" لتوليد فتاوى دقيقة وتقليل الهلوسة عبر استخدام نموذج لغوي كبير مع تقنية RAG والاعتماد على طبقة فرز ذكية للتأكد من صحة النتائج.

هل لديكم إطلاع على دراسات أخرى في هذا السياق؟ وما هي الحلول التي تعتقدون أنّها من الممكن أن تخفف من هذا الأثر في النماذج اللغوية؟ وإلى أيّ قدر يمكن أن تصل فيها الدقة لتكون صالحة للاستخدام في مجال القرآن الكريم؟

علا صالح

هادي الأحمد
وعليكم السلام ورحمة الله وبركاته،
شكرًا هادي على هذا الطرح المهم وتعريفنا بالتحديات التي ستواجهنا كمطورين في حال استخدمنا النماذج اللغوية في سياق تطبيقات القرآن الكريم فلهذا المجال أهمية وقدسية لا يُسمح معها بأي تساهل ولو بهامش خطأ صغير.
لكن بذات الوقت، لا ينبغي أن تكون هذه التحديات عائقًا أو ذريعة لإقصاء الذكاء الاصطناعي، فالنماذج اللغوية يمكن أن تكون عونًا لا عبئًا إذا أحسنّا تكييفها وقيدناها بالضوابط المناسبة التي تحافظ على قدسية كلام الله وتحميه من أي تحريف أو تغيير.

أعتقد أن أبرز الحلول الحالية في هذا السياق تدور بشكل أساسي حول تقنية التوليد المعزز بالاسترجاع RAG بحيث لا يعتمد النموذج فقط على ما تعلمه أثناء التدريب، بل يستخدم مصادر خارجية لإنتاج إجابات دقيقة كما في تجربة "أفتنا" التي شاركتنا بها، مثلًا لو طبقناها على تطبيق لتفسير القرآن يمكن توفير تفاسير موثوقة (مثل تفسير ابن كثير، والطبري، والقرطبي وغيرها) وإجبار النموذج على الرجوع إليها، وبهذا سنقلّل بدرجة كبيرة من احتمالات "هلوسته" ونوجهه ليعمل كوسيط لاسترجاع المعلومات بدلًا من أن يكون مؤلفًا لها، كما سنقلل بذات الوقت من مشكلة جودة بيانات التدريب حتى لو كانت غير معروفة، أو متحيزة، أو "تم العبث بها" بقصد أو دون قصد.

ومن الحلول المساعدة أيضًا اعتماد الذكاء الاصطناعي القابل للتفسير Explainable AI أو XAI بحيث نعرف كافة المصادر الدقيقة التي تم الاستناد عليها في توليد الإجابة مثلًا لو سألناه عن كافة الآيات التي تحث على الإنفاق في القرآن الكريم وتفسيرها وأسباب النزول إن وجدت، لا نتركه يعطينا الإجابات فقط بل يخبرنا أن "الآية الأولى هي الآية رقم كذا من سورة كذا، وتفسيرها مقتبسٌ من تفسير كذا وكذا في فقرة كذا في صفحة كذا.." وبهذا يمكننا التحقق بنفسنا من أي معلومة ناتجة وقطع الشك باليقين.

من الأبحاث الحديثة التي طالعتها حول استخدام تقنيات RAG لتحسين دقة الاستجابات في مجال القرآن الكريم بحث بعنوان "Investigating Retrieval-Augmented Generation in Quranic Studies" جرت فيه دراسة لثلاثة عشر نموذجًا لغويًا مفتوح المصدر، ودراسة فعالية تطبيق RAG لعدة دراسات قرآنية عليها، ثم تقييم قدرتها على فهم الأسئلة الدلالية، وإنتاج إجابات دقيقة وموثوقة، واختبار مدى وفائها بالمصادر بحيث لا تحرّف ولا تضيف معلومات غير موجودة.

رقية بورية

علا صالح
بالفعل الاعتماد على تقنيات التوليد المعزز بالاسترجاع RAG يُعَد أفضل المتاح حاليًا لحل المشاكل التي أشار إليها صاحب المنشور، لكن بصراحة أريد التنويه لأمر صادفته منذ فترة عند التعامل مع هذه التقنية وربطها بنموذج ذكاء اصطناعي لاسترجاع المعلومات بدقة.
وقتها صادف التطبيق عدة مشاكل أولها صعوبة تعامله مع اللغة العربية بسبب ضعف دعم النموذج الأول المجرب للغة العربية + حاجته لموارد ضخمة ليعمل بشكل صحيح، وهذه الأخيرة في العادة لا تكون إلا بحوزة الشركات التي تضمن توفير موارد جيدة وليست مع المطورين العاديين.

لكن كل تلك المشاكل اختفت بمجرد تغيير النموذج المستخدم في التقنية.

من خلال تلك التجربة تبين أنه لإنجاح العمل بهذه التقنية لا بد من اختيار نموذج ذكاء اصطناعي داعم للغتنا العربية + أن نتأكد من توافق الموارد المتاحة معنا مع إمكانيات النموذج.

لكن بصراحة لا أعرف، هل سيصادف العمل مع نص قرآني برسم عثماني مشاكل إضافية؟ أم أن التعامل معها سيكون سلس باتخاذ التدابير السابقة وحسب!

علا صالح

رقية بورية لكن كل تلك المشاكل اختفت بمجرد تغيير النموذج المستخدم في التقنية.

صحيح رقية قد تختفي كل المشاكل في حال استخدام النموذج الأقوى فكلما زادت قوة النموذج سيعطينا أداءً ممتازًا ودقة عالية لكن هذا قد يكون مناسبًا خلال العمل على التطبيق في البيئة التجربيبة.
لكن عندما سيُرفع التطبيق لبيئة الإنتاج قد تظهر مشكلات عملية بسبب استهلاك هذه النماذج لموارد ضخمة، لا سيما إن احتاج هذا التطبيق لتخديم عدة مستخدمين في نفس الوقت وبسرعة كافية.
لهذا السبب قد يفضل المطورون استخدام نماذج متوسطة الحجم تحقق لهم توازنًا جيدًا بين الأداء والدقة.

خالد

موضوع جميل، ولدي حوله بعض الملاحظات المهمة حوله:

أولًا: من الضروري التنبيه إلى أن النماذج اللغوية ما زالت في بدايتها نسبيًا، ومعظم الملاحظات التي وردت في المقال تنطبق بدرجة أكبر على النماذج مغلقة المصدر مثل ChatGPT أو Claude. في المقابل، فإن النماذج مفتوحة المصدر تمنح المطورين والباحثين فرصة للاطّلاع على تفاصيل عملها الداخلية، مما يفتح مجالًا واسعًا للابتكار والتطوير المستمر.

على سبيل المثال، فإن مشكلة "الهلوسة" التي كانت بارزة جدًا قبل عام أو عامين، تراجعت نسبيًا بفضل تطور تقنيات التدريب وتطور المعماريات المستخدمة في بناء هذه النماذج. ومن هنا، فإن كثيرًا من التحديات التي أشار إليها المقال يمكن أن تُحل مستقبلًا عبر أبحاث متقدمة ومعماريات أحدث. فمن الضروري التأكيد على أهمية البحث في هذا المجال، والتركيز على كيفية جعل النماذج أدوات أكثر التزامًا عند التعامل مع النصوص الدينية أو المقتبسات الأدبية، بحيث تُحافظ على النصوص كما هي دون تحريف أو تعديل غير مقصود.

برأيي هذه الفجوة بين غياب قدرة النموذج على التمييز بين النصوص التي يُنتجها ذاتيًا والنصوص التي ينقلها اقتباسًا تُعد من أهم مجالات البحث المستقبلي. وهي فجوة ملحّة ليس في التطبيقات القرآنية فقط، بل في مختلف التطبيقات التي تستشهد بنصوص القرآن الكريم أو الأحاديث النبوية أو الشعر مثلًا. ومن هنا، فإن النماذج مفتوحة المصدر تمثل مجالًا خصبًا للابتكار، وفرصة ينبغي للمبرمجين الدخول فيها وتجريبها، بما يعزز من تطويع هذه النماذج لحاجات محددة.

ثانيًا: أشار المقال في نهايته إلى فكرة الحلول الوكيلة Agentic Solutions من أفضل الأساليب للتقليل من هلوسة النماذج. فالمطلوب ألا تُستخدم النماذج كما هي مباشرة، بل أن تُدمج داخل أنظمة أوسع تتولى التحقق من مخرجاتها وضبطها عبر ما يُعرف باسم Guardrails.

في التطبيقات القرآنية مثلًا يمكن قبل أن يبدأ النموذج بالرد فرض قاعدة في أوامر النظام System Prompt تنصّ على أن أي آية يقتبسها النموذج يجب أن توضع داخل وسم خاص مثل:

<quran>إِنَّا أَعْطَيْنَاكَ الْكَوْثَرَ</quran>

وبعد أن يرسل النموذج رده، يمر النص على طبقة تحقق داخل التطبيق نفسه Application Layer للتحقق من كل ما يرد داخل هذا الوسم، عبر مقارنته مع نصوص المصحف المعتمدة، للتأكد من عدم وجود أي اختلاف أو تحريف.

النهج المعتمد على بناء طبقات مساندة قبل المخرجات أو بعدها أو بالتوازي معها يُمثل الحل العملي المتاح حاليًا، وخاصة في التطبيقات ذات المخاطر العالية High Stakes Applications والتي تتطلب درجة عالية من الاعتمادية والضبط. ومن هنا، فإن هذه المنهجية قابلة للتطبيق تمامًا في مجال التطبيقات القرآنية.

انضم إلى نشرة إتقان 📩

انضم إلى نشرة إتقان 📩

شكراً لك!