تصميم محرك بحث متقدم للقرآن الكريم قائم على الجذور وصيغ الكلمات

عادل بن يحي

المقدمة

يمثل البحث في القرآن الكريم تحديات فريدة لا تظهر في اللغة الإنجليزية أو معظم اللغات الأخرى. اللغة العربية لغة غنية اشتقاقياً؛ إذ يمكن لجذر واحد أن ينتج عشرات الكلمات المرتبطة بالمعنى نفسه، كما تتغير الكلمة الواحدة بتغير السياق، الزمن، أو الصيغة. لهذا السبب، يفشل البحث النصي التقليدي عندما يحاول المستخدم الوصول إلى المعنى الكامل بدل التطابق الحرفي فقط.

في هذا التحديث، قمت بتطوير محرك البحث في تطبيق Open Mushaf مفتوح المصدر ليكون أكثر ذكاءً وعمقاً، مع دعم البحث حسب:

النص المباشر داخل الآية
بحث تقريبي يلتقط الأخطاء الإملائية والاختلافات البسيطة
صيغة الكلمة بغض النظر عن تصريفها
الجذر اللغوي للكلمة

والأهم من ذلك:
جميع عمليات البحث تعمل بالكامل دون اتصال بالإنترنت، دون خوادم، دون API، ودون أي معالجة سحابية ولا ذكاء اصطناعي.

في هذا المقال، أشرح كيف تم بناء هذا المحرك خطوة بخطوة، بدءاً من البيانات اللغوية، مروراً بهياكل التخزين والخوارزميات، وصولاً إلى تنفيذ البحث والأداء داخل تطبيق React Native.

🔗 التطبيق مفتوح المصدر:
https://github.com/adelpro/open-mushaf-native

فهم علم الصرف العربي

قبل الغوص في التطبيق التقني، دعونا نفهم ما يجعل اللغة العربية فريدة.

نظام الجذور (الجذر)

الكلمات العربية مبنية من جذور ثلاثية (عادة 3 حروف صامتة) تحمل معنى دلالياً أساسياً. على سبيل المثال، الجذر ك-ت-ب (K-T-B) يتعلق بـ "الكتابة":

الجذر: كتب (K-T-B)

├── كَتَبَ (kataba) - كتب (هو)

├── يَكْتُبُ (yaktubu) - يكتب (هو)

├── كِتَاب (kitaab) - كتاب

├── كَاتِب (kaatib) - كاتب

├── مَكْتُوب (maktuub) - مكتوب

├── مَكْتَبَة (maktaba) - مكتبة

└── كُتُب (kutub) - كتب (جمع)

الصيغة

الصيغة هي الشكل القاموسي للكلمة.

في اللغة العربية:

للأفعال: صيغة الماضي للمفرد المذكر الغائب (مثل: كَتَبَ)
للأسماء: صيغة المفرد المذكر (مثل: مُؤْمِن)

جميع التصريفات والإعرابات تعود إلى صيغتها الأساسية:

الصيغة: كَتَبَ (kataba - "كتب")

├── كَتَبَ - كتب (هو)

├── كَتَبْتُ - كتبت (أنا)

├── كَتَبْنَا - كتبنا (نحن)

├── يَكْتُبُ - يكتب (هو)

├── تَكْتُبُ - تكتب (أنت/هي)

└── اكْتُبْ - اكتب! (أمر)

لماذا هذا مهم للبحث

عندما يبحث المستخدم عن "كتب"، فمن المحتمل أنه يريد العثور على:

جميع الآيات التي يأمر الله فيها الناس بالكتابة
جميع الآيات التي تذكر الكتب

البحث النصي البسيط سيفوت معظم هذه النتائج. هنا يصبح البحث الصرفي ضرورياً.

التحدي

بناء هذه الميزة تطلب حل عدة مشاكل:

1. الحصول على البيانات

احتجنا إلى بيانات صرفية لكلمات القرآن الكريم، بما في ذلك:

الصيغة لكل كلمة
الجذر لكل كلمة
ربط دقيق بين أشكال الكلمات المختلفة

2. الأداء

البحث في آلاف الكلمات في النص القرآني في الوقت الفعلي
دعم أوضاع بحث متعددة في وقت واحد
الحفاظ على تفاعلات واجهة المستخدم السلسة
توفير كل هذا دون اتصال بالانترنت ودون الحاجة لاستعمال الذكاء الاصطناعي

3. الدقة

معالجة تطبيع النص العربي (التشكيل، أشكال الهمزة)
التعامل مع علم الصرف في اللغة العربية
توفير نتائج ذات صلة مرتبة حسب الأهمية

4. تجربة المستخدم

جعل الميزات اللغوية المعقدة متاحة للمستخدمين غير التقنيين
توفير ملاحظات بصرية لأنواع التطابق المختلفة
الموازنة بين القوة والبساطة وسرعة الآداء

نظرة عامة على البنية

يتكون حلنا من أربع طبقات رئيسية:

طبقة واجهة المستخدم

حقل البحث مع تصفية عربية ( لا يقبل الا الحروف العربية مع إزالة التشكيل والهمزة ... )
أزرار التتفعيل للصيغة/الجذر
تمييز النتائج بالألوان

خوارزمية البحث (useQuranSearch) │

معالجة الاستعلام والتطبيع
تنسيق البحث متعدد الأوضاع
خوارزمية ترتيب النتائج حسب الأهمية

أدوات البحث searchutils.ts

البحث النصي البسيط Fuse.js
البحث اللغوي المتقدم
تطبيع النص العربي ( إزالة التشكيل ،الهمزة ... )

طبقة البيانات (JSON)

quran.json (نص الآيات)
word-map.json (كلمة ← صيغة/جذر): المصدر https://corpus.quran.com/
quran-morphology.json (آية ← بيانات): المصدر https://corpus.quran.com/

هياكل البيانات

1. خريطة الكلمات (`word-map.json`)

تربط الكلمات العربية المطبعة بخصائصها اللغوية:


{

"كتب": {

"lemma": "كَتَبَ",

"root": "كتب"

},

"يكتب": {

"lemma": "كَتَبَ",

"root": "كتب"

},

"كتاب": {

"lemma": "كِتَاب",

"root": "كتب"

}

}

الحجم: ₁₅,000 إدخال كلمة فريدة

الغرض: الصيغة/الجذر

2. بيانات الصرف (`quran-morphology.json`)

تخزن البيانات اللغوية لكل آية:


[

{

"gid": 1,

"lemmas": ["بِسْم", "اللَّه", "رَحْمَن", "رَحِيم"],

"roots": ["سمو", "اله", "رحم", "رحم"]

},

{

"gid": 2,

"lemmas": ["حَمْد", "اللَّه", "رَبّ", "عَالَم"],

"roots": ["حمد", "اله", "ربب", "علم"]

}

]

الحجم: 6,236 إدخال (واحد لكل آية)

الغرض: بحث سريع عن جميع الصيغ/الجذور في الآية

خوارزمية البحث

المرحلة 1: تطبيع الاستعلام

النص العربي يتطلب تعاملا خاصاً:


const normalizeArabic = (text: string): string => {

return text

.replace(/[أإآ]/g, 'ا') // تطبيع أشكال الألف

.replace(/[ىي]/g, 'ي') // تطبيع أشكال الياء

.replace(/ة/g, 'ه') // تطبيع التاء المربوطة

.replace(/[ًٌٍَُِّْ]/g, ''); // إزالة التشكيل

};

const cleanArabicQuery = (query: string): string => {

// الاحتفاظ بالحروف العربية والمسافات فقط

return normalizeArabic(query.replace(/[^\u0600-\u06FF\s]+/g, '').trim());

};

لماذا هذا مهم: قد يكتب المستخدمون "كتاب" لكن القرآن يحتوي على "كِتَابٌ" (مع التشكيل). التطبيع يضمن التطابق.

المرحلة 2: البحث متعدد الأوضاع

نقوم بتشغيل ما يصل إلى ثلاثة عمليات بحث في وقت واحد:


// 1. البحث النصي البسيط (يعمل دائماً)

const simpleMatches = simpleSearch(quranData, cleanQuery, 'standard').slice(

0,

MAX_RESULTS,

);

  

// 2. بحث الصيغة (إذا كان مفعلاً)

const lemmaMatches = advancedOptions.lemma

? performAdvancedLinguisticSearch(

cleanQuery,

quranData,

{ lemma: true, root: false },

fuseInstance,

).slice(0, MAX_RESULTS)

: [];

  

// 3. بحث الجذر (إذا كان مفعلاً)

const rootMatches = advancedOptions.root

? performAdvancedLinguisticSearch(

cleanQuery,

quranData,

{ lemma: false, root: true },

fuseInstance,

).slice(0, MAX_RESULTS)

: [];

  

// دمج جميع النتائج

const allMatches = [...simpleMatches, ...lemmaMatches, ...rootMatches];

المرحلة 3: البحث اللغوي المتقدم

هذه هي الخوارزمية الأساسية:


export const performAdvancedLinguisticSearch = (

query: string,

quranData: QuranText[],

options: AdvancedOptions,

fuseInstance: Fuse<QuranText>,

): QuranText[] => {

const cleanQuery = cleanArabicQuery(query);

if (!cleanQuery) return [];

// الخطوة 1: البحث عن الكلمة في خريطة الكلمات

const wordMap = wordMapJSON as WordMap;

const entry = wordMap[cleanQuery];

// إذا لم تكن الكلمة في الخريطة، العودة إلى البحث الضبابي

if (!entry) {

return fuseInstance.search(cleanQuery).map((r) => r.item);

}

const { lemma: targetLemma, root: targetRoot = '' } = entry;

const matchingGids = new Set<number>();

// الخطوة 2: البحث بالصيغة

if (options.lemma && targetLemma) {

for (const verse of quranData) {

const morph = getMorph(verse.gid);

if (morph?.lemmas.includes(targetLemma)) {

matchingGids.add(verse.gid);

}

}

}

// الخطوة 3: البحث بالجذر

if (options.root && targetRoot) {

for (const verse of quranData) {

const morph = getMorph(verse.gid);

if (morph?.roots.includes(targetRoot)) {

matchingGids.add(verse.gid);

}

}

}

// الخطوة 4: تحويل المعرفات إلى آيات

if (matchingGids.size > 0) {

const gidToVerse = new Map(quranData.map((v) => [v.gid, v]));

return Array.from(matchingGids).map((gid) => gidToVerse.get(gid)!);

}

// العودة إلى البحث الضبابي

return fuseInstance.search(cleanQuery).map((r) => r.item);

};

التعقيد الزمني: عدد الآيات (6,236)

التعقيد المكاني: عدد الآيات المطابقة

المرحلة 4: التسجيل والترتيب

كل نتيجة تحصل على درجة ملاءمة:


const computeScore = (

verse: QuranText,

cleanQuery: string,

mapEntry: { lemma?: string; root?: string } | undefined,

): ScoredQuranText => {

let score = 0;

let matchType: MatchType = 'none';

  

// التطابقات النصية الدقيقة: 3 نقاط لكل منها

const textMatches = getPositiveTokens(

verse,

'text',

undefined,

undefined,

cleanQuery,

);

if (textMatches.length > 0) {

score += textMatches.length * 3;

matchType = 'exact';

}

  

// تطابقات الصيغة: نقطتان لكل منها

if (advancedOptions.lemma && mapEntry?.lemma) {

const lemmaMatches = getPositiveTokens(

verse,

'lemma',

mapEntry.lemma,

undefined,

cleanQuery,

);

if (lemmaMatches.length > 0) {

score += lemmaMatches.length * 2;

if (matchType !== 'exact') matchType = 'lemma';

}

}

// تطابقات الجذر: نقطة واحدة لكل منها

if (advancedOptions.root && mapEntry?.root) {

const rootMatches = getPositiveTokens(

verse,

'root',

undefined,

mapEntry.root,

cleanQuery,

);

if (rootMatches.length > 0) {

score += rootMatches.length;

if (matchType !== 'exact' && matchType !== 'lemma') {

matchType = 'root';

}

}

}

return { ...verse, matchScore: score, matchType };

};

استراتيجية التسجيل:

التطابقات الدقيقة هي الأكثر قيمة (3 نقاط)
تطابقات الصيغة ذات قيمة متوسطة (نقطتان)
تطابقات الجذر الأقل قيمة لكنها لا تزال ذات صلة (نقطة واحدة)

يتم ترتيب النتائج حسب الدرجة بترتيب تنازلي.

المرحلة 5: إزالة التكرار

نظراً لأن الآية قد تتطابق في أوضاع متعددة، نقوم بإزالة التكرار:


const processSearchResults = (results: QuranText[], cleanQuery: string) => {

const gidSet = new Set<number>();

const combined: ScoredQuranText[] = [];

for (const v of results) {

if (!gidSet.has(v.gid)) {

gidSet.add(v.gid);

const mapEntry = wordMap[cleanQuery];

combined.push(computeScore(v, cleanQuery, mapEntry));

}

}

// الترتيب حسب الدرجة (الأعلى أولاً)

combined.sort((a, b) => b.matchScore - a.matchScore);

return combined;

};

تطبيق React Native

مكونات واجهة المستخدم

1. حقل البحث مع تصفية عربية


<ThemedTextInput

variant="outlined"

style={styles.searchInput}

placeholder="البحث..."

value={inputText}

onChangeText={(text) => {

// تصفية الحروف العربية فقط

const arabicOnly = text.replace(/[^\u0621-\u064A\s]/g, '');

setInputText(arabicOnly);

handleSearch(arabicOnly);

}}

/>

الميزة الرئيسية: تصفية تلقائية للأحرف غير العربية، مما يمنع عمليات البحث غير الصالحة.

2. تبديل الخيارات المتقدمة


const [advancedOptions, setAdvancedOptions] = useState({

lemma: false,

root: false,

});

  

const toggleOption = (option: keyof typeof advancedOptions) => {

setAdvancedOptions((prev) => ({

...prev,

[option]: !prev[option]

}));

};

// أزرار واجهة المستخدم

<Pressable

style={[

styles.optionButton,

advancedOptions.lemma && styles.optionActive,

]}

onPress={() => toggleOption('lemma')}

>

<ThemedText

style={advancedOptions.lemma ? styles.optionActiveText : undefined}

>

الصيغة

</ThemedText>

</Pressable>

الملاحظات البصرية: يتم تمييز الخيارات النشطة بخلفية زرقاء وحدود.

3. عداد النتائج


const selectedLabels: string[] = [];

if (advancedOptions.lemma) {

selectedLabels.push(`صيغة: ${counts.lemma}`);

}

if (advancedOptions.root) {

selectedLabels.push(`جذر: ${counts.root}`);

}

const counterText =

query.trim() === ''

? ''

: selectedLabels.length > 0

? `عدد النتائج: ${counts.total} (${selectedLabels.join('، ')})`

: `عدد النتائج: ${counts.total} (نص)`;

مثال على الإخراج: عدد النتائج: 45 (صيغة: 30، جذر: 15)

4. التمييز بالألوان


<HighlightText

text={item.standard}

tokens={directTokens} // أزرق - تطابقات دقيقة

relatedWords={relatedTokens} // أخضر - تطابقات صيغة/جذر

fuzzyWords={fuzzyTokens} // أصفر - تطابقات ضبابية

color={directColor}

relatedColor={relatedColor}

fuzzyColor={fuzzyColor}

style={{ fontSize: 18 }}

/>

التسلسل الهرمي البصري:

🔵 أزرق: تطابقات نصية مباشرة (الأكثر صلة)
🟢 أخضر: تطابقات صيغة/جذر (ذات صلة)
🟡 أصفر: تطابقات ضبابية (الأقل صلة)

Hook مخصص: `useQuranSearch`

قمنا بتغليف جميع منطق البحث في خطاف مخصص:


export default function useQuranSearch({

quranData,

morphologyData,

wordMap,

query,

advancedOptions,

fuseInstance,

}: UseQuranSearchProps) {

const [filteredResults, setFilteredResults] = useState<QuranText[]>([]);

const [counts, setCounts] = useState<Counts>({

simple: 0,

lemma: 0,

root: 0,

total: 0,

});

// منطق البحث في useEffect

useEffect(() => {

// ... تطبيق البحث

}, [query, quranData, fuseInstance, advancedOptions]);

return { filteredResults, counts, getPositiveTokens };

}

الفوائد:

✅ فصل الاهتمامات
✅ قابل لإعادة الاستخدام عبر المكونات
✅ إعادة بحث تلقائية عند تغيير التبعيات
✅ كود مفصول عن واجهة المستخدم

تحسينات الأداء

1. تأخير الإدخال (Debouncing)


const useDebounce = (callback: Function, delay: number) => {

const timeoutRef = useRef<NodeJS.Timeout>();

return useCallback(

(...args: any[]) => {

if (timeoutRef.current) {

clearTimeout(timeoutRef.current);

}

timeoutRef.current = setTimeout(() => {

callback(...args);

}, delay);

},

[callback, delay],

);

};

// الاستخدام

const handleSearch = useDebounce((text: string) => setQuery(text), 200);

التأثير: يقلل استدعاءات البحث من ₁₀/ثانية إلى ₅/ثانية أثناء الكتابة.

2. تحديد النتائج


const MAX_RESULTS = 500;

const simpleMatches = simpleSearch(quranData, cleanQuery, 'standard').slice(

0,

MAX_RESULTS,

);

المنطق:

معظم المستخدمين ينظرون فقط إلى أعلى 20-30 نتيجة
التحديد يمنع تأخر واجهة المستخدم مع آلاف النتائج
لا يزال يوفر تغطية شاملة

تجربة المستخدم

مقاييس أداء البحث

متوسط وقت البحث: 50-150 مللي ثانية
**تأخير Debounce **200 مللي ثانية
الحد الأقصى للنتائج لكل وضع: 500
معدل إطارات واجهة المستخدم: 60 إطار في الثانية (محافظ عليه)
حجم البيانات : ₂ ميجابايت (صرف + خريطة كلمات)

سيناريوهات بحث مثالية

السيناريو 1: العثور على جميع الآيات المتعلقة بالصلاة

الاستعلام: "صلى"

الأوضاع: الصيغة + الجذر مفعلان

النتائج:

99 نتيجة إجمالية
45 تطابق صيغة (تصريفات مختلفة لـ "صلى")
54 تطابق جذر (صلاة، مصلى، إلخ.)

قيمة المستخدم: رؤية شاملة للصلاة في القرآن.

السيناريو 2: دراسة مفهوم "العلم"

الاستعلام: "علم"

الأوضاع: الجذر مفعل

النتائج:

854 نتيجة إجمالية
جميع الآيات التي تحتوي على كلمات من جذر ع-ل-م
تشمل: علم، عالم، تعليم، تعلم، معرفة، إلخ.

قيمة المستخدم: دراسة موضوعية للعلم في الإسلام.

الدروس المستفادة

1. جودة البيانات أمر بالغ الأهمية

استخدمنا بيانات صرفية مولدة تلقائياً ،محققة وعالية الجودة من Quranic Corpus.

3. بساطة واجهة المستخدم تخفي التعقيد

واجهة المستخدم تعتمد على أزرار تبديل بسيطة فقط.

4. تطبيع النص العربي صعب

واجهنا حالات استثنائية مثل:

تمثيلات Unicode مختلفة لنفس الحرف
أشكال الهمزة (أ إ آ ء)
التاء المربوطة مقابل الهاء (ة مقابل ه)

الدرس المستفاد: استخدم مكتبات تطبيع مجربة عندما يكون ذلك ممكناً.

علا صالح

عادل بن يحي شكرًا أخ عادل على مشاركتنا لهذه التجربة المفيدة أرى أن ما يميز المشروع هو الفهرسة اللغوية الدقيقة والاعتماد على بحث حتمي Deterministic Search مبني على بيانات صرفية موثوقة

هذا يجعل النتائج الظاهرة مفهومة وسهلة التفسير ويمنع ظهور نتائج بعيدة عن استفسار المستخدم.

كما أعجبتني طريقتك في تفصيل مراحل البحث، وشرحها بطريقة واضحة سلسلة بارك الله بك

لدي سؤال عن هياكل البيانات التي استخدمتها:

word-map.json
quran-morphology.json

أرى أنها تشكل العمود الفقري للمحرك الذي طورته، وسؤالي هنا هل هذه البيانات ثابتة أم مشتقة يتم إعادة توليدها وتحديثها تلقائيًا عند تحديث المصدر الصرفي الذي اعتمدت عليه؟

كما لدي مقترح صغير للتحسين وهو عرض تفسير لسبب ظهور كل نتيجة بإضافة وسوم بسيطة إلى جانب التمييز اللوني:

مطابقة نص
مطابقة صيغة
مطابقة جذر

(iPhoneIslam) Tarek Mansour

ما شاء الله، هذا المشروع يمثل خطوة رائعة في عمليات البحث في القرآن الكريم، فالموازنة بين الدقة اللغوية (صرفاً وجذراً) وبين الأداء التقني العالي بدون استهلاك موارد سحابية أو ذكاء اصطناعي هو تحدٍ لا يتصدى له إلا مطور يدرك قيمة التفاصيل. بارك الله في علمك وعملك، ويجعله في ميزان حسناتك صدقة جارية تخدم الأجيال القادمة.

لم اطلع على المصدر بعد، لكن مهتم جداً بما قمت به... وسوف افرغ وقت لدراسته أن شاء الله.

بالنسبة لحدود البحث:
تستخدم slice(0, MAX_RESULTS) حيث الحد الأقصى 500 نتيجة. في حالات البحث بالجذر (مثل جذر "علم" أو "قال")، قد تتجاوز النتائج هذا العدد بكثير. هل هناك الأفضل عمل "Pagination" بدلاً من قطع النتائج، لضمان وصول الباحث لكل الآيات حتى لو تجاوزت العدد، و ارى من الضروري وضع رقم الآيات التي تطابق نتيجة البحث، حتى لو تظهر كلها.

استبعاد الكلمات الشائعة:
في البحث بالجذر، كيف تتعامل الخوارزمية مع الحروف أو الضمائر التي قد تكون لها جذور مشتركة (مثل حروف الجر أو الضمائر المتصلة)؟ هل هناك قائمة استبعاد للجذور غير الدلالية؟

منطق ترتيب النتائج:
نظام النقاط (3 للمطابق، 2 للصيغة، 1 للجذر) منطقي جداً. لكن هل يأخذ النظام في الاعتبار "كثافة الكلمات" في الآية الواحدة؟ (مثلاً: آية تحتوي على مشتقات الجذر 3 مرات مقابل آية تحتوي عليها مرة واحدة، أو صيغة مرتان؟)، أعتقد ان نظام النقاط يجب أن يتم التعديل عليه، لا أعرف المعادلة الصحيحة، لكن منطقياً لا اعتقد انه بسيط، يحيث يكون تنفيذه بالشكل الحالي، يجب التجربة على كلمات بحث للوصول لأفضل نظام نقاط.

البحث المركب:
الشرح يركز على الكلمات المفردة. كيف يتعامل المحرك مع البحث عن جملة مركبة (مثل: "جنات تجري من تحتها")؟

في النهاية

بناءً على القوة التقنية لهذا المحرك، ألا تعتقد أن هذا المشروع يستحق أن يكون مكتبة برمجية مستقلة بذاتها بعيداً عن كونه ميزة داخل تطبيق "Open Mushaf"؟ ففصله كمشروع مستقل سيسمح للمطورين الآخرين في بيئة React Native (أو حتى تحويله لـلغات آخرى) بدمجه في تطبيقات قرآنية أو بحثية متنوعة، مما يجعله محركاً معيارياً للبحث الصرفي، كما سيسهل عملية صيانته وتطوير قواعد البيانات اللغوية الخاصة به وتوسيعها دون الارتباط بتحديثات واجهة المستخدم الخاصة بالتطبيق الأصلي.

عادل بن يحي

(iPhoneIslam) Tarek Mansour
السلام عليكم، ومشكور اخي منصور على اهتمامك وملاحظات القيمة

صراحة الخوارزمية الآن في الاصدار الاول وتتطلب الكثير من التحسينات، وقمت بطرحها في المجتمع لتكون عملا جماعيا ولما لا يتبناها مجتمع اتقان، حقيقة أعتقد ان الفكرة جيدة ونتائجها واعدة.

سأحاول الرد على النقاط التي ذكرتها.

حول اطلاعك على الكود، سأكون سعيدا بذلك، وسآخذ بعين الاعتبار اقتراحاتك.
بالنسبة لحدود البحث "500 نتيجة"، هي حدود مؤقتت لتجربة مدى سرعة الخوازمية في تحليل المعطيات، ومدى امكانية عرضها على الهواتف، سأقوم بتحليل آداء التطبيق في البيئات الحقيقية، وتقييم الآداء، الانتقال الى تقسييم المعطيات الى صفحات متعددة هي المرحة القادمة ان شاء الله، بارك الله فيك.
- تقديم الخوارزمية منفصلة، ممكن على شكل npm package، أو react component، فكرة ممتازة وقابلة للتطبيق.
استبعاد الكلمات سيكون ابتداء بقييد البحث بالكلمات 3 حروف فما أكثر، لم افعل هذه الفكرة لحد الآن لاني اريد تجربة الخوارزمية لاقصى حد ممكن، ان كان لديك فكرة احسن من حد 3 حروف ارجوا أن تقترحها.
بالنسبة لترتيب النتائج فهي تتم اولا التطابق بالحروف ثم التطابق بالجذر والصيغة ثم الكلمات المتشابهة في الحروف، بالنسبة لتكرار الكلمة في الآية، سادرس امكانية إدراجها ان شاء الله.
بالتسبة للبحث في الجمل والكلمات المركبة، حقيقة لم افكر بعد فيها، وساحاول إدراجها في في الاصدارات القادمة.

بارك الله فيك وان شاء الله ساحاول تحسين الخوارزمية في الاصدار الثاني، مشكور اخي منصور.

دينا أحمد

ما شاء الله، عمل متميز اخي عادل @عادل بن يحي

المحرك يحل مشكلة حقيقية في البحث القرآني من خلال فهم البنية الاشتقاقية للعربية، والأداء offline بدون AI نقطة قوة كبيرة.

بما أن التطبيق يعتمد على بيانات ثابتة (word-map.json و morphology data)، لماذا لا يتم استخدام SQLite مع FTS5 (Full-Text Search)، هيكون في استهلاك أقل للذاكرة وسهل تضيف indexes على الجذور والصيغ.

بارك الله في جهودكم، ونتمنى رؤيته كمكتبة مستقلة قريبًا

عادل بن يحي

دينا أحمد شكرا على الاقتراح الاخت دينا، بطبيعة الحال العمل بقواعد sqlite سيحسن الآداء، خاصة مع إضافة الفهرسة indexes.
لكني اعتقد ان استعمال sqlite يكون في المعطيات المتغيرة عند ادخال تغييرات على قاعدة البيانات فان ملفات json تستهلك موارد اكثر.
اما في البحث فمحركات قراءة هذه الملفات اصبحت اسرع واحسن في التعامل مع الملفات، بالاضافة الى سهولة تعديلها والتعامل معها.

اتحدث عن تجربتي الخاصة، والدليل تطبيق مصحف، به ما يفوق 100 ميقا من بيانات json ، ويعمل بكفاءة على الهواتف.

ارجوا التصريح ان كنت مخطأ، والموضوع مفتوح للنقاش

دينا أحمد

عادل بن يحي
شكرا على التوضيح اخي عادل، وجهة نظرك منطقية تماما
مقترحي كان من وجهة حجم النتائج وتعقيد الاستعلامات

يعني مثلا بحث بسيط في 6000 آية اختيار JSON سيكون ممتازا
لكن في حال بحث معقد بـ multiple filters + sorting + pagination على آلاف النتائج هنا FTS5 أسرع بكثير

مثلا بحث عن كم مرة ظهر جذر معين في كل سورة: هنا SQL هيكون اختيار افضل

في النهاية، القرار التقني الصح هو اللي يخدم use case المشروع، وتجربتك العملية مع 100MB JSON دليل قوي على كفاءة النهج الحالي.

عادل بن يحي

دينا أحمد بحكم ان برنامج Open mushaf، مبني عى expo react native، و بحكم اختياري لاصداره على شكل موقع واب، وللحفاظ على التوافق بين جميع الاصدارات كان لزاما علي استعمال الحلول والحزمات packages، المتوافقة مع الواب.

في الاصدار السابق من expo-sqlite لم يكن متوافقا مع اصدار الواب، اما الان، في آخر اصدار expo-sqlite/next، تم اعادة كتابة الحزمة كلبا، اسبحا اسرع ومتوافقة تماما مع الواب.

حقيقة آخر مرة ألقيت نظرة عليه كان في المراحل الولى التجريبة وغير مستقر، اما الان الاصدار ثابت، وسأعيد النظر في احتمال استعمال sqlite.

شكرا على الفكرة والطرح @دينا أحمد

عادل بن يحي

علا صالح شكرا الأخت علا

علا صالح لدي سؤال عن هياكل البيانات التي استخدمتها:

word-map.json
quran-morphology.json

بالنسبة لملفات json هنا، تكون مدمجة مع التطبيق، بلا يتم تحديثها الا مع تحديثات اتلطبيق نفسه، السبب: المحافظة على نفس النهج والتوجه full-offline

علا صالح كما لدي مقترح صغير للتحسين وهو عرض تفسير لسبب ظهور كل نتيجة بإضافة وسوم بسيطة إلى جانب التمييز اللوني:
مطابقة نص
مطابقة صيغة
مطابقة جذر

بالنسبة لإضافة وسوم في حيز نتيجة البحث، اعتقد أن المساحة على الهواتف صغيرة ومن الأفضل الحفاظ على البساطة، قمت بوضع قائمة أفقية أعلى نتائج البحث لتربط الألوان بالمطابقة المقصودة:

حسان الأنصاري

فعلا ما شاء الله على مجهودك وهو فعلا موضوع مهم وفي محله اظن اننا بحاجة لطريقة بحث متقدمة غير معتمدة على الانترنت نستطيع استخدامها داخل جوالتنا بشكل مباشر
انا كنت داخل اقترح على حضرتك ان تطلع على quran corpus ولكن من الواضح انك بالفعل اطلعت عليه
هناك فعلا مكتبة رائعة للبحث تسمى quran analysis مبنية على بيانات quran corpus
وهي مفتوحة المصدر ولكن للاسف اخر تحديث لها من ١٠ سنوات و مكتوبة بphp
كان عندي هدف ان ننقل هذه المكتبة الى JavaScript library يمكن استخدامها بشكل مباشر داخل التقنيات المختلفة

عادل بن يحي

حسان الأنصاري بارك الله فيك اخي حسان، بالفعل كما اقترح @ (iPhoneIslam) Tarek Mansour
سيكون هناك اصدار منفصل على شكل npm package
لتعم الفائدة ان شاء الله.
شكرا عى اقتراح quran analytics، ساراجع الكود وممكن ان ادمج بعضه.

ان شاء الله سأوافيكم بالجديد في الأيام القادمة

حسان الأنصاري

هل هناك خطوات معينة يمكن لاتقان ان تشارك بها في انشاء تلك الاداة؟
ويوجد بعض الشباب الذين يريدون التطوع فهل هناك نشاطات معينة تحب ان توجههم لها؟

عادل بن يحي

حسان الأنصاري حبذا لو انشء repo منفصل كاصدار اولي وانقل اليه الخوارزميات والملفات

ثم نبدأ العمل عليه بشكل منفصل عن Open Mushaf

ما رأيك @حسان الأنصاري

ام نترك الكود ونجربه اولا في التطبيق بشكل عملي وعند الوصول الى خوازمية متكاملة نقله الى package منفصل.

ارجوا من الشباب المشاركة وتقديم اقتراحاتهم، لنبتي خطة مشتركة ويشارك الجميع

حسان الأنصاري

عادل بن يحي
اسف لم ار التعليق
اظن هذا فعلا سيكون افضل وسيجعل المشاركة في المشروع ابسط

NacerTahri

بارك الله فيك وجزاك الله خيرا أخي الكريم على هذا الجهد.
ملاحظة:
عند البحث في القرآن الكريم نواجه مشكلة التاء المربوطة " ة " والتاء المفتوحة " ت "، مثلا كلمة "إمرأة " وكلمة "إمرأت" عند البحث نجد النتائج مختلفة رغم ان الكلمة نفسها، لذا لو نوحد النتائج افضل.

عادل بن يحي

NacerTahri
قمت بتطوير أدات للبحث في النص القرآني وهي تفرق بين إمرأة و إمرأت

للإطلاع على الموضوع: https://community.itqan.dev/d/209

iMrDJAi

السلام عليكم @عادل بن يحي،

أنا عندي اقتراح. جاءتني مؤخرا فكرة لتقسيم وإبراز الآيات القرآنية ذات الموضوع المشترك، التي ستساهم في إضافة سياق للنص القرآني وستساعد القارئ على الفهم والتدبر. طبعا إكتشفت في النهاية أن اسم هذا التقسيم هو "التقسيم الموضوعي" أو "التفسير الموضوعي"، وأنه توجد مصاحف تعتمد هذا التقسيم، مثلا مصحف القيام والتهجد.

لكن خلافا لهذا المصحف، فكرتي كانت التقسيم بعدة مستويات مثل الشجرة، وهذا أقرب مثال: الخرائط الذهنية لسور القرآن الكريم. مثلا سيكون هناك slider الذي سيسمح بتغير مستوى أو عمق التقسيم، يعني من السورة كاملة (تفسير عام للسورة وموضوعها)، إلى أجزاء منها، وأجزاء الأجزاء إلخ... وصولا إلى الآية نفسها، أو حتى أجزاء من الآية (إن كانت طويلة).

ما رأيكم؟

عادل بن يحي

iMrDJAi السلام عليكم
حزمة quran-search-engine مخصصة للبحث النصي في القرآن الكريم، واعتقد ان التصور الذي ذكرته يحتاج الى واجهة مستخدم.
ارجو ان توضح اكثر الفكرة مع ذكر امثلة عملية ان امكن.

ثبت مجتمعنا كتطبيق لتجربة افضل

انضم إلى نشرة إتقان 📩

انضم إلى نشرة إتقان 📩

شكراً لك!