المنهجية - القاموس العربي الشامل

🎯 الرؤية والهدف

نسعى لبناء أشمل منصة رقمية تجمع التراث اللغوي العربي من مختلف العصور في مكان واحد، مع توفير تجربة بحث سريعة ودقيقة وسهلة الاستخدام للجميع.

                📊 إحصائيات المشروع الحالية:

                • 223,141 مدخل لغوي من 13 معجماً مختلفاً

                • 332,888 تعريف دقيق ومفصل

                • قاموس عربي-إنجليزي بـ 53,244 مدخل

                • تغطية زمنية من القرن الثاني الهجري حتى 2025

🔬 منهجية استخراج البيانات

المرحلة 1️⃣: اختيار المصادر

نختار المعاجم بناءً على معايير صارمة:

الموثوقية: معاجم معترف بها من علماء اللغة
التنوع الزمني: تغطية من التراث الكلاسيكي إلى المعاصر
التخصص: معاجم عامة + معاجم متخصصة (فقهية، فلسفية، معاصرة)
الشمولية: تغطية واسعة للمفردات العربية

✅ المعاجم المختارة:
1. القاموس المحيط (الفيروزآبادي - 817 هـ) - 10,363 مدخل
2. المعجم الوسيط (مجمع اللغة العربية) - 35,457 مدخل
3. كتاب العين (الخليل بن أحمد) - 24,952 مدخل
4. القاموس الفقهي - تخصصي
5. التعريفات (الجرجاني) - مصطلحات إسلامية
6. المحيط في اللغة - 40,000+ مدخل
7. معجم اللغة العربية المعاصرة - مفردات حديثة
8. المورد (عربي-إنجليزي) - 53,244 مدخل
9. الصحاح (الجوهري) - تاج اللغة
10. لسان العرب (ابن منظور) - 9,352 مدخل
11. المعجم الغني (عبد الغني أبو العزم) - 29,810 مدخل
12. مقاييس اللغة (ابن فارس) - 5,274 مدخل
13. مفردات ألفاظ القرآن (الراغب الأصفهاني) - 1,630 مدخل

المرحلة 2️⃣: استخراج وتحليل البيانات

نستخدم تقنيات متقدمة لاستخراج البيانات من المصادر:

تحليل HTML: استخدام BeautifulSoup لتحليل ملفات HTML
استخراج العناصر:
- المدخل الرئيسي (الكلمة)
- التعريفات والمعاني
- الجذر اللغوي
- رقم الصفحة (إن وُجد)
- الباب والفصل
التطبيع: إزالة التشكيل للبحث المرن
التحقق: فحص جودة البيانات المستخرجة

                🔧 مثال على كود الاستخراج:

from bs4 import BeautifulSoup

# تحليل HTML واستخراج المداخل

entry = soup.find('div', class_='Entry')

headword = entry.find('b').text.strip()

definition = entry.get_text()

المرحلة 3️⃣: بناء قاعدة البيانات

نستخدم SQLite لتخزين البيانات بهيكل محكم:

dictionaries معلومات المعاجم

chapters الأبواب والفصول

entries المداخل اللغوية

definitions التعريفات والمعاني

العلاقات بين الجداول:

كل معجم يحتوي على أبواب (chapters)
كل باب يحتوي على أقسام (sections)
كل قسم يحتوي على مداخل (entries)
كل مدخل يحتوي على تعريفات (definitions)

⚡ تحسين الأداء

1. فهرسة البيانات (Indexing)

FTS5: فهرسة نصية كاملة للبحث السريع
Indexes: فهارس على headword_normalized وroot
Dictionary filtering: فهرسة على dictionary_id

2. تقنية البحث الذكي

الترتيب حسب الأولوية:
1️⃣ مطابقة تامة (headword = query) - الأولوية الأولى
2️⃣ يبدأ بـ (headword LIKE query%) - الأولوية الثانية
3️⃣ يحتوي على (headword LIKE %query%) - الأولوية الثالثة
4️⃣ مطابقة الجذر (root matches) - الأولوية الرابعة
5️⃣ بحث في النص الكامل - الأولوية الخامسة
6️⃣ بحث في التعريفات الإنجليزية (للقاموس الثنائي)

3. تطبيع النص العربي

نزيل التشكيل من النصوص للبحث المرن:

إزالة الفتحة، الضمة، الكسرة
إزالة التنوين والشدة والسكون
الحفاظ على النص الأصلي للعرض
استخدام النص المطبّع للبحث

🌐 البنية التقنية

Backend Python + Flask

Database SQLite + FTS5

Frontend HTML5 + CSS3 + Vanilla JS

PWA Service Worker + Manifest

API Endpoints

/api/search - البحث عن كلمات
/api/dictionaries - قائمة المعاجم
/api/stats - الإحصائيات
/api/chapters - الأبواب والفصول
/api/browse/:chapter - تصفح باب معين

✅ ضمان الجودة

1. التحقق من البيانات

فحص اكتمال المداخل (headword موجود)
التحقق من وجود تعريفات لكل مدخل
فحص الترميز (UTF-8 صحيح)
إزالة المداخل المكررة

2. الاختبار

اختبارات آلية:
• اختبار البحث (test_search.py)
• اختبار الأداء (test_performance.py)
• اختبار قاعدة البيانات (validate_database.py)
• اختبار API (test_api.py)

3. المراجعة اليدوية

فحص عينات عشوائية من المداخل
التحقق من دقة التعريفات
مراجعة الأخطاء المحتملة
تحسين نتائج البحث باستمرار

🔄 التحديث المستمر

نعمل على تحسين المنصة باستمرار من خلال:

إضافة معاجم جديدة: نوسع التغطية بمعاجم إضافية
تحسين الخوارزميات: نطور خوارزميات البحث والترتيب
إصلاح الأخطاء: نراجع ونصحح أي أخطاء في البيانات
الاستماع للمستخدمين: نستقبل الملاحظات ونطبقها

                📈 إحصائيات الجودة:

                • معدل دقة البيانات: أكثر من 95%

                • سرعة البحث: أقل من 100 ميلي ثانية

                • التغطية: 223,141 مدخل من 13 معجماً

                • معدل نجاح البحث: أكثر من 90%

🤝 المساهمة والتطوير

نرحب بمساهمات المجتمع في تحسين القاموس. يمكنك المساهمة من خلال:

الإبلاغ عن أخطاء في البيانات
اقتراح معاجم جديدة للإضافة
تحسين خوارزميات البحث
ترجمة الواجهة للغات أخرى

العودة للصفحة الرئيسية

منهجية القاموس العربي الشامل