منهجية القاموس العربي الشامل

كيف نبني أكثر قاموس عربي شمولاً ودقة

🎯 الرؤية والهدف

نسعى لبناء أشمل منصة رقمية تجمع التراث اللغوي العربي من مختلف العصور في مكان واحد، مع توفير تجربة بحث سريعة ودقيقة وسهلة الاستخدام للجميع.

📊 إحصائيات المشروع الحالية:
• 223,141 مدخل لغوي من 13 معجماً مختلفاً
• 332,888 تعريف دقيق ومفصل
• قاموس عربي-إنجليزي بـ 53,244 مدخل
• تغطية زمنية من القرن الثاني الهجري حتى 2025

🔬 منهجية استخراج البيانات

المرحلة 1️⃣: اختيار المصادر

نختار المعاجم بناءً على معايير صارمة:

  • الموثوقية: معاجم معترف بها من علماء اللغة
  • التنوع الزمني: تغطية من التراث الكلاسيكي إلى المعاصر
  • التخصص: معاجم عامة + معاجم متخصصة (فقهية، فلسفية، معاصرة)
  • الشمولية: تغطية واسعة للمفردات العربية
✅ المعاجم المختارة:
1. القاموس المحيط (الفيروزآبادي - 817 هـ) - 10,363 مدخل
2. المعجم الوسيط (مجمع اللغة العربية) - 35,457 مدخل
3. كتاب العين (الخليل بن أحمد) - 24,952 مدخل
4. القاموس الفقهي - تخصصي
5. التعريفات (الجرجاني) - مصطلحات إسلامية
6. المحيط في اللغة - 40,000+ مدخل
7. معجم اللغة العربية المعاصرة - مفردات حديثة
8. المورد (عربي-إنجليزي) - 53,244 مدخل
9. الصحاح (الجوهري) - تاج اللغة
10. لسان العرب (ابن منظور) - 9,352 مدخل
11. المعجم الغني (عبد الغني أبو العزم) - 29,810 مدخل
12. مقاييس اللغة (ابن فارس) - 5,274 مدخل
13. مفردات ألفاظ القرآن (الراغب الأصفهاني) - 1,630 مدخل

المرحلة 2️⃣: استخراج وتحليل البيانات

نستخدم تقنيات متقدمة لاستخراج البيانات من المصادر:

  1. تحليل HTML: استخدام BeautifulSoup لتحليل ملفات HTML
  2. استخراج العناصر:
    • المدخل الرئيسي (الكلمة)
    • التعريفات والمعاني
    • الجذر اللغوي
    • رقم الصفحة (إن وُجد)
    • الباب والفصل
  3. التطبيع: إزالة التشكيل للبحث المرن
  4. التحقق: فحص جودة البيانات المستخرجة
🔧 مثال على كود الاستخراج:
from bs4 import BeautifulSoup
# تحليل HTML واستخراج المداخل
entry = soup.find('div', class_='Entry')
headword = entry.find('b').text.strip()
definition = entry.get_text()

المرحلة 3️⃣: بناء قاعدة البيانات

نستخدم SQLite لتخزين البيانات بهيكل محكم:

dictionaries معلومات المعاجم
chapters الأبواب والفصول
entries المداخل اللغوية
definitions التعريفات والمعاني

العلاقات بين الجداول:

  • كل معجم يحتوي على أبواب (chapters)
  • كل باب يحتوي على أقسام (sections)
  • كل قسم يحتوي على مداخل (entries)
  • كل مدخل يحتوي على تعريفات (definitions)

⚡ تحسين الأداء

1. فهرسة البيانات (Indexing)

  • FTS5: فهرسة نصية كاملة للبحث السريع
  • Indexes: فهارس على headword_normalized وroot
  • Dictionary filtering: فهرسة على dictionary_id

2. تقنية البحث الذكي

الترتيب حسب الأولوية:
1️⃣ مطابقة تامة (headword = query) - الأولوية الأولى
2️⃣ يبدأ بـ (headword LIKE query%) - الأولوية الثانية
3️⃣ يحتوي على (headword LIKE %query%) - الأولوية الثالثة
4️⃣ مطابقة الجذر (root matches) - الأولوية الرابعة
5️⃣ بحث في النص الكامل - الأولوية الخامسة
6️⃣ بحث في التعريفات الإنجليزية (للقاموس الثنائي)

3. تطبيع النص العربي

نزيل التشكيل من النصوص للبحث المرن:

  • إزالة الفتحة، الضمة، الكسرة
  • إزالة التنوين والشدة والسكون
  • الحفاظ على النص الأصلي للعرض
  • استخدام النص المطبّع للبحث

🌐 البنية التقنية

Backend Python + Flask
Database SQLite + FTS5
Frontend HTML5 + CSS3 + Vanilla JS
PWA Service Worker + Manifest

API Endpoints

  • /api/search - البحث عن كلمات
  • /api/dictionaries - قائمة المعاجم
  • /api/stats - الإحصائيات
  • /api/chapters - الأبواب والفصول
  • /api/browse/:chapter - تصفح باب معين

✅ ضمان الجودة

1. التحقق من البيانات

  • فحص اكتمال المداخل (headword موجود)
  • التحقق من وجود تعريفات لكل مدخل
  • فحص الترميز (UTF-8 صحيح)
  • إزالة المداخل المكررة

2. الاختبار

اختبارات آلية:
• اختبار البحث (test_search.py)
• اختبار الأداء (test_performance.py)
• اختبار قاعدة البيانات (validate_database.py)
• اختبار API (test_api.py)

3. المراجعة اليدوية

  • فحص عينات عشوائية من المداخل
  • التحقق من دقة التعريفات
  • مراجعة الأخطاء المحتملة
  • تحسين نتائج البحث باستمرار

🔄 التحديث المستمر

نعمل على تحسين المنصة باستمرار من خلال:

  • إضافة معاجم جديدة: نوسع التغطية بمعاجم إضافية
  • تحسين الخوارزميات: نطور خوارزميات البحث والترتيب
  • إصلاح الأخطاء: نراجع ونصحح أي أخطاء في البيانات
  • الاستماع للمستخدمين: نستقبل الملاحظات ونطبقها
📈 إحصائيات الجودة:
• معدل دقة البيانات: أكثر من 95%
• سرعة البحث: أقل من 100 ميلي ثانية
• التغطية: 223,141 مدخل من 13 معجماً
• معدل نجاح البحث: أكثر من 90%

🤝 المساهمة والتطوير

نرحب بمساهمات المجتمع في تحسين القاموس. يمكنك المساهمة من خلال:

  • الإبلاغ عن أخطاء في البيانات
  • اقتراح معاجم جديدة للإضافة
  • تحسين خوارزميات البحث
  • ترجمة الواجهة للغات أخرى
العودة للصفحة الرئيسية