منهجية القاموس العربي الشامل

كيف نبني أكثر قاموس عربي شمولاً ودقة

🎯 الرؤية والهدف

نسعى لبناء أشمل منصة رقمية تجمع التراث اللغوي العربي من مختلف العصور في مكان واحد، مع توفير تجربة بحث سريعة ودقيقة وسهلة الاستخدام للجميع.

📊 إحصائيات المشروع الحالية:
• 188,488 مدخل لغوي من 9 معاجم مختلفة
• 332,888 تعريف دقيق ومفصل
• قاموس عربي-إنجليزي بـ 53,244 مدخل
• تغطية زمنية من القرن الثاني الهجري حتى 2025

🔬 منهجية استخراج البيانات

المرحلة 1️⃣: اختيار المصادر

نختار المعاجم بناءً على معايير صارمة:

✅ المعاجم المختارة:
1. القاموس المحيط (الفيروزآبادي - 817 هـ) - 10,363 مدخل
2. المعجم الوسيط (مجمع اللغة العربية) - 35,457 مدخل
3. كتاب العين (الخليل بن أحمد) - 24,952 مدخل
4. القاموس الفقهي - تخصصي
5. التعريفات (الجرجاني) - مصطلحات إسلامية
6. المحيط في اللغة - 40,000+ مدخل
7. معجم اللغة العربية المعاصرة - مفردات حديثة
8. المورد (عربي-إنجليزي) - 53,244 مدخل

المرحلة 2️⃣: استخراج وتحليل البيانات

نستخدم تقنيات متقدمة لاستخراج البيانات من المصادر:

  1. تحليل HTML: استخدام BeautifulSoup لتحليل ملفات HTML
  2. استخراج العناصر:
    • المدخل الرئيسي (الكلمة)
    • التعريفات والمعاني
    • الجذر اللغوي
    • رقم الصفحة (إن وُجد)
    • الباب والفصل
  3. التطبيع: إزالة التشكيل للبحث المرن
  4. التحقق: فحص جودة البيانات المستخرجة
🔧 مثال على كود الاستخراج:
from bs4 import BeautifulSoup
# تحليل HTML واستخراج المداخل
entry = soup.find('div', class_='Entry')
headword = entry.find('b').text.strip()
definition = entry.get_text()

المرحلة 3️⃣: بناء قاعدة البيانات

نستخدم SQLite لتخزين البيانات بهيكل محكم:

dictionaries معلومات المعاجم
chapters الأبواب والفصول
entries المداخل اللغوية
definitions التعريفات والمعاني

العلاقات بين الجداول:

⚡ تحسين الأداء

1. فهرسة البيانات (Indexing)

2. تقنية البحث الذكي

الترتيب حسب الأولوية:
1️⃣ مطابقة تامة (headword = query) - الأولوية الأولى
2️⃣ يبدأ بـ (headword LIKE query%) - الأولوية الثانية
3️⃣ يحتوي على (headword LIKE %query%) - الأولوية الثالثة
4️⃣ مطابقة الجذر (root matches) - الأولوية الرابعة
5️⃣ بحث في النص الكامل - الأولوية الخامسة
6️⃣ بحث في التعريفات الإنجليزية (للقاموس الثنائي)

3. تطبيع النص العربي

نزيل التشكيل من النصوص للبحث المرن:

🌐 البنية التقنية

Backend Python + Flask
Database SQLite + FTS5
Frontend HTML5 + CSS3 + Vanilla JS
PWA Service Worker + Manifest

API Endpoints

✅ ضمان الجودة

1. التحقق من البيانات

2. الاختبار

اختبارات آلية:
• اختبار البحث (test_search.py)
• اختبار الأداء (test_performance.py)
• اختبار قاعدة البيانات (validate_database.py)
• اختبار API (test_api.py)

3. المراجعة اليدوية

🔄 التحديث المستمر

نعمل على تحسين المنصة باستمرار من خلال:

📈 إحصائيات الجودة:
• معدل دقة البيانات: أكثر من 95%
• سرعة البحث: أقل من 100 ميلي ثانية
• التغطية: 188,488 مدخل من 9 معاجم
• معدل نجاح البحث: أكثر من 90%

🤝 المساهمة والتطوير

نرحب بمساهمات المجتمع في تحسين القاموس. يمكنك المساهمة من خلال:

← العودة للصفحة الرئيسية