🎯 الرؤية والهدف
نسعى لبناء أشمل منصة رقمية تجمع التراث اللغوي العربي من مختلف العصور في مكان واحد، مع توفير تجربة بحث سريعة ودقيقة وسهلة الاستخدام للجميع.
📊 إحصائيات المشروع الحالية:
• 188,488 مدخل لغوي من 9 معاجم مختلفة
• 332,888 تعريف دقيق ومفصل
• قاموس عربي-إنجليزي بـ 53,244 مدخل
• تغطية زمنية من القرن الثاني الهجري حتى 2025
• 188,488 مدخل لغوي من 9 معاجم مختلفة
• 332,888 تعريف دقيق ومفصل
• قاموس عربي-إنجليزي بـ 53,244 مدخل
• تغطية زمنية من القرن الثاني الهجري حتى 2025
🔬 منهجية استخراج البيانات
المرحلة 1️⃣: اختيار المصادر
نختار المعاجم بناءً على معايير صارمة:
- الموثوقية: معاجم معترف بها من علماء اللغة
- التنوع الزمني: تغطية من التراث الكلاسيكي إلى المعاصر
- التخصص: معاجم عامة + معاجم متخصصة (فقهية، فلسفية، معاصرة)
- الشمولية: تغطية واسعة للمفردات العربية
✅ المعاجم المختارة:
1. القاموس المحيط (الفيروزآبادي - 817 هـ) - 10,363 مدخل
2. المعجم الوسيط (مجمع اللغة العربية) - 35,457 مدخل
3. كتاب العين (الخليل بن أحمد) - 24,952 مدخل
4. القاموس الفقهي - تخصصي
5. التعريفات (الجرجاني) - مصطلحات إسلامية
6. المحيط في اللغة - 40,000+ مدخل
7. معجم اللغة العربية المعاصرة - مفردات حديثة
8. المورد (عربي-إنجليزي) - 53,244 مدخل
1. القاموس المحيط (الفيروزآبادي - 817 هـ) - 10,363 مدخل
2. المعجم الوسيط (مجمع اللغة العربية) - 35,457 مدخل
3. كتاب العين (الخليل بن أحمد) - 24,952 مدخل
4. القاموس الفقهي - تخصصي
5. التعريفات (الجرجاني) - مصطلحات إسلامية
6. المحيط في اللغة - 40,000+ مدخل
7. معجم اللغة العربية المعاصرة - مفردات حديثة
8. المورد (عربي-إنجليزي) - 53,244 مدخل
المرحلة 2️⃣: استخراج وتحليل البيانات
نستخدم تقنيات متقدمة لاستخراج البيانات من المصادر:
- تحليل HTML: استخدام BeautifulSoup لتحليل ملفات HTML
- استخراج العناصر:
- المدخل الرئيسي (الكلمة)
- التعريفات والمعاني
- الجذر اللغوي
- رقم الصفحة (إن وُجد)
- الباب والفصل
- التطبيع: إزالة التشكيل للبحث المرن
- التحقق: فحص جودة البيانات المستخرجة
🔧 مثال على كود الاستخراج:
from bs4 import BeautifulSoup
# تحليل HTML واستخراج المداخل
entry = soup.find('div', class_='Entry')
headword = entry.find('b').text.strip()
definition = entry.get_text()
المرحلة 3️⃣: بناء قاعدة البيانات
نستخدم SQLite لتخزين البيانات بهيكل محكم:
dictionaries
معلومات المعاجم
chapters
الأبواب والفصول
entries
المداخل اللغوية
definitions
التعريفات والمعاني
العلاقات بين الجداول:
- كل معجم يحتوي على أبواب (chapters)
- كل باب يحتوي على أقسام (sections)
- كل قسم يحتوي على مداخل (entries)
- كل مدخل يحتوي على تعريفات (definitions)
⚡ تحسين الأداء
1. فهرسة البيانات (Indexing)
- FTS5: فهرسة نصية كاملة للبحث السريع
- Indexes: فهارس على headword_normalized وroot
- Dictionary filtering: فهرسة على dictionary_id
2. تقنية البحث الذكي
الترتيب حسب الأولوية:
1️⃣ مطابقة تامة (headword = query) - الأولوية الأولى
2️⃣ يبدأ بـ (headword LIKE query%) - الأولوية الثانية
3️⃣ يحتوي على (headword LIKE %query%) - الأولوية الثالثة
4️⃣ مطابقة الجذر (root matches) - الأولوية الرابعة
5️⃣ بحث في النص الكامل - الأولوية الخامسة
6️⃣ بحث في التعريفات الإنجليزية (للقاموس الثنائي)
1️⃣ مطابقة تامة (headword = query) - الأولوية الأولى
2️⃣ يبدأ بـ (headword LIKE query%) - الأولوية الثانية
3️⃣ يحتوي على (headword LIKE %query%) - الأولوية الثالثة
4️⃣ مطابقة الجذر (root matches) - الأولوية الرابعة
5️⃣ بحث في النص الكامل - الأولوية الخامسة
6️⃣ بحث في التعريفات الإنجليزية (للقاموس الثنائي)
3. تطبيع النص العربي
نزيل التشكيل من النصوص للبحث المرن:
- إزالة الفتحة، الضمة، الكسرة
- إزالة التنوين والشدة والسكون
- الحفاظ على النص الأصلي للعرض
- استخدام النص المطبّع للبحث
🌐 البنية التقنية
Backend
Python + Flask
Database
SQLite + FTS5
Frontend
HTML5 + CSS3 + Vanilla JS
PWA
Service Worker + Manifest
API Endpoints
/api/search- البحث عن كلمات/api/dictionaries- قائمة المعاجم/api/stats- الإحصائيات/api/chapters- الأبواب والفصول/api/browse/:chapter- تصفح باب معين
✅ ضمان الجودة
1. التحقق من البيانات
- فحص اكتمال المداخل (headword موجود)
- التحقق من وجود تعريفات لكل مدخل
- فحص الترميز (UTF-8 صحيح)
- إزالة المداخل المكررة
2. الاختبار
اختبارات آلية:
• اختبار البحث (test_search.py)
• اختبار الأداء (test_performance.py)
• اختبار قاعدة البيانات (validate_database.py)
• اختبار API (test_api.py)
• اختبار البحث (test_search.py)
• اختبار الأداء (test_performance.py)
• اختبار قاعدة البيانات (validate_database.py)
• اختبار API (test_api.py)
3. المراجعة اليدوية
- فحص عينات عشوائية من المداخل
- التحقق من دقة التعريفات
- مراجعة الأخطاء المحتملة
- تحسين نتائج البحث باستمرار
🔄 التحديث المستمر
نعمل على تحسين المنصة باستمرار من خلال:
- إضافة معاجم جديدة: نوسع التغطية بمعاجم إضافية
- تحسين الخوارزميات: نطور خوارزميات البحث والترتيب
- إصلاح الأخطاء: نراجع ونصحح أي أخطاء في البيانات
- الاستماع للمستخدمين: نستقبل الملاحظات ونطبقها
📈 إحصائيات الجودة:
• معدل دقة البيانات: أكثر من 95%
• سرعة البحث: أقل من 100 ميلي ثانية
• التغطية: 188,488 مدخل من 9 معاجم
• معدل نجاح البحث: أكثر من 90%
• معدل دقة البيانات: أكثر من 95%
• سرعة البحث: أقل من 100 ميلي ثانية
• التغطية: 188,488 مدخل من 9 معاجم
• معدل نجاح البحث: أكثر من 90%
🤝 المساهمة والتطوير
نرحب بمساهمات المجتمع في تحسين القاموس. يمكنك المساهمة من خلال:
- الإبلاغ عن أخطاء في البيانات
- اقتراح معاجم جديدة للإضافة
- تحسين خوارزميات البحث
- ترجمة الواجهة للغات أخرى