تشاتبوت قانوني باللغة العربية (دراسة حالة)

نظرة عامة

شاتبوت قانوني باللغة العربية جاهز للاستخدام الفعلي؛ صُمِّم لجعل الوثائق القانونية الليبية قابلة للاستعلام باللغة الطبيعية. يستوعب النظام corpus قانونيًا مُهيكلًا، ويسترجع المواد ذات الصلة، ثم يولِّد إجابات مؤسَّسة مع استشهادات دقيقة.

المشكلة

توجد الوثائق القانونية الليبية كنص عربي كثيف من دون وسيلة موثوقة للبحث والاستعلام. كما أن صرف العربية يجعل البحث بالكلمات المفتاحية وحده ضعيفًا؛ والهلوسة غير مقبولة في السياقات القانونية.

معمارية الحل

إعادة صياغة الاستعلام (LLM) لرفع الاستدعاء وتحسين التعامل مع أسئلة المتابعة
استرجاع هجين: تضمينات دلالية + BM25 مُحسّن للعربية (مع تقطيع Farasa)
توليد إجابات مؤسَّسة مع التعامل الصريح مع «لا إجابة» عند عدم توفر مادة داعمة
تخزين دلالي مؤقت (PostgreSQL) لتقليل زمن الاستجابة والكلفة
نمط محادثة متعدد الأدوار مع بثّ تدريجي للمخرجات

أبرز محطات التطوير

استبدلت الاسترجاع المعتمد على الكلمات المفتاحية فقط بـ BM25 بمساندة Farasa؛ إلى جانب التضمينات
أضفت تسجيلات التوقيت والحمولات مبكرًا لتسهيل تشخيص مشاكل الإنتاج بسرعة
وسّعت corpus (بما في ذلك القانون المدني والبحري) عبر خط إدخال قابل للتكرار
فعّلت نمط المحادثة، والإدخال الصوتي، وتصنيف الاستجابة

النتائج

تسريع الاستعلامات المتكررة عبر التخزين المؤقت
تحسين دقة الاسترجاع عبر البحث الهجين + إعادة الصياغة
إجابات مؤسَّسة فقط؛ مع حواجز تمنع الخروج عن النطاق

خلاصات

معالجة العربية تحتاج تحضيرًا متخصصًا؛ المُقطِّعات العامة تُضعف الأداء.
«أعد الصياغة ثم استرجع» من أعلى تحسينات RAG عائدًا مقابل الجهد.
سجّل كل شيء من اليوم الأول؛ العائد كبير في بيئة الإنتاج.