ترغب بنشر مسار تعليمي؟ اضغط هنا

تستخدم مصطلح خطط الترجغ على نطاق واسع في معالجة اللغة الطبيعية واسترجاع المعلومات. على وجه الخصوص، فإن وزن المصطلح هو الأساس لاستخراج الكلمات الرئيسية. ومع ذلك، هناك عدد قليل نسبيا دراسات التقييم التي ألقت الضوء على نقاط القوة وأوجه القصور في كل مخطط للتوازن. في الواقع، في معظم الحالات، يلجأ الباحثون والممارسون في معظم الحالات إلى TF-IDF المعروفة بشكل افتراضي، على الرغم من وجود بدائل أخرى مناسبة، بما في ذلك النماذج القائمة على الرسم البياني. في هذه الورقة، نقوم بإجراء مقارنة تجريبية وشاملة واسعة النطاق من كل من أساليب الترجيح الإحصائية والرصاص القائمة على الرسم البياني في سياق استخراج الكلمات الرئيسية. يكشف تحليلنا عن بعض النتائج المثيرة للاهتمام مثل مزايا الخصوصية المعروفة الأقل شهرة فيما يتعلق ب TF-IDF، أو الاختلافات النوعية بين الأساليب الإحصائية والرصاص القائمة على الرسم البياني. وأخيرا، بناء على نتائجنا نناقشها واستنباد بعض الاقتراحات للممارسين. تعد شفرة المصدر لإعادة إنتاج نتائجنا التجريبية، بما في ذلك مكتبة استخراج الكلمات الرئيسية، متوفرة في المستودع التالي: https://github.com/asahi417/kex
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا