ترغب بنشر مسار تعليمي؟ اضغط هنا

العودة إلى الأساسيات: تحليل كمي لخطط ترجغ المصطلح الإحصائي والرسوم البياني لاستخراج الكلمات الرئيسية

Back to the Basics: A Quantitative Analysis of Statistical and Graph-Based Term Weighting Schemes for Keyword Extraction

467   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تستخدم مصطلح خطط الترجغ على نطاق واسع في معالجة اللغة الطبيعية واسترجاع المعلومات. على وجه الخصوص، فإن وزن المصطلح هو الأساس لاستخراج الكلمات الرئيسية. ومع ذلك، هناك عدد قليل نسبيا دراسات التقييم التي ألقت الضوء على نقاط القوة وأوجه القصور في كل مخطط للتوازن. في الواقع، في معظم الحالات، يلجأ الباحثون والممارسون في معظم الحالات إلى TF-IDF المعروفة بشكل افتراضي، على الرغم من وجود بدائل أخرى مناسبة، بما في ذلك النماذج القائمة على الرسم البياني. في هذه الورقة، نقوم بإجراء مقارنة تجريبية وشاملة واسعة النطاق من كل من أساليب الترجيح الإحصائية والرصاص القائمة على الرسم البياني في سياق استخراج الكلمات الرئيسية. يكشف تحليلنا عن بعض النتائج المثيرة للاهتمام مثل مزايا الخصوصية المعروفة الأقل شهرة فيما يتعلق ب TF-IDF، أو الاختلافات النوعية بين الأساليب الإحصائية والرصاص القائمة على الرسم البياني. وأخيرا، بناء على نتائجنا نناقشها واستنباد بعض الاقتراحات للممارسين. تعد شفرة المصدر لإعادة إنتاج نتائجنا التجريبية، بما في ذلك مكتبة استخراج الكلمات الرئيسية، متوفرة في المستودع التالي: https://github.com/asahi417/kex

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أثار التدفق السريع للمعلومات وفرة البيانات النصية على شبكة الإنترنت عن الطلب العاجل على بناء موارد ومراقبة التقنيات المستخدمة لأغراض مختلفة. لاستخراج جوانب المعلومات المفيدة لمجالات معينة من هذه الشركات الكبيرة المتنامية ديناميكية تتطلب طرقا شفافة غي ر مزودة بحيث تحليل البيانات النصية. اقترحت هذه الورقة تحليل الترحيل الهجين كوسيلة محتملة لاسترداد وتلخيص مواضيع تايوان ذات الصلة المنشورة على Weibo و PTT. من خلال تجمع الكملات من 臺灣 تايوان "في مجموعات من المواضيع عبر إما تجميع كلمة AdgeDings أو مخصصات Dirichlet الكامنة، يمكن تحويل قوائم الكسبات إلى توزيعات الاحتمالات بحيث يمكن تعريف المسافات والوجهات المشابه وحسابها. مع هذه الطريقة، نقوم بإجراء تحليل DIACHRONIC للمشاكل بين Weibo و PTT، مما يوفر وسيلة لتحديد متى وكيف تشابه موضوع بينهما أو يسقط. يتم محاولة وجهة نظر محتمة على السلوك النحوي والآثار السياسية أيضا. وهكذا ألقي هذه الدراسة الضوء على طرق عملية بديلة لطريقة الاستماع للوسائط الاجتماعية المستقبلية بشأن فهم العلاقة عبر المضيق.
تلقت تصنيف النص الإشراف ضعيف اهتماما كبيرا في السنوات الأخيرة لأنه يمكن أن يخفف من العبء الثقيل في التخلص من البيانات الضخمة. من بينها، الأساليب التي يحركها الكلمات الرئيسية هي السائدة حيث يتم استغلال الكلمات الرئيسية التي توفرها المستخدم لتوليد ملصق ات زائفة للنصوص غير المسبقة. ومع ذلك، فإن الطرق الحالية تعالج الكلمات الرئيسية بشكل مستقل، وبالتالي تجاهل الارتباط بينها، والتي ينبغي أن تكون مفيدة إذا استغلت بشكل صحيح. في هذه الورقة، نقترح إطارا جديدا يسمى ClassKG لاستكشاف ارتباط الكلمات الرئيسية الكلمة الرئيسية على الرسم البياني للكلمة الرئيسية بواسطة GNN. إطار عملنا هو عملية تكرارية. في كل تكرار، نقوم أولا بإنشاء رسم بياني للكلمات الرئيسية، لذلك يتم تحويل مهمة تعيين ملصقات زائفة إلى التسجيل عبر الكلمات الرئيسية. لتحسين جودة التعليق التوضيحي، نقدم مهمة ذاتية الإشراف على الصنع بتقسيم Annetator Sigcraph، ثم Finetune IT. باستخدام الملصقات الزائفة التي تم إنشاؤها بواسطة Annotator Siggraph، ثم تدريب مصنف نصي لتصنيف النصوص غير المسبق. أخيرا، نعيد استخراج الكلمات الرئيسية من النصوص المبوبة. تظهر تجارب واسعة النطاق على كل من مجموعات البيانات الطويلة والنص القصير أن طريقتنا تتفوق بشكل كبير على تلك الموجودة.
استخراج الكلمات الرئيسية هي مهمة تحديد الكلمات (أو تعبيرات متعددة الكلمة) التي تصف أفضل وثيقة معينة وخدمة في بوابات الأخبار لربط مقالات من مواضيع مماثلة. في هذا العمل، نطور وتقييم أساليبنا على أربع مجموعات بيانات جديدة تغطي لغات أقل ممثلة تمثيلا، لغا ت غنية بالمظورة في صناعة وسائل الإعلام الإخبارية الأوروبية (الكرواتية، الإستونية، اللاتفية والروسية). أولا، نؤدي تقييم اثنين من أساليب المحولات العصبية الخاضعة للإشراف، والتكلمة العصبية القائمة على المحولات لتحديد الكلمات الرئيسية (TNT-KID) وتمثيل التشفير ثنائي الاتجاه من المحولات (بيرت) مع وجود ذاكرة عشوائية قصيرة الأجل طويلة الأجل الطويلة الأجل (BILSTM) رأس التصنيف CRF)، ومقارنتها بموجب تردد خط الأساس - تعتمد على تردد المستندات (TF-IDF) مقرها. بعد ذلك، نظهر أنه من خلال الجمع بين الكلمات الرئيسية التي تم استرجها من قبل كل من الأساليب القائم على المحولات العصبية وتوسيع المجموعة النهائية من الكلمات الرئيسية ذات التقنية القائمة على TF-IDF غير المدعومة، يمكننا تحسين استدعاء النظام بشكل كبير، مما يجعلها مناسبة للاستخدام ك نظام التوصية في بيئة مجلس الإعلام.
يعيد هذا العمل أن المعلومات المقدمة من الرسم البياني للكلمات واستخدامها النموذجي من خلال نهج التصنيف المستندة إلى الرسم البياني في سياق استخراج الكلمات الرئيسية.عادة ما تستخدم الأساليب الرسمية القائمة على الرسم البياني المعروف عادة المعرفة من تمثيلات ناقلات Word خلال عملية الترتيب عبر تدابير مركزية شهيرة (على سبيل المثال، تصنيف الصفحات) دون إعطاء الدور الأساسي لتوزيع الناقلات.نحن نعتبر مصفوفة مجاورة تتوافق مع الرسم البياني لكلم وثيقة نصية مستهدفة كتمثيل متجه لمفرداته.نقترح النمذجة القائمة على التوزيع في هذه المصفوفة المجاورة باستخدام خوارزميات (التعلم) غير المعروضة.يتم تأكيد فعالية نهج النمذجة القائمة على التوزيع مقارنة بالأساليب الرسمية القائمة على الرسم البياني في الرسم البياني من خلال دراسة تجريبية واسعة النطاق وفقا لدرجة F1.رمزنا متاح على جيثب.
العديد من الأعمال الحديثة في إظهار كلمة التحليل المعجمي ثنائي اللغة (BLI) Word Adgetdings كمنتجات في الفضاء Euclidean.على هذا النحو، يتم حلها عادة من خلال العثور على تحول خطي يقوم بخرائط Ageddings إلى مساحة مشتركة.بدلا من ذلك، قد تكون مفهومة Word Age ddings كما العقد في رسم بياني مرجح.هذا الإطار يتيح لنا فحص حي الرسم البياني للعقدة دون تولي التحول الخطي، ويستغل التقنيات الجديدة من أدب الأمثل في مطابقة الرسم البياني.لم تتم مقارنة هذه الأساليب المتناقضة في Bli حتى الآن.في هذا العمل، ندرس سلوك الأساليب Euclidean مقابل الأساليب القائمة القائم على الرسم البياني إلى Bli تحت شروط البيانات المختلفة وإظهار أنها تكمل بعضها البعض عند الجمع.نطلق سردنا في https://github.com/kellymarchisio/euc-v-graph-bli.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا