من النماذج الإحصائية إلى النماذج العصبية، تم اقتراح مجموعة واسعة من خوارزميات نمذجة الموضوعات في الأدب. ومع ذلك، بسبب تنوع مجموعات البيانات والمقاييس، لم تكن هناك العديد من الجهود لمقارنة أدائها بشكل منهجي على نفس المعايير وتحت نفس الشروط. في هذه الورقة، نقدم مجموعة مختارة من 9 تقنيات نمذجة موضوعا من حالة الفن التي تعكس تنوع مناهج المهمة، لمحة عامة عن المقاييس المختلفة المستخدمة لمقارنة أدائها، وتحديات إجراء هذه المقارنة. نحن نقيم تجريبيا أداء هذه النماذج على إعدادات مختلفة تعكس مجموعة متنوعة من الظروف الواقعية من حيث حجم مجموعة البيانات وعدد المواضيع وتوزيع الموضوعات، بعد عمليات المعالجة والتتقييم المتطابقة. باستخدام كل من المقاييس التي تعتمد على الخصائص الجوهرية لمجموعات البيانات (مقاييس الاتساق المختلفة)، بالإضافة إلى المعرفة الخارجية (تضييع Word Adgeddings وموضوع الحقيقة)، تكشف تجاربنا عدة أوجه القصور فيما يتعلق بالممارسات المشتركة في تقييم نماذج الموضوعات.
From statistical to neural models, a wide variety of topic modelling algorithms have been proposed in the literature. However, because of the diversity of datasets and metrics, there have not been many efforts to systematically compare their performance on the same benchmarks and under the same conditions. In this paper, we present a selection of 9 topic modelling techniques from the state of the art reflecting a diversity of approaches to the task, an overview of the different metrics used to compare their performance, and the challenges of conducting such a comparison. We empirically evaluate the performance of these models on different settings reflecting a variety of real-life conditions in terms of dataset size, number of topics, and distribution of topics, following identical preprocessing and evaluation processes. Using both metrics that rely on the intrinsic characteristics of the dataset (different coherence metrics), as well as external knowledge (word embeddings and ground-truth topic labels), our experiments reveal several shortcomings regarding the common practices in topic models evaluation.
المراجع المستخدمة
https://aclanthology.org/
أجريت هذه الدراسة عام 2013 في موقعي كسب و الربوة التابعين لمحافظة اللاذقية حيث نفذت جولات حقلية بهدف حصر و توصيف الطرز المحلية للتفاح المنتشرة في هذين الموقعين. تم من خلالها تحديد خمسة طرز محلية للتفاح هي: بربوري و سكري و شرخوشي و ملكي و جبق جيان، و
Semeval هو المكان الرئيسي في مجتمع NLP لاقتراح التحديات الجديدة والتقييم التجريبي المنهجي لأنظمة NLP.توفر هذه الورقة تحليلا قياسيا منهيا لسيميفال تهدف إلى الأدلة على أنماط المساهمات وراء Semeval.من خلال فهم توزيع أنواع المهام والمقاييس والبنية والمشا
يتطلب محتوى الوسائط الاجتماعية المتغيرة بسرعة لنماذج الكشف عن إساءة الاستخدام قوية وممتع.ومع ذلك، فإن النماذج الخاضعة للإشراف على أحدث حدوث عرض الأداء المتدهورة عند تقييمها بشأن التعليقات المسيئة التي تختلف عن Training Corpus.نحقق في ما إذا كان أداء
هدفت الدّراسة إلى دراسة الخصائص الاقتصاديّة لمحصولي التفاح و العنب المزروعين بعلاً في سورية. اعتمدت الدّراسة في التحليل على البيانات المنشورة و غير المنشورة، و الصادرة عن وزارة الزراعة و الإصلاح الزراعي، لسلسلة زمنية (2000-2014) من البيانات المتعلّقة
نماذج الموضوع العصبي هي النماذج العصبية الأخيرة تهدف إلى استخراج الموضوعات الرئيسية من مجموعة من الوثائق.عادة ما تكون مقارنة هذه النماذج محدودة لأن فرط الدم محتجز ثابتة.في هذه الورقة، نقدم تحليلا تجريبي ومقارنة بين نماذج الموضوعات العصبية من خلال الع