تقلص نهج التحيز مع اعتماد النماذج على ميزات البيانات الحساسة للبيانات، مثل رموز المجموعة الاجتماعية (SGTS)، مما يؤدي إلى تنبؤات متساوية عبر الميزات الحساسة.ومع ذلك، في الكشف عن الكلام الكراهية، قد يتجاهل تكالير التعادل النموذجي الاختلافات المهمة بين الفئات الاجتماعية المستهدفة، حيث يمكن أن يحتوي خطاب الكراهية على لغة نمطية محددة لكل رقاقة.هنا، لاتخاذ لغة محددة حول كل رقص في الاعتبار، نعتمد على الإنصاف المتعارض واستكمال التنبؤات فيما بينها، ولدت من خلال تغيير SGTS.تقوم طريقتنا بتقييم التشابه في احتمالية الجملة (عبر نماذج اللغة المدربة مسبقا) بين الوسائل المتعددة، لعلاج SGTS على قدم المساواة إلا في سياقات قابلة للتبديل.من خلال تطبيق اقتران Logit لتحقيق التوازن في المجموعة المحظورة من مواجهة المصنع لكل حالة، فإننا نحسن مقاييس الإنصاف مع الحفاظ على الأداء النموذجي في اكتشاف خطاب الكراهية.
Bias mitigation approaches reduce models' dependence on sensitive features of data, such as social group tokens (SGTs), resulting in equal predictions across the sensitive features. In hate speech detection, however, equalizing model predictions may ignore important differences among targeted social groups, as hate speech can contain stereotypical language specific to each SGT. Here, to take the specific language about each SGT into account, we rely on counterfactual fairness and equalize predictions among counterfactuals, generated by changing the SGTs. Our method evaluates the similarity in sentence likelihoods (via pre-trained language models) among counterfactuals, to treat SGTs equally only within interchangeable contexts. By applying logit pairing to equalize outcomes on the restricted set of counterfactuals for each instance, we improve fairness metrics while preserving model performance on hate speech detection.
المراجع المستخدمة
https://aclanthology.org/
نحن نتطلع إلى مهمة اكتشاف الكلام الكراهية التلقائي لغات الموارد المنخفضة.بدلا من جمع وإشراف بيانات خطاب الكراهية الجديدة، نوضح كيفية استخدام التعلم عبر التحويلات عبر اللغات للاستفادة من البيانات الموجودة بالفعل من لغات الموارد العالية.باستخدام مصنفات
اكتشاف الكلام الكراهية هو مجال أبحاث بنشاط مع مجموعة متنوعة من الأساليب المقترحة مؤخرا التي سمحت بدفع النتائج الحديثة.واحدة من تحديات هذه الأساليب الآلية - وهي نماذج التعلم العميق الحديثة - خطر الإيجابيات الخاطئة (أي، اتهامات كاذبة)، والتي قد تؤدي إل
نحن ندرس فائدة ميزات المعدات الباردة لتحديد نوع وهدف خطاب الكراهية في تعليقات Facebook الهولندية.لهذا الغرض، تم تفاح جميع الاستعارات البغيضة في كوربوس الهولندية Lilah Corpus وتفسيرها بما يتماشى مع نظرية الاستعارة المفاهيمية وتحليل الاستعارة الحرج.نحن
في هذه الورقة، نصف التجارب المصممة لتقييم تأثير الميزات المصنوعة من النسيج والعاطفة على الكشف عن الكلام الكراهية: مهمة تصنيف المحتوى النصي في فئات الكلام الكراهية أو غير الكراهية. تجري تجاربنا لمدة ثلاث لغات - اللغة الإنجليزية والسلوفين والهولندية -
نقدم نظاما للصفر بالرصاص لغة هجومية عبر اللغات وتصنيف الكلام الكراهية.تم تدريب النظام على مجموعات البيانات الإنجليزية واختباره في مهمة اكتشاف محتوى خطاب الكراهية والوسائط الاجتماعية الهجومية في عدد من اللغات دون أي تدريب إضافي.تظهر التجارب قدرة رائعة