تولد نماذج اللغة الكبيرة (LM) نص بطلاقة بشكل ملحوظ ويمكن تكييفها بكفاءة عبر مهام NLP. قياس وضمان جودة النص الذي تم إنشاؤه من حيث السلامة أمر ضروري لنشر LMS في العالم الحقيقي؛ تحقيقا لهذه الغاية، غالبا ما يعتمد العمل السابق على التقييم التلقائي لسمية
LM. نناقش هذا النهج بشكل خطير، وتقييم العديد من استراتيجيات تخفيف السمية فيما يتعلق بالتقييم التلقائي والبشري، وتحليل عواقب التخفيف من السمية من حيث التحيز النموذجي وجودة LM. نوضح أنه في حين أن استراتيجيات التدخل الأساسية يمكن أن تتحسن بشكل فعال مقاييس تلقائية تم تأسيسها مسبقا على مجموعة بيانات Realtoxicyprompts، فإن هذا يأتي عند تكلفة انخفاض تغطية LM لكلا النصوص حول، ولهجات المجموعات المهمشة. بالإضافة إلى ذلك، نجد أن التصدير البشري غالبا ما يختلفون في درجات سمية تلقائية عالية بعد تدخلات تخفيض السمية القوي --- تسليط الضوء على مزيد من الفروق الدقيقة المشاركة في التقييم الدقيق لسامة LM.
يناقش الجنس على نطاق واسع في سياق المهام اللغوية وعند فحص الصور النمطية الناتجة عن نماذج اللغة.ومع ذلك، تعامل المناقشات الحالية في المقام الأول بين الجنسين باعتبارها ثنائية، والتي يمكن أن تديم الأضرار مثل المحور الدوري للهويات الجنسية غير الثنائية.هذ
ه الأضرار مدفوعة بالتحيزات النموذجية ومجموعات البيانات، والتي هي عواقب عدم الاعتراف بعدم الاعتراف بعدم الاعتراف بعدم الاعتراف بالعقاب غير الثنائية في المجتمع.في هذه الورقة، نوضح تعقيد الجنس واللغة حولها، ومسح الأشخاص غير الثنائيين لفهم الأضرار المرتبطة بمعاملة الجنس باعتبارها ثنائية في تكنولوجيات اللغة الإنجليزية.كما نقوم بالتفصيل كيف تمثيل اللغات الحالية (على سبيل المثال، قفاز، بيرت)، وإدامة هؤلاء الأضرار والتحديات ذات الصلة التي يجب الاعتراف بها ومعالجتها للتمثيلات بتشفير المعلومات الجنسانية بشكل قاطع.
أظهرت تمثيلات الأرقام المتخصصة في NLP تحسينات على مهام التفكير العددي مثل مشاكل الكلمات الحسابية والتنبؤ بالرقم المحدد. لكن البشر يستخدمون أيضا الحساب لتحسين الشعور بالمفاهيم العالمية، على سبيل المثال، يمكنك مقعد 5 أشخاص في غرفتك "ولكن ليس 500. هل لد
يك فهم أفضل للأرقام تحسين فهم النموذج للمفاهيم والكلمات الأخرى؟ تدرس هذه الورقة تأثير استخدام ستة أرقام مختلفة على مهمة التنبؤ بالكلمة الملثمين (MWP)، كوكيل لتقييم معرفة القراءة والكتابة. لدعم هذا التحقيق، نطور Wiki-Convolution، لوحة بيانات 900،000 الجملة المشروحة بأرقام ووحدات، لتجنب حدوث حوادث الأرقام الاسمية والترتيوية. نجد تحسنا كبيرا في MWP للجمل التي تحتوي على أرقام، أن المظلات المتأثرة هي أفضل ترميز أرقام، مما أدى إلى قفزة أكثر من 2 نقطة في دقة التنبؤ عبر خط الأساس بيرت، وأن هذه مهارات محو الأمية المعززة تعميم أيضا إلى السياقات دون أرقام مشروح. نطلق كل الكود في https://git.io/juzxn.
تركز توليد اللغة الطبيعية (NLG) لأنظمة الحوار الموجهة نحو المهام على توصيل محتوى معين بدقة، بطلاقة، وتطافق. في حين أن هذه السمات أمر حاسم للحوار الناجح، فمن المستحسن أيضا تحقيق أهداف أسلوبية محددة في وقت واحد، مثل طول الاستجابة، وجهة النظر، وصفي، وال
شعور، والشكل، والشكل، والتعاطف. في هذا العمل، نركز على التحكم الأسلطي والتقييم ل NLG الموجهة للمخطط، مع أهداف مشتركة لتحقيق السيطرة الدلالية واللحلية. نقوم بتجربة تفصيلية مع مختلف طرق الجيل التي تسيطر عليها نماذج اللغة المحددة مسبقا: على وجه التحديد، والتدريب الشرطي، والضبط الجميل الموجه، والكشف الموجهة. نناقش مزاياها والقيود الخاصة بهم، وتقييمها بمجموعة واسعة من مقاييس التقييم التلقائي والبشري. تظهر نتائجنا أنه في حين أن الدقة عالية النمط والصحة الدلالية أسهل في تحقيق المزيد من الأساليب المعرفة من المعالم مع التدريب الشرطي، فإن التحكم الأسطوري يمكن تحقيقه أيضا على أنماط معقدة أكثر دلالة تستخدم أساليب فك التشفير الموجودة على أساس التمييز. تشير النتائج أيضا إلى أن الطرق التي تعتبر أكثر قابلية للتطوير (مع ضبط المعلمات أقل فرط) وأن توليد سياق Disent Nastange والاختلافات الأسلوبية أكثر فعالية في تحقيق صحة دلالية ودقة أسلوب.
كان التقييم البشري مكلفا دائما بينما يكافح الباحثون من أجل الثقة في المقاييس التلقائية. لمعالجة هذا، نقترح تخصيص المقاييس التقليدية من خلال أخذ مزايا نماذج اللغة المدربة مسبقا (PLMS) وعشرات المحدودة المسمى الإنسان المسمى. نقدم أولا عوامل HLEPOR متري،
تليها نسخة بيثون التي طورناها (استدارها) التي حققت الضبط التلقائي لمعلمات الترجيح في هلكور متري. ثم نقدم HLEPOR (Cushlepor) المخصص الذي يستخدم إطار عمل تحسين المعلمات Optuna إلى معلمات HLEOR Tune-Tune Tune نحو اتفاق أفضل لاتفاق أفضل على نماذج اللغة المدربة مسبقا (باستخدام LAST) فيما يتعلق بأزواج لغة MT الدقيقة التي يتم نشرها. نحن أيضا تحسين cushlepor تجاه بيانات التقييم البشرية المهنية بناء على إطار إدارة الموارد البشرية و PSQM على أزواج اللغة الإنجليزية والألمانية والإنجليزية. تظهر التحقيقات التجريبية Cushlepor يعزز عروض هيلور بورز نحو اتفاقات أفضل للمتمرنات مثل LAST مع تكلفة أقل بكثير، واتفاقيات أفضل للتقييمات البشرية بما في ذلك درجات MQM و PSQM، وتوجز أداء أفضل بكثير من بلو. تظهر النتائج الرسمية أن عروضنا تفوز بثلاث أزواج لغوية بما في ذلك اللغة الإنجليزية والألمانية والصينية الإنجليزية على نطاق الأخبار عبر Cushlepor (LM) والإنجليزية-الروسية على نطاق TED عبر HLEPOR. (البيانات المتاحة في https://github.com/poethan/cushlepor)
تهدف اللغة الزمنية الأرضية في مقاطع الفيديو إلى توطين الفترة الزمنية ذات الصلة بالسجن الاستعلام المحدد. الطريقة السابقة تعاملها إما بمهمة الانحدار للحدود أو مهمة استخراج تمتد. ستقوم هذه الورقة بصياغة لغة زمنية تأريض في فهم قراءة الفيديو واقتراح شبكة
إعلانات العلاقة (Ranet) لمعالجتها. يهدف هذا الإطار إلى تحديد خيار لحظة فيديو من مجموعة الإجابة المحددة مسبقا بمساعدة Incrse-and-Fine-Query-Query-Quicies Infraction و China- يقترح Interactor Interactor من الاختيار مطابقة المعلومات المرئية والنصية في وقت واحد في مستويات لحظة الجملة ومستويات لحظة الرمز المميز، مما يؤدي إلى تفاعل عبر مشروط خشن وغرامة. علاوة على ذلك، يتم تقديم منشئ علاقة متعددة الخيارات الرواية من خلال الاستفادة من الأزلاء الرسم البياني لالتقاط التبعيات بين خيارات لحظات الفيديو للحصول على أفضل اختيار الخيار. تجارب واسعة النطاق على تصنيف ActivityNet-Campative و Tacos و Charades-Sta تثبت فعالية حلنا. ستكون الرموز متاحة في https://github.com/huntersxsx/ranet.
الاتصالات في مكان العمل (على سبيل المثال البريد الإلكتروني والدردشة، إلخ.) هو جزء أساسي من إنتاجية المؤسسة. المحادثات الصحية أمر حاسم لإنشاء بيئة شاملة والحفاظ على الوئام في منظمة. يمكن للاتصالات السامة في مكان العمل أن تؤثر سلبا على الرضا الوظيفي ال
إجمالي وغالبا ما تكون خفية أو مخفية أو إظهار تحيزات بشرية. جعلت الدقة اللغوية للمحادثات الخفيفة والأذى من الصعب على الباحثين تحديدها واستخراج المحادثات السامة تلقائيا. في حين أن اللغة الهجومية أو الكلام الكراهية قد درست على نطاق واسع في المجتمعات الاجتماعية، إلا أنه كان هناك القليل من العمل في دراسة الاتصالات السامة في رسائل البريد الإلكتروني. على وجه التحديد، فإن عدم وجود كوربوس، Sparsity من السمية في رسائل البريد الإلكتروني للمؤسسات، ومعايير محددة جيدا للتسجيل المحادثات السامة قد منع الباحثون من معالجة المشكلة على نطاق واسع. نأخذ الخطوة الأولى نحو دراسة السمية في رسائل البريد الإلكتروني في مكان العمل من خلال توفير (1) تصنيفا عاما وقابل للاستثناء بشكل خاص لدراسة اللغة السامة في مكان العمل (2) مجموعة بيانات لدراسة اللغة السامة في مكان العمل بناء على التصنيف و (3) تحليل لماذا لا تكون مجموعات البيانات الهجومية والكراهية مناسبة للكشف عن سمية مكان العمل.
كجزء من المهمة المشتركة الحميرة، قمنا بتطوير بنية قوية ومضبوطة بدقة للتعامل مع الاسترجاع المشترك وتتبعها على البيانات النصية وكذلك البيانات الهيكلية مثل الجداول.اقترحنا خططين تدريبي لمعالجة العقبات المتأصلة لمجموعات البيانات متعددة الوسائط متعددة الق
فزات.أول واحد يسمح بإجراء استرجاع قوي لمجموعات الأدلة الكاملة، في حين أن المرء الثاني يتيح الاستيطاط الاستفادة الكاملة من مدخلات الأدلة الصاخبة.بالإضافة إلى ذلك، كشف عملنا عن رؤى مهمة وسيلة بحثية محتملة للتحسين في المستقبل على هذا النوع من مجموعة البيانات.في التقييم الأولي حول مجموعة اختبار المهام المشتركة الحميرة، يحقق نظامنا 0.271 درجة حمامة، مع استدعاء الأدلة 0.4258 ودقة استقامة 0.5607.
في هذه الورقة، يمكننا التحقيق في أنواع المعلومات النمطية التي يتم التقاطها عن طريق نماذج اللغة المحددة مسبقا.نقدم بيانات البيانات الأولى التي تشمل السمات النمطية لمجموعة من المجموعات الاجتماعية واقتراح طريقة لاستزاز الصور النمطية المشفرة من قبل نماذج
اللغة المحددة في أزياء غير منشأة.علاوة على ذلك، نربط النمط النمطية الناشئة على مظاهرهم كعاطرات أساسية كوسيلة لدراسة آثارهم العاطفية بطريقة أكثر تعميم.لإظهار كيف يمكن استخدام أساليبنا لتحليل نوبات المشاعر والنمطية بسبب التجربة اللغوية، نستخدم ضبطها بشكل جيد على مصادر الأخبار كدراسة حالة.تعرض تجاربنا كيف تختلف المواقف تجاه مجموعات اجتماعية مختلفة عبر النماذج وكيف يمكن أن تحول العواطف والقوالب النمطية بسرعة في مرحلة ضبط الدقيقة.
تعلم نماذج اللغة العصبية غير المعلمة (NLMS) التوزيعات التنبؤية للنص باستخدام مصدر بيانات خارجي، والذي يسمح لهم بالتعلم من خلال حفظ مخطط Datapooints التدريبي بشكل صريح.في حين أن هذه النماذج فعالة، فإن هذه النماذج غالبا ما تتطلب استرجاع من مؤشرات بيانا
ت كبيرة في وقت الاختبار، مما يزيد بشكل كبير من تسليم الاستدلال، وبالتالي يحد من نشر NLMS غير المعلم في التطبيقات العملية.في هذه الورقة، نأخذ نموذج لغة Geature K-Neave المقترح مؤخرا كمثال، استكشاف الطرق لتحسين كفاءتها على طول الأبعاد المختلفة.تبين التجارب في معيار Wikitext-103 القياسي ومجموعات بيانات التكيف عن المجال أن أساليبنا قادرة على تحقيق ما يصل إلى سرعة 6X في سرعة الاستدلال مع الاحتفاظ بأداء مماثل.قد يوفر التحليل التجريبي الذي نقدمه مبادئ توجيهية للبحث في المستقبل يسعى إلى تطوير أو نشر أكثر كفاءة غير رسمية غير رسمية.