أوراق بحثية, رسائل ماجستير ودكتوراه حول language

939 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

تولد نماذج اللغة الكبيرة (LM) نص بطلاقة بشكل ملحوظ ويمكن تكييفها بكفاءة عبر مهام NLP. قياس وضمان جودة النص الذي تم إنشاؤه من حيث السلامة أمر ضروري لنشر LMS في العالم الحقيقي؛ تحقيقا لهذه الغاية، غالبا ما يعتمد العمل السابق على التقييم التلقائي لسمية LM. نناقش هذا النهج بشكل خطير، وتقييم العديد من استراتيجيات تخفيف السمية فيما يتعلق بالتقييم التلقائي والبشري، وتحليل عواقب التخفيف من السمية من حيث التحيز النموذجي وجودة LM. نوضح أنه في حين أن استراتيجيات التدخل الأساسية يمكن أن تتحسن بشكل فعال مقاييس تلقائية تم تأسيسها مسبقا على مجموعة بيانات Realtoxicyprompts، فإن هذا يأتي عند تكلفة انخفاض تغطية LM لكلا النصوص حول، ولهجات المجموعات المهمشة. بالإضافة إلى ذلك، نجد أن التصدير البشري غالبا ما يختلفون في درجات سمية تلقائية عالية بعد تدخلات تخفيض السمية القوي --- تسليط الضوء على مزيد من الفروق الدقيقة المشاركة في التقييم الدقيق لسامة LM.

detoxifying language models challenges in detoxifying detoxifying language نماذج لغة إزالة السموم التحديات في إزالة السموم لغة إزالة السموم صناعة حمض الفوسفور المزيد..

أضرار الحصرية والتحديات الجنسانية في التمثيل غير الثنائي في تكنولوجيات اللغة

596 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

يناقش الجنس على نطاق واسع في سياق المهام اللغوية وعند فحص الصور النمطية الناتجة عن نماذج اللغة.ومع ذلك، تعامل المناقشات الحالية في المقام الأول بين الجنسين باعتبارها ثنائية، والتي يمكن أن تديم الأضرار مثل المحور الدوري للهويات الجنسية غير الثنائية.هذ ه الأضرار مدفوعة بالتحيزات النموذجية ومجموعات البيانات، والتي هي عواقب عدم الاعتراف بعدم الاعتراف بعدم الاعتراف بعدم الاعتراف بالعقاب غير الثنائية في المجتمع.في هذه الورقة، نوضح تعقيد الجنس واللغة حولها، ومسح الأشخاص غير الثنائيين لفهم الأضرار المرتبطة بمعاملة الجنس باعتبارها ثنائية في تكنولوجيات اللغة الإنجليزية.كما نقوم بالتفصيل كيف تمثيل اللغات الحالية (على سبيل المثال، قفاز، بيرت)، وإدامة هؤلاء الأضرار والتحديات ذات الصلة التي يجب الاعتراف بها ومعالجتها للتمثيلات بتشفير المعلومات الجنسانية بشكل قاطع.

gender exclusivity english language technologies الحصرية بين الجنسين تقنيات اللغة الإنجليزية صناعة حمض الفوسفور

الحساب يعزز معرفة القراءة والكتابة النماذج اللغوية

440 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

أظهرت تمثيلات الأرقام المتخصصة في NLP تحسينات على مهام التفكير العددي مثل مشاكل الكلمات الحسابية والتنبؤ بالرقم المحدد. لكن البشر يستخدمون أيضا الحساب لتحسين الشعور بالمفاهيم العالمية، على سبيل المثال، يمكنك مقعد 5 أشخاص في غرفتك "ولكن ليس 500. هل لد يك فهم أفضل للأرقام تحسين فهم النموذج للمفاهيم والكلمات الأخرى؟ تدرس هذه الورقة تأثير استخدام ستة أرقام مختلفة على مهمة التنبؤ بالكلمة الملثمين (MWP)، كوكيل لتقييم معرفة القراءة والكتابة. لدعم هذا التحقيق، نطور Wiki-Convolution، لوحة بيانات 900،000 الجملة المشروحة بأرقام ووحدات، لتجنب حدوث حوادث الأرقام الاسمية والترتيوية. نجد تحسنا كبيرا في MWP للجمل التي تحتوي على أرقام، أن المظلات المتأثرة هي أفضل ترميز أرقام، مما أدى إلى قفزة أكثر من 2 نقطة في دقة التنبؤ عبر خط الأساس بيرت، وأن هذه مهارات محو الأمية المعززة تعميم أيضا إلى السياقات دون أرقام مشروح. نطلق كل الكود في https://git.io/juzxn.

الاستدلال المعجمي literacy of language معرفة القراءة والكتابة اللغة صناعة حمض الفوسفور

التحكم في النمط لتوليد اللغة الطبيعية الموجهة المخطط

948 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

تركز توليد اللغة الطبيعية (NLG) لأنظمة الحوار الموجهة نحو المهام على توصيل محتوى معين بدقة، بطلاقة، وتطافق. في حين أن هذه السمات أمر حاسم للحوار الناجح، فمن المستحسن أيضا تحقيق أهداف أسلوبية محددة في وقت واحد، مثل طول الاستجابة، وجهة النظر، وصفي، وال شعور، والشكل، والشكل، والتعاطف. في هذا العمل، نركز على التحكم الأسلطي والتقييم ل NLG الموجهة للمخطط، مع أهداف مشتركة لتحقيق السيطرة الدلالية واللحلية. نقوم بتجربة تفصيلية مع مختلف طرق الجيل التي تسيطر عليها نماذج اللغة المحددة مسبقا: على وجه التحديد، والتدريب الشرطي، والضبط الجميل الموجه، والكشف الموجهة. نناقش مزاياها والقيود الخاصة بهم، وتقييمها بمجموعة واسعة من مقاييس التقييم التلقائي والبشري. تظهر نتائجنا أنه في حين أن الدقة عالية النمط والصحة الدلالية أسهل في تحقيق المزيد من الأساليب المعرفة من المعالم مع التدريب الشرطي، فإن التحكم الأسطوري يمكن تحقيقه أيضا على أنماط معقدة أكثر دلالة تستخدم أساليب فك التشفير الموجودة على أساس التمييز. تشير النتائج أيضا إلى أن الطرق التي تعتبر أكثر قابلية للتطوير (مع ضبط المعلمات أقل فرط) وأن توليد سياق Disent Nastange والاختلافات الأسلوبية أكثر فعالية في تحقيق صحة دلالية ودقة أسلوب.

الانتباه القائمة المدربة مسبقا schema-guided natural language دليل طبيعي موجه المخطط صناعة حمض الفوسفور

Cushlepor: تخصيص متري هلكارد باستخدام Optuna لاتفاق أعلى مع الأحكام البشرية أو Lange Language Model

465 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

كان التقييم البشري مكلفا دائما بينما يكافح الباحثون من أجل الثقة في المقاييس التلقائية. لمعالجة هذا، نقترح تخصيص المقاييس التقليدية من خلال أخذ مزايا نماذج اللغة المدربة مسبقا (PLMS) وعشرات المحدودة المسمى الإنسان المسمى. نقدم أولا عوامل HLEPOR متري، تليها نسخة بيثون التي طورناها (استدارها) التي حققت الضبط التلقائي لمعلمات الترجيح في هلكور متري. ثم نقدم HLEPOR (Cushlepor) المخصص الذي يستخدم إطار عمل تحسين المعلمات Optuna إلى معلمات HLEOR Tune-Tune Tune نحو اتفاق أفضل لاتفاق أفضل على نماذج اللغة المدربة مسبقا (باستخدام LAST) فيما يتعلق بأزواج لغة MT الدقيقة التي يتم نشرها. نحن أيضا تحسين cushlepor تجاه بيانات التقييم البشرية المهنية بناء على إطار إدارة الموارد البشرية و PSQM على أزواج اللغة الإنجليزية والألمانية والإنجليزية. تظهر التحقيقات التجريبية Cushlepor يعزز عروض هيلور بورز نحو اتفاقات أفضل للمتمرنات مثل LAST مع تكلفة أقل بكثير، واتفاقيات أفضل للتقييمات البشرية بما في ذلك درجات MQM و PSQM، وتوجز أداء أفضل بكثير من بلو. تظهر النتائج الرسمية أن عروضنا تفوز بثلاث أزواج لغوية بما في ذلك اللغة الإنجليزية والألمانية والصينية الإنجليزية على نطاق الأخبار عبر Cushlepor (LM) والإنجليزية-الروسية على نطاق TED عبر HLEPOR. (البيانات المتاحة في https://github.com/poethan/cushlepor)

pre-trained language models customising hlepor metric pre-trained language نماذج اللغة المدربة مسبقا تخصيص هيلور متري اللغة المدربة مسبقا صناعة حمض الفوسفور المزيد..

العلاقة - دراسة فيديو القراءة فهم لغرض اللغة الزمنية

738 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

تهدف اللغة الزمنية الأرضية في مقاطع الفيديو إلى توطين الفترة الزمنية ذات الصلة بالسجن الاستعلام المحدد. الطريقة السابقة تعاملها إما بمهمة الانحدار للحدود أو مهمة استخراج تمتد. ستقوم هذه الورقة بصياغة لغة زمنية تأريض في فهم قراءة الفيديو واقتراح شبكة إعلانات العلاقة (Ranet) لمعالجتها. يهدف هذا الإطار إلى تحديد خيار لحظة فيديو من مجموعة الإجابة المحددة مسبقا بمساعدة Incrse-and-Fine-Query-Query-Quicies Infraction و China- يقترح Interactor Interactor من الاختيار مطابقة المعلومات المرئية والنصية في وقت واحد في مستويات لحظة الجملة ومستويات لحظة الرمز المميز، مما يؤدي إلى تفاعل عبر مشروط خشن وغرامة. علاوة على ذلك، يتم تقديم منشئ علاقة متعددة الخيارات الرواية من خلال الاستفادة من الأزلاء الرسم البياني لالتقاط التبعيات بين خيارات لحظات الفيديو للحصول على أفضل اختيار الخيار. تجارب واسعة النطاق على تصنيف ActivityNet-Campative و Tacos و Charades-Sta تثبت فعالية حلنا. ستكون الرموز متاحة في https://github.com/huntersxsx/ranet.

الاستدلال في الدوران المتعدد language grounding temporal language لغة الأرض اللغة الزمنية صناعة حمض الفوسفور

قل "نعم" إلى الإيجابية: اكتشاف اللغة السامة في مجال الاتصالات

438 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

الاتصالات في مكان العمل (على سبيل المثال البريد الإلكتروني والدردشة، إلخ.) هو جزء أساسي من إنتاجية المؤسسة. المحادثات الصحية أمر حاسم لإنشاء بيئة شاملة والحفاظ على الوئام في منظمة. يمكن للاتصالات السامة في مكان العمل أن تؤثر سلبا على الرضا الوظيفي ال إجمالي وغالبا ما تكون خفية أو مخفية أو إظهار تحيزات بشرية. جعلت الدقة اللغوية للمحادثات الخفيفة والأذى من الصعب على الباحثين تحديدها واستخراج المحادثات السامة تلقائيا. في حين أن اللغة الهجومية أو الكلام الكراهية قد درست على نطاق واسع في المجتمعات الاجتماعية، إلا أنه كان هناك القليل من العمل في دراسة الاتصالات السامة في رسائل البريد الإلكتروني. على وجه التحديد، فإن عدم وجود كوربوس، Sparsity من السمية في رسائل البريد الإلكتروني للمؤسسات، ومعايير محددة جيدا للتسجيل المحادثات السامة قد منع الباحثون من معالجة المشكلة على نطاق واسع. نأخذ الخطوة الأولى نحو دراسة السمية في رسائل البريد الإلكتروني في مكان العمل من خلال توفير (1) تصنيفا عاما وقابل للاستثناء بشكل خاص لدراسة اللغة السامة في مكان العمل (2) مجموعة بيانات لدراسة اللغة السامة في مكان العمل بناء على التصنيف و (3) تحليل لماذا لا تكون مجموعات البيانات الهجومية والكراهية مناسبة للكشف عن سمية مكان العمل.

detecting toxic language workplace الكشف عن اللغة السامة مكان العمل صناعة حمض الفوسفور

رائع: فحص الحقائق بناء على فهم اللغة على المعلومات غير المنظمة والمنظم

690 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

كجزء من المهمة المشتركة الحميرة، قمنا بتطوير بنية قوية ومضبوطة بدقة للتعامل مع الاسترجاع المشترك وتتبعها على البيانات النصية وكذلك البيانات الهيكلية مثل الجداول.اقترحنا خططين تدريبي لمعالجة العقبات المتأصلة لمجموعات البيانات متعددة الوسائط متعددة الق فزات.أول واحد يسمح بإجراء استرجاع قوي لمجموعات الأدلة الكاملة، في حين أن المرء الثاني يتيح الاستيطاط الاستفادة الكاملة من مدخلات الأدلة الصاخبة.بالإضافة إلى ذلك، كشف عملنا عن رؤى مهمة وسيلة بحثية محتملة للتحسين في المستقبل على هذا النوع من مجموعة البيانات.في التقييم الأولي حول مجموعة اختبار المهام المشتركة الحميرة، يحقق نظامنا 0.271 درجة حمامة، مع استدعاء الأدلة 0.4258 ودقة استقامة 0.5607.

fact-checking based based on understanding understanding of language بناء على التفاهم صناعة حمض الفوسفور

الأمهات هي الوسيلة والأكاديميين مدعين: ما هي نماذج اللغة المحددة التي تتعلم عنك؟

636 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

في هذه الورقة، يمكننا التحقيق في أنواع المعلومات النمطية التي يتم التقاطها عن طريق نماذج اللغة المحددة مسبقا.نقدم بيانات البيانات الأولى التي تشمل السمات النمطية لمجموعة من المجموعات الاجتماعية واقتراح طريقة لاستزاز الصور النمطية المشفرة من قبل نماذج اللغة المحددة في أزياء غير منشأة.علاوة على ذلك، نربط النمط النمطية الناشئة على مظاهرهم كعاطرات أساسية كوسيلة لدراسة آثارهم العاطفية بطريقة أكثر تعميم.لإظهار كيف يمكن استخدام أساليبنا لتحليل نوبات المشاعر والنمطية بسبب التجربة اللغوية، نستخدم ضبطها بشكل جيد على مصادر الأخبار كدراسة حالة.تعرض تجاربنا كيف تختلف المواقف تجاه مجموعات اجتماعية مختلفة عبر النماذج وكيف يمكن أن تحول العواطف والقوالب النمطية بسرعة في مرحلة ضبط الدقيقة.

تحويل ملثمين language models learn نماذج اللغة تعلم صناعة حمض الفوسفور

أقرب طرازات لغة الجار

774 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

تعلم نماذج اللغة العصبية غير المعلمة (NLMS) التوزيعات التنبؤية للنص باستخدام مصدر بيانات خارجي، والذي يسمح لهم بالتعلم من خلال حفظ مخطط Datapooints التدريبي بشكل صريح.في حين أن هذه النماذج فعالة، فإن هذه النماذج غالبا ما تتطلب استرجاع من مؤشرات بيانا ت كبيرة في وقت الاختبار، مما يزيد بشكل كبير من تسليم الاستدلال، وبالتالي يحد من نشر NLMS غير المعلم في التطبيقات العملية.في هذه الورقة، نأخذ نموذج لغة Geature K-Neave المقترح مؤخرا كمثال، استكشاف الطرق لتحسين كفاءتها على طول الأبعاد المختلفة.تبين التجارب في معيار Wikitext-103 القياسي ومجموعات بيانات التكيف عن المجال أن أساليبنا قادرة على تحقيق ما يصل إلى سرعة 6X في سرعة الاستدلال مع الاحتفاظ بأداء مماثل.قد يوفر التحليل التجريبي الذي نقدمه مبادئ توجيهية للبحث في المستقبل يسعى إلى تطوير أو نشر أكثر كفاءة غير رسمية غير رسمية.

nearest neighbor language efficient nearest neighbor neighbor language models أقرب لغة الجار فعالة أقرب جارة نماذج لغة الجار صناعة حمض الفوسفور المزيد..

يمكنك البدء بجني المال وتحقيق ربح مادي من أبحاثك العلمية، المزيد