ترغب بنشر مسار تعليمي؟ اضغط هنا

Biocopy: آلية نسخ SPAN المكونة والتشغيل في نماذج SEQ2SEQ

BioCopy: A Plug-And-Play Span Copy Mechanism in Seq2Seq Models

125   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تحصل آليات النسخ بشكل صريح على الرموز دون تغيير من تسلسل المصدر (الإدخال) لإنشاء تسلسل الهدف (الإخراج) ضمن إطار SEQ2SEQ العصبي.ومع ذلك، فإن معظم آليات النسخ الحالية تفكر فقط في نسخ كلمة واحدة من الجمل المصدر، مما يؤدي إلى فقدان الرموز الأساسية أثناء نسخ يمتد لفترة طويلة.في هذا العمل، نقترح هندسة التوصيل والتشغيل، وهي Biocopy، لتخفيف المشكلة المذكورة أعلاه.على وجه التحديد، في مرحلة التدريب، نقوم ببناء علامة حيوية لكل رمزية وتدريب النموذج الأصلي مع علامات الحيوية بشكل مشترك.في مرحلة الاستدلال، سيتوقع النموذج أولا العلامة الحيوية في كل خطوة زمنية، ثم إجراء استراتيجيات قناع مختلفة استنادا إلى الملصق الحيوي المتوقع لتقليل نطاق توزيعات الاحتمالات على قائمة المفردات.النتائج التجريبية على اثنين من المهام الإدارية المنفصلة تظهر أنهم يتفوقون جميعا على النماذج الأساسية عن طريق إضافة البوغايت لدينا إلى هيكل النموذج الأصلي.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أظهرت نماذج لغة كبيرة مدربة مسبقا قدرةها مرارا وتكرارا على إنتاج نص يجيد. ومع ذلك حتى عند البدء من موجه، يمكن أن يستمر الجيل في العديد من الاتجاهات المعقولة. طرق فك التشفير الحالية بهدف التحكم في الجيل، على سبيل المثال، لضمان إدراج كلمات محددة، إما أ ن تتطلب نماذج إضافية أو ضبط جيد، أو العمل بشكل سيء عندما تكون المهمة في متناول اليد، على سبيل المثال، جيل القصة. في هذا العمل، نقدم طريقة فك تشفير التوصيل والتشغيل للتوليد اللغوي السيطرة البسيطة وبديهية، ويمكن وصفها في جملة واحدة: إعطاء موضوع أو كلمة رئيسية، ونضيف التحول إلى توزيع الاحتمالات على المفردات نحو كلمات مماثلة دلالة. نظهر كيف يمكن استخدام صلب هذا التوزيع لفرض قيود صلبة على توليد اللغة، وهو أمر لا تتمكن أي طريقة غيرها من الوسم والتشغيل حاليا مع مولدات لغة SOTA. على الرغم من بساطة هذا النهج، نرى أنه يعمل بشكل جيد بشكل لا يصدق في الممارسة: فك التشفير من GPT-2 يؤدي إلى جمل متنوعة وطلاقة مع ضمان ظهور كلمات دليل معين. نحن نؤدي دراستي المستخدمين، وكشف أن طريقة (1) تتفوقت أساليبنا على الطرق المتنافسة في التقييمات البشرية؛ و (2) إجبار الكلمات الدليلية على الظهور في النص الذي تم إنشاؤه ليس له تأثير على الطلاقة للنص الذي تم إنشاؤه.
تم استخدام نماذج ترميز فك التشفير بشكل شائع للعديد من المهام مثل الترجمة الآلية وتوليد الاستجابة.كما ذكرت البحث السابق، تعاني هذه النماذج من توليد التكرار الزائد.في هذا البحث، نقترح آلية جديدة لنماذج تشفير التشفير التي تقدر الاختلاف الدلالي في جملة م صدر قبل وبعد تغذية في نموذج فك التشفير لالتقاط الاتساق بين الجانبين.تساعد هذه الآلية في تقليل الرموز التي تم إنشاؤها مرارا وتكرارا لمجموعة متنوعة من المهام.نتائج التقييم على مجموعات بيانات توليد الترجمة والاستجابة المتاحة للجمهورية توضح فعالية اقتراحنا.
أظهرت نماذج SEQ2SEQ فعالية لا تصدق في مجموعة كبيرة ومتنوعة من التطبيقات. ومع ذلك، أظهرت الأبحاث الحديثة أن اللغة غير اللائقة في عينات التدريب وحالات الاختبار المصممة مصممة يمكن أن تحفز نماذج SEQ2SeQ لإخراج الألفاظ النابية. قد تؤذي هذه المخرجات قابلية استخدام نماذج SEQ2SEQ وجعل المستخدمين النهائيين يشعرون بالإهانة. لمعالجة هذه المشكلة، نقترح إطار تدريبي مع متانة معتمدة للقضاء على الأسباب التي تؤدي إلى توليد الألفاظ النابية. يعزز إطار التدريب المقترح فقط قائمة قصيرة من أمثلة الألفاظ النابية لمنع نماذج SEQ2SEQ من توليد طيف أوسع من الألفاظ النابية. يتكون الإطار من مكون تدريبي للقضاء على النمط لقمع تأثير أنماط اللغة ذات الألفاظ النابية في مجموعة التدريب، وعنصر تدريب مقاوم للمثريحة لتوفير متانة معتمدة لنماذج SEQ2SEQ من تعبيرات النبأ المستقل عن عمد في عينات الاختبار. في التجارب، نفكر في مهام اثنين من الممثلين للتنصيب أن SEQ2SEQ يمكن تطبيقها على ذلك، أي نقل النمط وتوليد الحوار. تظهر النتائج التجريبية الواسعة أن إطار التدريب المقترح يمكن أن يمنع النماذج NLP بنجاح من توليد الألفاظ النابية.
السمية منتشرة في وسائل التواصل الاجتماعي وتشكل تهديدا كبيرا لصحة المجتمعات عبر الإنترنت.أدت مقدمة أحدث نماذج اللغة المدربة مسبقا، والتي حققت نتائج أحدث من المهام في العديد من المهام NLP، الطريقة التي نقترب بها معالجة اللغة الطبيعية.ومع ذلك، فإن الطبي عة الكامنة للتدريب المسبق تعني أنها من غير المرجح أن تلتقط المعلومات الإحصائية الخاصة بمهام المهام أو تعلم المعرفة الخاصة بالمجال.بالإضافة إلى ذلك، لا تستخدم معظم تطبيقات هذه النماذج الحقول العشوائية الشرطية، وهي طريقة لتصنيف الرمز المميز في وقت واحد.نظظ أن هذه التعديلات يمكن أن تحسن الأداء النموذجي على مهمة الكشف عن المسافة السامة في Semeval-2021 لتحقيق درجة في غضون 4 نقاط مئوية من أعلى فريق الأداء.
يتم تدريب نماذج التسلسل الحالية للتسلسل لتقليل الانتروبي عبر الانتروبيا واستخدام SoftMax لحساب الاحتمالات العادية محليا على تسلسلات الهدف. على الرغم من أن هذا الإعداد قد أدى إلى نتائج قوية في مجموعة متنوعة من المهام، فإن إحدى الجوانب غير المرضية هي ا لتحيز الطول: تمنح النماذج درجات عالية لفرضيات قصيرة وعدم كفاية وغالبا ما تجعل السلسلة الفارغة The Argmax --- ما يسمى القط حصلت على لسانك مشكلة. تقدم نماذج تسلسل متناشرة مقرها ENTMAX مؤخرا حلا محتملا، نظرا لأنهم يستطيعون تقليص مساحة البحث عن طريق تعيين احتمال صفر لفرضيات سيئة، ولكن قدرتهم على التعامل مع المهام على مستوى الكلمات مع المحولات قد تم اختبارها قط. في هذا العمل، نظهر أن النماذج المستندة إلى Entmax تحل فعليا القط حصلت على مشكلة لسانك، وإزالة مصدر رئيسي لخطأ نموذج الترجمة الآلية العصبية. بالإضافة إلى ذلك، نعيد بتعميم تجانس الملصقات، وهي تقنية تنظيمية حاسمة، إلى عائلة أوسع من الخسائر الشابة الشابة، والتي تشمل كل من انتروبيا وخسائر Entmax. وضعت نماذج خسارة Entmax الناتجة عن الملصقات الناتجة حالة جديدة من الفن على تحويل Grapheme-Vooneme في Grapheme وتقديم التحسينات وخصائص معايرة أفضل على الانعطاف المورفولوجي عبر اللغات والترجمة الآلية لمدة 7 أزواج لغة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا