تركز العديد من مهام NLG مثل التلخيص أو استجابة الحوار أو سؤال المجال المفتوح، والتركيز بشكل أساسي في نص مصدر من أجل توليد استجابة مستهدفة.ومع ذلك، يقع هذا النهج القياسي، عندما يكون نية المستخدم أو سياق العمل غير قابل للاسترداد بسهولة بناء على النص ال
مصدر هذا فقط - سيناريو الذي نقوله هو أكثر من القاعدة من الاستثناء.في هذا العمل، نجرب أن أنظمة NLG بشكل عام يجب أن تضع مستوى أعلى بكثير من التركيز على استخدام سياق إضافي، وتشير إلى أن الأهمية (كما هو مستخدم باسترجاع المعلومات) تعتبر كأداة حاسمة لتصميم النص الموجه للمستخدمالمهام - المهام.ونحن نناقش كذلك الأضرار والمخاطر المحتملة حول هذه التخصيص، وتجادل أن التصميم الحساس في القيمة يمثل طريقا حاسما للأمام من خلال هذه التحديات.
أظهرت النماذج العصبية الكبيرة المدربة مسبقا تقدما ملحوظا في جيل النص. في هذه الورقة، نقترح إنشاء نص مكيف على البيانات المهيكلة (الجدول) وبادئة (النص المكتوب) من خلال الاستفادة من النماذج المدربة مسبقا. نقدم بيانات جديدة إلى نص البيانات، جدول مع نص مك
توب (TWT)، عن طريق إعادة تعيين مجموعات بيانات حالية: Totto و Tabract. يحتوي TWT على تصريحات واقعية ومنطقية مخلصة للبيانات المنظمة، تهدف إلى العمل كمعيار مفيد للجيل المسيطر عليه. بالمقارنة مع إعدادات المهام الحالية إلى النص، يكون TWT أكثر بديهية، يتحكم البادئة (عادة ما يوفرها المستخدم) موضوع النص الذي تم إنشاؤه. عادة ما يتم إخراج الأساليب الحالية النص الهلوسة غير المؤمنين على TWT. لذلك، نقوم بتصميم نهج رواية مع رؤية الاهتمام على أساس الجدول وآلية النسخ على الطاولة. تظهر النتائج التجريبية أن نهجنا يتفوق على الأساليب الحديثة بموجب مقاييس التقييم التلقائي والإنساني.
تحتوي نماذج الترجمة الآلية على مفردات منفصلة واستخدام تقنيات تجزئة الكلمات الفرعية لتحقيق المفردات المفتوحة.يعتمد هذا النهج على تسلسل Unicode متسق وصحيح، ويجعل النماذج عرضة للتدهور من الأنواع المشتركة من الضوضاء والاختلاف.بدافع من متانة معالجة اللغات
البشرية، نقترح استخدام تمثيلات نصية بصرية، والذي يتم الاستغناء عن مجموعة محدودة من Adgeddings النصية لصالح المفردات المستمرة التي تم إنشاؤها عن طريق معالجة النص المنصوص عليه بصريا مع Windows Sliding Windows.نظهر أن النماذج باستخدام نهج تمثيلات النص المرئي أو مطابقة أداء النماذج النصية التقليدية على مجموعات البيانات الصغيرة والأكبر.الأهم من ذلك، الأهم من ذلك، توضح النماذج ذات المدينات البصرية متانة كبيرة لأنواع الضوضاء المتنوعة، وتحقيق على سبيل المثال، 25.9 بلو على شخصية مسموعة باللغة الألمانية - المهمة الإنجليزية حيث تتحلل نماذج الكلمات الفرعية إلى 1.9.
كلمة embeddings تلتقط المعنى الدلالي للكلمات الفردية.كيفية سد المعرفة اللغوية على مستوى Word مع تمثيل لغة مستوى الجملة هو مشكلة مفتوحة.تفحص هذه الورقة ما إذا كان يمكن تحقيق تمثيلات مستوى الجملة من خلال بناء قاعدة بيانات جملة مخصصة تركز على جانب واحد
من معنى الجملة.إن الجوانب الدلالية الثلاثة المنفصلة الخاصة بنا هي ما إذا كانت الجملة: (1) تقوم (1) بإجراء علاقات سببية، (2) تشير إلى أن شيئين مرتبطين ببعضهما البعض، و (3) يعبر عن معلومات أو معرفة.توفر المصنفات الثلاثة معلومات معرفية حول محتوى الجملة.
أدت النجاحات الأخيرة في النمذجة التوليدية العميقة إلى تقدم كبير في توليد اللغة الطبيعية (NLG).أظهرت دمج الكيانات في نماذج الجيل العصبي تحسينات كبيرة من خلال المساعدة في استنتاج الموضوع الموجز وإنشاء محتوى متماسك.لتعزيز دور الكيان في NLG، في هذه الورق
ة، نهدف إلى نموذج نوع الكيان في مرحلة فك التشفير لتوليد كلمات سياقية بدقة.نقوم بتطوير نموذج NLG الجديد لإنتاج تسلسل مستهدف بناء على قائمة معينة من الكيانات.يحتوي نموذجنا على وحدة فك ترميز متعددة الخطوات التي تحفز أنواع الكيان في عملية تذكر الجيل.تجارب عملاء أخبار عامين تظهر حقن النوع ينفذ أفضل من نوع خطوط خطوط أسلاف التضمين.
إن النمو السريع في التجارب السريرية المنشورة يجعل من الصعب الحفاظ على مراجعات منهجية محدثة، والتي تتطلب إيجاد جميع التجارب ذات الصلة. وهذا يؤدي إلى اتخاذ القرارات السياسية والممارسة بناء على مجموعة فرعية خارجية وغير كاملة منحازة من الأدلة السريرية ال
متاحة. قد يكون استخراج ثم تطبيع السكان والتدخل والمقارنة والمقارنة والنتيجة (PICO) من مقالات التجريبية السريرية طريقة فعالة لتعيين التجارب التلقائية تلقائيا لمراجعات منهجية وتجنب البحث والفحص --- أكثر عمليات المراجعة المنهجية التي تستغرق وقتا طويلا. نقترح واختبار نهج رواية للكشف عن SPAN. الفرق الرئيسي بين أسلوبنا المقترح والنهج السابقة يأتي من اكتشاف المواقف دون الحاجة إلى بيانات تمدد المشروح واستخدام التعليقات التوضيحية على مستوى الجملة الجماعي فقط. تظهر التجارب على مجموعة بيانات اثنين من نتائج اكتشاف PICO Span تحقيق نتائج أعلى بكثير للتذكر عند مقارنتها بالأساليب الإشرافية بالكامل مع اكتشاف جملة بيكو على الأقل جيدة مثل التوضيح البشرية. من خلال إزالة الاعتماد على التعليقات التوضيحية للخبراء للكشف عن SPAN، يمكن استخدام هذا العمل في خط أنابيب رشاشيا لتحويل التوضيحات بيكو ذات الجودة المنخفضة ذات المستوى الخشفي والجمدية إلى معلومات منظمة يمكن استخدامها بسرعة لتعيين التجارب بشكل منهجي مراجعات.
تهدف تلخيص النص الاستخراجي على مستوى الجملة إلى تحديد جمل مهمة من وثيقة معينة.ومع ذلك، فإن الأمر صعب للغاية لنموذج أهمية الجمل.في هذه الورقة، نقترح نمذجة جملة محسنة من الإطار الدلالي على الرواية لتلخيص الاستخراج، والتي ترفع دلالات الإطار لنموذج الجمل
من كل من مستوى الجملة داخل الجملة ومستوى الجملة بين الجملة، مما يسهل مهمة تلخيص النص.على وجه الخصوص، ترفع دلالات المستوى داخل الجملة عناصر الإطارات وإطار العناصر لنموذج الهيكل الدلالي الداخلي في غضون جملة، في حين أن دلالات مستوى المستوى بين الجملة تستفيد العلاقات بالإطار إلى الإطارات إلى العلاقات النموذجية بين الجمل.تثبت تجارب واسعة على اثنين من Corpus Corpus CNN / DM و NYT أن نموذجنا يتفوق على ستة أساليب حديثة بشكل كبير.
تتضمن النهج الحديثة لإملاء مشكلة تصحيح الأخطاء الإملائي نماذج SEQ2SEQ القائمة على المحولات، والتي تتطلب مجموعات تدريبية كبيرة وتعاني من وقت الاستدلال البطيء؛وتسلسل نماذج وضع التسلسل المستندة إلى ترميز المحولات مثل بيرت، والتي تنطوي على مساحة تسمية ال
مستوى المميز وبالتالي قاموس مفردات محددة مسبقا مسبقا.في هذه الورقة، نقدم طراز Tagger Tagner التسلسل الهرمي، أو HCTAGGER، لتصحيح الأخطاء الإملائي في النص القصير.نستخدم نموذج لغة مدرب مسبقا على مستوى الحرف كتشفير نصي، ثم يتوقع تحرير مستوى الأحرف لتحويل النص الأصلي إلى شكل خالي من الأخطاء مع مساحة تسمية أصغر بكثير.للحصول على فك التشفير، نقترح نهجا هرميا متعدد المهام للتخفيف من مسألة توزيع الملصقات الطويلة الذيل دون تقديم معلمات نموذجية إضافية.تثبت التجارب في مجموعات بيانات تصحيح أخطاء الأخشاب العامة أن HCTAGGER هو نهج دقيق وأسرع بكثير من العديد من النماذج الموجودة.
أثبتت نماذج اللغة أنها مفيدة للغاية عند تكييفها مع مجالات محددة.ومع ذلك، تم إجراء القليل من الأبحاث على تكيف نماذج بيرت الخاصة بالمجال في اللغة الفرنسية.في هذه الورقة، نركز على إنشاء نموذج لغة تتكيف مع النص القانوني الفرنسي بهدف مساعدة محترفي القانون
.نستنتج أن بعض المهام المحددة لا تستفيد من نماذج اللغة العامة المدربة مسبقا على كميات كبيرة من البيانات.نستكشف استخدام الهندسة الصغيرة في اللغات الفرعية الخاصة بالمجال ومزاياها للنص القانوني الفرنسي.نثبت أن النماذج المحددة مسبقا للمجال يمكن أن تؤدي أفضل من تلك المعادلة المكافئة في المجال القانوني.أخيرا، نطلق سراح جوريبارت، مجموعة جديدة من نماذج بيرت تتكيف مع المجال القانوني الفرنسي.
نحن نقدم SelfExPlain، وهو نموذج جديد يشرح ذاتيا يفسر تنبؤات تصنيف النص باستخدام المفاهيم القائمة على العبارة.SelfExplain تزويد الأقراص العصبية الموجودة من خلال إضافة (1) طبقة مخصصة عالمية تحدد المفاهيم الأكثر نفوذا في مجموعة التدريب لعينة معينة و (2)
طبقة قابلة للتفسير محليا تهدئ مساهمة كل مفهوم إدخال محلي عن طريق الحوسبة درجة الأهميةبالنسبة إلى التسمية المتوقعة.تظهر التجارب عبر خمسة مجموعات بيانات تصنيف نصية أن SelfExPlain يسهل الترجمة الشفوية دون التضحية بالأداء.الأهم من ذلك، تفسيرات من إظهار نفس إظهار الكفاية عن التنبؤات النموذجية وترى أنها كافية وجديرة بالثقة ومفهومة من قبل القضاة البشرية مقارنة مع خطوط الأساس المستخدمة على نطاق واسع.