ترغب بنشر مسار تعليمي؟ اضغط هنا

خطة - ثم توليد: جيل البيانات للتحكم في النص عبر التخطيط

Plan-then-Generate: Controlled Data-to-Text Generation via Planning

249   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أدت التطورات الأخيرة في الشبكات العصبية إلى التقدم في توليد البيانات إلى النص.ومع ذلك، فإن الافتقار إلى قدرة النماذج العصبية للسيطرة على هيكل الإخراج الذي تم إنشاؤه يمكن أن يحد في بعض تطبيقات العالم الحقيقي.في هذه الدراسة، نقترح إطارا جديدا لخطة الرواية (Plangen) لتحسين قابلية تحكم نماذج البيانات النصية العصبية.يتم إجراء تجارب واسعة من التجارب والتحليلات على مجموعة من مجموعات البيانات القياسية، Totto و Webnlg.تظهر النتائج أن نموذجنا قادر على التحكم في كل من الجملة داخل الجملة وبنية الجملة بين الإخراج الناتج.علاوة على ذلك، تظهر المقارنات التجريبية ضد الأساليب السابقة من الأساليب السابقة أن نموذجنا يحسن جودة التوليد وكذلك تنوع الإخراج عند الحكم على التقييمات البشرية والآلية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تبنت النهج الحديثة التجريدية لجيل النص إلى النص بنية فك التشفير الناجحة للغاية أو المتغيرات منها.تولد هذه النماذج نصا يجيد (ولكن في كثير من الأحيان غير دقيقة) وإجراء سيئة للغاية عند تحديد المحتوى المناسب وطلبه بشكل متماسك.للتغلب على بعض هذه القضايا، نقترح نموذجا عصبا بمرحلة تخطيط ماكرو تذكرنا مرحلة جيل تذكرنا بالطرق التقليدية التي تعتنق وحدات منفصلة للتخطيط وإعمال السطح.تمثل خطط الماكرو تنظيما رفيع المستوى للمحتوى الهام مثل الكيانات والأحداث وتفاعلاتها؛يتم تعلمهم من البيانات وإتاحة كمدخلات للمولد.تبين تجارب واسعة على معايير بيانات إلى نصية (Rotowire و MLB) أن نهجنا يتفوق على خطوط أساس تنافسية من حيث التقييم التلقائي والبشري.
إن جيل البيانات إلى النص (D2T) في المجال الطبي الطبيعي هو واعد - ولكن في الغالب غير مستكشفة - مجال البحث.هنا، نطبق النماذج العصبية لتوليد D2T إلى مجموعة بيانات حقيقية تتكون من منشورات الحزمة من الأدوية الأوروبية.نظهر أن المحولات التي تم ضبطها بشكل جي د قادرون على توليد نص واقعي متعدد الجملة من البيانات في المجال الطبي الطبيعي، ولكن لها قيود مهمة.ونحن نطلق أيضا عن مجموعة بيانات جديدة (bioileaflets) لنماذج جيل D2T القياسية في المجال الطبي الطبيعي.
أظهرت النماذج العصبية الكبيرة المدربة مسبقا تقدما ملحوظا في جيل النص. في هذه الورقة، نقترح إنشاء نص مكيف على البيانات المهيكلة (الجدول) وبادئة (النص المكتوب) من خلال الاستفادة من النماذج المدربة مسبقا. نقدم بيانات جديدة إلى نص البيانات، جدول مع نص مك توب (TWT)، عن طريق إعادة تعيين مجموعات بيانات حالية: Totto و Tabract. يحتوي TWT على تصريحات واقعية ومنطقية مخلصة للبيانات المنظمة، تهدف إلى العمل كمعيار مفيد للجيل المسيطر عليه. بالمقارنة مع إعدادات المهام الحالية إلى النص، يكون TWT أكثر بديهية، يتحكم البادئة (عادة ما يوفرها المستخدم) موضوع النص الذي تم إنشاؤه. عادة ما يتم إخراج الأساليب الحالية النص الهلوسة غير المؤمنين على TWT. لذلك، نقوم بتصميم نهج رواية مع رؤية الاهتمام على أساس الجدول وآلية النسخ على الطاولة. تظهر النتائج التجريبية أن نهجنا يتفوق على الأساليب الحديثة بموجب مقاييس التقييم التلقائي والإنساني.
نقدم تاريخ DART، سجل بيانات منظم في المجال المفتوح إلى مجموعة بيانات جيل النص مع أكثر من 82 ألف حالة (لعبة السهام). يمكن أن تكون التعليقات التوضيحية البيانات إلى النص عملية مكلفة، خاصة عند التعامل مع الجداول التي تعد المصدر الرئيسي للبيانات المنظمة و يحتوي على هياكل غيرية. تحقيقا لهذه الغاية، نقترح إجراءات لاستخراج ثلاث مرات الدلالية من الجداول التي ترميز هياكلها من خلال استغلال التبعيات الدلالية بين رؤوس الطاولة وعنوان الجدول. اندمج إطار عمل مواد DataSet لدينا مصادر غير متجانسة بفعالية من أنظمة التحليل الدلالي المفتوح المجال والتحريغ عن طريق استخدام التقنيات بما في ذلك التوضيح التوضيحية في علم الأطباق، زوج الإجابة السؤالية إلى تحويل الجملة التصريحي، وتوحيد المسند، كل ذلك مع الحد الأدنى من التحرير بعد التحرير. نقدم التقييم المنهجي على DART بالإضافة إلى نتائج جديدة من أحدث النتائج على WebNLG 2017 لإظهار أن Dart (1) يطرح تحديات جديدة إلى مجموعات البيانات الحالية إلى النص و (2) تسهيل التعميم خارج النطاق وبعد يمكن العثور على بيانات ورمز لدينا في https://github.com/yale-lily/dart.
نقترح معالجة مهام توليد البيانات إلى النص عن طريق الربط مباشرة من جانب شرائح النص من الأزواج المستهدفة من الجيران.على عكس العمل الحديث الذي تقوم بالشروط على الجيران المسترجع ولكن يولد رمزا نصي نصي، من اليسار إلى اليمين، نتعلم السياسة التي تتعامل مباش رة على شرائح النص الجار، عن طريق إدخال أو استبدالها بأجيال مبنية جزئيا.تتطلب التقنيات القياسية للتدريب مثل هذه السياسة عن اشتقاق أوراكل لكل جيل، ونثبت أن العثور على أقصر مثل هذا الاشتقاق يمكن تخفيضها إلى التحليل تحت قواعد محددة معينة خالية من السياق.نجد أن السياسات المستفادة بهذه الطريقة تؤدي على قدم المساواة مع خطوط أساس قوية من حيث التقييم التلقائي والبشري، ولكن السماح لمزيد من الجيل القابل للتفسير والتحكم.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا