تهدف استخراج العلاقات المنخفضة الموارد (LRE) إلى استخراج حقائق العلاقة من كورسا محدودة المسمى عندما تشريح الإنسان نادرة. تعمل الأعمال الموجودة إما استخدام مخطط التدريب الذاتي لتوليد ملصقات زائفة ستتسبب في مشكلة الانجراف التدريجي، أو نظام التعلم التلو
ي الاستفادي الذي لا يتطلب التغيلات بشكل صريح. لتخفيف التحيز الاختيار بسبب عدم وجود حلقات ردود الفعل في نماذج التعلم الحالية، قمنا بتطوير طريقة تعليمية لتعزيز التعزيز التدرج لتشجيع بيانات الملصقات الزائفة لتقليد اتجاه نزول التدرج على البيانات المسمى و Bootstrap إمكانية التحسين من خلال التجربة والخطأ. نقترح أيضا إطارا يسمى Gradlre، الذي يتعامل مع سيناريوهات رئيسيين في استخراج علاقة الموارد المنخفضة. إلى جانب السيناريو حيث تكون البيانات غير المسبقة كافية، يتعامل Gradlre الموقف حيث لا تتوفر بيانات غير قابلة للتحقيق، من خلال استغلال طريقة تكبير سياقيا لتوليد البيانات. النتائج التجريبية على مجموعات بيانات عامة تثبت فعالية الخريجين في استخراج العلاقات المنخفضة للموارد عند مقارنة مع الأساس.
تعد معرفة إنتاج الأقمشة الحريرية الأوروبية هي حالة نموذجية تتمثل المعلومات التي تم جمعها غير متجانسة، وانتشرت في العديد من المتاحف والمنتجات منذ نادرا ما تكتمل. الرسوم البيانية المعرفة لهذا مجال التراث الثقافي، عند تطويرها مع الأوانيات المناسبة والمف
ردات، تمكن من دمج هذه المعلومات المتنوعة والتوفيقية. ومع ذلك، فإن العديد من سجلات المتحف الأصلية هذه لا تزال لديها بعض فجوات البيانات الوصفية. في هذه الورقة، نقدم نهجا للتعلم بالرصاص الذي يرفع الرسم البياني لمعرفة المعرفة بالشخصية المفهوم للتنبؤ بالبيانات الوصفية الفئوية التي تخبر عن إنتاج كائنات الحرير. قارننا أداء نهجنا مع الطرق التقليدية الإشراف على التعلم العميق القائم على البيانات التي تتطلب بيانات التدريب. نوضح الأداء الواعد والتنافسي لمجموعات البيانات والظروف مماثلة والقدرة على التنبؤ بأحيانا معلومات أكثر غرامة. يمكن إعادة إنتاج نتائجنا باستخدام التعليمات البرمجية والجمدات البيانات المنشورة في https://github.com/silknow/zsl-kg-silk.
يمكن أن تفحص نماذج استخراج أحداث المخدرات السلبية (ADE) بسرعة مجموعات كبيرة من نصوص وسائل التواصل الاجتماعي، والكشف عن ذكرات التفاعلات السلبية ذات الصلة بالمخدرات وتحريك التحقيقات الطبية.ومع ذلك، على الرغم من التقدم الأخير في NLP، فإنه غير معروف حالي
ا إذا كانت هذه النماذج قوية في مواجهة النفي، والتي تنتشر عبر أصناف اللغة.في هذه الورقة، نقيم ثلاث أنظمة ثلاثية، تظهر هشاشةها ضد النفي، ثم نقدم استراتيجيتين ممكنين لزيادة متانة هذه النماذج: نهج خط أنابيب، بالاعتماد على مكون محدد للكشف عن النفي؛تكبير بيانات استخراج ADE لإنشاء عينات نفي بشكل مصطنع وتدريب النماذج الأخرى.نظهر أن كلا الاستراتيجيتين تجلب الزيادات الكبيرة في الأداء، مما أدى إلى خفض عدد الكيانات الزائفة المتوقعة من النماذج.سيتم إصدار بيانات DataSet و Code علنا لتشجيع البحث على الموضوع.
تتطلب العديد من التطبيقات توليد ملخصات مصممة خصيصا لاحتياجات معلومات المستخدم، أي نواياها. الأساليب التي تعبر عن النية عبر استعلامات المستخدم الصريحة تسقط قصيرة عند التفسير الاستعلام هو شخصي. توجد عدة مجموعات من مجموعات البيانات للتخصيص مع النوايا ال
موضوعية حيث، لكل وثيقة ونوايا (E.G.، Weather ")، تكفي موجز واحد لجميع المستخدمين. لا توجد مجموعات البيانات، ومع ذلك، بالنسبة للمؤلفة الذاتية (E.G.، الأماكن المثيرة للاهتمام ") حيث سيقدم المستخدمون المختلفون ملخصات مختلفة. نحن نقدم العانة، أول مجموعة البيانات لتقييم أنظمة استخراج الملخص الذاتي. تحتوي STALUME على ثلاثة أفراد (وثيقة، نية، ملخص) ثلاثة توائم أكثر من 48 صفحة ويكيبيديا، مع عشرة نوبة ذاتي اختلاف ذاتي، والتي توفرها 103 فردا على الترك الميكانيكي. نوضح إحصائيا أن النوايا في SARMENT تختلف بشكل منهجي في الذاتية. للإشارة إلى فائدة SUTTUME، نستكشف مجموعة من خوارزميات أساسية لتلخيص استخراجي ذاتي وإظهار أن (I) كما هو متوقع، فإن النهج القائمة على سبيل المثال، من الأفضل أن تلتقط النوايا ذاتية من تلك القائمة على الاستعلام، و (2) هناك نطاق واسع لتحسينه خوارزميات الأساس، وبالتالي تحفز المزيد من الأبحاث حول هذه المشكلة الصعبة.
فهم المعنى الدلالي للمحتوى على الويب من خلال عدسة الكيانات والمفاهيم له العديد من المزايا العملية.ومع ذلك، عند بناء أنظمة استخراج الكيانات على نطاق واسع، يواجه الممارسون تحديات فريدة تنطوي على إيجاد أفضل الطرق للاستفادة من نطاق البيانات ومجموعة متنوع
ة من البيانات المتاحة على منصات الإنترنت.نقدم التعلم من جهودنا في بناء نظام استخراج الكيانات لأنواع متعددة الوثائق على نطاق واسع باستخدام محولات متعددة الوسائط.إننا نوضح تجريبيا فعالية التعلم متعدد اللغات ومتعدد المهام والنوع عبر المستندات.نناقش أيضا مخططات جمع الملصقات التي تساعد على تقليل مقدار الضوضاء في البيانات التي تم جمعها.
في السنوات الأخيرة، أثبتت نماذج اللغة المدربة مسبقا (PLM) مثل بيرت فعالة للغاية في مهام NLP المتنوعة مثل استخراج المعلومات وتحليل المعنويات والرد على الأسئلة.تدربت مع نص المجال العام الضخم، هذه النماذج اللغوية المدربة مسبقا تلتقط معلومات النحوية والد
لية والجلطة الغنية في النص.ومع ذلك، نظرا للاختلافات بين نص مجال عام ومحدد (E.G.، Wikipedia مقابل ملاحظات عيادة)، قد لا تكون هذه النماذج مثالية للمهام الخاصة بالمجال (على سبيل المثال، استخراج العلاقات السريرية).علاوة على ذلك، قد يتطلب الأمر معرفة طبية إضافية لفهم النص السريري بشكل صحيح.لحل هذه القضايا، في هذا البحث، نقوم بإجراء فحص شامل للتقنيات المختلفة لإضافة المعرفة الطبية إلى نموذج برت مدرب مسبقا لاستخراج العلاقات السريرية.تتفوق أفضل طرازنا على مجموعة بيانات استخراج الحالة الإكلينيكية من أحدث طراز I2B2 / VA 2010.
تعبئة الجدول تعبئة أساليب استخراج ثلاثية تستند إلى الحصول على اهتمامات بحثية متزايدة بسبب أدائها الواعد وقدراتها على استخراج ثلاث مرات من الجمل المعقدة. ومع ذلك، فإن هذا النوع من الطرق بعيدة عن إمكاناتهم الكاملة لأن معظمهم يركزون فقط على استخدام المي
زات المحلية ولكنهم يتجاهلون الجمعيات العالمية للعلاقات وأزواج الرمز المميز، مما يزيد من إمكانية التغاضي عن بعض المعلومات المهمة أثناء الاستخراج الثلاثي. للتغلب على هذا النقص، نقترح نماذج استخراج ثلاثية عالمية موجهة نحو الميزات التي تجعل الاستخدام الكامل من النوعين المذكورين من الجمعيات العالمية. على وجه التحديد، نقوم أولا بتوليد ميزة جدول لكل علاقة. ثم يتم استخراج نوعين من الجمعيات العالمية من ميزات الجدول التي تم إنشاؤها. بعد ذلك، يتم دمج الجمعيات العالمية الملغومة في ميزة الجدول في كل علاقة. يتم تنفيذ عملية توليد من الألغام "" عدة مرات بحيث تكون ميزة الجدول في كل علاقة خطوة بخطوة. أخيرا، يتم ملء جدول كل علاقة بناء على ميزة جدولها المكرر، ويتم استخراج جميع ثلاث مرات المرتبطة بهذه العلاقة بناء على جدولها المليء. نقيم النموذج المقترح على ثلاث مجموعات بيانات معيار. تظهر النتائج التجريبية نموذجنا فعالا وتحقق نتائج أحدث النتائج على جميع مجموعات البيانات هذه. يتوفر رمز المصدر لعملنا على: https://github.com/neukg/grte.
نقوم بإلقاء مجموعة من مهام استخراج المعلومات في إطار ترجمة نصية إلى ثلاثية. بدلا من حل كل مهمة تعتمد على مجموعات البيانات والنماذج الخاصة بالمهام، نقوم بإضفاء الطابع الرسمي على المهمة كترجمة بين نص الإدخال الخاص بمهارات المهام وتصل إلى ثلاث مرات. من
خلال اتخاذ المدخلات الخاصة بالمهامة، فإننا تمكن الترجمة المرجعية على المهام من خلال الاستفادة من المعرفة الكامنة التي يحتوي عليها نموذج لغة مدرب مسبقا حول المهمة. نوضح كذلك أن مهمة ما قبل التدريب البسيطة المتمثلة في التنبؤ بالمعلومات العلاجية التي تتوافق مع نص الإدخال هو وسيلة فعالة لإنتاج مخرجات خاصة بالمهام. وهذا يتيح نقل الطلقة الصفرية لإطارنا إلى مهام المصب. ندرس أداء الطلقة الصفرية لهذا الإطار في استخراج المعلومات المفتوح (OIE2016، NYT، WEB، PENN)، تصنيف العلاقة (عدد قليل من الألوان والمستقبلية)، والتحقيق الواقعي (Google-Re و T-Rex). التحويلات النموذجية غير تيهية لمعظم المهام وغالبا ما تكون تنافسية مع طريقة تحت إشراف بالكامل دون الحاجة إلى أي تدريب خاص بمهام. على سبيل المثال، نتفوق بشكل كبير على درجة F1 من استخراج المعلومات المفتوح الخاضعة للإشراف دون الحاجة لاستخدام مجموعة التدريب الخاصة بها.
باستخدام كجن من الرموز المجمعة من الدول الأمريكية التي تحتوي على أقسام قانون الضرائب المسمى، نقوم بتدريب نصوص النصوص لوضع علامة على وثائق القانون الضريبي تلقائيا، وعلاوة على تحديد مصدر الإيرادات المرتبط (على سبيل المثال الدخل أو الممتلكات أو المبيعات
).بعد تقييم أداء المصنف في بيانات الاختبار المحتفظ بها، نطبقها على جثة تاريخية لتشريعات الدولة الأمريكية لاستخراج تدفق القوانين ذات الصلة على مر السنين في عام 1910 حتى عام 2010. نحن نوثقة أن المصنفين فعالة في الكوربوس التاريخية، على سبيل المثالمن خلال اكتشاف مؤسسات الضرائب ذات الدخل الشخصي الحكومي.يتم نشر النماذج المدربة مع رمز النسخ المتماثل في https://github.com/luyang521/tax-classification.
إن النمو السريع في التجارب السريرية المنشورة يجعل من الصعب الحفاظ على مراجعات منهجية محدثة، والتي تتطلب إيجاد جميع التجارب ذات الصلة. وهذا يؤدي إلى اتخاذ القرارات السياسية والممارسة بناء على مجموعة فرعية خارجية وغير كاملة منحازة من الأدلة السريرية ال
متاحة. قد يكون استخراج ثم تطبيع السكان والتدخل والمقارنة والمقارنة والنتيجة (PICO) من مقالات التجريبية السريرية طريقة فعالة لتعيين التجارب التلقائية تلقائيا لمراجعات منهجية وتجنب البحث والفحص --- أكثر عمليات المراجعة المنهجية التي تستغرق وقتا طويلا. نقترح واختبار نهج رواية للكشف عن SPAN. الفرق الرئيسي بين أسلوبنا المقترح والنهج السابقة يأتي من اكتشاف المواقف دون الحاجة إلى بيانات تمدد المشروح واستخدام التعليقات التوضيحية على مستوى الجملة الجماعي فقط. تظهر التجارب على مجموعة بيانات اثنين من نتائج اكتشاف PICO Span تحقيق نتائج أعلى بكثير للتذكر عند مقارنتها بالأساليب الإشرافية بالكامل مع اكتشاف جملة بيكو على الأقل جيدة مثل التوضيح البشرية. من خلال إزالة الاعتماد على التعليقات التوضيحية للخبراء للكشف عن SPAN، يمكن استخدام هذا العمل في خط أنابيب رشاشيا لتحويل التوضيحات بيكو ذات الجودة المنخفضة ذات المستوى الخشفي والجمدية إلى معلومات منظمة يمكن استخدامها بسرعة لتعيين التجارب بشكل منهجي مراجعات.