ترغب بنشر مسار تعليمي؟ اضغط هنا

مشاكل الكفاءة: عند العثور وإزالة القطع الأثرية في بيانات اللغة

Competency Problems: On Finding and Removing Artifacts in Language Data

71   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

قام الكثير من الأعمال الحديثة في NLP بتوثيق القطع الأثرية لحجم البيانات والتحيز والارتباطات الزائفة بين ميزات الإدخال وتسميات الإخراج. ومع ذلك، وكيفية معرفة الميزات التي تحتوي على زائفة "بدلا من الارتباطات المشروعة عادة ما تكون غير محددة. في هذا العمل، نقول أنه بالنسبة لمهام فهم اللغة المعقدة، فإن جميع الارتباطات البسيطة الميزة زائفة، ونحن نقضي بإضفاء الطابع الرسمي على هذه الفكرة في فئة من المشاكل التي نسميها مشاكل الكفاءة. على سبيل المثال، يجب أن تعطي الكلمة مذهلة '' من تلقاء نفسها معلومات حول تسمية المعنويات مستقلة عن السياق الذي يظهر فيه، مما قد يشمل النفي والاستعارة والسخرية وما إلى ذلك. نحن نظريين تحليلا نظريا صعوبة في إنشاء بيانات لمشاكل الكفاءة عندما يتم أخذ التحيز البشري في الاعتبار، إظهار أن مجموعات البيانات الواقعية ستخلص بشكل متزايد من مشاكل الكفاءة حيث يزيد حجم مجموعة البيانات. يمنحنا هذا التحليل اختبارا إحصائيا بسيطا ل Artifacts DataSet، والذي نستخدمه لإظهار المزيد من التحيزات الدقيقة أكثر من الموصوفة في العمل السابق، بما في ذلك إظهار أن النماذج تتأثر بشكل غير لائق من هذه التحيزات الأقل شاقة. يسمح لنا العلاج النظري لهذه المشكلة أيضا بتحليل الحلول المقترحة، مثل إجراء تعديلات محلية لحالات البيانات، وتقديم توصيات لجمع البيانات المستقبلية وجهود تصميم النماذج التي تستهدف مشاكل الكفاءة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذا البرنامج التعليمي، نقدم جزءا من الخبرة الصناعية الفريدة في التعليق التوضيحي لبيانات اللغة الطبيعية فعالة عبر الجماعة الجماعية المشتركة من قبل كل من الباحثين والمهندسين الرئيسيين من ياندكس.سنقوم بإعطاء مقدمة لوضع علامات البيانات عبر أسواق الجما عة الجماعية العامة وستقدم المكونات الرئيسية لجمع الملصقات الفعالة.سيتبع ذلك جلسة عملية، حيث يتناول المشاركون مهمة إنتاج موارد عالمية حقيقية، تجربة مع تحديد إعدادات عملية وضع العلامات، وإطلاق مشروع مجموعة الملصقات الخاصة بهم على أحد أكبر أسواق الجماعة الجماعية.سيتم تشغيل المشروعات على الحشود الحقيقية داخل جلسة البرنامج التعليمي وسنقدم تقنيات مفيدة لمراقبة الجودة وتزويد الحضور بفرصة لمناقشة أفكارهم التوضيحية الخاصة بهم.
تضمين الجملة تشفير المعلومات المتعلقة باستخدام التعابير في جملة.تقارير هذه الورقة مجموعة من التجارب التي تجمع بين المنهجية التحقيق مع اخفاء المدخلات لتحليل مكان وجود هذه المعلومات الاصطلاحية هذه، وما شكله.تشير نتائجنا إلى أن المفتاح الاصطلاعي لمصدر ب يرت موجود في المقام الأول داخل تعبير اصطلاحي، ولكنه يرسم أيضا معلومات من السياق المحيط.أيضا، يستطيع بيرت التمييز بين الاضطراب في جملة ناتجة عن الكلمات المفقودة والتعارض الناتج عن الاستخدام الاصطلاعي.
يعتبر دور رئيسة الشعبة التمريضية و كيفية عملها ضمن المؤسسات الصحية من المواضع التي شغلت العديد من الهيئات و المنظمات العالمية خلال العقدين السابقين, و ذلك لما لهذا الدور من تأثير على العناصر التمريضية, و مقدمي الرعاية الصحية الآخرين, و المرضى, و بيئة المؤسسة الصحية ككل. و من أجل أن تتمكن رئيسة الشعبة التمريضية من أداء مسؤولياتها لابد لها من بناء و تطوير مهاراتها الشخصية و كفاءتها القيادية باستمرار, و ذلك بالاعتماد على معايير الكفاءة العالمية التي طورتها المنظمات و الهيئات العالمية لتكون قاعدة أساسية لتقييم و تطوير كفاءة رئيسات الشعب التمريضية. بناء على هذه المعايير أُجريت هذه الدراسة و التي هدفت إلى تقييم كفاءة رئيسات الشعب التمريضية بتطبيق معايير الكفاءة العالمية في مشفى الأسد الجامعي و المشفى الوطني في اللاذقية. أُجريت الدراسة في مشفى الأسد الجامعي و المشفى الوطني. حيث تكونت العينة من 21 رئيسة شعبة تمريضية, و 80 ممرضة من كلا المشفيين. و كانت من أهم النتائج وجود توافق في وجهات نظر الممرضات و وجهات نظر رئيسات الشعب التمريضية في كلا المشفيين في تطبيق معايير الكفاءة العالمية.
تحتوي الوثائق العلمية على درجة كبيرة من الاختلاف، سواء من حيث المحتوى (الدلالات) والهيكل (البراغماتية). تؤكد العمل المسبق في الوثيقة العلمية التفاهم على دلالات من خلال تلخيص المستندات ونمذجة موضوع Corpus ولكن تميل إلى حذف البراغماتية مثل تنظيم الوثائ ق وتدفقها. باستخدام مجموعة من الوثائق العلمية عبر 19 تخصصات وتقنيات النمذجة باللغة الحديثة، نتعلم مجموعة ثابتة من واصفات المجال الأذرع لمقاطع المستندات وإعادة التحديث "" The Corpus إلى هذه الواصفات (يشار إليها أيضا باسم "التطبيع" '). بعد ذلك، نقوم بتحليل موقف وطلب هذه الواصفات عبر المستندات لفهم العلاقة بين الانضباط والهيكل. نبلغ عن ضمنيات الأنماط الهيكلية داخل الانضباط، وتقليل التباينات، وبين الإصابة، ودعم الفرضية التي تشترك فيها المجتمعات العلمية، على الرغم من حجمها، وتنوعها، واتساعها، مشترك في طرق مماثلة للتعبير عن عملها. تضع نتائجنا الأساس للعمل في المستقبل في تقييم جودة البحث ونقل نمط المجال، وعمليات التحليل العملي.
تعد فهم الجداول مهمة مهمة وذات صلة تتضمن فهم بنية الجدول وكذلك القدرة على مقارنة ومعلومات التباين داخل الخلايا. في هذه الورقة، نتعامل مع هذا التحدي من خلال تقديم مجموعة بيانات جديدة ومهام جديدة تعالج هذا الهدف في مهمة مشتركة في مهمة Semeval 2020 9: ا لتحقق من الحقائق وأدلة العثور على بيانات جدولية في الوثائق العلمية (حقائق SEM-Tab-Facts). تحتوي DataSet الخاصة بنا على 981 طاولة تم إنشاؤها يدويا وحدات بيانات تم إنشاؤها تلقائيا من 1980 طاولة توفر أكثر من 180 كيلو وايت وأكثر من 16 متر من التعليقات التوضيحية. ظهرت حقائق SEM-Tab مهام فرعية. في مهمة فرعية أ، كان الهدف هو تحديد ما إذا كان بيان مدعوم أو دحض أو غير معروف فيما يتعلق بجدول. في المهمة الفرعية B، كان التركيز على تحديد الخلايا المحددة للطاولة التي توفر أدلة على البيان. 69 وقعت فرق للمشاركة في المهمة مع 19 تقارير ناجحة إلى الفرعية و 12 من عروض ناجحة إلى Subtask B. نقدم نتائجنا والنتائج الرئيسية من المسابقة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا