ترغب بنشر مسار تعليمي؟ اضغط هنا

A FALTA DE PAN، Buenas Son Tortas: فعالية UPOS المتوقعة علامات التحليل UD Resource

A Falta de Pan, Buenas Son Tortas: The Efficacy of Predicted UPOS Tags for Low Resource UD Parsing

378   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقوم بتقييم فعالية علامات UPOS المتوقعة كيزات مدخلات لمحللات التبعية في إعدادات الموارد المنخفضة لتقييم كيفية تأثير حجم TreeBank على دقة وضع العلامات على أداء التحليل.نقوم بذلك للحصول على Treebanks Universal TreeBanks Universal Resource Universal Desultency، وبيانات الموارد منخفضة مصطنع بأحجام متفاوتة من TreeBank، وللغة Treebanks الصغيرة جدا بكميات متفاوتة من البيانات المعززة.نجد أن علامات UPOS المتوقعة مفيدة إلى حد ما بالنسبة إلى جانب Lowerbanks Lower Treebanks، خاصة عند توفر المزيد من الأشجار المشروح بالكامل.نجد أيضا أن هذا التأثير الإيجابي يقلل من زيادات البيانات.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تقدم هذه الورقة نظام تحليل التبعية متعدد اللغات كما هو مستخدم في المهمة المشتركة IWPT 2021 على التحليل في التبعيات العالمية المعززة.يتكون نظامنا من مصنف BiAffine غير المعسم الذي يعمل مباشرة على مدينتي XLM-R التي تم ضبطها بشكل مباشر ويولد الرسوم البيا نية UD المحسنة من خلال التنبؤ بأفضل تسمية التبعية (أو عدم وجود اعتماد) لكل زوج من الرموز.لتجنب قضايا Sparsity الناتجة عن ملصقات التبعية المعجمية، نحل محل البنود المعجمية في العلاقات مع العناصر النائبة في وقت التدريب ووقت التنبؤ، لاحقا لاحقا من التحليل عبر نظام التعلم القائم على القاعدة / الجهاز الهجينة.بالإضافة إلى ذلك، نحن نستخدم نموذج النموذج في وقت التنبؤ.يحقق نظامنا دقة تحليل عالية على بيانات الاختبار العمياء، المرتبة الثالثة من أصل 9 مع متوسط درجة ELAS F1 من 86.97.
وصفنا تقديم Edinsaar إلى المهمة المشتركة للترجمة ذات الموارد متعددة اللغات لغات شمال الجرمانية في المؤتمر السادس حول الترجمة الآلية (WMT2021).نقدم نماذج الترجمة متعددة اللغات للترجمات من / إلى الأيسلاندية (IS)، Norwegian-bokmal (NB)، والسويدية (SV).ن حن نوظف العديد من الأساليب التجريبية، بما في ذلك التدريب المسبق متعدد اللغات، الترجمة الخلفي، والضبط الجميل، والكمية.في معظم اتجاهات الترجمة، تتفوق نماذجنا على أنظمة أخرى مقدمة.
إن دمج طرائق الإدخال المتعددة في نظام الترجمة الآلي (MT) يكتسب شعبية بين الباحثين MT. على عكس مجموعة البيانات المتاحة للجمهور لمهام ترجمة الآلات متعددة الوسائط، حيث تكون التسميات التوضيحية أوصاف صورة قصيرة، توفر التعليق الأخبار وصفا أكثر تفصيلا لمحتو يات الصور. نتيجة لذلك، يتم العثور على العديد من الكيانات المسماة المتعلقة بالأشخاص المحددين والمواقع وما إلى ذلك. في هذه الورقة، يكتسبان مجموعة بيانات أخبار أحادية أحادية الأبعاد التي أبلغت باللغة الإنجليزية والهندية مقترنة بالصور لتوليد كوربوس موازية من اللغة الإنجليزية الهندية الاصطناعية. يستخدم Corpus الموازي لتدريب الترجمة الآلية العصبية باللغة الإنجليزية (NMT) ونظام MMT باللغة الإنجليزية من خلال دمج ميزة الصورة المقترنة مع Corpus الموازي المقابلة. نحن أيضا إجراء تحليل منهجي لتقييم أنظمة MT الإنجليزية-الهندية مع 1) المزيد من البيانات الاصطناعية و 2) عن طريق إضافة البيانات المترجمة إلى الوراء. يؤدي النتيجة لدينا إلى تحسن من حيث درجات BLEU لكل من أنظمة NMT (+8.05) و MMT (+11.03).
تصف هذه الورقة معيارا متاحا بحرية على شبكة الإنترنت يسمى HB DEID.تحدد DED HB ما يسمى بالمعلومات الصحية المحمية، PHI، في نص مكتوب باللغة السويدية والأقنعة أو استبدالها مع بدائل أو سرية.يتم تسمية فيس كيانات مثل الأسماء الشخصية والمواقع والأعمار وأرقام الهواتف والتواريخ.يستخدم HB DEID نموذجا CRF مدرب على النص المشروح غير الحساسة في السويدية، بالإضافة إلى خطوة ما بعد معالجة القواعد لإيجاد فاي.الخطوة الأخيرة في غامضة PHI هي إما قناعها، إظهار اسم الفصل أو استخدام نظام الكشف عن القواعد لاستبداله.
ترجمة آلة متعددة الوسائط (MMT) تثري النص المصدر بمعلومات مرئية للترجمة.لقد اكتسبت شعبية في السنوات الأخيرة، وقد اقترح العديد من خطوط الأنابيب في نفس الاتجاه.ومع ذلك، تفتقر المهمة إلى مجموعات بيانات الجودة لتوضيح مساهمة الوسيلة البصرية في أنظمة الترجم ة.في هذه الورقة، نقترح نظامنا تحت اسم الفريق فولتا لمهمة الترجمة متعددة الوسائط في WAT 2021 من الإنجليزية إلى الهندية.نشارك أيضا في التراكب الفرعي النصي فقط لنفس زوج اللغة التي نستخدمها MBART، وهي نموذج تسلسل متعدد اللغات مسبقا.بالنسبة للترجمة متعددة الوسائط، نقترح تعزيز المدخلات النصية من خلال إحضار المعلومات المرئية إلى مجال نصي عن طريق استخراج علامات الكائنات من الصورة.نستكشف أيضا متانة نظامنا عن طريق مهينة النص المصدر بشكل منهجي.أخيرا، نحقق درجة بلو من 44.6 و 51.6 في مجموعة الاختبار ومجموعة التحدي بمهمة متعددة الوسائط.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا