ترغب بنشر مسار تعليمي؟ اضغط هنا

Afromt: استراتيجيات الاحتجاج والمعايير القابلة للتكرار للترجمة 8 اللغات الأفريقية

AfroMT: Pretraining Strategies and Reproducible Benchmarks for Translation of 8 African Languages

87   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

المعايير القابلة للتكرار حاسمة في قيادة التقدم المحرز في أبحاث الترجمة الآلية. ومع ذلك، تقتصر معايير الترجمة الآلية الموجودة في الغالب على اللغات عالية الموارد أو ممثلة تمثيلا جيدا. على الرغم من الاهتمام المتزايد في الترجمة ذات الجهاز المنخفض، لا توجد معايير موحدة استنساخ للعديد من اللغات الأفريقية، يتم استخدام العديد منها من قبل ملايين المتحدثين ولكن لديهم بيانات نصية أقل رقمية. لمعالجة هذه التحديات، نقترح AFROMT، معيارا قياسيا موحدا ونينا ونظيفا ولاكاثر لثمانية لغات أفريقية منطوقة على نطاق واسع. نقوم أيضا بتطوير مجموعة من أدوات التحليل لتشخيص النظام مع الأخذ في الاعتبار الخصائص الفريدة لهذه اللغات. علاوة على ذلك، نستكشف القضية التي تعتبرها مؤلمة تركز على الموارد المنخفضة المنخفضة وتطوير استراتيجيات جديدة قائمة على زيادة تكبير البيانات، واستفادة من معلومات محاذاة مستوى الكلمات والبيانات الزائفة غير المباشرة لإحاطاء نماذج التسلسل متعددة اللغات. نوضح تحسينات كبيرة عند الاحتجاج في 11 لغة، مع مكاسب تصل إلى 2 نقطة بلو على خطوط خطوط خطوط خطوط طويلة. نعرض أيضا مكاسب تصل إلى 12 نقطة بلو على خطوط خطوط نقل النقل عبر اللغات في سيناريوهات مقيدة البيانات. سيتم إصدار جميع النماذج من التعليمات البرمجية والأعمدة كخطوات أخرى نحو معايير قابلة لإزالة الأكبرات للغات الأفريقية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

الملخص نتخذ خطوة نحو معالجة تمثيل القارة الأفريقية في أبحاث NLP من خلال جلب مختلف أصحاب المصلحة من أصحاب المصلحة في إنشاء بيانات كبيرة متاحة للجمهور وعالية الجودة للتعرف على الكيان المسمى (NER) في عشرة لغات أفريقية.إننا نقوم بالتفصيل خصائص هذه اللغات لمساعدة الباحثين والممارسين على فهم التحديات التي يفرضونها على مهام NER.نقوم بتحليل مجموعات البيانات لدينا وإجراء تقييم تجريبي واسع النطاق للطرق الحكومية في جميع إعدادات التعلم الإشراف والنقل.أخيرا، نطلق سراح البيانات والرمز والنماذج لإلهام البحوث المستقبلية على الأفريقية NLP.1
تصف هذه الورقة منهجية لنقل المعرفة النحوية بين لغات الموارد عالية الموارد إلى لغات الموارد المنخفضة للغاية. تتألف المنهجية في الاستفادة من نموذج الانتباه الذاتي متعدد اللغات المحدد في مجموعات البيانات الكبيرة لتطوير نموذج متعدد اللغات متعدد اللغات يم كن أن يتوقع التشريحات التبعية الشاملة لثلاثة لغات موارد منخفضة الأفريقية. تشمل التعليقات التوضيحية UD جزءا عالميا من الكلام والميزات المورفولوجية وميمرات وأشجار الاعتماد. في تجاربنا، استخدمنا تضييق كلمة متعددة اللغات وما مجموعه 11 تبعا عالميا Treebanks تم استخلاصها من ثلاثة لغات موارد عالية (الإنجليزية والفرنسية والنرويجية) وثلاثة لغات موارد منخفضة (Bambara و Wolof و Yoruba). قمنا بتطوير نماذج مختلفة لاختبار مجموعات لغة محددة تنطوي على لغات مراقبة معاصرة أو لغات ذات صلة وراثيا. تبين نتائج التجارب أن النماذج متعددة اللغات التي تنطوي على لغات عالية الموارد ولغات منخفضة الموارد مع الاتصال المعاصر بين بعضها البعض يمكن أن توفر نتائج أفضل من المجموعات التي تشمل فقط اللغات التي لا علاقة لها. فيما يتعلق بالعلاقات الوراثية البعيدة، لم نتمكن من استخلاص أي استنتاج بشأن تأثير مجموعات اللغة التي تنطوي على لغات الموارد المنخفضة المختارة، وهي Wolof و Yoruba.
حققت نماذج لغة الرؤية المحددة الأخيرة أداء مثير للإعجاب على مهام الاسترجاع عبر مشروط باللغة الإنجليزية. ومع ذلك، تعتمد نجاحهم بشكل كبير على توافر العديد من مجموعات بيانات التعليق المشروح على الصورة لإحاطاء، حيث لا تكون النصوص بالضرورة باللغة الإنجليز ية. على الرغم من أنه يمكننا استخدام أدوات الترجمة الآلية (MT) لترجمة النص غير الإنجليزي إلى اللغة الإنجليزية، فإن الأداء لا يزال يعتمد إلى حد كبير على جودة MT وقد يعاني من مشاكل عالية من الكمون في تطبيقات العالم الحقيقي. تقترح هذه الورقة نهجا جديدا لتعلم تمثيلات متعددة الوسائط عبر اللغات لمطابقة الصور وإياراتها ذات الصلة بلغات متعددة. نجمع بسلاسة بسلاسة أهداف محالمانية عبر اللغات وأهداف محالم الاحتجاج بالعدوان في إطار موحد لتعلم الصور والنص في مساحة تضمين مشتركة من بيانات التسمية التوضيحية باللغة الإنجليزية المتاحة، مونولينغيا ومتوازي Corpus. نظظ أن نهجنا يحقق أداء SOTA في مهام استرجاع على معايير التسمية التوضيحية متعددة اللغات متعددة اللغات متعددة اللغات: multi30k مع التسميات التوضيحية الألمانية و mscoco مع التسميات التوضيحية اليابانية.
تقدم هذه الورقة تقديم فريق Guclasp ل Sigmorphon 2021 المهمة المشتركة بشأن التعميم في توليد الانعطاف المورفولوجي.نقوم بتطوير نموذج متعدد اللغات للانضباط المورفولوجي والتركيز بشكل أساسي على تحسين النموذج باستخدام استراتيجيات تدريب مختلفة لتحسين الدقة والتعميم عبر اللغات.
يحدد اختيار استراتيجية مشاركة المعلمات في نماذج الترجمة الآلية متعددة اللغات مدى استخدام مساحة المعلمة الأمثلة، وبالتالي، تؤثر مباشرة على جودة الترجمة النهائية.وقد اقترح مؤخرا مختارة من الأشجار اللغوية التي تظهر درجة الرعاية بين اللغات المختلفة، كما تم اقتراح النهج العام الجديد لمشاركة المعلمة في الترجمة متعددة اللغات في الترجمة متعددة اللغات.تتمثل الفكرة الرئيسية في استخدام هذه التسلسلات الهرمية لغوية الخبراء كأساس للهندسة المعمارية متعددة اللغات: كلما زادت اللغتين، كلما زاد عدد المعلمات التي يشاركونها.في هذا العمل، نختبر هذه الفكرة باستخدام بنية المحولات وإظهار أنه على الرغم من النجاح في العمل السابق هناك مشاكل متأصلة لتدريب هذه النماذج الهرمية.نوضح أنه في حالة اتباع استراتيجية التدريب المختارة بعناية، يمكن للهندسة الهيكل الهرمية تفوق النماذج ثنائية اللغة ونماذج متعددة اللغات مع مشاركة المعلمات الكاملة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا