ترغب بنشر مسار تعليمي؟ اضغط هنا

نموذج Electra خاص بالهيكلية باستخدام كوربوس صغير

Domain-Specific Japanese ELECTRA Model Using a Small Corpus

188   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في الآونة الأخيرة، أصبح تحول المجال، الذي يؤثر على الدقة بسبب الاختلافات في البيانات بين المجالات المصدر والمستهدفة، مشكلة خطيرة عند استخدام أساليب تعلم الآلة لحل مهام معالجة اللغة الطبيعية. مع إجراء محاولات إضافية وضبطا جيدا باستخدام كوربوس المجال المستهدف، يمكن أن معالجة نماذج المحدبة مثل Bert (تمثيلات التشفير الثنائية من المحولات) معالجة هذه المشكلة. ومع ذلك، فإن الاحيلاء الإضافي لنموذج بيرت صعب لأنه يتطلب موارد حسابية كبيرة. إن التعلم بكفاءة التعلم الذي يصنف بدائل الرمز المميز بدقة (Electra) يحل محل النمذجة المصنوعة من النمذجة الملاعمة للطريقة الملثمين من Bert Prodraining مع طريقة تسمى اكتشاف الرمز المميز، مما يحسن الكفاءة الحسابية ويسمح بإحاطاء نموذجي إلى حد عملي. هنا، نقترح طريقة لمعالجة الكفاءة الحسابية لنماذج الاحتجاج في نوبة المجال من خلال إنشاء نموذج محاولات إلكترونية على مجموعة بيانات يابانية وإحاطا إضافي هذا النموذج في مهمة المصب باستخدام Corpus من المجال المستهدف. لقد شيدنا نموذجا محددا ل Electra باللغة اليابانية وأجريت تجارب في مهمة تصنيف المستندات باستخدام بيانات من المقالات الإخبارية اليابانية. تظهر النتائج أنه حتى نموذج أصغر من النموذج المحدد يؤدي بشكل جيد بنفس القدر.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تظهر النماذج المسبقة للتدريب المستندة إلى المحولات مثل Bert و Electra حول مجموعة من كورسيا العربية، التي أظهرها كل من أرابيرت وأريكيكترا، نتيجة مثيرة للإعجاب في مهام المصب.ومع ذلك، فإن نماذج اللغة المستندة إلى المحولات قبل التدريب هي باهظة الثمن، خاص ة بالنسبة للنماذج الكبيرة.في الآونة الأخيرة، تناول محول القمع التكرار المتسلسل داخل بنية المحولات من خلال ضغط تسلسل الدول المخفية، مما يؤدي إلى انخفاض كبير في تكلفة ما قبل التدريب.تدرس هذه الورقة تجريبية أداء وكفاءة بناء نموذج اللغة العربية مع محول القمع وهناك هدف Electra.نجد أن نموذجنا يحقق نتائج أحدث النتائج على العديد من المهام المصب العربية على الرغم من استخدام موارد حسابية أقل مقارنة بالنماذج الأخرى القائمة على بيرت.
هذه الدراسة هي أبحاث مستمرة تهدف إلى التحقيق في ميزات المعمير النحوية والأسلطة للنصوص في المجال البيئي باللغة الإنجليزية، وآثارها على الترجمة إلى الأوكرانية وكذلك ترجمة وحدات المصطلحات الرئيسية على أساس موازية متخصصة ومقارنة.
تصف هذه الورقة بناء كوربوس تفسير اللغة الإنجليزية واليابانية على نطاق واسع (SI) ويعرض نتائج تحليلها.يحتوي جزء من Corpus على بيانات SI من ثلاثة مترجمين مع كميات مختلفة من الخبرة.تم محاذاة بعض بيانات SI يدويا مع خطب المصدر على مستوى الجملة.تمت مقارنة ج وانب الكمون والجودة ونظام ترتيب الكلمات بين بيانات SI نفسها وكذلك ضد الترجمات دون اتصال.أظهرت النتائج أن المترجمين الفوريين (1) مع المزيد من الخبرة التي تسيطر على الكمون والجودة بشكل أفضل، و (2) مزامور زمنية كبيرة تؤذي جودة SI.
في هذه الورقة، نقدم نهجا جديدا لتكييف المجال في الجهاز العصبي الذي يهدف إلى تحسين جودة Thetranslation على نطاق جديد. إضافة مجالات جديدة هي مهمة عالية تحديا لبيانات الترجمة الآلية العصبية، يصبح أكثر عبادة منتشرةالمجالات الفنية مثل Chem-Istry والذكاء ا لاصطناعي بسبب مصطلحات Spe-Sicific، إلخ. نقترح أسلوب الترجمة الخلفي العجول Domainspecific والتي تنوع بيانات الأحادية المتوفرة والبيانات الاصطناعية العامة بطريقة مختلفة. هذا النهج يستخدم خارج الكلمات. النهجعام جدا ويمكن أن تقوم بالياف بأي زوج لغة لأي مجال.نقوم بإجراء تجاربنا على الكنديمان والذكاء الاصطناعي) من أجل اللغة الهندية والتيلجو في كل من direc-tions.وقد لوحظ أن استخدام البيانات الاصطناعية الاستخدام التي تم إنشاؤها بواسطة proposedalgorithm يحسن درجات بلو بشكل كبير.
توضح هذه المقالة البحث عن التحقق من المطالبة المنفذة باستخدام نموذج متعدد القائم على GAN.يتكون النموذج المقترح من ثلاثة أزواج من المولدات والتمييز.المولد والأزواج التمييزية مسؤولة عن توليد البيانات الاصطناعية للمطالبات المدعومة والمطالبة الدوحدة وتسم يات المطالبة.يتم توفير مناقشة نظرية حول النموذج المقترح للتحقق من صحة حالة التوازن للنموذج.يتم تطبيق النموذج المقترح على مجموعة بيانات الحمى، يتم استخدام نموذج لغة مدرب مسبقا لبيانات نص الإدخال.تساعد البيانات التي تم إنشاؤها بشكل شبكي على الحصول على معلومات تعمل على تحسين أداء التصنيف فوق خطوط الأساس الفنية.عشر درجات F1 المعنية بعد تطبيق الأسلوب المقترح في Fever 1.0 ومجموعات بيانات Fever 2.0 هي 0.65 + -0.018 و 0.65 + -0.051.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا