ترغب بنشر مسار تعليمي؟ اضغط هنا

التدريب نماذج لغة كبيرة يمكن أن تستهلك كمية كبيرة من الطاقة.نفترض أن تكوين نموذج اللغة يؤثر على استهلاكها في مجال الطاقة، وأن هناك مجالا لتحسين استهلاك الطاقة في نماذج اللغة الكبيرة الحديثة.للتحقيق في هذه المطالبات، نقدم عامل استهلاك الطاقة في الوظيف ة الموضوعية، واستكشاف مجموعة النماذج وتكوينات HyperParameter التي تؤثر على الطاقة.نحدد عوامل تكوين متعددة يمكن أن تقلل من استهلاك الطاقة أثناء التدريب على نموذج اللغة مع الحفاظ على جودة النموذج.
يوفر تقطير المعرفة (KD) وسيلة طبيعية لتقليل الكمون واستخدام الذاكرة / الطاقة للنماذج المسبقة للأعياد الضخمة التي تأتي للسيطرة على معالجة اللغة الطبيعية (NLP) في السنوات الأخيرة. في حين أن العديد من المتغيرات المتطورة في خوارزميات KD قد اقترحت لتطبيقا ت NLP، فإن العوامل الرئيسية التي تدعم أداء التقطير الأمثل غالبا ما تكون مرتبكة وتبقى غير واضحة. نحن نهدف إلى تحديد مدى تأثير مكونات مختلفة في خط أنابيب KD على الأداء الناتج ومقدار خط أنابيب KD الأمثل يختلف عبر مجموعات البيانات / المهام المختلفة، مثل سياسة تكبير البيانات، وظيفة الخسارة، والتمثيل الوسيط لنقل المعرفة بين المعلم وطالب. لتتأكد من أن آثارها، نقترح تقطير، إطار التقطير، يجمع بشكل منهجي بين مجموعة واسعة من التقنيات عبر مراحل مختلفة من خط أنابيب KD، مما يتيح لنا تحديد مساهمة كل مكون. ضمن تقطير، ونحن نقوم بتحديد الأهداف الشائعة الاستخدام لتقطير التمثيلات الوسيطة بموجب هدف معلومات متبادلة عالمية (MI) واقتراح فئة من الوظائف الموضوعية MI مع التحيز / تباين التباين أفضل لتقدير ميل بين المعلم والطالب. في مجموعة متنوعة من مجموعات بيانات NLP، يتم تحديد أفضل تكوينات تقطير عبر تحسين المعلمة على نطاق واسع. تجاربنا تكشف عن ما يلي: 1) النهج المستخدم لتقطير التمثيل الوسيط هو أهم عامل في أداء الدكتوراط، 2) بين أهداف مختلفة للتقطير الوسيط، MI-تنفذ أفضل، و 3) يوفر تكبير البيانات دفعة كبيرة ل مجموعات البيانات التدريب الصغيرة أو شبكات الطلاب الصغيرة. علاوة على ذلك، نجد أن مجموعات البيانات / المهام المختلفة تفضل خوارزميات KD المختلفة، وبالتالي اقترح خوارزمية بسيطة ل Autodistiller التي يمكن أن توصي بخط أنابيب KD جيدة لمجموعة بيانات جديدة.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا