ترغب بنشر مسار تعليمي؟ اضغط هنا

تدابير التشابه هي أداة حيوية لفهم كيف تمثل النماذج اللغوية ولغة العملية. تم استخدام تدابير التشابه التمثيلية القياسية مثل تشابه التموين وجيب التغليح ومسافة Euclidean بنجاح في نماذج تضمين كلمة ثابتة لفهم كيفية الكتلة الكلمات في الفضاء الدلالي. في الآو نة الأخيرة، تم تطبيق هذه التدابير على المدينات من النماذج السياقية مثل بيرت و GPT-2. في هذا العمل، ندعو إلى السؤال عن المعلوماتية لهذه التدابير لنماذج اللغة السياقية. نجد أن عددا صغيرا من الأبعاد المارقة، في كثير من الأحيان 1-3، يهيمن على هذه التدابير. علاوة على ذلك، نجد عدم تطابق مذهل بين الأبعاد التي تهيمن على تدابير التشابه والذين مهمون سلوك النموذج. نظهر أن تقنيات PostProcessing البسيطة مثل التقييس قادرة على تصحيح الأبعاد المارقة وكشف عن الجودة التمثيلية الكامنة. نقول أن المحاسبة للأبعاد المارقة أمر ضروري لأي تحليل مقرها في التشابه لنماذج اللغة السياقية.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا