ترغب بنشر مسار تعليمي؟ اضغط هنا

تدابير التشابه هي أداة حيوية لفهم كيف تمثل النماذج اللغوية ولغة العملية. تم استخدام تدابير التشابه التمثيلية القياسية مثل تشابه التموين وجيب التغليح ومسافة Euclidean بنجاح في نماذج تضمين كلمة ثابتة لفهم كيفية الكتلة الكلمات في الفضاء الدلالي. في الآو نة الأخيرة، تم تطبيق هذه التدابير على المدينات من النماذج السياقية مثل بيرت و GPT-2. في هذا العمل، ندعو إلى السؤال عن المعلوماتية لهذه التدابير لنماذج اللغة السياقية. نجد أن عددا صغيرا من الأبعاد المارقة، في كثير من الأحيان 1-3، يهيمن على هذه التدابير. علاوة على ذلك، نجد عدم تطابق مذهل بين الأبعاد التي تهيمن على تدابير التشابه والذين مهمون سلوك النموذج. نظهر أن تقنيات PostProcessing البسيطة مثل التقييس قادرة على تصحيح الأبعاد المارقة وكشف عن الجودة التمثيلية الكامنة. نقول أن المحاسبة للأبعاد المارقة أمر ضروري لأي تحليل مقرها في التشابه لنماذج اللغة السياقية.
أصبحت بنية المحولات في كل مكان في مجال معالجة اللغات الطبيعية.لتفسير النماذج القائمة على المحولات، تم تحليل أنماط اهتمامها على نطاق واسع.ومع ذلك، فإن بنية المحولات لا تتكون فقط من الاهتمام متعدد الأطراف؛يمكن أن تسهم مكونات أخرى أيضا في الأداء التدريج ي المحولات.في هذه الدراسة، مددنا نطاق تحليل المحولات من أنماط الانتباه فقط إلى كتلة الاهتمام بأكمله، أي اهتمام متعدد الأطراف، والاتصال المتبقي، وتطبيع الطبقة.يوضح تحليل النماذج اللغوية المقصودة للمحولات أن التفاعل الرمزي إلى الرمز المميز الذي يؤديه عن طريق الاهتمام له تأثير أقل على التمثيل الوسيط مما كان مفترض سابقا.توفر هذه النتائج تفسيرات جديدة بديهية للتقارير القائمة؛على سبيل المثال، تم تجاهل أنماط الانتباه المستفادة لا تؤثر سلبا على الأداء.رموز تجاربنا متاحة للجمهور.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا