ترجمة المخطط هي مهمة ترجمة رؤوس البيانات الجدولية تلقائيا من لغة إلى أخرى. تلعب ترجمة المخطط عالية الجودة دورا مهما في البحث عبر الجدول عبر اللغات والتفاهم والتحليل. على الرغم من أهميتها، فإن ترجمة المخطط ليست مدروسة بشكل جيد في المجتمع، ولا يمكن أن تعمل نماذج الترجمة الآلية العصبية في هذه المهمة بشكل جيد في هذه المهمة بسبب اختلافات جوهرتين بين النص العادي والبيانات الجدولة: الفرق المورفولوجي وفرق السياق. لتسهيل الدراسة البحثية، نبني أول مجموعة بيانات متوازية للترجمة المخطط، والتي تتكون من 3،158 طاولة مع 11،979 رئيس مكتوبة في 6 لغات مختلفة، بما في ذلك الإنجليزية والصينية والفرنسية والألمانية والإسبانية واليابانية. أيضا، نقترح نموذج الترجمة المخطط الأول يسمى EAST، وهو نموذج الترجمة العصبي للرأس المعزز مع سياق المخطط. على وجه التحديد، نقوم بالنماذج رأسا مستهدف وسياقه كشركة بيانية موجهة لتمثيل أنواع كيانها وعلاقاتها. ثم يلقي يرميز الرسم البياني مع محول علمي عليري ويستخدم محول آخر لفك تشفير رأس اللغة الهدف. توضح التجارب في مجموعة بياناتنا التي توضح بشكل كبير من نماذج الترجمة الآلية العصبية لحالة الأحوال العصبية. سيتم إصدار DataSet لدينا في https://github.com/microsoft/contextualsp.
Schema translation is the task of automatically translating headers of tabular data from one language to another. High-quality schema translation plays an important role in cross-lingual table searching, understanding and analysis. Despite its importance, schema translation is not well studied in the community, and state-of-the-art neural machine translation models cannot work well on this task because of two intrinsic differences between plain text and tabular data: morphological difference and context difference. To facilitate the research study, we construct the first parallel dataset for schema translation, which consists of 3,158 tables with 11,979 headers written in 6 different languages, including English, Chinese, French, German, Spanish, and Japanese. Also, we propose the first schema translation model called CAST, which is a header-to-header neural machine translation model augmented with schema context. Specifically, we model a target header and its context as a directed graph to represent their entity types and relations. Then CAST encodes the graph with a relational-aware transformer and uses another transformer to decode the header in the target language. Experiments on our dataset demonstrate that CAST significantly outperforms state-of-the-art neural machine translation models. Our dataset will be released at https://github.com/microsoft/ContextualSP.
المراجع المستخدمة
https://aclanthology.org/
العمل الحالي على طاولات نماذج التعلم المشتركة في التمثيل الجداول والنص المرتبط باستخدام الوظائف الموضوعية الخاضعة للإشراف ذاتي المستمدة من نماذج اللغة المحددة مسبقا مثل Bert.في حين أن هذا المحاط بالمفصل يحسن المهام التي تنطوي على الجداول والنص المقتر
تعزز البيانات، التي تشير إلى معالجة المدخلات (على سبيل المثال، إضافة ضوضاء عشوائية، اخفاء أجزاء محددة) لتكبير مجموعة البيانات، تم اعتمادها على نطاق واسع في تعلم الجهاز.تعمل معظم تقنيات تكبير البيانات على إدخال واحد، مما يحد من تنوع كوربوس التدريب.في
نقترح طريقة تكبير البيانات للترجمة الآلية العصبية.إنه يعمل عن طريق تفسير نماذج اللغة ومحاذاة الجمل الفعلية سببا.على وجه التحديد، فإنه يخلق كورس ترجمة موازية مزعجة عن طريق توليد عبارات محاذاة مضادة للمحاطة (المسار).نحن نولد هذه من خلال أخذ عينات من عب
غالبا ما يتحلل ترجمة لغة الإشارة (SLT) في التعرف على الفيديو إلى اللمعان والترجمة النصية إلى النص، حيث يكون اللمعان سلسلة من الكلمات اللغوية الموضحة باللغة المنطوقة بالترتيب الذي يتم فيه توقيعه.نحن نركز هنا على الترجمة اللامع إلى النص، والتي نعلمها ك
في هذه الورقة، نحقق في عوامل القيادة وراء التسلسل، وهي طريقة بسيطة ولكنها فعالة من البيانات للترجمة الآلية العصبية منخفضة الموارد.تشير تجاربنا إلى أن سياق الخطاب غير مرجح هو سبب تحسين تسلسل بلو من قبل حوالي +1 عبر أربع أزواج لغوية.بدلا من ذلك، نوضح أ