العمل الحالي على طاولات نماذج التعلم المشتركة في التمثيل الجداول والنص المرتبط باستخدام الوظائف الموضوعية الخاضعة للإشراف ذاتي المستمدة من نماذج اللغة المحددة مسبقا مثل Bert.في حين أن هذا المحاط بالمفصل يحسن المهام التي تنطوي على الجداول والنص المقترن (على سبيل المثال، الرد على أسئلة حول الجداول)، نوضح أنه لا يقلل من المهام التي تعمل على الجداول دون أي نص مرتبط (E.G.، ملء الخلايا المفقودة).نحن نركض موضوعا بسيطا محددا (اكتشاف الخلايا الفاسدة) التي تتعلم حصريا من البيانات الجدولة وتصل إلى أحدث من بين الفن على مجموعة من مهام التنبؤ القائمة على الطاولة.على عكس النهج المتنافسة، يوفر النموذج الخاص بنا (TABBIE) Asspeddings من جميع درجات الباطن الأساسي (الخلايا والصفوف والأعمدة)، كما أنها تتطلب أيضا حساب أقل بكثير للتدريب.يوضح تحليل نوعي للخلية المستفادة في النموذج، العمود، وتمثيلات الصف أنه يفهم دلالات الجدول المعقدة والاتجاهات العددية.
Existing work on tabular representation-learning jointly models tables and associated text using self-supervised objective functions derived from pretrained language models such as BERT. While this joint pretraining improves tasks involving paired tables and text (e.g., answering questions about tables), we show that it underperforms on tasks that operate over tables without any associated text (e.g., populating missing cells). We devise a simple pretraining objective (corrupt cell detection) that learns exclusively from tabular data and reaches the state-of-the-art on a suite of table-based prediction tasks. Unlike competing approaches, our model (TABBIE) provides embeddings of all table substructures (cells, rows, and columns), and it also requires far less compute to train. A qualitative analysis of our model's learned cell, column, and row representations shows that it understands complex table semantics and numerical trends.
المراجع المستخدمة
https://aclanthology.org/
ترجمة المخطط هي مهمة ترجمة رؤوس البيانات الجدولية تلقائيا من لغة إلى أخرى. تلعب ترجمة المخطط عالية الجودة دورا مهما في البحث عبر الجدول عبر اللغات والتفاهم والتحليل. على الرغم من أهميتها، فإن ترجمة المخطط ليست مدروسة بشكل جيد في المجتمع، ولا يمكن أن
تعد فهم الجداول مهمة مهمة وذات صلة تتضمن فهم بنية الجدول وكذلك القدرة على مقارنة ومعلومات التباين داخل الخلايا. في هذه الورقة، نتعامل مع هذا التحدي من خلال تقديم مجموعة بيانات جديدة ومهام جديدة تعالج هذا الهدف في مهمة مشتركة في مهمة Semeval 2020 9: ا
أدت التقدم المحرز الأخير في معالجة اللغات الطبيعية إلى أن تصبح هياكل المحولات النموذجية السائدة المستخدمة لمهام اللغة الطبيعية.ومع ذلك، في العديد من مجموعات البيانات في العالم، يتم تضمين طرائق إضافية التي لا يستوفي المحول مباشرة.نقدم مجموعة أدوات متع
في خطوط أنابيب معالجة اللغة الطبيعية الحديثة، فمن الممارسات الشائعة أن تعزز "نموذج لغة تابعة له على جثة كبيرة من النص، ثم إلى Finetune '' من التمثيلات التي تم إنشاؤها من خلال الاستمرار في تدريبهم على مهمة استنصائية نصية تمييزية.ومع ذلك، ليس من الواضح
تحديد ما إذا كان هناك مستندان مؤلفان من المؤلف نفسه، المعروف أيضا باسم التحقق من التأليف، تم تناوله تقليديا باستخدام الأساليب الإحصائية. في الآونة الأخيرة، تم العثور على تمثيلات التأليف المستفادة باستخدام الشبكات العصبية لتفوق البدائل، لا سيما في الإ