ترغب بنشر مسار تعليمي؟ اضغط هنا

TABBIE: تمثيلات مسبقة من البيانات الجدولة

TABBIE: Pretrained Representations of Tabular Data

436   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

العمل الحالي على طاولات نماذج التعلم المشتركة في التمثيل الجداول والنص المرتبط باستخدام الوظائف الموضوعية الخاضعة للإشراف ذاتي المستمدة من نماذج اللغة المحددة مسبقا مثل Bert.في حين أن هذا المحاط بالمفصل يحسن المهام التي تنطوي على الجداول والنص المقترن (على سبيل المثال، الرد على أسئلة حول الجداول)، نوضح أنه لا يقلل من المهام التي تعمل على الجداول دون أي نص مرتبط (E.G.، ملء الخلايا المفقودة).نحن نركض موضوعا بسيطا محددا (اكتشاف الخلايا الفاسدة) التي تتعلم حصريا من البيانات الجدولة وتصل إلى أحدث من بين الفن على مجموعة من مهام التنبؤ القائمة على الطاولة.على عكس النهج المتنافسة، يوفر النموذج الخاص بنا (TABBIE) Asspeddings من جميع درجات الباطن الأساسي (الخلايا والصفوف والأعمدة)، كما أنها تتطلب أيضا حساب أقل بكثير للتدريب.يوضح تحليل نوعي للخلية المستفادة في النموذج، العمود، وتمثيلات الصف أنه يفهم دلالات الجدول المعقدة والاتجاهات العددية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

ترجمة المخطط هي مهمة ترجمة رؤوس البيانات الجدولية تلقائيا من لغة إلى أخرى. تلعب ترجمة المخطط عالية الجودة دورا مهما في البحث عبر الجدول عبر اللغات والتفاهم والتحليل. على الرغم من أهميتها، فإن ترجمة المخطط ليست مدروسة بشكل جيد في المجتمع، ولا يمكن أن تعمل نماذج الترجمة الآلية العصبية في هذه المهمة بشكل جيد في هذه المهمة بسبب اختلافات جوهرتين بين النص العادي والبيانات الجدولة: الفرق المورفولوجي وفرق السياق. لتسهيل الدراسة البحثية، نبني أول مجموعة بيانات متوازية للترجمة المخطط، والتي تتكون من 3،158 طاولة مع 11،979 رئيس مكتوبة في 6 لغات مختلفة، بما في ذلك الإنجليزية والصينية والفرنسية والألمانية والإسبانية واليابانية. أيضا، نقترح نموذج الترجمة المخطط الأول يسمى EAST، وهو نموذج الترجمة العصبي للرأس المعزز مع سياق المخطط. على وجه التحديد، نقوم بالنماذج رأسا مستهدف وسياقه كشركة بيانية موجهة لتمثيل أنواع كيانها وعلاقاتها. ثم يلقي يرميز الرسم البياني مع محول علمي عليري ويستخدم محول آخر لفك تشفير رأس اللغة الهدف. توضح التجارب في مجموعة بياناتنا التي توضح بشكل كبير من نماذج الترجمة الآلية العصبية لحالة الأحوال العصبية. سيتم إصدار DataSet لدينا في https://github.com/microsoft/contextualsp.
تعد فهم الجداول مهمة مهمة وذات صلة تتضمن فهم بنية الجدول وكذلك القدرة على مقارنة ومعلومات التباين داخل الخلايا. في هذه الورقة، نتعامل مع هذا التحدي من خلال تقديم مجموعة بيانات جديدة ومهام جديدة تعالج هذا الهدف في مهمة مشتركة في مهمة Semeval 2020 9: ا لتحقق من الحقائق وأدلة العثور على بيانات جدولية في الوثائق العلمية (حقائق SEM-Tab-Facts). تحتوي DataSet الخاصة بنا على 981 طاولة تم إنشاؤها يدويا وحدات بيانات تم إنشاؤها تلقائيا من 1980 طاولة توفر أكثر من 180 كيلو وايت وأكثر من 16 متر من التعليقات التوضيحية. ظهرت حقائق SEM-Tab مهام فرعية. في مهمة فرعية أ، كان الهدف هو تحديد ما إذا كان بيان مدعوم أو دحض أو غير معروف فيما يتعلق بجدول. في المهمة الفرعية B، كان التركيز على تحديد الخلايا المحددة للطاولة التي توفر أدلة على البيان. 69 وقعت فرق للمشاركة في المهمة مع 19 تقارير ناجحة إلى الفرعية و 12 من عروض ناجحة إلى Subtask B. نقدم نتائجنا والنتائج الرئيسية من المسابقة.
أدت التقدم المحرز الأخير في معالجة اللغات الطبيعية إلى أن تصبح هياكل المحولات النموذجية السائدة المستخدمة لمهام اللغة الطبيعية.ومع ذلك، في العديد من مجموعات البيانات في العالم، يتم تضمين طرائق إضافية التي لا يستوفي المحول مباشرة.نقدم مجموعة أدوات متع ددة الوسائط، حزمة بيثون مفتوحة المصدر لتضمين بيانات النص والمجدول (القاطع والرقمي) مع المحولات لتطبيقات المصب.تدمج مجموعة أدواتنا جيدا مع تعانق واجهة برمجة التطبيقات الموجودة في وجه المعانقة مثل التوت والمركز النموذجي الذي يتيح تنزيل سهلة من مختلف النماذج المدربة مسبقا.
في خطوط أنابيب معالجة اللغة الطبيعية الحديثة، فمن الممارسات الشائعة أن تعزز "نموذج لغة تابعة له على جثة كبيرة من النص، ثم إلى Finetune '' من التمثيلات التي تم إنشاؤها من خلال الاستمرار في تدريبهم على مهمة استنصائية نصية تمييزية.ومع ذلك، ليس من الواضح فورا ما إذا كان المعنى المنطقي ضروري لنموذج الاستقصاء المنطقي يتم التقاطه بواسطة نماذج اللغة في هذه النموذج.نحن ندرس هذه الوصفة المؤقتة الوصيفة مع نماذج اللغة التي تم تدريبها على مهمة استقامة اللغة الاصطناعية، والنتائج الحالية على مجموعات الاختبار معرفة نماذج التحقيق "بديهيا" منطق الدرس الأول.
تحديد ما إذا كان هناك مستندان مؤلفان من المؤلف نفسه، المعروف أيضا باسم التحقق من التأليف، تم تناوله تقليديا باستخدام الأساليب الإحصائية. في الآونة الأخيرة، تم العثور على تمثيلات التأليف المستفادة باستخدام الشبكات العصبية لتفوق البدائل، لا سيما في الإ عدادات الكبيرة التي تنطوي على مئات الآلاف من المؤلفين. ولكن هل تعلمت هذه التمثيلات في نقل مجال معين إلى مجالات أخرى؟ أو هل هذه تمثيلات متشابكة بطبيعتها مع ميزات خاصة بالمجال؟ لدراسة هذه الأسئلة، نقوم بإجراء أول دراسة واسعة النطاق لنقل المجال المتبادل للتحقق من التأليف بالنظر إلى التحويلات الصفرية التي تنطوي على ثلاثة مجالات متباينة: مراجعات الأمازون وقصص قصيرة الصوفية والتعليقات Reddit. نجد أنه على الرغم من أن درجة التنقل مفاجأة ممكنة بين مجالات معينة، إلا أنها ليست ناجحة بين الآخرين. نحن ندرس خصائص هذه المجالات التي تؤثر على التعميم واقتراح أساليب بسيطة ولكنها فعالة لتحسين النقل.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا