نقوم بإلقاء مجموعة من مهام استخراج المعلومات في إطار ترجمة نصية إلى ثلاثية. بدلا من حل كل مهمة تعتمد على مجموعات البيانات والنماذج الخاصة بالمهام، نقوم بإضفاء الطابع الرسمي على المهمة كترجمة بين نص الإدخال الخاص بمهارات المهام وتصل إلى ثلاث مرات. من خلال اتخاذ المدخلات الخاصة بالمهامة، فإننا تمكن الترجمة المرجعية على المهام من خلال الاستفادة من المعرفة الكامنة التي يحتوي عليها نموذج لغة مدرب مسبقا حول المهمة. نوضح كذلك أن مهمة ما قبل التدريب البسيطة المتمثلة في التنبؤ بالمعلومات العلاجية التي تتوافق مع نص الإدخال هو وسيلة فعالة لإنتاج مخرجات خاصة بالمهام. وهذا يتيح نقل الطلقة الصفرية لإطارنا إلى مهام المصب. ندرس أداء الطلقة الصفرية لهذا الإطار في استخراج المعلومات المفتوح (OIE2016، NYT، WEB، PENN)، تصنيف العلاقة (عدد قليل من الألوان والمستقبلية)، والتحقيق الواقعي (Google-Re و T-Rex). التحويلات النموذجية غير تيهية لمعظم المهام وغالبا ما تكون تنافسية مع طريقة تحت إشراف بالكامل دون الحاجة إلى أي تدريب خاص بمهام. على سبيل المثال، نتفوق بشكل كبير على درجة F1 من استخراج المعلومات المفتوح الخاضعة للإشراف دون الحاجة لاستخدام مجموعة التدريب الخاصة بها.
نقوم بتقديم Gerdalir، مجموعة بيانات ألمانية لاسترجاع المعلومات القانونية بناء على وثائق الحالة من منصة المعلومات القانونية المفتوحة المفتوحة.تتكون DataSet من استفسارات 123 ألفا، يتم تصنيف كل منها وثيقة واحدة ذات صلة على الأقل في مجموعة من وثائق الحال ة 131K.نقوم بإجراء العديد من التجارب الأساسية بما في ذلك BM25 وإعادة الرحالة العصبية لحديمع DataSet لدينا، نهدف إلى توفير معيار موحد لرجال الألمانية وترويج البحث المفتوح في هذا المجال.أبعد من ذلك، تضم مجموعة بياناتنا بيانات تدريبية كافية لاستخدامها كملقمة من النماذج في اللغة الألمانية أو اللغوية متعددة اللغات.
استخراج المعلومات الزمنية أمر بالغ الأهمية لمعالجة النص المتعلق بالصحة. إن استخراج المعلومات الزمنية هي مهمة صعبة للنماذج اللغوية لأنها تتطلب معالجة النصوص والأرقام. علاوة على ذلك، فإن التحدي الأساسي هو كيفية الحصول على مجموعة بيانات تدريبية واسعة ال نطاق. لمعالجة هذا، نقترح خوارزمية توليد البيانات الاصطناعية. أيضا، نقترح نموذج استخراج المعلومات الزمني متعدد المهام الجديد والتحقيق فيما إذا كان التعلم متعدد المهام يمكن أن يسهم في تحسين الأداء من خلال استغلال إشارات تدريبية إضافية مع بيانات التدريب الحالية. بالنسبة للتجارب، جمعنا مجموعة بيانات مخصصة تحتوي على نصوص غير منظم مع المعلومات الزمنية للأنشطة المتعلقة بالنوم. تظهر النتائج التجريبية أن استخدام البيانات الاصطناعية يمكن أن تحسن الأداء عندما يكون عامل التكبير 3. النتائج تظهر أيضا أنه عند استخدام التعلم متعدد المهام مع كمية مناسبة من البيانات الاصطناعية، يمكن أن يتحسن الأداء بشكل كبير من 82. إلى 88.6 ومن 88.6 ومن 83.9 إلى 91.9 فيما يتعلق بعشرات المطابقة الدقيقة والمتوسط ​​الكلي من التوقعات في الوقت المحدد، على التوالي.
طبقات محول خفيفة الوزن، وحدات يمكن إدراجها بين طبقات المحولات. يستكشف العمل الأخير باستخدام مثل هذه الطبقات للترجمة الآلية العصبية (NMT)، لتكييف النماذج المدربة مسبقا إلى مجالات جديدة أو أزواج لغة، والتدريب فقط مجموعة صغيرة من المعلمات لكل إعداد جديد (زوج لغة أو مجال). في هذا العمل، ندرس تكوين محولات اللغة والمجال في سياق الترجمة الآلية. نحن نهدف إلى الدراسة، 1) التكيف الفعال مع المعلمة إلى مجالات متعددة ولغات في وقت واحد (سيناريو الموارد الكاملة) و 2) نقل عبر اللغات في المجالات حيث تكون البيانات الموازية غير متوفرة لأزواج لغة معينة (سيناريو الموارد الجزئية). نجد أنه في سيناريو الموارد الجزئي مزيجا ساذجا من محولات محولات خاصة بالمجال وغالبا ما ينتج عن النسيان الكارثي باللغات المفقودة. ندرس طرق أخرى للجمع بين المحولات لتخفيف هذه المشكلة وتعظيم التحويل عبر اللغات. من خلال أفضل مجموعات محول لدينا، نحصل على تحسينات من 3-4 بلو في المتوسط ​​لغات المصدر التي لا تملك بيانات داخل المجال. بالنسبة للغات المستهدفة دون بيانات داخل المجال، نحقق تحسن مماثل عن طريق الجمع بين المحولات بالترجمة الخلفي. تتوفر مواد تكميلية في https://tinyurl.com/r66stbxj.
تستخدم العديد من الأعمال الحديثة تنظيم التناسق "لتحسين تعميم النماذج المدربة مسبقا بشكل جيد، متعدد اللغات والإنجليزية فقط. هذه الأعمال تشجع النواتج النموذجية على أن تكون مشابهة بين الإصدار المضطربة والطبيعية من المدخلات، وعادة من خلال معاقبة اختلاف K ullback - Leibler (KL) بين توزيع الاحتمالية للنموذج المضطرب والطبيعي. نعتقد أن خسائر الاتساق قد تنظم ضمنا المشهد الخسارة. على وجه الخصوص، نبني على ما يكافؤ على العمل الذي ينظم ضمنيا أو بوضوح تنظيم أثر مصفوفة معلومات فيشر (FIM)، تضخيم التحيز الضمني ل SGD لتجنب الحفظ. تظهر نتائجنا الأولية من الناحية التجريبية وموضوعيا أن خسائر الاتساق مرتبطة بالفترة الفائضة، وإظهار أن الحد الأدنى المسطح الضمني بتتبع صغير من FIM يحسن الأداء عند ضبط نموذج متعدد اللغات على لغات إضافية. نحن نهدف إلى تأكيد هذه النتائج الأولية على مزيد من مجموعات البيانات، واستخدام رؤىنا لتطوير تقنيات منخفضة اللغات متعددة اللغات.
pimentel et al. (2020) تم تحليلها مؤخرا التحقيق من منظور نظرية المعلومات. يجادلون بأن التحقيق يجب أن ينظر إليه على أنه يقترب المعلومات المتبادلة. هذا أدى إلى الاستنتاج دون المستوى إلى حد ما أن تمثل التمثيلات نفسها بالضبط نفس المعلومات حول المهمة المس تهدفة كجمل أصلية. ومع ذلك، فإن المعلومات المتبادلة تفترض أن توزيع الاحتمالات الحقيقي لزوج من المتغيرات العشوائية معروفة، مما يؤدي إلى نتائج دون المستوى في الإعدادات التي لا يكون فيها. تقترح هذه الورقة إطارا جديدا لقياس ما نقوم بمصطلح معلومات البايز المتبادلة، والتي تحلل المعلومات من منظور عملاء البيئة --- السماح بنتائج أكثر بديهية في السيناريوهات مع البيانات المحدودة. على سبيل المثال، تحت Bayesian MI، لدينا أن البيانات يمكن أن تضيف معلومات، ومعالجة يمكن أن تساعد، والمعلومات يمكن أن تؤذي، مما يجعلها أكثر بديهية لتطبيقات التعلم الآلي. أخيرا، نطبق إطار عملنا على التحقيق حيث نعتقد أن المعلومات المتبادلة بايزي تعمل بشكل طبيعي بسهولة سهولة الاستخراج من خلال الحد الصريح لمعرفة الخلفية المتاحة لحل المهمة.
على الرغم من أن المراجع الشمية تلعب دورا حاسما في ذاكرتنا الثقافية، إلا أن عددا قليلا فقط في NLP حاولت التقاطها من منظور حسابي. حاليا، والتحدي الرئيسي ليس الكثير من تطوير المكونات التكنولوجية لاستخراج المعلومات الشمية، بالنظر إلى التقدم الأخير في الم عالجة الدلالية وفهم اللغة الطبيعية، بل عدم وجود إطار نظري لالتقاط هذه المعلومات من وجهة نظر لغوية، ك الخطوة الأولية نحو تطوير النظم الآلية. لذلك، في هذا العمل، نقدم الإرشادات التوضيحية، التي تم تطويرها بمساعدة علماء التاريخ وخبراء المجال، تهدف إلى التقاط جميع العناصر ذات الصلة المشاركة في حالات أو أحداث شمية موضحة في النصوص. وقد استوحاد هذه المبادئ التوجيهية من شرح Framenet، لكنها خضعت لبعض التكيفات، والتي يتم تفصيلها في هذه الورقة. علاوة على ذلك، نقدم دراسة حالة فيما يتعلق بشراحف الحالات الشمية في كتابات السفر التاريخية الإنجليزية التي تصف الرحلات إلى إيطاليا. يظهر تحليلا لأكثر الحشو الدور الأكثر شيوعا أن الأوصاف الشمية تتعلق ببعض المجالات النموذجية مثل الدين والطعام والطبيعة والماضي القديم والمرافق الصحية الفقراء، وكل ذلك يدعم إنشاء صور نمطية مرتبطة بإيطاليا. من ناحية أخرى، فإن المشاعر الإيجابية الناجمة عن الروائح سائدة، وتساهم في تأطير السفر إلى إيطاليا كخبرة مثيرة تنطوي على جميع الحواس.
تتفوق أنظمة تلخيص التلخيص الحالية على نظرائهم المستخرجين، لكن اعتمادهم على نطاق واسع يمنعهم الافتقار المتأصل إلى الترجمة الشفوية. أنظمة تلخيص الاستخراجية، على الرغم من أنه قابل للتفسير، تعاني من التكرار وقلة الاتساق المحتمل. لتحقيق أفضل ما في العالمي ن، نقترح سهولة، وهو إطار خارجي - مبادرة ينشئ ملخصات إغراقية موجزة يمكن تتبعها مرة أخرى إلى ملخص مستخرج. يمكن تطبيق إطارنا على أي مشكلة توليد نصية قائمة على الأدلة ويمكن أن تستوعب النماذج المحددة مسبقا في بنية بسيطة. نستخدم مبدأ معلومات عنق المعلومات لتدريب الاستخلاص والتجريد المشترك في أزياء نهاية إلى نهاية. مستوحاة من البحث السابق الذي يستخدمه البشر إطارا من مرحلتين لتلخيص المستندات الطويلة (Jing و McKeown، 2000)، فإن إطار عملائنا أولا يستخرج كمية محددة مسبقا من الأدلة التي تمتد ثم يولد ملخصا باستخدام الأدلة فقط. باستخدام التقييمات التلقائية والبشرية، نوضح أن الملخصات التي تم إنشاؤها أفضل من خطوط الأساسيات الاستخراجية والاستخراجية الدخرية.
عادة ما يتم تصريف عينات صعبة من فئة الأقليات في تصنيف النص غير المتوازنين لأنها مضمنة في منطقة دلالية متداخلة مع فئة الأغلبية. في هذه الورقة، نقترح معلومات متبادلة إطار متبادل إطار عمل إطفاء دلالة (MISO) يمكن أن تولد مثيلات مرساة لمساعدة شبكة العمود الفقري على تحديد موضع إعادة تضمين التمثيل غير المتداخلة لكل عينة صعبة لكل عينة صعبة. يتكون ميسو من (1) وحدة دموية دلالية تتعلم دلالات متشابكة بين العينات الصعبة والأغلبية مع آلية اهتمام متعدد الأهمية التكيفية، (2) فقدان المعلومات المتبادلة التي تفرض نموذجنا لتعلم تمثيلات جديدة من دلالات متشابكة في غير منطقة متداخلة من فئة الأقليات، و (3) فك تشفير المشفر المقدم من الأقميات التي تتلألؤها التي تتلألؤها الدلالية التي تثبت أن تظل ترتباطاتها مع فئة الأقليات، ثم باستخدام هذه التمثيلات الدلالية في الإعفاء من أجل توليد مثيلات مرساة لكل عينة صعبة. تظهر التجارب في مجموعة متنوعة من مهام تصنيف النص غير المتوازنة أن مثيلات المرساة تساعد المصنفين على تحقيق تحسينات كبيرة على خطوط خطوط خطوط خطوط خطوط طويلة.
تقدم هذه الورقة نهجا استخراج غير مخطئ لتلخيص المستندات الطويلة العلمية بناء على مبدأ اختناق المعلومات.مستوحاة من العمل السابق الذي يستخدم مبدأ اختناق المعلومات لضغط الجملة، فإننا نقدمها لتلخيص مستوى الوثيقة مع خطوتين منفصلين.في الخطوة الأولى، نستخدم إشارة (إشارات) كاستعلامات لاسترداد المحتوى الرئيسي من المستند المصدر.بعد ذلك، يقوم نموذج لغة مدرب مسبقا بإجراء المزيد من الجملة والتحرير لإرجاع الملخصات المستخرجة النهائية.الأهم من ذلك، يمكن امتدت عملنا بمرونة إلى إطار متعدد المشاهدات من قبل إشارات مختلفة.التقييم التلقائي على ثلاث مجموعات بيانات وثيقة علمية تتحقق من فعالية الإطار المقترح.يشير التقييم البشري الإضافي إلى أن الملخصات المستخرجة تغطي المزيد من جوانب المحتوى أكثر من النظم السابقة.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا