على الرغم من أن نماذج اللغة المحددة مسبقا على نطاق واسع تحسنت بشكل كبير في تحسين وظائف المساعدة مثل الإكمال التلقائي، إلا أنه لم يتم استكشاف مساعدي الكتابة أكثر تعقيدا ويمكن التحكم فيه بعد. نستفيد من التطورات في النمذجة اللغوية لبناء مساعد كتابة تفاع
لي ينشئ النص وإعادة صياغة النص وفقا لمواصفات المؤلف المحبوس بشكل جيد. يقدم المستخدمون مدخلات لمساعدنا الموجه في النوايا (IGA) في شكل نص يتعايش مع العلامات التي تتوافق مع توجيهات خطابية محددة (على سبيل المثال، إضافة الوصف أو التباين، أو إعادة تصوير جملة معينة). نحن نؤيد نموذج لغة على مجموعة بيانات مثبتة مسبقا مع نية المؤلف، والتي تسمح IGA بملء هذه العلامات مع نص تم إنشاؤه يستخدم المستخدمون في وقت لاحق تحرير لتروقهم. تؤكد سلسلة من التقييمات التلقائية والتعبئة الجودة جودة مخرجات IGA التي تم إنشاؤها، في حين أن دراسة مستخدمين على نطاق صغير توضح تفضيلات المؤلف ل IGA على أساليب خط الأساس في مهمة كتابة إبداعية. نطلق سراح البيانات الخاصة بنا ورمزها وإيضا لتحديد مزيد من البحث في الكتابة بمساعدة منظمة العفو الدولية.
الخلل من الطبقة هو تحد مشترك في العديد من مهام NLP، ولديه اتصالات واضحة إلى التحيز، في هذا التحيز في البيانات التدريبية يؤدي غالبا إلى دقة أعلى بالنسبة لمجموعات الأغلبية على حساب مجموعات الأقليات.ومع ذلك، كان هناك تقليديا قطع اتصال بين البحث في التعل
م المتوازن في الفئة والتخفيف من التحيز، ولديه مؤخرا فقط تم النظر في اثنين من خلال عدسة مشتركة.في هذا العمل، نقيم أساليب التعلم الطويلة ذات الذيل الطويل لتغريد المعنويات وتصنيف الاحتلال، وتوسيع نهج قائم على الهامش مع طرق لفرض الإنصاف.نعرض تجريبيا من خلال تجارب محكومة أن الأساليب المقترحة تساعد في تخفيف كل من الخلل في الطبقة والتحيزات الديموغرافية.
يجب أن تكون أنظمة معالجة اللغة الطبيعية مثل وكلاء الحوار قادرة على سبب معتقدات الآخرين ونواياهم ورغباتهم. هذه القدرة، التي تسمى نظرية العقل (توم)، أمر بالغ الأهمية، حيث تتيح نموذج للتنبؤ وتفسير احتياجات المستخدمين بناء على حالاتهم العقلية. يقيم خط ال
أبحاث الحديث إمكانية توم من النماذج العصبية المعززة بالذاكرة الحالية من خلال الإجابة على السؤال. تؤدي هذه النماذج بشكل سيء على مهام الاعتقاد الكاذبة حيث تختلف المعتقدات عن الواقع، خاصة عندما تحتوي مجموعة البيانات على جمل مشتتة. في هذه الورقة، نقترح نهجا جديدا مستنرا مؤقتا لتحسين قدرة توم النماذج العصبية المعززة بالذاكرة. يتضمن نموذجنا بشعورا حول عقول الكيانات وتتبع حالاتهم العقلية لأنهم يتطورون بمرور الوقت من خلال مرور موسع. ثم يستجيب للاستعلامات من خلال السفر النصي - I.E.، عن طريق الوصول إلى الذاكرة المخزنة لخطوة زمنية سابقة. نقوم بتقييم نموذجنا على TOM Datasets ويجد أن هذا النهج يحسن الأداء، خاصة من خلال تصحيح الحالات الذهنية المتوقعة مطابقة الاعتقاد الخاطئ.
تسأل هذه الورقة عما إذا كانت استقراء توزيع الفضاء المخفي لأمثلة النصية من فئة واحدة إلى أخرى هي تحيز حثي صالح لتعزيز البيانات.لتفعيل هذا السؤال، أقترح بروتوكول تكبير بيانات بسيط يسمى استقراء مثال جيد بما فيه الكفاية "(GE3).GE3 خفيف الوزن وليس له فرطي
ات.تطبق على ثلاث مجموعات بيانات تصنيف النص لمختلف سيناريوهات عدم توازن البيانات، تعمل GE3 على تحسين الأداء أكثر من عمليات التصميم وغيرها من طرق تكبير بيانات الفضاء المخفية.
المعايير القابلة للتكرار حاسمة في قيادة التقدم المحرز في أبحاث الترجمة الآلية. ومع ذلك، تقتصر معايير الترجمة الآلية الموجودة في الغالب على اللغات عالية الموارد أو ممثلة تمثيلا جيدا. على الرغم من الاهتمام المتزايد في الترجمة ذات الجهاز المنخفض، لا توج
د معايير موحدة استنساخ للعديد من اللغات الأفريقية، يتم استخدام العديد منها من قبل ملايين المتحدثين ولكن لديهم بيانات نصية أقل رقمية. لمعالجة هذه التحديات، نقترح AFROMT، معيارا قياسيا موحدا ونينا ونظيفا ولاكاثر لثمانية لغات أفريقية منطوقة على نطاق واسع. نقوم أيضا بتطوير مجموعة من أدوات التحليل لتشخيص النظام مع الأخذ في الاعتبار الخصائص الفريدة لهذه اللغات. علاوة على ذلك، نستكشف القضية التي تعتبرها مؤلمة تركز على الموارد المنخفضة المنخفضة وتطوير استراتيجيات جديدة قائمة على زيادة تكبير البيانات، واستفادة من معلومات محاذاة مستوى الكلمات والبيانات الزائفة غير المباشرة لإحاطاء نماذج التسلسل متعددة اللغات. نوضح تحسينات كبيرة عند الاحتجاج في 11 لغة، مع مكاسب تصل إلى 2 نقطة بلو على خطوط خطوط خطوط خطوط طويلة. نعرض أيضا مكاسب تصل إلى 12 نقطة بلو على خطوط خطوط نقل النقل عبر اللغات في سيناريوهات مقيدة البيانات. سيتم إصدار جميع النماذج من التعليمات البرمجية والأعمدة كخطوات أخرى نحو معايير قابلة لإزالة الأكبرات للغات الأفريقية.
يحتوي الرسم البياني المعرفي المفتوح المجال (KG) على كيانات كعقد، وعلاقات اللغة الطبيعية كحواف، ويتم بناؤها عن طريق الاستخراج (الموضوع، العلاقة، كائن) ثلاث مرات من النص. مهمة التنبؤ ارتباط المجال المفتوح هو أن يستنتج العلاقات المفقودة في كجم. استخدم ا
لعمل السابق التنبؤ بالصلة القياسية للمهمة. نظرا لأن ثلاثة أضعاف استخراج من النص، فيمكننا أن ننظر إليها في السياق النصي الأكبر الذي تم العثور عليه أصلا. ومع ذلك، فإن أساليب التنبؤ بالصلة القياسية تعتمد فقط على هيكل KG وتجاهل السياق النصي الذي تم استخراج كل ثلاث مرات منه. في هذه الورقة، نقدم المهمة الجديدة لتنبؤ ارتباط السياق المفتوح الذي يمكنه الوصول إلى كل من السياق النصي وبنية كجم لإجراء تنبؤ الارتباط. نحن نبني مجموعة بيانات للمهمة واقتراح نموذج لذلك. تظهر تجاربنا أن السياق أمر حاسم في التنبؤ بالعلاقات المفقودة. كما نوضح فائدة التنبؤ بالوصلة السياقية في اكتشاف الاستراتيجية المستقلة للسياق بين العلاقات، في شكل رسوم بيانية استقامة (على سبيل المثال)، والتي تكون فيها العقد العلاقات. تعقد العكس أيضا: المساعدات المستقلة للسياق EGS في التنبؤ بالعلاقات في السياق.
إن ربط الكيانات الطبية الحيوية هي مهمة ربط الكيان في وثيقة طبيب طبيعية إلى كيانات مرجعية في قاعدة المعرفة. في الآونة الأخيرة، تم تقديم العديد من النماذج القائمة على بيرت للمهمة. في حين أن هذه النماذج تحقق نتائج تنافسية على العديد من مجموعات البيانات،
فإنها باهظة الثمن بشكل حسابي وتحتوي على حوالي 110 مليون معلمة. لا يعرف القليل عن العوامل التي تساهم في أدائها المثيرة للإعجاب وما إذا كانت هناك حاجة إلى المعلمة الإفراطية. في هذا العمل، ألقينا بعض الضوء على الأعمال الداخلية لهذه النماذج الكبيرة القائمة على بيرت. من خلال مجموعة من التجارب التحقيق، وجدنا أن كيان يربط الأداء يتغير فقط قليلا عند خلط ترتيب كلمات الإدخال أو عندما يقتصر نطاق الانتباه على حجم نافذة ثابتة. من هذه الملاحظات، نقترح شبكة عصبية نفعية فعالة مع وصلات متبقية لربط الكيانات الطبية الحيوية. نظرا لخصائص التوصيلية المتناثرة وتقاسم الوزن، يحتوي نموذجنا على عدد صغير من المعلمات وهو فعال للغاية. على خمسة مجموعات بيانات عامة، يحقق نموذجنا القابل للمقارنة أو حتى أفضل ربط بدقة من النماذج القائمة على بيرت من أحدث المعلمات التي تضم حوالي 60 مرة معايير أقل من 60 مرة.
ترجمة المخطط هي مهمة ترجمة رؤوس البيانات الجدولية تلقائيا من لغة إلى أخرى. تلعب ترجمة المخطط عالية الجودة دورا مهما في البحث عبر الجدول عبر اللغات والتفاهم والتحليل. على الرغم من أهميتها، فإن ترجمة المخطط ليست مدروسة بشكل جيد في المجتمع، ولا يمكن أن
تعمل نماذج الترجمة الآلية العصبية في هذه المهمة بشكل جيد في هذه المهمة بسبب اختلافات جوهرتين بين النص العادي والبيانات الجدولة: الفرق المورفولوجي وفرق السياق. لتسهيل الدراسة البحثية، نبني أول مجموعة بيانات متوازية للترجمة المخطط، والتي تتكون من 3،158 طاولة مع 11،979 رئيس مكتوبة في 6 لغات مختلفة، بما في ذلك الإنجليزية والصينية والفرنسية والألمانية والإسبانية واليابانية. أيضا، نقترح نموذج الترجمة المخطط الأول يسمى EAST، وهو نموذج الترجمة العصبي للرأس المعزز مع سياق المخطط. على وجه التحديد، نقوم بالنماذج رأسا مستهدف وسياقه كشركة بيانية موجهة لتمثيل أنواع كيانها وعلاقاتها. ثم يلقي يرميز الرسم البياني مع محول علمي عليري ويستخدم محول آخر لفك تشفير رأس اللغة الهدف. توضح التجارب في مجموعة بياناتنا التي توضح بشكل كبير من نماذج الترجمة الآلية العصبية لحالة الأحوال العصبية. سيتم إصدار DataSet لدينا في https://github.com/microsoft/contextualsp.
تلعب اللغة المختلطة من التعليمات البرمجية دورا حاسما في الاتصالات في المجتمعات متعددة اللغات. على الرغم من أن النمو الأخير لمستخدمي الويب قد عززوا إلى حد كبير استخدام مثل هذه اللغات المختلطة، فإن الجيل الحالي لأنظمة الحوار مونولجة في المقام الأول. هذ
ه الزيادة في استخدام اللغة المختلطة من التعليمات البرمجية قد دفعت أنظمة الحوار بلغة مماثلة. نقدم عملنا في توليد الحوار المختلط من التعليمات البرمجية، وهي مهمة غير مستكشفة في اللغات المختلطة من التعليمات البرمجية، وتوليد الكلام في اللغة المختلطة من التعليمات البرمجية بدلا من لغة واحدة في كثير من الأحيان الإنجليزية فقط. نقدم لجنة اصطناعية جديدة في مزيج التعليمات البرمجية للحوائط، CM-DAYAYDIALOG، عن طريق تحويل كوربوس حوار موجود باللغة الإنجليزية فقط إلى Corpus مختلطة باللغة الهندية. بعد ذلك اقترحنا نهجا أساسيا حيث نظهر فعالية استخدام MBART مثل محولات تسلسل تسلسل متعدد اللغات لتوليد الحوار المختلط. يمكن لأفضل طرازات الحوار الأداء لدينا إجراء محادثات متماسكة في اللغة المختلطة الهندية - الإنجليزية كما تم تقييمها بواسطة المقاييس البشرية والآلية التي تحدد معايير جديدة لمهمة توليد الحوار المختلط من التعليمات البرمجية.
نقوم بالإبلاغ عن تجربة اتفاقية مشتركة بين النقدية التي تنطوي على حالات إعادة استخدام النص التركيز على الحالة المعروفة في التقاطع التوراتي التوراتي في أدب القرون الوسطى. نحن نستهدف التطبيق استخدام حالة علماء الأدبيين هدفهم هو توثيق مثيلات المراجع التو
راتية في جهاز فونيوم فونيوم "من الطبعة الرقمية المحتملة. نقوم بتطوير تنفيذ بايزي ل KAPPA في كوهين للحصول على محنصون متعددين يسمحون لنا بتقييم تأثير الآثار السياقية المختلفة على اتفاقية المعلقين المشترك بين المشتريات، مما يؤدي إلى تقديرات أكثر قوة لمؤشرات الاتفاق وكذلك رؤى في عملية التوضيحية التي تؤدي المؤشرات المقدرة. ونتيجة لذلك، نحن قادرون على إنتاج رواية وإحكام تقدير للاتفاقية المشتركة بين المنشطات في سياق intertextuality، واستكشاف التحديات التي تنشأ من إشراف بيانات مراجع الكتاب المقدس يدويا في كتابات برنارد كليرفو. من بين أمور أخرى، كانت طريقةنا قادرة على الكشف عن حقيقة أن الاتفاقية التي تم الحصول عليها تعتمد اعتمادا كبيرا على كتاب المصدر التوراتي المرجع المقترح، وكذلك الخوارزمية الأساسية المستخدمة لاسترداد مباراة المرشحين.