ترغب بنشر مسار تعليمي؟ اضغط هنا

أنظمة تركيب الكلام

1575   0   99   0 ( 0 )
 تاريخ النشر 2018
والبحث باللغة العربية
 تمت اﻹضافة من قبل Adel Arar




اسأل ChatGPT حول البحث

يعتبر تركيب الكلام بشكل آلي من أهم المسائل المطروحة في الذكاء الصنعي منذ بداياته، حيث تتزايد الحاجة لأنظمة تركيب كلام مستقرة بحيث تنتج خطاباً ذكياً مع كيفية الكلام الطبيعي. تركيب الكلام speech synthesis يعتبر الأهم في تصنيع آلات متحدثة قادرة على التواصل مع الإنسان بطريقة فعالة وبسيطة، سواء في أنظمة الحوار الآلي Auto dialogue systems، توليد آلي للكتب الصوتية Auto generating of Audio books، متحدث مساعد لذوي الاحتياجات الخاصة different able humans، وغير ذلك من الأنظمة التي تحتاجها البشرية اعتماداً على معالجة اللغات الطبيعيةNatural language processing وفهم الكلام Language Understanding في سبيل خدمة التواصل بين الآلة والإنسان Human-computer Interaction.


ملخص البحث
تتناول هذه المقالة أنظمة تركيب الكلام (Text To Speech - TTS) وتقدم مقدمة شاملة لأحدث التقنيات المستخدمة في هذا المجال. تبدأ المقالة بوصف موجز لنظام TTS العام، ثم تقدم رسمًا تخطيطيًا وظيفيًا لنظام TTS الحديث مع تسليط الضوء على مكوناته المختلفة. يتم التركيز على معالجة اللغة الطبيعية ومشاكل معالجة الإشارات الرقمية، بالإضافة إلى دراسة النماذج المختلفة لتركيب الكلام منذ بداياتها وحتى الأنظمة الأكثر تطورًا. تشمل المقالة أيضًا دراسة حول كيفية حساب التنغيم والمدة بشكل تقريبي، وتقدم فئتين رئيسيتين من تقنيات توليد الأشكال الموجية: التركيب عن طريق القواعد والتركيب التركيبي. الهدف الرئيسي من أنظمة التركيب هو توليد صوت طبيعي من خلال بناء نماذج صوتية أفضل من حيث التنغيم وتحديد الكلام الأهم في الجملة المكتوبة. تتناول المقالة أيضًا التطبيقات الممكنة لتوليد المقاطع الصوتية المناسبة وتوضح كيف يمكن حساب التنغيم والمدة بشكل تقريبي. يتم تقديم تحليل مفصل لمراحل تركيب الكلام، بدءًا من معالجة النص المدخل وحتى الوصول إلى الشكل المنطوق من المحارف، مع التركيز على التحليل النصي والمحرفي، توليد التنغيم، وتركيب الإشارة الصوتية المطلوبة. يتم استعراض منهجيات مختلفة لتوليد الإشارة الصوتية، بما في ذلك النماذج المعتمدة على الفلاتر الصوتية، والنماذج المعتمدة على التقريب للإشارة الصوتية للمحارف، والنماذج المعتمدة على اختيار الوحدات الصوتية، والمنهجيات الهجينة التي تجمع بين التعلم العميق واختيار الوحدات الصوتية. المقالة تتضمن أيضًا دراسة مرجعية لأنظمة تركيب الكلام والطرق المتبعة على اختلافها، مع التركيز على تحسين جودة الصوت الناتج وتقليل الأخطاء في النتيجة النهائية للنظام.
قراءة نقدية
دراسة نقدية: تقدم المقالة نظرة شاملة ومفصلة لأنظمة تركيب الكلام وتغطي العديد من الجوانب التقنية المتعلقة بها. ومع ذلك، يمكن أن تكون المقالة معقدة بعض الشيء للقارئ غير المتخصص في هذا المجال، حيث تحتوي على العديد من المصطلحات التقنية والتفاصيل الدقيقة. كان من الممكن تقديم بعض الأمثلة العملية والتطبيقات الواقعية لتوضيح الفوائد العملية لأنظمة تركيب الكلام بشكل أفضل. بالإضافة إلى ذلك، يمكن أن تكون المقالة أكثر تفاعلية من خلال تضمين رسوم بيانية تفاعلية أو مقاطع فيديو توضيحية لشرح بعض المفاهيم بشكل أكثر وضوحًا. على الرغم من ذلك، فإن المقالة تعتبر مرجعًا قيمًا للباحثين والمهتمين بمجال تركيب الكلام وتقنياته المختلفة.
أسئلة حول البحث
  1. ما هو الهدف الرئيسي من أنظمة تركيب الكلام؟

    الهدف الرئيسي من أنظمة تركيب الكلام هو توليد صوت طبيعي من خلال بناء نماذج صوتية أفضل من حيث التنغيم وتحديد الكلام الأهم في الجملة المكتوبة.

  2. ما هي الفئتان الرئيسيتان لتقنيات توليد الأشكال الموجية؟

    الفئتان الرئيسيتان لتقنيات توليد الأشكال الموجية هما التركيب عن طريق القواعد والتركيب التركيبي.

  3. ما هي التحديات الرئيسية في أنظمة تركيب الكلام؟

    التحديات الرئيسية في أنظمة تركيب الكلام تشمل معالجة الغموض في جميع مراحل معالجة اللغات ومعالجة الإشارة، وتراكب الأخطاء الذي يؤدي غالبًا إلى زيادة الأخطاء في النتيجة النهائية للنظام.

  4. ما هي منهجيات تركيب الإشارة الصوتية التي تم استعراضها في المقالة؟

    تم استعراض عدة منهجيات لتركيب الإشارة الصوتية في المقالة، بما في ذلك النماذج المعتمدة على الفلاتر الصوتية، والنماذج المعتمدة على التقريب للإشارة الصوتية للمحارف، والنماذج المعتمدة على اختيار الوحدات الصوتية، والمنهجيات الهجينة التي تجمع بين التعلم العميق واختيار الوحدات الصوتية.


المراجع المستخدمة
X. huang, . A. Acero and H. W. Hon, "Text-to-speech systems," in Spoken language processing, 2001, pp. 686 -840.
N. Halabi, "Modern Standard Arabic Phonetics for Speech Synthesis," UNIVERSITY OF SOUTHAMPTON, SOUTHAMPTON-United Kingdom, 2016.
R. Vanderslice, "Synthetic Elocution: Considerations in Automatic Orthographic-toPhonetic Conversion of English with Special Reference to Prosody," 1968.
N. G. M. A. Z. S. A.-M. Omayma Al-Dakkak, "EMOTION INCLUSION IN AN ARABIC TEXT-TO-SPEECH," in Signal Processing Conference, 2005 13th European, Antalya, Turkey, 2005.
J. L. A. Iain R. Murray, "Toward the simulation of emotion in synthetic speech: A review of the literature on human vocal emotion," The Journal of the Acoustical Society of America, 1993.
P. S. a. K. Rao, "Modeling pauses for Synthesis of storytelling style speech using unsupervised word features," in Second International Symposium on Computer Vision And the internet, Bengal, India, 2015.
K. Y. W. a. T. Takara, "Myanmar text-to-speech system with rule-based tone synthesis," Department of Information Engineering, University of the Ryukyus, Japan, 2011.
D. G. M. Taya, "Towards Expressive Arabic Text to Speech," FACULTY OF ENGINEERING, CAIRO UNIVERSITY, GIZA, EGYPT, 2014.
P. Taylor, "Text-to-speech synthesis," Cambridge University Press, Cambridge, United Kingdom, 2009.
S. O. Arık, M. Chrzanowski, A. Coates, G. Diamos, A. Gibiansky, Y. Kang, X. Li, J. Miller, J. Raiman, S. Sengupta and M. Shoeybi, "Deep Voice: Real-time Neural Text-to-Speech," Baidu Silicon Valley Artificial Intelligence Lab,, 2017.
P. C. A. C. L. G. A. H. Q. H. N. H. M. H. J. L. M. N. K. P. T. R. R. R. G. T. B. W. D. W. Z. W. H. Z. T. Capes, "Siri On-Device Deep Learning-Guided Unit Selection Text-to-Speech System," in Interspeech, 2017.
J. Yamagishi, "An introduction to hmm-based speech synthesis," Tokyo Institute of Technology, Tokyo, Japan, 2006.
T. N. J. Y. S. S. T. M. A. W. B. e. a. H. Zen, "The HMMbased speech synthesis system (HTS) version 2.0," in SSW,pp.294-299, 2007.
T. F. D. MÁSTER, "Design and test of an Expressive Speech Synthesis System"
S. D. H. Z. ,. S. O. V. ,. G. K. A. S. K. K. Aaron van den Oord, "WAVENET: A GENERATIVE MODEL FOR RAW AUDIO," Google DeepMind, Google, London, UK, 2016.
قيم البحث

اقرأ أيضاً

تصف الورقة أنظمة ترجمة الكلام (ST) ولكن الإنجليزية إلى الألمانية. وهي تستند إلى نماذج الترجمة الآلية المعرونة التي تم تدريبها بشكل مشترك. يتم تقييم أدائها على مجموعة اختبار MUSTC المشتركة. في هذا العمل، ندرس كفاءتها من وجهة نظر وجود كمية كبيرة من بيا نات التدريب ASR المنفصلة وبيانات التدريب MT، وكمية أصغر من بيانات التدريب على الكلام. يتم استخدام كميات كبيرة من البيانات التدريبية ASR و MT لتدريب نماذج ASR و MT مسبقا. يتم استخدام بيانات الترجمة من الكلام لتحسين نماذج ASR-MT بشكل مشترك عن طريق تحديد مسار قابل للتطبيق من الكلام من الكلام إلى الترجمات. لهذا الغرض، نستخدم التمثيلات المستمرة الداخلية من وحدة فك ترميز ASR كدخل إلى وحدة MT. نظرا لأن ترجمة الكلام يمكن تحسينها من خلال تدريب وحدة فك الترميز العادية بالاشتراك مع وحدة MT-Module باستخدام كمية كبيرة من بيانات التدريب فقط MT فقط. نعرض أيضا تحسينات كبيرة من خلال تدريب وحدة ASR القادرة على توليد نص مخلوق، بدلا من مغادرة مهمة علامات الترقيم إلى وحدة MT.
توضح هذه الورقة التقديم إلى المهمة المشتركة لخطوط خطاب IWSLT 2021 من قبل فريق IMS.نستخدم النماذج الحديثة من النماذج المشتركة مع العديد من أساليب تكبير البيانات ومتعدد المهام والنقل مناهج للتعرف على الكلام التلقائي (ASR) وخطوات الترجمة الآلية (MT) لنظ امنا المتتالي.علاوة على ذلك، فإننا نستكشف أيضا جدوى نموذج ترجمة خط الكلام (ST) بالكامل في حالة كمية مقيدة للغاية من الحقيقة الأرضية المصنفة.يحقق أفضل نظامنا أفضل أداء بين جميع الأنظمة المقدمة للسواحيلية للإنجليزية والفرنسية مع درجات بلو 7.7 و 13.7 على التوالي، وثاني أفضل نتيجة للسواحيلية السواحلية إلى الإنجليزية مع النتيجة بلو 14.9.
تعد تقنيات التعرف على الكلام من أهم التقنيات الحديثة التي دخلت بقوة في مجالات الحياة المختلفة سواء الطبية أو الأمنية أو الصناعية. و بناءً عليه تم تطوير العديد من الأنظمة المعتمدة على طرق مختلفة في استخلاص السمات و التصنيف. في هذا البحث تم إنشاء ثلاث ة أنظمة للتعرف على الكلام، تختلف عن بعضها البعض بالطرق المستخدمة في مرحلة استخلاص السمات، حيث استخدم النظام الأول خوارزمية MFCC بينما استخدم النظام الثاني خوارزمية LPCC أما النظام الثالث فاستخدم خوارزمية PLP. تشترك هذه الأنظمة بطريقة التصنيف حيث استخدمت خوارزمية الـHMM كمصنف. في البداية تم دراسة و تقييم أداء عملية التعرف على الكلام للأنظمة الثلاثة السابقة المقترحة منفردةً. بعد ذلك تم تطبيق خوارزمية الجمع على كل زوج من الأنظمة المدروسة و ذلك لدراسة أثر خوارزمية الجمع في تحسين التعرف على الكلام. تم اعتماد نوعين من الأخطاء، الأخطاء التزامنية (simultaneous errors) و الأخطاء الاعتمادية ((dependent errors، كوحدة مقارنة لدراسة فعالية خوارزمية الجمع في تحسين أداء عملية التعرف على الكلام. يتبين من نتائج المقارنة أن أفضل نسبة تعرف على الكلام تم الحصول عليها في حالة جمع الخوارزميتان MFCC و PLP حيث تم الحصول على معدل تعرف 93.4%.
في حين أن التعرف على الكيان المسمى (NER) من الكلام كان موجودا طالما أن NER من نص مكتوب لديه، فإن دقة NER من الكلام كانت أيضا أقل بكثير من NER من النص. يبرز ارتفاع شعبية أنظمة الحوار المنطوقة مثل Siri أو Alexa الحاجة إلى أكثر دقة من الكلام من الكلام ل أن NER هو مكون أساسي لفهم ما قاله المستخدمون في الحوار. تتلقى أنظمة الحوار المنطوقة المنطوقة إدخال المستخدم في شكل نصوص التعرف على الكلام التلقائي (ASR)، وببساطة تطبيق نموذج NER المدربين على النص المكتوب إلى نصوص ASR غالبا ما يؤدي إلى دقة منخفضة لأنها مقارنة بالنص المكتبكي، تفتقر نصوص ASR إلى إشارات مهمة مثل علامات الترقيم والرسملة. علاوة على ذلك، فإن الأخطاء في نصوص العصر تجعل أيضا NER من الكلام الصعب. نقترح نماذجين تستغلوا أدلة سياق الحوار ونمط الكلام لاستخراج الكيانات المسماة بدقة أكثر دقة من مربعات الحوار المفتوحة في أنظمة الحوار المنطوقة. تظهر نتائجنا الاستفادة من سياق حوار النمذجة وأنماط الكلام في إعدادتين: إعداد قياسي مع قسم عشوائي من البيانات وأكثر واقعية من الإعداد ولكن أيضا أكثر صعوبة حيث تكون العديد من الكيانات المسماة التي تمت مواجهتها أثناء النشر غير مرئي أثناء التدريب.
اكتسبت النماذج المستندة إلى المحولات شعبية متزايدة تحقق الأداء الحديث في العديد من مجالات البحث بما في ذلك ترجمة الكلام. ومع ذلك، فإن التعقيد التربيعي للمحول فيما يتعلق بديل تسلسل الإدخال يمنع اعتماده كما هو الحال مع إشارات صوتية، والتي تمثل عادة بال تسلسلات الطويلة. اللجوء الحلول الحالية إلى ضغط أساسي أساسي على أساس أخذ العينات الثابتة لميزات الصوت الخام. لذلك، فإن المعلومات اللغوية المفيدة المحتملة غير قابلة للوصول إلى طبقات أعلى مستوى في الهندسة المعمارية. لحل هذه المشكلة، نقترح الكلمة، وهي عبارة عن بنية، بفضل انخفاض استخدام الذاكرة في طبقات الاهتمام، وتجنب ضغط المخلفات الأولية والمعلومات المجامعة فقط على مستوى أعلى وفقا لمعايير لغوية أكثر استنارة. تظهر التجارب على ثلاث أزواج اللغات (en → de / es / nl) فعالية حلنا، مع مكاسب تصل إلى 0.8 بلو على Corpus القياسية يجب أن تكون ميديا ​​وعلى ما يصل إلى 4.0 بلو في سيناريو منخفض الموارد.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا