مساحة جديدة

اشترك بالحزمة الذهبية واحصل على وصول غير محدود شمرا أكاديميا

تسجيل مستخدم جديد

دراسة حول تصنيف النصوص العربية باستخدام الأنطولوجيات

Study about Arabic Text Documents Classification using Ontologies

2721 0 65 0 ( 0 )

تحميل البحث استخدام كمرجع

نشر من قبل جامعة البعث ورقة بحثية

تاريخ النشر 2014

والبحث باللغة العربية

تأليف ريما القمحة( باحث ) - حسام الحمصي( باحث )

تمت اﻹضافة من قبل Shamra Editor

Ontology اللغة العربية Arabic Language semantic web الويب الدلالي Documents classification Text categorization Text mining SVM NB الأنطولوجيا تصنيف المستندات تصنيف النصوص تنقيب النصوص

قم بزيارة صفحتنا على فيسبوك

‎Shamra Academia - شمرا أكاديميا‎

اسأل ChatGPT حول البحث

الملخص بالعربية الملخص بالإنكليزية

نقدم في هذا البحث خوارزمية لتجميع نصوص اللغة العربية. حيث نفذنا الخوارزمية على 5 أنطولوجيات عبر برنامج بلغة الجافا، ثم عالجنا النصوص بحيث حصلنا على 338667 مفردة مع أوزانها المقابلة لكل أنطولوجيا. و قد أثبتت الخوارزمية فعاليتها في تحسين أداء المصنفات التي تم تجربتها في هذه الدراسة و هي (NB,SVM) مقارنة مع نتائج مصنفات اللغة العربية السابقة.

مراجعة الذكاء الصنعي:

قُم بترقية الحساب لمشاهدة المحتوى

ملخص البحث

تقدم هذه الدراسة خوارزمية جديدة لتصنيف النصوص العربية باستخدام الأنطولوجيا. تم تنفيذ الخوارزمية على خمس أنطولوجيات باستخدام لغة البرمجة جافا، وتم معالجة النصوص للحصول على 338667 مغردة مع أوزانها لكل أنطولوجيا. أثبتت الخوارزمية فعاليتها في تحسين أداء المصنفات مثل NB وSVM مقارنة مع نتائج المصنفات السابقة للغة العربية. تم تقسيم النصوص إلى فئات مثل الأخبار، الاقتصاد، الرياضة، العلم والتكنولوجيا، والأماكن والمواقع. تم استخدام محرك بحث Google لجمع النصوص، وتمت معالجة النصوص باستخدام أدوات مثل RapidMiner للحصول على المغردات وأوزانها. تم تدريب واختبار المصنفات باستخدام خوارزميات NB وSVM، حيث أظهرت النتائج أن مصنف SVM حقق أداءً أفضل من مصنف NB. تم تقييم المصنفات باستخدام معايير مثل F-measure، precision، وrecall، حيث حقق مصنف SVM دقة 99.31% بينما حقق مصنف NB دقة 99.00%. توصلت الدراسة إلى أن الخوارزمية المقترحة فعالة في تحسين دقة تصنيف النصوص العربية باستخدام الأنطولوجيا.

قراءة نقدية

دراسة نقدية: تعتبر هذه الدراسة خطوة مهمة في مجال تصنيف النصوص العربية باستخدام الأنطولوجيا، إلا أن هناك بعض النقاط التي يمكن تحسينها. أولاً، تم جمع النصوص باستخدام محرك بحث Google، مما قد يؤدي إلى تضمين نصوص غير ذات صلة بالأنطولوجيا المستهدفة. كان من الممكن تحسين دقة النتائج من خلال مراجعة يدوية للنصوص المسترجعة. ثانياً، لم يتم التطرق إلى تأثير حجم البيانات على أداء المصنفات بشكل كافٍ، حيث تم استخدام 2008 نص فقط. قد يكون من المفيد إجراء تجارب إضافية باستخدام مجموعات بيانات أكبر. أخيراً، يمكن تحسين الخوارزمية من خلال دمج تقنيات تعلم الآلة المتقدمة مثل الشبكات العصبية العميقة لتحسين دقة التصنيف.

أسئلة حول البحث

ما هي الخوارزمية المستخدمة في تصنيف النصوص العربية في هذه الدراسة؟

تم استخدام خوارزمية جديدة لتصنيف النصوص العربية باستخدام الأنطولوجيا، وتم تنفيذها باستخدام لغة البرمجة جافا.
ما هي المصنفات التي تم استخدامها في هذه الدراسة؟

تم استخدام مصنفين هما Naive Bayes (NB) وSupport Vector Machine (SVM).
ما هي دقة المصنفات التي تم تحقيقها في هذه الدراسة؟

حقق مصنف SVM دقة 99.31% بينما حقق مصنف NB دقة 99.00%.
ما هي الفئات التي تم تصنيف النصوص إليها في هذه الدراسة؟

تم تصنيف النصوص إلى فئات مثل الأخبار، الاقتصاد، الرياضة، العلم والتكنولوجيا، والأماكن والمواقع.

كلمات مفتاحية

الأنطولوجيا تصنيف المستندات تصنيف النصوص تتقيب النصوص SVM الويب الدلالي اللغة العربية

المراجع المستخدمة

AL-Ghuribi,S Alshomrani,S. 2014. Bi-languages mining algorithm for classifying text documents (BiLTc), International Jornal of Academic Research Part A Vol. 6 No. 5, 16-25

Gruber,T. 1993. A translation approach to providing portable ontology specifications, Knowledge Acquisition, Vol.5 No 2, 199-220

Hastie,T Tibshirani,R Friedman.J. 2013-The elements of Statistical Learning - Data Mining, Inference, and Prediction. Springer-Verlag, second Ed, Berlin,764p

قيم البحث

3407 - جامعة تشرين 2012 مشروع تخرج

اخترنا في هذا المشروع العمل على تطوير نظام يقوم بتصنيف المستندات العربية حسب محتواها, يقوم هذه النظام بالتحليل اللفظي لكلمات المستند ثم إجراء عملية Stemming"رد الأفعال إلى أصلها" ثم تطبيق عملية إحصائية على المستند في مرحلة تدريب النظام ثم بالاعتماد على خوارزميات في الذكاء الصنعي يتم تصنيف المستند حسب محتواه ضمن عناقيد

Machine learning Nlp Support vector machine fuzzy system Arabic nlp

تصنيف النصوص العربية باستخدام الخصائص العرضية في قواعد البيانات

2284 - جامعة البعث 2016 ورقة بحثية

قدمنا في هذا البحث دراسة مفصلة لطرق التنقيب في البيانات النصية و الإمكانيات المتوفرة في لغة الاستعلام الإجرائية PL/SQL التي تتعامل مع قواعد بيانات أوراكل الغرضية للقيام بذلك. و من ثم قمنا ببناء نموذج تنقيب يعمل على تصنيف وثائق النصوص العربية باست خدام خوارزمية SVM لفهرستها و من ثم تحويلها إلى جداول بيانات مدخلة في جداول الحالة لتصنيفها باستخدام خوارزمية Naïve Bayes و قدمنا الاستنتاجات و التوصيات بعد تقييم النتائج التي حصلنا عليها.

Data Mining Algorithms قواعد البيانات الغرضية الأغراض النصية التنقيب في البيانات النصية خوارزمية التصنيف البيزياني البيانات غير المهيكلة خوارزمية SVM Object Oriented Database Text Objects Data Mining Texts SVM Algorithm Naïve Bayes Algorithm Unstructured Data المزيد..

تحويل النصوص العربية من رموز كتابية

3079 - جامعة دمشق 2003 ورقة بحثية

يعد هذا البحث مرحلة من مراحل بناء نظام تركيب الكلام باللغة العربية، و هي مرحلة تحويل النصوص العربية من رموز كتابية إلى رموز صوتية. جرى في هذه المرحلة بناء نظام متكامل خاص باللغة العربية لإجراء التحويل. اعتمد نظام التحويل من رموز كتابية إلى رموز صو تية أساسًا على بنية النظام Orthographic-Phonetic ) TOPH (Transcription الذي يقوم بتحويل الرموز الكتابية إلى رموز صوتية باللغة الفرنسية، و الذي يعتمد مبدأ استخدام القواعد في ذلك.

من نص إلى صوتي تركيب الكلام Text-to-phoneme Speech synthesis TOPH system

تصنيف الصعوبة التلقائية للجمل العربية

435 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

في هذه الورقة، نقدم مصنف صاعقة صعبة عصرية عربية (MSA) الحديثة، والذي يتوقع صعوبة الجمل المتعلمين في اللغة باستخدام مستويات الكفاءة CEFR أو التصنيف الثنائي بصورة بسيطة أو معقدة.نحن نقارن استخدام تضمين الجملة من أنواع مختلفة (fastlext، mbert، xlm-r وال عربية-bert)، وكذلك ميزات اللغة التقليدية مثل علامات نقاط البيع وأشجار التبعية وعشرات قابلية القراءة وقوائم التردد لمتعلمي اللغة.تم تحقيق أفضل النتائج لدينا باستخدام Brited Berted Berted Bert.دقة تصنيف CEFR الخاص بنا ثلاثي الاتجاه هو F-1 من 0.80 و 0.75 للتصنيف باللغة العربية-Bert و XLM-R على التوالي و 0.71 ارتباط سبيرمان للانحدار.يصل مصنف صعوبةنا الثنائية إلى F-1 0.94 و F-1 0.98 للقراءة الدلالية للقرن.

اللغة العربية المدربة مسبقا automatic difficulty classification standard arabic تصنيف صعوبة التلقائي عربي قياسي صناعة حمض الفوسفور

كشف حالات الإنتحال في النصوص المدونة باللغة العربية بالإعتماد على السلاسل اللغوية

823 - جامعة صفاقس 2011 ورقة بحثية

يندرج هذا البحث في إطار الكشف الآلي لعمليات الإنتحال في النصوص المدوّنة باللغة العربية وتقدّم هذه الورقة طريقة مبتكرة تعتمد على استخراج الكلمات الهامة في النص المراد كشفه ومن ثمّ تكوين سلاسل لغوية حسب تواترها في النص. وباستعمال محركات البحث يمكن التث بت من وجود هذه السلاسل اللغوية في نصوص أخرى. في مرحلة ثانية قمنا باستعمال الترجمة الآلية للسلاسل اللغوية قصد استخراج السلاسل المرادفة باللغة الإنجليزية ومن ثمّ استعمال محركات البحث لاستخراج النصوص المدوّنة باللغة الإنجليزية والتي تتطابق مع السلاسل بعد ترجمتها. وتقدّم هذه الورقة العلمية برنامج الكاشف وهو برنامج لكشف حالات الإنتحال وقد قمنا بتقييم البرنامج على مدونة من النصوص العربية وأبرزت النتائج كفاءة الطريقة المتبعة

معالجة اللغات الطبيعية كشف الانتحال الانتحال العلمي الكشف الآلي للإنتحال السلاسل اللغوية

الأسئلة المقترحة

ماهو الوب الدلالى ؟

928 - 0 - - Shamra Editor تم طرحه بمساحة ( الهندسة المعلوماتية)

semantic web الويب الدلالي

سجل دخول لتتمكن من نشر تعليقات

التعليقات

جاري جلب التعليقات

سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها

جامعة الرشيد الدولية الخاصة للعلوم والتكنولوجيا

تفاصيل إضافية المزيد من الجامعات

يمكنك البدء بجني المال وتحقيق ربح مادي من أبحاثك العلمية، المزيد

دراسة حول تصنيف النصوص العربية باستخدام الأنطولوجيات

Study about Arabic Text Documents Classification using Ontologies

اسأل ChatGPT حول البحث

اقرأ أيضاً

الأسئلة المقترحة