نقدم في هذا البحث خوارزمية لتجميع نصوص اللغة العربية. حيث نفذنا الخوارزمية
على 5 أنطولوجيات عبر برنامج بلغة الجافا، ثم عالجنا النصوص بحيث حصلنا على
338667 مفردة مع أوزانها المقابلة لكل أنطولوجيا. و قد أثبتت الخوارزمية فعاليتها في تحسين أداء المصنفات التي تم تجربتها في هذه الدراسة و هي (NB,SVM) مقارنة مع نتائج مصنفات اللغة العربية السابقة.
In this paper, we introduce an algorithm for grouping Arabic
documents for building an ontology and its words. We execute
the algorithm on five ontologies using Java. We manage the
documents by getting 338667 words with its weights
corresponding to each ontology. The algorithm had proved its
efficiency in optimizing classifiers (SVM, NB) performance, which
we tested in this study, comparing with former classifiers results
for Arabic language.
المراجع المستخدمة
AL-Ghuribi,S Alshomrani,S. 2014. Bi-languages mining algorithm for classifying text documents (BiLTc), International Jornal of Academic Research Part A Vol. 6 No. 5, 16-25
Gruber,T. 1993. A translation approach to providing portable ontology specifications, Knowledge Acquisition, Vol.5 No 2, 199-220
Hastie,T Tibshirani,R Friedman.J. 2013-The elements of Statistical Learning - Data Mining, Inference, and Prediction. Springer-Verlag, second Ed, Berlin,764p
اخترنا في هذا المشروع العمل على تطوير نظام يقوم بتصنيف المستندات العربية حسب محتواها, يقوم هذه النظام بالتحليل اللفظي لكلمات المستند ثم إجراء عملية Stemming"رد الأفعال إلى أصلها" ثم تطبيق عملية إحصائية على المستند في مرحلة تدريب النظام ثم بالاعتماد
قدمنا في هذا البحث دراسة مفصلة لطرق التنقيب في البيانات النصية
و الإمكانيات المتوفرة في لغة الاستعلام الإجرائية PL/SQL التي تتعامل مع قواعد بيانات
أوراكل الغرضية للقيام بذلك. و من ثم قمنا ببناء نموذج تنقيب يعمل على تصنيف وثائق
النصوص العربية باست
يعد هذا البحث مرحلة من مراحل بناء نظام تركيب الكلام باللغة العربية، و هي مرحلة تحويل
النصوص العربية من رموز كتابية إلى رموز صوتية.
جرى في هذه المرحلة بناء نظام متكامل خاص باللغة العربية لإجراء التحويل. اعتمد نظام التحويل
من رموز كتابية إلى رموز صو
في هذه الورقة، نقدم مصنف صاعقة صعبة عصرية عربية (MSA) الحديثة، والذي يتوقع صعوبة الجمل المتعلمين في اللغة باستخدام مستويات الكفاءة CEFR أو التصنيف الثنائي بصورة بسيطة أو معقدة.نحن نقارن استخدام تضمين الجملة من أنواع مختلفة (fastlext، mbert، xlm-r وال
يندرج هذا البحث في إطار الكشف الآلي لعمليات الإنتحال في النصوص المدوّنة باللغة العربية وتقدّم هذه الورقة طريقة مبتكرة تعتمد على استخراج الكلمات الهامة في النص المراد كشفه ومن ثمّ تكوين سلاسل لغوية حسب تواترها في النص. وباستعمال محركات البحث يمكن التث