يندرج هذا البحث في إطار الكشف الآلي لعمليات الإنتحال في النصوص المدوّنة باللغة العربية وتقدّم هذه الورقة طريقة مبتكرة تعتمد على استخراج الكلمات الهامة في النص المراد كشفه ومن ثمّ تكوين سلاسل لغوية حسب تواترها في النص. وباستعمال محركات البحث يمكن التثبت من وجود هذه السلاسل اللغوية في نصوص أخرى.
في مرحلة ثانية قمنا باستعمال الترجمة الآلية للسلاسل اللغوية قصد استخراج السلاسل المرادفة باللغة الإنجليزية ومن ثمّ استعمال محركات البحث لاستخراج النصوص المدوّنة باللغة الإنجليزية والتي تتطابق مع السلاسل بعد ترجمتها. وتقدّم هذه الورقة العلمية برنامج الكاشف وهو برنامج لكشف حالات الإنتحال وقد قمنا بتقييم البرنامج على مدونة من النصوص العربية وأبرزت النتائج كفاءة الطريقة المتبعة
This paper deals with automatic detection of plagiarism in Arabic documents. We present in this paper a new idea based on the experimentation of lexical chains. The proposed method extracts those chains from original document and uses a search engine to verify if such chains occur in other documents. The second step in our methods uses automatic translation system to translate lexical chains and verify by using search engine if those chain occurs in document in other languages. Then we compute a correlation ratio between lexical chains and lexical chains extracted from documents provided by the search engine to detect plagiarism in the original document.
We present in the end of this paper our prototype called « Alkachef » developed to detect plagiarism in Arabic document .
المراجع المستخدمة
Belguith L., Baccour L., Mourad G., “Segmentation de textes arabes basée sur l'analyse contextuelle des signes de ponctuations et de certaines particules”, Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles TALN’2005, , Vol. 1, p. 451–456.Dourdan France, 6–10, Juin 2005.
Morris, J., Hirst G., “Lexical cohesion computed by thesaural relations as an indicator of the structure of text”. in Computational Linguistics 17(1): pp. 21 43, 1991
Seaward L., Matwin S., Intrinsic Plagiarism Detection using Complexity Analysis”, in PAN'09, pp. 56-61, 2009.