نتيجةً للتطور الهائل في العلوم والتكنولوجيا، والانتشار الواسع للإنترنت، باتت المعرفة البشرية في متناول كل شخص منا. لكن ومع هذا الكم الهائل من المعلومات، اصبح القارئ مشتتا بين مصادر عديدة تجعله يضيع في هذا الفضاء الواسع. انفجار المعلومات هذا تطلب وسائل للسيطرة عليه تقوم بتنظيم هذه المعلومات وترتيبها تحت عناوين عريضة، وتتتبعها. من هنا بدء المجتمع التقني بالاتجاه نحو مجال جديد اطلق عليه اسم اكتشاف الموضوع وتتبعه. يطبق هذا المفهوم بشكل واسع في مجال شبكات التواصل الاجتماعي، الاخبار، المقالات العلمية وغيرها الكثير. ففي مجال الاخبار كثيرا ما ترى آلاف وكالات الاخبار تبث عشرات الاف القصص الاخبارية حول نفس الحدث، ما دفع البوابات الاخبارية وفي مقدمتها Google news لتطبيق نظام اكتشاف للموضوع وتتبعه. يعنى هذا النظام بمجموعة من المهام المعرفة من قبل منظمة DARPA، أولها مراقبة سيل من القصص النصية المتصلة لمعرفة الحدود الفاصلة بين كل قصة والاخرى، وتدعى تقطيع القصص، ثانيها مهمتها الاجابة على السؤال: هل تناقش قصتان معطاتان نفس الموضوع او الحدث؟ وتدعى اكتشاف الصلة. ثالثها معنية بمراقبة سيل من القصص لاكتشاف تلك التي تناقش موضوعا معرفا من قبل المستخدم، وتدعى بتتبع الموضوع. رابعها تهتم بالتعرف على القصص التي تناقش احداثا جديدة فور وصولها، وتدعى اكتشاف القصة الاولى. واخرها تدعى اكتشاف الموضوع، وهي مسؤولة عن فصل مجموعة من القصص المختلطة الى مواضيع، بدون اي معرفة مسبقة بهذه المواضيع، اي تجميع القصص التي تناقش موضوعا واحدا في نفس العنقود. نعمل من خلال هذا المشروع على تطبيق المهام الاربع الاخيرة وتقييمها. يتم استلام القصص في الزمن الحقيقي، اجراء معالجة مسبقة عليها (معالجة لغوية وغير ذلك)، ثم يتم تمثيل القصص بشكل اشعة وتوزين كلمات كل قصة، يتم بعدها اختيار مجموعة كلمات لتمثيل القصة. اما تمثيل المواضيع فنختبر اشكالا مختلفة، كالتمثيل الشعاعي او التمثيل بالقصص وغير ذلك. نناقش خلال هذا المشروع ايضاً استخدام معايير مختلفة لتمثيل القصص وقياس تشابهها، ونختبر استخدام عنوان القصة وتاريخها كمميزات بالإضافة الى مجموعة الكلمات. كما ونتحدث عن منهج خاص بنا لتقييس التشابهات بين القصص والتخفيف من تأثير عمليات اختيار العتبات في النظام، ونعرض التحسينات المذهلة التي يبديها هذا المنهج، والتي تمكن من بناء نظام اكتشاف موضوع وتتبعه، دون القلق حول تحديد العتبة اطلاقا، والذي لطالما كان يمثل التحدي الاكبر لهذا النوع من الانظمة. نتحدث عن تطبيقنا لخوارزميات العنقدة الاكثر تطورا في مهمة اكتشاف الموضوع، ونعرض كيفية قيامنا بتعديل مصفوفة التجاذب في خوارزمية العنقدة الطيفية المطروحة واستخدام طريقة تقييس مختلفة تم تكييفها مع حالة نظامنا، والتي ادت الى تحسين اداء العنقدة من 0.89 الى 0.97 مقاسا على F-measure