ان اختيار الوسيلة المناسبة يعتمد على طبيعة البيانات تحت الدراسة وعلى حجمها يمكن اجراء عملية التنقيب في البيانات بالمقارنة مع سوق البيانات ومخزن البيانات.
أهم طرق تنقيب البيانات
تستخدم خوارزميات التجميع على نطاق واسع وليس فقط لتنظيم وتصنيف البيانات ولكن لضغط البيانات وبناء نموذج ترتيب البيانات، حيث أنه اذا كان بأمكاننا ان نجد تجمعات من البيانات فانه بالامكان بناء نموذج للمشكلة على اساس تلك التجمعات.
العنقدة هي أيضا عملية تقسيم البيانات إلى مجموعة من الأصناف اعتمادا على اشتراكها بالخواص المتشابهة وان العنتقدة هي تقسيم غير موجه للبيانات. وهي عكس التصنيف كما انها تساعد المستفيد على فهم التركيب الطبيعي للمجموعات من البيانات.
اما الطريقة الثانية فهي عملية العنقدة الجزئية وهي من اهم طرق العنقدة وهذه الطريقة تفترض ان كل العناصر الموجودة عبارة عن مجموعة واحدة ومن ثم تختار عنصرين بصورة عشوائية وترى قياس التشابه بين العنصرين واكبر العناصر تشابها هي التي تنقسم وهكذا تتوالي الانقسامات الى ان تصل لعدد الانقسامات المطلوبة واشهر أمثلتها هي خوارزمية K Means