‫‌بندی‬
‫ه‬‫خوش‬
‫دکتر‌مهدی‌غضنفری‬
‫صبا‌عندلیب‬
‫عرفان‌واعظ‌تهرانی‬
‫دانشگاه‌علم‌و‌صنعت‌ایران‬
‌‫‌سال‌دوم‬
‫م‬‫نی‬
۱۳۹۹-۱۴۰۰
Clustering
10
‌‫‌های‬
‫ه‬‫فرض‌کنید‌به‌مجموعه‌کامل‌داد‬
‌‫‌ای‬
‫ه‬‫یک‌فروشگاه‌زنجیر‬
‌‫دسترسی‌دارید‌و‌از‌شما‌خواسته‬
‫‌درباره‌سواالتی‌تحقیق‌کنید‬،‫‌شود‬
‫ی‬‫م‬
.
‫درباره‌هر‌سوال‌فکرکنید‬
.
‫‌گیرید؟‬
‫ی‬‫چه‌رویکردی‌برای‌حل‌مسئله‌در‌پیش‌م‬
!
‫کنیم‬ ‫فکر‬
!
9
‌‫انبارهای‌داده‌و‌داده‌کاوی‬
–
‌‫دکتر‌مهدی‌غضنفری‬
–
‌‫‌سال‌دوم‬
‫م‬‫نی‬
۱۳۹۹-۱۴۰۰
10
‌‫هر‌اطالعاتی‌برای‌شما‌قابل‬
‫فراخوانی‌است‬
!
‫اما‌قبل‌از‌هرکاری‌الزم‌است‌فکر‬
‫کنید‌که‌برای‌حل‌مسئله‌به‌چ‬
‌‫ه‬
‫اطالعاتی‌نیاز‌دارید‌؟‬
‌‫‌های‌یک‌فروشگاه‬
‫ه‬‫داد‬
‫‌ای‬
‫ه‬‫زنجیر‬
‫مقدمه‬
‫اول‬ ‫مرحله‬
:
‫کنید‬ ‫جدا‬ ‫را‬ ‫نیازتان‬ ‫مورد‬ ‫اطالعات‬
!
9
‌‫انبارهای‌داده‌و‌داده‌کاوی‬
–
‌‫دکتر‌مهدی‌غضنفری‬
–
‌‫‌سال‌دوم‬
‫م‬‫نی‬
۱۳۹۹-۱۴۰۰
‫تراکنش‬ ‫مشتری‬ ‫کاالها‬ ‫زمان‬ ‫شعبه‬
‌‫امتیاز‬
‫مشتری‬
‌‫ارزش‬
‫خرید‬
‫تخفیف‬
TID1 98av A,Z,K 8311 ‫هروی‬ 3 90 9
TID54 78fv R,O 11230 ‫صادقیه‬ 9 10 1
TID65 98bn P,G,A 55532 ‫تهرانس‬
‫ر‬ 4 23 14
… … … … … … … …
TID34 67qw O,I,J,L 44321 ‫هروی‬ 2 800 79
10
‫دهید؟‬‫می‬ ‫پیشنهاد‬ ‫رویکردی‬ ‫چه‬ ‫زیر‬ ‫ی‬‫مسئله‬ ‫حل‬ ‫برای‬
9
‌‫انبارهای‌داده‌و‌داده‌کاوی‬
–
‌‫دکتر‌مهدی‌غضنفری‬
–
‌‫‌سال‌دوم‬
‫م‬‫نی‬
۱۳۹۹-۱۴۰۰
6
1
‫که‬ ‫صورت‬ ‫این‬ ‫به‬ ‫کنیم‬ ‫طراحی‬ ‫ها‬‫فروشگاه‬ ‫در‬ ‫موجود‬ ‫کاالهای‬ ‫اقالم‬ ‫برای‬ ‫بهینه‬ ‫چیدمان‬ ‫خواهیم‬‫می‬
:
1
-
‫کنند‬ ‫پیدا‬ ‫ممکن‬ ‫زمان‬ ‫کمترین‬ ‫در‬ ‫را‬ ‫نیازشان‬ ‫مورد‬ ‫کاالهای‬ ‫ها‬‫مشتری‬
.
2
-
‫رش‬ ‫و‬ ‫شده‬ ‫جلب‬ ‫نیز‬ ‫ها‬‫آن‬ ‫به‬ ‫توجهشان‬ ‫ها‬‫مشتری‬ ‫تا‬ ‫شوند‬ ‫عرضه‬ ‫مناسب‬ ‫محل‬ ‫در‬ ،‫شده‬ ‫کمترشناخته‬ ‫کاالهای‬
‫د‬
‫باشیم‬ ‫داشته‬ ‫فروش‬
.
‫دهید؟‬‫می‬ ‫پیشنهاد‬ ‫راهکاری‬ ‫چه‬
10
•
‫کدام‬
‫کاالها‬
‫معموال‬
‫با‬
‫هم‬
‫خریداری‬
‫‌شوند؟‬
‫ی‬‫م‬
•
‫کدام‬
‫کاالها‬
‫در‬
‫کدام‬
‫فروشگاهها‬
‫بیشتر‬
‫خریداری‬
‫‌شود؟‬
‫ی‬‫م‬
•
...
‌‫اطالعات‌یک‌فروشگاه‬
‫‌ای‬
‫ه‬‫زنجیر‬
‫مقدمه‬
‫پنهان‬ ‫الگوهای‬ ‫یافتن‬
9
‌‫انبارهای‌داده‌و‌داده‌کاوی‬
–
‌‫دکتر‌مهدی‌غضنفری‬
–
‌‫‌سال‌دوم‬
‫م‬‫نی‬
۱۳۹۹-۱۴۰۰
10
‫دهید؟‬‫می‬ ‫پیشنهاد‬ ‫رویکردی‬ ‫چه‬ ‫زیر‬ ‫ی‬‫مسئله‬ ‫حل‬ ‫برای‬
9
‌‫انبارهای‌داده‌و‌داده‌کاوی‬
–
‌‫دکتر‌مهدی‌غضنفری‬
–
‌‫‌سال‌دوم‬
‫م‬‫نی‬
۱۳۹۹-۱۴۰۰
6
2
‫ت‬ ‫را‬ ‫بعد‬ ‫ماه‬ ‫در‬ ،‫آن‬ ‫به‬ ‫شده‬ ‫داده‬ ‫تخصیص‬ ‫بودجه‬ ‫مقدار‬ ‫کاال‬ ‫باکد‬ ‫هر‬ ‫برای‬ ،‫گذشته‬ ‫اطالعات‬ ‫مبنای‬ ‫بر‬ ‫خواهیم‬‫می‬
‫خمین‬
‫باشیم‬ ‫داشته‬ ‫را‬ ‫خسارت‬ ‫و‬ ‫خطا‬ ‫کمترین‬ ‫که‬ ‫ای‬‫گونه‬ ‫به‬ ‫بزنیم‬
.
‫دهید؟‬‫می‬ ‫پیشنهاد‬ ‫راهکاری‬ ‫چه‬
10
‫دهید؟‬‫می‬ ‫پیشنهاد‬ ‫رویکردی‬ ‫چه‬ ‫زیر‬ ‫ی‬‫مسئله‬ ‫حل‬ ‫برای‬
9
‌‫انبارهای‌داده‌و‌داده‌کاوی‬
–
‌‫دکتر‌مهدی‌غضنفری‬
–
‌‫‌سال‌دوم‬
‫م‬‫نی‬
۱۳۹۹-۱۴۰۰
6
3
‫محصول‬
‫جدیدی‬
‫توسط‬
‫ای‬‫تولیدکننده‬
‫تولید‬
‫شده‬
‫است‬
.
‫خواهیم‬‫می‬
‫نقطه‬
‫سفارش‬
‫محصول‬
‫را‬
‫تعیین‬
‫کنیم‬
.
‫ب‬
‫رای‬
‫اینکارنیاز‬
‫به‬
‫بینی‬‫پیش‬
‫تقاضای‬
‫این‬
‫محصول‬
،‫داریم‬
‫در‬
‫حالی‬
‫که‬
‫اطالعاتی‬
‫از‬
‫فروش‬
‫گذشتۀ‬
‫محصول‬
‫در‬
‫دست‬
‫رس‬
‫نیست‬
.
‫دهید؟‬‫می‬ ‫پیشنهاد‬ ‫راهکاری‬ ‫چه‬
10
•
‫انواع‬
‫مختلف‬
‫تکنیکها‬
‫و‬
‫روشها‬
‫برای‬
‫پیش‬
‫‌بینی‬
‫در‬
‫حوزه‬
‫علم‬
‫داده‬
‫و‬
‫هوش‬
‫مصنوعی‬
‫وجود‬
‫دارد‬
.
‌‫اطالعات‌یک‌فروشگاه‬
‫‌ای‬
‫ه‬‫زنجیر‬
‫مقدمه‬
‫بینی‬‫پیش‬
9
‌‫انبارهای‌داده‌و‌داده‌کاوی‬
–
‌‫دکتر‌مهدی‌غضنفری‬
–
‌‫‌سال‌دوم‬
‫م‬‫نی‬
۱۳۹۹-۱۴۰۰
•
‫‌بینی‬
‫ش‬‫پی‬
‫تقاضا‬
•
‫‌بینی‬
‫ش‬‫پی‬
‫میزان‬
‫‌مندی‬
‫ه‬‫عالق‬
‫مشتریان‬
‫یک‬
‫منطقه‬
‫به‬
‫محصول‬
‫ج‬
‫دید‬
•
‫‌بینی‬
‫ش‬‫پی‬
‫کالس‬
‫محصول‬
‫جدید‬
‫در‬
‫بین‬
‫محصوالت‬
‫قدیم‬
•
...
10
‫دهید؟‬‫می‬ ‫پیشنهاد‬ ‫رویکردی‬ ‫چه‬ ‫زیر‬ ‫ی‬‫مسئله‬ ‫حل‬ ‫برای‬
9
‌‫انبارهای‌داده‌و‌داده‌کاوی‬
–
‌‫دکتر‌مهدی‌غضنفری‬
–
‌‫‌سال‌دوم‬
‫م‬‫نی‬
۱۳۹۹-۱۴۰۰
6
4
‫در‬
‫این‬
،‫فروشگاه‬
12000
‫بارکد‬
‫کاالی‬
‫مختلف‬
‫عرضه‬
،‫شود‬‫می‬
‫و‬
‫هر‬
‫کدام‬
‫روند‬
‫متفاوتی‬
‫از‬
‫فروش‬
‫را‬
‫دارند‬
.
‫این‬
‫تعداد‬
‫کاال‬
‫و‬
‫این‬
‫تعداد‬
‫روند‬
،‫فروش‬
‫ما‬
‫را‬
‫برای‬
‫انتخاب‬
‫های‬‫استراتژی‬
‫کالن‬
،‫خرید‬
‫گذاری‬‫سفارش‬
‫و‬
...
‫دچار‬
‫مشکل‬
‫و‬
‫سردرگمی‬
‫کند‬‫می‬
.
‫دهید؟‬‫می‬ ‫پیشنهاد‬ ‫راهکاری‬ ‫چه‬
10
•
‫یافتن‬
‫مشتریان‬
‌
‫ه‬‫شبی‬
‫به‬
‫هم‬
(
‫‌سلیق‬‫م‬‫ه‬
‫ه‬
)
‫چه‬
‫کمکی‬
‫به‬
‫مدیران‬
‫‌کند؟‬
‫ی‬‫م‬
•
‫یافتن‬
‫کاالهای‬
‫شبیه‬
‫به‬
‫هم‬
‫چطور؟‬
•
‫کاالی‬
‫شبیه‬
‫به‬
‫هم‬
‫یعنی‬
‫چه؟‬
‌‫اطالعات‌یک‌فروشگاه‬
‫‌ای‬
‫ه‬‫زنجیر‬
‫مقدمه‬
‫پنهان‬ ‫های‬‫خوشه‬ ‫یافتن‬
9
‌‫انبارهای‌داده‌و‌داده‌کاوی‬
–
‌‫دکتر‌مهدی‌غضنفری‬
–
‌‫‌سال‌دوم‬
‫م‬‫نی‬
۱۳۹۹-۱۴۰۰
‌‫کاالی‬
‫خوراکی‬
‫نوع‬ ‫قیمت‬ ‫قیمت‬ ‫وزن‬
TID1 ‫سرد‬ ‫نوشیدنی‬ 1000 500g
TID54 ‫خشک‬ ‫تنقالت‬ 7000 250g
TID65 ‫خشک‬ ‫قالت‬ 2300 1000g
… ...
TID34 ‫سرد‬ ‫نوشیدنی‬ 9000 550g
10
‫‌های‌مربوط‌به‌کاربران‌یک‌سایت‌تماشای‌فیلم‌و‌سریال‌را‌در‌اختیار‌داریم‬
‫ه‬‫فرض‌کنید‌داد‬
.
‫‌سلیقه‌را‌بیابیم‬
‫م‬‫‌کاربران‌ه‬،‫‌خواهیم‌برای‌توصیۀ‌فیلم‌و‌سریال‬
‫ی‬‫م‬
.
‫چه‌تکنیکی‌برای‌حل‌این‌مسئله‌در‌پیش‌بگیریم؟‬
!
‫دیگر‬ ‫مثالی‬
9
‌‫انبارهای‌داده‌و‌داده‌کاوی‬
–
‌‫دکتر‌مهدی‌غضنفری‬
–
‌‫‌سال‌دوم‬
‫م‬‫نی‬
۱۳۹۹-۱۴۰۰
‫بندی‬‫خوشه‬
‌‫انبارهای‌داده‌و‌داده‌کاوی‬
–
‌‫دکتر‌مهدی‌غضنفری‬
–
‌‫‌سال‌دوم‬
‫م‬‫نی‬
۱۳۹۹-۱۴۰۰
‫مثال‬
‫کاربر‬ ‫تایتانیک‬ ‫تاری‬ ‫شوالیه‬
‫کی‬
1 8 18
2 16 6
3 12 14
4 15 8
5 10 16
6 4 17
7 20 12
8 7 16
9 13 20
‫برای‬
،‫سادگی‬
‫تعداد‬
9
‫کاربر‬
‫و‬
2
‫فیلم‬
‫را‬
‫در‬
‫نظر‬
‫بگیرید‬
.
‫‌خواهیم‬
‫ی‬‫م‬
‫کاربران‬
‫‌سلیقه‬
‫م‬‫ه‬
‫را‬
‫بیابیم‬
.
‫بندی‬‫خوشه‬
‌‫انبارهای‌داده‌و‌داده‌کاوی‬
–
‌‫دکتر‌مهدی‌غضنفری‬
–
‌‫‌سال‌دوم‬
‫م‬‫نی‬
۱۳۹۹-۱۴۰۰
‫مثال‬
‫کاربر‬ ‫تایتانیک‬ ‫تاری‬ ‫شوالیه‬
‫کی‬
1 8 18
2 16 6
3 12 14
4 15 8
5 10 16
6 4 17
7 20 12
8 7 16
9 13 20
‫برای‬
،‫سادگی‬
‫تعداد‬
9
‫کاربر‬
‫و‬
2
‫فیلم‬
‫را‬
‫در‬
‫نظر‬
‫بگیرید‬
.
‫‌خواهیم‬
‫ی‬‫م‬
‫کاربران‬
‫‌سلیقه‬
‫م‬‫ه‬
‫را‬
‫بیابیم‬
.
1
2
3
4
5
6
7
8
9
‫بندی‬‫خوشه‬
‌‫انبارهای‌داده‌و‌داده‌کاوی‬
–
‌‫دکتر‌مهدی‌غضنفری‬
–
‌‫‌سال‌دوم‬
‫م‬‫نی‬
۱۳۹۹-۱۴۰۰
‫مثال‬
1
2
3
4
5
6
7
8
9
•
‫مشخص‬
‫است‬
‫که‬
‫کاربران‬
‫گروه‬
1
‫عالقۀ‬
‫زیادی‬
‫به‬
‫فیلم‬
‫شوالیه‬
‫تاریکی‬
‫داشته‬
‫و‬
‫به‬
‫فیلم‬
‫تایتانیک‬
‫عالقۀ‬
‫چندانی‬
‫ندارند‬
.
•
‫کاربران‬
‫گروه‬
2
‫نیز‬
‫به‬
‫فیلم‬
‫تایتانیک‬
‫عالقه‬
‫زیادی‬
‫داشته‬
‫و‬
‫به‬
‫ف‬
‫یلم‬
‫شوالیه‬
‫تاریکی‬
‫عالقه‬
‫چندانی‬
‫ندارند‬
.
1
2
‫بندی‬‫خوشه‬
‌‫انبارهای‌داده‌و‌داده‌کاوی‬
–
‌‫دکتر‌مهدی‌غضنفری‬
–
‌‫‌سال‌دوم‬
‫م‬‫نی‬
۱۳۹۹-۱۴۰۰
‫مثال‬
1
2
3
4
5
6
7
8
9
•
‫با‬
‫مصورسازی‬
‫‌ها‬
‫ه‬‫داد‬
‫تقریبا‬
‫مشخص‬
‫است‬
‫که‬
‫‌بندی‬
‫ه‬‫خوش‬
‫به‬
‫چه‬
‫ش‬
‫کل‬
‫باید‬
‫انجام‬
‫شود‬
.
•
‫اگر‬
‫تعداد‬
‫کاربران‬
‫به‬
1
‫میلیون‬
‫عدد‬
‫برسد‬
‫چطور؟‬
•
‫اگر‬
‫تعداد‬
‫فیلمها‬
‫به‬
1000
‫عدد‬
‫برسد‬
‫چطور؟‬
‫رویکرد‬
‫تکنیکهای‬
‫بندی‬‫خوشه‬
:
‫طوری‬
‫‌بندی‬
‫ه‬‫خوش‬
‫کنیم‬
‫تا‬
‫حداکثر‬
‫شباهت‬
‫میان‬
‫اعضای‬
‫درون‬
‌
‫ه‬‫خوش‬
‫وج‬
‫ود‬
‫داشته‬
‫باشد‬
.
‫بندی‬‫خوشه‬
‌‫انبارهای‌داده‌و‌داده‌کاوی‬
–
‌‫دکتر‌مهدی‌غضنفری‬
–
‌‫‌سال‌دوم‬
‫م‬‫نی‬
۱۳۹۹-۱۴۰۰
C-means
‫هدف‬
‫اصلی‬
‫بندی‬‫خوشه‬
:
‫طوری‬
‫‌بندی‬
‫ه‬‫خوش‬
‫کنیم‬
‫تا‬
‫حداکثر‬
‫شباهت‬
‫میان‬
‫اعضای‬
‫درون‬
‌
‫ه‬‫خوش‬
‫وجود‬
‫داشته‬
‫باشد‬
.
𝒎𝒂𝒙 𝑧 = ( ‫شباهت‬
‫‌ای‬
‫ه‬‫درون‌خوش‬ )
‫شباهت‬
‫بر‬
‫اساس‬
‫فاصله‬
‫سنجیده‬
‫شود‬‫می‬
.
𝒎𝒊𝒏 z = ෍
𝑖
𝑒𝑖 = ෍ ‫‌اش‬
‫ه‬‫خوش‬ ‫مرکز‬ ‫با‬ ‫داده‬ ‫هر‬ ‫فاصله‬
𝒎𝒊𝒏 z = ෍
𝑖=1
𝑐
෍
𝑘=1
𝑛
𝑢𝑖𝑘 𝑥𝑘 − ഥ
𝑣𝑖
2
𝑖 = 1, … , c
𝑗 = 1, … , p
𝑘 = 1, … , 𝑛
‫خوشه‬
‫ویژگی‬
(
‫فیلم‬
)
‫نمونه‬
(
‫کاربر‬
)
ഥ
𝑣𝑖=
σ𝑘 𝑢𝑖𝑘.𝑥𝑘
σ𝑘 𝑢𝑖𝑘
‫مختصات‬
‫مرکز‬
‫خوشه‬
i
‫مختصات‬
‫نمونه‬
k
‫ام‬
‫اگر‬
‫نمونه‬
k
‫ام‬
‫متعلق‬
‫به‬
‫خوشه‬
i
‫ام‬
‫باشد‬
.
ഥ
𝑣𝑖
𝑥𝑘
𝑢𝑖𝑘 = 0,1
‫بندی‬‫خوشه‬
‌‫انبارهای‌داده‌و‌داده‌کاوی‬
–
‌‫دکتر‌مهدی‌غضنفری‬
–
‌‫‌سال‌دوم‬
‫م‬‫نی‬
۱۳۹۹-۱۴۰۰
C-means
𝒎𝒊𝒏 z = ෍
𝑖=1
𝑐
෍
𝑘=1
𝑛
𝑢𝑖𝑘 𝑥𝑘 − ഥ
𝑣𝑖
2
𝑖 = 1, … , c
𝑗 = 1, … , p
𝑘 = 1, … , 𝑛
‫خوشه‬
‫ویژگی‬
(
‫فیلم‬
)
‫نمونه‬
(
‫کاربر‬
)
‫مختصات‬
‫مرکز‬
‫خوشه‬
i
‫مختصات‬
‫نمونه‬
k
‫ام‬
‫اگر‬
‫نمونه‬
k
‫ام‬
‫متعلق‬
‫به‬
‫خوشه‬
i
‫ام‬
‫باشد‬
.
ഥ
𝑣𝑖
𝑥𝑘
𝑢𝑖𝑘 = 0,1
𝑠. 𝑡.
Bezdek c-mean clustering algorithm
‫مساله‬ ‫یک‬
NP-Complete
‫است‬
ഥ
𝑣𝑖=
σ𝑘 𝑢𝑖𝑘.𝑥𝑘
σ𝑘 𝑢𝑖𝑘
෍
𝑖=1
𝑐
𝑢𝑖𝑘 = 1
0 < ෍
𝑘=1
𝑛
𝑢𝑖𝑘 < 𝑛
𝑢𝑖𝑘 = 0,1 ∀𝑖, 𝑘
∀𝑖
∀𝑘
∀𝑖
1
2
3
4
5
6
7
8
9
‫بندی‬‫خوشه‬
‌‫انبارهای‌داده‌و‌داده‌کاوی‬
–
‌‫دکتر‌مهدی‌غضنفری‬
–
‌‫‌سال‌دوم‬
‫م‬‫نی‬
۱۳۹۹-۱۴۰۰
C-means
𝑣1=
6
18
+
7
16
+
10
16
+
11
20
+
12
14
5
= 9.2
16.8
ഥ
𝑣𝑖=
σ𝑘 𝑢𝑖𝑘.𝑥𝑘
σ𝑘 𝑢𝑖𝑘
𝑣2=
15
8
+
16
6
+
17
4
+
20
12
4
= 17
7.5
‫بندی‬‫خوشه‬
‌‫انبارهای‌داده‌و‌داده‌کاوی‬
–
‌‫دکتر‌مهدی‌غضنفری‬
–
‌‫‌سال‌دوم‬
‫م‬‫نی‬
۱۳۹۹-۱۴۰۰
C-means
1
.
‫پارامتر‬
c
‫را‬
‫تعیین‬
‫کنید‬
(
2 ≤ 𝑐 ≤ 𝑛
)
‫و‬
‫ماتریس‬
𝑈 0
‫را‬
‫به‬
‫صورت‬
‫تصادفی‬
‫تشکیل‬
‫دهید‬
.
‫به‬
‫ازای‬
‫هر‬
‫تکرار‬
r = 0,1,2,…
‫قدمهای‬
‫زیر‬
‫را‬
‫تکرار‬
‫کنید‬
.
2
.
‫بردار‬
‫مراکز‬
‫‌ها‬
‫ه‬‫خوش‬
‫را‬
‫با‬
‫توجه‬
‫به‬
‫ماتریس‬
𝑈 r
‫محاسبه‬
‫کنید‬
.
( )
( )
( )
n
r
ik k
r k
i n
r
ik
k
u x
V
u
=
=
=


1
1
( )
U
 
=  
 
0 1 0 1 0
0 1 0 1
i = 1
i = 2
k
‫آیا‬
‫کامال‬
‫تصادفی‬
‫است؟‬
!
( )
r
U 
Bezdek c-mean clustering algorithm
‫بندی‬‫خوشه‬
‌‫انبارهای‌داده‌و‌داده‌کاوی‬
–
‌‫دکتر‌مهدی‌غضنفری‬
–
‌‫‌سال‌دوم‬
‫م‬‫نی‬
۱۳۹۹-۱۴۰۰
C-means
 
( ) ( )
( )
min ,...,
r r
ik lk
r
ik
d d l c
u
Otherwise
+
 = =

= 


1
1 1
0
/
( ) ( )
( )
p
r r
ik kj ij
j
d x v
=
 
= −
 
 

1 2
1
( ) ( )
,
r r
if U U then stop
otherwise r r and return to step

+
− 
= +
1
1 2
‫فاصله‬
‫‌ها‬
‫ه‬‫نمون‬
‫از‬
‫همه‬
‫مرکز‬
‫‌ها‬
‫ه‬‫خوش‬
‫محاسبه‬
‫شده‬
‫و‬
‫نمونه‬
‫به‬
‫نزدیکترین‬
‫خوشه‬
‫تخصیص‬
‫دا‬
‫ده‬
‫‌شود‬
‫ی‬‫م‬
.
Bezdek c-mean clustering algorithm
3
.
‫ماتریس‬
𝑈 r
‫را‬
‫به‬
‫شکل‬
‫زیر‬
‫بروزرسانی‬
‫کنید‬
:
4
.
‫شرط‬
‫توقف‬
:
‫بندی‬‫خوشه‬
‌‫انبارهای‌داده‌و‌داده‌کاوی‬
–
‌‫دکتر‌مهدی‌غضنفری‬
–
‌‫‌سال‌دوم‬
‫م‬‫نی‬
۱۳۹۹-۱۴۰۰
C-means
‫مثال‬
( )
.
V
+ + + +
= =
0
1
2 12 3 30 25
14 4
5
 
, , , , , , , , , c =
2 4 10 12 3 20 30 11 25 2
( )
U
 
=  
 
0 1 0 0 1 1 0 1 0 1
0 1 1 0 0 1 0 1 0
 
: , , , ,
c1 2 12 3 30 25
( )
.
V
+ + +
= =
0
2
4 10 20 11
11 25
4
 
: , , ,
c2 4 10 20 11
‫فاصله‬
‫‌ها‬
‫ه‬‫نمون‬
‫از‬
‫مراکز‬
‫‌ها‬
‫ه‬‫خوش‬
‫محاسبه‬
‫شده‬
‫و‬
‫نمونه‬
‫به‬
‫نزدیکترین‬
‫خوشه‬
‫تخصیص‬
‫د‬
‫اده‬
‫‌شود‬
‫ی‬‫م‬
.
‫بندی‬‫خوشه‬
‌‫انبارهای‌داده‌و‌داده‌کاوی‬
–
‌‫دکتر‌مهدی‌غضنفری‬
–
‌‫‌سال‌دوم‬
‫م‬‫نی‬
۱۳۹۹-۱۴۰۰
C-means
 
, , , , , , , , , c =
2 4 10 12 3 20 30 11 25 2
( )
ik
d 0
( )
( )
. .
. .
d
d
= − =
= − =
0
11
0
21
2 14 4 12 4
2 11 25 9 25 P
( )
u
 =
1
21 1
( )
( )
. .
. .
d
d
= − =
= − =
0
12
0
22
4 14 4 10 4
4 11 25 7 25 P
( )
u
 =
1
22 1
( )
u
 =
1
11 0
( )
u
 =
1
12 0
…
( )
U
 
=  
 
1 0 0 0 0 0 1 1 0 1
1 1 1 1 1 0 0 1 0
( )
V
+ +
= =
0
1
20 30 25
25
3
( )
V
+ + + + +
= =
0
2
2 4 10 12 3 11
7
6
‫مثال‬
‫بندی‬‫خوشه‬
‌‫انبارهای‌داده‌و‌داده‌کاوی‬
–
‌‫دکتر‌مهدی‌غضنفری‬
–
‌‫‌سال‌دوم‬
‫م‬‫نی‬
۱۳۹۹-۱۴۰۰
‫ها‬‫خوشه‬ ‫تعداد‬
‫چه‬
‫تعداد‬
‫خوشه‬
‫برای‬
‫‌های‬
‫ه‬‫داد‬
‫ما‬
‫مناسب‬
‫است؟‬
Elbow method
•
‫مشاهده‬
‫‌شود‬
‫ی‬‫م‬
‫برای‬
‫مقادیر‬
c=1
‫تا‬
c=6
‫مقدار‬
SSE
‫به‬
‫سرعت‬
‫درحال‬
‫کاهش‬
‫است‬
.
‫ولی‬
‫برای‬
‫مقادیر‬
‫بزرگتر‬
‫از‬
6
،
‫تغییر‬
‫چندانی‬
‫ندارد‬
.
‫بنابراین‬
‫تعداد‬
6
‫خوشه‬
‫‌تواند‬
‫ی‬‫م‬
‫انتخاب‬
‫مناسبی‬
(
‫خوب‬
)
‫باشد‬
.
•
‫مجموع‬
‫مربعات‬
‫خطا‬
(
SSE
)
‫همان‬
‫تابع‬
‫هدف‬
‫مدل‬
‫ریاضی‬
c-means
‫است‬
.
•
‫آیا‬
‫روشهای‬
‫دیگری‬
‫برای‬
‫انتخاب‬
‫تعداد‬
‫خوشه‬
‫بهینه‬
‫وجود‬
‫دارد؟‬
‫بندی‬‫خوشه‬
‌‫انبارهای‌داده‌و‌داده‌کاوی‬
–
‌‫دکتر‌مهدی‌غضنفری‬
–
‌‫‌سال‌دوم‬
‫م‬‫نی‬
۱۳۹۹-۱۴۰۰
‫الگوریتم‬ ‫شروع‬
C-means
‫قدم‬
‫اول‬
:
‫پارامتر‬
c
‫را‬
‫تعیین‬
‫کنید‬
(
2 ≤ 𝑐 ≤ 𝑛
)
‫و‬
‫ماتریس‬
𝑈 0
‫را‬
‫به‬
‫صورت‬
‫تصادفی‬
‫تشکیل‬
‫دهید‬
.
‫حالت‬
‫اول‬
‫قدم‬
‫اول‬
:
‫پارامتر‬
c
‫را‬
‫تعیین‬
‫کنید‬
(
2 ≤ 𝑐 ≤ 𝑛
)
‫و‬
‫تعداد‬
c
‫نمونه‬
‫را‬
‫به‬
‫طور‬
‫تصادفی‬
‫به‬
‫عنوان‬
‫مراکز‬
‫خوشه‬
‫اولیه‬
‫انتخاب‬
‫کنید‬
.
‫احتمال‬
‫انتخاب‬
‫هر‬
‫نمونه‬
‫به‬
‫عنوان‬
‫مرکز‬
،‫خوشه‬
‫از‬
‫توزیع‬
‫یکنواخت‬
‫پیروی‬
‫‌کند‬
‫ی‬‫م‬
.
‫حالت‬
‫دوم‬
‫قدم‬
‫اول‬
:
‫پارامتر‬
c
‫را‬
‫تعیین‬
‫کنید‬
(
2 ≤ 𝑐 ≤ 𝑛
)
‫و‬
‫برای‬
‫انتخاب‬
‫مراکز‬
،‫اولیه‬
‫از‬
‫روش‬
k++
‫استفاده‬
‫کنید‬
.
‫در‬
‫این‬
،‫روش‬
‫هدف‬
‫این‬
‫است‬
‫که‬
‫مراکز‬
‫اولیه‬
‫تا‬
‫حد‬
‫امکان‬
‫از‬
‫یکدیگر‬
‫دور‬
‫باشند‬
.
‫به‬
‫طوری‬
‫که‬
‫ابتدا‬
‫یک‬
‫نمونه‬
‫به‬
‫صورت‬
‫تصادفی‬
‫بعنوان‬
‫مرکز‬
‫خوشه‬
‫اول‬
‫انتخاب‬
‫‌شود‬
‫ی‬‫م‬
.
‫سپس‬
‫برای‬
‫انتخاب‬
‫مراکز‬
،‫بعدی‬
‫احتمال‬
‫انتخاب‬
‫‌ها‬
‫ه‬‫نمون‬
‫یکسان‬
‫نیست‬
‫و‬
‫هر‬
‫‌ای‬
‫ه‬‫نمون‬
‫که‬
‫از‬
‫مرکز‬
‫انتخاب‬
‫شده‬
‫دورتر‬
،‫باشد‬
‫شانس‬
‫بیشتری‬
‫برای‬
‫انتخاب‬
‫دارد‬
.
‫حالت‬
‫سوم‬
‫الگوریتم‬ ‫شروع‬
C-means
‌‫انبارهای‌داده‌و‌داده‌کاوی‬
–
‌‫دکتر‌مهدی‌غضنفری‬
–
‌‫‌سال‌دوم‬
‫م‬‫نی‬
۱۳۹۹-۱۴۰۰
‫روش‬
k++
‫باید‬
‫دقت‬
‫شود‬
‫که‬
‫در‬
‫این‬
،‫روش‬
‫هرچه‬
‫نقطه‬
‫دورتر‬
‫از‬
‌
‫بذر‬
‫انتخاب‬
‫شده‬
،‫باشد‬
‫احتمال‬
‫انتخاب‬
‫آن‬
‫بیشتر‬
،‫‌شود‬
‫ی‬‫م‬
‫پ‬
‫س‬
‫لزوما‬
‫دورترین‬
‫نقطه‬
‫به‬
‫بذر‬
‫قبلی‬
‫انتخاب‬
‫‌شود‬
‫ی‬‫نم‬
.
‫به‬
،‫عبارتی‬
‫با‬
‫این‬
‫حال‬
‫که‬
‫احتمال‬
‫انتخاب‬
‫‌ای‬
‫ه‬‫نقط‬
‫نزدیک‬
‫ب‬
‫ه‬
‫بذر‬
،‫قبلی‬
‫خیلی‬
‫کم‬
‫است‬
‫اما‬
‫ممکن‬
‫است‬
‫انتخاب‬
‫شود‬
.
‫بندی‬‫خوشه‬
‌‫انبارهای‌داده‌و‌داده‌کاوی‬
–
‌‫دکتر‌مهدی‌غضنفری‬
–
‌‫‌سال‌دوم‬
‫م‬‫نی‬
۱۳۹۹-۱۴۰۰
C-means

More Related Content

PDF
2024 Trend Updates: What Really Works In SEO & Content Marketing
PDF
Storytelling For The Web: Integrate Storytelling in your Design Process
PDF
Artificial Intelligence, Data and Competition – SCHREPEL – June 2024 OECD dis...
PDF
How to Leverage AI to Boost Employee Wellness - Lydia Di Francesco - SocialHR...
PDF
2024 State of Marketing Report – by Hubspot
PDF
Everything You Need To Know About ChatGPT
PDF
Product Design Trends in 2024 | Teenage Engineerings
PDF
How Race, Age and Gender Shape Attitudes Towards Mental Health
2024 Trend Updates: What Really Works In SEO & Content Marketing
Storytelling For The Web: Integrate Storytelling in your Design Process
Artificial Intelligence, Data and Competition – SCHREPEL – June 2024 OECD dis...
How to Leverage AI to Boost Employee Wellness - Lydia Di Francesco - SocialHR...
2024 State of Marketing Report – by Hubspot
Everything You Need To Know About ChatGPT
Product Design Trends in 2024 | Teenage Engineerings
How Race, Age and Gender Shape Attitudes Towards Mental Health
Ad

Data mining: Clustering (In Persian).pdf