SlideShare a Scribd company logo
ilmubiner@gmail.com

Data Mining

http://ilmubiner.blogspot.com

Belajar Mudah Algoritma Data Mining Clustering : k-means
Clustering atau analisis cluster adalah :
• Proses pembentukan kelompok data (cluster) dari himpunan data yang tidak diketahui
kelompok-kelompok atau kelas-kelasnya.
• Proses menentukan data-data termasuk ke dalam cluster yang mana.
Bisa dibilang, clustering merupakan proses untuk mengetahui kelas-kelas atau taksonomi atau
botryologi, atau analisis topologi dari data-data yang ada. Dilihat dari kacamata data mining,
clustering bukanlah proses klasifikasi. Karena dalam proses klasifikasi, data dikelompokkan ke
dalam kelas-kelas yang telah diketahui sebelumnya.
Ada beberapa metode atau model untuk melakukan clustering, antara lain :
• Model connectivity.
• Model centroid.
• Model density.
• Model subspace.
• Model group.
• Model graph based.
Algoritma k-means merupakan model
centroid. Model centroid adalah model yang
menggunakan centroid untuk membuat
cluster. Centroid adalah “titik tengah” suatu
cluster. Centroid berupa nilai. Centroid
digunakan untuk menghitung jarak suatu
objek data terhadap centroid. Suatu objek data
termasuk dalam suatu cluster jika memiliki
jarak terpendek terhadap centroid cluster
tersebut.
Secara umum algoritma k-means adalah :
1. Menentukan banyaknya cluster (k).
2. Menentukan centroid.
3. Apakah centroid-nya berubah?
a. Jika ya, hitung jarak data dari centroid.
b. Jikat tidak, selesai.
4. Mengelompokkan data berdasarkan jarak
yang terdekat.
Diagram alir (flowchart) algoritma k-means
ada pada Gambar 1. Sedangkan Gambar 2
merupakan contoh posisi titik-titik data dan
centroid-centroid-nya (lingkaran yang lebih
besar.

Gambar 1. Diagram Alir Algoritma k-means

Page 1 of 5
ilmubiner@gmail.com

Data Mining

http://ilmubiner.blogspot.com

Untuk lebih jelasnya, berikut pembahasan pemakaian
algoritma k-means. Tabel 1 berisi data sumber yang
akan dianalisis cluster-nya :
Tabel 1. Data Sumber
n
1
2
3
4

a
1
2
4
5

b
1
1
3
4

Gambar 2. Contoh Cluster
1. Tentukan banyaknya cluster adalah dua (k = 2) yang akan dibuat. Banyaknya cluster
harus lebih kecil dari pada banyaknya data (k < n).
2. Tentukan centroid setiap cluster.
Untuk menentukan centroid awal (initial centroid) banyak metode yang dapat digunakan.
Di sini metode yang digunakan adalah mengambil data dari data sumber, secara acak atau
random (Sel yang berwarna kuning dan hijau di Tabel 1).
Tabel 2. Centroid pada Pengulangan ke-0

c1
c2

a
1
2

b
1
1

Untuk pengulangan berikutnya (pengulangan ke-1 sampai selesai), centroid baru dihitung
dengan menghitung nilai rata-rata data pada setiap cluster. Jika centroid baru berbeda
dengan centroid sebelumnya, maka proses dilanjutkan ke langkah berikutnya. Namun
jika centroid yang baru dihitung sama dengan centroid sebelumnya, maka proses
clustering selesai.
3. Hitung jarak data dengan centroid. Rumus-rumus untuk menghitung jarak antara lain :
a. Euclidean.
b. Manhattan / City Block.
c. Minkowski.
Rumus yang digunakan di sini adalah rumus Euclidean Distance :

Page 2 of 5
ilmubiner@gmail.com

=
=
=
=
=

,

Data Mining

=	

(

http://ilmubiner.blogspot.com

− )

	

Jarak data dengan cluster 1 adalah :
( ,

) =	 (

( +,

) =	 (

( ,

( ,

) =	 (
) =	 (

%
+

−

) +(

−

) +(

−
−

) +(
) +(

%
+

−

!)

	 	=

	 (1 − 1) + (1 − 1) = 0

−

!)

	 	=

	 (5 − 1) + (4 − 1) = 5

−
−

!)
!)

	 	=
	 	=

	 (2 − 1) + (1 − 1) = 1

	 (4 − 1) + (3 − 1) = 3.605551

Jarak data dengan cluster 2 adalah :
( ,

) =	 (

( +,

) =	 (

( ,
( ,

) =	 (
) =	 (

%
+

−

) +(

−

) +(

−
−

) +(
) +(

%
+

−

!)

	 	=

	 (1 − 2) + (1 − 1) = 1

−

!)

	 	=

	 (5 − 2) + (4 − 1) = 4.242641

−
−

!)
!)

	 	=
	 	=

	 (2 − 2) + (1 − 1) = 0

	 (4 − 2) + (3 − 1) = 2.828427

Untuk seterusnya, hitung jarak pada setiap baris data, dan hasilnya seperti pada Tabel 3.
Tabel 3. Hasil Perhitungan Jarak
n
1
2
3
4

a
1
2
4
5

b
1
1
3
4

dc1
dc2
0
1
1
0
3.605551 2.828427
5
4.242641

4. Kelompokkan data sesuai dengan cluster-nya, yaitu data yang memiliki jarak terpendek.
Contoh; karena ( , ) < 	 ( , ) maka
masuk ke dalam cluster 1. Pada Tabel 4,
data n = 1 masuk ke dalam cluster 1 karena dc1 < dc2, sedangkan data n = 2, 3, 4 masuk
ke dalam cluster 2 karena dc2 < dc1.

Page 3 of 5
ilmubiner@gmail.com

Data Mining

http://ilmubiner.blogspot.com

Tabel 4. Hasil Perhitungan Jarak dan Pengelompokkan Data
n
1
2
3
4

a
1
2
4
5

b
1
1
3
4

dc1
dc2
0
1
1
0
3.605551 2.828427
5
4.242641

c1
Ok

c2
Ok
Ok
Ok

5. Proses kembali lagi ke langkah no. 2.
Untuk hasil clustering yang lebih lengkap, berikut tabel-tabel hasil analisis dan perhitungan dari
awal sampai selesai :
Inisialisasi
n
1
2
3
4

a
1
2
4
5

b
1
1
3
4

c1
c2

a
1
2

b
1
1

n
1
2
3
4

a
1
2
4
5

b
1
1
3
4

dc1
dc2
0
1
1
0
3.605551 2.828427
5
4.242641

c1
Ok

c2
Ok
Ok
Ok

Pengulangan ke-1
c1
c2
n
1
2
3
4

a
b
Nilai pada sel diperoleh dari menghitung
1
1
rata-rata pada tabel di atasnya sesuai
3.666667 2.666667 dengan warna sel
a
1
2
4
5

b
1
1
3
4

dc1
dc2
0
3.14466
1
2.357023
3.605551 0.471405
5
1.885618

Page 4 of 5

c1
Ok
Ok

c2

Ok
Ok
ilmubiner@gmail.com

Data Mining

http://ilmubiner.blogspot.com

Pengulangan ke-2
c1
c2

a
1.5
4.5

b
1
3.5

n
1
2
3
4

a
1
2
4
5

b
1
1
3
4

a
1.5
4.5

b
1
3.5

dc1
0.5
0.5
3.201562
4.609772

dc2
4.301163
2.357023
0.471405
1.885618

c1
Ok
Ok

Pengulangan ke-3
c1
c2

Karena centroid tidak mengalami perubahan (sama dengan centroid
sebelumnya) maka proses clustering selesai

[EoF]

Page 5 of 5

c2

Ok
Ok

More Related Content

PDF
P11_penyebaran data variansi (ragam)
PPT
Materi 8 analisis time series
PDF
Materi Sosialisasi dan Pendampingan Pelaporan BKD Sister.pdf
PDF
8 modul 8-dts-fitur dan cleaning data-univ-gunadarma
PPSX
Profil Agrowisata Belimbing Ngringinrejo
PDF
Cara menghitung pertumbuhan
PPSX
Ukuran variasi atau dispersi (penyebaran)
DOCX
Taraf signifikan
P11_penyebaran data variansi (ragam)
Materi 8 analisis time series
Materi Sosialisasi dan Pendampingan Pelaporan BKD Sister.pdf
8 modul 8-dts-fitur dan cleaning data-univ-gunadarma
Profil Agrowisata Belimbing Ngringinrejo
Cara menghitung pertumbuhan
Ukuran variasi atau dispersi (penyebaran)
Taraf signifikan

What's hot (20)

PDF
Tabel x2
PDF
Laporan praktikum analisis cluster (tipologi kinerja sarana dan prasarana kec...
PDF
Statistika parametrik_teknik analisis korelasi
PDF
Tabel f-0-01
PDF
3. metodologi data science dts ta v.1
PDF
Tabel Nilai Kritis Distribusi Chi-Square
PDF
7. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v2
PDF
Tabel durbin watson
PPTX
Model transportasi metode least cost
PDF
PKM K "go hero" proposal program kreativitas mahasiswa unm
DOC
Proposal ternak sapi
PDF
Uji proporsi satu populasi dan dua populasi
PPTX
Penanganan Mutikolonieritas
PPTX
PPT Laporan Hasil Kewirausahaan Onde - Onde Pelangi
PDF
5. ukuran kemiringan dan ukuran keruncingan
PDF
Proposal www.i-kedai.com usaha sembako
DOCX
Surat keterangan observasi
PDF
Contoh Format Kuesioner Penelitian yang Profesional
PDF
20731 21 visualisasi data
Tabel x2
Laporan praktikum analisis cluster (tipologi kinerja sarana dan prasarana kec...
Statistika parametrik_teknik analisis korelasi
Tabel f-0-01
3. metodologi data science dts ta v.1
Tabel Nilai Kritis Distribusi Chi-Square
7. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v2
Tabel durbin watson
Model transportasi metode least cost
PKM K "go hero" proposal program kreativitas mahasiswa unm
Proposal ternak sapi
Uji proporsi satu populasi dan dua populasi
Penanganan Mutikolonieritas
PPT Laporan Hasil Kewirausahaan Onde - Onde Pelangi
5. ukuran kemiringan dan ukuran keruncingan
Proposal www.i-kedai.com usaha sembako
Surat keterangan observasi
Contoh Format Kuesioner Penelitian yang Profesional
20731 21 visualisasi data
Ad

Viewers also liked (20)

PDF
Belajar mudah algoritma data mining apriori
PPT
K means Clustering Algorithm
PPTX
Pert 04 clustering data mining
ODP
Mengenal Rapidminer
PDF
Belajar mudah algoritma data mining c4.5
PDF
PDF
PERANCANGAN DAN PEMBUATAN APLIKASI DATAMINING BERBASIS WEB MENGGUNAKAN ALGORI...
PDF
PENERAPAN ALGORITMA APRIORI DALAM MENEMUKAN HUBUNGAN DATA AWAL MASUK DENGAN D...
PDF
K means Clustering
PPTX
Algoritma median
PDF
Visualisasi serangan DoS dengan clustering
DOC
Modul clustering data mining modul clustering
PDF
Windows Server 2008 R2 Failover Cluster
PDF
Tutorial dasar-pemrograman-google-maps-api
PDF
Minggu10 algoritma genetika
PDF
67 jurnal skripsi dwi martha - fuzzy mamdani
PDF
Support Vector Machine
PDF
Sistem informasi prediksi harga kebutuhan bahan pokok
PPTX
Data mining
DOCX
Implementasi algoritma genetika untuk memprediksi gunung meletus berdasarkan ...
Belajar mudah algoritma data mining apriori
K means Clustering Algorithm
Pert 04 clustering data mining
Mengenal Rapidminer
Belajar mudah algoritma data mining c4.5
PERANCANGAN DAN PEMBUATAN APLIKASI DATAMINING BERBASIS WEB MENGGUNAKAN ALGORI...
PENERAPAN ALGORITMA APRIORI DALAM MENEMUKAN HUBUNGAN DATA AWAL MASUK DENGAN D...
K means Clustering
Algoritma median
Visualisasi serangan DoS dengan clustering
Modul clustering data mining modul clustering
Windows Server 2008 R2 Failover Cluster
Tutorial dasar-pemrograman-google-maps-api
Minggu10 algoritma genetika
67 jurnal skripsi dwi martha - fuzzy mamdani
Support Vector Machine
Sistem informasi prediksi harga kebutuhan bahan pokok
Data mining
Implementasi algoritma genetika untuk memprediksi gunung meletus berdasarkan ...
Ad

Similar to Belajar mudah algoritma data mining k means (20)

PDF
Data mining 7
PDF
pert_ke_9_sistem_cerdas pert_ke_9_sistem_cerdas pert_ke_9_sistem_cerdas pert_...
PPTX
3. K MEANS .pptx
PDF
KMeans.pdf
PPTX
Materi Kecerdasan Bisnis (Data Science) : clustering
PPTX
ALGORITMA UNSUPERVISED LEARNING K MEANS.pptx
PPTX
Clustering_fix(1) tentang algoritma kmeans.pptx
PPTX
PPT_Data_Mining_Kel_3.pptx
PPTX
K-MEANS CLUSTERING.pptx
PPT
K-Means Clustering.ppt
PPTX
Pertemuan 8 - Pemrosesan Data Numeric (Metode Klasterisasi).pptx
PPT
Clustering _IgedeAris.ppt
PDF
Clusteringgggggggggggggggfffffffffffg.pdf
PPTX
DM_P11_Unsupervised Learning (K-Means Clustering).pptx
PPTX
k-mean_clustering.pptx
PPTX
Tugas Mandiri Aljabar Linear dan Matriks
PPTX
Presentasi Materi Data Maning klasifikasi
PPTX
Algoritma Klasifikasi K-Means Clustering.pptx
PPTX
ALGORITMA K-MEANS dan.pptx
PPTX
Clustering Kelompok 4 FIXXXXXXXXXXX.pptx
Data mining 7
pert_ke_9_sistem_cerdas pert_ke_9_sistem_cerdas pert_ke_9_sistem_cerdas pert_...
3. K MEANS .pptx
KMeans.pdf
Materi Kecerdasan Bisnis (Data Science) : clustering
ALGORITMA UNSUPERVISED LEARNING K MEANS.pptx
Clustering_fix(1) tentang algoritma kmeans.pptx
PPT_Data_Mining_Kel_3.pptx
K-MEANS CLUSTERING.pptx
K-Means Clustering.ppt
Pertemuan 8 - Pemrosesan Data Numeric (Metode Klasterisasi).pptx
Clustering _IgedeAris.ppt
Clusteringgggggggggggggggfffffffffffg.pdf
DM_P11_Unsupervised Learning (K-Means Clustering).pptx
k-mean_clustering.pptx
Tugas Mandiri Aljabar Linear dan Matriks
Presentasi Materi Data Maning klasifikasi
Algoritma Klasifikasi K-Means Clustering.pptx
ALGORITMA K-MEANS dan.pptx
Clustering Kelompok 4 FIXXXXXXXXXXX.pptx

Recently uploaded (7)

DOCX
Antivirus Versi.FULL.JALiN.KB.PRO Keutuhan Aplikasi Konsep dan Praktik dalam ...
PPT
pengantar-sistem-informasi manajemen.ppt
PPTX
Peranan AI dalam Dunia Pendidikan dan Industri Aplikasinya
PDF
Modul_Pemula_Merakit_Komputer untuk smppdf
DOCX
Keutuhan Aplikasi Konsep dan Praktik dalam Upaya menciptakan aplikasi Anti Vi...
PPTX
Materi_Array_Karakter_String untuk kelas XI sma.pptx
PDF
Rekomendasi Riset Lanjutan : perspektif_futurologis.pdf
Antivirus Versi.FULL.JALiN.KB.PRO Keutuhan Aplikasi Konsep dan Praktik dalam ...
pengantar-sistem-informasi manajemen.ppt
Peranan AI dalam Dunia Pendidikan dan Industri Aplikasinya
Modul_Pemula_Merakit_Komputer untuk smppdf
Keutuhan Aplikasi Konsep dan Praktik dalam Upaya menciptakan aplikasi Anti Vi...
Materi_Array_Karakter_String untuk kelas XI sma.pptx
Rekomendasi Riset Lanjutan : perspektif_futurologis.pdf

Belajar mudah algoritma data mining k means

  • 1. ilmubiner@gmail.com Data Mining http://ilmubiner.blogspot.com Belajar Mudah Algoritma Data Mining Clustering : k-means Clustering atau analisis cluster adalah : • Proses pembentukan kelompok data (cluster) dari himpunan data yang tidak diketahui kelompok-kelompok atau kelas-kelasnya. • Proses menentukan data-data termasuk ke dalam cluster yang mana. Bisa dibilang, clustering merupakan proses untuk mengetahui kelas-kelas atau taksonomi atau botryologi, atau analisis topologi dari data-data yang ada. Dilihat dari kacamata data mining, clustering bukanlah proses klasifikasi. Karena dalam proses klasifikasi, data dikelompokkan ke dalam kelas-kelas yang telah diketahui sebelumnya. Ada beberapa metode atau model untuk melakukan clustering, antara lain : • Model connectivity. • Model centroid. • Model density. • Model subspace. • Model group. • Model graph based. Algoritma k-means merupakan model centroid. Model centroid adalah model yang menggunakan centroid untuk membuat cluster. Centroid adalah “titik tengah” suatu cluster. Centroid berupa nilai. Centroid digunakan untuk menghitung jarak suatu objek data terhadap centroid. Suatu objek data termasuk dalam suatu cluster jika memiliki jarak terpendek terhadap centroid cluster tersebut. Secara umum algoritma k-means adalah : 1. Menentukan banyaknya cluster (k). 2. Menentukan centroid. 3. Apakah centroid-nya berubah? a. Jika ya, hitung jarak data dari centroid. b. Jikat tidak, selesai. 4. Mengelompokkan data berdasarkan jarak yang terdekat. Diagram alir (flowchart) algoritma k-means ada pada Gambar 1. Sedangkan Gambar 2 merupakan contoh posisi titik-titik data dan centroid-centroid-nya (lingkaran yang lebih besar. Gambar 1. Diagram Alir Algoritma k-means Page 1 of 5
  • 2. ilmubiner@gmail.com Data Mining http://ilmubiner.blogspot.com Untuk lebih jelasnya, berikut pembahasan pemakaian algoritma k-means. Tabel 1 berisi data sumber yang akan dianalisis cluster-nya : Tabel 1. Data Sumber n 1 2 3 4 a 1 2 4 5 b 1 1 3 4 Gambar 2. Contoh Cluster 1. Tentukan banyaknya cluster adalah dua (k = 2) yang akan dibuat. Banyaknya cluster harus lebih kecil dari pada banyaknya data (k < n). 2. Tentukan centroid setiap cluster. Untuk menentukan centroid awal (initial centroid) banyak metode yang dapat digunakan. Di sini metode yang digunakan adalah mengambil data dari data sumber, secara acak atau random (Sel yang berwarna kuning dan hijau di Tabel 1). Tabel 2. Centroid pada Pengulangan ke-0 c1 c2 a 1 2 b 1 1 Untuk pengulangan berikutnya (pengulangan ke-1 sampai selesai), centroid baru dihitung dengan menghitung nilai rata-rata data pada setiap cluster. Jika centroid baru berbeda dengan centroid sebelumnya, maka proses dilanjutkan ke langkah berikutnya. Namun jika centroid yang baru dihitung sama dengan centroid sebelumnya, maka proses clustering selesai. 3. Hitung jarak data dengan centroid. Rumus-rumus untuk menghitung jarak antara lain : a. Euclidean. b. Manhattan / City Block. c. Minkowski. Rumus yang digunakan di sini adalah rumus Euclidean Distance : Page 2 of 5
  • 3. ilmubiner@gmail.com = = = = = , Data Mining = ( http://ilmubiner.blogspot.com − ) Jarak data dengan cluster 1 adalah : ( , ) = ( ( +, ) = ( ( , ( , ) = ( ) = ( % + − ) +( − ) +( − − ) +( ) +( % + − !) = (1 − 1) + (1 − 1) = 0 − !) = (5 − 1) + (4 − 1) = 5 − − !) !) = = (2 − 1) + (1 − 1) = 1 (4 − 1) + (3 − 1) = 3.605551 Jarak data dengan cluster 2 adalah : ( , ) = ( ( +, ) = ( ( , ( , ) = ( ) = ( % + − ) +( − ) +( − − ) +( ) +( % + − !) = (1 − 2) + (1 − 1) = 1 − !) = (5 − 2) + (4 − 1) = 4.242641 − − !) !) = = (2 − 2) + (1 − 1) = 0 (4 − 2) + (3 − 1) = 2.828427 Untuk seterusnya, hitung jarak pada setiap baris data, dan hasilnya seperti pada Tabel 3. Tabel 3. Hasil Perhitungan Jarak n 1 2 3 4 a 1 2 4 5 b 1 1 3 4 dc1 dc2 0 1 1 0 3.605551 2.828427 5 4.242641 4. Kelompokkan data sesuai dengan cluster-nya, yaitu data yang memiliki jarak terpendek. Contoh; karena ( , ) < ( , ) maka masuk ke dalam cluster 1. Pada Tabel 4, data n = 1 masuk ke dalam cluster 1 karena dc1 < dc2, sedangkan data n = 2, 3, 4 masuk ke dalam cluster 2 karena dc2 < dc1. Page 3 of 5
  • 4. ilmubiner@gmail.com Data Mining http://ilmubiner.blogspot.com Tabel 4. Hasil Perhitungan Jarak dan Pengelompokkan Data n 1 2 3 4 a 1 2 4 5 b 1 1 3 4 dc1 dc2 0 1 1 0 3.605551 2.828427 5 4.242641 c1 Ok c2 Ok Ok Ok 5. Proses kembali lagi ke langkah no. 2. Untuk hasil clustering yang lebih lengkap, berikut tabel-tabel hasil analisis dan perhitungan dari awal sampai selesai : Inisialisasi n 1 2 3 4 a 1 2 4 5 b 1 1 3 4 c1 c2 a 1 2 b 1 1 n 1 2 3 4 a 1 2 4 5 b 1 1 3 4 dc1 dc2 0 1 1 0 3.605551 2.828427 5 4.242641 c1 Ok c2 Ok Ok Ok Pengulangan ke-1 c1 c2 n 1 2 3 4 a b Nilai pada sel diperoleh dari menghitung 1 1 rata-rata pada tabel di atasnya sesuai 3.666667 2.666667 dengan warna sel a 1 2 4 5 b 1 1 3 4 dc1 dc2 0 3.14466 1 2.357023 3.605551 0.471405 5 1.885618 Page 4 of 5 c1 Ok Ok c2 Ok Ok