Machine Vision
LECTURE NOTES
Machine Vision
Session 11
Recognition (2)
Machine Vision
LEARNING OUTCOMES
a. Peserta diharapkan memahami pendekatan unsupervised learning dan clustering untuk
mengelompokkan data berdasarkan karakteristik visualnya.
OUTLINE MATERI (Sub-Topic):
1. Unsupervised learning
2. Clustering
Machine Vision
ISI MATERI
Unsupervised Learning
Unsupervised learning adalah salah satu bentuk pembelajaran mesin yang mencoba
menarik kesimpulan dari sebuah dataset yang terdiri dari sampel data yang tidak memiliki
label. Metode unsupervised learning yang paling umum adalah analisis cluster, yang
memanfaatkan analisis data eksplanatori untuk menemukan pola/struktur tersembunyi atau
pengelompokkan pada data tidak berlabel. Karena data yang digunakan pada proses
pembelajaran tidak berlabel, maka output dari proses clustering tidak dapat dievaluasi
kebenarannya. Hal tersebut yang membedakan unsupervised learning dari supervised learning.
Beberapa alasan untuk melakukan unsupervised learning, diantaranya:
a. Proses memberi label pada pola dalam jumlah yang banyak membutuhkan waktu
b. Unsupervised learning dapat dilakukan pada data tidak berlabel, selanjutnya kelompok
data dengan berkarakteristik serupa diberi label sesuai dengan pengetahuan dari expert.
Data yang sudah diberi label kemudian dapat digunakan untuk proses training pada
supervised learning.
c. Melakukan ekstraksi fitur (Principal Component Analysis, Independent Component
Analysis, Singular Value Decomposition)
d. Analisis data ekspanatori pada unsupervised learning memberikan gambaran mengenai
struktur dari data.
Unsupervised learning memiliki memiliki relasi yang kuat dengan permasalahan
estimasi densitas pada statistika. Namun, usupervised learning juga dapat dimanfaatkan
untuk penarikan kesimpulan serta memberikan penjelasan tentang karakteristik utama dari
data. Beberapa pendekatan unsupervised learning, yaitu:
e. Clustering (k-means, mixture model, hierarchical clustering)
f. Hidden Markov Models
g. Teknik ekstraksi fitur untuk reduksi dimensi:
- Principal Component Analysis (PCA)
- Independent Component Analysis (ICA)
- Singular Value Decomposition (SVD)
Machine Vision
ISI MATERI
Clustering
Cluster analysis atau clustering adalah proses untuk mengelompokkan sekumpulan
obyek sedemikian sehingga obyek-obyek dalam kelompok yang sama (disebut cluster)
memiliki kemiripan yang lebih tinggi dibanding obyek-obyek pada kelompok lain. Clustering
merupakan proses utama dalam data mining, dan merupakan teknik yang secara umum
digunakan dalam analisis data secara statistik, juga digunakan pada banyak bidang seperti
pembelajaran mesin, pengenalan pola, analisis citra, temu kembali informasi, dan
bioinformatik.
Terdapat banyak pendekatan dalam melakukan clustering, masing-masing pendekatan
menggunakan model cluster dan algoritma berbeda. Beberapa model cluster sebagai berikut:
a. Model connectivity: contoh hierarchical clustering yang membangun model berdasarkan
distance connectivity.
b. Model centroid: contoh algoritma k-means yang merepresentasikan setiap cluster dengan
sebuah vektor mean.
c. Model distribusi: memodelkan cluster dengan distribusi statistik seperti distribusi normal
multivariate yang digunakan dalam algoritma Expectation-Maximization.
d. Model densitas: contoh DBSCAN dan OPTICS yang mendefiisikan cluser sebagai
connected dense region pada ruang data.
e. Model subspace: contoh Biclustering (dikenal juga sebagai Co-clustering atau two-mode-
clustering), dimana cluster dimodelkan oleh anggota cluster dan atribut-atribut yang
relevan.
f. Model graph: sebuah clique, yaitu subset dari node pada graph sedemikian sehingga
untuk setiap dua node dalam subset yang terkoneksi oleh sebuah edge dipertimbangkan
sebagai bentuk prototipe dari cluster.
Secara umum algoritma clustering bekerja berdasarkan salah satu dari dua pendekatan
berikut:
a. Iterative squared-error partitioning
b. Agglomerative hierarchical clustering
Machine Vision
Squared-Error Partitioning
Berikut algoritma clustering berdasarkan pendekatan squared-error partitioning:
Misalkan suatu data yang terdiri dari n pola akan dikelompokkan menjadi k cluster D1, ..., Dk.
Misalkan ni menyatakan jumlah sampel pada Di, dan misalkan mi adalah nilai rata-rata dari
sampel tersebut:



i
D
x
i
i x
n
m
1
Sum-of-square errors didefinisikan oleh:

 


k
i D
x
i
e
i
m
x
J
1
2
Untuk setiap cluster Di, mean vector mi atau disebut juga centroid, adalah representasi terbaik
dari semua sampel pada Di.
K-Means Clustering
Algoritma umum untuk iterative squered-error partitioning adalah sebagai berikut:
1. Tentukan jumlah cluster, misal k
2. Inisialisasi centroid dengan cara memilih k sampel secara acak
3. Tentukan keanggotaan tiap sampel ke dalam salah satu cluster dengan cara mencari jarak
terdekat ke centroid.
4. Tentukan centroid baru dengan cara menghitung mean vector dari masing-masing cluster.
5. Lakukan langkah 3 dan 4 hingga nilai optimal dari fungsi obyektif terpenuhi (misal:
hingga ditemukan local minimum atau jumlah iterasi dipenuhi).
6. Sesuaikan jumlah cluster dengan melakukan penggabungan atau pemisahan dari cluster
yang sudah terbentuk dengan cara menghapus cluster dengan jumlah anggotanya sedikit
atau merupakan outlier.
Machine Vision
Langkah 1 hingga 5 dikenal sebagai k-means clustering. Gambar berikut memperlihatkan
ilustrasi proses clustering terhadap 30 sampel data kedalam 3 cluster: (a) inisialisasi centroid
secara acak; (b) menentukan keanggotaan setiap cluster; (c) iterasi-1: menentukan centroid
baru dan anggotanya; (d) iterasi-2: menentukan centroid baru dan anggotanya; (e) iterasi-3:
menentukan centroid baru dan anggotanya. Pada iterasi ketiga posisi centroid sama dengan
iterasi kedua, sehingga proses clustering dapat dihentikan karena sudah konvergen.
(a) (b)
(c) (d)
(e)
Machine Vision
Proses komputasi K-means clustering sangat efisien dan dapat memberikan hasil yang baik
jika cluster bersifat kompak dan dapat dipisahkan dengan baik pada ruang fitur. Namun
pemilihan jumlah cluster atau nilai k yang tidak optimal akan menghasilkan pengelompokkan
yang tidak akurat. Pemilihan nilai k dapat dilakukan secara empiris maupun berdasarkan
pengetahuan sebelumnya mengenai data.
Hierarchical Clustering
K-means clustering menghasilkan deskripsi data yang bersifat flat, dimana setiap cluster
terpisah pada level yang sama. Pada aplikasi tertentu, sekelompok pola memiliki karakteristik
yang serupa jika dilihat pada level tertentu. Hierarchical clustering berusaha menangkap
pengelompokkan multi level tersebut menggunakan representasi bertingkat/hierarchical.
Berikut karakteristik hierarchical clustering dari data dengan n sampel:
a. Level pertama terdiri dari n cluster, dengan demikian tiap cluster beranggotakan sebuah
sampel.
b. Level kedua terdiri dari n-1 cluster
c. Level ketiga terdiri dari n-2 cluster
d. Dan selanjutnya hingga pada level terakhir (n) terdiri dari satu cluster dengan seluruh
sampel sebagai anggotanya.
Setiap dua sampel pada level tertentu akan dikelompokkan menjadi satu cluster dan akan
tetap akan bergabung sama pada level berikutnya. Hierarchical clustering biasanya
direpresentasikan sebagai tree atau dendogram, yang menunjukkan bagaimana setiap sampel
berkelompok. Berikut algoritma dari Agglomerative Hierarchical Clustering:
1. Tentukan jumlah cluster.
2. Tempatkan tiap sampel pada cluster.
3. Hitung jarak antar setiap cluster.
4. Gabungkan cluster yang memiliki jarak terdekat.
5. Lakukan langkah 3 dan 4 hingga tersisa satu cluster saja.
Berikut beberapa rumus yang umum digunakan untuk mengukur jarak antara dua cluster Di
dan Dj:
Machine Vision
j
i
j
i
mean
D
x D
x
j
i
j
i
avg
D
x
D
x
j
i
D
x
D
x
j
i
m
m
D
D
d
x
x
D
D
D
D
d
x
x
D
D
d
x
x
D
D
d
i j
j
i
j
i








 
 




)
,
(
#
1
)
,
(
max
)
,
(
min
)
,
(
'
,
,
max
,
min
Gambar berikut memperlihatkan tahapan proses hierarchical clustering terhadap 10
sampel data. Berikut penjelasan dari setiap tahapan tersebut:
(a) Bagi data menjadi 10 cluster yang masing-masing berisi satu sampel data.
(b) Cari dua cluster yang memiliki jarak terdekat kemudian gabungkan cluster tersebut
sehingga jumlah cluster hanya tinggal 9.
(c) Cari dua cluster yang memiliki jarak terdekat dengan menganggap cluster yang
sebelumnya sudah bergabung sebagai sebuah cluster kemudian gabungkan cluster
tersebut sehingga jumlah cluster tinggal 8.
(d) Ulangi langkah (c) hingga tersisa hanya satu cluster saja seperti diperlihatkan pada
gambar (i)
Machine Vision
(a) (b) (c)
(d) (e) (f)
(g) (h) (i)
(j)
Machine Vision
SIMPULAN
1. Salah satu aplikasi utama dari unsupervised learning adalah pengelompokkan data
atau clustering.
2. Selain dapat digunakan untuk pengelompokkan data, unsupervised clustering juga
dapat dimanfaatkan untuk ekstraksi fitur dan reduksi dimensi.
3. Akurasi dari k-means clustering sangat dipengaruhi oleh pemilihan jumlah cluster
awal.
4. Hierarchical clustering memungkinkan pengelompokkan data secara
bertingkat/hierarchical, sehingga karakteristik pengelompokkan data dapat dilihat
pada setiap level-nya.
Machine Vision
DAFTAR PUSTAKA
1. Forsyth. (2011). Computer Vision a Modern Approach (2nd
Edition). Prentice Hall.
New Jersey. ISBN-10: 013608592X. ISBN-13: 978-0136085928.
2. Image Segmentation, http://www.kevinroper.org/image-segmentation/
3. A Tutorial on Clustering Algorithms,
http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/index.html
4. Introduction to K-means Clustering, https://www.datascience.com/blog/introduction-
to-k-means-clustering-algorithm-learn-data-science-tutorials
5. Hierarchical Clustering,
http://www.cs.princeton.edu/courses/archive/spr08/cos424/slides/clustering-2.pdf

More Related Content

PDF
LN s08-machine vision-s2
PDF
LN s07-machine vision-s2
PDF
LN s12-machine vision-s2
PDF
LN s06-machine vision-s2
PDF
Review paper
PDF
LN s04-machine vision-s2
PDF
LN s01-machine vision-s2
PDF
Jurnal 15398 ilmplementasi k-nearest neighbor untuk mengenali pola citra dala...
LN s08-machine vision-s2
LN s07-machine vision-s2
LN s12-machine vision-s2
LN s06-machine vision-s2
Review paper
LN s04-machine vision-s2
LN s01-machine vision-s2
Jurnal 15398 ilmplementasi k-nearest neighbor untuk mengenali pola citra dala...

What's hot (19)

PDF
Pemanfaatan Stack Untuk Deteksi Gerakan
PDF
Segmentasi Citra Wajah Menggunakan Metode Level Set
PDF
Bab 4 operasi-operasi dasar pengolahan citra dijital
DOC
Deteksi, pelacakan dan jumlah kendaraan dengan moving average subtraction dan...
PDF
Bab 2 pembentukan citra
PDF
PENGUKURAN KEMIIRIPAN SEMATIK CITRA DENGAN BAG OF WORDS LOKAL FRAGEMEN SEMATI...
PDF
2 tadan83-106
DOCX
Jenis-Jenis Format Citra
DOC
Kelompok11
PDF
Bab 11 citra biner
PDF
jurnal pengolahan citra
PDF
SEGMENTASI CITRA DENGAN VARIASI RGB DAN ALGORITMA PERCEPTRON
PPTX
Slide minggu 6 (citra digital)
PPT
pembentukan citra (pengolahan citra digital)
PDF
Materi Pengantar Pengolahan Citra
PDF
Naskah%20 publikasi
PDF
Binarisasi Citra Menggunakan Pencocokan Piksel
PDF
Pcd 2
Pemanfaatan Stack Untuk Deteksi Gerakan
Segmentasi Citra Wajah Menggunakan Metode Level Set
Bab 4 operasi-operasi dasar pengolahan citra dijital
Deteksi, pelacakan dan jumlah kendaraan dengan moving average subtraction dan...
Bab 2 pembentukan citra
PENGUKURAN KEMIIRIPAN SEMATIK CITRA DENGAN BAG OF WORDS LOKAL FRAGEMEN SEMATI...
2 tadan83-106
Jenis-Jenis Format Citra
Kelompok11
Bab 11 citra biner
jurnal pengolahan citra
SEGMENTASI CITRA DENGAN VARIASI RGB DAN ALGORITMA PERCEPTRON
Slide minggu 6 (citra digital)
pembentukan citra (pengolahan citra digital)
Materi Pengantar Pengolahan Citra
Naskah%20 publikasi
Binarisasi Citra Menggunakan Pencocokan Piksel
Pcd 2
Ad

Similar to LN s10-machine vision-s2 (20)

PPTX
Materi Kecerdasan Bisnis (Data Science) : clustering
PPTX
Clustering_fix(1) tentang algoritma kmeans.pptx
PPTX
Presentasi Materi Data Maning klasifikasi
PDF
Machine Learning Diskusi 9.pdf
PDF
Machine Learning Diskusi 10.pdf
PPTX
ALGORITMA UNSUPERVISED LEARNING K MEANS.pptx
PDF
Belajar mudah algoritma data mining k means
PPTX
MPPL MPPL MPPL MPPL MPPL MPPL MPPL MPPL MPPL
PPTX
K-MEANS CLUSTERING.pptx
PPTX
Analisis Cluster-Teknik data mining perpisahan objek sesuai karakteristikpptx
PPTX
Algoritma Klasifikasi K-Means Clustering.pptx
PPT
Clustering
PPTX
Clustering_hirarki (tanpa narasi) (1).pptx
PPTX
Pert 04 clustering data mining
PPTX
3. K MEANS .pptx
PDF
Pcd 012 - pengenalan pola (lanjutan)
PPTX
analisis kluster
PPTX
Clustering Kelompok 4 FIXXXXXXXXXXX.pptx
PDF
PDF
Klasterisasi - Algoritma K-Means Clustering.pdf
Materi Kecerdasan Bisnis (Data Science) : clustering
Clustering_fix(1) tentang algoritma kmeans.pptx
Presentasi Materi Data Maning klasifikasi
Machine Learning Diskusi 9.pdf
Machine Learning Diskusi 10.pdf
ALGORITMA UNSUPERVISED LEARNING K MEANS.pptx
Belajar mudah algoritma data mining k means
MPPL MPPL MPPL MPPL MPPL MPPL MPPL MPPL MPPL
K-MEANS CLUSTERING.pptx
Analisis Cluster-Teknik data mining perpisahan objek sesuai karakteristikpptx
Algoritma Klasifikasi K-Means Clustering.pptx
Clustering
Clustering_hirarki (tanpa narasi) (1).pptx
Pert 04 clustering data mining
3. K MEANS .pptx
Pcd 012 - pengenalan pola (lanjutan)
analisis kluster
Clustering Kelompok 4 FIXXXXXXXXXXX.pptx
Klasterisasi - Algoritma K-Means Clustering.pdf
Ad

More from Binus Online Learning (20)

PDF
LN s11-machine vision-s2
PDF
LN s09-machine vision-s2
PDF
LN s05-machine vision-s2
PDF
LN s03-machine vision-s2
PDF
LN s02-machine vision-s2
PDF
PPT s12-machine vision-s2
PDF
PPT s11-machine vision-s2
PDF
PPT s10-machine vision-s2
PDF
PPT s09-machine vision-s2
PDF
PPT s08-machine vision-s2
PDF
PPT s07-machine vision-s2
PDF
PPT s06-machine vision-s2
PDF
PPT s05-machine vision-s2
PDF
PPT s04-machine vision-s2
PDF
PPT s03-machine vision-s2
PDF
PPT s02-machine vision-s2
PDF
PPT s01-machine vision-s2
PDF
LN sesi 2 delivering quality-1
PPTX
PPT Sesi 2 FO the guest delivering quality-1
PPTX
PPT Sesi 3 FO the guest - delivering quality 2
LN s11-machine vision-s2
LN s09-machine vision-s2
LN s05-machine vision-s2
LN s03-machine vision-s2
LN s02-machine vision-s2
PPT s12-machine vision-s2
PPT s11-machine vision-s2
PPT s10-machine vision-s2
PPT s09-machine vision-s2
PPT s08-machine vision-s2
PPT s07-machine vision-s2
PPT s06-machine vision-s2
PPT s05-machine vision-s2
PPT s04-machine vision-s2
PPT s03-machine vision-s2
PPT s02-machine vision-s2
PPT s01-machine vision-s2
LN sesi 2 delivering quality-1
PPT Sesi 2 FO the guest delivering quality-1
PPT Sesi 3 FO the guest - delivering quality 2

Recently uploaded (14)

PPTX
Metode Penanggulangan Kehilangan Air dan Strategi Pengendalian Kehilangan Air...
PPTX
KETERAMPILAN KADER - Copy TAHUN 2024.pptx
DOCX
MPLS PAUD.docx teks sebagai penyemangat anak-anak
PPT
Presentasi Tentang Diagram P-h dan Diagram Psikrometrik.ppt
PDF
Jual GPS Topcon HiPer SR Extended Range Site Receiver
PPTX
PRESENTATION PRODUCT KNOWLEDGE Mc-Quay (ID).pptx
PPTX
PPT mssp arham muthahhari mata kuliah ms
PPTX
LAPORAN ANTARA JAKSTRADA PROPINSI NTT.PPT
PDF
441817878-K3-Pada-Alat-Berat.pdf pemahaman
PPTX
Seminar Hasil Penelitian Analisis Pegas Daun
PPTX
Rekayasa Lingkungan menjadikan lingkungan lebih baik
PPTX
Data mining mengolah informasi dan menjadikannya dasar pengambilan keputusan
PPTX
TUGAS Pandangan Aksiologi dalam Filsafat Ilmu.pptx
PPTX
Ilmu Geologi pertambangan dan peran dalam industri.pptx
Metode Penanggulangan Kehilangan Air dan Strategi Pengendalian Kehilangan Air...
KETERAMPILAN KADER - Copy TAHUN 2024.pptx
MPLS PAUD.docx teks sebagai penyemangat anak-anak
Presentasi Tentang Diagram P-h dan Diagram Psikrometrik.ppt
Jual GPS Topcon HiPer SR Extended Range Site Receiver
PRESENTATION PRODUCT KNOWLEDGE Mc-Quay (ID).pptx
PPT mssp arham muthahhari mata kuliah ms
LAPORAN ANTARA JAKSTRADA PROPINSI NTT.PPT
441817878-K3-Pada-Alat-Berat.pdf pemahaman
Seminar Hasil Penelitian Analisis Pegas Daun
Rekayasa Lingkungan menjadikan lingkungan lebih baik
Data mining mengolah informasi dan menjadikannya dasar pengambilan keputusan
TUGAS Pandangan Aksiologi dalam Filsafat Ilmu.pptx
Ilmu Geologi pertambangan dan peran dalam industri.pptx

LN s10-machine vision-s2

  • 1. Machine Vision LECTURE NOTES Machine Vision Session 11 Recognition (2)
  • 2. Machine Vision LEARNING OUTCOMES a. Peserta diharapkan memahami pendekatan unsupervised learning dan clustering untuk mengelompokkan data berdasarkan karakteristik visualnya. OUTLINE MATERI (Sub-Topic): 1. Unsupervised learning 2. Clustering
  • 3. Machine Vision ISI MATERI Unsupervised Learning Unsupervised learning adalah salah satu bentuk pembelajaran mesin yang mencoba menarik kesimpulan dari sebuah dataset yang terdiri dari sampel data yang tidak memiliki label. Metode unsupervised learning yang paling umum adalah analisis cluster, yang memanfaatkan analisis data eksplanatori untuk menemukan pola/struktur tersembunyi atau pengelompokkan pada data tidak berlabel. Karena data yang digunakan pada proses pembelajaran tidak berlabel, maka output dari proses clustering tidak dapat dievaluasi kebenarannya. Hal tersebut yang membedakan unsupervised learning dari supervised learning. Beberapa alasan untuk melakukan unsupervised learning, diantaranya: a. Proses memberi label pada pola dalam jumlah yang banyak membutuhkan waktu b. Unsupervised learning dapat dilakukan pada data tidak berlabel, selanjutnya kelompok data dengan berkarakteristik serupa diberi label sesuai dengan pengetahuan dari expert. Data yang sudah diberi label kemudian dapat digunakan untuk proses training pada supervised learning. c. Melakukan ekstraksi fitur (Principal Component Analysis, Independent Component Analysis, Singular Value Decomposition) d. Analisis data ekspanatori pada unsupervised learning memberikan gambaran mengenai struktur dari data. Unsupervised learning memiliki memiliki relasi yang kuat dengan permasalahan estimasi densitas pada statistika. Namun, usupervised learning juga dapat dimanfaatkan untuk penarikan kesimpulan serta memberikan penjelasan tentang karakteristik utama dari data. Beberapa pendekatan unsupervised learning, yaitu: e. Clustering (k-means, mixture model, hierarchical clustering) f. Hidden Markov Models g. Teknik ekstraksi fitur untuk reduksi dimensi: - Principal Component Analysis (PCA) - Independent Component Analysis (ICA) - Singular Value Decomposition (SVD)
  • 4. Machine Vision ISI MATERI Clustering Cluster analysis atau clustering adalah proses untuk mengelompokkan sekumpulan obyek sedemikian sehingga obyek-obyek dalam kelompok yang sama (disebut cluster) memiliki kemiripan yang lebih tinggi dibanding obyek-obyek pada kelompok lain. Clustering merupakan proses utama dalam data mining, dan merupakan teknik yang secara umum digunakan dalam analisis data secara statistik, juga digunakan pada banyak bidang seperti pembelajaran mesin, pengenalan pola, analisis citra, temu kembali informasi, dan bioinformatik. Terdapat banyak pendekatan dalam melakukan clustering, masing-masing pendekatan menggunakan model cluster dan algoritma berbeda. Beberapa model cluster sebagai berikut: a. Model connectivity: contoh hierarchical clustering yang membangun model berdasarkan distance connectivity. b. Model centroid: contoh algoritma k-means yang merepresentasikan setiap cluster dengan sebuah vektor mean. c. Model distribusi: memodelkan cluster dengan distribusi statistik seperti distribusi normal multivariate yang digunakan dalam algoritma Expectation-Maximization. d. Model densitas: contoh DBSCAN dan OPTICS yang mendefiisikan cluser sebagai connected dense region pada ruang data. e. Model subspace: contoh Biclustering (dikenal juga sebagai Co-clustering atau two-mode- clustering), dimana cluster dimodelkan oleh anggota cluster dan atribut-atribut yang relevan. f. Model graph: sebuah clique, yaitu subset dari node pada graph sedemikian sehingga untuk setiap dua node dalam subset yang terkoneksi oleh sebuah edge dipertimbangkan sebagai bentuk prototipe dari cluster. Secara umum algoritma clustering bekerja berdasarkan salah satu dari dua pendekatan berikut: a. Iterative squared-error partitioning b. Agglomerative hierarchical clustering
  • 5. Machine Vision Squared-Error Partitioning Berikut algoritma clustering berdasarkan pendekatan squared-error partitioning: Misalkan suatu data yang terdiri dari n pola akan dikelompokkan menjadi k cluster D1, ..., Dk. Misalkan ni menyatakan jumlah sampel pada Di, dan misalkan mi adalah nilai rata-rata dari sampel tersebut:    i D x i i x n m 1 Sum-of-square errors didefinisikan oleh:      k i D x i e i m x J 1 2 Untuk setiap cluster Di, mean vector mi atau disebut juga centroid, adalah representasi terbaik dari semua sampel pada Di. K-Means Clustering Algoritma umum untuk iterative squered-error partitioning adalah sebagai berikut: 1. Tentukan jumlah cluster, misal k 2. Inisialisasi centroid dengan cara memilih k sampel secara acak 3. Tentukan keanggotaan tiap sampel ke dalam salah satu cluster dengan cara mencari jarak terdekat ke centroid. 4. Tentukan centroid baru dengan cara menghitung mean vector dari masing-masing cluster. 5. Lakukan langkah 3 dan 4 hingga nilai optimal dari fungsi obyektif terpenuhi (misal: hingga ditemukan local minimum atau jumlah iterasi dipenuhi). 6. Sesuaikan jumlah cluster dengan melakukan penggabungan atau pemisahan dari cluster yang sudah terbentuk dengan cara menghapus cluster dengan jumlah anggotanya sedikit atau merupakan outlier.
  • 6. Machine Vision Langkah 1 hingga 5 dikenal sebagai k-means clustering. Gambar berikut memperlihatkan ilustrasi proses clustering terhadap 30 sampel data kedalam 3 cluster: (a) inisialisasi centroid secara acak; (b) menentukan keanggotaan setiap cluster; (c) iterasi-1: menentukan centroid baru dan anggotanya; (d) iterasi-2: menentukan centroid baru dan anggotanya; (e) iterasi-3: menentukan centroid baru dan anggotanya. Pada iterasi ketiga posisi centroid sama dengan iterasi kedua, sehingga proses clustering dapat dihentikan karena sudah konvergen. (a) (b) (c) (d) (e)
  • 7. Machine Vision Proses komputasi K-means clustering sangat efisien dan dapat memberikan hasil yang baik jika cluster bersifat kompak dan dapat dipisahkan dengan baik pada ruang fitur. Namun pemilihan jumlah cluster atau nilai k yang tidak optimal akan menghasilkan pengelompokkan yang tidak akurat. Pemilihan nilai k dapat dilakukan secara empiris maupun berdasarkan pengetahuan sebelumnya mengenai data. Hierarchical Clustering K-means clustering menghasilkan deskripsi data yang bersifat flat, dimana setiap cluster terpisah pada level yang sama. Pada aplikasi tertentu, sekelompok pola memiliki karakteristik yang serupa jika dilihat pada level tertentu. Hierarchical clustering berusaha menangkap pengelompokkan multi level tersebut menggunakan representasi bertingkat/hierarchical. Berikut karakteristik hierarchical clustering dari data dengan n sampel: a. Level pertama terdiri dari n cluster, dengan demikian tiap cluster beranggotakan sebuah sampel. b. Level kedua terdiri dari n-1 cluster c. Level ketiga terdiri dari n-2 cluster d. Dan selanjutnya hingga pada level terakhir (n) terdiri dari satu cluster dengan seluruh sampel sebagai anggotanya. Setiap dua sampel pada level tertentu akan dikelompokkan menjadi satu cluster dan akan tetap akan bergabung sama pada level berikutnya. Hierarchical clustering biasanya direpresentasikan sebagai tree atau dendogram, yang menunjukkan bagaimana setiap sampel berkelompok. Berikut algoritma dari Agglomerative Hierarchical Clustering: 1. Tentukan jumlah cluster. 2. Tempatkan tiap sampel pada cluster. 3. Hitung jarak antar setiap cluster. 4. Gabungkan cluster yang memiliki jarak terdekat. 5. Lakukan langkah 3 dan 4 hingga tersisa satu cluster saja. Berikut beberapa rumus yang umum digunakan untuk mengukur jarak antara dua cluster Di dan Dj:
  • 8. Machine Vision j i j i mean D x D x j i j i avg D x D x j i D x D x j i m m D D d x x D D D D d x x D D d x x D D d i j j i j i                 ) , ( # 1 ) , ( max ) , ( min ) , ( ' , , max , min Gambar berikut memperlihatkan tahapan proses hierarchical clustering terhadap 10 sampel data. Berikut penjelasan dari setiap tahapan tersebut: (a) Bagi data menjadi 10 cluster yang masing-masing berisi satu sampel data. (b) Cari dua cluster yang memiliki jarak terdekat kemudian gabungkan cluster tersebut sehingga jumlah cluster hanya tinggal 9. (c) Cari dua cluster yang memiliki jarak terdekat dengan menganggap cluster yang sebelumnya sudah bergabung sebagai sebuah cluster kemudian gabungkan cluster tersebut sehingga jumlah cluster tinggal 8. (d) Ulangi langkah (c) hingga tersisa hanya satu cluster saja seperti diperlihatkan pada gambar (i)
  • 9. Machine Vision (a) (b) (c) (d) (e) (f) (g) (h) (i) (j)
  • 10. Machine Vision SIMPULAN 1. Salah satu aplikasi utama dari unsupervised learning adalah pengelompokkan data atau clustering. 2. Selain dapat digunakan untuk pengelompokkan data, unsupervised clustering juga dapat dimanfaatkan untuk ekstraksi fitur dan reduksi dimensi. 3. Akurasi dari k-means clustering sangat dipengaruhi oleh pemilihan jumlah cluster awal. 4. Hierarchical clustering memungkinkan pengelompokkan data secara bertingkat/hierarchical, sehingga karakteristik pengelompokkan data dapat dilihat pada setiap level-nya.
  • 11. Machine Vision DAFTAR PUSTAKA 1. Forsyth. (2011). Computer Vision a Modern Approach (2nd Edition). Prentice Hall. New Jersey. ISBN-10: 013608592X. ISBN-13: 978-0136085928. 2. Image Segmentation, http://www.kevinroper.org/image-segmentation/ 3. A Tutorial on Clustering Algorithms, http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/index.html 4. Introduction to K-means Clustering, https://www.datascience.com/blog/introduction- to-k-means-clustering-algorithm-learn-data-science-tutorials 5. Hierarchical Clustering, http://www.cs.princeton.edu/courses/archive/spr08/cos424/slides/clustering-2.pdf