2. Sogang University
목차
0. Prerequisites
1. 문제 정의
2. Clustering
2.1 Linkage-Based clustering
2.2 K-means clustering
2.3 Spectral clustering
3. 결론
4. Reference
Page 1/18
3. Sogang University
0. Prerequisites
Supervised learning vs unsupervised learning
Supervised learning
• 명시적인 정답이 주어진 상태로 학습
• Data value, class pair로 이루어진 데이터로 학습
– Ex> <고양이사진, ‘고양이’> , <손글씨 ‘1’, ‘1’>
• 사전에 labeling된 dataset을 필요로 함
Unsupervised learning
• 명시적인 정답이 주어지지 않는 상태로 학습
– Ex> <사진1>, <사진2>, <사진3> 의 공통점을 찾아 묶음
• 임의의 벡터 공간에 주어진 데이터를 기준으로 feature나
구조를 찾아내는 학습
Page 2/18
4. Sogang University
1. 문제 정의
1. Unsupervised learning의 기준
임의의 데이터에 대해 어떤 기준으로 몇 개의 cluster를
설정할 것인지 정의해야 함(Ground truth)
Page 3/18
그림 출처:https://ratsgo.github.io/machine%20learning/2017/04/16/clustering/
5. Sogang University
1. 문제 정의
2. Unsupervised learning의 방법
Cluster 간 inter-cluster variance 최대화
Cluster 간 inner-cluster variance 최소화
• Ex> 음성인식의 음향 모델에서 사용되는
Gaussian Mixture Model(GMM)
Page 4/18그림 출처: http://sanghyukchun.github.io/69/
6. Sogang University
2. Clustering
Clustering
임의의 데이터에 대해, 비슷한 데이터끼리 모으는 것
Cluster(군집): supervised learning의 class에 대응됨
Clustering model
• Input
– 임의의 데이터셋
• Output
– 임의의 데이터셋에 대한 cluster별 부분집합
Page 5/18
7. Sogang University
2. Clustering
Linkage-based Clustering
가정
• 모든 데이터는 자신만의 cluster를 가짐
모든 데이터를 하나의 cluster로 보고, 가장 가까운
(closest) cluster끼리 결합시킴
Linkage function과 clustering function을 이용하여
clustering 작업 수행
Page 6/18
8. Sogang University
2. Clustering
Linkage-based Clustering
Linkage function
• 임의의 두 데이터에 대해 거리를 출력하는 function
Clustering function
• Linkage function의 결과를 바탕으로 clustering 수행
• Single linkage
• Average linkage
• Complete linkage
Page 7/18
9. Sogang University
2. Clustering
K-means Clustering
가정
• 데이터에 대한 cluster 개수가 사전에 정해져 있음
• 각각의 cluster는 독립적임
n개의 data로 이루어진 dataset이 존재할 때, k개의 cluster
를 정의하고, 남은 n-k 개의 dataset에 대해 가장 가까운
centroid를 찾는 방식
• Centroid: cluster의 중심
Page 8/18
10. Sogang University
2. Clustering
K-means Clustering
Expectation Maximization algorithm
• Clustering을 분류할 때 기댓값을 최대로 높이는 방식
Expectation 방식과 maximization 방식으로 나뉨
• Step 1
– Ground Truth를 random하게 선정 (k=2)
– 붉은 네모는 centroid, 푸른 점은 dataset을 나타냄
Page 9/18그림 출처:https://ratsgo.github.io/machine%20learning/2017/04/16/clustering/
11. Sogang University
2. Clustering
K-means Clustering
Expectation 방식과 maximization 방식으로 나뉨
• Step 2
– Expectation
» Data sample들을 centroid를 기준으로 clustering함
Page 10/18
그림 출처:https://ratsgo.github.io/machine%20learning/2017/04/16/clustering/
12. Sogang University
2. Clustering
K-means Clustering
Expectation 방식과 maximization 방식으로 나뉨
• Step 3
– Maximization
» Cluster의 크기가 최대가 되도록 centroid를 update함
Page 11/18
그림 출처:https://ratsgo.github.io/machine%20learning/2017/04/16/clustering/
13. Sogang University
2. Clustering
K-means Clustering
Expectation 방식과 maximization 방식으로 나뉨
• Step 4
– Expectation
» Centroid를 기준으로 dataset을 다시 clustering함
Page 12/18
그림 출처:https://ratsgo.github.io/machine%20learning/2017/04/16/clustering/
14. Sogang University
2. Clustering
K-means Clustering
Expectation 방식과 maximization 방식으로 나뉨
• Step 5
– Maximization
» Centroid의 위치를 다시 update
Page 13/18
그림 출처:https://ratsgo.github.io/machine%20learning/2017/04/16/clustering/
15. Sogang University
2. Clustering
Spectral Clustering
Graph-based clustering 기법
주어진 dataset에 대해 adjacency matrix를 만들고,
weight에 따라 clustering을 수행하는 방법
Page 14/18
그림 출처: https://imgur.com/zAyiJXm
16. Sogang University
2. Clustering
Spectral Clustering
주어진 dataset에 대해 fully-connected graph를 만든 뒤,
가까운 edge들을 살리고 먼 edge들을 끊어 버림
• k-nearest neighbor graph
– 각 노드 주변 k개 만 edge로 연결하고 나머지를 끊는 방식
• ε-neighborhood graph
– 거리가 ε 보다 먼 edge들을 끊는 방식
Page 15/18그림 출처: https://imgur.com/d8yZTY1
17. Sogang University
3. 결 론
Unsupervised learning의 정의
Labeling 되어 있지 않은 데이터를 군집화하는 방법
Unsupervised learning의 기준
임의로 설정한 ground truth에서 출발함
Unsupervised learning의 방법
Linkage-based clustering
k-means clustering
Spectral clustering
Page 16/18
18. Sogang University
참고 문헌
Ackerman, M., Ben-David, S., & Loker, D., “A
Characterization of Linkage-Based Clustering: An
Extended Abstract,” Proceedings of COLT, 2010.
Tishby, N., Pereira, F. C., & Bialek, W., “The
information bottleneck method,” arXiv preprint
physics/0004057, 2000.
Duda, R. O., Hart, P. E., & Stork, D. G., “Pattern
classification,” John Wiley & Sons, 2012.
Page 17/18