SlideShare a Scribd company logo
2018 봄학기 VLSI 특론
Clustering
서강대학교 컴퓨터공학과
박호성
Sogang University
목차
0. Prerequisites
1. 문제 정의
2. Clustering
2.1 Linkage-Based clustering
2.2 K-means clustering
2.3 Spectral clustering
3. 결론
4. Reference
Page 1/18
Sogang University
0. Prerequisites
 Supervised learning vs unsupervised learning
 Supervised learning
• 명시적인 정답이 주어진 상태로 학습
• Data value, class pair로 이루어진 데이터로 학습
– Ex> <고양이사진, ‘고양이’> , <손글씨 ‘1’, ‘1’>
• 사전에 labeling된 dataset을 필요로 함
 Unsupervised learning
• 명시적인 정답이 주어지지 않는 상태로 학습
– Ex> <사진1>, <사진2>, <사진3> 의 공통점을 찾아 묶음
• 임의의 벡터 공간에 주어진 데이터를 기준으로 feature나
구조를 찾아내는 학습
Page 2/18
Sogang University
1. 문제 정의
 1. Unsupervised learning의 기준
 임의의 데이터에 대해 어떤 기준으로 몇 개의 cluster를
설정할 것인지 정의해야 함(Ground truth)
Page 3/18
그림 출처:https://ratsgo.github.io/machine%20learning/2017/04/16/clustering/
Sogang University
1. 문제 정의
 2. Unsupervised learning의 방법
 Cluster 간 inter-cluster variance 최대화
 Cluster 간 inner-cluster variance 최소화
• Ex> 음성인식의 음향 모델에서 사용되는
Gaussian Mixture Model(GMM)
Page 4/18그림 출처: http://sanghyukchun.github.io/69/
Sogang University
2. Clustering
 Clustering
 임의의 데이터에 대해, 비슷한 데이터끼리 모으는 것
 Cluster(군집): supervised learning의 class에 대응됨
 Clustering model
• Input
– 임의의 데이터셋
• Output
– 임의의 데이터셋에 대한 cluster별 부분집합
Page 5/18
Sogang University
2. Clustering
 Linkage-based Clustering
 가정
• 모든 데이터는 자신만의 cluster를 가짐
 모든 데이터를 하나의 cluster로 보고, 가장 가까운
(closest) cluster끼리 결합시킴
 Linkage function과 clustering function을 이용하여
clustering 작업 수행
Page 6/18
Sogang University
2. Clustering
 Linkage-based Clustering
 Linkage function
• 임의의 두 데이터에 대해 거리를 출력하는 function
 Clustering function
• Linkage function의 결과를 바탕으로 clustering 수행
• Single linkage
• Average linkage
• Complete linkage
Page 7/18
Sogang University
2. Clustering
 K-means Clustering
 가정
• 데이터에 대한 cluster 개수가 사전에 정해져 있음
• 각각의 cluster는 독립적임
 n개의 data로 이루어진 dataset이 존재할 때, k개의 cluster
를 정의하고, 남은 n-k 개의 dataset에 대해 가장 가까운
centroid를 찾는 방식
• Centroid: cluster의 중심
Page 8/18
Sogang University
2. Clustering
 K-means Clustering
 Expectation Maximization algorithm
• Clustering을 분류할 때 기댓값을 최대로 높이는 방식
 Expectation 방식과 maximization 방식으로 나뉨
• Step 1
– Ground Truth를 random하게 선정 (k=2)
– 붉은 네모는 centroid, 푸른 점은 dataset을 나타냄
Page 9/18그림 출처:https://ratsgo.github.io/machine%20learning/2017/04/16/clustering/
Sogang University
2. Clustering
 K-means Clustering
 Expectation 방식과 maximization 방식으로 나뉨
• Step 2
– Expectation
» Data sample들을 centroid를 기준으로 clustering함
Page 10/18
그림 출처:https://ratsgo.github.io/machine%20learning/2017/04/16/clustering/
Sogang University
2. Clustering
 K-means Clustering
 Expectation 방식과 maximization 방식으로 나뉨
• Step 3
– Maximization
» Cluster의 크기가 최대가 되도록 centroid를 update함
Page 11/18
그림 출처:https://ratsgo.github.io/machine%20learning/2017/04/16/clustering/
Sogang University
2. Clustering
 K-means Clustering
 Expectation 방식과 maximization 방식으로 나뉨
• Step 4
– Expectation
» Centroid를 기준으로 dataset을 다시 clustering함
Page 12/18
그림 출처:https://ratsgo.github.io/machine%20learning/2017/04/16/clustering/
Sogang University
2. Clustering
 K-means Clustering
 Expectation 방식과 maximization 방식으로 나뉨
• Step 5
– Maximization
» Centroid의 위치를 다시 update
Page 13/18
그림 출처:https://ratsgo.github.io/machine%20learning/2017/04/16/clustering/
Sogang University
2. Clustering
 Spectral Clustering
 Graph-based clustering 기법
 주어진 dataset에 대해 adjacency matrix를 만들고,
weight에 따라 clustering을 수행하는 방법
Page 14/18
그림 출처: https://imgur.com/zAyiJXm
Sogang University
2. Clustering
 Spectral Clustering
 주어진 dataset에 대해 fully-connected graph를 만든 뒤,
가까운 edge들을 살리고 먼 edge들을 끊어 버림
• k-nearest neighbor graph
– 각 노드 주변 k개 만 edge로 연결하고 나머지를 끊는 방식
• ε-neighborhood graph
– 거리가 ε 보다 먼 edge들을 끊는 방식
Page 15/18그림 출처: https://imgur.com/d8yZTY1
Sogang University
3. 결 론
 Unsupervised learning의 정의
 Labeling 되어 있지 않은 데이터를 군집화하는 방법
 Unsupervised learning의 기준
 임의로 설정한 ground truth에서 출발함
 Unsupervised learning의 방법
 Linkage-based clustering
 k-means clustering
 Spectral clustering
Page 16/18
Sogang University
참고 문헌
 Ackerman, M., Ben-David, S., & Loker, D., “A
Characterization of Linkage-Based Clustering: An
Extended Abstract,” Proceedings of COLT, 2010.
 Tishby, N., Pereira, F. C., & Bialek, W., “The
information bottleneck method,” arXiv preprint
physics/0004057, 2000.
 Duda, R. O., Hart, P. E., & Stork, D. G., “Pattern
classification,” John Wiley & Sons, 2012.
Page 17/18

More Related Content

PDF
DeepAR:Probabilistic Forecasting with Autogressive Recurrent Networks
PPTX
001 k means clustering 알고리즘을 활용한 가정 전기 사용량 분석-ver0
PDF
[Paper] auto ml part 1
PDF
공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작
PDF
AUTOML
PPTX
[0305] hyunwook
PDF
Lecture 3: Unsupervised Learning
PDF
파이썬(Python) 으로 나만의 딥러닝 API 만들기 강좌 (Feat. AutoAI )
DeepAR:Probabilistic Forecasting with Autogressive Recurrent Networks
001 k means clustering 알고리즘을 활용한 가정 전기 사용량 분석-ver0
[Paper] auto ml part 1
공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작
AUTOML
[0305] hyunwook
Lecture 3: Unsupervised Learning
파이썬(Python) 으로 나만의 딥러닝 API 만들기 강좌 (Feat. AutoAI )

Similar to Clustering for graduate course in Sogang university (20)

PDF
From maching learning to deep learning episode2
PDF
캐빈머피 머신러닝 Kevin Murphy Machine Learning Statistic
PDF
Week12 cluster(1)
PDF
Week13 cluster(2)
PDF
3.unsupervised learing
PDF
3.unsupervised learing(epoch#2)
PDF
Gaussian Mixture Model
PDF
05. k means clustering ( k-means 클러스터링)
PDF
데이터처리와 통계 기본 머신러닝
PDF
08. spectal clustering
PPTX
머피's 머신러닝, Mixture model and EM algorithm
PPTX
Ml for 정형데이터
PPTX
Murpy's Machine Learing: 10. Directed Graphical Model
PDF
(Book Summary) Classification and ensemble(book review)
PDF
06. graph mining
PDF
Ch.5 machine learning basics
PPTX
Lightgbm_suman
PDF
코드와 실습으로 이해하는 인공지능
PDF
Naive ML Overview
PPTX
Guided policy search
From maching learning to deep learning episode2
캐빈머피 머신러닝 Kevin Murphy Machine Learning Statistic
Week12 cluster(1)
Week13 cluster(2)
3.unsupervised learing
3.unsupervised learing(epoch#2)
Gaussian Mixture Model
05. k means clustering ( k-means 클러스터링)
데이터처리와 통계 기본 머신러닝
08. spectal clustering
머피's 머신러닝, Mixture model and EM algorithm
Ml for 정형데이터
Murpy's Machine Learing: 10. Directed Graphical Model
(Book Summary) Classification and ensemble(book review)
06. graph mining
Ch.5 machine learning basics
Lightgbm_suman
코드와 실습으로 이해하는 인공지능
Naive ML Overview
Guided policy search
Ad

Clustering for graduate course in Sogang university

  • 1. 2018 봄학기 VLSI 특론 Clustering 서강대학교 컴퓨터공학과 박호성
  • 2. Sogang University 목차 0. Prerequisites 1. 문제 정의 2. Clustering 2.1 Linkage-Based clustering 2.2 K-means clustering 2.3 Spectral clustering 3. 결론 4. Reference Page 1/18
  • 3. Sogang University 0. Prerequisites  Supervised learning vs unsupervised learning  Supervised learning • 명시적인 정답이 주어진 상태로 학습 • Data value, class pair로 이루어진 데이터로 학습 – Ex> <고양이사진, ‘고양이’> , <손글씨 ‘1’, ‘1’> • 사전에 labeling된 dataset을 필요로 함  Unsupervised learning • 명시적인 정답이 주어지지 않는 상태로 학습 – Ex> <사진1>, <사진2>, <사진3> 의 공통점을 찾아 묶음 • 임의의 벡터 공간에 주어진 데이터를 기준으로 feature나 구조를 찾아내는 학습 Page 2/18
  • 4. Sogang University 1. 문제 정의  1. Unsupervised learning의 기준  임의의 데이터에 대해 어떤 기준으로 몇 개의 cluster를 설정할 것인지 정의해야 함(Ground truth) Page 3/18 그림 출처:https://ratsgo.github.io/machine%20learning/2017/04/16/clustering/
  • 5. Sogang University 1. 문제 정의  2. Unsupervised learning의 방법  Cluster 간 inter-cluster variance 최대화  Cluster 간 inner-cluster variance 최소화 • Ex> 음성인식의 음향 모델에서 사용되는 Gaussian Mixture Model(GMM) Page 4/18그림 출처: http://sanghyukchun.github.io/69/
  • 6. Sogang University 2. Clustering  Clustering  임의의 데이터에 대해, 비슷한 데이터끼리 모으는 것  Cluster(군집): supervised learning의 class에 대응됨  Clustering model • Input – 임의의 데이터셋 • Output – 임의의 데이터셋에 대한 cluster별 부분집합 Page 5/18
  • 7. Sogang University 2. Clustering  Linkage-based Clustering  가정 • 모든 데이터는 자신만의 cluster를 가짐  모든 데이터를 하나의 cluster로 보고, 가장 가까운 (closest) cluster끼리 결합시킴  Linkage function과 clustering function을 이용하여 clustering 작업 수행 Page 6/18
  • 8. Sogang University 2. Clustering  Linkage-based Clustering  Linkage function • 임의의 두 데이터에 대해 거리를 출력하는 function  Clustering function • Linkage function의 결과를 바탕으로 clustering 수행 • Single linkage • Average linkage • Complete linkage Page 7/18
  • 9. Sogang University 2. Clustering  K-means Clustering  가정 • 데이터에 대한 cluster 개수가 사전에 정해져 있음 • 각각의 cluster는 독립적임  n개의 data로 이루어진 dataset이 존재할 때, k개의 cluster 를 정의하고, 남은 n-k 개의 dataset에 대해 가장 가까운 centroid를 찾는 방식 • Centroid: cluster의 중심 Page 8/18
  • 10. Sogang University 2. Clustering  K-means Clustering  Expectation Maximization algorithm • Clustering을 분류할 때 기댓값을 최대로 높이는 방식  Expectation 방식과 maximization 방식으로 나뉨 • Step 1 – Ground Truth를 random하게 선정 (k=2) – 붉은 네모는 centroid, 푸른 점은 dataset을 나타냄 Page 9/18그림 출처:https://ratsgo.github.io/machine%20learning/2017/04/16/clustering/
  • 11. Sogang University 2. Clustering  K-means Clustering  Expectation 방식과 maximization 방식으로 나뉨 • Step 2 – Expectation » Data sample들을 centroid를 기준으로 clustering함 Page 10/18 그림 출처:https://ratsgo.github.io/machine%20learning/2017/04/16/clustering/
  • 12. Sogang University 2. Clustering  K-means Clustering  Expectation 방식과 maximization 방식으로 나뉨 • Step 3 – Maximization » Cluster의 크기가 최대가 되도록 centroid를 update함 Page 11/18 그림 출처:https://ratsgo.github.io/machine%20learning/2017/04/16/clustering/
  • 13. Sogang University 2. Clustering  K-means Clustering  Expectation 방식과 maximization 방식으로 나뉨 • Step 4 – Expectation » Centroid를 기준으로 dataset을 다시 clustering함 Page 12/18 그림 출처:https://ratsgo.github.io/machine%20learning/2017/04/16/clustering/
  • 14. Sogang University 2. Clustering  K-means Clustering  Expectation 방식과 maximization 방식으로 나뉨 • Step 5 – Maximization » Centroid의 위치를 다시 update Page 13/18 그림 출처:https://ratsgo.github.io/machine%20learning/2017/04/16/clustering/
  • 15. Sogang University 2. Clustering  Spectral Clustering  Graph-based clustering 기법  주어진 dataset에 대해 adjacency matrix를 만들고, weight에 따라 clustering을 수행하는 방법 Page 14/18 그림 출처: https://imgur.com/zAyiJXm
  • 16. Sogang University 2. Clustering  Spectral Clustering  주어진 dataset에 대해 fully-connected graph를 만든 뒤, 가까운 edge들을 살리고 먼 edge들을 끊어 버림 • k-nearest neighbor graph – 각 노드 주변 k개 만 edge로 연결하고 나머지를 끊는 방식 • ε-neighborhood graph – 거리가 ε 보다 먼 edge들을 끊는 방식 Page 15/18그림 출처: https://imgur.com/d8yZTY1
  • 17. Sogang University 3. 결 론  Unsupervised learning의 정의  Labeling 되어 있지 않은 데이터를 군집화하는 방법  Unsupervised learning의 기준  임의로 설정한 ground truth에서 출발함  Unsupervised learning의 방법  Linkage-based clustering  k-means clustering  Spectral clustering Page 16/18
  • 18. Sogang University 참고 문헌  Ackerman, M., Ben-David, S., & Loker, D., “A Characterization of Linkage-Based Clustering: An Extended Abstract,” Proceedings of COLT, 2010.  Tishby, N., Pereira, F. C., & Bialek, W., “The information bottleneck method,” arXiv preprint physics/0004057, 2000.  Duda, R. O., Hart, P. E., & Stork, D. G., “Pattern classification,” John Wiley & Sons, 2012. Page 17/18