SlideShare a Scribd company logo
최종현
2
Dimensionality Reduction
3
Dimensionality Reduction
Supervised
Dimensionality
Reduction
Un-supervised
Linear
Discriminant
Analysis
Linear
Non-Linear
•PCA
•MDS
Global
Local
•ISOMAP
Locally
Linear
Embedding
4
Factor Analysis
 요인분석 또는 인자분석 이라고 함
 수많은 변수들 중에서 잠재된(Latent) 몇 개의 변수(요인)을 찾아내는 것
 변수들 간의 상관관계를 고려하여 서로 유사한 변수들 끼리 묶어주는 방법
 변수들 중에서 몇 개의 요인(Factor)에 의해 영향을 받는가 알아보는 것
 Factor Analysis 목적
1) 입력변수들의 특성 파악
• 데이터 분석에 앞서 데이터를 이해하는 과정
2) 새로운 변수 생성
• Latent Variable을 추가하여 데이터 분석
3) 차원 축소
• Latent Variable로 차원 축소
5
PCA vs FA
 공통점
• Dimensionality Reduction
• 원래의 데이터로부터 새로운 변수들을 생성
 차이점
1) 생성되는 변수의 수
• FA: 몇 개라고 지정할 수 없음. 데이터의 의미에 따라 다름 (3개, 4개, …)
• PCA: 보통 2개를 가짐.(PC1, PC2)
2) 생성된 변수들의 관계
• FA: Latent Variable들은 기본적으로 대등한 관계를 가짐 어떤 것이 더 중요하다는 것이 없음
• PCA: Target 변수를 고려함. Target을 잘 예측/분류하기 위하여 주성분(변수)들을 찾아냄
6
Independent Component Analysis (ICA)
 독립 성분 분석
 Signal processing에서, 다변량의 신호를 하위 성분(subcomponent)로 분리하는 계산 방법
 블라인드 음원 분리의 한 방법  대표적으로 Cocktail party Problem이 있음
7
MANIFOLD
 ManiFold, 다양체
 Topological space의 일부
 Locally Euclidean
 위상수학과 기하학에서, 다양체(多樣體, 영어: manifold 매니폴드[*])는 국소적으로 유클리드 공간과 닮은 위상 공간이
다. 즉, 국소적으로는 유클리드 공간과 구별할 수 없으나, 대역적으로 독특한 위상수학적 구조를 가질 수 있다. –wiki-
 원은 모든 점에 대해서 국소적으로 직선과 같은 구조를 가짐
따라서, 원은 1차원 다양체(ManiFold)
8
Locally Linear Embedding (LLE)
 로위스와 사울(Roweis, Saul)에 의해 2000년에 소개됨
 Non-linear dimensionality reduction 중에 하나
 머신러닝 가이드 p.169 참고
9
MDS
 PCA처럼 MDS역시 고차원  저차원의 선형 근사치를 구함
 MDS 임베딩은 모든 점들 간의 거리를 보존
 유클리드 공간에서는 PCA와 MDS가 동일
10
ISOMAP
 Non-linear dimensionality reduction 중에 하나
 Euclidean distance 대신 Geodesic distance(측지선, 타원체상에 있는 두 측점사이의 타원체면을 따라 이루어진 거리)
를 이용하여 계산
11
t-SNE
 t-Distributed Stochastic Neighbor Embedding
 Non-linear dimensionality reduction 중에 하나
 고차원  2, 3차원으로 축소해 Visualization하는데 유용하게 사용됨
 비슷한 데이터는 근접하게, 다른 데이터는 멀리 떨어진 곳에 맵핑함
THANK YOU

More Related Content

PDF
[밑러닝] Chap06 학습관련기술들
PPTX
Data Visualization and t-SNE
PPTX
07. PCA
PPTX
Visualizing data using t-SNE
PPTX
머피's 머신러닝: Latent Linear Model
PDF
3.unsupervised learing
PPTX
비정형 데이터를 기반으로 한 빅데이터 필요기술 및 적용사례
PDF
3.unsupervised learing(epoch#2)
[밑러닝] Chap06 학습관련기술들
Data Visualization and t-SNE
07. PCA
Visualizing data using t-SNE
머피's 머신러닝: Latent Linear Model
3.unsupervised learing
비정형 데이터를 기반으로 한 빅데이터 필요기술 및 적용사례
3.unsupervised learing(epoch#2)

Similar to Chap06 dimensionality reduction (20)

PDF
(Handson ml)ch.8-dimensionality reduction
PDF
차원축소 훑어보기 (PCA, SVD, NMF)
PDF
캐빈머피 머신러닝 Kevin Murphy Machine Learning Statistic
PPTX
Model interpretation
PDF
From maching learning to deep learning episode2
PPTX
머피's 머신러닝: Latent Linear Model
PDF
R_datamining
PDF
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기
PDF
RUCK 2017 빅데이터 분석에서 모형의 역할
PPTX
이미지(비디오)를 대상으로 한 빅 데이터 시스템 기술 동향 및 고려사항
PDF
[컴퓨터비전과 인공지능] 5. 신경망
PPTX
빅데이터 처리에 있어서 이미지 비디오 데이터의 분석
PPTX
빅데이터 처리에 있어서 이미지/비디오 데이터의 분석 ver.1.1
PDF
Machine Learning Foundations (a case study approach) 강의 정리
PDF
DSAC M2 #1
PDF
지도 학습, 함수 근사와 최적화 문제: 데이터는 우악하니 데이터 사이언스라도 우아하게
PDF
파이썬 데이터 분석 3종세트
PDF
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
PDF
데이터과학의 정의와 대표과제 도출
PDF
S.M.Lee, Invited Talk on "Machine Learning-based Anomaly Detection"
(Handson ml)ch.8-dimensionality reduction
차원축소 훑어보기 (PCA, SVD, NMF)
캐빈머피 머신러닝 Kevin Murphy Machine Learning Statistic
Model interpretation
From maching learning to deep learning episode2
머피's 머신러닝: Latent Linear Model
R_datamining
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기
RUCK 2017 빅데이터 분석에서 모형의 역할
이미지(비디오)를 대상으로 한 빅 데이터 시스템 기술 동향 및 고려사항
[컴퓨터비전과 인공지능] 5. 신경망
빅데이터 처리에 있어서 이미지 비디오 데이터의 분석
빅데이터 처리에 있어서 이미지/비디오 데이터의 분석 ver.1.1
Machine Learning Foundations (a case study approach) 강의 정리
DSAC M2 #1
지도 학습, 함수 근사와 최적화 문제: 데이터는 우악하니 데이터 사이언스라도 우아하게
파이썬 데이터 분석 3종세트
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
데이터과학의 정의와 대표과제 도출
S.M.Lee, Invited Talk on "Machine Learning-based Anomaly Detection"
Ad

More from 종현 최 (6)

PDF
[프선대]Chap02 랭크 역행렬-일차방정식
PDF
[머가]Chap115 마코프체인몬테카를로
PDF
[머가]Chap11 강화학습
PDF
Gan 발표자료
PDF
Rnn개념정리
PPTX
Cnn 발표자료
[프선대]Chap02 랭크 역행렬-일차방정식
[머가]Chap115 마코프체인몬테카를로
[머가]Chap11 강화학습
Gan 발표자료
Rnn개념정리
Cnn 발표자료
Ad

Chap06 dimensionality reduction

  • 4. 4 Factor Analysis  요인분석 또는 인자분석 이라고 함  수많은 변수들 중에서 잠재된(Latent) 몇 개의 변수(요인)을 찾아내는 것  변수들 간의 상관관계를 고려하여 서로 유사한 변수들 끼리 묶어주는 방법  변수들 중에서 몇 개의 요인(Factor)에 의해 영향을 받는가 알아보는 것  Factor Analysis 목적 1) 입력변수들의 특성 파악 • 데이터 분석에 앞서 데이터를 이해하는 과정 2) 새로운 변수 생성 • Latent Variable을 추가하여 데이터 분석 3) 차원 축소 • Latent Variable로 차원 축소
  • 5. 5 PCA vs FA  공통점 • Dimensionality Reduction • 원래의 데이터로부터 새로운 변수들을 생성  차이점 1) 생성되는 변수의 수 • FA: 몇 개라고 지정할 수 없음. 데이터의 의미에 따라 다름 (3개, 4개, …) • PCA: 보통 2개를 가짐.(PC1, PC2) 2) 생성된 변수들의 관계 • FA: Latent Variable들은 기본적으로 대등한 관계를 가짐 어떤 것이 더 중요하다는 것이 없음 • PCA: Target 변수를 고려함. Target을 잘 예측/분류하기 위하여 주성분(변수)들을 찾아냄
  • 6. 6 Independent Component Analysis (ICA)  독립 성분 분석  Signal processing에서, 다변량의 신호를 하위 성분(subcomponent)로 분리하는 계산 방법  블라인드 음원 분리의 한 방법  대표적으로 Cocktail party Problem이 있음
  • 7. 7 MANIFOLD  ManiFold, 다양체  Topological space의 일부  Locally Euclidean  위상수학과 기하학에서, 다양체(多樣體, 영어: manifold 매니폴드[*])는 국소적으로 유클리드 공간과 닮은 위상 공간이 다. 즉, 국소적으로는 유클리드 공간과 구별할 수 없으나, 대역적으로 독특한 위상수학적 구조를 가질 수 있다. –wiki-  원은 모든 점에 대해서 국소적으로 직선과 같은 구조를 가짐 따라서, 원은 1차원 다양체(ManiFold)
  • 8. 8 Locally Linear Embedding (LLE)  로위스와 사울(Roweis, Saul)에 의해 2000년에 소개됨  Non-linear dimensionality reduction 중에 하나  머신러닝 가이드 p.169 참고
  • 9. 9 MDS  PCA처럼 MDS역시 고차원  저차원의 선형 근사치를 구함  MDS 임베딩은 모든 점들 간의 거리를 보존  유클리드 공간에서는 PCA와 MDS가 동일
  • 10. 10 ISOMAP  Non-linear dimensionality reduction 중에 하나  Euclidean distance 대신 Geodesic distance(측지선, 타원체상에 있는 두 측점사이의 타원체면을 따라 이루어진 거리) 를 이용하여 계산
  • 11. 11 t-SNE  t-Distributed Stochastic Neighbor Embedding  Non-linear dimensionality reduction 중에 하나  고차원  2, 3차원으로 축소해 Visualization하는데 유용하게 사용됨  비슷한 데이터는 근접하게, 다른 데이터는 멀리 떨어진 곳에 맵핑함