SlideShare a Scribd company logo
12 Applications
Large-Scale Deep Learning
Computer Vision & Speech Recognition
전희선
What we will learn today?
1. Large-Scale
Deep Learning
(CPU, GPU)
3. Speech
Recognition
2. Computer
Vision
4. Natural
Language
Processing
5. Other
Applications
CPU(Central Processing Unit)
• 중앙처리장치
• 컴퓨터 중심에 위치하여 시스템
전반을 이끄는 장치
• 다양한 기본적인 연산 수행
• 영상 보기, 문서 작성, 2D
게임 실행 등
1. Large-Scale Deep Learning
GPU(Graphics Processing Unit)
• 그래픽 처리 장치, 그래픽 카드
• 컴퓨터 그래픽 응용 프로그램
위해 개발됨
• 고급 그래픽 게임 등
1. Large-Scale Deep Learning
CPU GPU
core 수
(핵심 회로 수)
4~6개 (많은 경우 10개) 수천 개
clock speed
(코어 당 동작속도)
GPU보다 빠르게 동작 (2~3Ghz) CPU보다 느리게 동작 (1Ghz)
memory
(임시 저장소)
컴퓨터의 RAM에서 끌어와서 사용 칩 안에 RAM 내장되어 있음
처리 방식
범용 처리 (순차적으로 처리)
(general purpose processing)
병렬 처리 (동시에 처리)
(paralyzable algorithm)
경쟁사 intel, AMD NVIDIA, AMD
CPU와
GPU의
처리 방식이
다르기 때문에
core로만
성능 비교 불가
1. Large-Scale Deep Learning
행렬 곱, node 값 계산, convolution 등에서 각 연산이 서로 연관 있지는 않음
-> GPU는 병렬적으로 연산 한꺼번에 수행
-> CPU는 element 하나씩 (한다는 식의 개념으로 이해)
• 왜 deep learning에서 GPU를 사용할까? - 병렬 처리의 장점
1. Large-Scale Deep Learning
• GPU의 기술 코드 작성 위한 프로그래밍 언어
CUDA OpenCL
지원 NVIDIA만 NVIDIA, AMD, ...
API
딥러닝 API library 포함
cuBLAS - 다양한 행렬곱 연산 제공
cuDNN - CNN, RNN 등 딥러닝에 필요한
기본적인 연산 제공
딥러닝 최적화 연산/library가
개발되어 있지 않음
1. Large-Scale Deep Learning
컴퓨터 비전과
음성 인식
간단한 실습에서
이용해 볼 예정!
https://www.youtube.com/watch?v=9AgqC_NW3as
2. Computer Vision
NOW!!!
2. Computer Vision
광학, 이미지 구성, 이미지의
물리학적 형성 등 이해
뇌가 어떤 방식으로
시각정보를 처리하는지
컴퓨터 비전 알고리즘 구현할
컴퓨터 시스템 구축
2. Computer Vision
컴퓨터 비전의 시작
- Larry Roberts의 논문이 큰 영향
- 보이는 사물들을 기하학적 모양으로 단순화
2. Computer Vision
image input primal sketch 2.5D sketch 3D model
경계 표현
(Hubel & Wiesel
실험과 관련)
시각 장면 구성하는
표면 및 깊이 정보,
불연속 점 표현
표면과 깊이가
반영된 입체적 모델
2. Computer Vision
2. Computer Vision
2. Computer Vision
GCN LCN
Global Contrast Normalization
전역 명암비 정규화
Local Contrast Normalization
국소 명암비 정규화
이미지의 모든 픽셀에 대한
평균, 표준편차 구해서
모든 이미지의 픽셀들을 표준화
각 픽셀에서 인근 픽셀들의
평균, 표준편차 구해서
해당 픽셀 표준화
모든 이미지를
같은 축척으로 만들어 줌
세기가 일정한 영역들을
모두 제거해서 윤곽선에 집중
• 전처리 - 명암비 정규화
2. Computer Vision
하나의 이미지 데이터를
회전 및 뒤집기, 자르기(crop),
색 변화(color jittering) 등을 통해
train dataset의 크기를 키울 수 있음
data crop color jittering
• 전처리 - data augmentation
2. Computer Vision
니모 사진에서
니모만 뽑아내기!
(openCV를 이용한
image segmentation)
• 실습
https://realpython.com/python-opencv-color-spaces/
https://github.com/realpython/materials/tree/master/opencv-color-spaces
3. Speech Recognition
발음은?
그 다음에는
어떤 단어가
나올까?
나올 만한
단어의 후보는?
아하 ~~~라고
말한거구나!
= 받아쓰기
3. Speech Recognition
문자 -> 음소
음성 분석
(특징 추출)
음향 모델
(음소 인식)
언어 모델
어휘 목록
Decoder
https://brunch.co.kr/@kakao-it/105
3. Speech Recognition
(1) 음성 분석(특징 추출)
• 음성신호에서 주파수 분석 통해 음성의 특징이 되는 부분을 추출하는 과정
• 음성 -> sampling -> 디지털 신호화
3. Speech Recognition
(2) 음향 모델
• GMM-HMM 방식 : 음소를 GMM으로 모델링, 음소들의 연속적인 변화를 HMM으로 예측
• 최근에는 GMM 확률 모델 대신 딥러닝으로 대체한 DNN-HMM 기법 사용
HMM(Hidden Markov Model)
GMM(Gaussian Mixture Model)
3. Speech Recognition
Markov (Chain) Model
: 시간 t에서의 관측은 가장 최근 r개 관측에만
의존한다는 가정 하의 확률 추론
오늘 저녁은 무엇을 먹을까
0차 Markov chain1차 Markov chain2차 Markov chain
(2) 음향 모델
3. Speech Recognition
(2) 음향 모델
HMM(Hidden Markov Model)
- Markov Model에서 상태(state)를 볼 수 없는 모델 -> 관찰되는 결과를 보고 상태를 예측
명사
오늘
명사+
조사
저녁은
명사+
조사
무엇을
동사
먹을까
Hidden states
관찰되는 결과
3. Speech Recognition
(2) 음향 모델
GMM(Gaussian Mixture Model)
- 데이터가 k개의 정규분포로부터 생성되었다고 보는 모델
ex) k=3 : 3개의 정규분포로부터 데이터가 생성되었다고 가정
3. Speech Recognition
(2) 음향 모델
• GMM-HMM 방식 : 음소를 GMM으로 모델링, 음소들의 연속적인 변화를 HMM으로 예측
• 최근에는 GMM 확률 모델 대신 딥러닝으로 대체한 DNN-HMM 기법 사용
HMM(Hidden Markov Model)
GMM(Gaussian Mixture Model)
3. Speech Recognition
(3) 언어 모델
방대한 텍스트 분석해 특정 단어 다음에 나올 단어의 확률 추정
단어들 간의 관계를 확률로 표현
𝑃 𝑊 = ෑ
𝑘=1
𝑁
𝑃(𝑊𝑘|𝑊𝑘−1 … 𝑊1) : N개의 단어로 구성된 문장 W의 문장 생성 확률
n-gram 모델 : 문장이 길어지면 확률 계산이 현실적이지 않게 되어 최근 n개 history로 근사화
3. Speech Recognition
인식기가 표현할 수 있는 모든 문장(단어 조합) 중
일정 시간 T 동안 입력된 음성 X에 대해서
확률적으로 가장 가능성이 높은 문장 W는?
* : 식을 가장 최대로 만드는 w
= 𝒇 𝑨𝑺𝑹
∗
(𝑿)
음향 모델 확률 언어 모델 확률
3. Speech Recognition
• 실습
SpeechRecognition을 이용해서
직접 음성 인식을 해보자!!
https://github.com/realpython/python-speech-recognition
https://realpython.com/python-speech-recognition/#working-with-audio-files
참고자료
https://www.youtube.com/playlist?list=PLC1qU-
LWwrF64f4QKQT-Vg5Wr4qEE1Zxk
CS231n 강의 내용을 거의 전부로 삼았기에... 첨부......☆

More Related Content

PDF
합성곱 신경망
PDF
밑바닥부터 시작하는딥러닝 8장
PDF
Improved techniques for grid mapping with rao blackwellized particle filters 번역
PPTX
Review EDSR
PDF
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...
PDF
Feature Pyramid Network, FPN
PPTX
Deview2013 - 게임기술과 수퍼컴퓨팅의 공생관계
PDF
HistoryOfCNN
합성곱 신경망
밑바닥부터 시작하는딥러닝 8장
Improved techniques for grid mapping with rao blackwellized particle filters 번역
Review EDSR
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...
Feature Pyramid Network, FPN
Deview2013 - 게임기술과 수퍼컴퓨팅의 공생관계
HistoryOfCNN

Similar to Chapter 12 applications - 1 (20)

PPTX
기계학습 / 딥러닝이란 무엇인가
PDF
파이썬을 활용한 챗봇 서비스 개발 3일차
PDF
머신러닝(딥러닝 요약)
PDF
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
PPTX
인공지능, 기계학습 그리고 딥러닝
PPTX
Convolutional neural network
PDF
Deep Learning for Chatbot (1/4)
PPTX
Anomaly detection practive_using_deep_learning
PDF
MultiModal Embedding integrates various data types, like images, text, and au...
PPTX
유영기 소개
PDF
Deview deep learning-김정희
PDF
현시대인공지능기술의고찰
PPTX
Introduction of NUGO's vision and business model
PPTX
Image Deep Learning 실무적용
PPTX
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용
PDF
딥러닝 세계에 입문하기 위반 분투
PDF
인공지능 방법론 - Deep Learning 쉽게 이해하기
PDF
Toolkits for robust speech processing
PPTX
[WeFocus] 인공지능_딥러닝_특허 확보 전략_김성현_201902_v1
기계학습 / 딥러닝이란 무엇인가
파이썬을 활용한 챗봇 서비스 개발 3일차
머신러닝(딥러닝 요약)
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
인공지능, 기계학습 그리고 딥러닝
Convolutional neural network
Deep Learning for Chatbot (1/4)
Anomaly detection practive_using_deep_learning
MultiModal Embedding integrates various data types, like images, text, and au...
유영기 소개
Deview deep learning-김정희
현시대인공지능기술의고찰
Introduction of NUGO's vision and business model
Image Deep Learning 실무적용
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용
딥러닝 세계에 입문하기 위반 분투
인공지능 방법론 - Deep Learning 쉽게 이해하기
Toolkits for robust speech processing
[WeFocus] 인공지능_딥러닝_특허 확보 전략_김성현_201902_v1
Ad

More from KyeongUkJang (20)

PDF
Photo wake up - 3d character animation from a single photo
PDF
PPTX
AlphagoZero
PPTX
GoogLenet
PDF
GAN - Generative Adversarial Nets
PDF
Distilling the knowledge in a neural network
PDF
Latent Dirichlet Allocation
PDF
Gaussian Mixture Model
PDF
CNN for sentence classification
PDF
Visualizing data using t-SNE
PPTX
Playing atari with deep reinforcement learning
PDF
Chapter 20 - GAN
PDF
Chapter 20 - VAE
PPTX
Chapter 20 Deep generative models
PDF
Chapter 19 Variational Inference
PDF
Natural Language Processing(NLP) - basic 2
PDF
Natural Language Processing(NLP) - Basic
PPTX
Chapter 17 monte carlo methods
PDF
Chapter 16 structured probabilistic models for deep learning - 2
PPTX
Chapter 16 structured probabilistic models for deep learning - 1
Photo wake up - 3d character animation from a single photo
AlphagoZero
GoogLenet
GAN - Generative Adversarial Nets
Distilling the knowledge in a neural network
Latent Dirichlet Allocation
Gaussian Mixture Model
CNN for sentence classification
Visualizing data using t-SNE
Playing atari with deep reinforcement learning
Chapter 20 - GAN
Chapter 20 - VAE
Chapter 20 Deep generative models
Chapter 19 Variational Inference
Natural Language Processing(NLP) - basic 2
Natural Language Processing(NLP) - Basic
Chapter 17 monte carlo methods
Chapter 16 structured probabilistic models for deep learning - 2
Chapter 16 structured probabilistic models for deep learning - 1
Ad

Chapter 12 applications - 1

  • 1. 12 Applications Large-Scale Deep Learning Computer Vision & Speech Recognition 전희선
  • 2. What we will learn today? 1. Large-Scale Deep Learning (CPU, GPU) 3. Speech Recognition 2. Computer Vision 4. Natural Language Processing 5. Other Applications
  • 3. CPU(Central Processing Unit) • 중앙처리장치 • 컴퓨터 중심에 위치하여 시스템 전반을 이끄는 장치 • 다양한 기본적인 연산 수행 • 영상 보기, 문서 작성, 2D 게임 실행 등 1. Large-Scale Deep Learning GPU(Graphics Processing Unit) • 그래픽 처리 장치, 그래픽 카드 • 컴퓨터 그래픽 응용 프로그램 위해 개발됨 • 고급 그래픽 게임 등
  • 4. 1. Large-Scale Deep Learning CPU GPU core 수 (핵심 회로 수) 4~6개 (많은 경우 10개) 수천 개 clock speed (코어 당 동작속도) GPU보다 빠르게 동작 (2~3Ghz) CPU보다 느리게 동작 (1Ghz) memory (임시 저장소) 컴퓨터의 RAM에서 끌어와서 사용 칩 안에 RAM 내장되어 있음 처리 방식 범용 처리 (순차적으로 처리) (general purpose processing) 병렬 처리 (동시에 처리) (paralyzable algorithm) 경쟁사 intel, AMD NVIDIA, AMD CPU와 GPU의 처리 방식이 다르기 때문에 core로만 성능 비교 불가
  • 5. 1. Large-Scale Deep Learning 행렬 곱, node 값 계산, convolution 등에서 각 연산이 서로 연관 있지는 않음 -> GPU는 병렬적으로 연산 한꺼번에 수행 -> CPU는 element 하나씩 (한다는 식의 개념으로 이해) • 왜 deep learning에서 GPU를 사용할까? - 병렬 처리의 장점
  • 6. 1. Large-Scale Deep Learning • GPU의 기술 코드 작성 위한 프로그래밍 언어 CUDA OpenCL 지원 NVIDIA만 NVIDIA, AMD, ... API 딥러닝 API library 포함 cuBLAS - 다양한 행렬곱 연산 제공 cuDNN - CNN, RNN 등 딥러닝에 필요한 기본적인 연산 제공 딥러닝 최적화 연산/library가 개발되어 있지 않음
  • 7. 1. Large-Scale Deep Learning 컴퓨터 비전과 음성 인식 간단한 실습에서 이용해 볼 예정! https://www.youtube.com/watch?v=9AgqC_NW3as
  • 9. 2. Computer Vision 광학, 이미지 구성, 이미지의 물리학적 형성 등 이해 뇌가 어떤 방식으로 시각정보를 처리하는지 컴퓨터 비전 알고리즘 구현할 컴퓨터 시스템 구축
  • 10. 2. Computer Vision 컴퓨터 비전의 시작 - Larry Roberts의 논문이 큰 영향 - 보이는 사물들을 기하학적 모양으로 단순화
  • 11. 2. Computer Vision image input primal sketch 2.5D sketch 3D model 경계 표현 (Hubel & Wiesel 실험과 관련) 시각 장면 구성하는 표면 및 깊이 정보, 불연속 점 표현 표면과 깊이가 반영된 입체적 모델
  • 14. 2. Computer Vision GCN LCN Global Contrast Normalization 전역 명암비 정규화 Local Contrast Normalization 국소 명암비 정규화 이미지의 모든 픽셀에 대한 평균, 표준편차 구해서 모든 이미지의 픽셀들을 표준화 각 픽셀에서 인근 픽셀들의 평균, 표준편차 구해서 해당 픽셀 표준화 모든 이미지를 같은 축척으로 만들어 줌 세기가 일정한 영역들을 모두 제거해서 윤곽선에 집중 • 전처리 - 명암비 정규화
  • 15. 2. Computer Vision 하나의 이미지 데이터를 회전 및 뒤집기, 자르기(crop), 색 변화(color jittering) 등을 통해 train dataset의 크기를 키울 수 있음 data crop color jittering • 전처리 - data augmentation
  • 16. 2. Computer Vision 니모 사진에서 니모만 뽑아내기! (openCV를 이용한 image segmentation) • 실습 https://realpython.com/python-opencv-color-spaces/ https://github.com/realpython/materials/tree/master/opencv-color-spaces
  • 17. 3. Speech Recognition 발음은? 그 다음에는 어떤 단어가 나올까? 나올 만한 단어의 후보는? 아하 ~~~라고 말한거구나! = 받아쓰기
  • 18. 3. Speech Recognition 문자 -> 음소 음성 분석 (특징 추출) 음향 모델 (음소 인식) 언어 모델 어휘 목록 Decoder https://brunch.co.kr/@kakao-it/105
  • 19. 3. Speech Recognition (1) 음성 분석(특징 추출) • 음성신호에서 주파수 분석 통해 음성의 특징이 되는 부분을 추출하는 과정 • 음성 -> sampling -> 디지털 신호화
  • 20. 3. Speech Recognition (2) 음향 모델 • GMM-HMM 방식 : 음소를 GMM으로 모델링, 음소들의 연속적인 변화를 HMM으로 예측 • 최근에는 GMM 확률 모델 대신 딥러닝으로 대체한 DNN-HMM 기법 사용 HMM(Hidden Markov Model) GMM(Gaussian Mixture Model)
  • 21. 3. Speech Recognition Markov (Chain) Model : 시간 t에서의 관측은 가장 최근 r개 관측에만 의존한다는 가정 하의 확률 추론 오늘 저녁은 무엇을 먹을까 0차 Markov chain1차 Markov chain2차 Markov chain (2) 음향 모델
  • 22. 3. Speech Recognition (2) 음향 모델 HMM(Hidden Markov Model) - Markov Model에서 상태(state)를 볼 수 없는 모델 -> 관찰되는 결과를 보고 상태를 예측 명사 오늘 명사+ 조사 저녁은 명사+ 조사 무엇을 동사 먹을까 Hidden states 관찰되는 결과
  • 23. 3. Speech Recognition (2) 음향 모델 GMM(Gaussian Mixture Model) - 데이터가 k개의 정규분포로부터 생성되었다고 보는 모델 ex) k=3 : 3개의 정규분포로부터 데이터가 생성되었다고 가정
  • 24. 3. Speech Recognition (2) 음향 모델 • GMM-HMM 방식 : 음소를 GMM으로 모델링, 음소들의 연속적인 변화를 HMM으로 예측 • 최근에는 GMM 확률 모델 대신 딥러닝으로 대체한 DNN-HMM 기법 사용 HMM(Hidden Markov Model) GMM(Gaussian Mixture Model)
  • 25. 3. Speech Recognition (3) 언어 모델 방대한 텍스트 분석해 특정 단어 다음에 나올 단어의 확률 추정 단어들 간의 관계를 확률로 표현 𝑃 𝑊 = ෑ 𝑘=1 𝑁 𝑃(𝑊𝑘|𝑊𝑘−1 … 𝑊1) : N개의 단어로 구성된 문장 W의 문장 생성 확률 n-gram 모델 : 문장이 길어지면 확률 계산이 현실적이지 않게 되어 최근 n개 history로 근사화
  • 26. 3. Speech Recognition 인식기가 표현할 수 있는 모든 문장(단어 조합) 중 일정 시간 T 동안 입력된 음성 X에 대해서 확률적으로 가장 가능성이 높은 문장 W는? * : 식을 가장 최대로 만드는 w = 𝒇 𝑨𝑺𝑹 ∗ (𝑿) 음향 모델 확률 언어 모델 확률
  • 27. 3. Speech Recognition • 실습 SpeechRecognition을 이용해서 직접 음성 인식을 해보자!! https://github.com/realpython/python-speech-recognition https://realpython.com/python-speech-recognition/#working-with-audio-files