SlideShare a Scribd company logo
Deep Learning
Chap. 12 Applications
(pp. 438-481)
Shion Honda
Journal Club @DSP
概要
• 深層学習の大規模計算
• コンピュータビジョン
• 音声認識
• 自然言語処理
• その他の応用
2
適宜, 最新の情報を交えて紹介します!
12.1 深層学習の大規模
計算
3
GPUによる計算
• 深層学習では大きなネットワークを学習させる
ためハードとソフト両面で計算の工夫が必要
• かつては様々な実装の工夫をしてCPUで計算
していた
• 近年は, グラフィック描画用のGPUを汎用計算
向けにしたgeneral purpose GPUを使う
• ビデオゲームは高速な行列計算が必要
• NVIDIAが開発したCUDAによりCのよう
な言語でプログラムを実行可能に
• TensorFlowやPyTorchなどのライブラリ
が普及し, GPUに最適なコードを書くこ
とも簡単になった
4
GeForce RTX 2070 Super
分散処理
• data parallelism
• 入力データを分割して別々のマシンで処理する
• 訓練時に適用するには非同期SGDが必要
• パラメータが乗ったメモリを共有するか, パラメータサー
バを用意
• 近年の巨大なモデルを訓練するには不可欠
• model parallelism
• ワークフローの各ステップを流れ作業のように別々
のマシンに担当させる
• 訓練・推論のどちらでも適用可能
5
モデル圧縮
• 目的
• エンドユーザは計算リソースが限られているケース
が多い(スマホなど)
• 学習させたモデルを圧縮したい
• 手法
• 蒸留: 𝒙と大きな学習済み
の教師モデルによる出力
𝑓(𝒙)のペアを, 別の小さ
な生徒モデルに学習させる
• 効率的なマイクロアーキテクチャ
• 量子化: 訓練後に重みの浮動小数点精度を下げる
• pruning: 訓練後に不要な構造を削除する
6
DeepXによるブログが詳しい
動的構造
• 概要
• NNの集合を考える
• NNsのどの部分集合を使うかを入力データに従って
動的に決定
• 個々のNNは特徴量のどの部分集合を使うかを動的
に決定(条件付き計算)
• cascade
• 異常検知で, 高い再現率を持つモデルを1段目, 高い
適合率を持つモデルを2段目に置いて高速化とパ
フォーマンスを両立させる
• gater
• gaterにexpertを選択させる
• mixture of experts (MoE)
7
[Shazeer+, ICLR, 2017]
専用ハードウェアによる実装
• 専用ハードウェア
• 初期はNN用ASIC (application-specific integrated
circuit)が考案されていた
• 近年はFPGA (field programmable gated array)
• 浮動小数点精度
• 近年, 単一CPU/GPUの処理速度の成長が鈍化
• 計算量の削減に舵が切られた
• 通常のCPU/GPUは32bitか64bitだが, NNの学習・
推論には8-16bit程度で十分
8
12.2 コンピュータビ
ジョン
9
CVのタスク
10
Image Synthesis
object recognition OCR
最新の研究動向につい
ては, 例えば
CVPR 2019 速報
CVPR 2019 report (30
papers)
があります(どちらも長
いです)
前処理: GCN
11
MIRU2014 tutorial deeplearning より抜粋
前処理: GCN
• 方向だけで特徴を表せるようにする
• 各画像の画素値の平均を0, 分散を1に
• 一様な画像だと分母が0に近くなる
• 𝜆や𝜖を入れて回避
12
前処理: LCN
• 局所コントラスト正規化(local contrast
normalization)
• エッジやコーナーなどの局所的なコントラストの差
も大事
• 小領域ごとに正規化
13
前処理: データ拡張
14
• imgaug, Augmentor,
albumentationsなど
のライブラリが有名
• 一般に有効
12.3 音声認識
15
音声認識の発展の歴史
• GMM-HMMモデル
• 長く支配的な手法
• Gaussian mixtureで音響特徴と音素の関係をモデ
ル化
• hidden Markovで音素の系列をモデル化
• NNベースのモデル
• 2009年に制約付きBoltzmannマシン(RBM; 第3部)
の適用で本格的に始まる
• 2013年, LSTMによりHMMを取り除く試み
16
[河原, 日本音響学会, 2018]
12.4 自然言語処理
17
NLPのタスク
18
スマニューにも使われる「自然言語処理」ってなに? ことばの解析の歴史と、スマホ時代の最新トレン
ドを追う - ログミーTech
言語モデルとn-grams
• 言語モデル (language model): 文章に確率分
布を与える
• n-gram
• 文章中の単語をその前の𝑛個の単語から最尤推定(日
本語では文字を単位とすることもある)
• 前𝑛個の単語で条件付けた確率をモデル化
• 周辺から中心単語を予測するskip-gramもある
• 例: To infinity... and beyond!
• unigram: “to”, “infinity”, “...”, “and”, “beyond”, “!”
• bigram: “to infinity”, “infinity...”, “... and”, “and
beyond”, “beyond !”
19
ニューラル言語モデル(NLM)
• 語彙の数は数十万のオーダーであるのにナイー
ブなn-gramは対処できない
• より低次元(500くらい)で表すための工夫が分
散表現
• 各単語をクラスとして扱うのではなく, 密なベクト
ルとして表す(埋め込み; embedding)
• そのような表現は言語モデルの学習で獲得される
• 同様に画像や分子の「埋め込み」も考えられる
20
分散表現を2次元で示したもの
king – man + woman = queen
という式が有名
高次元の出力を高速化する工夫
• 出力層のソフトマックスの計算が重い
• ショートリスト
• 高頻度な単語をショートリストに入れてNNで, 低
頻度な単語をテールリストに入れてn-gramで処理
• 階層的ソフトマックス
• 辞書に含まれる単語を予め階層
的にクラスタリングしておく
• 重点サンプリング
• サンプリングの簡単な別の分布
を用意して, そこからのサンプリングで近似
• noise-contrastive estimation (NCE)
• 目的関数を近似
• より単純な負例サンプリングがよく使われる
21
ニューラル機械翻訳(NMT)
• encoder-decoderネットワークで仏語→潜在表
現→英語の変換を行う
• encoderとdecoderには可変長入出力が可能な
RNNを用いる
• 現在は最大長(~1000)を陽に定めて
Transformerを使うことが多い
22
注意機構
• 長い入力を1つのベクトル𝒉で表すことは困難
→注意機構 (attention mechanism)
• 入力文で1, … , 𝑡番目の単語の潜在表現𝒉1, … , 𝒉 𝑡をす
べて保持(メモリ)
• 出力のときは注意𝛼1, … , 𝛼 𝑡で重み付けた和𝒄を
decoderの隠れ状態とする
23
Attention? Attention!
足すのはやや特殊
歴史視点
• 1980年代: (Collin, Mother, Victoria)のような
シンボルの分散表現
• 1990年代: コーパスから単語の分散表現を獲得
• 2000年代: 数百万の単語を扱えるようになった
• 2010年台:
• DLブームとともに急速に発展
• RNNからTransformerへ
• ELMo, BERTなどの大規模なコーパスで事前学習し
た巨大モデルが登場し, 多様なタスクを人間と同等
程度に解けるように
• 翻訳や異常検知などは既に実サービスに投入されて
いる
24
12.5 その他の応用
25
推薦システム
• DLはここまで紹介してきたもの以外にも, EC
サイト, SNS, コンテンツ配信などで広く実装
されている推薦システムにも応用できる
26
協調フィルタリング
閲覧履歴からユーザ間の類似度を測る.
コールドスタート問題あり.
内容ベースフィルタリング
記事そのものの特徴量から記事間の類似度を測る.
多様性を出しにくい.
[Tondji, 2018]
Exploration vs Exploitation
• 推薦システムの様々な問題はcontextual
banditとして定式化できる
• 異なる確率分布を持つ複数のスロット(推薦する選
択肢)がある
• 確率分布は文脈(ユーザなど)によって変化する
• どのような戦略でスロットを回せば累積報酬を最大
化できるか?
• 探索か活用か?
• 知っている中で期待値の
推定値が最大のスロット
に固執(活用)
• リスクを取ってより期待
値の高いスロットを探し
にいく(探索)
27
I'm a Bandit : Multi Arm Bandits and the
Explore/Exploit trade-off - The PrimarY DigIt
知識の表現, 推論, 質問応答
• 関係: 次のようなタプルで表す
• (subject, verb, object)
• (entity, relation, entity)
• (entity, attribute)
• relational database
• 関係を集めたデータベース
• knowledge base (知識ベース)
• その中でも「常識」をまとめたもの
• Freebase, OpenCyc, WordNet, Wikibaseなど
• 自然言語との密接な関係
• 具体的なタスク: リンク予測, 語義曖昧性解消など
28
GeneOntology
まとめ
• 大きなNNを大量のデータで学習させる深層学
習の計算は, GPUと並列化などの工夫で高速化
できる
• 深層学習の応用先にはコンピュータビジョン,
音声認識, 自然言語処理, 推薦システムなどが
ある
• 自然言語処理と知識ベースを組み合わせて「常
識」を理解させようとする,「 汎用人工知能」
を目指す研究領域もある
29
参考文献
[1] I. Goodfellow et al., Deep Learning, MIT Press, 2016.
[2] 岩澤 他訳, 深層学習, ASCII DWANGO, 2018.
[3] 原田達也, 画像認識, 講談社, 2017.
[4] 坪井祐太 他, 深層学習による自然言語処理, 講談社, 2017.
[5] 神嶌敏弘, 推薦システムのアルゴリズム, 2016.
同じ範囲を扱ったスライドが2つ見つかりました.
[6] [DL輪読会]Deep Learning 第12章 アプリケーション
[7] Deep Learning Chapter12
30

More Related Content

PDF
第64回情報科学談話会(岡﨑 直観 准教授)
PDF
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
PDF
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」(一部文字が欠けてます)
PDF
Recurrent Neural Networks
PPTX
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
PDF
Deep Learningの基礎と応用
PPTX
深層学習 第4章 大規模深層学習の実現技術
PDF
ニューラルネットワークを用いた自然言語処理
第64回情報科学談話会(岡﨑 直観 准教授)
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」(一部文字が欠けてます)
Recurrent Neural Networks
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
Deep Learningの基礎と応用
深層学習 第4章 大規模深層学習の実現技術
ニューラルネットワークを用いた自然言語処理

Similar to Deep Learning Chap. 12: Applications (20)

PDF
大規模データに基づく自然言語処理
PDF
子どもの言語獲得のモデル化とNN Language ModelsNN
PDF
Deep Learning Chapter12
PDF
深層学習入門
PDF
Deep nlp 4.2-4.3_0309
PPTX
Icml読み会 deep speech2
PDF
言語と画像の表現学習
PDF
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
PDF
Deep learningの概要とドメインモデルの変遷
PDF
【DeepLearning研修】Transformerの基礎と応用 -- 第1回 Transformerの基本
PPTX
深層学習による自然言語処理の研究動向
PDF
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
PPTX
Image net classification with Deep Convolutional Neural Networks
PPTX
最近の自然言語処理
PDF
Non-autoregressive text generation
PPTX
Deep Learningについて(改訂版)
PDF
RNN-based Translation Models (Japanese)
PPTX
Deep Learning による視覚×言語融合の最前線
PDF
transformer解説~Chat-GPTの源流~
PDF
20140705.西野研セミナー
大規模データに基づく自然言語処理
子どもの言語獲得のモデル化とNN Language ModelsNN
Deep Learning Chapter12
深層学習入門
Deep nlp 4.2-4.3_0309
Icml読み会 deep speech2
言語と画像の表現学習
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
Deep learningの概要とドメインモデルの変遷
【DeepLearning研修】Transformerの基礎と応用 -- 第1回 Transformerの基本
深層学習による自然言語処理の研究動向
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
Image net classification with Deep Convolutional Neural Networks
最近の自然言語処理
Non-autoregressive text generation
Deep Learningについて(改訂版)
RNN-based Translation Models (Japanese)
Deep Learning による視覚×言語融合の最前線
transformer解説~Chat-GPTの源流~
20140705.西野研セミナー
Ad

More from Shion Honda (11)

PDF
BERTをブラウザで動かしたい! ―MobileBERTとTensorFlow.js―
PPTX
Bridging between Vision and Language
PPTX
Graph U-Nets
PPTX
Deep Learning Chap. 6: Deep Feedforward Networks
PPTX
画像認識 第9章 さらなる話題
PPTX
Towards Predicting Molecular Property by Graph Neural Networks
PPTX
画像認識 6.3-6.6 畳込みニューラル ネットワーク
PPTX
深層学習による自然言語処理 第2章 ニューラルネットの基礎
PDF
BERT: Pre-training of Deep Bidirectional Transformers for Language Understand...
PPTX
IaGo: an Othello AI inspired by AlphaGo
PDF
Planning chemical syntheses with deep neural networks and symbolic AI
BERTをブラウザで動かしたい! ―MobileBERTとTensorFlow.js―
Bridging between Vision and Language
Graph U-Nets
Deep Learning Chap. 6: Deep Feedforward Networks
画像認識 第9章 さらなる話題
Towards Predicting Molecular Property by Graph Neural Networks
画像認識 6.3-6.6 畳込みニューラル ネットワーク
深層学習による自然言語処理 第2章 ニューラルネットの基礎
BERT: Pre-training of Deep Bidirectional Transformers for Language Understand...
IaGo: an Othello AI inspired by AlphaGo
Planning chemical syntheses with deep neural networks and symbolic AI
Ad

Recently uploaded (9)

PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
PDF
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
PDF
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
PDF
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
PDF
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
PDF
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
PDF
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
PDF
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略

Deep Learning Chap. 12: Applications