SlideShare a Scribd company logo
2
Most read
4
Most read
5
Most read
t-SNE(t分布型確率的近傍埋め込み法)
による高次元データの可視化について
令和6年5月16日
三和田 将人
1 概要
• t-SNE(t-Distributed Stochastic Neighbor Embedding):t分布型確率的近傍埋め
込み法)は、4次元以上の高次元データを2、3次元に落とし込むための次元削
減アルゴリズム。
• Geoffrey Hinton(ジェフリー・ヒントン)氏が2008年に開発した手法。
• 主成分分析(PCA)や多次元尺度構成法(MDS)法に比べ、「次元は異なるが類
似しているデータ」に対して低次元でも近くに分類できる。
@kenmatsu4(まつけん)氏, Qiita, "Variational Autoencoder徹底解説",
https://qiita.com/kenmatsu4/items/b029d697e9995d93aa24, 2017.06
【Swiss Role構造】
1 概要(補足:t-SNEでSwiss roll構造を可視化したら?)
データ化学工学研究室(金子研究室)@明治大学 理工学部 応用化学科, "t-distributed
Stochastic Neighbor Embedding (t-SNE) ~データの可視化に特化した手法~",
https://datachemeng.com/tsne/ , (最終アクセス日:令和6年5月15日)
2 t-SNEの特徴
ポイント
• 高次元での距離分布を低次元でも(可能な限り)表現できるよう変換してい
る。
• 名前のとおり、「距離の推定」に(Studentの)t-分布を仮定している。
• 次元の高いデータの可視化に有効
そもそも、なぜ可視化は必要か?
• そのデータを生み出している、事象をより正確に理解する。
• 機械学習で用いるときに、適切なデータを選ぶため。
• 予測結果やモデルの逆解析の結果の議論
ブラックボックス状態で機械学習を使わないため。
3 詳細(1/4)
SNEについて(2002年にGeoffrey Hinton氏が開発)
• データ間の距離(Euclid距離)を条件付き確率として仮定
• SNEでは正規分布(Gaussian)に基づき確率的にデータの位置を推定
• Clowding問題(次元を落としたときにデータが混雑下してしまう)という欠点
がある。
t-SNE法について
以下の改良によってClowding問題を解消し、より可視化しやすくしている。
1. 損失関数の対称化と最小化
距離の推定を同時確率に変更することで、データの局所構造を保持しながらも見分け
やすくしている
2. Studentのt分布を仮定
正規分布に比べて裾野が高いので、Clowding問題を避けることができる
t-SNE法について
1. 損失関数の対称化と最小化
距離の推定を同時確率に変更することで、データの局所構造を保持しながらも見分けや
すくしている。
3 詳細(2/4)
C:損失関数
KL(~):KLダイバージェンス
2つの確率分布の違い
を数量化する関数
Pj|i: データ間の距離についての
条件付き確率
qj|i: 次元削減後のデータ間の距
離についての条件付き確率
C:損失関数
KL(~):KLダイバージェンス
2つの確率分布の違い
を数量化する関数
Pji: データ間の距離についての
同時確率
qji: 次元削減後のデータ間の距
離についての同時確率
t-SNE SNE
t-SNE法について
1. 損失関数の対称化と最小化
距離の推定を同時確率に変更することで、データの局所構造を保持しながらも見分けや
すくしている。
3 詳細(2/4)
C:損失関数
KL(~):KLダイバージェンス
2つの確率分布の違い
を数量化する関数
Pj|i: データ間の距離についての
条件付き確率
qj|i: 次元削減後のデータ間の距
離についての条件付き確率
C:損失関数
KL(~):KLダイバージェンス
2つの確率分布の違い
を数量化する関数
Pji: データ間の距離についての
同時確率
qji: 次元削減後のデータ間の距
離についての同時確率
t-SNE SNE
t-SNE法について
2. Studentのt分布を仮定(自由度:n=1)
正規分布に比べて裾野が高いので、Clowding問題を避けることができる
3 詳細(3/4)
3 詳細(4/4)
t-SNE法について
デメリット
1. 可視化以外では使えない。
次元圧縮で構造化されたデータを保持できない
2. 次元の呪いに弱い。
「特徴量が多い→より多くの入力データが必要→ノイズも多くなる」ことで、t-SNEで生成
されるクラスター(データの集まり)の構造が大きく変わる
3. 損失関数が非凸関数であるため、最適化が難しい
(非凸関数については、「最適化の数理—応用数理の視点, https://ocw.u-
tokyo.ac.jp/lecture_files/gf_06/7/notes/ja/07murota.pdf」を参考)
4 実際の使用例(1/2)
スマートフォンの慣性センサーログから人間の運動を分類する
• データソース
https://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones
(データセットの説明)
• 慣性センサーログから得られたデータに信号処理などを施して用意された561
の特徴量から、6つの行動パターンを分類する。(n=5149)
precision recall
LAYING 1 1
STANDING 0.96 0.96
SITTING 0.96 0.96
WALKING 0.99 1
WALKING_UPSTAIRS 0.99 0.99
WALKING_DOWNSTAIRS 1 0.99
目的変数
特徴量の大まかな分類
• 身体加速度計(xyz軸ごと)
• 重力加速度計(xyz軸ごと)
• 加加速度(加速度の時間微分値)データ(3軸)
• 角運動量データ(3軸)
上記のそれぞれに対する周波数データ×
各種統計量(平均、絶対値、信号エントロピー等)
4 実際の使用例(1/2)
スマートフォンの慣性センサーログから人間の運動を分類する
• データソース
https://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones
(データセットの説明)
• 慣性センサーログから得られたデータに信号処理などを施して用意された561
の特徴量から、6つの行動パターンを分類する。(n=5149)
precision recall
LAYING 1 1
STANDING 0.96 0.96
SITTING 0.96 0.96
WALKING 0.99 1
WALKING_UPSTAIRS 0.99 0.99
WALKING_DOWNSTAIRS 1 0.99
目的変数
4 実際の使用例(2/2)
(データセットの説明)
• 慣性センサーログから得られたデータに信号処理などを施して用意された561
の特徴量から、6つの行動パターンを分類する。(n=5149)
5 考察 precision recall f1-score support
LAYING 1 1 1 1016
STANDING 0.96 0.96 0.96 895
SITTING 0.96 0.96 0.96 926
WALKING 0.99 1 0.99 853
WALKING_UPSTAIRS 0.99 0.99 0.99 682
WALKING_DOWNSTAIRS 1 0.99 0.99 777
accuracy 0.98 5149
macro avg 0.98 0.98 0.98 5149
weighted avg 0.98 0.98 0.98 5149
「STANDING」と「SITTING」が重なって描画されている。
実際にSVCで分類モデルを作成し評価したところ、上
記の2つが特に検出できていなかった。
まとめ と これから
• t-SNEは高次元の特徴量データを2,3次元で描画するための次元削減アルゴリズム。
• これを用いることで、多くの特徴量で作成された学習モデルの出力結果の説明に説
得力を持たせることもできる。
• 2018年以降には、t-SNEの、「次元の呪い」や「描画にしか使えない」という欠点を克
服し、より可視化力を向上させた「UMAP(1)」及び「DensMAP(2)」という手法も開発さ
れている。
• 今回、高次元の特徴量の可視化という視点を得たので、次は上記の手法について研
究したい。
1. Leland McInnes, John Healy, James Melville, "UMAP: Uniform Manifold Approximation and Projection
for Dimension Reduction", https://arxiv.org/abs/1802.03426, 2018.
2. Narayan, A., Berger, B. & Cho, H. "Assessing single-cell transcriptomic variability through density-
preserving data visualization." Nature Biotechnology, https://www.nature.com/articles/s41587-020-
00801-7 , 2021
参考文献一覧(1/2)
1. Laurens van der Maaten , Geoffrey Hinton , "Visualizing Data using t-SNE", Journal of Machine
Learning Research, https://lvdmaaten.github.io/publications/papers/JMLR_2008.pdf, 2008.11
2. @g-k氏, Qiita, "t-SNEを理解して可視化力を高める”, https://qiita.com/g-
k/items/120f1cf85ff2ceae4aba , 2021.10.08(最終アクセス2024.05.15)
3. @sakami氏, Qiita, "t-SNE解説", https://qiita.com/sakami/items/bb466161489771f7d2e9 , 2020.08,
(最終アクセス2024.05.15)
4. @hkharmfulbear氏, Qiita, "次元圧縮を片っ端から試してみた(t-SNE, PCA, MDS, UMAP)",
https://qiita.com/hkharmfulbear/items/a19dff8f3c637fa3bc12, 2022.03, (最終アクセス2024.05.15)
5. @kenmatsu4(まつけん)氏, Qiita, "Variational Autoencoder徹底解説",
https://qiita.com/kenmatsu4/items/b029d697e9995d93aa24, 2017.06,(最終アクセス2024.05.15)
6. データ化学工学研究室(金子研究室)@明治大学 理工学部 応用化学科, "t-distributed Stochastic
Neighbor Embedding (t-SNE) ~データの可視化に特化した手法~",
https://datachemeng.com/tsne/ , (最終アクセス2024.05.15)
参考文献一覧(2/2)
7. 室田 一雄, 東京大学計数工学科及び数理情報学専攻 - 俯瞰講義 (数理の世界 第 7回) , "最適化の
数理—応用数理の視点", https://ocw.u-tokyo.ac.jp/lecture_files/gf_06/7/notes/ja/07murota.pdf,
2007.06
8. Leland McInnes, John Healy, James Melville, "UMAP: Uniform Manifold Approximation and Projection
for Dimension Reduction", https://arxiv.org/abs/1802.03426, 2018.
9. Narayan, A., Berger, B. & Cho, H. "Assessing single-cell transcriptomic variability through density-
preserving data visualization." Nature Biotechnology, https://www.nature.com/articles/s41587-020-
00801-7 , 2021
• データソース
https://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones
• 引用元
Davide Anguita, Alessandro Ghio, Luca Oneto, Xavier Parra and Jorge L. Reyes-Ortiz. "A Public Domain
Dataset for Human Activity Recognition Using Smartphones". 21th European Symposium on Artificial
Neural Networks, Computational Intelligence and Machine Learning, ESANN 2013. Bruges, Belgium 24-
26 April 2013.

More Related Content

PDF
t-SNE Explained
PDF
Visualizing Data Using t-SNE
PDF
PDF
慣性センサーログの効果的な可視化と分類
PPTX
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
PPTX
T-sne
PPTX
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
PDF
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
t-SNE Explained
Visualizing Data Using t-SNE
慣性センサーログの効果的な可視化と分類
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
T-sne
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
Neural scene representation and rendering の解説(第3回3D勉強会@関東)

Similar to t-SNE(t分布型確率的近傍埋め込み法)による高次元データの可視化について (20)

PDF
幾何と機械学習: A Short Intro
PPTX
[DL輪読会]Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Ob...
PPTX
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
PDF
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
PDF
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
PDF
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
PPTX
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
PDF
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
PDF
【DL輪読会】Novel View Synthesis with Diffusion Models
PPTX
Advanced medicalresearchcenterbioinformatics2
PPTX
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
PDF
3DFeat-Net
PDF
[DL輪読会]Unsupervised Learning of 3D Structure from Images
PDF
三次元表現まとめ(深層学習を中心に)
PPTX
[DL輪読会]Deep Face Recognition: A Survey
PPTX
医用画像における解剖学的ランドマークの検出、定義および応用
PDF
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
PDF
20190706cvpr2019_3d_shape_representation
PDF
ReNom 2016 ~ 2018振り返り
PDF
CVPR2013の論文紹介(車載カメラ関連)
幾何と機械学習: A Short Intro
[DL輪読会]Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Ob...
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Novel View Synthesis with Diffusion Models
Advanced medicalresearchcenterbioinformatics2
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
3DFeat-Net
[DL輪読会]Unsupervised Learning of 3D Structure from Images
三次元表現まとめ(深層学習を中心に)
[DL輪読会]Deep Face Recognition: A Survey
医用画像における解剖学的ランドマークの検出、定義および応用
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
20190706cvpr2019_3d_shape_representation
ReNom 2016 ~ 2018振り返り
CVPR2013の論文紹介(車載カメラ関連)
Ad

More from Masato Miwada (6)

PDF
On Image Classification Using Convolutional Neural Networks
PDF
畳み込みニューラルネットワークによる画像分類について
PDF
偏りのある時系列データ の分類について
PDF
河川流計測における画像解析技術の実用化(修士論文)
PDF
河川流計測における画像解析技術の実用化
PDF
画像による脳腫瘍の検出
On Image Classification Using Convolutional Neural Networks
畳み込みニューラルネットワークによる画像分類について
偏りのある時系列データ の分類について
河川流計測における画像解析技術の実用化(修士論文)
河川流計測における画像解析技術の実用化
画像による脳腫瘍の検出
Ad

t-SNE(t分布型確率的近傍埋め込み法)による高次元データの可視化について