SlideShare a Scribd company logo
Wolf, F. Alexander, et al.
"Graph abstraction reconciles clustering with
trajectory inference through a topology preserving
map of single cells.”
bioRxiv preprint (2017).
報告者:鈴木良平
tmd-gpat Journal Club Apr.6, 2018
研究の概要
シングルセル解析で、クラスタリングと軌道推測を組み合わせる
離散的 連続的
クラスタリング (Loupe Cell Browser) 軌道推測 (Trapnell et al., 2014)
→ 複雑なデータセットでも分化系列の安定した解析が可能に!
研究の概要
シングルセル解析で、クラスタリングと軌道推測を組み合わせる
離散的 連続的
クラスタリング (Loupe Cell Browser) 軌道推測 (Trapnell et al., 2014)
→ 複雑なデータセットでも分化系列の安定した解析が可能に!
手法:「グラフ抽象化」+「トポロジー保存写像」
Background: single-cell biology
= 組織内の細胞ごとの表現型の違いを捉える実験・分析手法.
実験手法の例 (右ほど新しくハイスループット)
• IHC, FACS, single-cell mass cytometry, scRNA-seq
知りたいこと(例)
• 細胞分化の様相、メカニズム
• 薬物や疾患への細胞の応答
• 組織内の細胞不均質性、相互作用
• 組織内の各種細胞の空間分布
Single-cell RNA-seq
データ:同組織由来の数千〜数万細胞 × 数万遺伝子の遺伝子発現
Furusawa, Chikara, and Kunihiko Kaneko. "A dynamical-systems
view of stem cell biology." Science 338.6104 (2012): 215-217.
細胞の分化や応答を
読み取りたい
クラスタリング
性質の近い細胞の群れを見つける …… 教師なし学習の基本
主な手法
• 階層クラスタリング ―→
• k-means
• Meanshifts
• グラフベースクラスタリング
細胞の分類はできるが、連続的な分化や
応答ダイナミクスの情報は得られない
離散的
軌道推測 / pseudotemporal (PT)
入力例:高次元発現プロファイル
細胞
細胞
低次元空間にマッピング
(しないこともある)
入力
single-cell methodで得られたデータ
出力
• 各細胞の時間的順序 (または代表的な時系列)
• 分岐(bifurcation)パターンの特定
連続的
典型的な解析の例 (Trapnell et al., 2014)
ヒト筋芽細胞(myoblast)に分化刺激後、
{0,24,48,72}時間経過時にscRNA-seq(約500細胞)
※分化刺激:低血清濃度へのスイッチ
解析
• 独立成分分析 (FastICA) → 最小全域木
• 長い経路上にpseudotimeを割り当て
結果
• 既知をregulator geneの振る舞いを確認
PTの基本的なアイデア
仮定
• 分化に伴い表現型は連続的に変化する
• 組織中には分化経路上のあらゆる段階の
細胞がまんべんなく存在している
• それらを十分密にサンプリングできる
アプローチ
• 細胞の高次元空間中での分布を調べる
• 列をなしていれば、それが時系列変化
• 枝分かれがあれば、それが分岐的分化
Furusawa, Chikara, and Kunihiko Kaneko. "A dynamical-systems
view of stem cell biology." Science 338.6104 (2012): 215-217.
以前の勉強会資料から抜粋・一部改
PTの基本的なアイデア
仮定
• 分化に伴い表現型は連続的に変化する
• 組織中には分化経路上のあらゆる段階の
細胞がまんべんなく存在している
• それらを十分密にサンプリングできる
アプローチ
• 細胞の高次元空間中での分布を調べる
• 列をなしていれば、それが時系列変化
• 枝分かれがあれば、それが分岐的分化
Furusawa, Chikara, and Kunihiko Kaneko. "A dynamical-systems
view of stem cell biology." Science 338.6104 (2012): 215-217.
以前の勉強会資料から抜粋・一部改
実際のデータでは……
• 全く異なる種類の細胞が
混在してシーケンスされる
• まばらなサンプリング
こんなに簡単には行かない!
PTがうまくいかないケース (Monocle 2)
造血系列(hematopoiesis)のデータセット (Paul et al., 2015)
Monocle 2 (Qiu et al., 2017)での木構造抽出
→ 分化系列から外れるLympoidがデータに入っていると失敗
Lymph除去時の解析結果 非除去時の解析結果
元文献データ
(Paul et al.)
色は元文献
での分類
Motivation
クラスタリング
• 長所 非連続的でスパースなデータにも使える
• 短所 得られる生物学的知見が少ない
軌道推測(PT)
• 長所 細胞分化系列やそれに関連する遺伝子などがわかる
• 短所 データへの要請が厳しい、統計的評価ができない(p値?)
実際の研究では両者の長所を兼ね備えた分析手法が必要!
→ 離散性と連続性を同時に扱えるデータ構造とは?
Basic Ideas
Approximate graph abstraction
(AGA)
細胞クラスタ分割とその接続関係
全体的な構造はこちらで見る
Random-walk based distance
measure
遺伝子発現ベクトルではなくグラフ
歩数で細胞・クラスタの距離を定義
Method Overview
元データ
(scRNA-seq)
グラフに変換
クラスタ分割
クラスタ間距離を
計算(AGA)
木構造を抽出
遺伝子発現の
連続変化も再現
1. グラフ生成と分割
kNN (k-nearest-neighbor)で細胞グラフ を構築
• 細胞間の距離はGaussian decayで定義
分割 (partitioning)
• グラフの頂点(細胞)をいくつかのグループに分ける
• グループ内の結合は多く、グループ間の結合は少ない分け方
→ “modularity optimization”
• スタンダードなLouvain algorithmを採用
https://github.com/vtraag/louvain-igraph
2. Connectivity test
Partition同士の結合(↔距離)はどのように定義する?
(1) edge statistics
• partition i の関係する辺と全辺数との比 = edge frequency θi
• もしもpartition iとjが特に結合関係になければ、
相互接続数は期待値 E[kij] = Nθiθj のベルヌーイ分布に従う(粗い仮定)
→ 結合の確信度confidenceは二項検定で評価できる!
10%の辺が
集まった
partition
20%の辺が
集まった
partition
偶然だけなら
2%の辺が結ぶ
2. Connectivity test
(2) with random walk distance d(x, y)
• kNN結合数だけを見るのは心もとない
→ クラスタに含まれる細胞どうしの距離を材料にクラスタ距離を定義
• 両クラスタの細胞 xi, yj 同士の距離 d(xi, yj) ← あとで定義
• 全ペアに関する d(xi, yj) の要約量をクラスタ間の距離とする
例)最小値・平均値・中央値
ランダムウォーク距離の計算
ランダムウォーク(酔歩)とは?
ある出発地点からネットワーク(グラフ)上をランダムな経路で動くこと
一定時間後に目的地に到達している可能性や、到達時刻の期待値 = 距離指標
複雑な構造のグラフでは、ユークリッド距離は大域的距離指標として不適切
→ ランダムウォークは規模や構造に依らない距離の特徴付けができる
スペクトル分析
Graph Laplacian Matrix of
行列 の固有値 ,固有ベクトルを考える
例:固有値 の左固有ベクトル
→ さらに一歩進んでも変化しないような確率分布に対応
このように固有値・固有ベクトルからグラフ上の酔歩に関する情報がわかる
平均到達時間
ランダムウォーク距離d:“topology-preserving map”
隣接行列次数行列
遷移行列
ある細胞の次に
どの細胞に行くか
3. 木構造の抽出
AGAから、分化系統に対応する木構造を取り出したい
(1) 最小全域木 (MST)
• 枝の合計confidenceが最大になるようにグラフから枝を選んだもの
• 簡単で高速なアルゴリズムで計算できる (Prim法/Kraskal法)
• 縮退しやすい(ほとんど同じスコアの色々な木が作れる)
3. 木構造の抽出
(2) 反復的構築
• 細胞レベルでの「外れ値」にはAGA上でも「葉」であってほしい
• 外れ値細胞を見つけては、その属するクラスタをできるだけ葉に割り当てる
分化系列の遺伝子発現再現
分化経路に沿った遺伝子発現の連続的変化を再現したい
• 抽象グラフ でクラスタ(partition)経路を指定する
• その順にクラスタをめぐる細胞経路での発現変化をアンサンブル平均する
start
cluster
end
cluster
開始細胞
終着細胞
経路1
経路2
他の手法とのコンセプト的比較
※single-cell解析手法を定量的に比較するのは難しい
• ground truthと言えるデータがほぼ存在しない(特にpseudotemporal)
• ある手法が失敗する例を用意するのは割と簡単
AGAの従来手法に対する本質的な改善点
• 統計的有意性の概念を導入
• データについて仮定が少ない(連続分布や単一分岐でなくてもOK)
• PCAのようなグローバルな距離指標を使わず、複雑な構造にも頑強
• クラスタの解釈性がよい(離散的分割に時系列情報を組み合わせられる)
実データでの評価
造血系列の3つのデータセットを使用
(1) シミュレーション [Moignard et al. ‘15]
• 11遺伝子のBoolean network (e.g., EKLF = Gata1 & not Fli1)
• ODEに変換 → 分化時の連続的な発現変化をシミュレーション
(2) Paul et al. 2015
(3) Nestorowa et al. 2016
• マウスでのscRNA-seqデータセット
AGAによる発現ダイナミクスの再現
Paul et al.
Nestorowa et al.
シミュレーションデータ
AGA Monocle 2 StemID 2
連続的分化が
捉えられない
散在クラスタが
木構造に影響
散在クラスタ
分岐構造を
捉えられない
シミュレーションデータ wo/散在クラスタ
AGA
ECLAIR
Monocle 2
DPT
Paul et al.
AGA
Monocle 2
Lymphなし Lymphあり
Lymph有無に
関わらず一貫性
Lymphが入ると
構造が崩れる
Nestorowa et al.
AGA
Monocle2
Stemから
各細胞への分化
4次元
10次元
プラナリア全細胞系列の分類 (12252cells)
20系列への分化を確認
深層学習への応用
組織画像を細胞ごとCNNに入力
中間層で得られる特徴量を
遺伝子発現量の代わりに使用
→ AGA上に細胞周期を再現
→ ダメージ細胞グループを発見
まとめ
• クラスタリングと軌道推測の良さを併せ持った手法を提案
• kNNグラフの抽象化と、ランダムウォークに基づく距離指標を
組み合わせた「トポロジー保存写像」のテクニック
• 非連続性や複雑な枝分かれのあるデータにも対応できる
• 計算速度も従来手法(Monocle 2)より30倍程度速い
• 造血系・プラナリア全細胞系列などで評価

More Related Content

PPTX
データモデリング・テクニック
PPTX
Single-cell pseudo-temporal ordering 近年の技術動向
PDF
データ基盤グループを支えるチームビルディング
PPTX
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
PDF
KDD2016勉強会 資料
PDF
ChatGPTがもたらす未来予測
PDF
“Why Should I Trust You?” Explaining the Predictions of Any Classifierの紹介
PDF
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
データモデリング・テクニック
Single-cell pseudo-temporal ordering 近年の技術動向
データ基盤グループを支えるチームビルディング
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
KDD2016勉強会 資料
ChatGPTがもたらす未来予測
“Why Should I Trust You?” Explaining the Predictions of Any Classifierの紹介
【論文調査】XAI技術の効能を ユーザ実験で評価する研究

What's hot (20)

PDF
深層自己符号化器+混合ガウスモデルによる教師なし異常検知
PDF
深層生成モデルと世界モデル(2020/11/20版)
PDF
「樹木モデルとランダムフォレスト-機械学習による分類・予測-」-データマイニングセミナー
PDF
論文紹介 A Bayesian framework for word segmentation: Exploring the effects of con...
PDF
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
PPTX
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
PDF
Rでisomap(多様体学習のはなし)
PPTX
Transformerを雰囲気で理解する
PDF
論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey
PDF
機械学習システムの品質保証に向けた課題とコンソーシアム活動
PDF
FastAPIを使って 機械学習モデルをapi化してみた
PDF
PCIでプレプリでレジレポの件について
PPT
100614 構造方程式モデリング基本の「き」
PDF
全力解説!Transformer
PDF
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
PPTX
プレゼンの基本
PDF
時系列解析の使い方 - TokyoWebMining #17
PPTX
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
PDF
CF-FinML 金融時系列予測のための機械学習
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
深層自己符号化器+混合ガウスモデルによる教師なし異常検知
深層生成モデルと世界モデル(2020/11/20版)
「樹木モデルとランダムフォレスト-機械学習による分類・予測-」-データマイニングセミナー
論文紹介 A Bayesian framework for word segmentation: Exploring the effects of con...
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
Rでisomap(多様体学習のはなし)
Transformerを雰囲気で理解する
論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey
機械学習システムの品質保証に向けた課題とコンソーシアム活動
FastAPIを使って 機械学習モデルをapi化してみた
PCIでプレプリでレジレポの件について
100614 構造方程式モデリング基本の「き」
全力解説!Transformer
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
プレゼンの基本
時系列解析の使い方 - TokyoWebMining #17
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
CF-FinML 金融時系列予測のための機械学習
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Ad

Similar to Wolf et al. "Graph abstraction reconciles clustering with trajectory inference through a topology preserving map of single cells" (20)

PPTX
Pachinko Allocation Model を用いたクラスタリングによるシングルセル発現解析手法
PDF
多数のグラフからの統計的機械学習 (2014.7.24 人工知能学会 第94回人工知能基本問題研究会 招待講演)
PDF
帰納バイアスと分子の組合せ的表現・幾何的表現 (本発表)
PDF
NIPS2013読み会: Scalable kernels for graphs with continuous attributes
PDF
Newman アルゴリズムによるソーシャルグラフのクラスタリング
PPTX
R seminar on igraph
PPTX
clusDCA_ismb読み会2015
PPT
Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析
PDF
バイオインフォマティクスによる遺伝子発現解析
PDF
20160324自由集会講演
PDF
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
PDF
大規模ネットワークの性質と先端グラフアルゴリズム
PDF
グラフデータ分析 入門編
PPT
Chap. 6(nakagawa)
PPTX
研究紹介(学生向け)
PDF
確率モデルを使ったグラフクラスタリング
PDF
グラフニューラルネットワークとグラフ組合せ問題
PPTX
離散数理分野(研究室)の案内
PDF
Hayashi tutorial ne2017
PDF
ネットワーク科学 空間システムデザイン
Pachinko Allocation Model を用いたクラスタリングによるシングルセル発現解析手法
多数のグラフからの統計的機械学習 (2014.7.24 人工知能学会 第94回人工知能基本問題研究会 招待講演)
帰納バイアスと分子の組合せ的表現・幾何的表現 (本発表)
NIPS2013読み会: Scalable kernels for graphs with continuous attributes
Newman アルゴリズムによるソーシャルグラフのクラスタリング
R seminar on igraph
clusDCA_ismb読み会2015
Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析
バイオインフォマティクスによる遺伝子発現解析
20160324自由集会講演
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
大規模ネットワークの性質と先端グラフアルゴリズム
グラフデータ分析 入門編
Chap. 6(nakagawa)
研究紹介(学生向け)
確率モデルを使ったグラフクラスタリング
グラフニューラルネットワークとグラフ組合せ問題
離散数理分野(研究室)の案内
Hayashi tutorial ne2017
ネットワーク科学 空間システムデザイン
Ad

More from Ryohei Suzuki (20)

PDF
Transformer based approaches for visual representation learning
PPTX
Paper memo: persistent homology on biological problems
PPTX
Paper memo: Optimal-Transport Analysis of Single-Cell Gene Expression Identif...
PDF
Basic Concepts of Entanglement Measures
PPTX
Disentangled Representation Learning of Deep Generative Models
PPTX
論文紹介: "MolGAN: An implicit generative model for small molecular graphs"
PPTX
Report: "MolGAN: An implicit generative model for small molecular graphs"
PPTX
等号と不等号の物理学
PPTX
コンピュータは知恵熱を出すか?
PPTX
身体の中の小宇宙:免疫研究の最前線
PPTX
Collaborative 3D Modeling by the Crowd
PPTX
汝は計算機なりや?
PPTX
アナログとはなんだろう。―古くて新しい、もう一つの計算―
PPTX
AnnoTone (CHI 2015)
PPTX
色字共感覚と書記素学習
PPTX
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
PPTX
立体音響とインタラクション
PPTX
SIGGRAPH 2014 Preview -"Shape Collection" Session
PPTX
Overview of User Interfaces
PPTX
Brief Introduction to Recent Spatial Interfaces
Transformer based approaches for visual representation learning
Paper memo: persistent homology on biological problems
Paper memo: Optimal-Transport Analysis of Single-Cell Gene Expression Identif...
Basic Concepts of Entanglement Measures
Disentangled Representation Learning of Deep Generative Models
論文紹介: "MolGAN: An implicit generative model for small molecular graphs"
Report: "MolGAN: An implicit generative model for small molecular graphs"
等号と不等号の物理学
コンピュータは知恵熱を出すか?
身体の中の小宇宙:免疫研究の最前線
Collaborative 3D Modeling by the Crowd
汝は計算機なりや?
アナログとはなんだろう。―古くて新しい、もう一つの計算―
AnnoTone (CHI 2015)
色字共感覚と書記素学習
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
立体音響とインタラクション
SIGGRAPH 2014 Preview -"Shape Collection" Session
Overview of User Interfaces
Brief Introduction to Recent Spatial Interfaces

Wolf et al. "Graph abstraction reconciles clustering with trajectory inference through a topology preserving map of single cells"