SlideShare a Scribd company logo
9
Most read
10
Most read
16
Most read
RNA-seqによる
変動遺伝子抽出の統計
∼レビュー
瀬々 潤
sese.jun@aist.go.jp
産総研CBRC
2
DNA(ゲノム)
mRNA
遺伝子
タンパク質
細胞
Illustrations are © 2011 DBCLS Licensed
under a Creative Commons 表示 2.1 日本 License
大規模発現量観測の小史
各遺伝子由来のタグの計数
ランダムに抽出したmRNA中の,特定の部位の配列を特定し,遺伝子発
現量の推定を行う方法
SAGE [Velculescu et al. 1995], BodyMap [Kawamoto et al. 2000]
2003年頃の段階で,定量性を得るために,一つの組織から100万タ
グを超えるデータを取ることを目標にしていた.
CAGE [Shiraki et al. 2003], 5 -SAGE [Hashimoto et al. 2004]
RNA-seq [Ryan et al., 2008, Maher et al. 2009]
ハイブリベースの方法
予め,各遺伝子に対応したプローブを用意しておき,そこにハイブリし
たmRNAタグの量を,蛍光量などに変換して,観測する
マイクロアレイ [Tse-Wen, 1983, Schena et al. 1995]
マイクロアレイ
• 遺伝子の量を蛍光強度に変換して観測
マイクロアレイ
DNA
mRNA
(遺伝子)
発現量
RNA-seq
• 遺伝子の量をリードの数を数えることで定量化
DNA
mRNA
次世代シーケンサ
から得られるリード
(100塩基程度の塩基配列)
リードのマッピング
(リードをゲノムの
領域に対応付ける)
発現量
RNA-seq解析の流れ
リードをゲノムへマッピング TopHat, STARなど
各遺伝子上のリード数を計数 HTSeq, RSEMなど
遺伝子数 n
サンプル数 m
各サンプル毎
各サンプル毎
まとめて表を作成する
全体で1つ
ゲノム配列が決定されいてる種を想定
変動発現遺伝子
の抽出
クラスタリング等
正規化
機能解析
Splicing が考慮出来る必要あり
注:必ずしも各ソフトウエアが上記を
綺麗に切り分けている訳ではない.
たとえばTopHatは計数まで行える.
RNA-seq解析の流れ
リードをゲノムへマッピング
各遺伝子上のリード数を計数
各サンプル毎
各サンプル毎
まとめて表を作成する
全体で1つ
ゲノム配列が決定されいてる種を想定
変動発現遺伝子
の抽出
クラスタリング等
正規化
機能解析
1. RNA-seqでは,各ライブラリか
ら出てくるタグ数が一致しないの
で,仮想的に一致させる.遺伝子
長でもタグ数は異なる.
2. サンプルによってバイアスがあ
ることがあり,必要に応じて補正
を要する.
1の例として,RPKM [Montazavi et al., 2008]
遺伝子(Exon)上の全リード * 1,000
実験で読まれた全リード(100万単位) * 遺伝子(Exon)長
2は,マイクロアレイ時にも行われていた.
非常に高発現な数遺伝子の変動に全体が
ひきずられる結果,数千遺伝子が変動している
ように見えてしまう.
RNA-seq解析の流れ
リードをゲノムへマッピング
各遺伝子上のリード数を計数
各サンプル毎
各サンプル毎
まとめて表を作成する
全体で1つ
ゲノム配列が決定されいてる種を想定
変動発現遺伝子
の抽出
クラスタリング等
正規化
機能解析
RNA-seq時代になって,
Biological replicateを取るこ
とが必須となっている.
そのreplicateを使って,2群間比
較を行い,統計的に有意な発現変
動のある遺伝子群を抽出する
edgeR [Robinson et al. 2010],
DESeq [Anders et al. 2010],
SAGE法の後期では,同様の研究が
行われており,その理論を
RNA-seqに転用している.
発現比率と統計的有意差
• MA plot
Robinson M D et al. Bioinformatics 2010;26:139-140
© The Author(s) 2009. Published by Oxford University Press.
(平均)発現量
発現差
Fig
分割表による検定
• 一般に,Fisherの正確確率検定,カイ二乗検定など.
• タグ発現解析では,ポアソン分布を用いた検定が使われる
• 二項分布を考えた場合でもpが小さい場合に相当し,ポア
ソン分布で良く近似できる
150 100
1750 1900
1900 2000
Case Ctrl
Total
Gene1由来
Gene1以外由来
2000回のサンプルで,100回起きる事象が
あるとき,1900回のサンプルで,150回事
象が起こる
p=100/2000=0.05の確率で表が出るコイ
ンを1900回投げ150回表が出る
単位時間tあたり,0.05t 回事象が起こると
き,(150/1900)t回事象が起こる確率
二項分布
ポアソン分布
Biological replicate はどうするか
• CaseもControlも3回ずつ取られている状況を考える
• ポアソン分布の枠組みでは,Biological replicateを
直接は扱えない.
• 例えば,20回ずつ取られていれば,各遺伝子毎にt
検定も有効かもしれないが,3回では検定の検出力
が足りない
• ましてやt検定の前提条件が満たされているか,確
かめられる回数でもない.
• 実際には,統計検定が最終的な目標ではないので,「費
用の問題」「それだけ実験をするなら,他の条件を観
測したい」などで,大量のreplicate が取られることは
無い.
• とはいえ,ある程度の有意差検定を行いたい
遺伝子数n
Control Case
本当に二項分布/ポアソン分布なのだろうか?
• 二項分布の分散は np(1-p).ポアソン分布は λ(∼np)
• 黒線が理論線.青点が実際の分散
• 理論値よりも分散が遥かに大きい.特に発現量が大きい時に顕著
• ポアソン分布で検定すると,発現量が大きい時,殆ど発現量に変
化がないのに,有意差が生まれてしまう←モデルが誤っている
Anders, S., et al. (2013). Nature Protocols
Fig
負の二項分布を用いたモデル化
• ポアソン分布に分散を表す変数を加えたい
• 負の二項分布を用いて表すモデル化が採用されている (edgeR,
DESeq, cuffdiff2など)
• 負の二項分布は,ポアソン分布に変数を1つ加えたもの,あるいは,
複数のポアソン分布の混合分布として計算することが可能.
• 計測点が3点のみでは計算した分散の値が信頼出来ない問題は解消さ
れていないことに注意.
P(Y = y) =
✓
n
y
◆
py
(1 p)n y
二項分布:
負の二項分布:
の値をとっているわけではなく,
など,様々な状態を反映している
全に一致した値になることは無い
NA-seq を利用した多くの 2 群間
群から複数回のサンプル(生物学
,2 群間の比較が行われる.各遺
応の無い 2 群間比較の問題と考え
で行われる実験の回数は,実験費
意の難しさから,各群の実験が 3
少ないことも多い.この少ない実
題となる.
用される検定として t 検定(ス
挙げられる.t 検定では,2 群間
来かを検定する.
の RNA-seq を行ったとする.そ
, Aa とする.同様に群 B から b
れぞれ B1, B2, ..., Bb とする.こ
ことが知られている.一方,実際にデータを調べると,
大きい所では,分散が λ より大きな値を取っている事
られている ([4] の Figure 1,あるいは [2] の Supplemn
Text Figure 2.).このため,ポアソン分布を用いて検
行うと,特に発現量が大きい遺伝子に対して,本来の
上に低い P 値を算出する可能性がある.
過分散が起きた場合に,適用されるモデルが負の二
布である.負の二項分布を用いた検定は,以下のよう
式化される
定式化 4 確率変数を Y として,パラメータ p と r
いると,負の二項分布は
P(Y = y) =
y + r − 1
r
py
(1 − p)r
と表せる.また,ガンマ関数 Γ(x) =
∞
0
e−t
tx−1
dt が
が自然数の時,Γ(x) = (x − 1)! である事を用いると,
P(Y = y) =
Γ(y + r)
Γ(r)Γ(y + 1)
py
(1 − p)r
となる.期待値は pr/(1 − p),分散は pr/(1 − p)2
であ
P(Y = y) =
✓
y + r 1
r
◆
py
(1 p)r
=
(y + r)
(r) (y + 1)
py
(1 p)r
正規化の時点で離散値では
なくなっているので,
連続値が扱えて嬉しい.
変数 r を無限に飛ばすと,負の二項分布はポアソン分布に近似できる.
期待値を表す新たな変数として λ = pr
1−p を導入すると,p = λ
r+λ である.こ
れを,負の二項分布の式に代入して,変形する.
f(y; k, r) = P(Y = y)
=
Γ(y + r)
Γ(r)Γ(y + 1)
py
(1 − p)r
=
λy
y!
·
Γ(y + r)
Γ(r)(r + λ)r
·
1
1 + λ
r
r
ここで r を無限に飛ばすと,第 1 項は r に依存せず,第 2 項は 1,第 3 項は
指数関数に収束するので,
lim
r→∞
f(y; k, r) =
λy
y!
1
eλ
これは,期待値 λ のポアソン分布である.
証明
■
各遺伝子の発現量の分散を推定する
• 経験的に,分散は発現量に依存する
• 発現量が近い場合,分散も類似すると考えて
回帰問題を考えることで,分散の推定を行っ
ている.
• DESeqの例:サンプルi, 遺伝子gに対し,分散
を次の式で推定する.
Anders, S., et al. (2013). Nature Protocols
µ(i, g) + t(i)2
⌫(g)
正規化後の
推定発現量
サンプルの
総タグ数
パラメータ
遺伝子毎の値.
この値を回帰で
求める
過分散を表す項
Fig
分布は推定できた.検定はどうする?
• 分布が複雑で,解析的にはp値が求まらない.
• 求めた負の二項分布に従った乱数を発生させ,シミュレーションでp
値を求める (DESeq)
• あるいは,フィッシャーの正確確率検定の様に,観測された値以上に
極端な場合を数え上げる (edgeR)
• 例えばDESeqの戦略では
• 遺伝子g由来のタグがControl から NA回,CaseからNB回が観測された
とすると
• Control と Caseは独立だと仮定するしPr(Y=NA)Pr(Y=NB)を計算
• 負の二項分布から乱数を2個(N1, N2)発生させ Pr(Y=N1)Pr(Y=N2)を計算
• 元の値より,p値が小さくなるような乱数の割合がp値
• 最後は,False Discovery Rate (FDR)によって,多重検定補正を行う
Cuffdiffについて
• Cuffdiff(2)は,edgeRやDESeqと違い,RNA-seq,特にSplicing
variant を定量化する話が根本にある.
• 1つの遺伝子が複数のスプライシングバリアントを保つ場合,
各リードがどのスプライシングバリアントに属するかを,最
尤推定を用いて定式化
• 発現量の分散モデルに関しては,DESeqのモデルを踏襲
• 但し,各exonを負の二項分布で表して,その混合分布(ベー
タ負の二項分布)を発現のモデルにしている
• 最近は,edgeRやDESeqも,スプライスバリアントの定量に力
を入れているようである.
まとめと今後の課題
• RNA-seqの導入によって,マイクロアレイに比べて定量性が高まっただ
けでなく,タグをランダムサンプリングするモデルが導入でき,統計的
なモデル化が進んだ
• 現在まで,(SAGE法の延長による)過分散を考慮した発現差の統計解
析(DESeq, edgeR)と,RNA-seqから生まれた選択的スプライシング解析
(cuffdiff)の2つの道で研究が進んでおり,これらの融合が進んでいる.
• これ以上モデルを複雑にすることは,オーバーフィットとの戦いになる
のではないかと思われる.
• 今後の方向性として
• アリル特異性の解析 [Akama et al. NAR 2014]
• 多サンプルに対する解析
• クラスタ分析との融合など,が考えられるだろう.
• RNA-seqが,PacBioなどを利用した全長観測可能なものになると,
スプライシングのモデル化が容易になる可能性がある.

More Related Content

PDF
DNAマイクロアレイの解析と多重検定補正
PDF
[DLHacks]DeepなSSM
PDF
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
PPTX
【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH
PDF
Deep State Space Models for Time Series Forecasting の紹介
PDF
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
PDF
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
KEY
FDRの使い方 (Kashiwa.R #3)
DNAマイクロアレイの解析と多重検定補正
[DLHacks]DeepなSSM
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH
Deep State Space Models for Time Series Forecasting の紹介
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
FDRの使い方 (Kashiwa.R #3)

What's hot (20)

PPTX
猫でも分かるVariational AutoEncoder
PDF
生成モデルの Deep Learning
PDF
ELBO型VAEのダメなところ
PDF
【博士論文発表会】パラメータ制約付き特異モデルの統計的学習理論
PDF
クラシックな機械学習の入門  8. クラスタリング
PDF
ベイズ統計によるデータ解析
PPTX
主成分分析(Pca)
PPTX
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
PDF
Anomaly detection 系の論文を一言でまとめた
PDF
Transformer メタサーベイ
PDF
研究室における研究・実装ノウハウの共有
PDF
第4回DARM勉強会 (構造方程式モデリング)
PDF
正準相関分析
PPTX
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
PDF
機械学習と主成分分析
PDF
Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
PDF
IIBMP2016 深層生成モデルによる表現学習
PPTX
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
PDF
PRML学習者から入る深層生成モデル入門
猫でも分かるVariational AutoEncoder
生成モデルの Deep Learning
ELBO型VAEのダメなところ
【博士論文発表会】パラメータ制約付き特異モデルの統計的学習理論
クラシックな機械学習の入門  8. クラスタリング
ベイズ統計によるデータ解析
主成分分析(Pca)
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【論文紹介】How Powerful are Graph Neural Networks?
Anomaly detection 系の論文を一言でまとめた
Transformer メタサーベイ
研究室における研究・実装ノウハウの共有
第4回DARM勉強会 (構造方程式モデリング)
正準相関分析
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
機械学習と主成分分析
Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
IIBMP2016 深層生成モデルによる表現学習
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
PRML学習者から入る深層生成モデル入門
Ad

Similar to RNAseqによる変動遺伝子抽出の統計: A Review (7)

PDF
[DDBJing30] メタゲノム解析と微生物統合データベース
PDF
SNPデータ解析入門
PDF
Normalization of microarray
PDF
クラシックな機械学習の入門  9. モデル推定
PDF
Statistics_R
PPTX
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
PPT
Survival analysis0702
[DDBJing30] メタゲノム解析と微生物統合データベース
SNPデータ解析入門
Normalization of microarray
クラシックな機械学習の入門  9. モデル推定
Statistics_R
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
Survival analysis0702
Ad

More from sesejun (20)

PDF
バイオインフォマティクスによる遺伝子発現解析
PDF
次世代シーケンサが求める機械学習
PDF
20110602labseminar pub
PDF
20110524zurichngs 2nd pub
PDF
20110524zurichngs 1st pub
PDF
20110214nips2010 read
PDF
Datamining 9th association_rule.key
PDF
Datamining 8th hclustering
PDF
Datamining r 4th
PDF
Datamining r 3rd
PDF
Datamining r 2nd
PDF
Datamining r 1st
PDF
Datamining 6th svm
PDF
Datamining 5th knn
PDF
Datamining 4th adaboost
PDF
Datamining 3rd naivebayes
PDF
Datamining 2nd decisiontree
PDF
Datamining 7th kmeans
PDF
100401 Bioinfoinfra
PDF
Datamining 8th Hclustering
バイオインフォマティクスによる遺伝子発現解析
次世代シーケンサが求める機械学習
20110602labseminar pub
20110524zurichngs 2nd pub
20110524zurichngs 1st pub
20110214nips2010 read
Datamining 9th association_rule.key
Datamining 8th hclustering
Datamining r 4th
Datamining r 3rd
Datamining r 2nd
Datamining r 1st
Datamining 6th svm
Datamining 5th knn
Datamining 4th adaboost
Datamining 3rd naivebayes
Datamining 2nd decisiontree
Datamining 7th kmeans
100401 Bioinfoinfra
Datamining 8th Hclustering

RNAseqによる変動遺伝子抽出の統計: A Review