SlideShare a Scribd company logo
9
Most read
10
Most read
16
Most read
m i R N A デ ー タ 解 析 入 門
第 2 3 回 勉 強 会 資 料
2013年6月15日
Copyright © Amelieff Corporation. All Rights Reserved.
2
m i R N A と は
• タンパク質をコードしない、ノンコーディングRNAの一種
• 他の遺伝子のイントロンのアンチセンス鎖などから転写
される
• 転写後、ヘアピン構造のprecursor miRNAになった後、
Dicerによって切り出されて長さ20~25bp程度のmature
miRNAとなって機能する
• miRNA上の一部分が他の遺伝子の一部分に結合する
ことで遺伝子の発現が制御される
• 細胞の発生、分化、増殖、がん化などに深く関与するこ
とが知られている
http://ja.wikipedia.org/wiki/MiRNA
Copyright © Amelieff Corporation. All Rights Reserved.
最 近 の m i R N A 関 連 記 事
3
BioToday 2013-05-10
マイナビウーマン 2013-04-27
MTPro 2013-05-08
日経バイオテクONLINE 2013-04-11
Copyright © Amelieff Corporation. All Rights Reserved.
4
m i R N A 解 析 の 一 般 的 な 流 れ
Single-endで
シーケンシング
アダプタを除去
10bp未満を
破棄
既知配列と比較
mature miRNA, other ncRNA,
exon, intergenic/intronic
既知
miRNA
発現量正規化
TPM(*1)
サンプル間比較
SAM(*2)、Fold Change
*1: transcript per million
*2: Significance Analysis of Microarrays
データのクリーニング・解析前処理
アノテーション
リードを
クリーニング
既知 other ncRNA
参考:
BMC Genomics. 2010 May 7;11:288. http://www.ncbi.nlm.nih.gov/pubmed/20459673
BGI Japan http://www.bgisequence.com/jp/services/sequencing-services/rna-sequencing/small-rna-sequencing/
intergenic/intronic
にある
未知転写物
新規
miRNA
新規miRNA予測
ターゲット予測
Pathway分類
GO分類
発現比較
転写物+両端70bpを
miRNA予測
既知 exon
uniqueなFastaに変換してから解析することが多い
二次構造や
既知モデルとの比較
Pathway分類
GO分類
Copyright © Amelieff Corporation. All Rights Reserved.
5
m i R N A の シ ー ケ ン シ ン グ
• 原則的にSingle End
• シーケンシング長は35~50bp程度で十分
• miRNAのキャプチャキット
– mirVana™ miRNA Isolation Kit (ライフテクノロジー)
– TruSeq Small RNA Sample Preparation Kit (イルミナ) など
Copyright © Amelieff Corporation. All Rights Reserved.
6
テ ス ト デ ー タ を 用 い た 解 析 例
Copyright © Amelieff Corporation. All Rights Reserved.
テ ス ト デ ー タ
• 哺乳類miRNAをGAII、Single End でシーケンシングした結果が公開されている
– http://trace.ddbj.nig.ac.jp/DRASearch/study?acc=ERP000773
• 今回はそのうちのヒト由来3組織×2サンプル=計6サンプルを使用
7
ID 説明 リード長 リード数
ERR038405
ヒト
脳由来
miRNA
43 21,758,606
ERR038406 43 20,241,515
ERR038410
肝臓由来
51 10,514,371
ERR038411 26 8,399,589
ERR038415
精巣由来
26 7,130,991
ERR038416 26 9,378,202
Copyright © Amelieff Corporation. All Rights Reserved.
8
テ ス ト デ ー タ の ク オ リ テ ィ を チ ェ ッ ク
• FastQC(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)でチェック
– → クオリティスコアの低いリードが入っている
– → 一部のサンプルでアダプタ配列が混入している
クリーニングが必要
Copyright © Amelieff Corporation. All Rights Reserved.
ク リ ー ニ ン グ
• クリーニング条件
– クオリティスコアが20未満の塩基を80%以上含むリードを破棄
– クオリティスコアが20未満の塩基をトリミング
– トリミングの結果、10bpより短くなったリードを破棄
• FastX-Toolkit(fastq_quality_filter、fastq_quality_trimmer)でクリーニング
• クリーニング前後のリード配列を、FastQC
(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)でチェック
9
$ fastq_quality_filter -i SRR060981.fastq
-q 20 -p 80 -Q33 | fastq_quality_trimmer -t 20
-l 10 -Q33 -o SRR060981_clean.fastq
Copyright © Amelieff Corporation. All Rights Reserved.
10
ク リ ー ニ ン グ 前 後 の ク オ リ テ ィ 比 較
クオリティの悪い塩基・
リードが除去された
Copyright © Amelieff Corporation. All Rights Reserved.
ア ダ プ タ 配 列 除 去
• 一部のサンプルで以下のアダプタの混入が確認された
– Illumina PCR Primer Index 1
• TACAGTCCGACGATCTCGTATGCCGTCTTC
• CTACAGTCCGACGATCTCGTATGCCGTCTT
– Illumina Single End Adapter 2
• TCGTATGCCGTCTTCTGCTTGAAAAAAAAA
• cutadapt(http://code.google.com/p/cutadapt/)を用いてアダプタ除去を行った
11
Copyright © Amelieff Corporation. All Rights Reserved.
ア ダ プ タ 配 列 除 去
• cutadapt実行前後の各アダプタ(全長)出現数
12
ID Illumina PCR Primer Index 1
TACAGTCCGACGATCTCGTA
TGCCGTCTTC
Illumina PCR Primer Index 1
CTACAGTCCGACGATCTCGT
ATGCCGTCTT
Illumina Single End Adapter 2
TCGTATGCCGTCTTCTGCTT
GAAAAAAAAA
除去前 除去後 除去前 除去後 除去前 除去後
ERR038405 8 0 16 0 3 0
ERR038406 264 0 495 0 45 0
ERR038410 2 0 2 0 0 0
ERR038411 0 0 0 0 0 0
ERR038415 0 0 0 0 0 0
ERR038416 0 0 0 0 0 0
アダプタが全長で入っているようなものは完全に除去できた
→アダプタが断片的に入っているようなものはどうか?
Copyright © Amelieff Corporation. All Rights Reserved.
ア ダ プ タ 配 列 除 去
• cutadapt実行前後の各アダプタ(前半15塩基)出現数
13
ID Illumina PCR Primer Index 1
TACAGTCCGACGATCTCGTA
TGCCGTCTTC
Illumina PCR Primer Index 1
CTACAGTCCGACGATCTCGT
ATGCCGTCTT
Illumina Single End Adapter 2
TCGTATGCCGTCTTCTGCTT
GAAAAAAAAA
除去前 除去後 除去前 除去後 除去前 除去後
ERR038405 82 45 99 39 552 0
ERR038406 1,402 91 2,217 78 21,281 11
ERR038410 2 0 2 0 3 0
ERR038411 5 0 4 1 38 0
ERR038415 27 0 14 0 77 0
ERR038416 154 3 124 2 995 0
「アダプタ断片」は少し残っている可能性がある
Copyright © Amelieff Corporation. All Rights Reserved.
ア ダ プ タ 配 列 除 去
• cutadapt実行前後の各アダプタ(後半15塩基)出現数 ※赤字配列をgrep
14
ID Illumina PCR Primer Index 1
TACAGTCCGACGATCTCGTA
TGCCGTCTTC
Illumina PCR Primer Index 1
CTACAGTCCGACGATCTCGT
ATGCCGTCTT
Illumina Single End Adapter 2
TCGTATGCCGTCTTCTGCTT
GAAAAAAAAA
除去前 除去後 除去前 除去後 除去前 除去後
ERR038405 552 0 130 0 3 0
ERR038406 21,281 11 4894 3 48 3
ERR038410 3 0 2 0 0 0
ERR038411 38 0 0 0 0 0
ERR038415 77 0 0 0 0 0
ERR038416 995 0 3 0 0 0
※3つ目のアダプタの
前半15塩基と同じ
「アダプタ断片」は少し残っている可能性がある
Copyright © Amelieff Corporation. All Rights Reserved.
15
ア ノ テ ー シ ョ ン
• fastqをfastaに変換(配列が同一のものは1つにまとめる)
• 作成したfastaを、既知mature miRNAデータにマッピング(blastn)し、
最もe-valueの小さい結果を採用した
• mature miRNAにマッピングできなかったものはprecursor miRNA、
ncRNA、既知遺伝子の順にマッピングし、アノテーションをつけた
miRBase V19
mature miRNA
miRBase V19
precursor miRNA
Rfam V11
other ncRNA
refSeq Gene
not
mapped
not
mapped
not
mapped
Copyright © Amelieff Corporation. All Rights Reserved.
16
既 知 h u m a n m a t u r e m i R N A の 発 現 比 較
• サンプルごとに総リード数は異なる(=実験時のバイアスなど)
→サンプル間で発現を比較するには補正が必要
ID アダプタ
除去後
ERR038405 59,245
ERR038406 723,434
ERR038410 460
ERR038411 32,323
ERR038415 157,294
ERR038416 656,099
例えばあるmiRNAが
ERR038406に15リード、ERR038410に13リード
あった場合、単純に
「ERR038406のほうが発現が高い」とは言えない
→「マップできたリード数」などで補正する
Copyright © Amelieff Corporation. All Rights Reserved.
17
既 知 h u m a n m a t u r e m i R N A の 発 現 比 較
• 各サンプルにおける発現量(補正前)
Copyright © Amelieff Corporation. All Rights Reserved.
18
既 知 h u m a n m a t u r e m i R N A の 発 現 比 較
• 各サンプルにおける発現量(補正後)
– 「human mature miRNAにマップできたリード数(単位:100万)」で割る
Copyright © Amelieff Corporation. All Rights Reserved.
19
既 知 h u m a n m a t u r e m i R N A の 発 現 比 較
• 補正による発現量の変化の例
0
5000
10000
15000
20000
25000
30000
35000
40000
ERR038405 ERR038406 ERR038410 ERR038411 ERR038415 ERR038416
hsa-let-7g-5p
補正前
補正後
Copyright © Amelieff Corporation. All Rights Reserved.
20
ヒ ー ト マ ッ プ 図
• 補正後の発現量データをRに読み込む
> mirna <- read.table("補正後の発現量ファイル", header=T,
row.names=1)
補正後発現量の合計が大きい順
50データを用いた
Copyright © Amelieff Corporation. All Rights Reserved.
21
ヒ ー ト マ ッ プ 図
• 組織ごとにクラスタリングされた
• 肝臓でmir-122の発現が高かった
(赤矢印)
• mir-122は肝臓特異的に発現する
miRNAであることが論文で報告さ
れている[1]
脳脳肝
臓
肝
臓
精
巣
精
巣
[1] Landgraf P, et al.
A mammalian microRNA expression atlas based on
small RNA library sequencing.
Cell. 2007 Jun 29;129(7):1401-14. PubMed PMID: 17604727
Copyright © Amelieff Corporation. All Rights Reserved.
22
ま と め
• miRNAシーケンシングデータ解析で留意すべき点
– アダプタが混入していたら、適切に除去する
– 既知miRNAやncRNAにマッピングしてアノテーションをつける
– 新規miRNAを予測するソフトもある
– 発現量を比較する場合は「マッピングできたリード数」などで補正する
Copyright © Amelieff Corporation All Rights Reserved.
23
アメリエフ
バイオインフォマティクス
調査リクエストサービス
バイオ研究の解析に使用するソフトや解析手法について、
無償で調査するサービスです。調査結果はアメリエフの
ブログでご紹介いたします。
申込みフォーム http://goo.gl/g3SOtU
ア メ リ ク

More Related Content

PDF
Normalization of microarray
PPTX
Single-cell pseudo-temporal ordering 近年の技術動向
PDF
LDA入門
PDF
学振特別研究員になるために~2024年度申請版
PDF
学振特別研究員になるために~2018年度申請版
PDF
決定木学習
PDF
RNAseqによる変動遺伝子抽出の統計: A Review
PDF
機械学習で泣かないためのコード設計
Normalization of microarray
Single-cell pseudo-temporal ordering 近年の技術動向
LDA入門
学振特別研究員になるために~2024年度申請版
学振特別研究員になるために~2018年度申請版
決定木学習
RNAseqによる変動遺伝子抽出の統計: A Review
機械学習で泣かないためのコード設計

What's hot (20)

PDF
学振特別研究員になるために~2022年度申請版
PDF
強化学習と逆強化学習を組み合わせた模倣学習
PDF
学振特別研究員になるために~2019年度申請版
PPTX
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
PDF
階層ベイズと自由エネルギー
PDF
ベータ分布の謎に迫る
PDF
統計的因果推論への招待 -因果構造探索を中心に-
PPTX
ベイズ統計モデリングと心理学
PDF
グラフィカルモデル入門
PPTX
確率的バンディット問題
PDF
学振特別研究員になるために~知っておくべき10のTips~
PDF
異常の定義と推定
PDF
学振特別研究員になるために~知っておくべき10のTips~[平成28年度申請版]
PPTX
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
PDF
学振特別研究員になるために~知っておくべき10のTips~[平成29年度申請版]
PDF
PRMLの線形回帰モデル(線形基底関数モデル)
PPTX
主成分分析(Pca)
PDF
深層生成モデルを用いたマルチモーダル学習
PDF
幾何を使った統計のはなし
PDF
深層生成モデルと世界モデル
学振特別研究員になるために~2022年度申請版
強化学習と逆強化学習を組み合わせた模倣学習
学振特別研究員になるために~2019年度申請版
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
階層ベイズと自由エネルギー
ベータ分布の謎に迫る
統計的因果推論への招待 -因果構造探索を中心に-
ベイズ統計モデリングと心理学
グラフィカルモデル入門
確率的バンディット問題
学振特別研究員になるために~知っておくべき10のTips~
異常の定義と推定
学振特別研究員になるために~知っておくべき10のTips~[平成28年度申請版]
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
学振特別研究員になるために~知っておくべき10のTips~[平成29年度申請版]
PRMLの線形回帰モデル(線形基底関数モデル)
主成分分析(Pca)
深層生成モデルを用いたマルチモーダル学習
幾何を使った統計のはなし
深層生成モデルと世界モデル
Ad

Similar to miRNAデータ解析入門_第23回勉強会資料 (20)

PDF
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
PDF
RNASkim
PDF
コスモバイオニュース No.122 (2016年10月)
PDF
フリーソフトではじめるNGS融合遺伝子解析入門
PPTX
2019年度 第2回バイオインフォマティクス実習
PDF
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
PDF
臨床検査9月号2011
PDF
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
PDF
Up!winter2020
PDF
メタバーコーディングのフレームワークとアルゴリズム
PDF
201910 up!magazine&amp;promotions 2019 autumn
PDF
201910 up!magazine&amp;promotions 2019 autumn
PDF
201910 up!magazine&amp;promotions 2019 autumn
PDF
201910 up!magazine&amp;promotions 2019 autumn
PDF
20160324自由集会講演
PDF
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
PDF
Up! Magazine & Promotions 2020 Summer
PDF
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
PDF
qPCR_primer_construction_ver_1.0
PDF
Exome解析入門
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
RNASkim
コスモバイオニュース No.122 (2016年10月)
フリーソフトではじめるNGS融合遺伝子解析入門
2019年度 第2回バイオインフォマティクス実習
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
臨床検査9月号2011
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
Up!winter2020
メタバーコーディングのフレームワークとアルゴリズム
201910 up!magazine&amp;promotions 2019 autumn
201910 up!magazine&amp;promotions 2019 autumn
201910 up!magazine&amp;promotions 2019 autumn
201910 up!magazine&amp;promotions 2019 autumn
20160324自由集会講演
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
Up! Magazine & Promotions 2020 Summer
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
qPCR_primer_construction_ver_1.0
Exome解析入門
Ad

More from Amelieff (8)

PDF
フリーソフトで始めるNGS解析_第41・42回勉強会資料
PDF
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
PDF
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
PDF
SNPデータ解析入門
PDF
はじめてのLinux
PDF
次世代シーケンス解析サーバーReseq解析マニュアル
PDF
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
PDF
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
SNPデータ解析入門
はじめてのLinux
次世代シーケンス解析サーバーReseq解析マニュアル
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_Qcleaner

Recently uploaded (9)

PPTX
EMA meeting 2025 summer ジョブフェア_兵庫県立尼崎総合医療センター_施設紹介HP用 亮太 浅井.pptx
PPTX
EMA meeting 2025 summer ジョブフェア_都立広尾_施設紹介HP掲載 幹男 中島.pptx
PPTX
EMA meeting 2025 summer ジョブフェア_和歌山県立医大_施設紹介HP用 國立晃成(和歌山県立医科大学).pptx
PDF
EMA meeting 2025 summer ジョブフェア_大阪赤十字病院_施設紹介HP用 池添徳晃.pdf
PDF
EMA meeting 2025 summer ジョブフェア_千葉市立海浜病院_施設紹介HP用 溝辺倫子.pdf
PDF
EMA meeting 2025 summer ジョブフェア_順天堂静岡病院_施設紹介HP.pdf
PDF
EMA meeting 2025 summer ジョブフェア_熊本赤十字病院_施設紹介HP用 永井 冴映.pdf
PDF
EMA meeting 2025 summer ジョブフェア_横浜労災病院_施設紹介HP用 柴崎貴俊(横浜労災).pdf
PDF
GM_生物学_遺伝子_細胞療法_GCT_製品_パンフレット_2025日本語.pdf
EMA meeting 2025 summer ジョブフェア_兵庫県立尼崎総合医療センター_施設紹介HP用 亮太 浅井.pptx
EMA meeting 2025 summer ジョブフェア_都立広尾_施設紹介HP掲載 幹男 中島.pptx
EMA meeting 2025 summer ジョブフェア_和歌山県立医大_施設紹介HP用 國立晃成(和歌山県立医科大学).pptx
EMA meeting 2025 summer ジョブフェア_大阪赤十字病院_施設紹介HP用 池添徳晃.pdf
EMA meeting 2025 summer ジョブフェア_千葉市立海浜病院_施設紹介HP用 溝辺倫子.pdf
EMA meeting 2025 summer ジョブフェア_順天堂静岡病院_施設紹介HP.pdf
EMA meeting 2025 summer ジョブフェア_熊本赤十字病院_施設紹介HP用 永井 冴映.pdf
EMA meeting 2025 summer ジョブフェア_横浜労災病院_施設紹介HP用 柴崎貴俊(横浜労災).pdf
GM_生物学_遺伝子_細胞療法_GCT_製品_パンフレット_2025日本語.pdf

miRNAデータ解析入門_第23回勉強会資料

  • 1. m i R N A デ ー タ 解 析 入 門 第 2 3 回 勉 強 会 資 料 2013年6月15日
  • 2. Copyright © Amelieff Corporation. All Rights Reserved. 2 m i R N A と は • タンパク質をコードしない、ノンコーディングRNAの一種 • 他の遺伝子のイントロンのアンチセンス鎖などから転写 される • 転写後、ヘアピン構造のprecursor miRNAになった後、 Dicerによって切り出されて長さ20~25bp程度のmature miRNAとなって機能する • miRNA上の一部分が他の遺伝子の一部分に結合する ことで遺伝子の発現が制御される • 細胞の発生、分化、増殖、がん化などに深く関与するこ とが知られている http://ja.wikipedia.org/wiki/MiRNA
  • 3. Copyright © Amelieff Corporation. All Rights Reserved. 最 近 の m i R N A 関 連 記 事 3 BioToday 2013-05-10 マイナビウーマン 2013-04-27 MTPro 2013-05-08 日経バイオテクONLINE 2013-04-11
  • 4. Copyright © Amelieff Corporation. All Rights Reserved. 4 m i R N A 解 析 の 一 般 的 な 流 れ Single-endで シーケンシング アダプタを除去 10bp未満を 破棄 既知配列と比較 mature miRNA, other ncRNA, exon, intergenic/intronic 既知 miRNA 発現量正規化 TPM(*1) サンプル間比較 SAM(*2)、Fold Change *1: transcript per million *2: Significance Analysis of Microarrays データのクリーニング・解析前処理 アノテーション リードを クリーニング 既知 other ncRNA 参考: BMC Genomics. 2010 May 7;11:288. http://www.ncbi.nlm.nih.gov/pubmed/20459673 BGI Japan http://www.bgisequence.com/jp/services/sequencing-services/rna-sequencing/small-rna-sequencing/ intergenic/intronic にある 未知転写物 新規 miRNA 新規miRNA予測 ターゲット予測 Pathway分類 GO分類 発現比較 転写物+両端70bpを miRNA予測 既知 exon uniqueなFastaに変換してから解析することが多い 二次構造や 既知モデルとの比較 Pathway分類 GO分類
  • 5. Copyright © Amelieff Corporation. All Rights Reserved. 5 m i R N A の シ ー ケ ン シ ン グ • 原則的にSingle End • シーケンシング長は35~50bp程度で十分 • miRNAのキャプチャキット – mirVana™ miRNA Isolation Kit (ライフテクノロジー) – TruSeq Small RNA Sample Preparation Kit (イルミナ) など
  • 6. Copyright © Amelieff Corporation. All Rights Reserved. 6 テ ス ト デ ー タ を 用 い た 解 析 例
  • 7. Copyright © Amelieff Corporation. All Rights Reserved. テ ス ト デ ー タ • 哺乳類miRNAをGAII、Single End でシーケンシングした結果が公開されている – http://trace.ddbj.nig.ac.jp/DRASearch/study?acc=ERP000773 • 今回はそのうちのヒト由来3組織×2サンプル=計6サンプルを使用 7 ID 説明 リード長 リード数 ERR038405 ヒト 脳由来 miRNA 43 21,758,606 ERR038406 43 20,241,515 ERR038410 肝臓由来 51 10,514,371 ERR038411 26 8,399,589 ERR038415 精巣由来 26 7,130,991 ERR038416 26 9,378,202
  • 8. Copyright © Amelieff Corporation. All Rights Reserved. 8 テ ス ト デ ー タ の ク オ リ テ ィ を チ ェ ッ ク • FastQC(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)でチェック – → クオリティスコアの低いリードが入っている – → 一部のサンプルでアダプタ配列が混入している クリーニングが必要
  • 9. Copyright © Amelieff Corporation. All Rights Reserved. ク リ ー ニ ン グ • クリーニング条件 – クオリティスコアが20未満の塩基を80%以上含むリードを破棄 – クオリティスコアが20未満の塩基をトリミング – トリミングの結果、10bpより短くなったリードを破棄 • FastX-Toolkit(fastq_quality_filter、fastq_quality_trimmer)でクリーニング • クリーニング前後のリード配列を、FastQC (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)でチェック 9 $ fastq_quality_filter -i SRR060981.fastq -q 20 -p 80 -Q33 | fastq_quality_trimmer -t 20 -l 10 -Q33 -o SRR060981_clean.fastq
  • 10. Copyright © Amelieff Corporation. All Rights Reserved. 10 ク リ ー ニ ン グ 前 後 の ク オ リ テ ィ 比 較 クオリティの悪い塩基・ リードが除去された
  • 11. Copyright © Amelieff Corporation. All Rights Reserved. ア ダ プ タ 配 列 除 去 • 一部のサンプルで以下のアダプタの混入が確認された – Illumina PCR Primer Index 1 • TACAGTCCGACGATCTCGTATGCCGTCTTC • CTACAGTCCGACGATCTCGTATGCCGTCTT – Illumina Single End Adapter 2 • TCGTATGCCGTCTTCTGCTTGAAAAAAAAA • cutadapt(http://code.google.com/p/cutadapt/)を用いてアダプタ除去を行った 11
  • 12. Copyright © Amelieff Corporation. All Rights Reserved. ア ダ プ タ 配 列 除 去 • cutadapt実行前後の各アダプタ(全長)出現数 12 ID Illumina PCR Primer Index 1 TACAGTCCGACGATCTCGTA TGCCGTCTTC Illumina PCR Primer Index 1 CTACAGTCCGACGATCTCGT ATGCCGTCTT Illumina Single End Adapter 2 TCGTATGCCGTCTTCTGCTT GAAAAAAAAA 除去前 除去後 除去前 除去後 除去前 除去後 ERR038405 8 0 16 0 3 0 ERR038406 264 0 495 0 45 0 ERR038410 2 0 2 0 0 0 ERR038411 0 0 0 0 0 0 ERR038415 0 0 0 0 0 0 ERR038416 0 0 0 0 0 0 アダプタが全長で入っているようなものは完全に除去できた →アダプタが断片的に入っているようなものはどうか?
  • 13. Copyright © Amelieff Corporation. All Rights Reserved. ア ダ プ タ 配 列 除 去 • cutadapt実行前後の各アダプタ(前半15塩基)出現数 13 ID Illumina PCR Primer Index 1 TACAGTCCGACGATCTCGTA TGCCGTCTTC Illumina PCR Primer Index 1 CTACAGTCCGACGATCTCGT ATGCCGTCTT Illumina Single End Adapter 2 TCGTATGCCGTCTTCTGCTT GAAAAAAAAA 除去前 除去後 除去前 除去後 除去前 除去後 ERR038405 82 45 99 39 552 0 ERR038406 1,402 91 2,217 78 21,281 11 ERR038410 2 0 2 0 3 0 ERR038411 5 0 4 1 38 0 ERR038415 27 0 14 0 77 0 ERR038416 154 3 124 2 995 0 「アダプタ断片」は少し残っている可能性がある
  • 14. Copyright © Amelieff Corporation. All Rights Reserved. ア ダ プ タ 配 列 除 去 • cutadapt実行前後の各アダプタ(後半15塩基)出現数 ※赤字配列をgrep 14 ID Illumina PCR Primer Index 1 TACAGTCCGACGATCTCGTA TGCCGTCTTC Illumina PCR Primer Index 1 CTACAGTCCGACGATCTCGT ATGCCGTCTT Illumina Single End Adapter 2 TCGTATGCCGTCTTCTGCTT GAAAAAAAAA 除去前 除去後 除去前 除去後 除去前 除去後 ERR038405 552 0 130 0 3 0 ERR038406 21,281 11 4894 3 48 3 ERR038410 3 0 2 0 0 0 ERR038411 38 0 0 0 0 0 ERR038415 77 0 0 0 0 0 ERR038416 995 0 3 0 0 0 ※3つ目のアダプタの 前半15塩基と同じ 「アダプタ断片」は少し残っている可能性がある
  • 15. Copyright © Amelieff Corporation. All Rights Reserved. 15 ア ノ テ ー シ ョ ン • fastqをfastaに変換(配列が同一のものは1つにまとめる) • 作成したfastaを、既知mature miRNAデータにマッピング(blastn)し、 最もe-valueの小さい結果を採用した • mature miRNAにマッピングできなかったものはprecursor miRNA、 ncRNA、既知遺伝子の順にマッピングし、アノテーションをつけた miRBase V19 mature miRNA miRBase V19 precursor miRNA Rfam V11 other ncRNA refSeq Gene not mapped not mapped not mapped
  • 16. Copyright © Amelieff Corporation. All Rights Reserved. 16 既 知 h u m a n m a t u r e m i R N A の 発 現 比 較 • サンプルごとに総リード数は異なる(=実験時のバイアスなど) →サンプル間で発現を比較するには補正が必要 ID アダプタ 除去後 ERR038405 59,245 ERR038406 723,434 ERR038410 460 ERR038411 32,323 ERR038415 157,294 ERR038416 656,099 例えばあるmiRNAが ERR038406に15リード、ERR038410に13リード あった場合、単純に 「ERR038406のほうが発現が高い」とは言えない →「マップできたリード数」などで補正する
  • 17. Copyright © Amelieff Corporation. All Rights Reserved. 17 既 知 h u m a n m a t u r e m i R N A の 発 現 比 較 • 各サンプルにおける発現量(補正前)
  • 18. Copyright © Amelieff Corporation. All Rights Reserved. 18 既 知 h u m a n m a t u r e m i R N A の 発 現 比 較 • 各サンプルにおける発現量(補正後) – 「human mature miRNAにマップできたリード数(単位:100万)」で割る
  • 19. Copyright © Amelieff Corporation. All Rights Reserved. 19 既 知 h u m a n m a t u r e m i R N A の 発 現 比 較 • 補正による発現量の変化の例 0 5000 10000 15000 20000 25000 30000 35000 40000 ERR038405 ERR038406 ERR038410 ERR038411 ERR038415 ERR038416 hsa-let-7g-5p 補正前 補正後
  • 20. Copyright © Amelieff Corporation. All Rights Reserved. 20 ヒ ー ト マ ッ プ 図 • 補正後の発現量データをRに読み込む > mirna <- read.table("補正後の発現量ファイル", header=T, row.names=1) 補正後発現量の合計が大きい順 50データを用いた
  • 21. Copyright © Amelieff Corporation. All Rights Reserved. 21 ヒ ー ト マ ッ プ 図 • 組織ごとにクラスタリングされた • 肝臓でmir-122の発現が高かった (赤矢印) • mir-122は肝臓特異的に発現する miRNAであることが論文で報告さ れている[1] 脳脳肝 臓 肝 臓 精 巣 精 巣 [1] Landgraf P, et al. A mammalian microRNA expression atlas based on small RNA library sequencing. Cell. 2007 Jun 29;129(7):1401-14. PubMed PMID: 17604727
  • 22. Copyright © Amelieff Corporation. All Rights Reserved. 22 ま と め • miRNAシーケンシングデータ解析で留意すべき点 – アダプタが混入していたら、適切に除去する – 既知miRNAやncRNAにマッピングしてアノテーションをつける – 新規miRNAを予測するソフトもある – 発現量を比較する場合は「マッピングできたリード数」などで補正する
  • 23. Copyright © Amelieff Corporation All Rights Reserved. 23 アメリエフ バイオインフォマティクス 調査リクエストサービス バイオ研究の解析に使用するソフトや解析手法について、 無償で調査するサービスです。調査結果はアメリエフの ブログでご紹介いたします。 申込みフォーム http://goo.gl/g3SOtU ア メ リ ク