SlideShare a Scribd company logo
フ リ ー ソ フ ト で は じ め る
N G S 解 析 入 門
~公開データベース活用編~
Copyright © Amelieff Corporation. All Rights Reserved.
2
本 日 の テ ー マ
• NGSデータのSNV/Indel検出
• 公開データベース
– Variant database
– Disease curation
– Prediction database
– データベースの特徴
• データベース活用実践
– 「疾患関連の既知変異探索と新規変異探索」の例
N G S デ ー タ の S N V / I n d e l 検 出
Copyright © Amelieff Corporation. All Rights Reserved.
3
入力ファイル
リードのクリーニング
クオリティチェック
リファレンスゲノムへのマッピング
重複リードを除去
リアライメント、リキャリブレーション
マッピング結果のファイル
• Illumina CASAVA filter [Y] を除去
• クオリティ20未満の塩基が80%以上のリードを除去
• クオリティ20未満の末端をトリム
• 未知の塩基(N)が多いリード除去
• 配列長が短いリード除去
• 片側のみのリードを除去
ファイルの形式
フリーソフト
自社開発ツール
SNV / Indel 検出とフィルタリング
アノテーション付与
多型情報のファイル
Copyright © Amelieff Corporation. All Rights Reserved.
4
N G S デ ー タ の S N V / I n d e l 検 出
ショートリード
リファレンスゲノム
マッピングソフトウェア
・最新版 0.7.12(2014/12/28公開)
・BWA-SW & BWA-MEMアルゴリズム
 70bp~1Mbに対応。
 MEMはクオリティの高いシーケンスの時に高速かつ
高精度。70~100bpのイルミナシーケンス、454、
Ion Torrent、Sanger などで使用。
 SWはgapが多いときに感度が良い。
 Error rateは、100bpで2%以下、200bpで3%以下、
500bpで5%以下、 1000bp以上で10%以下が推奨。
• BWA-backtrackアルゴリズム
 100bp以上のイルミナシーケンス用に最適化。
 Error rateは、2%以下が対象。
BWA
Copyright © Amelieff Corporation. All Rights Reserved.
5
N G S デ ー タ の S N V / I n d e l 検 出
ショートリード
リファレンスゲノム
パッケージソフトウェア
・最新版 3.3-0(2014/10/23公開)
・DNAseqおよびRNAseqからSNV/Indel検出
 UnifiedGenotyperとHaplotypeCaller
 HaplotypeCallerはlocal de-novo assemblyを実施
 VQSR(Variant Quality Score Recalibration)を使用
して、VQSLODを付与。既知SNPを用いたエラーモ
デルによって、真の変異であるか評価。ガウス混合
モデルで推定した対数オッズ比。
・2倍体以外の生物種の変異検出に対応。
 「-ploidy」オプションの引数として、倍数を指定可能。
GATK
Copyright © Amelieff Corporation. All Rights Reserved.
6
N G S デ ー タ の S N V / I n d e l 検 出
リードがマッピング
されている様子
カバレージ
変異
BAM
VCF
・IGVによる可視化
・VCFファイル
:
Copyright © Amelieff Corporation. All Rights Reserved.
7
N G S デ ー タ の S N V / I n d e l 検 出
・アノテーション情報
SnpEff
基本情報
ICGC
COSMIC
転写産物によって、
タンパク質へのインパ
クトが大きく異なる。
米国の直腸がんのプロジェクトで
0.46%の頻度で報告されている。
Functional impactが「Low」に
なっているが、どのように考えたらいいのか?
Copyright © Amelieff Corporation. All Rights Reserved.
8
N G S デ ー タ の S N V / I n d e l 検 出
・アノテーション情報
ClinVar
HGVD, ESP, 1kgp
OMIM
IntOGen
さまざまな集団中で
Altアリルの頻度が高い。
疾患関連変異のデータベースに登録がない。
dbSNP
Copyright © Amelieff Corporation. All Rights Reserved.
9
N G S デ ー タ の S N V / I n d e l 検 出
dbSNPに登録されている変異は除外してもいいのだろうか?
サンプル数が増えて
同じ作業を繰り返している。
自動的に絞り込んでくれるシ
ステムを作れないだろうか?
どのデータベースが信頼できるのか?
疾患関連の既知の変異のみを
まずは見たい。
でも、新規の可能性がある
変異情報も蓄積したい。
・アノテーション情報の活用?
Copyright © Amelieff Corporation. All Rights Reserved.
10
公 開 デ ー タ ベ ー ス
Prediction database
Disease curation
Variant database
11
公 開 デ ー タ ベ ー ス
・Variant database
HGVD
※引用 http://www.genome.med.kyoto-u.ac.jp/SnpDB/statistics.html
 日本人のゲノム情報データベース Human Genetic Variation
Databaseは、2013年11月12日に公開。
 登録されているSNPの半分以上は、dbSNPなどこれまでの既知変異デー
タベースに含まれていない日本人特異的。
 日本人1,208名のエクソームシーケンシングデータから発見されたアリ
ルやジェノタイプの頻度を公開。
443,967変異を収録
12
公 開 デ ー タ ベ ー ス
・Variant database
HGVD
 2013.11.13公開データのサマリを示します。
[ Alt allele frequencyの分布 ][ Total allele countの分布 ]
データベースに含まれる1,208人の2,416本のアリルの
うち、各SNVにおいてジェノタイピングしたアリル数。
Altのアリル頻度の出現回数。
Copyright © Amelieff Corporation. All Rights Reserved.
13
公 開 デ ー タ ベ ー ス
・Disease curation
ClinVar
 論文
 臨床医学的に重要な変異と表現型の関連性についてのデータベース。
ClinVar: public archive of relationships among sequence variation and human phenotype
Landrum MJ, Lee JM, et al., Nucleic Acids Res. 2014 Jan 1
 0 - Uncertain significance,
1 - not provided
2 - Benign
3 - Likely benign
4 - probable-pathogenic,
5 - pathogenic
6 - drug-response
7 - histocompatibility
255 – other / confers sensitivity /
risk factor / association / protective 88,268変異を収録
※引用 http://www.ncbi.nlm.nih.gov/clinvar/docs/clinsig/
Copyright © Amelieff Corporation. All Rights Reserved.
14
公 開 デ ー タ ベ ー ス
・Prediction database
dbNSFP
[1] dbNSFP: A Lightweight Database of Human Nonsynonymous SNPs and Their
Functional Predictions
Liu et al., HUMAN MUTATION, Vol. 32, No. 8, 894–899, 2011.
[2] dbNSFP v2.0: A Database of Human Non-synonymous SNVs and Their Functional
Predictions and Annotations
Liu et al., HUMAN MUTATION Database in Brief 34: E2393-E2402 (2013) Online.
 論文
 ヒトゲノムで起こりうるnon-synonymous SNP(NS)について、
SIFT、PolyPhen-2、LRT、Mutation Tasterによるprediction
scoreを公開。
 PhyloP によるconservation scoreを公開。
 遺伝子とコドンは、hg18のCCDS v.20090327に基づいて計算し、
liftOver tool を用いてhg19に変換。
 全てのscoreは高いほど、高度に保存されている、または、有害で
ある可能性が高い。
Copyright © Amelieff Corporation. All Rights Reserved.
15
公 開 デ ー タ ベ ー ス
・Prediction database
dbNSFP
 dbSNP V2.0では、prediction scoreにMutationAssessor と
FATHMM、conservation scoreにGERP++ と SiPhyを追加。
※引用 論文[2]のfigure 2, 3-A, 3-B ttp://www.ncbi.nlm.nih.gov/pmc/articles/PMC4109890/
[ dbNSFP v2.0に登録されているscoreの割合 ]
prediction score conservation score
[prediction score と conservation scoreの樹形図]
UPGMA(非加重平均結合法)を用いてクラスタ解析。
Copyright © Amelieff Corporation. All Rights Reserved.
16
公 開 デ ー タ ベ ー ス
・データベースの特徴
1kgp
(39,619,602)ESP
(1,942,722)
HGVD
(443,967)
Variant database
1kgp独自の変異
ESP独自の変異
HGVD独自の変異
98.6%:
:
:
72.6%
65.7%
3つに共通する変異と、
HGVD独自の変異では、
Altアリル頻度の分布が異なる。
[ HGVDのAltアリル頻度 ]
COMMON
(78,023)
UNIQUE
(291,592)
Min. 0.0004 0.0004
1st Qu. 0.0023 0.0013
Median 0.0233 0.0017
Mean 0.1586 0.0125
3rd Qu. 0.2015 0.0033
Max. 1 1
UE
ICGC
(9,805,320)
COSMIC
(1,024,612)
ClinVar
(88,268)
Copyright © Amelieff Corporation. All Rights Reserved.
17
公 開 デ ー タ ベ ー ス
・データベースの特徴
ICGC独自の変異
COSMIC独自の変異
ClinVar独自の変異
Disease curation
96.7%:
:
:
67.9%
84.5%
0
2000
4000
6000
8000
10000
12000
COSMIC ∩ Clinvar ICGC ∩ Clinvar
CLNSIG=255
CLNSIG=6
CLNSIG=5
CLNSIG=4
CLNSIG=3
CLNSIG=2
CLNSIG=1
CLNSIG=0
ClinVarと共通する変異のうち、疾患関連の
インパクトがあるとされた(≥4の)変異の
割合は、COSMICが77.8%、ICGCが56.4%
ClinVar
(88,268)
Copyright © Amelieff Corporation. All Rights Reserved.
18
公 開 デ ー タ ベ ー ス
・データベースの特徴
HGVD とClinVarに共通する変異
HGVDのうち共通する変異の割合
ClinVarのうち共通する変異の割合
Variant database と Disease curation
5,176SNPs:
:
:
1.17%
5.86%
HGVD
(443,967)
さらにデータベースに閾値を設定すると…
• ClinVarで疾患関連のインパクトがあるとされた
(≥4の)変異は、1,743SNPs
• HGVDで「アリル頻度が5%未満」となる変異は、
3,303SNPs
• 「ClinVar」かつ「アリル頻度が5%未満」とな
る変異は、468SNPs
 driver gene / mutationを特定するソフトウェア。
 TCGAなどのExome-seqデータ(6,079 cases)を使用。
 多数のアルゴリズムで変異の有害性を評価してDriver Scoreを
付与。
Copyright © Amelieff Corporation. All Rights Reserved.
19
公 開 デ ー タ ベ ー ス
・がんデータベースからドライバー遺伝子/変異を予測するアルゴリズム
CanDrA: Cancer-Specific Driver Missense Mutation Annotation with Optimized Features
Mao Y, et al., PLoS ONE 8(10): e77945. 2013.
 missense driver mutationの predictionソフトウェア。
 driver mutationを「腫瘍細胞にgrowth advantage を獲得させる体細胞変異」と定義。
 COSMIC、TCGA、Cancer Cell Line Encyclopedia (CCLE)のデータから、
driver mutationとpassenger mutationのトレーニングデータを作成。
 support vector machine (SMV) algorithmを用いて、3つのカテゴリ(driver、
passenger、non-call)に分類。
CanDrA
DriverDB: an exome sequencing database for cancer driver gene identification
Cheng et al., Nucleic Acids Research, 2013.DriverDB
Copyright © Amelieff Corporation. All Rights Reserved.
20
公 開 デ ー タ ベ ー ス
 実験医学増刊「個別化医療を拓くがんゲノム研究」の3章6の英語版
 cancer mutationのインパクトの評価
① non-synonymous mutationsを特定する。
SIFT, Polyphen-2, Mutation Assessor ,Condel, FATHMM, CHASM,
transFIC
② driver mutationによって細胞は増殖優位性を獲得する。このようなpositive
selectionのシグナルは、ドライバー遺伝子の推定にも用いられる。
MuSiC, MutSigCV , OncodriverFM , OncodriveCLUST , Active Driver
Identification of oncogenic driver mutations (Chapter 3.6)
Tamborero et al., Experimental Medicine, 2014
実験医学
※引用 https://www.yodosha.co.jp/jikkenigaku/book/9784758103404/
偶然よりも高い確率
で変異が蓄積される
機能的に影響を及ぼ
す変異に偏っている
特定の領域に蓄積する
タンパク質のリン酸化部
位に起きる傾向がある
・がんデータベースからドライバー遺伝子/変異を予測するアルゴリズム
Copyright © Amelieff Corporation. All Rights Reserved.
21
デ ー タ ベ ー ス 活 用 実 践
① nsSNVとssSNVを検索
② 1kgpとESPで、MAFが5%を超える変異を除外
③ prediction scoreが高い順にランク付け
④ conservation scoreが高い順にランク付け
⑤ 疾患関連の組織で発現していない遺伝子の変異を除外
⑥ Mendelian Inheritance in Man (MIM)に登録のある、または、
GWASで報告のある遺伝子の変異を強調
⑦ 疾患を引き起こす遺伝子と相互作用する遺伝子の変異を強調
⑧ 疾患関連のパスウェイにある遺伝子の変異を強調
dbNSFPが推奨しているフィルタリング方法
・「疾患関連の既知変異探索と新規変異探索」の例
Copyright © Amelieff Corporation. All Rights Reserved.
22
デ ー タ ベ ー ス 活 用 実 践
Variant classification
Clinical Whole-Exome Sequencing for the Diagnosis of Mendelian Disorders
Yang et al., N Engl J Med 369, 2013.
・「疾患関連の既知変異探索と新規変異探索」の例
Copyright © Amelieff Corporation. All Rights Reserved.
23
デ ー タ ベ ー ス 活 用 実 践
・データベースは更新が必要
ClinVar dbSNP
ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar
/release_notes/
http://www.ncbi.nlm.nih.gov/projects
/SNP/buildhistory.cgi
Date
Total
Submissions
1-Feb-15 156,999
1-Jan-15 149,013
1-Dec-14 148,008
1-Nov-14 144,117
1-Oct-14 143,601
1-Sep-14 143,114
1-Aug-14 127,557
: :
1-Aug-13 45,901
1-Jul-13 39,170
1-Jun-13 39,047
1-May-13 30,386
5-Apr-13 30,333
Build Date
142 19-Sep-14
141 21-May-14
140 20-Mar-14
139 25-Oct-13
138 25-Apr-13
137 26-Jun-12
136 26-Jan-12
135 12-Oct-11
: :
4 16-Dec-98
3 15-Dec-98
2 10-Dec-98
1 1-Dec-98
ICGC
Build Date
 release_18 21-Jan-15
 release_17 12-Sep-14
 release_16 15-May-14
 release_15.1 12-Feb-14
 release_15 4-Feb-14
 release_14 26-Sep-13
: :
 release_06 7-Jul-11
 release_05 5-Jun-11
 release_04 1-May-11
 release_03 6-Dec-10
 release_02 12-Aug-10
 release_01 13-Apr-10
https://dcc.icgc.org/repository
/legacy_data_releases
Copyright © Amelieff Corporation. All Rights Reserved.
24
デ ー タ ベ ー ス 活 用 実 践
・解析アルゴリズムのブラッシュアップが必要
PROVEAN(Protein Variation Effect Analyzer)
 タンパク質におけるアミノ酸配列の変異が当てる影響度合いを数値化
 クエリは、アミノ酸配列(FASTA)とその変異パターン
 WEBフォームからも利用可能
※引用 http://provean.jcvi.org/about.php[5つのpredictionアルゴリズムと精度 ]
Copyright © Amelieff Corporation. All Rights Reserved.
25
デ ー タ ベ ー ス 活 用 実 践
PROVEAN(Protein Variation Effect Analyzer)
 複数の変異やサンプルを解析したい時は、Linuxで実行可能
① 2つの入力ファイルを準備
② コマンド(命令文)を入力して実行
$ provean.sh -q P04637.fasta -v P04637.var
--save_supporting_set P04637.sss
タンパク質のアミノ酸配列
( ファイル名:P04637.fasta )
タンパク質のアミノ酸配列
(ファイル名:P04637.var)
・解析アルゴリズムのブラッシュアップが必要
LinuxというOSで
実行します。
Copyright © Amelieff Corporation. All Rights Reserved.
26
デ ー タ ベ ー ス 活 用 実 践
PROVEAN(Protein Variation Effect Analyzer)
 複数の変異やサンプルを解析したい時は、Linuxで実行可能
③ 出力ファイル
Supporting Sequence Set
( ファイル名:P04637.sss )
SSSファイルのシーケンス
(ファイル名:P04637.sss.fasta)
・解析アルゴリズムのブラッシュアップが必要
Copyright © Amelieff Corporation. All Rights Reserved.
27
本 日 の 内 容
• さまざまな公開データベース
– Gene-based Annotation:シーケンスのターゲット領域や、
疾患関連遺伝子の情報。
– Region-based Annotation:染色体領域や遺伝子情報。
– Variant database:変異の頻度情報。
– Disease curation:疾患関連の変異情報。
– Prediction database:有害な変異を予測。
• 「必要なデータベースを選択し、組み合わせ、変異データを用途
によって分類して、活用または保存する」方法は、実際のデータ
と目的に最適化することをおすすめします。
• データベースと解析アルゴリズムはブラッシュアップが必要です。
Copyright © Amelieff Corporation. All Rights Reserved.
28
アメリエフ
バイオインフォマティクス
調査リクエストサービス
バイオ研究の解析に使用するソフトや解析手法について、
無償で調査するサービスです。調査結果はアメリエフの
ブログでご紹介いたします。
申込みフォーム http://goo.gl/g3SOtU
ア メ リ ク

More Related Content

PDF
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
PPTX
ゲノム育種を実装・利用するためのNGSデータ解析
PDF
第52回SWO研究会チュートリアル資料
PDF
TVM の紹介
PDF
サポートベクトルデータ記述法による異常検知 in 機械学習プロフェッショナルシリーズ輪読会
PPTX
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
PPTX
画像認識と深層学習
PDF
フリーソフトではじめるNGS融合遺伝子解析入門
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
ゲノム育種を実装・利用するためのNGSデータ解析
第52回SWO研究会チュートリアル資料
TVM の紹介
サポートベクトルデータ記述法による異常検知 in 機械学習プロフェッショナルシリーズ輪読会
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
画像認識と深層学習
フリーソフトではじめるNGS融合遺伝子解析入門

What's hot (20)

PDF
全力解説!Transformer
PDF
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
PDF
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
PDF
Pythonの理解を試みる 〜バイトコードインタプリタを作成する〜
PDF
第1回 配信講義 計算科学技術特論A (2021)
PPTX
[DL輪読会]The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Se...
PPTX
競技プログラミングのためのC++入門
PPTX
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
PPTX
画像処理ライブラリ OpenCV で 出来ること・出来ないこと
PDF
FeUdal Networks for Hierarchical Reinforcement Learning
PDF
強化学習入門
PDF
機械学習 入門
PDF
Machine learning CI/CD with OSS
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
PPTX
画像処理の高性能計算
PDF
[DL輪読会]Temporal Abstraction in NeurIPS2019
PPTX
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
PDF
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
PPTX
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
PPTX
DLLab 異常検知ナイト 資料 20180214
全力解説!Transformer
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
Pythonの理解を試みる 〜バイトコードインタプリタを作成する〜
第1回 配信講義 計算科学技術特論A (2021)
[DL輪読会]The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Se...
競技プログラミングのためのC++入門
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
画像処理ライブラリ OpenCV で 出来ること・出来ないこと
FeUdal Networks for Hierarchical Reinforcement Learning
強化学習入門
機械学習 入門
Machine learning CI/CD with OSS
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
画像処理の高性能計算
[DL輪読会]Temporal Abstraction in NeurIPS2019
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
DLLab 異常検知ナイト 資料 20180214
Ad

Viewers also liked (16)

PDF
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
PDF
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
PDF
Exome解析入門
PDF
SNPデータ解析入門
PDF
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
PDF
はじめてのLinux
PDF
NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」
PDF
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
PDF
miRNAデータ解析入門_第23回勉強会資料
PDF
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
PDF
NGS現場の会 第3回 モーニング教育セッション 配布用資料 「いまさら聞けない NGS超!入門」
PDF
次世代シーケンス解析サーバーReseq解析マニュアル
PDF
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
PDF
R を起動するその前に
PDF
NGS速習コース:UNIXの基礎の理解/Linux導入
PDF
バイオインフォマティクスによる遺伝子発現解析
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
Exome解析入門
SNPデータ解析入門
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
はじめてのLinux
NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
miRNAデータ解析入門_第23回勉強会資料
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会 第3回 モーニング教育セッション 配布用資料 「いまさら聞けない NGS超!入門」
次世代シーケンス解析サーバーReseq解析マニュアル
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
R を起動するその前に
NGS速習コース:UNIXの基礎の理解/Linux導入
バイオインフォマティクスによる遺伝子発現解析
Ad

Similar to フリーソフトで始めるNGS解析_第41・42回勉強会資料 (20)

PDF
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
PDF
StatGenSummerSchool2023_GenomeDataAnalysis3.pdf
PPTX
36th mtg in NIBIO
PDF
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
PDF
Bh13.13 sagace 1
PDF
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
PDF
[DDBJing30] メタゲノム解析と微生物統合データベース
PDF
事前登録のやり方
PDF
150304 science council of japan-kawaji
PDF
コスモバイオニュース No.122 (2016年10月)
PDF
ISMB読み会 2nd graph kernel
PDF
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
KEY
Ajacs33 文献の検索とその整理方法
PPTX
パワポ資料作成の基礎(β版)
PPTX
A gene-based association method for mapping traits using reference transcript...
PDF
[All-in-one2015] 文献情報関連サービス活用法
PPTX
40th MTG in NIBIO
PPTX
41st MTG in NIBIO
PDF
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
PPTX
がんと共に生きる
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
StatGenSummerSchool2023_GenomeDataAnalysis3.pdf
36th mtg in NIBIO
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
Bh13.13 sagace 1
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
[DDBJing30] メタゲノム解析と微生物統合データベース
事前登録のやり方
150304 science council of japan-kawaji
コスモバイオニュース No.122 (2016年10月)
ISMB読み会 2nd graph kernel
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
Ajacs33 文献の検索とその整理方法
パワポ資料作成の基礎(β版)
A gene-based association method for mapping traits using reference transcript...
[All-in-one2015] 文献情報関連サービス活用法
40th MTG in NIBIO
41st MTG in NIBIO
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
がんと共に生きる

Recently uploaded (9)

PDF
GM_生物学_遺伝子_細胞療法_GCT_製品_パンフレット_2025日本語.pdf
PDF
EMA meeting 2025 summer ジョブフェア_熊本赤十字病院_施設紹介HP用 永井 冴映.pdf
PPTX
EMA meeting 2025 summer ジョブフェア_兵庫県立尼崎総合医療センター_施設紹介HP用 亮太 浅井.pptx
PPTX
EMA meeting 2025 summer ジョブフェア_和歌山県立医大_施設紹介HP用 國立晃成(和歌山県立医科大学).pptx
PDF
EMA meeting 2025 summer ジョブフェア_大阪赤十字病院_施設紹介HP用 池添徳晃.pdf
PPTX
EMA meeting 2025 summer ジョブフェア_都立広尾_施設紹介HP掲載 幹男 中島.pptx
PDF
EMA meeting 2025 summer ジョブフェア_千葉市立海浜病院_施設紹介HP用 溝辺倫子.pdf
PDF
EMA meeting 2025 summer ジョブフェア_順天堂静岡病院_施設紹介HP.pdf
PDF
EMA meeting 2025 summer ジョブフェア_横浜労災病院_施設紹介HP用 柴崎貴俊(横浜労災).pdf
GM_生物学_遺伝子_細胞療法_GCT_製品_パンフレット_2025日本語.pdf
EMA meeting 2025 summer ジョブフェア_熊本赤十字病院_施設紹介HP用 永井 冴映.pdf
EMA meeting 2025 summer ジョブフェア_兵庫県立尼崎総合医療センター_施設紹介HP用 亮太 浅井.pptx
EMA meeting 2025 summer ジョブフェア_和歌山県立医大_施設紹介HP用 國立晃成(和歌山県立医科大学).pptx
EMA meeting 2025 summer ジョブフェア_大阪赤十字病院_施設紹介HP用 池添徳晃.pdf
EMA meeting 2025 summer ジョブフェア_都立広尾_施設紹介HP掲載 幹男 中島.pptx
EMA meeting 2025 summer ジョブフェア_千葉市立海浜病院_施設紹介HP用 溝辺倫子.pdf
EMA meeting 2025 summer ジョブフェア_順天堂静岡病院_施設紹介HP.pdf
EMA meeting 2025 summer ジョブフェア_横浜労災病院_施設紹介HP用 柴崎貴俊(横浜労災).pdf

フリーソフトで始めるNGS解析_第41・42回勉強会資料

  • 1. フ リ ー ソ フ ト で は じ め る N G S 解 析 入 門 ~公開データベース活用編~
  • 2. Copyright © Amelieff Corporation. All Rights Reserved. 2 本 日 の テ ー マ • NGSデータのSNV/Indel検出 • 公開データベース – Variant database – Disease curation – Prediction database – データベースの特徴 • データベース活用実践 – 「疾患関連の既知変異探索と新規変異探索」の例
  • 3. N G S デ ー タ の S N V / I n d e l 検 出 Copyright © Amelieff Corporation. All Rights Reserved. 3 入力ファイル リードのクリーニング クオリティチェック リファレンスゲノムへのマッピング 重複リードを除去 リアライメント、リキャリブレーション マッピング結果のファイル • Illumina CASAVA filter [Y] を除去 • クオリティ20未満の塩基が80%以上のリードを除去 • クオリティ20未満の末端をトリム • 未知の塩基(N)が多いリード除去 • 配列長が短いリード除去 • 片側のみのリードを除去 ファイルの形式 フリーソフト 自社開発ツール SNV / Indel 検出とフィルタリング アノテーション付与 多型情報のファイル
  • 4. Copyright © Amelieff Corporation. All Rights Reserved. 4 N G S デ ー タ の S N V / I n d e l 検 出 ショートリード リファレンスゲノム マッピングソフトウェア ・最新版 0.7.12(2014/12/28公開) ・BWA-SW & BWA-MEMアルゴリズム  70bp~1Mbに対応。  MEMはクオリティの高いシーケンスの時に高速かつ 高精度。70~100bpのイルミナシーケンス、454、 Ion Torrent、Sanger などで使用。  SWはgapが多いときに感度が良い。  Error rateは、100bpで2%以下、200bpで3%以下、 500bpで5%以下、 1000bp以上で10%以下が推奨。 • BWA-backtrackアルゴリズム  100bp以上のイルミナシーケンス用に最適化。  Error rateは、2%以下が対象。 BWA
  • 5. Copyright © Amelieff Corporation. All Rights Reserved. 5 N G S デ ー タ の S N V / I n d e l 検 出 ショートリード リファレンスゲノム パッケージソフトウェア ・最新版 3.3-0(2014/10/23公開) ・DNAseqおよびRNAseqからSNV/Indel検出  UnifiedGenotyperとHaplotypeCaller  HaplotypeCallerはlocal de-novo assemblyを実施  VQSR(Variant Quality Score Recalibration)を使用 して、VQSLODを付与。既知SNPを用いたエラーモ デルによって、真の変異であるか評価。ガウス混合 モデルで推定した対数オッズ比。 ・2倍体以外の生物種の変異検出に対応。  「-ploidy」オプションの引数として、倍数を指定可能。 GATK
  • 6. Copyright © Amelieff Corporation. All Rights Reserved. 6 N G S デ ー タ の S N V / I n d e l 検 出 リードがマッピング されている様子 カバレージ 変異 BAM VCF ・IGVによる可視化 ・VCFファイル :
  • 7. Copyright © Amelieff Corporation. All Rights Reserved. 7 N G S デ ー タ の S N V / I n d e l 検 出 ・アノテーション情報 SnpEff 基本情報 ICGC COSMIC 転写産物によって、 タンパク質へのインパ クトが大きく異なる。 米国の直腸がんのプロジェクトで 0.46%の頻度で報告されている。 Functional impactが「Low」に なっているが、どのように考えたらいいのか?
  • 8. Copyright © Amelieff Corporation. All Rights Reserved. 8 N G S デ ー タ の S N V / I n d e l 検 出 ・アノテーション情報 ClinVar HGVD, ESP, 1kgp OMIM IntOGen さまざまな集団中で Altアリルの頻度が高い。 疾患関連変異のデータベースに登録がない。 dbSNP
  • 9. Copyright © Amelieff Corporation. All Rights Reserved. 9 N G S デ ー タ の S N V / I n d e l 検 出 dbSNPに登録されている変異は除外してもいいのだろうか? サンプル数が増えて 同じ作業を繰り返している。 自動的に絞り込んでくれるシ ステムを作れないだろうか? どのデータベースが信頼できるのか? 疾患関連の既知の変異のみを まずは見たい。 でも、新規の可能性がある 変異情報も蓄積したい。 ・アノテーション情報の活用?
  • 10. Copyright © Amelieff Corporation. All Rights Reserved. 10 公 開 デ ー タ ベ ー ス Prediction database Disease curation Variant database
  • 11. 11 公 開 デ ー タ ベ ー ス ・Variant database HGVD ※引用 http://www.genome.med.kyoto-u.ac.jp/SnpDB/statistics.html  日本人のゲノム情報データベース Human Genetic Variation Databaseは、2013年11月12日に公開。  登録されているSNPの半分以上は、dbSNPなどこれまでの既知変異デー タベースに含まれていない日本人特異的。  日本人1,208名のエクソームシーケンシングデータから発見されたアリ ルやジェノタイプの頻度を公開。 443,967変異を収録
  • 12. 12 公 開 デ ー タ ベ ー ス ・Variant database HGVD  2013.11.13公開データのサマリを示します。 [ Alt allele frequencyの分布 ][ Total allele countの分布 ] データベースに含まれる1,208人の2,416本のアリルの うち、各SNVにおいてジェノタイピングしたアリル数。 Altのアリル頻度の出現回数。
  • 13. Copyright © Amelieff Corporation. All Rights Reserved. 13 公 開 デ ー タ ベ ー ス ・Disease curation ClinVar  論文  臨床医学的に重要な変異と表現型の関連性についてのデータベース。 ClinVar: public archive of relationships among sequence variation and human phenotype Landrum MJ, Lee JM, et al., Nucleic Acids Res. 2014 Jan 1  0 - Uncertain significance, 1 - not provided 2 - Benign 3 - Likely benign 4 - probable-pathogenic, 5 - pathogenic 6 - drug-response 7 - histocompatibility 255 – other / confers sensitivity / risk factor / association / protective 88,268変異を収録 ※引用 http://www.ncbi.nlm.nih.gov/clinvar/docs/clinsig/
  • 14. Copyright © Amelieff Corporation. All Rights Reserved. 14 公 開 デ ー タ ベ ー ス ・Prediction database dbNSFP [1] dbNSFP: A Lightweight Database of Human Nonsynonymous SNPs and Their Functional Predictions Liu et al., HUMAN MUTATION, Vol. 32, No. 8, 894–899, 2011. [2] dbNSFP v2.0: A Database of Human Non-synonymous SNVs and Their Functional Predictions and Annotations Liu et al., HUMAN MUTATION Database in Brief 34: E2393-E2402 (2013) Online.  論文  ヒトゲノムで起こりうるnon-synonymous SNP(NS)について、 SIFT、PolyPhen-2、LRT、Mutation Tasterによるprediction scoreを公開。  PhyloP によるconservation scoreを公開。  遺伝子とコドンは、hg18のCCDS v.20090327に基づいて計算し、 liftOver tool を用いてhg19に変換。  全てのscoreは高いほど、高度に保存されている、または、有害で ある可能性が高い。
  • 15. Copyright © Amelieff Corporation. All Rights Reserved. 15 公 開 デ ー タ ベ ー ス ・Prediction database dbNSFP  dbSNP V2.0では、prediction scoreにMutationAssessor と FATHMM、conservation scoreにGERP++ と SiPhyを追加。 ※引用 論文[2]のfigure 2, 3-A, 3-B ttp://www.ncbi.nlm.nih.gov/pmc/articles/PMC4109890/ [ dbNSFP v2.0に登録されているscoreの割合 ] prediction score conservation score [prediction score と conservation scoreの樹形図] UPGMA(非加重平均結合法)を用いてクラスタ解析。
  • 16. Copyright © Amelieff Corporation. All Rights Reserved. 16 公 開 デ ー タ ベ ー ス ・データベースの特徴 1kgp (39,619,602)ESP (1,942,722) HGVD (443,967) Variant database 1kgp独自の変異 ESP独自の変異 HGVD独自の変異 98.6%: : : 72.6% 65.7% 3つに共通する変異と、 HGVD独自の変異では、 Altアリル頻度の分布が異なる。 [ HGVDのAltアリル頻度 ] COMMON (78,023) UNIQUE (291,592) Min. 0.0004 0.0004 1st Qu. 0.0023 0.0013 Median 0.0233 0.0017 Mean 0.1586 0.0125 3rd Qu. 0.2015 0.0033 Max. 1 1 UE
  • 17. ICGC (9,805,320) COSMIC (1,024,612) ClinVar (88,268) Copyright © Amelieff Corporation. All Rights Reserved. 17 公 開 デ ー タ ベ ー ス ・データベースの特徴 ICGC独自の変異 COSMIC独自の変異 ClinVar独自の変異 Disease curation 96.7%: : : 67.9% 84.5% 0 2000 4000 6000 8000 10000 12000 COSMIC ∩ Clinvar ICGC ∩ Clinvar CLNSIG=255 CLNSIG=6 CLNSIG=5 CLNSIG=4 CLNSIG=3 CLNSIG=2 CLNSIG=1 CLNSIG=0 ClinVarと共通する変異のうち、疾患関連の インパクトがあるとされた(≥4の)変異の 割合は、COSMICが77.8%、ICGCが56.4%
  • 18. ClinVar (88,268) Copyright © Amelieff Corporation. All Rights Reserved. 18 公 開 デ ー タ ベ ー ス ・データベースの特徴 HGVD とClinVarに共通する変異 HGVDのうち共通する変異の割合 ClinVarのうち共通する変異の割合 Variant database と Disease curation 5,176SNPs: : : 1.17% 5.86% HGVD (443,967) さらにデータベースに閾値を設定すると… • ClinVarで疾患関連のインパクトがあるとされた (≥4の)変異は、1,743SNPs • HGVDで「アリル頻度が5%未満」となる変異は、 3,303SNPs • 「ClinVar」かつ「アリル頻度が5%未満」とな る変異は、468SNPs
  • 19.  driver gene / mutationを特定するソフトウェア。  TCGAなどのExome-seqデータ(6,079 cases)を使用。  多数のアルゴリズムで変異の有害性を評価してDriver Scoreを 付与。 Copyright © Amelieff Corporation. All Rights Reserved. 19 公 開 デ ー タ ベ ー ス ・がんデータベースからドライバー遺伝子/変異を予測するアルゴリズム CanDrA: Cancer-Specific Driver Missense Mutation Annotation with Optimized Features Mao Y, et al., PLoS ONE 8(10): e77945. 2013.  missense driver mutationの predictionソフトウェア。  driver mutationを「腫瘍細胞にgrowth advantage を獲得させる体細胞変異」と定義。  COSMIC、TCGA、Cancer Cell Line Encyclopedia (CCLE)のデータから、 driver mutationとpassenger mutationのトレーニングデータを作成。  support vector machine (SMV) algorithmを用いて、3つのカテゴリ(driver、 passenger、non-call)に分類。 CanDrA DriverDB: an exome sequencing database for cancer driver gene identification Cheng et al., Nucleic Acids Research, 2013.DriverDB
  • 20. Copyright © Amelieff Corporation. All Rights Reserved. 20 公 開 デ ー タ ベ ー ス  実験医学増刊「個別化医療を拓くがんゲノム研究」の3章6の英語版  cancer mutationのインパクトの評価 ① non-synonymous mutationsを特定する。 SIFT, Polyphen-2, Mutation Assessor ,Condel, FATHMM, CHASM, transFIC ② driver mutationによって細胞は増殖優位性を獲得する。このようなpositive selectionのシグナルは、ドライバー遺伝子の推定にも用いられる。 MuSiC, MutSigCV , OncodriverFM , OncodriveCLUST , Active Driver Identification of oncogenic driver mutations (Chapter 3.6) Tamborero et al., Experimental Medicine, 2014 実験医学 ※引用 https://www.yodosha.co.jp/jikkenigaku/book/9784758103404/ 偶然よりも高い確率 で変異が蓄積される 機能的に影響を及ぼ す変異に偏っている 特定の領域に蓄積する タンパク質のリン酸化部 位に起きる傾向がある ・がんデータベースからドライバー遺伝子/変異を予測するアルゴリズム
  • 21. Copyright © Amelieff Corporation. All Rights Reserved. 21 デ ー タ ベ ー ス 活 用 実 践 ① nsSNVとssSNVを検索 ② 1kgpとESPで、MAFが5%を超える変異を除外 ③ prediction scoreが高い順にランク付け ④ conservation scoreが高い順にランク付け ⑤ 疾患関連の組織で発現していない遺伝子の変異を除外 ⑥ Mendelian Inheritance in Man (MIM)に登録のある、または、 GWASで報告のある遺伝子の変異を強調 ⑦ 疾患を引き起こす遺伝子と相互作用する遺伝子の変異を強調 ⑧ 疾患関連のパスウェイにある遺伝子の変異を強調 dbNSFPが推奨しているフィルタリング方法 ・「疾患関連の既知変異探索と新規変異探索」の例
  • 22. Copyright © Amelieff Corporation. All Rights Reserved. 22 デ ー タ ベ ー ス 活 用 実 践 Variant classification Clinical Whole-Exome Sequencing for the Diagnosis of Mendelian Disorders Yang et al., N Engl J Med 369, 2013. ・「疾患関連の既知変異探索と新規変異探索」の例
  • 23. Copyright © Amelieff Corporation. All Rights Reserved. 23 デ ー タ ベ ー ス 活 用 実 践 ・データベースは更新が必要 ClinVar dbSNP ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar /release_notes/ http://www.ncbi.nlm.nih.gov/projects /SNP/buildhistory.cgi Date Total Submissions 1-Feb-15 156,999 1-Jan-15 149,013 1-Dec-14 148,008 1-Nov-14 144,117 1-Oct-14 143,601 1-Sep-14 143,114 1-Aug-14 127,557 : : 1-Aug-13 45,901 1-Jul-13 39,170 1-Jun-13 39,047 1-May-13 30,386 5-Apr-13 30,333 Build Date 142 19-Sep-14 141 21-May-14 140 20-Mar-14 139 25-Oct-13 138 25-Apr-13 137 26-Jun-12 136 26-Jan-12 135 12-Oct-11 : : 4 16-Dec-98 3 15-Dec-98 2 10-Dec-98 1 1-Dec-98 ICGC Build Date  release_18 21-Jan-15  release_17 12-Sep-14  release_16 15-May-14  release_15.1 12-Feb-14  release_15 4-Feb-14  release_14 26-Sep-13 : :  release_06 7-Jul-11  release_05 5-Jun-11  release_04 1-May-11  release_03 6-Dec-10  release_02 12-Aug-10  release_01 13-Apr-10 https://dcc.icgc.org/repository /legacy_data_releases
  • 24. Copyright © Amelieff Corporation. All Rights Reserved. 24 デ ー タ ベ ー ス 活 用 実 践 ・解析アルゴリズムのブラッシュアップが必要 PROVEAN(Protein Variation Effect Analyzer)  タンパク質におけるアミノ酸配列の変異が当てる影響度合いを数値化  クエリは、アミノ酸配列(FASTA)とその変異パターン  WEBフォームからも利用可能 ※引用 http://provean.jcvi.org/about.php[5つのpredictionアルゴリズムと精度 ]
  • 25. Copyright © Amelieff Corporation. All Rights Reserved. 25 デ ー タ ベ ー ス 活 用 実 践 PROVEAN(Protein Variation Effect Analyzer)  複数の変異やサンプルを解析したい時は、Linuxで実行可能 ① 2つの入力ファイルを準備 ② コマンド(命令文)を入力して実行 $ provean.sh -q P04637.fasta -v P04637.var --save_supporting_set P04637.sss タンパク質のアミノ酸配列 ( ファイル名:P04637.fasta ) タンパク質のアミノ酸配列 (ファイル名:P04637.var) ・解析アルゴリズムのブラッシュアップが必要 LinuxというOSで 実行します。
  • 26. Copyright © Amelieff Corporation. All Rights Reserved. 26 デ ー タ ベ ー ス 活 用 実 践 PROVEAN(Protein Variation Effect Analyzer)  複数の変異やサンプルを解析したい時は、Linuxで実行可能 ③ 出力ファイル Supporting Sequence Set ( ファイル名:P04637.sss ) SSSファイルのシーケンス (ファイル名:P04637.sss.fasta) ・解析アルゴリズムのブラッシュアップが必要
  • 27. Copyright © Amelieff Corporation. All Rights Reserved. 27 本 日 の 内 容 • さまざまな公開データベース – Gene-based Annotation:シーケンスのターゲット領域や、 疾患関連遺伝子の情報。 – Region-based Annotation:染色体領域や遺伝子情報。 – Variant database:変異の頻度情報。 – Disease curation:疾患関連の変異情報。 – Prediction database:有害な変異を予測。 • 「必要なデータベースを選択し、組み合わせ、変異データを用途 によって分類して、活用または保存する」方法は、実際のデータ と目的に最適化することをおすすめします。 • データベースと解析アルゴリズムはブラッシュアップが必要です。
  • 28. Copyright © Amelieff Corporation. All Rights Reserved. 28 アメリエフ バイオインフォマティクス 調査リクエストサービス バイオ研究の解析に使用するソフトや解析手法について、 無償で調査するサービスです。調査結果はアメリエフの ブログでご紹介いたします。 申込みフォーム http://goo.gl/g3SOtU ア メ リ ク