SlideShare a Scribd company logo
BioDevOpsによる再現性のあるバイオインフォマティクス環境の構築
Itoshi NIKAIDO, PhD <itoshi.nikaido@riken.jp>
Unit Leader, Bioinformatics Research Unit
RIKEN Advanced Center for Computer and Communication
http://bit.accc.riken.jp/
(Version: 1.0)
1. Cloud Computing
3つのCloud Computing
3つの仮想化技術
!
2. Infrastructure as Code
ハードウェア・ソフトウェア管理をプログラムする
chef, vagrant
!
3. Bayes Linux: Bioinformatics Analysis
Environment System
BioDevOps.org
RIKEN Cloud System
林崎研@RIKEN GSC
Mouse full-length cDNA sequencing
FANTOM1-2
cDNA microarray, imprinted genes
上田研@RIKEN CDB
ChIP-seq
Single-Cell RNA-seq (Quartz-Seq)
Research
Outreach & Community
Knoppix for Bio
KNOB
KGB
自己紹介
実験生物学の側で研究・オープンソースコミュニティとの関わり
RIKEN ACCC
Single-Cell RNA-Seq
Epigenome
BioDevOp
Bioinformatics-jp
バイオインフォマティクス研究開発ユニット
Advanced Center for Computing and Communication
Informatics Biology
1. DNAシーケンサーデータ解析手法・実験手法の開発
2. 理研内外の実験研究者との共同研究・教育
3. 理研のバイオインフォマティクス研究の方向性を議論・ロールモデルになる
xi
θi
G
G0γ
σ-­‐
a b
10#pg#total#RNA
Amplified#cDNA
1細胞RNA-Seq・新規エピゲノム実データ解析と実験技術の開発
データサイエンスとバイオインフォマティクス
IT・統計・ドメイン知識の三位一体
• データを活かすことがビジネスでは
必須に
• 統計と計算機、ドメイン知識の3つ
を兼ね備えることが必須
• バイオインフォとスキルが重複
• バイオインフォの博士新卒は企
業へ
• アカデミアとの待遇に格差が大
きい
http://www.ibm.com/developerworks/jp/opensource/library/os-datascience/figure1.png
人材に関するアンケート調査結果 (2013)
わが国におけるバイオインフォマティクス人材を取り巻く現状
https://www.jstage.jst.go.jp/article/johokanri/56/11/56_782/_pdf
データ解析を誰がしているか? バイオインフォ研究者との共同は必要か?
必要な人材は?
エバンジェリストモデルによるBioinformatics Infrastructureの整備
多くの研究者を救い、バイオインフォ研究も るモデル
Sequencing Core
Research Team/Unit
Research Team/Unit
Research Team/Unit
Bioinformatics Evangelist
Bioinformatics Research Unit Preventive medicine and applied genomics unit
Bioinformatics Research Group, RIKEN ACCC
Research Center
• ひとりのバイオインフォ研究
者あたり多くて2,3件程度の
共同研究!
• 理研では、解析の専門性にロー
カル性がある (CLSTは転
写、IMSはゲノムなど)!
• センターでバイオインフォを
支える人間を積極的にサポー
トする
エンジニアリングで解決できる問題を
ソーシャルに解決したら負け
Providing bioinformatics analysis environment
Virtual machine with NGS Data analysis tools and pipelines
Bioinformatics Research Unit
User
(inside/outside RIKEN)
Browser, tools, Pipelines
Install and setup tools
(BioDevOps)
Development of tools
Browser & Pipelines
SSH, HTTPS
Calc.Result
Browser & Pipeline
Consultation
TutorialUser’s tools
Sequencing Facility
Cloud Computer
sequence data
Sample
Introduction of Bioinformatics research activity in RIKEN ACCC
Bioinformatics: 研究とエンジニアリング
• バイオインフォマティクス研究に集中したい
• データ解析環境を構築することは手間がかかる
•計算機の調達や管理、保守の手間がかかる
• NGS解析はたくさんのツールの組み合わせ
• ツールのアップデートが速い
• たくさんのバイオデータベースを使う
• 解析の再現性担保
• 論文のマテメソは記載が不足しており解析が再現できない
IT インフラ
アプリケーション開発・リリース
ビジネスアイディア マーケット
http://ja.wikipedia.org/wiki/DevOps. modified
DevOps = Development + Operations
ITインフラとアプリケーション開発の一体化
ビジネスアイディアを素早くマーケットに出すための
ITに関する思想とその技術
データ解析用PCクラスターのセットアップ
データ解析ツールやパイプ
ラインシステムの開発
Bioinformatics
Data analysis
BioDevOps
データ解析やソフト、デー
タベースの品質管理
研究アイディア
実験データ
論文出版
BioDevOps = Bioinfomatics + Development + Operations
バイオインフォマティクス解析とITインフラとアプリケーション開発の一体化
データ解析の実施
研究アイディアを素早く論文として出すための
バイオインフォに関する思想とその技術
• バイオインフォマティクス研究に集中したい
• データ解析環境を構築することは手間がかかる
•計算機の調達や管理、保守の手間がかかる
• NGS解析はたくさんのツールの組み合わせ
• ツールのアップデートが速い
• たくさんのバイオデータベースを使う
• 解析の再現性担保
• 論文のマテメソは記載が不足しており解析が再現できない
解析環境をコードとして管理し仮想計算機で利用する
BioDevOps = 2つの技術
Cloud computing
Infrastructure as Code
1. Cloud Computing
3つのCloud Computing
3つの仮想化技術
!
2. Infrastructure as Code
ハードウェア・ソフトウェア管理をプログラムする
chef, vagrant
!
3. Bayes Linux: Bioinformatics Analysis
Environment System
BioDevOps.org
RIKEN Cloud System
Providing bioinformatics analysis environment
Virtual machine with NGS Data analysis tools and pipelines
Bioinformatics Research Unit
Cloud Computer
User
(inside/outside RIKEN)
BioDevOps
Install and setup tools
Development of tools
Browser & Pipelines
SSH, HTTPS
Calc.Result
Browser & Pipeline
Consultation
TutorialUser’s tools
• たくさんのコンピュータリソースがプールされている
• このリソースから、ネットワーク、サーバー、ストレージ、
アプリケーション、サービスを構築できる
• このプールから便利かつオンデマンドにアクセスし、リ
ソース提供を受けられる
解析環境をコードとして管理し仮想計算機で利用する
Cloud computing
NIST Cloud Computing Reference Architectureより
• Saas (Software as a Service, さーす)
• アプリケーションを提供
• DropBox, Gmail, iCoudなど
• PaaS (Platform as a Service, ぱーす)
• アプリケーションを実行できるコンピュータリソースを
提供
• Amazon Web Service, Google App Engine, Microsoft
Azure, Heroku
• IaaS(Infrastructure as a Service, イアース/ アイアス)
• コンピュータシステムを構築できるリソースを提供
• Amazon EC2
解析環境をコードとして管理し仮想計算機で利用する
3つのCloud computing
CPU、メモリ、ストレージ、ネットワークとして振る舞うソフトウェア
仮想計算機
OS X上でWindow 8が実行されている
Hypervisor
OSやハードウェア上に仮想化するためのソフトウェアが動
く。さらにその上でOSが動作する (VirtualBox, Xen, VMware)
!
Container
OS上にプロセス空間やネットワーク、ユーザID空間を区切っ
て、独立したOSのように動作する (dockerなど)
CPU、メモリ、ストレージ、ネットワークとして振る舞うソフトウェア
3つの仮想計算機
http://thinkit.co.jp/sites/default/files/articles/545601.jpg
1. Cloud Computing
3つのCloud Computing
3つの仮想化技術
!
2. Infrastructure as Code
ハードウェア・ソフトウェア管理をプログラムする
chef, vagrant
!
3. Bayes Linux: Bioinformatics Analysis
Environment System
BioDevOps.org
RIKEN Cloud System
Chef: プログラムを管理するプログラム
3つのツール: chef, knife, Vegrant
http://www.getchef.com/chef/
User
仮想計算機へアクセス
chef cookbookを
実行しプログラムを
自動セットアップ
3. chef cookbookを
配信するサーバー
1. chef cookbookを実装し
コード共有レポジトリで管理
2. chef cookbookを
配信サーバーへ提供
0. vegrantでマシンを管理
Chef recipe and Integration Test
Example: Installing NCBI BLAST by chef
debian, Ubuntuの場合は”ncbi-blast+”というパッケージをインストール
CentOSの場合はNCBIからRPMパッケージを取ってきてインストール
Chef recipe and Integration Test
Example: Installing NCBI BLAST by chef
blastpを実行できたらテスト成功
deploy: ソフトウェア環境を利用可能なように配置する
Vagrant: どのようなクラウドコンピュータでも簡単に環境をインストールできる
2. VMイメージ
を取得
3. deploy
ローカル
クラウド
ユーザ
仮想計算イメージレポジトリ
開発者
a. 仮想計算機
イメージ開発
1. VM構築を指示
b. VMイメージ登録
4. VMを利用 (SSH, HTTPなど)
VMが実行される計算機
1. Cloud Computing
3つのCloud Computing
3つの仮想化技術
!
2. Infrastructure as Code
ハードウェア・ソフトウェア管理をプログラムする
テストと継続的インテグレーション
ソーシャルソースコードレボジトリ
!
3. Bayes Linux: Bioinformatics Analysis Environment
System
BioDevOps.org
RIKEN Cloud System
Bayes Linux: Bioinformatics Analysis Environment
Virtual machine with NGS Data analysis tools and pipelines
Bioinformatics Analysis Environment as Code
バイオインフォ解析環境が完備されたLinuxを仮想マシンとして提供する
http://www.getchef.com/chef/
•解析環境セットアップ情報
はすべてコード
•ソースコード管理システム
でバージョン管理
•コードのテスト
•Zabbixによる計算リソース
の監視
•データベースミラー
User
Zabbix
BioDevOps.org
バイオインフォ解析ツールのレシピをテスト付きで提供する
http://BioDevOps.org/
Bayes Linux on RIKEN Cloud System
Virtual machine with NGS Data analysis tools and pipelines
Bioinformatics Research Unit
User
(inside/outside RIKEN)
Browser, tools, Pipelines
Install and setup tools
(BioDevOps)
Development of tools
Browser & Pipelines
SSH, HTTPS
Calc.Result
Browser & Pipeline
Consultation
TutorialUser’s tools
Sequencing Facility
Cloud Computer
sequence data
Sample
• Cloud system is located at Wako campus
• You can access your virtual machine (Ubuntu 14.04 LTS)
• with root privileges
• via SSH and HTTP
• from only Wako, Yokohama, Kobe and Tsukuba
• We provide
• over 125 tools on Galaxy, 900 R/Bioconductor Packages and 600
command line tools (DebianMed)
• one virtual machine per one research group
• 10 virtual machines at drawing logs
• 8 CPU cores (2GHz), 64 GB RAM and 3 TB strage/VM
• NFS for mouse/human reference genome/transcriptome
Spec. of virtual machine
Bioinformatics Analysis Environment for Your Laboratory Use
WFその1:
FastqMcf > Bowtie2 >
eXpress
WFその2:
FastqMcf > Sailfish
共通:
実体パスの取得
共通:
カウントデータのマージテーブル作成
> edgeR > gene Symbol付加
1)RNA-seq DEG解析WFを作成
世界情勢と類似のサービス
BioDevOpsによる再現性のあるバイオインフォマティクス環境の構築
• illumina
• BaseSpace: クラウドでのデータ解析環境。アプリ実装や共有ができ
る
• CloudBioLinux
• X年続く老舗。CloudManなど自前のクラスタ構築ツールもある
• Knoppix for Bio
• Bioinformatics向けLiveCD/LiveDVD Linuxの先駆け。書籍化された。
メン終了
• パッケージ集・管理ツール
• DebianMed
• LPM
問題点から考える将来
BioDevOpsによる再現性のあるバイオインフォマティクス環境の構築
• 計算が遅い
• コンテナ仮想化が主流に
• コンテナ仮想の分散計算環境の発展
• 複数VMから構成される計算環境のオーケストレーションが難しい
• 分散計算環境を自動的に構築しテストする
• パイプラインシステムが未熟である
• 大量データを処理しやすいパイプラインシステム
• 解析パイプラインのセマンティクスと共有
• 対話型統計解析ツールとの統合
• ipython, RStudio など
1. Cloud Computing
3つのCloud Computing
3つの仮想化技術
!
2. Infrastructure as Code
ハードウェア・ソフトウェア管理をプログラムする
テストと継続的インテグレーション
ソーシャルソースコードレボジトリ
!
3. Bayes Linux: Bioinformatics Analysis Environment
System
BioDevOps.org
RIKEN Cloud System
BioDevOpsによる再現性のあるバイオインフォマティクス環境の構築
Itoshi NIKAIDO, PhD <itoshi.nikaido@riken.jp>
Unit Leader, Bioinformatics Research Unit
RIKEN Advanced Center for Computer and Communication
http://bit.accc.riken.jp/
• RIKEN ACCC
• BiT
• Manabu Ishida (DevOps)
• Mika Yoshimura, PhD (Galaxy & pipeline)
• Akihiro Matsushima (Infrastructure)
• Koki Tsuyuzaki, PhD (Pipeline for RNA-Seq)
• Preventive medicine and applied genomics unit
• Wako unit & RIKEN Cloud Team
• Fujitsu SSL
• Yamamoto Go
• RIKEN President's Discretionary Fund

More Related Content

PDF
第1回HPC OPS研究会 Opening Remarks
PDF
NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」
PPTX
ネットワークプログラマビリティ勉強会 これまでのおさらい
PDF
クラウドオーケストレーション「OpenStack Heat」に迫る!
PDF
HPE×SUSE協業ソリューション
PDF
Prometheus at Preferred Networks
PDF
Linux女子部 systemd徹底入門
PDF
OpenStackクラウド基盤構築ハンズオンセミナー 第2日:ハンズオンNo1
第1回HPC OPS研究会 Opening Remarks
NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」
ネットワークプログラマビリティ勉強会 これまでのおさらい
クラウドオーケストレーション「OpenStack Heat」に迫る!
HPE×SUSE協業ソリューション
Prometheus at Preferred Networks
Linux女子部 systemd徹底入門
OpenStackクラウド基盤構築ハンズオンセミナー 第2日:ハンズオンNo1

What's hot (20)

PPTX
Kubernetes in プロダクション! -- cndjp第2回
PPTX
ロボットシステムのつくりかた 〜Robot Operating Systemというアプローチ〜
PPTX
Cloud Foundry varz
PDF
Aeolus Conductorによる複数環境へのデプロイ自動化
PDF
Mk network programmability-03
PDF
DevStackで始めるCloud FoundryとBOSH
PPTX
遺伝研スパコンの『ここが困った!』事例集と今後への提言
PDF
NGS解析を始めた時にぶつかりがちな小さい壁あれこれ
PDF
PDF
ビッグデータ活用とサーバー基盤
PPTX
Webアプリケーションによる電源管理システムのご紹介
PDF
RDOとPackstackのご紹介
PDF
GlusterFS Masakari Talks
PDF
Secure Code for Interactive Programming
PDF
OpenStackクラウド基盤構築ハンズオンセミナー 第1日:ハンズオンNo2
PDF
分散ストレージソフトウェアCeph・アーキテクチャー概要
PDF
Linux女子部 iptables復習編
PDF
OpenStackクラウド基盤構築ハンズオンセミナー 第2日:講義No2
PDF
Linux女子部 firewalld徹底入門!
PDF
コンテナーによるIT基盤変革 - IT infrastructure transformation -
Kubernetes in プロダクション! -- cndjp第2回
ロボットシステムのつくりかた 〜Robot Operating Systemというアプローチ〜
Cloud Foundry varz
Aeolus Conductorによる複数環境へのデプロイ自動化
Mk network programmability-03
DevStackで始めるCloud FoundryとBOSH
遺伝研スパコンの『ここが困った!』事例集と今後への提言
NGS解析を始めた時にぶつかりがちな小さい壁あれこれ
ビッグデータ活用とサーバー基盤
Webアプリケーションによる電源管理システムのご紹介
RDOとPackstackのご紹介
GlusterFS Masakari Talks
Secure Code for Interactive Programming
OpenStackクラウド基盤構築ハンズオンセミナー 第1日:ハンズオンNo2
分散ストレージソフトウェアCeph・アーキテクチャー概要
Linux女子部 iptables復習編
OpenStackクラウド基盤構築ハンズオンセミナー 第2日:講義No2
Linux女子部 firewalld徹底入門!
コンテナーによるIT基盤変革 - IT infrastructure transformation -
Ad

Viewers also liked (11)

PDF
Bioinformatics Analysis Environment for Your Laboratory Use
KEY
Rの環境とスコープ
PDF
Rのオブジェクト
PPTX
オープンデータ 〜日本版データリポジトリの可能性〜
PPTX
DNAは生命の設計図
PDF
Sakai 20110910
PDF
DevOpsとcloudで達成する再現性のあるDNAシーケンス解析とスーパーコンピューティング
PDF
KJ法の背景
PPTX
多変量解析
PDF
KJ法のW型問題解決モデルとU理論、それぞれの問題意識 加筆版
PDF
[DDBJing30] メタゲノム解析と微生物統合データベース
Bioinformatics Analysis Environment for Your Laboratory Use
Rの環境とスコープ
Rのオブジェクト
オープンデータ 〜日本版データリポジトリの可能性〜
DNAは生命の設計図
Sakai 20110910
DevOpsとcloudで達成する再現性のあるDNAシーケンス解析とスーパーコンピューティング
KJ法の背景
多変量解析
KJ法のW型問題解決モデルとU理論、それぞれの問題意識 加筆版
[DDBJing30] メタゲノム解析と微生物統合データベース
Ad

Similar to BioDevOpsによる再現性のあるバイオインフォマティクス環境の構築 (20)

PDF
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
PDF
Cytoscapeの現状とCyberinfrastructure
PDF
試して学べるクラウド技術!Eucalyptus/GlusterFS
PDF
SaaS/クラウドコンピューティングでのオープンソース活用とセキュリティ
PDF
Open stack reference architecture v1 2
PDF
IaaSクラウドを支える基礎技術 v1_0
PDF
SIGBIO54: 生命情報解析分野におけるコンテナ型仮想化技術の動向と性能検証
PPTX
Cytoscape Ecosystem Presentation at DBCLS Kashiwa
PDF
Try andstudy cloud
PDF
Personal Cloud Automation
PDF
Wakame Project - 自作クラウド研究会
PDF
クラウド概略(プレゼン)
PPT
2010 04クラウド技術講座
PDF
TokyoWebminig カジュアルなHadoop
PDF
Try andstudy cloud_20120509_nagoya
PDF
環境構築自動化ツールのご紹介
PDF
Apache cloudstack4.0インストール
PDF
OSSではじめるオープン・スタンダードのクラウド @201304
PDF
VIOPS02: 仮想データセンター構築を目指して!
PDF
hbstudy37 slide
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
Cytoscapeの現状とCyberinfrastructure
試して学べるクラウド技術!Eucalyptus/GlusterFS
SaaS/クラウドコンピューティングでのオープンソース活用とセキュリティ
Open stack reference architecture v1 2
IaaSクラウドを支える基礎技術 v1_0
SIGBIO54: 生命情報解析分野におけるコンテナ型仮想化技術の動向と性能検証
Cytoscape Ecosystem Presentation at DBCLS Kashiwa
Try andstudy cloud
Personal Cloud Automation
Wakame Project - 自作クラウド研究会
クラウド概略(プレゼン)
2010 04クラウド技術講座
TokyoWebminig カジュアルなHadoop
Try andstudy cloud_20120509_nagoya
環境構築自動化ツールのご紹介
Apache cloudstack4.0インストール
OSSではじめるオープン・スタンダードのクラウド @201304
VIOPS02: 仮想データセンター構築を目指して!
hbstudy37 slide

BioDevOpsによる再現性のあるバイオインフォマティクス環境の構築