SlideShare a Scribd company logo
Kickoff meeting(7/6)
○Eli Kaminuma1, Yukino Baba2, Masahiro Mochizuki3, Hirotaka Matsumoto4, Haruka Ozaki4, Toshitsugu Okayama5, Takuya Kato6,
Shinya Oki7, Osamu Ogasawara1, Hisashi Kashima2, Toshihisa Takagi1
(1.Ctr for Info Biol , NIG, 2.Grad Sch of Info, Kyoto Univ, 3.IMSBIO Co., Ltd, 4. RIKEN・ACCC・BiT, 5.BITS Inc., 6.Grad Sch of Info Sci Tech, Tokyo Univ,
7.Grad Sch of Med Sci, Kyushu Univ )
DDBJデータ解析チャレンジ報告:機械学習コンペティションのタスク設計とルール設定
Highlights of the DDBJ Data Analysis Challenge: Task Design Rules for a Machine Learning Competition
ABSTRACT 近年、次世代シークエンサ等大規模な実験データの注釈解析を行う時に、手作業処理を自動化する目的で機械学習技術の適用が始まっている。しかし、実験研究
者の多くは機械学習の知識を持つ共同研究相手を探しにくい。解決の1方策に、群衆へ課題をアウトソーシングする「機械学習コンペティション」の活用がある。 本発表では機
械学習コンペティションの実施知見を共有する。機械学習コンペティション(名称: DDBJデータ解析チャレンジ)を2016/7/6-8/31の期間に実施した。機械学習コンペティション
は参加型研究で個人情報を扱う為に、事前に国立遺伝学研究所の研究倫理審査委員会より実施承認を得た。チャレンジでは「 DNA配列からのクロマチン特徴予測」の課題で、
DDBJ保有配列データからクロマチン特徴注釈の有無を予測して精度を競う。データはDDBJ公開の Sequence Read Archiveの2次注釈データベース「 ChIP-Atlas」の未掲載生物
種を対象に、同一条件で準備した。構築モデルの投稿管理は、機械学習コンペティション基盤(ビッグデータ大学)で行った。ビッグデータ大学は教育目的で構築されており、
投稿モデルの暫定精度をオンラインで確認できる仕組みを持つ。実施の結果、1位モデルの精度(Area under the curve, AUC)は0.95だった。参加者総数は38名でモデル投稿数は
延べ360回だった。最初の投稿モデルは AUC=0.65で、コンペティション期間でモデル精度が0.30向上した事になる。1位モデルは DNNを含む2種類の分類器をアンサンブル学
習法で組み合わせており、特徴として外部データ(ゲノム位置情報と遺伝子構造注釈情報)を採り入れていた。コンペでは外部データ利用可否の他にも多くのルール設定が必
要だった。参考の為に、実施手順や条件・ルール (1. データ非公開化、2.不正防止用情報マスキング、3.専門分野外参加者向け整形、4.転移学習用訓練済モデルの利用可否、5.
計算機資源とトレードオフとなるデータ量削減、等)を紹介する。
Acknowledgments:
・ Competition Participants : orion, Ryota, tsukasa, emn, extraterrestrial Fuun species, ηzw, mkoido, ksh, AoYu@Tohoku, hiro, emihat, MorikawaH, hmt-yamamoto, tonets, すずどら, take2, bicycle1885, morizo,
forester, どいやさん, yudai, tag, nwatarai, soki, himkt, saoki, tsunechan, Ken, A.K, singular0316, IK, yk_tani, yota0000
・ Mathworks Japan : Fumitaka Otobe, Takuya Ohtani, Hikari Amano, Takafumi Ohbiraki
・ NIG : Ayako Oka, Naoko Sakamoto, Yasukazu Nakamura
・ DDBJ : Yuji Ashizawa, Tomohiko Yasuda, Naofumi Ishikawa, Tomohiro Hirai, Tomoka Watanabe, Chiharu Kawagoe, Emi Yokoyama, Kimiko Suzuki, Junko Kohira
Development of Submitted Model Precision and Prize Models
2LBA-015
※1 DDBJ(DNA Data Bank of Japan) http://www.ddbj.nig.ac.jp/
※2 NIG supercomputer http://sc.ddbj.nig.ac.jp/
※2 UniversityOfBigdata http://universityofbigdata.net/
DDBJ Data Analysis Challenge :
A Crowdsourced Machine Learning Competition
Rule Design for Machine Learning Competition
Designing the DDBJ Challenge Task
Outline of the 1st Prize Model
Scheduling the Challenge Project with IRB Approval
DDBJ
Challenge
Award
Winner AUC Model Design Tool Version
最優秀賞
1st Prize
株式会社 情報数
理バイオ 研究開
発部 ライフサイエ
ンスグループ
望月 正弘
0.94564
*2 Classifiers(Extremely
Randomized Trees, CNN)
*Ensemble
Learning(Stacking)
*External Data(Genomic
Position, Gene Structure
Annotation)
python=3.5
scikit-
learn=0.17.1
chainer=1.10.0
優秀賞
2nd Prize
国立研究開発法
人 理化学研究所
情報基盤センター
バイオインフォマ
ティクス研究開発
ユニット
松本 拡高(代表
※)、尾崎 遼(※)
※チームとして2
名で参加
0.89859
*2 Classifiers(CNN, Product
of Genomic Distance Decay
Parameter and Nearest
Training Data Output)
*Ensemble
Learning(Averaged)
*External Data(Genomic
Position)
julia=0.4.6
python=2.7.10
skflow(tensorflo
w=0.8.0)
優良賞
3rd Prize
ビッツ株式会社
岡山 利次
0.85428
*7 Classifiers(Naive Bayes
for Multivariate Bernoulli
Models, Logistic Regression,
Random Forest, Gradient
Boosting, Extremely
Randomized Trees, eXtreme
Gradient Boosting, CNN)
*Ensemble Learning
(Stacking)
python=2.7.11
numpy=1.10.4
scikit-
learn=0.17
chainer=1.11.0
xgboost=0.4a3
0
学生賞
Student
Prize
東京大学大学院
情報理工学系研
究科 修士課程
1年
加藤 卓也
0.84318
*3 Classifiers(LeNet like
CNN, DeepBind like CNN,
Variable filter DeepBind like
CNN)
*Ensemble Learning(Soft
Voting)
python=2.7
lasagne=0.2.dev
1
ModelPrecision(AUC)
Date of Challenge Period
Winner, Model Precision, Design, ToolnameSubmitted Model Precision with Participant Nickname
最優秀賞モデル概要
*Extremely Randomized Trees(ERT, ※1), Convolutional Neural Network(CNN, ※2)
*Stacked Generalization(Stacking,※3) アンサンブル学習法で統合
*External Data(外部特徴量)は, ゲノム座標と遺伝子注釈情報
<ERT model>
*Genomic Coordinates Based Model(GCBM)
*特徴量はゲノム座標で, n(クエリ配列数) x m(染色体数)行列
*ゲノム座標はシロイヌナズナTAIR10ゲノム参照配列へのアライメントで計算
<CNN model>
*Gene Annotated Sequences Based Model(GASBM)
*特徴量は, クエリ配列と遺伝子注釈情報(TAIR10)
*Forward/Reverse Strand別で組み込む
*遺伝子注釈情報の定義
変数rは減衰率で、変数dは遺伝子の1塩基目からの距離
rが0なら特徴量は1になり,遺伝子中に対象塩基が含まれる
rが0より大きい時は,遺伝子開始塩基からの勾配値
2. Masking data conditions, Reducing data size
不正防止用情報マスキング, 計算資源節約用データ量削減
In the ChIP-Atlas database, a combination of tissue/celltype conditions (CellType
class) and functional Type (Antigen class) are curated.
“756 conditions”→ (Reducing, Masking)→ publicly explained only “8 conditions”
Q&A in DDBJ Challenge Website
http://www.ddbj.nig.ac.jp/ddbj-challenge2016-j.html
DDBJ(※1) plans to develop big data analysis environment.
DDBJ DNA Databases
↓
Not widely known as data resource
for big data analysis
NIG Supercomputer(※2)
↓
Needs to furnish analytical tools
Organizing a Machine Learning Competition on
a Data Science Platform ‘京大鹿島研ビッグデータ大学(※3)’
- Supporting DDBJ database as data resource
- Installing bigdata analytical tools in NIG supercomputer.
2016 Feb 29 – Deadline of Submitting Applications
Mar 15 – IRB Meeting Date
Mar 30 – Notice of Certification
■参加型研究でCrowd(群衆)の個人情報を扱う
場合には、IRB(Institutional Review Board)による
研究倫理承認が必要
■ Reviewed by IRB of National Institute of Genetics
[1] Geurts, P., Ernst, D. & Wehenkel, L. Extremely randomized trees. Machine Learning 63, 3-42 (2006).
[2] LeCun, Yann, et al. “Gradient-based learning applied to document recognition.” Proceedings of the IEEE 86.11 (1998): 2278-2324.
[3] Wolpert, D. H. Stacked generalization. Neural Networks 5, 241-259 (1992).
GASBM model
*Participant Number=38
*Final Model Precision(Total Change)=AUC 0.95 (+ 0.30)
*Model Precision Increase Rate=46%
*Submission Number(TOTAL)=360
*Submission Number(AVG)=9.5
CHALLENGE TASK: Predicting whether genomic regions corresponding to input
DNA sequences includes chromatin feature regions.
1. Generating unpublished data
不正防止用非公開データの作成
3. Free Domain Knowledge for DNA Codes
専門分野外参加者向けデータ整形
Nucleobase Letter Base Code Number Code 01 Code
Adenine A 1 1000
Cytosine C 2 0100
Guanine G 3 0010
Thymine T 4 0001
Unknown N 0 0000
http://devbio.med.kyushu-u.ac.jp/chipatlas/img/DataNumber.png
ChIP-Atlas database published analyzed data with latest SRA entries.
→ Unpublished organism, Arabidopsis thaliana, was selected. © 2007 Emi Kosano
The 01 code may be easy-handling coding type for Information scientists.
IRB Approval Letter
Website release(6/27)
* A machine learning competition for a lifescience domain task was organized.
* Model precision of 57 competition days represented the rate of 46% increase.
* Competition rules of intellectual property rights and team participation should be clarified.
Summary
Rule DDBJ Challenge Kaggle
(10 research competitions)
https://www.kaggle.com/
EXTERNAL DATA Allowed Not Allowed (10)
CODE SHARING ------ Prohibited (10)
OPEN-SOURCE CODE ------ Prohibited (10)
PRE-TRAINED MODEL Allowed ------ ( Allowed at a
competition forum )
TEST DATA FOR TRAINING Allowed ------ ( Allowed at a
competition forum)
One account per participant ------ 1 (10)
No private sharing outside
teams
------ Prohibited (10)
Team limits ------ Max(8), 4 participants (1),
1 participant (1)
Submission limits per day 3 5 (4), 4(1), 3(1), 2(3), 1(1)
*Kaggleでは外部データ利用不可が多い
*著作権やチーム参加のルールが不足していた

More Related Content

PDF
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
PDF
Top-K Off-Policy Correction for a REINFORCE Recommender System
PDF
汎用ニューラルネットワークポテンシャル「PFP」による材料探索_MRS-J2021招待講演_2021/12/15
PDF
[18-01-26]DSTEP ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類
PDF
Fast, Accurate Detection of 100,000 Object Classes on a Single Machine
PDF
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
PPTX
How to use in R model-agnostic data explanation with DALEX & iml
PPTX
Can increasing input dimensionality improve deep reinforcement learning?
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
Top-K Off-Policy Correction for a REINFORCE Recommender System
汎用ニューラルネットワークポテンシャル「PFP」による材料探索_MRS-J2021招待講演_2021/12/15
[18-01-26]DSTEP ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類
Fast, Accurate Detection of 100,000 Object Classes on a Single Machine
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
How to use in R model-agnostic data explanation with DALEX & iml
Can increasing input dimensionality improve deep reinforcement learning?

Similar to [2016-12-01] DDBJデータ解析チャレンジ報告:機械学習コンペティションのタスク設計とルール設定 (20)

PPTX
Nttr study 20130206_share
PPTX
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
PDF
バイオインフォマティクスによる遺伝子発現解析
PDF
実機で動かす深層強化学習(画像なし)
PPTX
みんな大好き機械学習
PPTX
DSB2019振り返り会:あのにっくき QWK を閾値調整なしで攻略した(かった)
PDF
IIBMP2016 深層生成モデルによる表現学習
PDF
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
PDF
Jubatusにおける大規模分散オンライン機械学習
PPTX
卒研発表 バースカ(確認済み)
PDF
強化学習と逆強化学習を組み合わせた模倣学習
PDF
能動学習による多関係データセットの構築
PPTX
Feature engineering for predictive modeling using reinforcement learning
PPTX
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
PDF
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
PPTX
大須賀・田原・清研究室の研究事例
PPTX
全脳関西編(松尾)
PDF
バイオサイエンス分野における機械学習応用研究の最新動向
PPTX
NeurIPS2019参加報告
PPTX
2016年度 第4回バイオインフォマティクス実習
Nttr study 20130206_share
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
バイオインフォマティクスによる遺伝子発現解析
実機で動かす深層強化学習(画像なし)
みんな大好き機械学習
DSB2019振り返り会:あのにっくき QWK を閾値調整なしで攻略した(かった)
IIBMP2016 深層生成モデルによる表現学習
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
Jubatusにおける大規模分散オンライン機械学習
卒研発表 バースカ(確認済み)
強化学習と逆強化学習を組み合わせた模倣学習
能動学習による多関係データセットの構築
Feature engineering for predictive modeling using reinforcement learning
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
大須賀・田原・清研究室の研究事例
全脳関西編(松尾)
バイオサイエンス分野における機械学習応用研究の最新動向
NeurIPS2019参加報告
2016年度 第4回バイオインフォマティクス実習
Ad

More from Eli Kaminuma (13)

PDF
[2021-03-14] 植物表現型画像解析のための手作業注釈加速化手法とActive Learning
PDF
[2020-12-15] 実験研究者のための深層学習入門 [第2回] Google Colab 環境で自動機械学習と深層画像生成(AutoML, GAN編) 
PDF
[2020-09-01] IIBMP2020 Generating annotation texts of HLA sequences with anti...
PDF
[2019-11-22] JSAI合同研究会 糖尿病電子カルテを事例としたMeSH Term注釈に基づくアクセス制限研究のオープンデータ類似検索
PDF
[2019-09-02] AI・IoT活用情報とGoogle Colab植物画像注釈
PDF
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
PDF
[2018-03-29]JSPP18 Oxford Flower Image Datasetを用いた深層学習ハンズオン
PDF
[2017-05-29] DNASmartTagger
PDF
[2016-07-06] DDBJデータ解析チャレンジ概要
PDF
[2016-06-06] CrowdR&D:クラウド協働評価のための参加型R&Dプロジェクト情報統合基盤
PDF
[2013-12-05] NGS由来ゲノムワイド多型マーカ構築とそのRDF注釈情報統合化
PDF
[2015-06-10] オンライン・クラウドサイエンス(市民科学)の潮流
PDF
[2015-11-11][DDBJing33] DDBJとNIG Supercomputerの紹介、大量配列情報解析 (第33回 DDBJing 講習会 ...
[2021-03-14] 植物表現型画像解析のための手作業注釈加速化手法とActive Learning
[2020-12-15] 実験研究者のための深層学習入門 [第2回] Google Colab 環境で自動機械学習と深層画像生成(AutoML, GAN編) 
[2020-09-01] IIBMP2020 Generating annotation texts of HLA sequences with anti...
[2019-11-22] JSAI合同研究会 糖尿病電子カルテを事例としたMeSH Term注釈に基づくアクセス制限研究のオープンデータ類似検索
[2019-09-02] AI・IoT活用情報とGoogle Colab植物画像注釈
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
[2018-03-29]JSPP18 Oxford Flower Image Datasetを用いた深層学習ハンズオン
[2017-05-29] DNASmartTagger
[2016-07-06] DDBJデータ解析チャレンジ概要
[2016-06-06] CrowdR&D:クラウド協働評価のための参加型R&Dプロジェクト情報統合基盤
[2013-12-05] NGS由来ゲノムワイド多型マーカ構築とそのRDF注釈情報統合化
[2015-06-10] オンライン・クラウドサイエンス(市民科学)の潮流
[2015-11-11][DDBJing33] DDBJとNIG Supercomputerの紹介、大量配列情報解析 (第33回 DDBJing 講習会 ...
Ad

[2016-12-01] DDBJデータ解析チャレンジ報告:機械学習コンペティションのタスク設計とルール設定

  • 1. Kickoff meeting(7/6) ○Eli Kaminuma1, Yukino Baba2, Masahiro Mochizuki3, Hirotaka Matsumoto4, Haruka Ozaki4, Toshitsugu Okayama5, Takuya Kato6, Shinya Oki7, Osamu Ogasawara1, Hisashi Kashima2, Toshihisa Takagi1 (1.Ctr for Info Biol , NIG, 2.Grad Sch of Info, Kyoto Univ, 3.IMSBIO Co., Ltd, 4. RIKEN・ACCC・BiT, 5.BITS Inc., 6.Grad Sch of Info Sci Tech, Tokyo Univ, 7.Grad Sch of Med Sci, Kyushu Univ ) DDBJデータ解析チャレンジ報告:機械学習コンペティションのタスク設計とルール設定 Highlights of the DDBJ Data Analysis Challenge: Task Design Rules for a Machine Learning Competition ABSTRACT 近年、次世代シークエンサ等大規模な実験データの注釈解析を行う時に、手作業処理を自動化する目的で機械学習技術の適用が始まっている。しかし、実験研究 者の多くは機械学習の知識を持つ共同研究相手を探しにくい。解決の1方策に、群衆へ課題をアウトソーシングする「機械学習コンペティション」の活用がある。 本発表では機 械学習コンペティションの実施知見を共有する。機械学習コンペティション(名称: DDBJデータ解析チャレンジ)を2016/7/6-8/31の期間に実施した。機械学習コンペティション は参加型研究で個人情報を扱う為に、事前に国立遺伝学研究所の研究倫理審査委員会より実施承認を得た。チャレンジでは「 DNA配列からのクロマチン特徴予測」の課題で、 DDBJ保有配列データからクロマチン特徴注釈の有無を予測して精度を競う。データはDDBJ公開の Sequence Read Archiveの2次注釈データベース「 ChIP-Atlas」の未掲載生物 種を対象に、同一条件で準備した。構築モデルの投稿管理は、機械学習コンペティション基盤(ビッグデータ大学)で行った。ビッグデータ大学は教育目的で構築されており、 投稿モデルの暫定精度をオンラインで確認できる仕組みを持つ。実施の結果、1位モデルの精度(Area under the curve, AUC)は0.95だった。参加者総数は38名でモデル投稿数は 延べ360回だった。最初の投稿モデルは AUC=0.65で、コンペティション期間でモデル精度が0.30向上した事になる。1位モデルは DNNを含む2種類の分類器をアンサンブル学 習法で組み合わせており、特徴として外部データ(ゲノム位置情報と遺伝子構造注釈情報)を採り入れていた。コンペでは外部データ利用可否の他にも多くのルール設定が必 要だった。参考の為に、実施手順や条件・ルール (1. データ非公開化、2.不正防止用情報マスキング、3.専門分野外参加者向け整形、4.転移学習用訓練済モデルの利用可否、5. 計算機資源とトレードオフとなるデータ量削減、等)を紹介する。 Acknowledgments: ・ Competition Participants : orion, Ryota, tsukasa, emn, extraterrestrial Fuun species, ηzw, mkoido, ksh, AoYu@Tohoku, hiro, emihat, MorikawaH, hmt-yamamoto, tonets, すずどら, take2, bicycle1885, morizo, forester, どいやさん, yudai, tag, nwatarai, soki, himkt, saoki, tsunechan, Ken, A.K, singular0316, IK, yk_tani, yota0000 ・ Mathworks Japan : Fumitaka Otobe, Takuya Ohtani, Hikari Amano, Takafumi Ohbiraki ・ NIG : Ayako Oka, Naoko Sakamoto, Yasukazu Nakamura ・ DDBJ : Yuji Ashizawa, Tomohiko Yasuda, Naofumi Ishikawa, Tomohiro Hirai, Tomoka Watanabe, Chiharu Kawagoe, Emi Yokoyama, Kimiko Suzuki, Junko Kohira Development of Submitted Model Precision and Prize Models 2LBA-015 ※1 DDBJ(DNA Data Bank of Japan) http://www.ddbj.nig.ac.jp/ ※2 NIG supercomputer http://sc.ddbj.nig.ac.jp/ ※2 UniversityOfBigdata http://universityofbigdata.net/ DDBJ Data Analysis Challenge : A Crowdsourced Machine Learning Competition Rule Design for Machine Learning Competition Designing the DDBJ Challenge Task Outline of the 1st Prize Model Scheduling the Challenge Project with IRB Approval DDBJ Challenge Award Winner AUC Model Design Tool Version 最優秀賞 1st Prize 株式会社 情報数 理バイオ 研究開 発部 ライフサイエ ンスグループ 望月 正弘 0.94564 *2 Classifiers(Extremely Randomized Trees, CNN) *Ensemble Learning(Stacking) *External Data(Genomic Position, Gene Structure Annotation) python=3.5 scikit- learn=0.17.1 chainer=1.10.0 優秀賞 2nd Prize 国立研究開発法 人 理化学研究所 情報基盤センター バイオインフォマ ティクス研究開発 ユニット 松本 拡高(代表 ※)、尾崎 遼(※) ※チームとして2 名で参加 0.89859 *2 Classifiers(CNN, Product of Genomic Distance Decay Parameter and Nearest Training Data Output) *Ensemble Learning(Averaged) *External Data(Genomic Position) julia=0.4.6 python=2.7.10 skflow(tensorflo w=0.8.0) 優良賞 3rd Prize ビッツ株式会社 岡山 利次 0.85428 *7 Classifiers(Naive Bayes for Multivariate Bernoulli Models, Logistic Regression, Random Forest, Gradient Boosting, Extremely Randomized Trees, eXtreme Gradient Boosting, CNN) *Ensemble Learning (Stacking) python=2.7.11 numpy=1.10.4 scikit- learn=0.17 chainer=1.11.0 xgboost=0.4a3 0 学生賞 Student Prize 東京大学大学院 情報理工学系研 究科 修士課程 1年 加藤 卓也 0.84318 *3 Classifiers(LeNet like CNN, DeepBind like CNN, Variable filter DeepBind like CNN) *Ensemble Learning(Soft Voting) python=2.7 lasagne=0.2.dev 1 ModelPrecision(AUC) Date of Challenge Period Winner, Model Precision, Design, ToolnameSubmitted Model Precision with Participant Nickname 最優秀賞モデル概要 *Extremely Randomized Trees(ERT, ※1), Convolutional Neural Network(CNN, ※2) *Stacked Generalization(Stacking,※3) アンサンブル学習法で統合 *External Data(外部特徴量)は, ゲノム座標と遺伝子注釈情報 <ERT model> *Genomic Coordinates Based Model(GCBM) *特徴量はゲノム座標で, n(クエリ配列数) x m(染色体数)行列 *ゲノム座標はシロイヌナズナTAIR10ゲノム参照配列へのアライメントで計算 <CNN model> *Gene Annotated Sequences Based Model(GASBM) *特徴量は, クエリ配列と遺伝子注釈情報(TAIR10) *Forward/Reverse Strand別で組み込む *遺伝子注釈情報の定義 変数rは減衰率で、変数dは遺伝子の1塩基目からの距離 rが0なら特徴量は1になり,遺伝子中に対象塩基が含まれる rが0より大きい時は,遺伝子開始塩基からの勾配値 2. Masking data conditions, Reducing data size 不正防止用情報マスキング, 計算資源節約用データ量削減 In the ChIP-Atlas database, a combination of tissue/celltype conditions (CellType class) and functional Type (Antigen class) are curated. “756 conditions”→ (Reducing, Masking)→ publicly explained only “8 conditions” Q&A in DDBJ Challenge Website http://www.ddbj.nig.ac.jp/ddbj-challenge2016-j.html DDBJ(※1) plans to develop big data analysis environment. DDBJ DNA Databases ↓ Not widely known as data resource for big data analysis NIG Supercomputer(※2) ↓ Needs to furnish analytical tools Organizing a Machine Learning Competition on a Data Science Platform ‘京大鹿島研ビッグデータ大学(※3)’ - Supporting DDBJ database as data resource - Installing bigdata analytical tools in NIG supercomputer. 2016 Feb 29 – Deadline of Submitting Applications Mar 15 – IRB Meeting Date Mar 30 – Notice of Certification ■参加型研究でCrowd(群衆)の個人情報を扱う 場合には、IRB(Institutional Review Board)による 研究倫理承認が必要 ■ Reviewed by IRB of National Institute of Genetics [1] Geurts, P., Ernst, D. & Wehenkel, L. Extremely randomized trees. Machine Learning 63, 3-42 (2006). [2] LeCun, Yann, et al. “Gradient-based learning applied to document recognition.” Proceedings of the IEEE 86.11 (1998): 2278-2324. [3] Wolpert, D. H. Stacked generalization. Neural Networks 5, 241-259 (1992). GASBM model *Participant Number=38 *Final Model Precision(Total Change)=AUC 0.95 (+ 0.30) *Model Precision Increase Rate=46% *Submission Number(TOTAL)=360 *Submission Number(AVG)=9.5 CHALLENGE TASK: Predicting whether genomic regions corresponding to input DNA sequences includes chromatin feature regions. 1. Generating unpublished data 不正防止用非公開データの作成 3. Free Domain Knowledge for DNA Codes 専門分野外参加者向けデータ整形 Nucleobase Letter Base Code Number Code 01 Code Adenine A 1 1000 Cytosine C 2 0100 Guanine G 3 0010 Thymine T 4 0001 Unknown N 0 0000 http://devbio.med.kyushu-u.ac.jp/chipatlas/img/DataNumber.png ChIP-Atlas database published analyzed data with latest SRA entries. → Unpublished organism, Arabidopsis thaliana, was selected. © 2007 Emi Kosano The 01 code may be easy-handling coding type for Information scientists. IRB Approval Letter Website release(6/27) * A machine learning competition for a lifescience domain task was organized. * Model precision of 57 competition days represented the rate of 46% increase. * Competition rules of intellectual property rights and team participation should be clarified. Summary Rule DDBJ Challenge Kaggle (10 research competitions) https://www.kaggle.com/ EXTERNAL DATA Allowed Not Allowed (10) CODE SHARING ------ Prohibited (10) OPEN-SOURCE CODE ------ Prohibited (10) PRE-TRAINED MODEL Allowed ------ ( Allowed at a competition forum ) TEST DATA FOR TRAINING Allowed ------ ( Allowed at a competition forum) One account per participant ------ 1 (10) No private sharing outside teams ------ Prohibited (10) Team limits ------ Max(8), 4 participants (1), 1 participant (1) Submission limits per day 3 5 (4), 4(1), 3(1), 2(3), 1(1) *Kaggleでは外部データ利用不可が多い *著作権やチーム参加のルールが不足していた