SlideShare a Scribd company logo
RDKitの紹介
iwatobipen
• 今日はきっかけになればってレベルで。
What is RDKit ?
●オープンソースのchemoinfo tool kitです。
-コアの部分はC++だから早いよ。
-Python2.x ラッパーあるよ。
-機械学習用の記述子色々あるよ。
-カートリッジサポートしてるよ。( PostgreSQL )
●扱い
-OS win/mac/linux サポート。
-GitHubでバージョン管理。
-ML結構活発。
Install
Linux: apt-getとか。Yumは調べてないです。
Windows: 32bit/64bit binariesでOK !
Mac: Homebrew
IPython & PANDAS
幸せの形
Macならこの辺が良いかと
Winはバイナリがある。
http://fonnesbeck.github.io/ScipySuperpack/
サンプルデータ
まず読む
114分子読みました。
IPythonConsole使うと分子が
インタラクティブに見えまーす
ここで少しデモ
タイポ、躓きはご容赦を
Rdkitの紹介
駆け足でDIY感のある
MMP & Graphics
Test Data
>python rfrag.py < input.txt > frag.txt
>python indexing.py < frag.txt > pair.txt
ある日のメール
やあみんな。
いくつかmmpの機能を追加したよ。
mol_transform.pyはユーザーが
セットしたSmilesにMMPを適用して
変換するんだ。(超適当)
Hi all, I have added some extra parts to the mmpa contrib.
code which has recently been approved for open sourcing by GSK.
Also, I have made some minor changes to the existing code
but it should all work in the same way.
The extra parts are: mol_transform.py This program applies a transform or transforms
(generated by the MMP generation program) and applies it to a user set of smiles.
This final piece completes the circle, so now you can find MMPs,、、、、、
Transform
( ゚∀゚ )キタ━━━!!!)
さっそくデータ準備
無駄にPANDASを使ってみる。
>python mol_transform.py -f only_pair.txt < beore.txt > after.txt
実行スクリプト ペアファイル 入力 出力
劇的 ビフォー アフター?
できた♪
MMP DB
簡単につくれたらいーねー♪
あるよ
create_mmp_db.py
https://github.com/rdkit/rdkit/tree/master/Contrib/mmpa
>python create_mmp_db.py < your_fragment.txt
これでどうだ!
mmp.dbというファイルができる(sqlite3)
テーブルが四つ出来た
化合物情報入ってる
活用部分
はこれから、、、
次はビジュアル系
某社のTool kit 素敵。
原子の寄与を考えて可視化している
あるある!
Rdkitの紹介
matplotlibも必要ですが
APIほぼ丸写しでOK。
カラーマップ指定
contourの荒さ
>python mol_viz.py crizotinib.mol
動け!
こんな感じのビューができます。
Similarity mapも最近報告されてます
FingerPrintの類似性を可視化も可能。
まとめ
Pythonベースで色々できる。
PANDAS/matplotlib/Scikit-learnとの四重奏?
機能はかなりリッチ。
開発が活発。
UGRMの資料もオープンです。
その他
配座発生、ROCS的な扱いもOK
何よりOSS。CADDチームのリソースを侵食しない
御礼
つたない発表にお付き合いいただき
ありがとうございました。
追加リファレンス
順不同/全部じゃない
USRCAT: real-time ultrafast shape recognition with pharmacophoric constraints
http://www.jcheminf.com/content/4/1/27/abstract
Similarity maps - a visualization strategy for molecular fingerprints
and machine-learning methods
http://www.jcheminf.com/content/5/1/43/abstract
hERG Me Out
http://pubs.acs.org/doi/abs/10.1021/ci400308z
Freely Available Conformer Generation Methods: How Good Are They?
http://pubs.acs.org/doi/abs/10.1021/ci2004658
Similarity Boosted Quantitative Structure–Activity Relationship—
A Systematic Study of Enhancing Structural Descriptors by Molecular Similarity
http://pubs.acs.org/doi/abs/10.1021/ci300182p
A Collection of Robust Organic Synthesis Reactions for In Silico Molecule Design
http://pubs.acs.org/doi/abs/10.1021/ci200379p
参考URL
APIリファレンス
http://www.rdkit.org/docs/index.html
ユーザーミーティングスライド おすすめ。
http://www.rdkit.org/UGM/2012/
Wiki
http://code.google.com/p/rdkit/w/list

More Related Content

PDF
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
PDF
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
PDF
アドテクに機械学習を組み込むための推論の高速化
PDF
Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)
PDF
Techtalk:多様体
PDF
メトリクスを用いたソフトウェア品質定量評価・改善 (GQM, Metrics, ET2013)
PDF
機械学習は化学研究の"経験と勘"を合理化できるか?
PDF
TensorFlowで逆強化学習
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
アドテクに機械学習を組み込むための推論の高速化
Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)
Techtalk:多様体
メトリクスを用いたソフトウェア品質定量評価・改善 (GQM, Metrics, ET2013)
機械学習は化学研究の"経験と勘"を合理化できるか?
TensorFlowで逆強化学習

What's hot (20)

PPTX
数理最適化とPython
PPTX
Lineに対応したシステム開発で実現する新しいユーザ体験の提案 iret tech labo #9
PDF
機械学習システムを受託開発 する時に気をつけておきたい事
PDF
Active Learning 入門
PDF
機械学習モデルの判断根拠の説明
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
PDF
機械学習の未解決課題
PDF
いろんなバンディットアルゴリズムを理解しよう
PDF
[系列活動] 無所不在的自然語言處理—基礎概念、技術與工具介紹
PDF
Jubatus Casual Talks #2 異常検知入門
PPTX
強化学習6章
PPTX
傾向スコアマッチと多重補完法の解説 その2
PDF
国際会議運営記
PDF
遺伝的アルゴリズム (Genetic Algorithm)を始めよう!
PDF
機械学習モデルの判断根拠の説明(Ver.2)
PPTX
LightGBMを少し改造してみた ~カテゴリ変数の動的エンコード~
PPTX
[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
PDF
Randomized smoothing
PDF
パターン認識と機械学習入門
PPTX
機械学習の応用例にみる認知症診断と将来の発症予測
数理最適化とPython
Lineに対応したシステム開発で実現する新しいユーザ体験の提案 iret tech labo #9
機械学習システムを受託開発 する時に気をつけておきたい事
Active Learning 入門
機械学習モデルの判断根拠の説明
【DL輪読会】Scaling Laws for Neural Language Models
機械学習の未解決課題
いろんなバンディットアルゴリズムを理解しよう
[系列活動] 無所不在的自然語言處理—基礎概念、技術與工具介紹
Jubatus Casual Talks #2 異常検知入門
強化学習6章
傾向スコアマッチと多重補完法の解説 その2
国際会議運営記
遺伝的アルゴリズム (Genetic Algorithm)を始めよう!
機械学習モデルの判断根拠の説明(Ver.2)
LightGBMを少し改造してみた ~カテゴリ変数の動的エンコード~
[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
Randomized smoothing
パターン認識と機械学習入門
機械学習の応用例にみる認知症診断と将来の発症予測
Ad

Viewers also liked (20)

PDF
Retailer 01-2013-preview
PDF
FAMSとchooseLDを用いたインシリコ創薬パイプライン
PDF
mishimasyk#4
PPTX
Mishimasyk141025
PPTX
R -> Python
PDF
目指せヘルシープログラマ!
PDF
Level dbを試した
PDF
Mishimasyk6 iwatobipen
PDF
201310slide day1
PDF
Mishimasyk 3 20140705
PDF
Mishimasyk5 chemomine up
PDF
Mishimasyk
PDF
主成分分析を用いた教師なし学習による出芽酵母 の時間周期遺伝子発現プロファイルの解析
PDF
IPython notebookを使おう
PDF
あまり知られていない静岡の言語戦争の歴史
PDF
主成分分析を用いた教師なし学習による変数選択を用いたヒストン脱アセチル化酵素阻害剤の機能探索
PPTX
10分でわかるRandom forest
PDF
RDKit Gems
PDF
機械学習におけるオンライン確率的最適化の理論
PDF
ランダムフォレスト
Retailer 01-2013-preview
FAMSとchooseLDを用いたインシリコ創薬パイプライン
mishimasyk#4
Mishimasyk141025
R -> Python
目指せヘルシープログラマ!
Level dbを試した
Mishimasyk6 iwatobipen
201310slide day1
Mishimasyk 3 20140705
Mishimasyk5 chemomine up
Mishimasyk
主成分分析を用いた教師なし学習による出芽酵母 の時間周期遺伝子発現プロファイルの解析
IPython notebookを使おう
あまり知られていない静岡の言語戦争の歴史
主成分分析を用いた教師なし学習による変数選択を用いたヒストン脱アセチル化酵素阻害剤の機能探索
10分でわかるRandom forest
RDKit Gems
機械学習におけるオンライン確率的最適化の理論
ランダムフォレスト
Ad

Rdkitの紹介