第一原理計算による分子の物理化 
学データベース構築 
The PubChemQC Project 
中田真秀 
理化学研究情報基盤センター 
maho@riken.jp 
2014年10月30日 
情報計算化学生物学会(Chem-Bio 
Informatics Society)@タワーホール船堀
量は質に転化する 
カール・マルクス(1818– 1883)
理論化学で実験を無くす 
• 理論化学計算は結構な高みまできた。 
– かなり実験と合う。 
• 説明できる理論化学はコモディティ化 
– 有機化学やってる人の方がGaussianのノウハウ 
蓄積が大きい 
– B3LYP 6-31G*計算でだいたいok 
• 実験を先導する理論化学は重要だが 
– あんまり無い 
• 最終的には実験しなくてはならない
実験化学と計算化学研究の違い 
• テーマの選択、文献調査 
– こういうことできないか? 
– よくわからないがAとBを混ぜるとCができる。 
• キーとなる分子の設計、反応の組み立て、仮説 
• 理論計算 
• 実験 
– 生成物の分析 
• 結果が得られる 
• 実験の提案 
違いは二点だけ
実験化学と計算化学研究の違い 
• 「研究」としては本質的には変わらない。 
• 重要なのは「こういうことできないか?」とい 
うサイエンス、化学の精神 
自分の感性と 
データの蓄積と解析、分析から 
あたらしい知見を得たい。 
だけど、機械的に処理しやすい 
データの蓄積がない…
背景 
+ 
みたいなことしたいなぁ
背景 
• 化学は超ビッグデータ処理+身近なもの 
– 分子の種類(Chemical Space)は天文学的 
• 薬になりそうな分子だけで、1060といわれる 
(http://onlinelibrary.wiley.com/doi/10.1002/wcms.1104/abs 
tract) 
• 参考: 1018 エクサ 
– ものは、すべて、原子、分子からなっている。 
• Googleで検索して発見できないテーマは新しい 
研究
分子情報を「ググれる」までに何が必要? 
1. 分子の種類 
– 世の中にはどんな分子があるか? ほぼ無限?? 
2. 分子の性質:実験 
– 分子がどんな性質を持っているか? 分子構造? エネ 
ルギー、光吸収、双極子… 
3. 分子の性質:計算 
– 計算の精度(実験との一致性)、計算リソース。 
4. 分子の符号化 
– 慣用名やIUPAC名では検索システム構築はできない
分子の種類:分子情報を「ググれる」まで 
1. 分子の種類:データベースが充実してきた 
– PubChemプロジェクト、5000万分子程度、米国立衛生研 
究所(NIH)、入手容易(ftp)、製薬会社など多数参加、制限 
緩い、自動化、よくわからない分子多数。 
– ChemSpider : 英国発2800万分子程度、ftpなし。制限キツ 
い、キュレーションが良い。 
– Web-GDB13 : 9億分子、分子の数え上げ 
• 原子が限られる、分子数多すぎ(無駄な分子もある?) 
– Zinc, CheMBL, DrugBank …など他にもたくさんある。 
– CAS : 7000万分子程度、プロプラ、制限がきつい 
– 日化辞: 600万分子、制限あり 
分子情報はに依存することに
分子データベース:PubChem
Pubchemの分子エントリ例
分子情報:分子情報を「ググれる」まで 
2. 分子の性質:実験 
– 分子がどんな性質を持っているか。100万分子程 
度の実験は製薬会社は実行している… 
– 非常にコストがかかる 
• 試薬の購入、実験施設の確保、実験ロボットなどの導 
入、個々の性質の多様性(固体、液体、気体、温度に 
よって分解、毒性…) 
実験は行わない(行えない)
分子の性質:分子情報を「ググれる」まで 
3. 分子の性質:計算 
– 計算の精度は結構高くなってきた 
• 密度汎関数法+B3LYP汎関数+6-31G(d)基底関数 
• 有機分子については実験よりよい値が出ることもある。 
• 計算が難しい分子も多数ある…が、今回は仕方ないとした 
– 計算プログラムの充実 
• Gamess : 無料で入手できる。計算方法充実。 
• Gaussian : 公開データとするには、ポリシーが不透明 
– 計算リソース:強烈に必要 
• Intel Core i7世代以降、特にSandyBridge以降、量子化学計 
算はかなり高速になってきた。 
• 理研RICCを利用可能 
分子の性質は計算で得られる
分子の符号化:分子ってなんだろう? 
原子核の3次元座標 
正確だが 
わかりづらい 
抽象度が高くなると 
理解・分類しやすくなるが 
正確さは減る:ex.立体配座 
命名法は便利だが 
最終的には場当たり式 
Propionaldehyde 
分子の定義に厳密なものは多分無い… 
分子の波動関数 
慣用名 
構造式IUPAC命名法 
Wikipediaより
分子の符号化:分子ってなんだろう? 
• 化学的直感(なんとなく)により「分子」を定義する。 
– 安定な分子、というのは何? 中間体は分子か? 
• 分子の分類: 分子に名前をつける 
– 核の三次元座標 
– 構造式 
– IUPAC命名法 
• 一つの分子に多くのIUPAC名が存在する… 
– 抽象度を高くすると必ず情報の欠落がおこる 
• 「シクロヘキサン」という情報だけではchair, boatかわからん 
• Chairとboat-シクロヘキサンの分離は常温では不可能 
• 良い分子の表記方法はないか? 
– 人間にわかりやすい。 
– コンピュータ処理しやすい(検索など) 
– 系統的に分子を記述でき、あまり例外がない。 
– 最終的にはどこで妥協するかになる。
分子の符号化:分子情報を「ググれる」まで 
4. 分子の符号化 
IUPAC名 
tert-butyl N-[(2S,3S,5S)-5-[[4-[(1-benzyltetrazol-5-yl) 
methoxy]phenyl]methyl]-3-hydroxy-6-[[(1S,2R)- 
2-hydroxy-2,3-dihydro-1H-inden-1-yl]amino]- 
6-oxo-1-phenylhexan-2-yl]carbamate 
分子構造は「グラフ」と考えれば、符号化可能 
• SMILES 
CN(C)CCOC12CCC(C3C1CCCC3)C4=CC=CC=C24 
など 
• InChI IUPAC謹製 
InChI=1S/C20H29NO/c1-21(2)13-14-22-20-12-11 
-15(16-7-3-5-9-18(16)20)17-8-4-6-10-19(17)20/ 
h3,5,7,9,15,17,19H,4,6,8,10-14H2,1-2H3 
… 
分子の符号化はInChIおよびSMILESでほぼ解決
分子の符号化:SMILES表記 
• Simplified Molecular Input Line Entry System 
– ASCII文字を使った一次元的な分子の表現方法。2次元、3次元の 
分子モデルに相互に変換できる。 
– 立体配座などの指定も可能 
– 人間でもなんとか読める、コンピュータ処理も可能。 
– 一つの分子は複数のSMILES表記を持つことがあるが、 
(ほぼ)一対一対応のCanonical (正準) SMLIES表記もある。 
• 1980年代に、DuluthにあるUSEPA Mid-Continent Ecology Division Laboratory Duluth David 
Weininger が作った。 
• IUPACはSMILESではなく新しくInChIという表記を作った。 
– International Chemical Identifier : 若干複雑 
– 実はInChIのお陰でUniversal SMILESができて、すごく進歩した(NM O’Boyle)。
分子のSMILES 表記の例 
http://en.wikipedia.org/wiki/SMILES より 
分子構造SMILES 
窒素分子N≡N N#N 
硫酸銅Cu2+ SO42- [Cu+2].[O-]S(=O)(=O)[O-] 
エナントトキシンCCC[C@@H](O)CCC=CC=C 
C#CC#CC=CCO 
ビタミンB1 OCCc1c(C)[n+](=cs1)Cc2cnc(C 
)nc(N)2 
アフラトキシンB1 O1C=C[C@H]([C@H]1O2)c3c 
2cc(OC)c4c3OC(=O)C5=C4CC 
C(=O)5
分子の符号化:分子情報を「ググれる」まで 
必ずしも符号化がうまく行かない系もある 
フェロセン 
• C12C3C4C5C1[Fe]23451234C5C1C2C3C45 
• [CH-]1C=CC=C1.[CH-]1C=CC=C1.[Fe+2]
量子化学計算データベースの構築 
• データベースはpubchemを用いる 
• 計算で実験に近い値を得る! 
– 密度汎関数(B3LYP functional) 
– 6-31G(d)基底関数での構造最適化 
– TD-DFT 6-31G+(d)での励起状態 
– 生体系、有機分子には最適な計算手法 
• 精度、コスト比は最高 
• インシリコ創薬向き 
• 分子の符号化: InChI/SMILES 
• 一言で言うと、道具は万全。
量子化学計算データベースの構築 
• Related works 
– NIST Web Book 
• http://webbook.nist.gov/chemistry/ 
• さまざまな計算方法の比較がある。分子種は少ない。 
– Harvard Clean Energy Project 
• http://cleanenergy.molecularspace.org/ 
• 2500万分子(?)、光デバイスとして使える分子のみ 
– 杉本ら:2013CBI学会ポスター 
• 方向性はほぼ同じ(この研究は2014年から始めた)
どうやっているか? 
• 3次元の初期構造をSMILESから作る 
– SDFファイルにはMMによる3D構造が入っているが精 
度が悪いのでつかわない。 
– OpenBABEL -h (水素負荷) --gen3d (3次元構造生成) 
• GAMESS+fireflyで第一原理量子化学計算 
– Gaussianはpoliticalな問題がある。 
– PM3構造最適化 
– Hartree-Fock/STO-6G構造最適化 
– B3LYP/6-31G(d)構造最適化:FireFlyは高速。 
– TDDFT/6-31G+(d)で励起状態10個
データベースの作成方法 
• OpenBABEL大活躍 
• 化合物データベースの切り出し 
– PubChemの分子量の小さい順にソート 
– OpenBABEL 
• SMILES表記による分子符号化 
– Isomeric smilesで立体構造保持した初期データ 
– OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@ 
@H](O)1 
– CCC[C@@H](O)CCC=CC=CC#CC#CC=CCO 
– CC(=O)OCCC(/C)=CC[C@H](C(C)=C)CCC=C
SMILESから分子を生成する 
アフラトキシン 
O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5 
OpenBABEL 
あとは量子化学計算
第一原理計算on クラスタ 
• いわゆるmassively parallel 
• 分子量500程度が限界 
– Intel Xeon 5570 (2.93GHz) 4コア12時間で計算で 
きる限界 
– 創薬におけるLipinsky’s Ruleに合う 
– これ以上になると分子の高次の構造が重要にな 
る(タンパク質など)
どうやっているか 
• 計算がおわったらアップロード 
– http://pubchemqc.riken.jp/ 
– 入力ファイル、出力ファイル、最終的な分子構造 
だけを切り出したmolファイル
PubChemQC 
http://pubchemqc.riken.jp/ 
まだ「ググ」れません
PubChemQC 
http://pubchemqc.riken.jp/
PubChemQC 
http://pubchemqc.riken.jp/
The PubChemQC Project 
• http://pubchemqc.riken.jp/ 
• PubChemプロジェクトから分子情報を得て、ひた 
すら分子の構造などを第一原理計算によって求 
める(実験値の代替可能程度) 
• 2014/1/15 
– 1万3千分子 
• 2014/7/29 
– 155,792分子+ 励起状態155,456分子 
• 2014/10/30 
– 906,798分子+励起状態906,229分子
このプロジェクトの難しさ 
• 分子の第一原理計算に必要なパラメータが 
必ずしも統一的ではない。 
• 分子によって収束回数が大きく違う。最終結 
果も初期構造に引きずられてしまうこともある。 
• 計算リソース確保 
– Raspberry Pi? NVIDIA Jetson? Bonic? 
• 分子の符号化は本質的にはグラフ理論を使 
う…同形の計算量が多すぎるため、heuristic 
なものとなる…
経験から得られた感覚 
• 炭素の三重結合を含むと最適化が難しい。 
• 分子量が500程度の分子は、「分子の名前」 
で構造はほぼ決定されている 
– B3LYPによる補正は軽微(だが重要) 
• 分子量1000以上の分子の構造最適化は「分 
子の名前」だけでは難しいかも。 
– なかなか収束しない 
– タンパク質は電荷や水の効果が大きい
The PubChemQC Project 
• RICC (理研情報基盤センターのスパコン)+Quest(Core2 
quad 1.6GHz/node x 700台弱)で計算 
• Quest: 1日数千-2万分子程度 
• RICC 1024コア使うと3000-30000分子/day 
• Corei7 920だと5-20分子/day 
• E5-2650 v2 (2.60GHz) 10-30分子/day 
• 一日一万分子計算できても5000万分子計算するには… 
なんと 
– 5000日=14+年!!! 
– 工夫が必要(Raspberry Pi? NVIDIA Jetson? ボランティア?) 
• 京を全ノード使えば20日で全部計算可能かも 
– 1コアあたり30分子/日とすると、270万分子/日 
– 20日くらいあれば全分子計算できるだろう
全部計算するのに何年かかるか? 
• 今のままでは20年はかかるだろう… 
• でも25年前のコンピュータは??(1990年) 
• 486DX@25MHz 
• 68000@10MHz
応用、発展の可能性 
• 超高精度な有機合成、インシリコ創薬が可能になるかも! 
• 機械学習の導入で超高速な量子化学計算 
– 秒速で1億分子計算できるようになるかも 
– すでに論文が出始めてる… 
– 有機分子、生体分子はそんなに難しくないはず 
• 欲しい物性を持った分子を一発検索できるようになる。 
– こんなところにある官能基がついていて、 
– こんなところにHOMOが張り出しててこの分子のLUMOと反応 
– このエネルギー付近に励起状態があって光反応してほしい 
• 化学反応データベースも創りたい 
– 精密な量子化学計算が必要+重要 
– GRRMと機械学習を組み合わせる? 
• PDBに登録されているタンパク質の構造最適化の自動化 
http://pubchemqc.riken.jp/

More Related Content

PDF
Matlantisで実現する不均一系理論触媒科学3.0: Ru/La0.5Ce0.5O1.75-xにおける強い金属・担体相互作用の解明と展望_PFCCウェ...
PDF
SchNet: A continuous-filter convolutional neural network for modeling quantum...
PDF
Cmdstanr入門とreduce_sum()解説
PDF
PFP:材料探索のための汎用Neural Network Potential - 2021/10/4 QCMSR + DLAP共催
PDF
Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)
PPTX
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
PDF
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
PDF
最近のDeep Learning (NLP) 界隈におけるAttention事情
Matlantisで実現する不均一系理論触媒科学3.0: Ru/La0.5Ce0.5O1.75-xにおける強い金属・担体相互作用の解明と展望_PFCCウェ...
SchNet: A continuous-filter convolutional neural network for modeling quantum...
Cmdstanr入門とreduce_sum()解説
PFP:材料探索のための汎用Neural Network Potential - 2021/10/4 QCMSR + DLAP共催
Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
最近のDeep Learning (NLP) 界隈におけるAttention事情

What's hot (20)

PDF
(2020.10) 分子のグラフ表現と機械学習: Graph Neural Networks (GNNs) とは?
PDF
AHC-Lab M1勉強会 論文の読み方・書き方
PPTX
Tensor コアを使った PyTorch の高速化
PDF
グラフニューラルネットワーク入門
PPTX
G社のNMT論文を読んでみた
PPTX
Partial least squares回帰と画像認識への応用
PDF
Active Learning 入門
PDF
深層学習による非滑らかな関数の推定
PDF
Attentionの基礎からTransformerの入門まで
PPTX
NLPにおけるAttention~Seq2Seq から BERTまで~
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
PDF
21世紀の手法対決 (MIC vs HSIC)
PPTX
[DL輪読会]Graph R-CNN for Scene Graph Generation
PDF
Hyperoptとその周辺について
PDF
データ解析10 因子分析の基礎
PDF
合成経路探索 -論文まとめ- (PFN中郷孝祐)
PDF
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PDF
Recent Advances on Transfer Learning and Related Topics Ver.2
PDF
Recurrent Neural Networks
(2020.10) 分子のグラフ表現と機械学習: Graph Neural Networks (GNNs) とは?
AHC-Lab M1勉強会 論文の読み方・書き方
Tensor コアを使った PyTorch の高速化
グラフニューラルネットワーク入門
G社のNMT論文を読んでみた
Partial least squares回帰と画像認識への応用
Active Learning 入門
深層学習による非滑らかな関数の推定
Attentionの基礎からTransformerの入門まで
NLPにおけるAttention~Seq2Seq から BERTまで~
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
21世紀の手法対決 (MIC vs HSIC)
[DL輪読会]Graph R-CNN for Scene Graph Generation
Hyperoptとその周辺について
データ解析10 因子分析の基礎
合成経路探索 -論文まとめ- (PFN中郷孝祐)
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
Recent Advances on Transfer Learning and Related Topics Ver.2
Recurrent Neural Networks
Ad

Viewers also liked (17)

PDF
5° básico a semana 04 al 08 abril
PDF
[Sevendays] CopyLinker.com IR 2015.02.21_by shawn
PPTX
ME ME MEme magic
PPS
人生何求
PPT
Trabajo andres
DOC
Zaragoza Turismo 41
PDF
Presentación sobre desarrollo para iPhone
PPTX
Take Courage: Listen, Don't Talk
PPTX
Felipe M, João e Gabriel T
PDF
Abril jardim
DOCX
The day i felt my life ruined
ODP
Presentacion Maria Jose y Eliana
PDF
Комплекс услуг
PPT
Ποιος είναι ο ΜΑΕΣΤΡΟΣ (Λειτουργικό Σύστημα)
PDF
Replenishment Automator Webinar
PDF
From eLearning to mLearning: The Effectiveness of Mobile Course Delivery
PPTX
Bombay stock exchange
5° básico a semana 04 al 08 abril
[Sevendays] CopyLinker.com IR 2015.02.21_by shawn
ME ME MEme magic
人生何求
Trabajo andres
Zaragoza Turismo 41
Presentación sobre desarrollo para iPhone
Take Courage: Listen, Don't Talk
Felipe M, João e Gabriel T
Abril jardim
The day i felt my life ruined
Presentacion Maria Jose y Eliana
Комплекс услуг
Ποιος είναι ο ΜΑΕΣΤΡΟΣ (Λειτουργικό Σύστημα)
Replenishment Automator Webinar
From eLearning to mLearning: The Effectiveness of Mobile Course Delivery
Bombay stock exchange
Ad

Similar to The PubchemQC project (8)

PDF
(2020.9) 機械学習による化学反応の予測と設計
PDF
Metabolic network and cheminformatics
PDF
CMSI計算科学技術特論A (2015) 第14回 量子化学計算の大規模化1
PDF
PFP:材料探索のための汎用Neural Network Potential_中郷_20220422POLセミナー
PDF
生命化学情報学2
PDF
カーネル VM懇親会LT
PDF
ケモインフォマティクス
PDF
El text.tokuron a(2019).ishimura190718
(2020.9) 機械学習による化学反応の予測と設計
Metabolic network and cheminformatics
CMSI計算科学技術特論A (2015) 第14回 量子化学計算の大規模化1
PFP:材料探索のための汎用Neural Network Potential_中郷_20220422POLセミナー
生命化学情報学2
カーネル VM懇親会LT
ケモインフォマティクス
El text.tokuron a(2019).ishimura190718

More from Maho Nakata (20)

PDF
quantum chemistry on quantum computer handson by Q# (2019/8/4@MDR Hongo, Tokyo)
PDF
Lie-Trotter-Suzuki分解、特にフラクタル分解について
PDF
LiHのポテンシャルエネルギー曲面 を量子コンピュータで行う Q#+位相推定編
PPTX
Q#による量子化学計算 : 水素分子の位相推定について
PPTX
量子コンピュータの量子化学計算への応用の現状と展望
PPTX
qubitによる波動関数の虚時間発展のシミュレーション: a review
PDF
Openfermionを使った分子の計算 part I
PPTX
量子コンピュータで量子化学のfullCIが超高速になる(かも
PDF
20180723 量子コンピュータの量子化学への応用; Bravyi-Kitaev基底の実装
PPTX
第11回分子科学 2017/9/17 Pubchemqcプロジェクト
PPTX
Kobeworkshop pubchemqc project
PPTX
計算化学実習講座:第二回
PPTX
計算化学実習講座:第一回
PPTX
HOKUSAIのベンチマーク 理研シンポジウム 中田分
PPTX
為替取引(FX)でのtickdataの加工とMySQLで管理
PPTX
為替のTickdataをDukascopyからダウンロードする
PPTX
HPCS2015 pythonを用いた量子化学プログラムの開発と応用
PDF
HPCS2015 大規模量子化学計算プログラムSMASHの開発と公開(石村)
PPTX
The PubChemQC Project
DOCX
3Dプリンタ導入記 タンパク質の模型をプリントする
quantum chemistry on quantum computer handson by Q# (2019/8/4@MDR Hongo, Tokyo)
Lie-Trotter-Suzuki分解、特にフラクタル分解について
LiHのポテンシャルエネルギー曲面 を量子コンピュータで行う Q#+位相推定編
Q#による量子化学計算 : 水素分子の位相推定について
量子コンピュータの量子化学計算への応用の現状と展望
qubitによる波動関数の虚時間発展のシミュレーション: a review
Openfermionを使った分子の計算 part I
量子コンピュータで量子化学のfullCIが超高速になる(かも
20180723 量子コンピュータの量子化学への応用; Bravyi-Kitaev基底の実装
第11回分子科学 2017/9/17 Pubchemqcプロジェクト
Kobeworkshop pubchemqc project
計算化学実習講座:第二回
計算化学実習講座:第一回
HOKUSAIのベンチマーク 理研シンポジウム 中田分
為替取引(FX)でのtickdataの加工とMySQLで管理
為替のTickdataをDukascopyからダウンロードする
HPCS2015 pythonを用いた量子化学プログラムの開発と応用
HPCS2015 大規模量子化学計算プログラムSMASHの開発と公開(石村)
The PubChemQC Project
3Dプリンタ導入記 タンパク質の模型をプリントする

The PubchemQC project

  • 1. 第一原理計算による分子の物理化 学データベース構築 The PubChemQC Project 中田真秀 理化学研究情報基盤センター maho@riken.jp 2014年10月30日 情報計算化学生物学会(Chem-Bio Informatics Society)@タワーホール船堀
  • 3. 理論化学で実験を無くす • 理論化学計算は結構な高みまできた。 – かなり実験と合う。 • 説明できる理論化学はコモディティ化 – 有機化学やってる人の方がGaussianのノウハウ 蓄積が大きい – B3LYP 6-31G*計算でだいたいok • 実験を先導する理論化学は重要だが – あんまり無い • 最終的には実験しなくてはならない
  • 4. 実験化学と計算化学研究の違い • テーマの選択、文献調査 – こういうことできないか? – よくわからないがAとBを混ぜるとCができる。 • キーとなる分子の設計、反応の組み立て、仮説 • 理論計算 • 実験 – 生成物の分析 • 結果が得られる • 実験の提案 違いは二点だけ
  • 5. 実験化学と計算化学研究の違い • 「研究」としては本質的には変わらない。 • 重要なのは「こういうことできないか?」とい うサイエンス、化学の精神 自分の感性と データの蓄積と解析、分析から あたらしい知見を得たい。 だけど、機械的に処理しやすい データの蓄積がない…
  • 7. 背景 • 化学は超ビッグデータ処理+身近なもの – 分子の種類(Chemical Space)は天文学的 • 薬になりそうな分子だけで、1060といわれる (http://onlinelibrary.wiley.com/doi/10.1002/wcms.1104/abs tract) • 参考: 1018 エクサ – ものは、すべて、原子、分子からなっている。 • Googleで検索して発見できないテーマは新しい 研究
  • 8. 分子情報を「ググれる」までに何が必要? 1. 分子の種類 – 世の中にはどんな分子があるか? ほぼ無限?? 2. 分子の性質:実験 – 分子がどんな性質を持っているか? 分子構造? エネ ルギー、光吸収、双極子… 3. 分子の性質:計算 – 計算の精度(実験との一致性)、計算リソース。 4. 分子の符号化 – 慣用名やIUPAC名では検索システム構築はできない
  • 9. 分子の種類:分子情報を「ググれる」まで 1. 分子の種類:データベースが充実してきた – PubChemプロジェクト、5000万分子程度、米国立衛生研 究所(NIH)、入手容易(ftp)、製薬会社など多数参加、制限 緩い、自動化、よくわからない分子多数。 – ChemSpider : 英国発2800万分子程度、ftpなし。制限キツ い、キュレーションが良い。 – Web-GDB13 : 9億分子、分子の数え上げ • 原子が限られる、分子数多すぎ(無駄な分子もある?) – Zinc, CheMBL, DrugBank …など他にもたくさんある。 – CAS : 7000万分子程度、プロプラ、制限がきつい – 日化辞: 600万分子、制限あり 分子情報はに依存することに
  • 12. 分子情報:分子情報を「ググれる」まで 2. 分子の性質:実験 – 分子がどんな性質を持っているか。100万分子程 度の実験は製薬会社は実行している… – 非常にコストがかかる • 試薬の購入、実験施設の確保、実験ロボットなどの導 入、個々の性質の多様性(固体、液体、気体、温度に よって分解、毒性…) 実験は行わない(行えない)
  • 13. 分子の性質:分子情報を「ググれる」まで 3. 分子の性質:計算 – 計算の精度は結構高くなってきた • 密度汎関数法+B3LYP汎関数+6-31G(d)基底関数 • 有機分子については実験よりよい値が出ることもある。 • 計算が難しい分子も多数ある…が、今回は仕方ないとした – 計算プログラムの充実 • Gamess : 無料で入手できる。計算方法充実。 • Gaussian : 公開データとするには、ポリシーが不透明 – 計算リソース:強烈に必要 • Intel Core i7世代以降、特にSandyBridge以降、量子化学計 算はかなり高速になってきた。 • 理研RICCを利用可能 分子の性質は計算で得られる
  • 14. 分子の符号化:分子ってなんだろう? 原子核の3次元座標 正確だが わかりづらい 抽象度が高くなると 理解・分類しやすくなるが 正確さは減る:ex.立体配座 命名法は便利だが 最終的には場当たり式 Propionaldehyde 分子の定義に厳密なものは多分無い… 分子の波動関数 慣用名 構造式IUPAC命名法 Wikipediaより
  • 15. 分子の符号化:分子ってなんだろう? • 化学的直感(なんとなく)により「分子」を定義する。 – 安定な分子、というのは何? 中間体は分子か? • 分子の分類: 分子に名前をつける – 核の三次元座標 – 構造式 – IUPAC命名法 • 一つの分子に多くのIUPAC名が存在する… – 抽象度を高くすると必ず情報の欠落がおこる • 「シクロヘキサン」という情報だけではchair, boatかわからん • Chairとboat-シクロヘキサンの分離は常温では不可能 • 良い分子の表記方法はないか? – 人間にわかりやすい。 – コンピュータ処理しやすい(検索など) – 系統的に分子を記述でき、あまり例外がない。 – 最終的にはどこで妥協するかになる。
  • 16. 分子の符号化:分子情報を「ググれる」まで 4. 分子の符号化 IUPAC名 tert-butyl N-[(2S,3S,5S)-5-[[4-[(1-benzyltetrazol-5-yl) methoxy]phenyl]methyl]-3-hydroxy-6-[[(1S,2R)- 2-hydroxy-2,3-dihydro-1H-inden-1-yl]amino]- 6-oxo-1-phenylhexan-2-yl]carbamate 分子構造は「グラフ」と考えれば、符号化可能 • SMILES CN(C)CCOC12CCC(C3C1CCCC3)C4=CC=CC=C24 など • InChI IUPAC謹製 InChI=1S/C20H29NO/c1-21(2)13-14-22-20-12-11 -15(16-7-3-5-9-18(16)20)17-8-4-6-10-19(17)20/ h3,5,7,9,15,17,19H,4,6,8,10-14H2,1-2H3 … 分子の符号化はInChIおよびSMILESでほぼ解決
  • 17. 分子の符号化:SMILES表記 • Simplified Molecular Input Line Entry System – ASCII文字を使った一次元的な分子の表現方法。2次元、3次元の 分子モデルに相互に変換できる。 – 立体配座などの指定も可能 – 人間でもなんとか読める、コンピュータ処理も可能。 – 一つの分子は複数のSMILES表記を持つことがあるが、 (ほぼ)一対一対応のCanonical (正準) SMLIES表記もある。 • 1980年代に、DuluthにあるUSEPA Mid-Continent Ecology Division Laboratory Duluth David Weininger が作った。 • IUPACはSMILESではなく新しくInChIという表記を作った。 – International Chemical Identifier : 若干複雑 – 実はInChIのお陰でUniversal SMILESができて、すごく進歩した(NM O’Boyle)。
  • 18. 分子のSMILES 表記の例 http://en.wikipedia.org/wiki/SMILES より 分子構造SMILES 窒素分子N≡N N#N 硫酸銅Cu2+ SO42- [Cu+2].[O-]S(=O)(=O)[O-] エナントトキシンCCC[C@@H](O)CCC=CC=C C#CC#CC=CCO ビタミンB1 OCCc1c(C)[n+](=cs1)Cc2cnc(C )nc(N)2 アフラトキシンB1 O1C=C[C@H]([C@H]1O2)c3c 2cc(OC)c4c3OC(=O)C5=C4CC C(=O)5
  • 20. 量子化学計算データベースの構築 • データベースはpubchemを用いる • 計算で実験に近い値を得る! – 密度汎関数(B3LYP functional) – 6-31G(d)基底関数での構造最適化 – TD-DFT 6-31G+(d)での励起状態 – 生体系、有機分子には最適な計算手法 • 精度、コスト比は最高 • インシリコ創薬向き • 分子の符号化: InChI/SMILES • 一言で言うと、道具は万全。
  • 21. 量子化学計算データベースの構築 • Related works – NIST Web Book • http://webbook.nist.gov/chemistry/ • さまざまな計算方法の比較がある。分子種は少ない。 – Harvard Clean Energy Project • http://cleanenergy.molecularspace.org/ • 2500万分子(?)、光デバイスとして使える分子のみ – 杉本ら:2013CBI学会ポスター • 方向性はほぼ同じ(この研究は2014年から始めた)
  • 22. どうやっているか? • 3次元の初期構造をSMILESから作る – SDFファイルにはMMによる3D構造が入っているが精 度が悪いのでつかわない。 – OpenBABEL -h (水素負荷) --gen3d (3次元構造生成) • GAMESS+fireflyで第一原理量子化学計算 – Gaussianはpoliticalな問題がある。 – PM3構造最適化 – Hartree-Fock/STO-6G構造最適化 – B3LYP/6-31G(d)構造最適化:FireFlyは高速。 – TDDFT/6-31G+(d)で励起状態10個
  • 23. データベースの作成方法 • OpenBABEL大活躍 • 化合物データベースの切り出し – PubChemの分子量の小さい順にソート – OpenBABEL • SMILES表記による分子符号化 – Isomeric smilesで立体構造保持した初期データ – OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@ @H](O)1 – CCC[C@@H](O)CCC=CC=CC#CC#CC=CCO – CC(=O)OCCC(/C)=CC[C@H](C(C)=C)CCC=C
  • 25. 第一原理計算on クラスタ • いわゆるmassively parallel • 分子量500程度が限界 – Intel Xeon 5570 (2.93GHz) 4コア12時間で計算で きる限界 – 創薬におけるLipinsky’s Ruleに合う – これ以上になると分子の高次の構造が重要にな る(タンパク質など)
  • 26. どうやっているか • 計算がおわったらアップロード – http://pubchemqc.riken.jp/ – 入力ファイル、出力ファイル、最終的な分子構造 だけを切り出したmolファイル
  • 30. The PubChemQC Project • http://pubchemqc.riken.jp/ • PubChemプロジェクトから分子情報を得て、ひた すら分子の構造などを第一原理計算によって求 める(実験値の代替可能程度) • 2014/1/15 – 1万3千分子 • 2014/7/29 – 155,792分子+ 励起状態155,456分子 • 2014/10/30 – 906,798分子+励起状態906,229分子
  • 31. このプロジェクトの難しさ • 分子の第一原理計算に必要なパラメータが 必ずしも統一的ではない。 • 分子によって収束回数が大きく違う。最終結 果も初期構造に引きずられてしまうこともある。 • 計算リソース確保 – Raspberry Pi? NVIDIA Jetson? Bonic? • 分子の符号化は本質的にはグラフ理論を使 う…同形の計算量が多すぎるため、heuristic なものとなる…
  • 32. 経験から得られた感覚 • 炭素の三重結合を含むと最適化が難しい。 • 分子量が500程度の分子は、「分子の名前」 で構造はほぼ決定されている – B3LYPによる補正は軽微(だが重要) • 分子量1000以上の分子の構造最適化は「分 子の名前」だけでは難しいかも。 – なかなか収束しない – タンパク質は電荷や水の効果が大きい
  • 33. The PubChemQC Project • RICC (理研情報基盤センターのスパコン)+Quest(Core2 quad 1.6GHz/node x 700台弱)で計算 • Quest: 1日数千-2万分子程度 • RICC 1024コア使うと3000-30000分子/day • Corei7 920だと5-20分子/day • E5-2650 v2 (2.60GHz) 10-30分子/day • 一日一万分子計算できても5000万分子計算するには… なんと – 5000日=14+年!!! – 工夫が必要(Raspberry Pi? NVIDIA Jetson? ボランティア?) • 京を全ノード使えば20日で全部計算可能かも – 1コアあたり30分子/日とすると、270万分子/日 – 20日くらいあれば全分子計算できるだろう
  • 34. 全部計算するのに何年かかるか? • 今のままでは20年はかかるだろう… • でも25年前のコンピュータは??(1990年) • 486DX@25MHz • 68000@10MHz
  • 35. 応用、発展の可能性 • 超高精度な有機合成、インシリコ創薬が可能になるかも! • 機械学習の導入で超高速な量子化学計算 – 秒速で1億分子計算できるようになるかも – すでに論文が出始めてる… – 有機分子、生体分子はそんなに難しくないはず • 欲しい物性を持った分子を一発検索できるようになる。 – こんなところにある官能基がついていて、 – こんなところにHOMOが張り出しててこの分子のLUMOと反応 – このエネルギー付近に励起状態があって光反応してほしい • 化学反応データベースも創りたい – 精密な量子化学計算が必要+重要 – GRRMと機械学習を組み合わせる? • PDBに登録されているタンパク質の構造最適化の自動化 http://pubchemqc.riken.jp/