Level dbを試した

LevelDBでお気軽永続化、 
RDKitオブジェクトを突っ込む
@tkochi0603
Mishima.syk #7
2015.12.12

自己紹介
• 前、某H社(IT会社)のSE
• 顧客：Bioinfo研究者
• 今、某製薬会社のIT屋(2年半前転職)
• ケモ関連のシステム構築＋データ処理＋α

ビッグデータ解析したい
から計算機出してよー

• 実際の所、
• 社外のスパコン活用しつつも、社内のデータ解析用
の計算資源がイマイチなので本格的なのはいつにな
ることやら。
• おねだりしても買ってくれないし、データの増大と
計算機増設はイタチごっこだし、計算機や解析ソフ
トに頼るだけでなく、あるものを工夫してITスキル
上げていきたい

• 今日の話
• Level DBでお気軽永続化、RDKitオブ
ジェクトを突っ込む
• おまけ numpy

• Level DBでお気軽永続化、RDKitオブ
ジェクトを突っ込む
KVS(キーバリューストア)
≒Perlのハッシュ、Pythonの
Dict、みたいなもの
プログラム実行中に生成したオブ
ジェクトをファイルに書き出して、
別のプログラムが再利用できるよ
うにすること
化合物データ処理用のライブラリ(python)

http://yosuke-furukawa.hatenablog.com/entry/2014/05/05/095207

Use case
• 市販化合物ライブラリから選ぶ作業とか、
ライブラリ間の比較とか、大き目のデータ
セットの読み込みを試行錯誤するケース

1000万化合物の処理
＠PP 約10時間
フィルターかけたりク
ラスタリングしたりで、
何度も繰り返す
→ 数日作業
ファイルやDBからの読み込みと、
化合物構造のチェック処理に時間がかかる
⇧の対策

やったこと
・Linux(Ubuntu)にLevelDBをインストール
・RDKitのインストール
・PythonからLevelDBを操作できるplyvelをインストール
( RDKitやplyvelはAnaconda経由でインストール )
・比較のため、Tokyo Cabinet(とpytc)も入れた

SDF
キーバリュー
1001 Molオブジェクト
ID-001
9 9 0 0 0 0 0 0 0 0999 V2000
   -1.4265    0.0021    0.0000 C   0 0 0 0 0 0
   -1.4265   -0.8229    0.0000 C   0 0 0 0 0 0
   -0.7120   -1.2354    0.0000 N   0 0 0 0 0 0
    0.0025   -0.8229    0.0000 C   0 0 0 0 0 0
    0.0025    0.0021    0.0000 C   0 0 0 0 0 0
   -0.7120    0.4146    0.0000 C   0 0 0 0 0 0
    0.7145    0.4132    0.0000 C   0 0 0 0 0 0
    1.4265    0.0021    0.0000 O   0 0 0 0 0 0
    0.7145    1.2354    0.0000 O   0 0 0 0 0 0
1 2 2 0
2 3 1 0
3 4 2 0
4 5 1 0
5 6 2 0
6 1 1 0
5 7 1 0
7 8 1 0
7 9 2 0
M END
> <Name>
D-Alaninol
> <Mol Wt>
123
$$$$
ID-002
1化合物
構造情報
属性情報
化合物ファイル
1化合物
構造情報
属性情報
Python
LevelDBに、オブジェクトを突っ込む
LevelDB
これを再利用
1化合物を
Molオブジェクト

#!/usr/bin/python
from rdkit import Chem
from rdkit.Chem import AllChem
from rdkit.Chem import Descriptors
from rdkit.Chem.PropertyMol import PropertyMol
import plyvel
import sys
import os
import cPickle as pickle
# ---------------------------------------
if __name__ == "__main__":
ldb = plyvel.DB( './ldbs/test100K.ldb', create_if_missing=True)
inpFile = open( './sdf/test100K.sdf', 'r' )
for mol in Chem.ForwardSDMolSupplier( inpFile, True, True, False ):
if not mol is None:
try:
id = mol.GetProp( '_Name' )
pmol = PropertyMol( mol )
ldb.put( id, pickle.dumps( pmol ) )
except Exception as e:
sys.stderr.write( "ERROR : " + e.message + "n" )
inpFile.close()
ldb.close()
molをpickleすると構造情報だけ出
力される。PropertyMolでラップす
ることで属性情報も出力される
LevelDBへは、put
で入れる
LevelDBの出来上がり

DB作成
化合物数
SDF
ファイル
サイズ
LEVEL DB
作成時間
TOKYO
CABINET(HASH)
作成時間
100K 250MB
132MB
(112 files)
2m20s
503MB
2m23s
1M 2.5GB
1.3GB
(846 files)
24m
4.9GB
27m
10M 27GB
14GB
(7991files)
4h21m
54GB
13h12m
Core i7-4790K 4GHz / Mem 32GB
* swap 多発
snappyによる圧縮効果が大きいようだ

読み込み時間
化合物数 PP
KVS使わず、
SDFから直接
LEVEL DB
TOKYO
CABINET(HAS
H)
100K 資料間に合わず 40s 21s 21s
1M 資料間に合わず 6m42s 3m30s 3m36s
10M 10h 79m 40m 資料間に合わず
Core i7-4790K 4GHz / Mem 32GB
PPと比べると速さ15倍
KVSを使わないよりも２倍。また、メモリ使用量も大幅削減

• プログラム(Python)を書けるようになれば、大規模デー
タも処理できるようになる。(Pilot scriptからの卒業)
• (注意点)LevelDBは1つのProcessからのみ。同時に他の
Processから使えないのが残念→その点では
TokyoCabinetの方が良い

S K
数万化合物を総当たりで
Similarityを計算したいけど、
Out of Memoryになるんです…

S K
A B C D
A ？？？？
B ？？？？
C ？？？？
D ？？？？
A 構造
像B 構造
C 構造
D 構造
A 構造
像B 構造
C 構造
D 構造
X
結果は、numpyの二次元配列に入れ
て、データ型を工夫するといいよ

numpyを使う
NUMPY データ型計算時間使用メモリ
使わない float64 52s 4.8GB
使う float64 38s 861MB
使う float16 39s 288MB
10,000 vs 10,000 similarity ECFP4 tanimoto
* swap 多発
PP 7h50s [memory use]

#!/usr/bin/python
from rdkit import Chem
from rdkit import DataStructs
from rdkit.Chem import AllChem
from rdkit.Chem import Descriptors
from rdkit.Chem.PropertyMol import PropertyMol
import numpy as np
import pandas as pd
import plyvel
import sys
import os
import cPickle as pickle
# ---------------------------------------
def calc():
fps = []
ldb = plyvel.DB('./ldbs/test100K.ldb')
for key, val in ldb:
pmol = pickle.loads(val)
fps.append( AllChem.GetMorganFingerprintAsBitVect( pmol,2) )
ldb.close()
res = np.zeros( [ 100000,100000 ], dtype='float16' )
for ( ia, fp ) in enumerate( fps ):
res[ia] = DataStructs.BulkTanimotoSimilarity(fp, fps)
df = pd.DataFrame( res )
print df
# ---------------------------------------
if __name__ == "__main__":
calc()
NxNの計算プログラム
( numpy )

# --------------------------------------

# Anaconda install

# wgetのアドレスは本家サイトで確認すること

# --------------------------------------

wget https://3230d63b5fc54e62148e-
c95ac804525aac4b6dba79b00b39d1d3.ssl.cf1.rackcdn.com/Anaconda2-2.4.0-
Linux-x86_64.sh

conda create -c https://conda.anaconda.org/rdkit -n my-rdkit-env rdkit

source activate my-rdkit-env

# --------------------------------------

# level db

# --------------------------------------

sudo apt-get install libsnappy-dev

wget https://leveldb.googlecode.com/files/leveldb-1.15.0.tar.gz

tar -xzf leveldb-1.9.0.tar.gz

cd leveldb-1.9.0

make

sudo mv libleveldb.* /usr/local/lib

cd include

sudo cp -R leveldb /usr/local/include

sudo ldconfig

# --------------------------------------

# plyvel

# --------------------------------------

pip install plyvel
ubuntuへのインストール

Level dbを試した

More Related Content

What's hot (20)

Recently uploaded (9)

Level dbを試した