Understanding and classifying metabolite space and metabolite likeness

Understanding And
Classifying Metabolite
Space and Metabolite-
Likeness
PLoS One (in press)

Julio E. Peironcely  @peyron
Juliopeironcely.com
PhD student at Leiden University and TNO

Metabolomics

the quantitative and qualitative
analysis of all metabolites in
samples of cells, body fluids,
tissues, etc.

Julio E. Peironcely

Metabolomics

Experi- Biological
Biological Sample Data Data pre- Data
mental Sampling inter-
question preparation acquisition processing analysis
design pretation

Metabolites

Relevant
biomolecules/
List of
Samples Raw data connectivities
Protocol peaks/
&
biomolecules
Models

Julio E. Peironcely

How do metabolites
look like?

HMDB ZINC
8K 21M

Julio E. Peironcely

metabolites non metabolites

Water Solubility
MW
C Atoms
Struc. Complexity
PSA

Julio E. Peironcely

PCA

Julio E. Peironcely

Decision Tree

Julio E. Peironcely

Lots of candidates
structures

Elemental
Composition

Julio E. Peironcely

Elemental
Composition

Structure
Generation

Julio E. Peironcely

Elemental
Composition

Structure
Generation

Molecules

Julio E. Peironcely

We are looking for
metabolites

Elemental
Composition

Structure Metabolite
Generation Likeness

Molecules

Julio E. Peironcely

Elemental
Composition
Metabolites

Structure Metabolite
Generation Likeness

Molecules

Julio E. Peironcely

Metabolite-likeness
Representation + Classification
HMDB ZINC
8K 21M

Atom Counts

Physicochemical desc. Support Vector
Machines (SVM)
MDL Public Keys
Random Forest (RF)
FCFP_4
Naïve Bayes (NB)
ECFP_4

Julio E. Peironcely

Metabolite-likeness HMDB
8K
ZINC
21M

Standardization

Atom Counts Diversity Selection
Physicochemical desc.
MDL Public Keys
FCFP_4
ECFP_4

Julio E. Peironcely

8K
ZINC
21M

Standardization

MDL Public Keys
FCFP_4 Training Set Test Set
ECFP_4 532 + 532 6.4K + 6.4K

Julio E. Peironcely

8K
ZINC
21M

Standardization

MDL Public Keys
FCFP_4 Training Set Test Set
ECFP_4 532 + 532 6.4K + 6.4K

5-fold CV

SVM RF BC

Julio E. Peironcely

8K
ZINC
21M

Standardization

Diversity Selection
3 classifiers
X
Training Set Test Set
5 descriptions 532 + 532 6.4K + 6.4K

5-fold CV Metabolite
likeness
SVM RF BC

Julio E. Peironcely

8K
ZINC
21M

Best = RF – MDLPublicKeys Standardization

Sensitivity Specificity AUC
Diversity Selection
99.84% 87.52% 99.20%

Training Set Test Set
Bad BC – P_desc 532 + 532 6.4K + 6.4K

Sensitivity Specificity AUC 5-fold CV Metabolite
likeness
SVM RF BC
42.51% 86.56% 61.57%

Julio E. Peironcely

Metabolite-likeness, external
validation
HMDB
External DrugBank ChEMBL
validation set

Random Selection

Standardization

Metabolite
likeness

Julio E. Peironcely

Metabolite-likeness, external
validation

Julio E. Peironcely

Understanding and classifying metabolite space and metabolite likeness

Met-likeness + structure generation
(methylhistamine) 260K

71%
46%

Julio E. Peironcely

Met-likeness + structure generation
(malic acid) 8K

100%

57% 77%

Julio E. Peironcely

Conclusions

Prediction is good, interpretation not

Useful in different fields

Local models needed

Julio E. Peironcely

Acknowledgements

Leiden University University of Cambridge

Theo Reijmers Andreas Bender
Thomas Hankemeier

TNO Quality of Life HMP University of
Alberta
Leon Coulier
David Wishart
Ying (Edison) Dong

Julio E. Peironcely

Understanding and classifying metabolite space and metabolite likeness

More Related Content

What's hot (15)

Similar to Understanding and classifying metabolite space and metabolite likeness (20)

Recently uploaded (20)

Understanding and classifying metabolite space and metabolite likeness