STRING - Large-scale integration of data and text

Download as PPT, PDF

1 like135 views

Lars Juhl Jensen

This document discusses large-scale integration of biological data and text. It mentions combining data from many databases on proteins, interactions, complexes and pathways using parsers and mapping files to overcome different formats and identifiers. It discusses using techniques like co-mentioning within documents, paragraphs and sentences to provide comprehensive information and improve quality scores. The goal is to combine all available evidence from various sources to generate a comprehensive resource, as described on the string-db.org website and Cytoscape app.

STRING
Large-scale integration of data and
text
Lars Juhl Jensen

9.6 million proteins

association network

guilt by association

STRING - Large-scale integration of data and text

genomic context

gene fusion

Korbel et al., Nature Biotechnology, 2004

phylogenetic profiles

Korbel et al., Nature Biotechnology, 2004

experimental data

gene coexpression

STRING - Large-scale integration of data and text

physical interactions

Jensen & Bork, Science, 2008

curated knowledge

protein complexes

STRING - Large-scale integration of data and text

pathways

Letunic & Bork, Trends in Biochemical Sciences, 2008

many databases

different formats

different identifiers

variable quality

not comparable

hard work

parsers

mapping files

quality scores

affinity purification

von Mering et al., Nucleic Acids Research, 2005

score calibration

gold standard

von Mering et al., Nucleic Acids Research, 2005

implicit weighting by quality

common scale

cross-species transfer

orthologous groups

Franceschini et al., Nucleic Acids Research, 2013

missing most of the data

>10 km

too much to read

computer

as smart as a dog

teach it specific tricks

STRING - Large-scale integration of data and text

STRING - Large-scale integration of data and text

named entity recognition

comprehensive lexicon

cyclin dependent kinase 1

CDC2

orthographic variation

spaces and hyphens

cyclin dependent kinase 1

cyclin-dependent kinase 1

prefixes and suffixes

CDC2

hCdc2

“black list”

SDS

co-mentioning

counting

within documents

within paragraphs

within sentences

quality scores

score calibration

cross-species transfer

combine all evidence

Szklarczyk et al., Nucleic Acids Research, 2015string-db.org

web resource

Cytoscape App

larsjuhljensen.wordpress.com

larsjuhljensen.wordpress.com

Acknowledgments
Damian Szklarczyk
Michael Kuhn
Andrea Franceschini
Milan Simonovic
Alexander Roth
Sune Pletscher-Frankild
John “Scooter” Morris
Christian von Mering
Peer Bork

Ad

Recommended

PPT

STRING - Protein networks from data and text mining

Lars Juhl Jensen

PPT

Introduction to STRING

Lars Juhl Jensen

PPT

STRING: Protein networks from data and text mining

Lars Juhl Jensen

PPT

Gene association networks - Large-scale integration of data and text

Lars Juhl Jensen

PPT

Gene association networks - Large-scale integration of data and text

Lars Juhl Jensen

PPT

Gene association networks - Large-scale integration of data and text

Lars Juhl Jensen

PPT

Gene association networks - Large-scale integration of data and text

Lars Juhl Jensen

PPT

Network biology - Large-scale integration of data and text

Lars Juhl Jensen

PPT

Gene association networks: Large-scale integration of data and text

Lars Juhl Jensen

PPT

Gene association networks: Large-scale integration of data and text

Lars Juhl Jensen

PPT

Gene association networks: Large-scale integration of data and text

Lars Juhl Jensen

PPT

Network biology: Large-scale data and text mining

Lars Juhl Jensen

PPT

In silico and Text-Based Analysis of Cellular Networks

Lars Juhl Jensen

PPT

Data integration with STRING

Lars Juhl Jensen

PPT

Protein association networks: Large-scale integration of data and text

Lars Juhl Jensen

KEY

STRING/STITCH tutorial

PPT

One tagger, many uses - Illustrating the power of ontologies in named entity ...

Lars Juhl Jensen

PPT

Making gene networks through data integration

Lars Juhl Jensen

PPT

Networks of proteins and diseases

Lars Juhl Jensen

PPT

Network biology: Large-scale data integration and text mining

Lars Juhl Jensen

PPT

Network biology: Large-scale data and text mining

Lars Juhl Jensen

PPT

STRING: Large-scale data and text mining

Lars Juhl Jensen

PPT

Network Biology: Large-scale integration of data and text

Lars Juhl Jensen

PPT

Network Biology: A crash course on STRING and Cytoscape

Lars Juhl Jensen

PPT

The STRING database and related tools

Lars Juhl Jensen

PPT

Advanced bioinformaticsof proteomics datasets

Lars Juhl Jensen

PPT

Large-scale integration of data and text

Lars Juhl Jensen

PPT

Large-scale integration of data and text

Lars Juhl Jensen

PPT

Integration of heterogeneous data

Lars Juhl Jensen

PPT

The STRING database

Lars Juhl Jensen

More Related Content

PPT

STRING - Protein networks from data and text mining

Lars Juhl Jensen

PPT

Introduction to STRING

Lars Juhl Jensen

PPT

STRING: Protein networks from data and text mining

Lars Juhl Jensen

PPT

Gene association networks - Large-scale integration of data and text

Lars Juhl Jensen

PPT

Gene association networks - Large-scale integration of data and text

Lars Juhl Jensen

PPT

Gene association networks - Large-scale integration of data and text

Lars Juhl Jensen

PPT

Gene association networks - Large-scale integration of data and text

Lars Juhl Jensen

PPT

Network biology - Large-scale integration of data and text

Lars Juhl Jensen

STRING - Protein networks from data and text mining

Lars Juhl Jensen

Introduction to STRING

Lars Juhl Jensen

STRING: Protein networks from data and text mining

Lars Juhl Jensen

Gene association networks - Large-scale integration of data and text

Lars Juhl Jensen

Gene association networks - Large-scale integration of data and text

Lars Juhl Jensen

Gene association networks - Large-scale integration of data and text

Lars Juhl Jensen

Gene association networks - Large-scale integration of data and text

Lars Juhl Jensen

Network biology - Large-scale integration of data and text

Lars Juhl Jensen

What's hot (20)

PPT

Gene association networks: Large-scale integration of data and text

Lars Juhl Jensen

PPT

Gene association networks: Large-scale integration of data and text

Lars Juhl Jensen

PPT

Gene association networks: Large-scale integration of data and text

Lars Juhl Jensen

PPT

Network biology: Large-scale data and text mining

Lars Juhl Jensen

PPT

In silico and Text-Based Analysis of Cellular Networks

Lars Juhl Jensen

PPT

Data integration with STRING

Lars Juhl Jensen

PPT

Protein association networks: Large-scale integration of data and text

Lars Juhl Jensen

KEY

STRING/STITCH tutorial

PPT

One tagger, many uses - Illustrating the power of ontologies in named entity ...

Lars Juhl Jensen

PPT

Making gene networks through data integration

Lars Juhl Jensen

PPT

Networks of proteins and diseases

Lars Juhl Jensen

PPT

Network biology: Large-scale data integration and text mining

Lars Juhl Jensen

PPT

Network biology: Large-scale data and text mining

Lars Juhl Jensen

PPT

STRING: Large-scale data and text mining

Lars Juhl Jensen

PPT

Network Biology: Large-scale integration of data and text

Lars Juhl Jensen

PPT

Network Biology: A crash course on STRING and Cytoscape

Lars Juhl Jensen

PPT

The STRING database and related tools

Lars Juhl Jensen

PPT

Advanced bioinformaticsof proteomics datasets

Lars Juhl Jensen

PPT

Large-scale integration of data and text

Lars Juhl Jensen

PPT

Large-scale integration of data and text

Lars Juhl Jensen

Gene association networks: Large-scale integration of data and text

Lars Juhl Jensen

Gene association networks: Large-scale integration of data and text

Lars Juhl Jensen

Gene association networks: Large-scale integration of data and text

Lars Juhl Jensen

Network biology: Large-scale data and text mining

Lars Juhl Jensen

In silico and Text-Based Analysis of Cellular Networks

Lars Juhl Jensen

Data integration with STRING

Lars Juhl Jensen

Protein association networks: Large-scale integration of data and text

Lars Juhl Jensen

STRING/STITCH tutorial

One tagger, many uses - Illustrating the power of ontologies in named entity ...

Lars Juhl Jensen

Making gene networks through data integration

Lars Juhl Jensen

Networks of proteins and diseases

Lars Juhl Jensen

Network biology: Large-scale data integration and text mining

Lars Juhl Jensen

Network biology: Large-scale data and text mining

Lars Juhl Jensen

STRING: Large-scale data and text mining

Lars Juhl Jensen

Network Biology: Large-scale integration of data and text

Lars Juhl Jensen

Network Biology: A crash course on STRING and Cytoscape

Lars Juhl Jensen

The STRING database and related tools

Lars Juhl Jensen

Advanced bioinformaticsof proteomics datasets

Lars Juhl Jensen

Large-scale integration of data and text

Lars Juhl Jensen

Large-scale integration of data and text

Lars Juhl Jensen

Ad

Viewers also liked (18)

PPT

Integration of heterogeneous data

Lars Juhl Jensen

PPT

The STRING database

Lars Juhl Jensen

PPT

Cross-species data integration

Lars Juhl Jensen

PPT

The Literature Text Mining Approach In Cancer Research

Lars Juhl Jensen

PPT

Networks of proteins and diseases

Lars Juhl Jensen

PPT

Identification of drug targets from side-effect similarity

Lars Juhl Jensen

PPT

Medical data and text mining - Linking diseases, drugs, and adverse reactions

Lars Juhl Jensen

PPT

Mining heaps of data and piles of papers

Lars Juhl Jensen

PPT

Network biology: Large-scale data integration and text mining

Lars Juhl Jensen

PPT

Information integration

Lars Juhl Jensen

PPT

Biological literature mining - from information retrieval to biological disco...

Lars Juhl Jensen

PPT

Biomedical literature mining (and why we really need open access)

Lars Juhl Jensen

PPT

Biomedical literature mining

Lars Juhl Jensen

PDF

Literature-based discovery: it's all about connecting dots in widely disparat...

PPT

Mining heterogeneous data: Understanding systems at the level of complexes an...

Lars Juhl Jensen

PPT

Systems biology: Large-scale biomedical data mining

Lars Juhl Jensen

PDF

Bibliological data science and drug discovery

PDF

Biomedical Relation Extraction for Knowledge Graph Completion

Claudiu Mihăilă

Integration of heterogeneous data

Lars Juhl Jensen

The STRING database

Lars Juhl Jensen

Cross-species data integration

Lars Juhl Jensen

The Literature Text Mining Approach In Cancer Research

Lars Juhl Jensen

Networks of proteins and diseases

Lars Juhl Jensen

Identification of drug targets from side-effect similarity

Lars Juhl Jensen

Medical data and text mining - Linking diseases, drugs, and adverse reactions

Lars Juhl Jensen

Mining heaps of data and piles of papers

Lars Juhl Jensen

Network biology: Large-scale data integration and text mining

Lars Juhl Jensen

Information integration

Lars Juhl Jensen

Biological literature mining - from information retrieval to biological disco...

Lars Juhl Jensen

Biomedical literature mining (and why we really need open access)

Lars Juhl Jensen

Biomedical literature mining

Lars Juhl Jensen

Literature-based discovery: it's all about connecting dots in widely disparat...

Mining heterogeneous data: Understanding systems at the level of complexes an...

Lars Juhl Jensen

Systems biology: Large-scale biomedical data mining

Lars Juhl Jensen

Bibliological data science and drug discovery

Biomedical Relation Extraction for Knowledge Graph Completion

Claudiu Mihăilă

Ad

Similar to STRING - Large-scale integration of data and text (14)

PPT

Gene Association Networks: Large-scale integration of data and text

Lars Juhl Jensen

PPT

Networks of proteins and diseases

Lars Juhl Jensen

PPT

STRING & STITCH: Network integration of heterogeneous data

Lars Juhl Jensen

PPT

Large-scale data and text mining

Lars Juhl Jensen

PPT

Turning big data and text collections into web resrouces

Lars Juhl Jensen

PPT

Systems biology: Bioinformatics on complete biological systems

Lars Juhl Jensen

PPT

Systems biology: Bioinformatics on complete biological system

Lars Juhl Jensen

PPT

Large-scale integration of data and text

Lars Juhl Jensen

PPT

Network biology

Lars Juhl Jensen

PPT

Data and Text Mining

Lars Juhl Jensen

PPT

Biomarker bioinformatics: Network-based candidate prioritization

Lars Juhl Jensen

PPT

Integration of heterogeneous data

Lars Juhl Jensen

PPT

Network biology: Large-scale biomedical data and text mining

Lars Juhl Jensen

PPT

Cellular network biology: Proteome-wide analysis of heterogeneous data

Lars Juhl Jensen

Gene Association Networks: Large-scale integration of data and text

Lars Juhl Jensen

Networks of proteins and diseases

Lars Juhl Jensen

STRING & STITCH: Network integration of heterogeneous data

Lars Juhl Jensen

Large-scale data and text mining

Lars Juhl Jensen

Turning big data and text collections into web resrouces

Lars Juhl Jensen

Systems biology: Bioinformatics on complete biological systems

Lars Juhl Jensen

Systems biology: Bioinformatics on complete biological system

Lars Juhl Jensen

Large-scale integration of data and text

Lars Juhl Jensen

Network biology

Lars Juhl Jensen

Data and Text Mining

Lars Juhl Jensen

Biomarker bioinformatics: Network-based candidate prioritization

Lars Juhl Jensen

Integration of heterogeneous data

Lars Juhl Jensen

Network biology: Large-scale biomedical data and text mining

Lars Juhl Jensen

Cellular network biology: Proteome-wide analysis of heterogeneous data

Lars Juhl Jensen

More from Lars Juhl Jensen (20)

PPT

One tagger, many uses: Illustrating the power of dictionary-based named entit...

Lars Juhl Jensen

PPT

One tagger, many uses: Simple text-mining strategies for biomedicine

Lars Juhl Jensen

PPT

Extract 2.0: Text-mining-assisted interactive annotation

Lars Juhl Jensen

PPT

Network visualization: A crash course on using Cytoscape

Lars Juhl Jensen

PPT

Biomedical text mining: Automatic processing of unstructured text

Lars Juhl Jensen

PPT

Medical network analysis: Linking diseases and genes through data and text mi...

Lars Juhl Jensen

PPT

Cellular networks

Lars Juhl Jensen

PPT

Cellular Network Biology: Large-scale integration of data and text

Lars Juhl Jensen

PPT

Statistics on big biomedical data: Methods and pitfalls when analyzing high-t...

Lars Juhl Jensen

PPT

STRING & related databases: Large-scale integration of heterogeneous data

Lars Juhl Jensen

PPT

Tagger: Rapid dictionary-based named entity recognition

Lars Juhl Jensen

PPT

Medical text mining: Linking diseases, drugs, and adverse reactions

Lars Juhl Jensen

PPT

Network biology: Large-scale integration of data and text

Lars Juhl Jensen

PPT

Medical data and text mining: Linking diseases, drugs, and adverse reactions

Lars Juhl Jensen

PPT

Cellular Network Biology

Lars Juhl Jensen

PPT

Network biology: Large-scale integration of data and text

Lars Juhl Jensen

PPT

The Art of Counting: Scoring and ranking co-occurrences in literature

Lars Juhl Jensen

PPT

Text-mining-based retrieval of protein networks

Lars Juhl Jensen

PPT

Medical data and text mining: Linking diseases, drugs, and adverse reactions

Lars Juhl Jensen

PPT

Medical data and text mining: Linking diseases, drugs, and adverse reactions

Lars Juhl Jensen

One tagger, many uses: Illustrating the power of dictionary-based named entit...

Lars Juhl Jensen

One tagger, many uses: Simple text-mining strategies for biomedicine

Lars Juhl Jensen

Extract 2.0: Text-mining-assisted interactive annotation

Lars Juhl Jensen

Network visualization: A crash course on using Cytoscape

Lars Juhl Jensen

Biomedical text mining: Automatic processing of unstructured text

Lars Juhl Jensen

Medical network analysis: Linking diseases and genes through data and text mi...

Lars Juhl Jensen

Cellular networks

Lars Juhl Jensen

Cellular Network Biology: Large-scale integration of data and text

Lars Juhl Jensen

Statistics on big biomedical data: Methods and pitfalls when analyzing high-t...

Lars Juhl Jensen

STRING & related databases: Large-scale integration of heterogeneous data

Lars Juhl Jensen

Tagger: Rapid dictionary-based named entity recognition

Lars Juhl Jensen

Medical text mining: Linking diseases, drugs, and adverse reactions

Lars Juhl Jensen

Network biology: Large-scale integration of data and text

Lars Juhl Jensen

Medical data and text mining: Linking diseases, drugs, and adverse reactions

Lars Juhl Jensen

Cellular Network Biology

Lars Juhl Jensen

Network biology: Large-scale integration of data and text

Lars Juhl Jensen

The Art of Counting: Scoring and ranking co-occurrences in literature

Lars Juhl Jensen

Text-mining-based retrieval of protein networks

Lars Juhl Jensen

Medical data and text mining: Linking diseases, drugs, and adverse reactions

Lars Juhl Jensen

Medical data and text mining: Linking diseases, drugs, and adverse reactions

Lars Juhl Jensen

Recently uploaded (20)

PPTX

INTRODUCTION TO EVS | Concept of sustainability

PPT

protein biochemistry.ppt for university classes

PDF

ELS_Q1_Module-11_Formation-of-Rock-Layers_v2.pdf

PPTX

Protein & Amino Acid Structures Levels of protein structure (primary, seconda...

Muhammad Sajid Afridi

PPTX

7. General Toxicologyfor clinical phrmacy.pptx

PDF

Mastering Bioreactors and Media Sterilization: A Complete Guide to Sterile Fe...

PDF

bbec55_b34400a7914c42429908233dbd381773.pdf

PPTX

Comparative Structure of Integument in Vertebrates.pptx

Dr Showkat Ahmad Wani

PPTX

Taita Taveta Laboratory Technician Workshop Presentation.pptx

PPTX

Derivatives of integument scales, beaks, horns,.pptx

Dr Showkat Ahmad Wani

PPTX

Introduction to Cardiovascular system_structure and functions-1

PDF

SEHH2274 Organic Chemistry Notes 1 Structure and Bonding.pdf

PPTX

BIOMOLECULES PPT........................

vachieagrawal1221

PDF

Phytochemical Investigation of Miliusa longipes.pdf

IrfanShahirSharafi

PDF

Formation of Supersonic Turbulence in the Primordial Star-forming Cloud

PPTX

DRUG THERAPY FOR SHOCK gjjjgfhhhhh.pptx.

PDF

HPLC-PPT.docx high performance liquid chromatography

darshanambiga1633

PPTX

G5Q1W8 PPT SCIENCE.pptx 2025-2026 GRADE 5

PPTX

ECG_Course_Presentation د.محمد صقران ppt

PPTX

The KM-GBF monitoring framework – status & key messages.pptx

pensoftservices

INTRODUCTION TO EVS | Concept of sustainability

protein biochemistry.ppt for university classes

ELS_Q1_Module-11_Formation-of-Rock-Layers_v2.pdf

Protein & Amino Acid Structures Levels of protein structure (primary, seconda...

Muhammad Sajid Afridi

7. General Toxicologyfor clinical phrmacy.pptx

Mastering Bioreactors and Media Sterilization: A Complete Guide to Sterile Fe...

bbec55_b34400a7914c42429908233dbd381773.pdf

Comparative Structure of Integument in Vertebrates.pptx

Dr Showkat Ahmad Wani

Taita Taveta Laboratory Technician Workshop Presentation.pptx

Derivatives of integument scales, beaks, horns,.pptx

Dr Showkat Ahmad Wani

Introduction to Cardiovascular system_structure and functions-1

SEHH2274 Organic Chemistry Notes 1 Structure and Bonding.pdf

BIOMOLECULES PPT........................

vachieagrawal1221

Phytochemical Investigation of Miliusa longipes.pdf

IrfanShahirSharafi

Formation of Supersonic Turbulence in the Primordial Star-forming Cloud

DRUG THERAPY FOR SHOCK gjjjgfhhhhh.pptx.

HPLC-PPT.docx high performance liquid chromatography

darshanambiga1633

G5Q1W8 PPT SCIENCE.pptx 2025-2026 GRADE 5

ECG_Course_Presentation د.محمد صقران ppt

The KM-GBF monitoring framework – status & key messages.pptx

pensoftservices

STRING - Large-scale integration of data and text

1. STRING Large-scale integration of data and text Lars Juhl Jensen

2. 9.6 million proteins

3. association network

4. guilt by association

6. genomic context

8. Korbel et al., Nature Biotechnology, 2004

9. phylogenetic profiles

10. Korbel et al., Nature Biotechnology, 2004

11. experimental data

12. gene coexpression

14. physical interactions

15. Jensen & Bork, Science, 2008

16. curated knowledge

17. protein complexes

20. Letunic & Bork, Trends in Biochemical Sciences, 2008

21. many databases

22. different formats

23. different identifiers

24. variable quality

25. not comparable

28. mapping files

29. quality scores

30. affinity purification

31. von Mering et al., Nucleic Acids Research, 2005

32. score calibration

33. gold standard

34. von Mering et al., Nucleic Acids Research, 2005

35. implicit weighting by quality

36. common scale

37. cross-species transfer

38. orthologous groups

39. Franceschini et al., Nucleic Acids Research, 2013

40. missing most of the data

42. too much to read

44. as smart as a dog

45. teach it specific tricks

48. named entity recognition

49. comprehensive lexicon

50. cyclin dependent kinase 1

52. orthographic variation

53. spaces and hyphens

54. cyclin dependent kinase 1

55. cyclin-dependent kinase 1

56. prefixes and suffixes

59. “black list”

61. co-mentioning

63. within documents

64. within paragraphs

65. within sentences

66. quality scores

67. score calibration

68. cross-species transfer

69. combine all evidence

70. Szklarczyk et al., Nucleic Acids Research, 2015string-db.org

71. web resource

72. Cytoscape App

73. larsjuhljensen.wordpress.com

74. larsjuhljensen.wordpress.com

75. Acknowledgments Damian Szklarczyk Michael Kuhn Andrea Franceschini Milan Simonovic Alexander Roth Sune Pletscher-Frankild John “Scooter” Morris Christian von Mering Peer Bork