SlideShare ist ein Scribd-Unternehmen logo
Open Source Search Engines
Veit Schiele
cusy GmbH, Berlin
de.slideshare.net/cusyio/open-source-search-engines
Veit Schiele
• Gründer und Geschäftsführer 

der Cusy GmbH, einer
datenschutzkonformen Entwicklungs-
und Betriebsplattform
• Enge Zusammenarbeit mit der
Gesellschaft für Datenschutz und
Datensicherheit e.V. (GDD)
you + me + cusy
Agenda
• Evaluation
• Search Appliances
• Third-party hosted services
• Self-hosted services
• Anbindung von Drittsystemen
• collective.elasticindex
• Zusammenfassung und Diskussion
Alternative Search Appliance
Alternative Search Appliance
MaxxCAT Mindbreeze
InSpire
Thunderstone
Search Appliances
Alternative Search Appliances
Pros und Cons

+ Einfach und schnell bereitgestellt
+ Geringe Wartungs- und Pflegeaufwände
- Keine Redundanz, kein Backup
- Häufig sind Konfigurationsänderungen 

nur produktiv zu testen
- Monitoring der Lizenzauslastung erforderlich
Third-party hosted services
Third-party hosted services
Beispiele
SearchBloxN2SM OSS Elastic Cloud
Third-party hosted services
Third-party hosted services
Pros und Cons

+ Einfach und schnell bereitgestellt für öffentlich
zugängliche Informationen
+ Keine Wartungs- und Pflegeaufwände
- Einbindung von internen Services, Dateisystemen etc.
schwierig bis unmöglich
- Monitoring der Lizenzauslastung erforderlich
Self-hosted services
Self-hosted services
Beispiele
FessOpenSearchServer Elastic Stack
Self-hosted services
Self-hosted services
Pros und Cons

+ Einbindung von internen Services, Dateisystemen etc.
möglich
- Erhöhte Aufwände in Installation, Konfiguration und
Pflege
- Erweiterbar, wenn auch meist mit erheblichem
Aufwand
Self-hosted services
1. Suchmaschine auf Basis
von Apache Lucene
1. Elasticsearch
2. Solr
Search Appliances bestehen im Wesentlichen aus zwei
Komponenten:
Self-hosted services
2. Crawler

Hierfür bieten sich z.B. 

folgende Lösungen an:

1. Scrapy
1. scrapy-elasticsearch
2. Apache Nutch
3. Elasticsearch River Web
Search Appliances bestehen im Wesentlichen aus zwei
Komponenten:

Anbindung von Drittsystemen
Self-hosted services: Enhancements
z.B. mit Apache ManifoldCF
• Microsoft Sharepoint
• EMC Documentum
• DropBox
• RSS-Feeds
• E-Mail
…
Anbindung von Drittsystemen
Self-hosted services: Enhancements
oder für Elasticsearch 5.2
• FS Crawler
• IMAP/POP3/Mail importer
• …
• s.a. Elasticsearch Plugins
and Integrations
Anbindung von Drittsystemen
Self-hosted services: Enhancements
-Pack:
• Security (vorm. Shield)
• Alerting (vorm. Watcher)
• Monitoring (vorm. Marvel)
• Reporting
• Graph
• Machine Learning
Beispiel: Fraunhofer ISE – 1. Indizierung
Fraunhofer ISE – 1. Indizierung
• Durchsuchen verschiedener Quellen
• Projekt-Websites
• Aufgabenverwaltung
• Dateisystem
• …
• Berechtigungen indizieren
Beispiel: Fraunhofer ISE – 2. Datenhaltung
Fraunhofer ISE – 2. Datenhaltung
• Jedes Repository besitzt eigenes
Datenmodell
• Gemeinsame Abfragen über
Wildcards
• Aliasses / Pipelines
Beispiel: Fraunhofer ISE – 3. Sicherheit
Fraunhofer ISE – 3. Autorisierung
• Jedes Repository besitzt eigenes
Authorisierungsmodell
• Informationen z.T. aus dem
Certification Authority Server
• Security Proxy überprüft
Autorisierung vor dem Ausliefern
Completeness of Vision
AbilitytoExecute
As of August 2015
Challangers
Niche Players
Leaders
Visionaries
LucidworksLucidworks
Expert System
Recommind
BA Insight
IBM
IHS
Coveo
Sinequa
HP
Mindbreeze
Google
Dassault Systèmes
Attivio
Lexmark
Squiz
Positionierung
Gartner. Magic Quadrant
What we can do for you
What we can do for you
• datenschutzkonform Hosten 

auf der Cusy-Plattform
• Installation, Wartung und Pflege 

auf ihren Maschinen
• Beratung, Anpassung und individuelle
Weiterentwicklung
Kontakt
www.cusy.io/veit
info@cusy.io
@cusyio
+CusyIo
Bildnachweise
• Portrait; Ingo Kniest
• Icons; André Henze; © Cusy GmbH
• Michael Gernhardt in space during STS-69 in 1995; PUBLIC DOMAIN: NASA

Weitere ähnliche Inhalte

PPTX
DSpace 5 und Linked (Open) Data
PDF
Cusy GSA-Alternativen
PDF
Sicherheitsrichtlinien für Linux-Workstations
PDF
Quo vadis-devops-nuernberg
PDF
ownCloud - Meine Daten gehören mir!
PPT
PDF
Oracle Cloud Café IOT 12 avril 2016
PDF
Big Data Expo 2015 - Teradata Big Data : Just use it!
DSpace 5 und Linked (Open) Data
Cusy GSA-Alternativen
Sicherheitsrichtlinien für Linux-Workstations
Quo vadis-devops-nuernberg
ownCloud - Meine Daten gehören mir!
Oracle Cloud Café IOT 12 avril 2016
Big Data Expo 2015 - Teradata Big Data : Just use it!

Andere mochten auch (20)

PDF
Introduction to QC
PDF
Developers Summit 2012 16-E-1
PPS
PDF
Red Hat Storage Server Roadmap & Integration With Open Stack
PDF
Tuning Solr and its Pipeline for Logs: Presented by Rafał Kuć & Radu Gheorghe...
PDF
Helen Perquy is de Koeken Dame
PDF
Cigniti joint webinar with Soasta - Agile DevOps: Test-driven IT Environment ...
PDF
IBM CEC Big Data 2011 06-11 final
PPTX
Global Azure Bootcamp - Azure OMS
PPTX
1st step LogicFlow
DOCX
stagerapport2.3
PPTX
Cloud Camp Azure概要
PDF
D5 crazy speed web development
PDF
Rapid Infrastructure Provisioning
PDF
Stephenson big data utrecht 2017
PPTX
Node.JS error handling best practices
PPTX
Roadmap to data driven advice michael goedhart 1v0
PPTX
Vasilis Bankov & Calin Iliescu AEGON
PDF
Fun git hub
PDF
Dino Product Overview
Introduction to QC
Developers Summit 2012 16-E-1
Red Hat Storage Server Roadmap & Integration With Open Stack
Tuning Solr and its Pipeline for Logs: Presented by Rafał Kuć & Radu Gheorghe...
Helen Perquy is de Koeken Dame
Cigniti joint webinar with Soasta - Agile DevOps: Test-driven IT Environment ...
IBM CEC Big Data 2011 06-11 final
Global Azure Bootcamp - Azure OMS
1st step LogicFlow
stagerapport2.3
Cloud Camp Azure概要
D5 crazy speed web development
Rapid Infrastructure Provisioning
Stephenson big data utrecht 2017
Node.JS error handling best practices
Roadmap to data driven advice michael goedhart 1v0
Vasilis Bankov & Calin Iliescu AEGON
Fun git hub
Dino Product Overview
Anzeige

Ähnlich wie Opensource Search Engines (20)

PPTX
Cinema in the Cloud
PPTX
Wolfgang Mader (Huemer Data Center)
PPTX
Apache Solr vs. Elasticsearch - And The Winner Is...! Ein Vergleich der Shoot...
PDF
Cloud at massive scale and incredible speed, Ekkard Schnedermann berichtet vo...
PDF
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
PPTX
Big/Smart/Fast Data – a very compact overview
PDF
GWAVACon 2015: Micro Focus - Filr 1.2 and beyond
PDF
1. Cloud Native Meetup Innsbruck, 23.11.2023
PDF
Architektur und Automation als Enabler für DevOps
PDF
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
PPTX
Sicherheitsprüfung für HP NonStop Systeme
PDF
Vortragsreihe Dortmund: Unified Development Environments
PDF
Software Entwicklung im Team
PDF
5 Schritte zu mehr Cybersecurity
PDF
Jug nbg containerplattform dcos
PDF
Deployment von Entwicklungsumgebungen eines TYPO3-Intranets mit Vagrant
PPTX
Basisinfrastruktur aus Entwicklersicht
PDF
Apache Kafka
PPT
Ec2009 Templates
PDF
BATbern56 RAG in Produktion bei der Mobiliar
Cinema in the Cloud
Wolfgang Mader (Huemer Data Center)
Apache Solr vs. Elasticsearch - And The Winner Is...! Ein Vergleich der Shoot...
Cloud at massive scale and incredible speed, Ekkard Schnedermann berichtet vo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Big/Smart/Fast Data – a very compact overview
GWAVACon 2015: Micro Focus - Filr 1.2 and beyond
1. Cloud Native Meetup Innsbruck, 23.11.2023
Architektur und Automation als Enabler für DevOps
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Sicherheitsprüfung für HP NonStop Systeme
Vortragsreihe Dortmund: Unified Development Environments
Software Entwicklung im Team
5 Schritte zu mehr Cybersecurity
Jug nbg containerplattform dcos
Deployment von Entwicklungsumgebungen eines TYPO3-Intranets mit Vagrant
Basisinfrastruktur aus Entwicklersicht
Apache Kafka
Ec2009 Templates
BATbern56 RAG in Produktion bei der Mobiliar
Anzeige

Mehr von cusy GmbH (8)

PDF
Versionskontrolle in Machine-Learning-Projekten
PDF
Warum gRPC? – und wie in Python implementieren?
PDF
About cusy
PDF
Python-Bibliotheken zur Datenvisualisierung
PDF
Continuous Everything
PDF
Quo vadis DevOps
PDF
Devops ohne root
PDF
Cusy Developer-Baukasten
Versionskontrolle in Machine-Learning-Projekten
Warum gRPC? – und wie in Python implementieren?
About cusy
Python-Bibliotheken zur Datenvisualisierung
Continuous Everything
Quo vadis DevOps
Devops ohne root
Cusy Developer-Baukasten

Opensource Search Engines

  • 1. Open Source Search Engines Veit Schiele cusy GmbH, Berlin de.slideshare.net/cusyio/open-source-search-engines
  • 2. Veit Schiele • Gründer und Geschäftsführer 
 der Cusy GmbH, einer datenschutzkonformen Entwicklungs- und Betriebsplattform • Enge Zusammenarbeit mit der Gesellschaft für Datenschutz und Datensicherheit e.V. (GDD) you + me + cusy
  • 3. Agenda • Evaluation • Search Appliances • Third-party hosted services • Self-hosted services • Anbindung von Drittsystemen • collective.elasticindex • Zusammenfassung und Diskussion
  • 4. Alternative Search Appliance Alternative Search Appliance MaxxCAT Mindbreeze InSpire Thunderstone
  • 5. Search Appliances Alternative Search Appliances Pros und Cons
 + Einfach und schnell bereitgestellt + Geringe Wartungs- und Pflegeaufwände - Keine Redundanz, kein Backup - Häufig sind Konfigurationsänderungen 
 nur produktiv zu testen - Monitoring der Lizenzauslastung erforderlich
  • 6. Third-party hosted services Third-party hosted services Beispiele SearchBloxN2SM OSS Elastic Cloud
  • 7. Third-party hosted services Third-party hosted services Pros und Cons
 + Einfach und schnell bereitgestellt für öffentlich zugängliche Informationen + Keine Wartungs- und Pflegeaufwände - Einbindung von internen Services, Dateisystemen etc. schwierig bis unmöglich - Monitoring der Lizenzauslastung erforderlich
  • 9. Self-hosted services Self-hosted services Pros und Cons
 + Einbindung von internen Services, Dateisystemen etc. möglich - Erhöhte Aufwände in Installation, Konfiguration und Pflege - Erweiterbar, wenn auch meist mit erheblichem Aufwand
  • 10. Self-hosted services 1. Suchmaschine auf Basis von Apache Lucene 1. Elasticsearch 2. Solr Search Appliances bestehen im Wesentlichen aus zwei Komponenten:
  • 11. Self-hosted services 2. Crawler
 Hierfür bieten sich z.B. 
 folgende Lösungen an:
 1. Scrapy 1. scrapy-elasticsearch 2. Apache Nutch 3. Elasticsearch River Web Search Appliances bestehen im Wesentlichen aus zwei Komponenten:

  • 12. Anbindung von Drittsystemen Self-hosted services: Enhancements z.B. mit Apache ManifoldCF • Microsoft Sharepoint • EMC Documentum • DropBox • RSS-Feeds • E-Mail …
  • 13. Anbindung von Drittsystemen Self-hosted services: Enhancements oder für Elasticsearch 5.2 • FS Crawler • IMAP/POP3/Mail importer • … • s.a. Elasticsearch Plugins and Integrations
  • 14. Anbindung von Drittsystemen Self-hosted services: Enhancements -Pack: • Security (vorm. Shield) • Alerting (vorm. Watcher) • Monitoring (vorm. Marvel) • Reporting • Graph • Machine Learning
  • 15. Beispiel: Fraunhofer ISE – 1. Indizierung Fraunhofer ISE – 1. Indizierung • Durchsuchen verschiedener Quellen • Projekt-Websites • Aufgabenverwaltung • Dateisystem • … • Berechtigungen indizieren
  • 16. Beispiel: Fraunhofer ISE – 2. Datenhaltung Fraunhofer ISE – 2. Datenhaltung • Jedes Repository besitzt eigenes Datenmodell • Gemeinsame Abfragen über Wildcards • Aliasses / Pipelines
  • 17. Beispiel: Fraunhofer ISE – 3. Sicherheit Fraunhofer ISE – 3. Autorisierung • Jedes Repository besitzt eigenes Authorisierungsmodell • Informationen z.T. aus dem Certification Authority Server • Security Proxy überprüft Autorisierung vor dem Ausliefern
  • 18. Completeness of Vision AbilitytoExecute As of August 2015 Challangers Niche Players Leaders Visionaries LucidworksLucidworks Expert System Recommind BA Insight IBM IHS Coveo Sinequa HP Mindbreeze Google Dassault Systèmes Attivio Lexmark Squiz Positionierung Gartner. Magic Quadrant
  • 19. What we can do for you What we can do for you • datenschutzkonform Hosten 
 auf der Cusy-Plattform • Installation, Wartung und Pflege 
 auf ihren Maschinen • Beratung, Anpassung und individuelle Weiterentwicklung
  • 21. Bildnachweise • Portrait; Ingo Kniest • Icons; André Henze; © Cusy GmbH • Michael Gernhardt in space during STS-69 in 1995; PUBLIC DOMAIN: NASA