SlideShare ist ein Scribd-Unternehmen logo
“Elasticsearch und Big Data”
Bernhard Pflugfelder
inovex GmbH
23.07.2014
2
‣ Big Data Engineer @ inovex
‣ Erfahren in den Bereichen:
‣ search
‣ analytics
‣ big data
‣ bi
‣ Arbeite u.a. mit:
‣ Lucene
‣ Solr
‣ Elasticsearch
‣ Hadoop Ecosystem
‣ bpflugfelder@inovex.de
Bernhard Pflugfelder
‣ Demo “media analytics” @ ProsiebenSat.1
‣ “Elasticsearch in a nutshell”
‣ Import von Daten in Elasticsearch
‣ Datananalyse mit Elasticsearch
Agenda
4
“media analytics” @ ProsiebenSat.1
5
Analyse von Big Data
mit Elasticsearch
6
Elasticsearch in a nutshell
Lucene
“unter der
Haube”
skalierbar
dokumenten
orientiert
Plugin
Architektur
Multi tenancy
REST &
JSON
7
Überblick Architektur
Hochverfügbarkeit + Fehlertoleranz
Primary Shard Replica Shard
1 2 3
Master node
321
Node
21 3
Node
JSON
Input
JSON
Output
8
real-time get
Datentypen
Mapping
(Schema)
Queries
insert,
update,
delete
snapshot &
backup
Elasticsearch – eine dokumentenorientierte Datenbank
9
Import von Daten in Elasticsearch…
10
Import von Daten in Elasticsearch
flume
index api http bindings
logstash
spring-data-
elasticsearch
hadoop-
elasticsearch
11logstash
logstash
log collection and management tool
collects, parses and stores log events
became part of the ELK stack
seamless integration with elasticsearch
plugin architecture
expect that logstash will be promoted to a more general ingestion pipeline
Plugin
Architektur
Verarbeitung
v. Logdaten
Integration
mit ES
inputs,
codecs,
filters,
outputs
12
getting data into elasticsearch
elasticsearch & hadoop
from http://www.elasticsearch.org/blog/elasticsearch-and-hadoop/
MapReduce Hive Pig Spark
13
Datananalyse mit Elasticsearch …
14
Datananalyse mit Elasticsearch
Sie kennen Facetten?
15
Datananalyse mit Elasticsearch
Visualisierung von Facetten für explorative Analyse
16
Datananalyse mit Elasticsearch
Das Aggregations Framework (aggs)
‣ explorative Analyse
‣ slicing & dicing
‣ drilldown
‣ interaktiv
‣ schnelle Berechnung durch in-
memory Datenstruktur field data
‣ über search api ausführbar
‣ json in / json out
Bucket aggs
Für das Aufteilen der originalen Menge
an Dokumenten in separate
Teilmengen von Dokumenten
(buckets).
Metric aggs
Für die Berechnung von spezifischen
Metriken über eine Menge von
Dokumenten.
Die Berechnung basiert auf einer
Aggregation über alle Dokumente pro
“bucket”.
17
Das Aggregations Framework (aggs)
2 Aggregationstypen
‣ terms
‣ range
‣ date range
‣ histogram
‣ date histogram
‣ geo distance
‣ geohash grid
‣ ...
‣ min
‣ max
‣ sum
‣ avg
‣ value count
‣ percentiles
‣ cardinality
‣ ...
18
Das Aggregations Framework (aggs)
Viele Aggregators adhoc verfügbar
my_aggregation:
19
Das Aggregations Framework (aggs)
spezifische Analysen durch “nested aggregators” realisierbar
"aggregations": {
"<aggregation_name>": {
"<aggregation_type>": {
<aggregation_body>
},
["aggregations": { [<sub_aggregation>]* }]
}
[,"<aggregation_name_2>": { … }]*
}
bucket 1 bucket 2 bucket n metrics…
20
‣ Elasticsearch für Datenanalyse:
‣ Aggregations Framework
‣ Analyse auch von Streamdaten
‣ ELK stack (ingestion + analysis + visualization)
‣ Plus: gemeinsame Analyse von strukturieren & unstrukturierten Daten
‣ Elasticsearch für Big Data
‣ skalierbarer & hochverfügbarer Document Store für Suche / Analyse
‣ Hadoop-Integration (CDH5, Hortenworks HDP, MapR)
‣ Import von großen Datenmengen über logstash oder flume
Zusammenfassung
21
Vielen Dank für Ihre Aufmerksamkeit!
Kontakt
inovex GmbH
Bernhard Pflugfelder
Big Data Engineer
Cell: +49 173 3181-088
Mail: bernhard.pflugfelder@inovex.de
inovex GmbH
Ludwig-Erhard-Allee 6
76131 Karlsruhe
Tel.: +49 721 619 021-0
info@inovex.de
www.inovex.de

Weitere ähnliche Inhalte

PDF
zmon.io – Not yet another Prometheus Talk
PDF
SysDig Metriken zentralisieren
PDF
Advanced Cojure Microservices
PDF
Einführung in Elasticsearch
PDF
Pressemitteilung: Webinar "Elasticsearch und Big Data" am 23.07.14
PDF
Einfuehrung in Elasticsearch
PPTX
Big Data Bullshit Bingo
PDF
Einführung in Elasticsearch - August 2014
zmon.io – Not yet another Prometheus Talk
SysDig Metriken zentralisieren
Advanced Cojure Microservices
Einführung in Elasticsearch
Pressemitteilung: Webinar "Elasticsearch und Big Data" am 23.07.14
Einfuehrung in Elasticsearch
Big Data Bullshit Bingo
Einführung in Elasticsearch - August 2014

Mehr von inovex GmbH (20)

PDF
lldb – Debugger auf Abwegen
PDF
Are you sure about that?! Uncertainty Quantification in AI
PDF
Why natural language is next step in the AI evolution
PDF
WWDC 2019 Recap
PDF
Network Policies
PDF
Interpretable Machine Learning
PDF
Jenkins X – CI/CD in wolkigen Umgebungen
PDF
AI auf Edge-Geraeten
PDF
Prometheus on Kubernetes
PDF
Deep Learning for Recommender Systems
PDF
Azure IoT Edge
PDF
Representation Learning von Zeitreihen
PDF
Talk to me – Chatbots und digitale Assistenten
PDF
Künstlich intelligent?
PDF
Dev + Ops = Go
PDF
Das Android Open Source Project
PDF
Machine Learning Interpretability
PDF
Performance evaluation of GANs in a semisupervised OCR use case
PDF
People & Products – Lessons learned from the daily IT madness
PDF
Infrastructure as (real) Code – Manage your K8s resources with Pulumi
lldb – Debugger auf Abwegen
Are you sure about that?! Uncertainty Quantification in AI
Why natural language is next step in the AI evolution
WWDC 2019 Recap
Network Policies
Interpretable Machine Learning
Jenkins X – CI/CD in wolkigen Umgebungen
AI auf Edge-Geraeten
Prometheus on Kubernetes
Deep Learning for Recommender Systems
Azure IoT Edge
Representation Learning von Zeitreihen
Talk to me – Chatbots und digitale Assistenten
Künstlich intelligent?
Dev + Ops = Go
Das Android Open Source Project
Machine Learning Interpretability
Performance evaluation of GANs in a semisupervised OCR use case
People & Products – Lessons learned from the daily IT madness
Infrastructure as (real) Code – Manage your K8s resources with Pulumi
Anzeige

Elasticsearch und Big Data - Webinar vom 23.07.2014

  • 1. “Elasticsearch und Big Data” Bernhard Pflugfelder inovex GmbH 23.07.2014
  • 2. 2 ‣ Big Data Engineer @ inovex ‣ Erfahren in den Bereichen: ‣ search ‣ analytics ‣ big data ‣ bi ‣ Arbeite u.a. mit: ‣ Lucene ‣ Solr ‣ Elasticsearch ‣ Hadoop Ecosystem ‣ bpflugfelder@inovex.de Bernhard Pflugfelder
  • 3. ‣ Demo “media analytics” @ ProsiebenSat.1 ‣ “Elasticsearch in a nutshell” ‣ Import von Daten in Elasticsearch ‣ Datananalyse mit Elasticsearch Agenda
  • 4. 4 “media analytics” @ ProsiebenSat.1
  • 5. 5 Analyse von Big Data mit Elasticsearch
  • 6. 6 Elasticsearch in a nutshell Lucene “unter der Haube” skalierbar dokumenten orientiert Plugin Architektur Multi tenancy REST & JSON
  • 7. 7 Überblick Architektur Hochverfügbarkeit + Fehlertoleranz Primary Shard Replica Shard 1 2 3 Master node 321 Node 21 3 Node JSON Input JSON Output
  • 9. 9 Import von Daten in Elasticsearch…
  • 10. 10 Import von Daten in Elasticsearch flume index api http bindings logstash spring-data- elasticsearch hadoop- elasticsearch
  • 11. 11logstash logstash log collection and management tool collects, parses and stores log events became part of the ELK stack seamless integration with elasticsearch plugin architecture expect that logstash will be promoted to a more general ingestion pipeline Plugin Architektur Verarbeitung v. Logdaten Integration mit ES inputs, codecs, filters, outputs
  • 12. 12 getting data into elasticsearch elasticsearch & hadoop from http://www.elasticsearch.org/blog/elasticsearch-and-hadoop/ MapReduce Hive Pig Spark
  • 15. 15 Datananalyse mit Elasticsearch Visualisierung von Facetten für explorative Analyse
  • 16. 16 Datananalyse mit Elasticsearch Das Aggregations Framework (aggs) ‣ explorative Analyse ‣ slicing & dicing ‣ drilldown ‣ interaktiv ‣ schnelle Berechnung durch in- memory Datenstruktur field data ‣ über search api ausführbar ‣ json in / json out
  • 17. Bucket aggs Für das Aufteilen der originalen Menge an Dokumenten in separate Teilmengen von Dokumenten (buckets). Metric aggs Für die Berechnung von spezifischen Metriken über eine Menge von Dokumenten. Die Berechnung basiert auf einer Aggregation über alle Dokumente pro “bucket”. 17 Das Aggregations Framework (aggs) 2 Aggregationstypen
  • 18. ‣ terms ‣ range ‣ date range ‣ histogram ‣ date histogram ‣ geo distance ‣ geohash grid ‣ ... ‣ min ‣ max ‣ sum ‣ avg ‣ value count ‣ percentiles ‣ cardinality ‣ ... 18 Das Aggregations Framework (aggs) Viele Aggregators adhoc verfügbar
  • 19. my_aggregation: 19 Das Aggregations Framework (aggs) spezifische Analysen durch “nested aggregators” realisierbar "aggregations": { "<aggregation_name>": { "<aggregation_type>": { <aggregation_body> }, ["aggregations": { [<sub_aggregation>]* }] } [,"<aggregation_name_2>": { … }]* } bucket 1 bucket 2 bucket n metrics…
  • 20. 20 ‣ Elasticsearch für Datenanalyse: ‣ Aggregations Framework ‣ Analyse auch von Streamdaten ‣ ELK stack (ingestion + analysis + visualization) ‣ Plus: gemeinsame Analyse von strukturieren & unstrukturierten Daten ‣ Elasticsearch für Big Data ‣ skalierbarer & hochverfügbarer Document Store für Suche / Analyse ‣ Hadoop-Integration (CDH5, Hortenworks HDP, MapR) ‣ Import von großen Datenmengen über logstash oder flume Zusammenfassung
  • 21. 21 Vielen Dank für Ihre Aufmerksamkeit! Kontakt inovex GmbH Bernhard Pflugfelder Big Data Engineer Cell: +49 173 3181-088 Mail: bernhard.pflugfelder@inovex.de inovex GmbH Ludwig-Erhard-Allee 6 76131 Karlsruhe Tel.: +49 721 619 021-0 info@inovex.de www.inovex.de