SlideShare ist ein Scribd-Unternehmen logo
Wie baut man ein
komplementäres Data Warehouse
auf Basis von Hadoop?
Gerd König
11. November 2013 / DW2013
COMPANY
PROFILE
WE ARE HERE
Vom Standort Kreuzlingen / Schweiz bedient YMC
seit 2001 namhafte nationale und internationale
Kunden.
WE CREATE

Hosting &
Support
Social-Media-Anwendungen
(z.B. Corporate Blogs, Wikis, Facebook-Apps etc.)

Web-Strategien

Shop-Systeme, Websites, Intranets

Kundenspezifische
Individuallösungen fürs Web
WEB
SOLUTIONS

Empfehlungssysteme
(z.B. für Apps, Webshops, Websites und Intranet)

Mobile Strategien
MOBILE
APPLICATIONS

BIG DATA
ANALYTICS

Apps für Tablets und Smartphones
(iPhone, Android)

Massgeschneiderte Web Analytics Systeme
(z.B. mit Echtzeit-Metriken und Effekten in
Sozialen Netzwerken)

Integration von Sozialen Netzwerken wie
Facebook und Twitter

Geolokalisierung für
ortsspezifische Services

Vorhersagemodelle
(z.B. für Interessen von App-Usern)

Training
(Apache Hadoop)

Integrierte Suchsysteme
(z.B. auch für unstrukturierte Daten)
WE WORK WITH
Customers
FALLBEISPIEL
VORSTELLUNG
FALLBEISPIEL
VORSTELLUNG
Fallbeispiel: Online Shop

Wir, die WebFashionSellers mit Sitz in Los Angeles,
USA, betreiben einen Online Shop und möchten
unseren Umsatz steigern.
Unsere häufigsten Fragen:
■
■
■
■

Was sind unsere Topseller?
Wie umsatzstark war letztes Quartal?
Wie entwickelt sich der Absatz von Produkt X?
Wofür geben wir das meiste Geld aus?

■ Wie stehen unsere Kunden zu unseren Produkten?
■ Würde der Umsatz steigen, wenn der Versand
kostenlos wäre?
■ Wie hoch ist die Abbruchrate im Checkout-Prozess
und warum?
FALLBEISPIEL
AUSGANGSLAGE
AUSGANGSLAGE
Fallbeispiel: Online Shop

Hypothese
“Wenn wir die Lieferzeit um die Hälfte verkürzen,
führt dies zu zufriedeneren Kunden und damit zu
mehr Umsatz.”
■
■
■

Wie wirkt sich die heutige Lieferzeit auf die
Kundenzufriedenheit aus?
Sollten wir neue Lieferzentren eröffnen?
Welche Standorte wären dafür optimal?
AUSGANGSLAGE
Fallbeispiel: Online Shop

Wir haben ein externes Support-Call-Center zur
Bearbeitung von Kundenanfragen. Alle Aufzeichnungen
sämtlicher Anrufe sind als MP3 Dateien verfügbar. Aus
den Metadaten können die Hauptursachen für einen
Support-Call ermittelt werden.
Was benötigen wir zusätzlich, um die Fragen zu
beantworten?
■ Kundendaten (CRM)
■ Bestelldaten (OLTP)
VON DER IDEE
ZUR LÖSUNG
LÖSUNGSANSATZ
High Level

Excel
DataMart

Big Data Pipeline
■ Ingest/ETL
■ Store
■ Analyse

Dashboard
Ingest
(ETL)

Store

Analyze

Talend
….

Hadoop

Die komplette Pipeline wird
durch Tools aus dem
Hadoop-Ökosystem
abgedeckt.
LÖSUNGSANSATZ
Hadoop-basierte Big Data Pipeline

Excel
DataMart
Dashboard
Ingest
(ETL)

Store

Analyze

Talend
….

Hadoop

Hadoop Tools für die
Extract Phase:
■ Flume
■ Sqoop
■ Hue
Mögliche Quellen
■ Datenbanken
■ Filesystem
■ Streams
LÖSUNGSANSATZ
Hadoop-basierte Big Data Pipeline

Excel
DataMart
Dashboard
Ingest
(ETL)

Store

Analyze

Talend
….

Hadoop

Hadoop Tools für die
Transform Phase:
■ MapReduce
■ Hive
■ Pig
Wozu?
■ Validieren
■ Normalisieren
■ Filtern
■ Aggregieren
LÖSUNGSANSATZ
Hadoop-basierte Big Data Pipeline

Excel
DataMart
Dashboard
Ingest
(ETL)

Store

Analyze

Talend
….

Hadoop

Hadoop Tools für die
Load Phase:
■ Hive
■ Pig
■ Sqoop
Wozu?
■ Data Marts
■ Data Cubes
■ Tabellen
■ Views
LÖSUNGSANSATZ
Hadoop-basierte Big Data Pipeline

Hadoop Tools für Storage:
■ HDFS
Excel
DataMart
Dashboard
Ingest
(ETL)

Store

Analyze

Talend
….

Hadoop

Eigenschaften:
■ Skalierbar
■ Verteilt
■ Zuverlässig
■ Redundant
■ Kostengünstig (industrial
standard hardware)
LÖSUNGSANSATZ
Hadoop-basierte Big Data Pipeline

Excel
DataMart
Dashboard
Ingest
(ETL)

Store

Analyze

Talend
….

Hadoop

Hadoop Tools für Analyze:
■ HiveQL
■ PigLatin
■ Impala
■ Drill
■ ODBC
■ MapReduce
■ Search/SolrCloud
Wozu?
■ Anbindung an externe BILösung
■ SQL-basierte Analyse
(low latency oder ad-hoc)
FALLBEISPIEL
UMSETZUNG
ANALYSE DER CALLCENTER AUFZEICHNUNGEN
Extract

Hue:
■ Upload der MP3Daten

■ HDFS Verzeichnis
nach Upload
ANALYSE DER CALLCENTER AUFZEICHNUNGEN
Transform

Pig:
■ Dateien einlesen
■ Extrahieren der
Metadaten mittels
Pig-Streaming
■ Aggregieren
■ Speichern
ANALYSE DER CALLCENTER AUFZEICHNUNGEN
Ergebnis

Erkenntnis:
Bei mehr als der Hälfte
aller eingegangenen
Support Calls wurde die
Lieferzeit bemängelt.
Hier besteht
Optimierungsbedarf,
aber welches wäre der
optimale Standort für ein
neues Verteilzentrum?
EVALUATION DES OPTIMALEN STANDORTS
Schritt 1: Extract

Sqoop:
■ Importieren der
Kunden-, und
Bestelldaten aus dem
OLTP
EVALUATION DES OPTIMALEN STANDORTS
Schritt 1: Extract

Sqoop:
■ Importieren der
Kunden-, und
Bestelldaten aus dem
OLTP
EVALUATION DES OPTIMALEN STANDORTS
Schritt 2: Transform

Pig:
■ Zusätzlicher Input:
Datei latlon.tsv,
enthält für jeden
Zipcode den Längenu. Breitengrad
■ Ermittlung der
Geodaten von
Kunden, welche
kürzlich bestellt
haben
EVALUATION DES OPTIMALEN STANDORTS
Schritt 2: Heatmap Kundenwohnorte

akd

■ Wo wohnen die
Kunden, die in den
letzten 2 Wochen
bestellt haben?
EVALUATION DES OPTIMALEN STANDORTS
Schritt 3: Aggregation

Pig:
■ Zusätzlicher Input:
alternative_verteilzent
ren.tsv, enthält 3
mögliche Standorte:
Massachusetts,
Texas, Missouri
■ Berechnung der
durchschnittlichen
Entfernung jedes im
vorigen Schritt
ermittelten Kunden zu
jeder der 3
Alternativen
EVALUATION DES OPTIMALEN STANDORTS
Schritt 4: Visualisierung

■ St. Louis, Missouri,
ist die Alternative mit
der geringsten,
durchschnittlichen
Entfernung zu den
Kunden
FAZIT
SUMMARY
TAKEAWAYS
■ Hadoop bietet die Möglichkeit zur ad-hoc Datenanalyse auf
explorative Art und Weise. Denn es ist unrealistisch, alle
Fragen im voraus zu wissen. Fragen ergeben sich während der
Analyse.
■ Für Ihr erstes Hadoop-Projekt empfehlen wir Ihnen:
■ versuchen Sie nicht Ihr bestehendes DWH abzulösen :)
■ starten Sie “einfach”, lean & agile, implementieren Sie einen
POC mit geringem Aufwand (~5MT)
■ holen Sie sich die richtigen Personen / Skills ins Boot
■ sammeln und speichern Sie alle Daten, es soll keine
Information verloren gehen
■ “arbeiten” Sie mit den Daten
■ erzeugen Sie Diagramme und Grafiken um Ihre Erkenntnisse
aus der Analyse zu präsentieren
CONTACT US
gerd.koenig@ymc.ch
Tel. +41 (0)71 508 24 74
www.ymc.ch
@gerd_koenig

YMC AG
Sonnenstrasse 4
CH-8280 Kreuzlingen
Switzerland

Weitere ähnliche Inhalte

PDF
Hadoop 2.0 - The Next Level
PDF
An introduction of hue
PPT
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
PDF
Huawei Helps CMB Construct a Big Data Platform for Financial IT Transformation
PPTX
Herausforderungen im Data Warehousing und "Fabelhafte" Ideen
PDF
Hadoop Einführung @codecentric
PPTX
API-Industrie
PDF
Real-life Customer Cases using Data Vault and Data Warehouse Automation
Hadoop 2.0 - The Next Level
An introduction of hue
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Huawei Helps CMB Construct a Big Data Platform for Financial IT Transformation
Herausforderungen im Data Warehousing und "Fabelhafte" Ideen
Hadoop Einführung @codecentric
API-Industrie
Real-life Customer Cases using Data Vault and Data Warehouse Automation

Andere mochten auch (13)

PDF
IBM Developer Days: Industrie 4.0
PPTX
Big Data Bullshit Bingo
PDF
Metadaten und Data Vault (Meta Vault)
PDF
Integrationsszenarien in modernen Anwendungslandschaften - OPITZ CONSULTING -...
PDF
CDC und Data Vault für den Aufbau eines DWH in der Automobilindustrie
PDF
Introduction to Apache Sqoop
PPTX
Azure Bootcamp Hamburg
PPTX
Data Vault DWH Automation
PPTX
Dv 20 sdlc_oss_automation
PDF
Ist Ihr DWH noch zu retten? DWH-Sanierung als risikoarme Alternative zum komp...
PPT
Seminar Presentation Hadoop
PPT
Service-oriented Open Source Integration @ Moderner Staat 2012 (German)
PPTX
Ein bisschen Backend
IBM Developer Days: Industrie 4.0
Big Data Bullshit Bingo
Metadaten und Data Vault (Meta Vault)
Integrationsszenarien in modernen Anwendungslandschaften - OPITZ CONSULTING -...
CDC und Data Vault für den Aufbau eines DWH in der Automobilindustrie
Introduction to Apache Sqoop
Azure Bootcamp Hamburg
Data Vault DWH Automation
Dv 20 sdlc_oss_automation
Ist Ihr DWH noch zu retten? DWH-Sanierung als risikoarme Alternative zum komp...
Seminar Presentation Hadoop
Service-oriented Open Source Integration @ Moderner Staat 2012 (German)
Ein bisschen Backend
Anzeige

Ähnlich wie Wie baue ich ein DataWarehouse auf Basis Hadoop (7)

PDF
BI mit Apache Hadoop (CDH)
PDF
Big Data mit Apache Hadoop
PDF
Fusion der Welten: Hadoop als DWH-Backend bei ProSieben
PDF
Hadoop in modernen BI-Infrastrukturen
PDF
Webinar Big Data - Enterprise Readiness mit Hadoop
PPTX
PPTX
Big Data Webinar (Deutsch)
BI mit Apache Hadoop (CDH)
Big Data mit Apache Hadoop
Fusion der Welten: Hadoop als DWH-Backend bei ProSieben
Hadoop in modernen BI-Infrastrukturen
Webinar Big Data - Enterprise Readiness mit Hadoop
Big Data Webinar (Deutsch)
Anzeige

Wie baue ich ein DataWarehouse auf Basis Hadoop

  • 1. Wie baut man ein komplementäres Data Warehouse auf Basis von Hadoop? Gerd König 11. November 2013 / DW2013
  • 3. WE ARE HERE Vom Standort Kreuzlingen / Schweiz bedient YMC seit 2001 namhafte nationale und internationale Kunden.
  • 4. WE CREATE Hosting & Support Social-Media-Anwendungen (z.B. Corporate Blogs, Wikis, Facebook-Apps etc.) Web-Strategien Shop-Systeme, Websites, Intranets Kundenspezifische Individuallösungen fürs Web WEB SOLUTIONS Empfehlungssysteme (z.B. für Apps, Webshops, Websites und Intranet) Mobile Strategien MOBILE APPLICATIONS BIG DATA ANALYTICS Apps für Tablets und Smartphones (iPhone, Android) Massgeschneiderte Web Analytics Systeme (z.B. mit Echtzeit-Metriken und Effekten in Sozialen Netzwerken) Integration von Sozialen Netzwerken wie Facebook und Twitter Geolokalisierung für ortsspezifische Services Vorhersagemodelle (z.B. für Interessen von App-Usern) Training (Apache Hadoop) Integrierte Suchsysteme (z.B. auch für unstrukturierte Daten)
  • 7. FALLBEISPIEL VORSTELLUNG Fallbeispiel: Online Shop Wir, die WebFashionSellers mit Sitz in Los Angeles, USA, betreiben einen Online Shop und möchten unseren Umsatz steigern. Unsere häufigsten Fragen: ■ ■ ■ ■ Was sind unsere Topseller? Wie umsatzstark war letztes Quartal? Wie entwickelt sich der Absatz von Produkt X? Wofür geben wir das meiste Geld aus? ■ Wie stehen unsere Kunden zu unseren Produkten? ■ Würde der Umsatz steigen, wenn der Versand kostenlos wäre? ■ Wie hoch ist die Abbruchrate im Checkout-Prozess und warum?
  • 9. AUSGANGSLAGE Fallbeispiel: Online Shop Hypothese “Wenn wir die Lieferzeit um die Hälfte verkürzen, führt dies zu zufriedeneren Kunden und damit zu mehr Umsatz.” ■ ■ ■ Wie wirkt sich die heutige Lieferzeit auf die Kundenzufriedenheit aus? Sollten wir neue Lieferzentren eröffnen? Welche Standorte wären dafür optimal?
  • 10. AUSGANGSLAGE Fallbeispiel: Online Shop Wir haben ein externes Support-Call-Center zur Bearbeitung von Kundenanfragen. Alle Aufzeichnungen sämtlicher Anrufe sind als MP3 Dateien verfügbar. Aus den Metadaten können die Hauptursachen für einen Support-Call ermittelt werden. Was benötigen wir zusätzlich, um die Fragen zu beantworten? ■ Kundendaten (CRM) ■ Bestelldaten (OLTP)
  • 11. VON DER IDEE ZUR LÖSUNG
  • 12. LÖSUNGSANSATZ High Level Excel DataMart Big Data Pipeline ■ Ingest/ETL ■ Store ■ Analyse Dashboard Ingest (ETL) Store Analyze Talend …. Hadoop Die komplette Pipeline wird durch Tools aus dem Hadoop-Ökosystem abgedeckt.
  • 13. LÖSUNGSANSATZ Hadoop-basierte Big Data Pipeline Excel DataMart Dashboard Ingest (ETL) Store Analyze Talend …. Hadoop Hadoop Tools für die Extract Phase: ■ Flume ■ Sqoop ■ Hue Mögliche Quellen ■ Datenbanken ■ Filesystem ■ Streams
  • 14. LÖSUNGSANSATZ Hadoop-basierte Big Data Pipeline Excel DataMart Dashboard Ingest (ETL) Store Analyze Talend …. Hadoop Hadoop Tools für die Transform Phase: ■ MapReduce ■ Hive ■ Pig Wozu? ■ Validieren ■ Normalisieren ■ Filtern ■ Aggregieren
  • 15. LÖSUNGSANSATZ Hadoop-basierte Big Data Pipeline Excel DataMart Dashboard Ingest (ETL) Store Analyze Talend …. Hadoop Hadoop Tools für die Load Phase: ■ Hive ■ Pig ■ Sqoop Wozu? ■ Data Marts ■ Data Cubes ■ Tabellen ■ Views
  • 16. LÖSUNGSANSATZ Hadoop-basierte Big Data Pipeline Hadoop Tools für Storage: ■ HDFS Excel DataMart Dashboard Ingest (ETL) Store Analyze Talend …. Hadoop Eigenschaften: ■ Skalierbar ■ Verteilt ■ Zuverlässig ■ Redundant ■ Kostengünstig (industrial standard hardware)
  • 17. LÖSUNGSANSATZ Hadoop-basierte Big Data Pipeline Excel DataMart Dashboard Ingest (ETL) Store Analyze Talend …. Hadoop Hadoop Tools für Analyze: ■ HiveQL ■ PigLatin ■ Impala ■ Drill ■ ODBC ■ MapReduce ■ Search/SolrCloud Wozu? ■ Anbindung an externe BILösung ■ SQL-basierte Analyse (low latency oder ad-hoc)
  • 19. ANALYSE DER CALLCENTER AUFZEICHNUNGEN Extract Hue: ■ Upload der MP3Daten ■ HDFS Verzeichnis nach Upload
  • 20. ANALYSE DER CALLCENTER AUFZEICHNUNGEN Transform Pig: ■ Dateien einlesen ■ Extrahieren der Metadaten mittels Pig-Streaming ■ Aggregieren ■ Speichern
  • 21. ANALYSE DER CALLCENTER AUFZEICHNUNGEN Ergebnis Erkenntnis: Bei mehr als der Hälfte aller eingegangenen Support Calls wurde die Lieferzeit bemängelt. Hier besteht Optimierungsbedarf, aber welches wäre der optimale Standort für ein neues Verteilzentrum?
  • 22. EVALUATION DES OPTIMALEN STANDORTS Schritt 1: Extract Sqoop: ■ Importieren der Kunden-, und Bestelldaten aus dem OLTP
  • 23. EVALUATION DES OPTIMALEN STANDORTS Schritt 1: Extract Sqoop: ■ Importieren der Kunden-, und Bestelldaten aus dem OLTP
  • 24. EVALUATION DES OPTIMALEN STANDORTS Schritt 2: Transform Pig: ■ Zusätzlicher Input: Datei latlon.tsv, enthält für jeden Zipcode den Längenu. Breitengrad ■ Ermittlung der Geodaten von Kunden, welche kürzlich bestellt haben
  • 25. EVALUATION DES OPTIMALEN STANDORTS Schritt 2: Heatmap Kundenwohnorte akd ■ Wo wohnen die Kunden, die in den letzten 2 Wochen bestellt haben?
  • 26. EVALUATION DES OPTIMALEN STANDORTS Schritt 3: Aggregation Pig: ■ Zusätzlicher Input: alternative_verteilzent ren.tsv, enthält 3 mögliche Standorte: Massachusetts, Texas, Missouri ■ Berechnung der durchschnittlichen Entfernung jedes im vorigen Schritt ermittelten Kunden zu jeder der 3 Alternativen
  • 27. EVALUATION DES OPTIMALEN STANDORTS Schritt 4: Visualisierung ■ St. Louis, Missouri, ist die Alternative mit der geringsten, durchschnittlichen Entfernung zu den Kunden
  • 29. TAKEAWAYS ■ Hadoop bietet die Möglichkeit zur ad-hoc Datenanalyse auf explorative Art und Weise. Denn es ist unrealistisch, alle Fragen im voraus zu wissen. Fragen ergeben sich während der Analyse. ■ Für Ihr erstes Hadoop-Projekt empfehlen wir Ihnen: ■ versuchen Sie nicht Ihr bestehendes DWH abzulösen :) ■ starten Sie “einfach”, lean & agile, implementieren Sie einen POC mit geringem Aufwand (~5MT) ■ holen Sie sich die richtigen Personen / Skills ins Boot ■ sammeln und speichern Sie alle Daten, es soll keine Information verloren gehen ■ “arbeiten” Sie mit den Daten ■ erzeugen Sie Diagramme und Grafiken um Ihre Erkenntnisse aus der Analyse zu präsentieren
  • 30. CONTACT US gerd.koenig@ymc.ch Tel. +41 (0)71 508 24 74 www.ymc.ch @gerd_koenig YMC AG Sonnenstrasse 4 CH-8280 Kreuzlingen Switzerland