SlideShare ist ein Scribd-Unternehmen logo
Business Integration mit
        CDH 4
        (including Apache Hadoop)

          Alexander Alten-Lorenz
 Customer Operations Engineer, Cloudera INC
       Muenchen, 18. September 2012
Herausforderungen




Größe   Veränderungen   Struktur
Business Integration
•   CRM               •   Rechnungsdaten

•   Analysen          •   Risikomanagement

•   Social Networks   •   Universaler Datenzugriff

•   Marketing         •   Data Governance

•   Dokumente         •   SAP / Salesforce

•   Such-Indices      •   Artikelmanagement
Anwendungsbeispiele
Risiko Management

• Problem: Bewertung von Kunden und
  Projekten
• Lösung: Finanzhistorie, Kommunikation,
  Mustererkennung
• Anwender: Banken,Versicherungen
Empfehlungen

• Problem: Passende Produkte für Kunden
  empfehlen
• Lösung: Geschmack durch Verhalten aller
  Kunden ermitteln, Muster erkennen,
  Statistische Analyse
• Anwender: eCommerce, Advertising
Graph-Analyse

• Problem: Trends und Meinungsbildung in
  Netzwerken im Voraus erkennen
• Lösung: Social Media Traffic auswerten und
  statistisch aufbereiten
• Anwender: Unternehmen, Behörden, NGO
Gefahrenerkennung

• Problem: Spam, Kreditkartenmissbrauch
• Lösung: Mustererkennung, Klassifizierung,
  heuristische Analyse
• Anwender: Retailer, Banken, Einzelhandel
Textanalysen

• Problem: Bedeutung von Text erkennen
• Lösung: Schlüsselworte, Zusammenhänge
  erkennen
• Anwender: eCommerce, Social Media
  Dienstleister, Meinungsforschung
Datenmengen

• Ebay: 5 PB, Search Optimization
• Facebook: 30 PB, Logs, Reports
• Walmart, 2.5 PB, Customer Transactions
          http://wiki.apache.org/hadoop/PoweredBy
             http://en.wikipedia.org/wiki/Big_data
Apache Hadoop
• Software Framework für grosse Mengen an
  unstrukturierten Daten
• Apache-Lizenz
• Zwei Kern-Komponenten
 • HDFS: Verteilte Datenspeicherung
 • MapReduce:Verteilte Datenverarbeitung
Hadoop Cluster
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node


       Data Node: 4-16 Cores, 4-16 Disks,
        8-64 GB RAM, 1-10GB Network
Hadoop Distributed
      File System
                           Datei




Block    Block   Block     Block     Block   Block    Block




  Data Node              Data Node              Data Node
MapReduce
                 Daten




RDBMS    Query




                 Daten




Hadoop   Query
Eigenschaften
                    HDFS   MapReduce

   Verteilung        ✔        ✔


Ausfallsicherheit    ✔        ✔


 Skalierbarkeit      ✔        ✔
Hadoop-Ökosystem
         SQL               Scripts            HBase
                                                      Whirr
         Hive               Pig               Oozie


               MapReduce                                Avro
                                        Java API
                 HDFS
                                                 eeper
                                             Zook
 Sqoop           Flume     Connectors                    Hue


 RDBMS            Logs            ...          Mahout
Beispiel einer
 Integration
Aufgabenstellung
• Auswerten von vorhandenen Daten aus
  unterschiedlichen Datenbanken / CRM
  Systemen
• Realtime und Lifetime Statisken per
  Produkt
• Wiederkehrende Analysen
• Re-Import CRM
• Einzelabfragen per Enduser (Analyst)
Lösungsweg
• Sqoop als Connector zu CRM / DB
   • Terradata, Oracle, Postgres, MySQL
• Hive - HBase Integration
• Hive, gesteuert durch Oozie Workload
  Orchestrator
• Hue Shell, Cluster gesichert durch
  Kerberos (Authentifizierung)
CRM Park         Integration         CDH    Authentifikation




                     Sqoop
                                                        Kerberos
                                                       (AD, MITv5)




Real Time    HBase                   Hive                       Oozie




                                                              Automation
   Enduser                     HUE
Cloudera
• 2009 in Palo Alto gegründet
• Cloudera's Distribution Including Hadoop
• CDH4 / Cloudera Manager4
• > 280 Angestellte weltweit
• Training, Consulting, Support, Development
• Enterprise Tools
Cloudera Manager
•   Automated Deployment   •   Reporting

•   Monitoring             •   Support Integration

•   Service Management

•   Log Management

•   Events and Alerts
Danke!

• alexander@cloudera.com
• Twitter: @mapredit
• Blog: mapredit.blogspot.com
• http://www.cloudera.com/
• http://hadoop. apache.org/

Weitere ähnliche Inhalte

PDF
Big Data mit Apache Hadoop
PDF
Hadoop Einführung @codecentric
PDF
Hadoop in modernen BI-Infrastrukturen
PDF
Hadoop aus IT-Operations-Sicht - Teil 1 (Hadoop-Grundlagen)
PDF
Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?
PPTX
Prasentation Hadoop HDFS + YARN
PPTX
Portfolio 2016
PPT
SCAPE Skalierbare Langzeitarchivierung
Big Data mit Apache Hadoop
Hadoop Einführung @codecentric
Hadoop in modernen BI-Infrastrukturen
Hadoop aus IT-Operations-Sicht - Teil 1 (Hadoop-Grundlagen)
Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?
Prasentation Hadoop HDFS + YARN
Portfolio 2016
SCAPE Skalierbare Langzeitarchivierung

Andere mochten auch (18)

PDF
Apache CouchDB at PHPUG Karlsruhe, Germany (Jan 27th 2009)
PPTX
Why NoSQL and MongoDB for Big Data
PDF
MongoDB, Hadoop and humongous data - MongoSV 2012
PPTX
An Introduction to Big Data, NoSQL and MongoDB
KEY
MongoDB and hadoop
PPTX
MongoDB for Beginners
PPTX
Mongo db
PPT
SQL, NoSQL, BigData in Data Architecture
PPTX
Cloudera Customer Success Story
PDF
The Big Data Challenge
PDF
Mongo DB: Operational Big Data Database
PPT
Customer Success Story: Brisa
PDF
Einführung Big Data
PDF
MapReduce & Apache Hadoop
PDF
NoSQL Now! NoSQL Architecture Patterns
PDF
MongoDB für Java-Programmierer
PDF
MongoDB - Riesige Datenmengen schemafrei verwalten
PPTX
MongoDB Einführung
Apache CouchDB at PHPUG Karlsruhe, Germany (Jan 27th 2009)
Why NoSQL and MongoDB for Big Data
MongoDB, Hadoop and humongous data - MongoSV 2012
An Introduction to Big Data, NoSQL and MongoDB
MongoDB and hadoop
MongoDB for Beginners
Mongo db
SQL, NoSQL, BigData in Data Architecture
Cloudera Customer Success Story
The Big Data Challenge
Mongo DB: Operational Big Data Database
Customer Success Story: Brisa
Einführung Big Data
MapReduce & Apache Hadoop
NoSQL Now! NoSQL Architecture Patterns
MongoDB für Java-Programmierer
MongoDB - Riesige Datenmengen schemafrei verwalten
MongoDB Einführung
Anzeige

Ähnlich wie BI mit Apache Hadoop (CDH) (20)

PDF
A NoSQL Summer - The Year After
PDF
Wie baue ich ein DataWarehouse auf Basis Hadoop
PDF
SimpleDB - Chancen einer Cloud Datenbank
PDF
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
PDF
Webinar Big Data - Enterprise Readiness mit Hadoop
PDF
Rbu amanox big_data_intro_infrastruktur
PDF
Fusion der Welten: Hadoop als DWH-Backend bei ProSieben
PDF
Business Intelligence, Big Data und Search - Drei Seiten einer Medaille?
PDF
Data Is The New Oil
PPTX
Webinar: Typische MongoDB Anwendungsfälle (Common MongoDB Use Cases) 
PPTX
Big Data Bullshit Bingo
PDF
Clash of Cultures: Agile Microservices & Business Intelligence (Frank Schmidt...
PDF
Big Data Appliances
PPT
Big Data - Die große Innovation?
PPTX
Big Data Webinar (Deutsch)
PPTX
PASS Camp 2012 - Big Data mit Microsoft (Teil 1)
PDF
WJAX 2012: Dreamteam "BPM + Java EE"
PPTX
4×4: Big Data in der Cloud
PDF
3 Wege in die Cloud, Sascha Dittmann, Ernst & Young
PPTX
CloudOps Summit 2012 - 3 Wege in die Cloud
A NoSQL Summer - The Year After
Wie baue ich ein DataWarehouse auf Basis Hadoop
SimpleDB - Chancen einer Cloud Datenbank
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Webinar Big Data - Enterprise Readiness mit Hadoop
Rbu amanox big_data_intro_infrastruktur
Fusion der Welten: Hadoop als DWH-Backend bei ProSieben
Business Intelligence, Big Data und Search - Drei Seiten einer Medaille?
Data Is The New Oil
Webinar: Typische MongoDB Anwendungsfälle (Common MongoDB Use Cases) 
Big Data Bullshit Bingo
Clash of Cultures: Agile Microservices & Business Intelligence (Frank Schmidt...
Big Data Appliances
Big Data - Die große Innovation?
Big Data Webinar (Deutsch)
PASS Camp 2012 - Big Data mit Microsoft (Teil 1)
WJAX 2012: Dreamteam "BPM + Java EE"
4×4: Big Data in der Cloud
3 Wege in die Cloud, Sascha Dittmann, Ernst & Young
CloudOps Summit 2012 - 3 Wege in die Cloud
Anzeige

Mehr von Alexander Alten (12)

PDF
Is big data dead?
PPTX
Creating a value chain with IoT
PPTX
Big Data in an modern Enterprise
PPTX
The Future of Energy
PDF
Beyond Hadoop and MapReduce
PDF
Sentry - An Introduction
PDF
Cloudera Impala - HUG Karlsruhe, July 04, 2013
PDF
Bi with apache hadoop(en)
PDF
Flume and HBase
PDF
Highlights Of Sqoop2
PDF
Apache Flume (NG)
PDF
Filesystems, RPC and HDFS
Is big data dead?
Creating a value chain with IoT
Big Data in an modern Enterprise
The Future of Energy
Beyond Hadoop and MapReduce
Sentry - An Introduction
Cloudera Impala - HUG Karlsruhe, July 04, 2013
Bi with apache hadoop(en)
Flume and HBase
Highlights Of Sqoop2
Apache Flume (NG)
Filesystems, RPC and HDFS

BI mit Apache Hadoop (CDH)

  • 1. Business Integration mit CDH 4 (including Apache Hadoop) Alexander Alten-Lorenz Customer Operations Engineer, Cloudera INC Muenchen, 18. September 2012
  • 2. Herausforderungen Größe Veränderungen Struktur
  • 3. Business Integration • CRM • Rechnungsdaten • Analysen • Risikomanagement • Social Networks • Universaler Datenzugriff • Marketing • Data Governance • Dokumente • SAP / Salesforce • Such-Indices • Artikelmanagement
  • 5. Risiko Management • Problem: Bewertung von Kunden und Projekten • Lösung: Finanzhistorie, Kommunikation, Mustererkennung • Anwender: Banken,Versicherungen
  • 6. Empfehlungen • Problem: Passende Produkte für Kunden empfehlen • Lösung: Geschmack durch Verhalten aller Kunden ermitteln, Muster erkennen, Statistische Analyse • Anwender: eCommerce, Advertising
  • 7. Graph-Analyse • Problem: Trends und Meinungsbildung in Netzwerken im Voraus erkennen • Lösung: Social Media Traffic auswerten und statistisch aufbereiten • Anwender: Unternehmen, Behörden, NGO
  • 8. Gefahrenerkennung • Problem: Spam, Kreditkartenmissbrauch • Lösung: Mustererkennung, Klassifizierung, heuristische Analyse • Anwender: Retailer, Banken, Einzelhandel
  • 9. Textanalysen • Problem: Bedeutung von Text erkennen • Lösung: Schlüsselworte, Zusammenhänge erkennen • Anwender: eCommerce, Social Media Dienstleister, Meinungsforschung
  • 10. Datenmengen • Ebay: 5 PB, Search Optimization • Facebook: 30 PB, Logs, Reports • Walmart, 2.5 PB, Customer Transactions http://wiki.apache.org/hadoop/PoweredBy http://en.wikipedia.org/wiki/Big_data
  • 11. Apache Hadoop • Software Framework für grosse Mengen an unstrukturierten Daten • Apache-Lizenz • Zwei Kern-Komponenten • HDFS: Verteilte Datenspeicherung • MapReduce:Verteilte Datenverarbeitung
  • 12. Hadoop Cluster Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node: 4-16 Cores, 4-16 Disks, 8-64 GB RAM, 1-10GB Network
  • 13. Hadoop Distributed File System Datei Block Block Block Block Block Block Block Data Node Data Node Data Node
  • 14. MapReduce Daten RDBMS Query Daten Hadoop Query
  • 15. Eigenschaften HDFS MapReduce Verteilung ✔ ✔ Ausfallsicherheit ✔ ✔ Skalierbarkeit ✔ ✔
  • 16. Hadoop-Ökosystem SQL Scripts HBase Whirr Hive Pig Oozie MapReduce Avro Java API HDFS eeper Zook Sqoop Flume Connectors Hue RDBMS Logs ... Mahout
  • 18. Aufgabenstellung • Auswerten von vorhandenen Daten aus unterschiedlichen Datenbanken / CRM Systemen • Realtime und Lifetime Statisken per Produkt • Wiederkehrende Analysen • Re-Import CRM • Einzelabfragen per Enduser (Analyst)
  • 19. Lösungsweg • Sqoop als Connector zu CRM / DB • Terradata, Oracle, Postgres, MySQL • Hive - HBase Integration • Hive, gesteuert durch Oozie Workload Orchestrator • Hue Shell, Cluster gesichert durch Kerberos (Authentifizierung)
  • 20. CRM Park Integration CDH Authentifikation Sqoop Kerberos (AD, MITv5) Real Time HBase Hive Oozie Automation Enduser HUE
  • 21. Cloudera • 2009 in Palo Alto gegründet • Cloudera's Distribution Including Hadoop • CDH4 / Cloudera Manager4 • > 280 Angestellte weltweit • Training, Consulting, Support, Development • Enterprise Tools
  • 22. Cloudera Manager • Automated Deployment • Reporting • Monitoring • Support Integration • Service Management • Log Management • Events and Alerts
  • 23. Danke! • alexander@cloudera.com • Twitter: @mapredit • Blog: mapredit.blogspot.com • http://www.cloudera.com/ • http://hadoop. apache.org/