SlideShare ist ein Scribd-Unternehmen logo
Wilfried Hoge
Leading Technical Sales Professional
Senior IT Architect Information Management
IBM Deutschland




      Big Value from Big Data
      Fertig werden mit den 3 wichtigsten
      Herausforderungen: Volume, Velocity und
      Variety [=V3]




                                                Seite : 1
Information Management


 Was ist Big Data?                                                         2020

  •  Datenmengen wachsen immer
     schneller – in allen Unternehmen
                                         44x
                                           mehr Daten im
                                                                       35 zettabytes



     und in allen Branchen                 kommenden
                                           Jahrzehnt
  •  Die Daten werden häufig von
     einer großen Anzahl Menschen
     (z.B. Social Media) oder von
                                                                            80%
                                                                           der Daten sind
     Maschinen (z.B. Ticker oder
                                                                           unstrukturiert
     Messgeräte) generiert
  •  Die meisten Daten sind nicht
     einfach strukturiert sondern              2009
     haben komplexe oder                 800,000 petabytes
     unbekannte Strukturen und
     der Aufwand für die Analyse und
     Anpassung der Strukturierung ist sehr groß
  •  Informationen in diesen Daten enthalten große Chancen und großen Wert und
     daher ist die effiziente Analyse dieser Daten von strategischer Bedeutung
  •  Big ist relativ zu dem, was bisher an Daten in einem Unternehmen verarbeitet
     werden konnte, und bezieht sich sowohl auf die Datenmenge als auch auf die
     Verarbeitungsgeschwindigkeit

                                                                                 Seite : 2
Information Management


 Die Big Data Herausforderung
      Nutzen zu ziehen aus diesen riesigen Datenmengen, die so verschieden
   strukturiert sind und so schnell entstehen, ist mit bisherigen Technologien nicht
                                   möglich gewesen.
   Eine Technologie für BigData muss geeignet sein, die drei wichtigsten Dimensionen von
   BigData zu beherrschen: Variety, Velocity, Volume (=V3)

                                                           Verarbeitung der Komplexität
                                                           von relationalen und nicht-
                                              Variety      relationalen Datentypen und
                                                           Schemas


                                                           Analyse von Daten direkt
                                              Velocity     während sie entstehen



                                                           Effizientes skalieren für große
                                              Volume       Datenmengen

                                                                                    Seite : 3
Information Management


              Volume und Velocity – zwei Dimensionen für Big Data
               Exa
                                                                                                    Wind Turbine Placement &
                                                                                                    Operation
                              Up to
                              10,000                                                                PBs of data
                              Times                                                                 Analysis time to 3 days from 3 weeks
              Peta            larger                                                                1220 IBM iDataPlex nodes
                Data Scale




                                                                                                           DeepQA
              Tera
                                                                                                           100s GB for Deep Analytics
                               Data at Rest
Data Scale




                                                                                                           3 sec/decision
                                                                                                           Power7, 15TB memory

              Giga
                                                                                                             Telco Promotions
                                                                                                             100,000 records/sec, 6B/day
                             Traditional Data                                                                10 ms/decision
              Mega           Warehouse and                                                                   270TB for Deep Analytics
                             Business Intelligence
                                                                                Up to 10,000
                                                         Data in Motion         times faster                Security
                                                                                                            600,000 records/sec, 50B/day
               Kilo
                                                                                                            1-2 ms/decision
                        yr     mo             wk   day    hr   min        sec     …    ms      µs
                                                                                                            320TB for Deep Analytics
                             Occasional                   Frequent                 Real-time
                                                   Decision Frequency

                                                                                                                               Seite : 4
Information Management


 Massiv parallele Verarbeitung für Volume und Velocity

  •  Divide and conquer ist eine bewährte Methode zur Bewältigung von
     umfangreichen Berechnungen
  •  Jeder Knoten verwaltet einen Teil der Daten
  •  Jeder Knoten kann Algorithmen auf seinen Daten ausführen
  •  Viele verteilte Knoten lösen ein Problem, indem sie parallel Teilaufgaben lösen
  •  Eine übergeordnete Kontrolle schickt die passenden Algorithmen zu den Daten


                                                   Anfrageknoten




                           Berechnungs-/Speicherknoten
                                                                              Seite : 5
Information Management


 Variety – Speicherung und Analyse neuer Datentypen

                         •  Daten aus den Quellen Web (z.B. Logs, Clickstream),
                            Dokumente (z.B. Texte, Protokolle, E-Mails), RFIDs (XML,
                            Spatial) werden in vielen Unternehmen bereits gesammelt
                         •  Die Datenstrukturen sind in den wenigsten Fällen geeignet für
                            die Verarbeitung in traditionellen DWH Umgebungen, die
                            meist auf relationale Datenstrukturen beschränkt sind
                         •  Aufwändige ETL Prozesse und/oder Betrachtung von
                            Ausschnitten machen sie konsumierbar
                         •  Diese Daten aber in Gänze zu analysieren erfordert eine
                            direkte Verarbeitung von komplexeren Datentypen
                         •  Hinzu kommen Datentypen, die nicht leicht in relationale
                            Strukturen zu überführen sind und daher i.d.R. gar nicht
                            berücksichtigt wurden (z.B. Audio, Bilder, Video)

                         •  Datenspeicher, die in der Lage sind die Daten in ihrer Vielfalt
                            direkt zu behandeln, und Algorithmen, die diese Daten
                            verarbeiten, sind notwendig.


                                                                                     Seite : 6
Information Management


 Variety – Explorative Analysen für Big Data

  •  IBM Research hat Algorithmen zur explorativen
     Analyse entwickelt
  •  Diese Algorithmen erlauben die Analyse von Daten
     in ihrem ursprünglichen Datenformat


              Text                      Statistics

              Image & Video             Mining

              Acoustic                  Predictive               Times Series

              Financial                 Geospatial               Mathematical


                IBM macht den Unterschied – signifikante Investitionen in die
               Forschung und Entwicklung von Analysealgorithmen für Big Data
                                                                                Seite : 7
Information Management


 Big	
  Data	
  Ansatz	
  ergänzt	
  das	
  bisherige	
  Vorgehensmodell	
  
 	
  
            Traditionelles Vorgehen                     Big Data Vorgehen
  Strukturierung & Wiederholbare Analyse           Iterative & Forschende Analyse


      Fachbereich                                                IT
      Bestimmen, welche                                          Stellen eine Plattform
      Fragen gestellt werden                                     für kreative Erkundung
                                                                 bereit



      IT                                                         Fachbereich
      Strukturiert die Daten,                                    Erkundet, welche
      um die Fragen zu                                           Informationen in den
      beantworten                                                Daten stecken



       Monatlicher Umsatz                                        Reputation der Marke
       Profitabilität                                            Produkt Strategie
       Kundenanalyse                                             Maximierung der Ausutzung




                                                                                 Seite : 8
Information Management


 Eine Kombination von zwei Technologien für Big Data

  •  Um den 3 Dimensionen von Big Data – Volume, Velocity und Variety – gerecht
     zu werden ist eine Kombination von zwei Technologien sinnvoll

  •  Analyse von Big Data während der Entstehung – Streaming Analytics
     •  Die Daten werden analysiert sobald sie im System ankommen
     •  Die einfließenden Datenströme werden analysiert und können mit gespeicherten
        Informationen in Verbindung gebracht werden
     •  Aus der Analyse werden sofort Aktivitäten (Events) abgeleitet
     ➯  InfoSphere Streams

  •  Speicherung von großen Datenmengen und flexible Analyse dieser Daten –
     Internet Scale Analytics
     •  Die Daten werden gespeichert und stehen für verschiedenste Analysen bereit
     •  Operationen auf diesen Daten können effizient ausgeführt werden
     •  Basiert auf dem Hadoop Framework
     ➯  InfoSphere BigInsights

                                                                                       Seite : 9
Information Management


 IBM Big Data Platform
                                                           IBM Big Data              Client and Partner                                       Marketing
                                                             Solutions                   Solutions
                                                                                                                                              IBM Unica


                                           Big Data Accelerators                                                                               Content
                                                                                                                                               Analytics
                                                                                                                                                 ECM
                         Text        Statistics        Financial        Geospatial       Acoustic

                            Image/Video           Mining       Times Series          Mathematical                                             Business
                                                                                                                                              Analytics
                                                                                                                                            Cognos & SPSS
                          Connectors                 Applications               Blueprints
                                                                                                                                              Warehouse




                                                                                                          InforSphere Information Server
                                                                                                                                              Appliance
                                      Big Data Enterprise Engines
                                                                                                                                             IBM Netezza

                                                                                                                                              Master Data
                                                                                                                                             Management
                                                                                                                                           InfoSphere MDM
                                InfoSphere Streams                 InfoSphere BigInsights
                                                                                                                                           Data Warehouse
                                 Productivity Tools and Optimization                                                                         InfoSphere
                                                                                                                                             Warehouse

                          Workload Management                         Consumability and
                            and Optimization                          Management Tools                                                         Database

                                                                                                                                                 DB2
                                   Open Source Foundation Compnents
                                                                                                                                             Data Growth
                                                                                                                                             Management
                         Eclipse     Oozie        Hadoop      HBase       Pig    Lucene      Jaql
                                                                                                                                           InfoSphere Optim



                                                                                                                                                Seite : 10
Information Management


 IBM Netezza für Big Data Analyse

                         •  IBM Netezza ist eine DWH Appliance mit MPP
                            Architektur, Hardware basierender
                            Abfragebeschleunigung und in-Datenbank
                            Ausführung von Analysealgorithmen

                         •  Das Appliance Konzept ermöglicht extrem hohe
                            Analyse Leistung ohne Tuning

                         •  Ideal geeignet für Big Data Analyse auf Daten, die im
                            relationalen Modell untergebracht werden können

                         •  In-Database Analysen (z.B. Data Mining, Spatial,
                            Predictive Analysis) out of the box
                         •  Zusätzlich Unterstützung von Hadoop Map/Reduce
                            Algorithmen direkt auf Netezza


                                                                          Seite : 11
Information Management


 Integration von IBM Data Warehouse und BigInsights
        Netezza                    Infosphere Warehouse




                                                                         SQL
                            Cubing services             DB2




      JDBC Connector     Jaql client   JaqlSubmit UDF   HDFSRead UDF




                                                                  Http
       Http

                                       Infosphere BigInsights




          Jaql server
                           Persistent data (MapReduce repository)


                                                                               Seite : 12
Information Management


 Streams und BigInsights – Verfeinerung eines
 Analysemodells
  •  Da die Algorithmen sowohl in Streams als auch in
                                                                Visualisierung sowohl von
     BigInsights verwendet werden können lassen                 Echzeit-Analysen als auch
     sich closed-loop Projekte leicht umsetzen                   von Analysen auf Basis
                                                                    historischer Daten




                         InfoSphere                                      InfoSphere
                         Streams                                         BigInsights &
                                                                         Data Warehouse
                                      1.  Daten laden
           Daten

                                      2.  Modell erzeugen
                                          und verfeinern                        Daten-
                                                                             Integration,
      Laden von Daten,                                                       Data Mining,
      Datenaufbereitung,                    Control                            Machine
       Echtzeit-Analyse,                     flow                             Learning,
      Modell Validierung                                                      Statistical
                                                                              Modelling


                                      3.  Adaptives
                                          analytisches Modell
                                                                                     Seite : 13
Information Management


 Big Data muss ein integrierter Bestandteil der
 Informationsarchitektur eines Unternehmens sein
           Enterprise                    Business Analytics
      Content Management




                                           Information Integration &
                                                 Federation
                                               Data Warehouse




                                                                  Big Data
                                                                 Big Data
                           Information
      Data                 Governance
   Management

                                                                       Seite : 14
Information Management


 BigInsights in der IBM SmartCloud Enterprise

  •  Ihr eigener Hadoop Cluster in der IBM
     Cloud in weniger als 30 Minuten

  •  Benötigt keine eigene Hardware, keine
     Installation, keine Wartung

  •  Hadoop Cluster kann in einem
     beliebigen IBM Cloud Data Center
     platziert werden

  •  Geringe Gebühren, die pro Stunde
     berechnet werden

  •  Start mit lizenzfreiem BigInsights Basic
     und einfache Umstellung auf die
     BigInsights Enterprise Version

                                                Seite : 15
Information Management


 BigInsights in der Cloud
 Einfaches Kennenlernen von Hadoop
  •  Online Kurs erlaubt das Lernen am
     Standort ihrer Wahl mit freier
     Zeiteinteilung

  •  Kurse und Kursmaterial kostenfrei

  •  Cloud basierte Sandbox für Übungen

  •  Bereits mehr als 8500 Teilnehmer




                                          Seite : 16
Information Management


 Big Data und Watson
 Big Data Technology wurde genutzt um die          Watson kann Informationen aus Big Data
 Wissensdatenbank von Watson zu bauen!              zur erweiterten Analyse konsumieren!


      Watson verwendete das Apache
    Hadoop Framework zur Verteilung der
   Workload beim Laden der Informationen                           CRM Data
              in das Memory"                       POS Data                            Social Media

                  ~200 Millionen Textseiten
                  (Um Jeopardy zu spielen!)
                                                                                        Analyseergebnisse
                                                                                        -  Kaufverhalten
                                                                                        -  Soziale Beziehungen
                                                                                        -  Trends
                                                              InfoSphere BigInsights




                                        Watson‘s
                                        Memory                                              Erweiterte
                                                                                            Analyse und
                                                                                            Suche




                                                                                                   Seite : 17
THINK
Information Management




        Variety           Nutzen sie bereits das Potential ihrer
                          unstrukturierten Daten?



                          Können sie durch Analyse in Echtzeit besser
        Velocity          werden?



                          Sammeln sie die Daten nur oder nutzen sie
        Volume            diese auch?



                         ibm.com/bigdata
                                                                        Seite : 18
Wilfried Hoge
Leading Technical Sales Professional
Senior IT Architect Information Management
IBM Deutschland




                                             Seite : 19

Weitere ähnliche Inhalte

PPTX
Big Data Webinar (Deutsch)
PPT
Daten ohne Grenzen – Big Data
PDF
Big Data: Kunden auf der Spur
PDF
Webinar big data für unternehmen
PPTX
Big Data Bullshit Bingo
PPTX
PPTX
Big Data & High-Performance-Analytics
PDF
Big Data ist hier um zu bleiben
Big Data Webinar (Deutsch)
Daten ohne Grenzen – Big Data
Big Data: Kunden auf der Spur
Webinar big data für unternehmen
Big Data Bullshit Bingo
Big Data & High-Performance-Analytics
Big Data ist hier um zu bleiben

Was ist angesagt? (20)

PDF
Big Data, Big Brother
PPTX
Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...
PDF
Wirksames Stammdatenmanagement
PDF
2013 Vortrag BIG DATA Uli Coenen
PDF
GraphTalk Berlin - Deutschlands erstes Entscheidernetzwerk mit Neo4j
PDF
Big Data Anwendungen und Infrastrukturen
PDF
Agile Datenanalsyse - der schnelle Weg zum Mehrwert
PDF
Big Data und Business Intelligence
PPTX
Big/Smart/Fast Data – a very compact overview
PPTX
DE - Module 6 - The future of Smart Data
PDF
Fujitsu Storage Days 2018 - Erfahrungsbericht crisp research
PPTX
IT Trends 2011 - und welchen Einfluss Business Analytics darauf hat
PDF
Analytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
PPTX
Linked Data - Das Ende des Dokuments?
PDF
Bedarfsprognosen für optimale Warenverfügbarkeit
PDF
Neo4j Use Cases - Graphdatenbanken im Einsatz
PDF
Digitale Transformation in der Finanzbranche
 
PPTX
Data-Driven Systems - Overview Presentation at InES Symposium 2013
PDF
Rbu amanox big_data_intro_infrastruktur
PDF
Warum NoSQL Datenbanken auf dem Vormarsch sind
Big Data, Big Brother
Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...
Wirksames Stammdatenmanagement
2013 Vortrag BIG DATA Uli Coenen
GraphTalk Berlin - Deutschlands erstes Entscheidernetzwerk mit Neo4j
Big Data Anwendungen und Infrastrukturen
Agile Datenanalsyse - der schnelle Weg zum Mehrwert
Big Data und Business Intelligence
Big/Smart/Fast Data – a very compact overview
DE - Module 6 - The future of Smart Data
Fujitsu Storage Days 2018 - Erfahrungsbericht crisp research
IT Trends 2011 - und welchen Einfluss Business Analytics darauf hat
Analytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
Linked Data - Das Ende des Dokuments?
Bedarfsprognosen für optimale Warenverfügbarkeit
Neo4j Use Cases - Graphdatenbanken im Einsatz
Digitale Transformation in der Finanzbranche
 
Data-Driven Systems - Overview Presentation at InES Symposium 2013
Rbu amanox big_data_intro_infrastruktur
Warum NoSQL Datenbanken auf dem Vormarsch sind
Anzeige

Andere mochten auch (20)

PDF
Donald Knuth
PPTX
PO WER - XX LO Gdańsk - Alan Turing
PPT
Alan Turing Scientist Unlimited | Turing100@Persistent Systems
PDF
DNA Information and Creation (PDF)
PPTX
System biology and its tools
PPT
Job ppt1
PPTX
LSESU a Taste of R Language Workshop
PDF
Python for Data Science
PDF
The Computer Scientist and the Cleaner v4
PDF
Computational Approaches to Systems Biology
PPTX
Computational Systems Biology (JCSB)
PDF
Day in the Life of a Computer Scientist
PPTX
Tutorial 1: Your First Science App - Araport Developer Workshop
PDF
Data Scientist - The Sexiest Job of the 21st Century?
PPT
Systems biology: Bioinformatics on complete biological system
PPTX
Multi-omics infrastructure and data for R/Bioconductor
PPT
Systems biology - Understanding biology at the systems level
PDF
Do you know what k-Means? Cluster-Analysen
PDF
Zwischen Browser, Code & Photoshop - aus dem Leben eines Webworkers
PPT
Apps for Science - Elsevier Developer Network Workshop 201102
Donald Knuth
PO WER - XX LO Gdańsk - Alan Turing
Alan Turing Scientist Unlimited | Turing100@Persistent Systems
DNA Information and Creation (PDF)
System biology and its tools
Job ppt1
LSESU a Taste of R Language Workshop
Python for Data Science
The Computer Scientist and the Cleaner v4
Computational Approaches to Systems Biology
Computational Systems Biology (JCSB)
Day in the Life of a Computer Scientist
Tutorial 1: Your First Science App - Araport Developer Workshop
Data Scientist - The Sexiest Job of the 21st Century?
Systems biology: Bioinformatics on complete biological system
Multi-omics infrastructure and data for R/Bioconductor
Systems biology - Understanding biology at the systems level
Do you know what k-Means? Cluster-Analysen
Zwischen Browser, Code & Photoshop - aus dem Leben eines Webworkers
Apps for Science - Elsevier Developer Network Workshop 201102
Anzeige

Ähnlich wie IBM - Big Value from Big Data (12)

PPT
Big Data - Die große Innovation?
PPTX
Data Mining und OLAP
PDF
Big Data - Eine Tour d'Horizon
PPTX
Webinar: Typische MongoDB Anwendungsfälle (Common MongoDB Use Cases) 
PPTX
OpenDMA - Daten Management Solution
PPTX
Cyber Crime leeds to Tape Air-Gap Protection
PDF
Einfuhrung datascience
PDF
Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...
PDF
Darf es ein bisschen mehr sein - Konzepte Strategien zur Bewältigung großer u...
PPTX
Big data trend oder hype slideshare
PDF
Hadoop in modernen BI-Infrastrukturen
PDF
Kroll Ontrack Datenverfügbarkeit
Big Data - Die große Innovation?
Data Mining und OLAP
Big Data - Eine Tour d'Horizon
Webinar: Typische MongoDB Anwendungsfälle (Common MongoDB Use Cases) 
OpenDMA - Daten Management Solution
Cyber Crime leeds to Tape Air-Gap Protection
Einfuhrung datascience
Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...
Darf es ein bisschen mehr sein - Konzepte Strategien zur Bewältigung großer u...
Big data trend oder hype slideshare
Hadoop in modernen BI-Infrastrukturen
Kroll Ontrack Datenverfügbarkeit

Mehr von Wilfried Hoge (11)

PDF
Cloud Data Services - from prototyping to scalable analytics on cloud
PDF
Is it harder to find a taxi when it is raining?
PDF
innovations born in the cloud - cloud data services from IBM to prototype you...
PDF
2015.05.07 watson rp15
PDF
Twitter analytics in Bluemix
PDF
InfoSphere BigInsights - Analytics power for Hadoop - field experience
PDF
Big SQL 3.0 - Fast and easy SQL on Hadoop
PDF
2014.07.11 biginsights data2014
PDF
2013.12.12 big data heise webcast
PDF
InfoSphere BigInsights
PDF
2012.04.26 big insights streams im forum2
Cloud Data Services - from prototyping to scalable analytics on cloud
Is it harder to find a taxi when it is raining?
innovations born in the cloud - cloud data services from IBM to prototype you...
2015.05.07 watson rp15
Twitter analytics in Bluemix
InfoSphere BigInsights - Analytics power for Hadoop - field experience
Big SQL 3.0 - Fast and easy SQL on Hadoop
2014.07.11 biginsights data2014
2013.12.12 big data heise webcast
InfoSphere BigInsights
2012.04.26 big insights streams im forum2

IBM - Big Value from Big Data

  • 1. Wilfried Hoge Leading Technical Sales Professional Senior IT Architect Information Management IBM Deutschland Big Value from Big Data Fertig werden mit den 3 wichtigsten Herausforderungen: Volume, Velocity und Variety [=V3] Seite : 1
  • 2. Information Management Was ist Big Data? 2020 •  Datenmengen wachsen immer schneller – in allen Unternehmen 44x mehr Daten im 35 zettabytes und in allen Branchen kommenden Jahrzehnt •  Die Daten werden häufig von einer großen Anzahl Menschen (z.B. Social Media) oder von 80% der Daten sind Maschinen (z.B. Ticker oder unstrukturiert Messgeräte) generiert •  Die meisten Daten sind nicht einfach strukturiert sondern 2009 haben komplexe oder 800,000 petabytes unbekannte Strukturen und der Aufwand für die Analyse und Anpassung der Strukturierung ist sehr groß •  Informationen in diesen Daten enthalten große Chancen und großen Wert und daher ist die effiziente Analyse dieser Daten von strategischer Bedeutung •  Big ist relativ zu dem, was bisher an Daten in einem Unternehmen verarbeitet werden konnte, und bezieht sich sowohl auf die Datenmenge als auch auf die Verarbeitungsgeschwindigkeit Seite : 2
  • 3. Information Management Die Big Data Herausforderung Nutzen zu ziehen aus diesen riesigen Datenmengen, die so verschieden strukturiert sind und so schnell entstehen, ist mit bisherigen Technologien nicht möglich gewesen. Eine Technologie für BigData muss geeignet sein, die drei wichtigsten Dimensionen von BigData zu beherrschen: Variety, Velocity, Volume (=V3) Verarbeitung der Komplexität von relationalen und nicht- Variety relationalen Datentypen und Schemas Analyse von Daten direkt Velocity während sie entstehen Effizientes skalieren für große Volume Datenmengen Seite : 3
  • 4. Information Management Volume und Velocity – zwei Dimensionen für Big Data Exa Wind Turbine Placement & Operation Up to 10,000 PBs of data Times Analysis time to 3 days from 3 weeks Peta larger 1220 IBM iDataPlex nodes Data Scale DeepQA Tera 100s GB for Deep Analytics Data at Rest Data Scale 3 sec/decision Power7, 15TB memory Giga Telco Promotions 100,000 records/sec, 6B/day Traditional Data 10 ms/decision Mega Warehouse and 270TB for Deep Analytics Business Intelligence Up to 10,000 Data in Motion times faster Security 600,000 records/sec, 50B/day Kilo 1-2 ms/decision yr mo wk day hr min sec … ms µs 320TB for Deep Analytics Occasional Frequent Real-time Decision Frequency Seite : 4
  • 5. Information Management Massiv parallele Verarbeitung für Volume und Velocity •  Divide and conquer ist eine bewährte Methode zur Bewältigung von umfangreichen Berechnungen •  Jeder Knoten verwaltet einen Teil der Daten •  Jeder Knoten kann Algorithmen auf seinen Daten ausführen •  Viele verteilte Knoten lösen ein Problem, indem sie parallel Teilaufgaben lösen •  Eine übergeordnete Kontrolle schickt die passenden Algorithmen zu den Daten Anfrageknoten Berechnungs-/Speicherknoten Seite : 5
  • 6. Information Management Variety – Speicherung und Analyse neuer Datentypen •  Daten aus den Quellen Web (z.B. Logs, Clickstream), Dokumente (z.B. Texte, Protokolle, E-Mails), RFIDs (XML, Spatial) werden in vielen Unternehmen bereits gesammelt •  Die Datenstrukturen sind in den wenigsten Fällen geeignet für die Verarbeitung in traditionellen DWH Umgebungen, die meist auf relationale Datenstrukturen beschränkt sind •  Aufwändige ETL Prozesse und/oder Betrachtung von Ausschnitten machen sie konsumierbar •  Diese Daten aber in Gänze zu analysieren erfordert eine direkte Verarbeitung von komplexeren Datentypen •  Hinzu kommen Datentypen, die nicht leicht in relationale Strukturen zu überführen sind und daher i.d.R. gar nicht berücksichtigt wurden (z.B. Audio, Bilder, Video) •  Datenspeicher, die in der Lage sind die Daten in ihrer Vielfalt direkt zu behandeln, und Algorithmen, die diese Daten verarbeiten, sind notwendig. Seite : 6
  • 7. Information Management Variety – Explorative Analysen für Big Data •  IBM Research hat Algorithmen zur explorativen Analyse entwickelt •  Diese Algorithmen erlauben die Analyse von Daten in ihrem ursprünglichen Datenformat Text Statistics Image & Video Mining Acoustic Predictive Times Series Financial Geospatial Mathematical IBM macht den Unterschied – signifikante Investitionen in die Forschung und Entwicklung von Analysealgorithmen für Big Data Seite : 7
  • 8. Information Management Big  Data  Ansatz  ergänzt  das  bisherige  Vorgehensmodell     Traditionelles Vorgehen Big Data Vorgehen Strukturierung & Wiederholbare Analyse Iterative & Forschende Analyse Fachbereich IT Bestimmen, welche Stellen eine Plattform Fragen gestellt werden für kreative Erkundung bereit IT Fachbereich Strukturiert die Daten, Erkundet, welche um die Fragen zu Informationen in den beantworten Daten stecken Monatlicher Umsatz Reputation der Marke Profitabilität Produkt Strategie Kundenanalyse Maximierung der Ausutzung Seite : 8
  • 9. Information Management Eine Kombination von zwei Technologien für Big Data •  Um den 3 Dimensionen von Big Data – Volume, Velocity und Variety – gerecht zu werden ist eine Kombination von zwei Technologien sinnvoll •  Analyse von Big Data während der Entstehung – Streaming Analytics •  Die Daten werden analysiert sobald sie im System ankommen •  Die einfließenden Datenströme werden analysiert und können mit gespeicherten Informationen in Verbindung gebracht werden •  Aus der Analyse werden sofort Aktivitäten (Events) abgeleitet ➯  InfoSphere Streams •  Speicherung von großen Datenmengen und flexible Analyse dieser Daten – Internet Scale Analytics •  Die Daten werden gespeichert und stehen für verschiedenste Analysen bereit •  Operationen auf diesen Daten können effizient ausgeführt werden •  Basiert auf dem Hadoop Framework ➯  InfoSphere BigInsights Seite : 9
  • 10. Information Management IBM Big Data Platform IBM Big Data Client and Partner Marketing Solutions Solutions IBM Unica Big Data Accelerators Content Analytics ECM Text Statistics Financial Geospatial Acoustic Image/Video Mining Times Series Mathematical Business Analytics Cognos & SPSS Connectors Applications Blueprints Warehouse InforSphere Information Server Appliance Big Data Enterprise Engines IBM Netezza Master Data Management InfoSphere MDM InfoSphere Streams InfoSphere BigInsights Data Warehouse Productivity Tools and Optimization InfoSphere Warehouse Workload Management Consumability and and Optimization Management Tools Database DB2 Open Source Foundation Compnents Data Growth Management Eclipse Oozie Hadoop HBase Pig Lucene Jaql InfoSphere Optim Seite : 10
  • 11. Information Management IBM Netezza für Big Data Analyse •  IBM Netezza ist eine DWH Appliance mit MPP Architektur, Hardware basierender Abfragebeschleunigung und in-Datenbank Ausführung von Analysealgorithmen •  Das Appliance Konzept ermöglicht extrem hohe Analyse Leistung ohne Tuning •  Ideal geeignet für Big Data Analyse auf Daten, die im relationalen Modell untergebracht werden können •  In-Database Analysen (z.B. Data Mining, Spatial, Predictive Analysis) out of the box •  Zusätzlich Unterstützung von Hadoop Map/Reduce Algorithmen direkt auf Netezza Seite : 11
  • 12. Information Management Integration von IBM Data Warehouse und BigInsights Netezza Infosphere Warehouse SQL Cubing services DB2 JDBC Connector Jaql client JaqlSubmit UDF HDFSRead UDF Http Http Infosphere BigInsights Jaql server Persistent data (MapReduce repository) Seite : 12
  • 13. Information Management Streams und BigInsights – Verfeinerung eines Analysemodells •  Da die Algorithmen sowohl in Streams als auch in Visualisierung sowohl von BigInsights verwendet werden können lassen Echzeit-Analysen als auch sich closed-loop Projekte leicht umsetzen von Analysen auf Basis historischer Daten InfoSphere InfoSphere Streams BigInsights & Data Warehouse 1.  Daten laden Daten 2.  Modell erzeugen und verfeinern Daten- Integration, Laden von Daten, Data Mining, Datenaufbereitung, Control Machine Echtzeit-Analyse, flow Learning, Modell Validierung Statistical Modelling 3.  Adaptives analytisches Modell Seite : 13
  • 14. Information Management Big Data muss ein integrierter Bestandteil der Informationsarchitektur eines Unternehmens sein Enterprise Business Analytics Content Management Information Integration & Federation Data Warehouse Big Data Big Data Information Data Governance Management Seite : 14
  • 15. Information Management BigInsights in der IBM SmartCloud Enterprise •  Ihr eigener Hadoop Cluster in der IBM Cloud in weniger als 30 Minuten •  Benötigt keine eigene Hardware, keine Installation, keine Wartung •  Hadoop Cluster kann in einem beliebigen IBM Cloud Data Center platziert werden •  Geringe Gebühren, die pro Stunde berechnet werden •  Start mit lizenzfreiem BigInsights Basic und einfache Umstellung auf die BigInsights Enterprise Version Seite : 15
  • 16. Information Management BigInsights in der Cloud Einfaches Kennenlernen von Hadoop •  Online Kurs erlaubt das Lernen am Standort ihrer Wahl mit freier Zeiteinteilung •  Kurse und Kursmaterial kostenfrei •  Cloud basierte Sandbox für Übungen •  Bereits mehr als 8500 Teilnehmer Seite : 16
  • 17. Information Management Big Data und Watson Big Data Technology wurde genutzt um die Watson kann Informationen aus Big Data Wissensdatenbank von Watson zu bauen! zur erweiterten Analyse konsumieren! Watson verwendete das Apache Hadoop Framework zur Verteilung der Workload beim Laden der Informationen CRM Data in das Memory" POS Data Social Media ~200 Millionen Textseiten (Um Jeopardy zu spielen!) Analyseergebnisse -  Kaufverhalten -  Soziale Beziehungen -  Trends InfoSphere BigInsights Watson‘s Memory Erweiterte Analyse und Suche Seite : 17
  • 18. THINK Information Management Variety Nutzen sie bereits das Potential ihrer unstrukturierten Daten? Können sie durch Analyse in Echtzeit besser Velocity werden? Sammeln sie die Daten nur oder nutzen sie Volume diese auch? ibm.com/bigdata Seite : 18
  • 19. Wilfried Hoge Leading Technical Sales Professional Senior IT Architect Information Management IBM Deutschland Seite : 19