IBM - Big Value from Big Data

Wilfried Hoge
Leading Technical Sales Professional
Senior IT Architect Information Management
IBM Deutschland

Big Value from Big Data
Fertig werden mit den 3 wichtigsten
Herausforderungen: Volume, Velocity und
Variety [=V3]

Seite : 1

Information Management

Was ist Big Data? 2020

•  Datenmengen wachsen immer
schneller – in allen Unternehmen
44x
mehr Daten im
35 zettabytes

und in allen Branchen kommenden
Jahrzehnt
•  Die Daten werden häufig von
einer großen Anzahl Menschen
(z.B. Social Media) oder von
80%
der Daten sind
Maschinen (z.B. Ticker oder
unstrukturiert
Messgeräte) generiert
•  Die meisten Daten sind nicht
einfach strukturiert sondern 2009
haben komplexe oder 800,000 petabytes
unbekannte Strukturen und
der Aufwand für die Analyse und
Anpassung der Strukturierung ist sehr groß
•  Informationen in diesen Daten enthalten große Chancen und großen Wert und
daher ist die effiziente Analyse dieser Daten von strategischer Bedeutung
•  Big ist relativ zu dem, was bisher an Daten in einem Unternehmen verarbeitet
werden konnte, und bezieht sich sowohl auf die Datenmenge als auch auf die
Verarbeitungsgeschwindigkeit

Seite : 2


Die Big Data Herausforderung
Nutzen zu ziehen aus diesen riesigen Datenmengen, die so verschieden
strukturiert sind und so schnell entstehen, ist mit bisherigen Technologien nicht
möglich gewesen.
Eine Technologie für BigData muss geeignet sein, die drei wichtigsten Dimensionen von
BigData zu beherrschen: Variety, Velocity, Volume (=V3)

Verarbeitung der Komplexität
von relationalen und nicht-
Variety relationalen Datentypen und
Schemas

Analyse von Daten direkt
Velocity während sie entstehen

Effizientes skalieren für große
Volume Datenmengen

Seite : 3


Volume und Velocity – zwei Dimensionen für Big Data
Exa
Wind Turbine Placement &
Operation
Up to
10,000 PBs of data
Times Analysis time to 3 days from 3 weeks
Peta larger 1220 IBM iDataPlex nodes
Data Scale

DeepQA
Tera
100s GB for Deep Analytics
Data at Rest
Data Scale

3 sec/decision
Power7, 15TB memory

Giga
Telco Promotions
100,000 records/sec, 6B/day
Traditional Data 10 ms/decision
Mega Warehouse and 270TB for Deep Analytics
Business Intelligence
Up to 10,000
Data in Motion times faster Security
600,000 records/sec, 50B/day
Kilo
1-2 ms/decision
yr mo wk day hr min sec … ms µs
320TB for Deep Analytics
Occasional Frequent Real-time
Decision Frequency

Seite : 4


Massiv parallele Verarbeitung für Volume und Velocity

•  Divide and conquer ist eine bewährte Methode zur Bewältigung von
umfangreichen Berechnungen
•  Jeder Knoten verwaltet einen Teil der Daten
•  Jeder Knoten kann Algorithmen auf seinen Daten ausführen
•  Viele verteilte Knoten lösen ein Problem, indem sie parallel Teilaufgaben lösen
•  Eine übergeordnete Kontrolle schickt die passenden Algorithmen zu den Daten

Anfrageknoten

Berechnungs-/Speicherknoten
Seite : 5


Variety – Speicherung und Analyse neuer Datentypen

•  Daten aus den Quellen Web (z.B. Logs, Clickstream),
Dokumente (z.B. Texte, Protokolle, E-Mails), RFIDs (XML,
Spatial) werden in vielen Unternehmen bereits gesammelt
•  Die Datenstrukturen sind in den wenigsten Fällen geeignet für
die Verarbeitung in traditionellen DWH Umgebungen, die
meist auf relationale Datenstrukturen beschränkt sind
•  Aufwändige ETL Prozesse und/oder Betrachtung von
Ausschnitten machen sie konsumierbar
•  Diese Daten aber in Gänze zu analysieren erfordert eine
direkte Verarbeitung von komplexeren Datentypen
•  Hinzu kommen Datentypen, die nicht leicht in relationale
Strukturen zu überführen sind und daher i.d.R. gar nicht
berücksichtigt wurden (z.B. Audio, Bilder, Video)

•  Datenspeicher, die in der Lage sind die Daten in ihrer Vielfalt
direkt zu behandeln, und Algorithmen, die diese Daten
verarbeiten, sind notwendig.

Seite : 6


Variety – Explorative Analysen für Big Data

•  IBM Research hat Algorithmen zur explorativen
Analyse entwickelt
•  Diese Algorithmen erlauben die Analyse von Daten
in ihrem ursprünglichen Datenformat

Text Statistics

Image & Video Mining

Acoustic Predictive Times Series

Financial Geospatial Mathematical

IBM macht den Unterschied – signifikante Investitionen in die
Forschung und Entwicklung von Analysealgorithmen für Big Data
Seite : 7


Big
Data
Ansatz
ergänzt
das
bisherige
Vorgehensmodell

Traditionelles Vorgehen Big Data Vorgehen
Strukturierung & Wiederholbare Analyse Iterative & Forschende Analyse

Fachbereich IT
Bestimmen, welche Stellen eine Plattform
Fragen gestellt werden für kreative Erkundung
bereit

IT Fachbereich
Strukturiert die Daten, Erkundet, welche
um die Fragen zu Informationen in den
beantworten Daten stecken

Monatlicher Umsatz Reputation der Marke
Profitabilität Produkt Strategie
Kundenanalyse Maximierung der Ausutzung

Seite : 8


Eine Kombination von zwei Technologien für Big Data

•  Um den 3 Dimensionen von Big Data – Volume, Velocity und Variety – gerecht
zu werden ist eine Kombination von zwei Technologien sinnvoll

•  Analyse von Big Data während der Entstehung – Streaming Analytics
•  Die Daten werden analysiert sobald sie im System ankommen
•  Die einfließenden Datenströme werden analysiert und können mit gespeicherten
Informationen in Verbindung gebracht werden
•  Aus der Analyse werden sofort Aktivitäten (Events) abgeleitet
➯  InfoSphere Streams

•  Speicherung von großen Datenmengen und flexible Analyse dieser Daten –
Internet Scale Analytics
•  Die Daten werden gespeichert und stehen für verschiedenste Analysen bereit
•  Operationen auf diesen Daten können effizient ausgeführt werden
•  Basiert auf dem Hadoop Framework
➯  InfoSphere BigInsights

Seite : 9


IBM Big Data Platform
IBM Big Data Client and Partner Marketing
Solutions Solutions
IBM Unica

Big Data Accelerators Content
Analytics
ECM
Text Statistics Financial Geospatial Acoustic

Image/Video Mining Times Series Mathematical Business
Analytics
Cognos & SPSS
Connectors Applications Blueprints
Warehouse

InforSphere Information Server
Appliance
Big Data Enterprise Engines
IBM Netezza

Master Data
Management
InfoSphere MDM
InfoSphere Streams InfoSphere BigInsights
Data Warehouse
Productivity Tools and Optimization InfoSphere
Warehouse

Workload Management Consumability and
and Optimization Management Tools Database

DB2
Open Source Foundation Compnents
Data Growth
Management
Eclipse Oozie Hadoop HBase Pig Lucene Jaql
InfoSphere Optim

Seite : 10


IBM Netezza für Big Data Analyse

•  IBM Netezza ist eine DWH Appliance mit MPP
Architektur, Hardware basierender
Abfragebeschleunigung und in-Datenbank
Ausführung von Analysealgorithmen

•  Das Appliance Konzept ermöglicht extrem hohe
Analyse Leistung ohne Tuning

•  Ideal geeignet für Big Data Analyse auf Daten, die im
relationalen Modell untergebracht werden können

•  In-Database Analysen (z.B. Data Mining, Spatial,
Predictive Analysis) out of the box
•  Zusätzlich Unterstützung von Hadoop Map/Reduce
Algorithmen direkt auf Netezza

Seite : 11


Integration von IBM Data Warehouse und BigInsights
Netezza Infosphere Warehouse

SQL
Cubing services DB2

JDBC Connector Jaql client JaqlSubmit UDF HDFSRead UDF

Http
Http

Infosphere BigInsights

Jaql server
Persistent data (MapReduce repository)

Seite : 12


Streams und BigInsights – Verfeinerung eines
Analysemodells
•  Da die Algorithmen sowohl in Streams als auch in
Visualisierung sowohl von
BigInsights verwendet werden können lassen Echzeit-Analysen als auch
sich closed-loop Projekte leicht umsetzen von Analysen auf Basis
historischer Daten

InfoSphere InfoSphere
Streams BigInsights &
Data Warehouse
1.  Daten laden
Daten

2.  Modell erzeugen
und verfeinern Daten-
Integration,
Laden von Daten, Data Mining,
Datenaufbereitung, Control Machine
Echtzeit-Analyse, flow Learning,
Modell Validierung Statistical
Modelling

3.  Adaptives
analytisches Modell
Seite : 13


Big Data muss ein integrierter Bestandteil der
Informationsarchitektur eines Unternehmens sein
Enterprise Business Analytics
Content Management

Information Integration &
Federation
Data Warehouse

Big Data
Big Data
Information
Data Governance
Management

Seite : 14


BigInsights in der IBM SmartCloud Enterprise

•  Ihr eigener Hadoop Cluster in der IBM
Cloud in weniger als 30 Minuten

•  Benötigt keine eigene Hardware, keine
Installation, keine Wartung

•  Hadoop Cluster kann in einem
beliebigen IBM Cloud Data Center
platziert werden

•  Geringe Gebühren, die pro Stunde
berechnet werden

•  Start mit lizenzfreiem BigInsights Basic
und einfache Umstellung auf die
BigInsights Enterprise Version

Seite : 15


BigInsights in der Cloud
Einfaches Kennenlernen von Hadoop
•  Online Kurs erlaubt das Lernen am
Standort ihrer Wahl mit freier
Zeiteinteilung

•  Kurse und Kursmaterial kostenfrei

•  Cloud basierte Sandbox für Übungen

•  Bereits mehr als 8500 Teilnehmer

Seite : 16


Big Data und Watson
Big Data Technology wurde genutzt um die Watson kann Informationen aus Big Data
Wissensdatenbank von Watson zu bauen! zur erweiterten Analyse konsumieren!

Watson verwendete das Apache
Hadoop Framework zur Verteilung der
Workload beim Laden der Informationen CRM Data
in das Memory" POS Data Social Media

~200 Millionen Textseiten
(Um Jeopardy zu spielen!)
Analyseergebnisse
-  Kaufverhalten
-  Soziale Beziehungen
-  Trends
InfoSphere BigInsights

Watson‘s
Memory Erweiterte
Analyse und
Suche

Seite : 17

THINK

Variety Nutzen sie bereits das Potential ihrer
unstrukturierten Daten?

Können sie durch Analyse in Echtzeit besser
Velocity werden?

Sammeln sie die Daten nur oder nutzen sie
Volume diese auch?

ibm.com/bigdata
Seite : 18

Wilfried Hoge
Leading Technical Sales Professional
Senior IT Architect Information Management
IBM Deutschland

Seite : 19

IBM - Big Value from Big Data

Weitere ähnliche Inhalte

Was ist angesagt? (20)

Andere mochten auch (20)

Ähnlich wie IBM - Big Value from Big Data (12)

Mehr von Wilfried Hoge (11)

IBM - Big Value from Big Data