SlideShare ist ein Scribd-Unternehmen logo
Hadoop Einführung
Dev Friday
Frankfurt
Hadoop Einführung @codecentric
Every 2 Days We Create As Much Information
As We Did Up To 2003
Eric Schmidt
Weltweit
MongoDB
Hadoop
Cassandra
Google Trends
Deutschland
MongoDB
Hadoop
Cassandra
Google Trends
Einführung Hadoop Ausblick
Einführung
Big Data
3V
Volume
Data in Rest
Velocity
Data in Motion
Variety
Data in Many
Forms
Scale up vs. Scale out
many “small” nodesBig single node system
Advantages
Problems
• Transparent for database system
• Management complexity constant
• Expensive hardware
• Limited scalability
Advantages
Problems
• Less expensive hardware
• High scalability
• Load balancing necessary
• Distributed lock and replication

protocols
• Increased management complexity
• Data distribution necessary
• Increased error rate
Key-Value-Datenbanken
Dokumentenorientierte
Datenbanken
Spaltenorientierte Datenbanken Graph Datenbanken
Hadoop
Sqoop
Oozie
Flume
Hadoop
Pig
HBase
Mahout
Drill
Lucene
Hive
Spark
Ambari
HDFS
HCatalog
Kafka
Yarn
MapR
Zookeeper
Cassandra
Spark
COMPUTE,
SEARCH
ANALYTICS,
MACHINEL.
PERSIST
MONITOR,
ADMINISTER
DESCRIBE,
DEVELOP
INGEST,
PROPAGATE
Mahout Drill
OozieAmbari
FlumeKafka Sqoop
Pig
HBase
Hive
HDFS MapR
HCatalog
Lucene
Zookeeper
Cassandra
Spark
Name Node
Secondary Name
Node
Data Node Data Node ….. Data Node
Periodic check point
Master
Slave
HDFS
Name Node
Secondary Name
Node
Data Node Data Node ….. Data Node
Name Node verwaltet Verzeichnisse, Dateien im HDFS und Blöcke in den Data
Nodes
Data Nodes enthalten die eigentlichen Dateien und sind zuständig die
Auslieferung der Dateien für die Anfragen.
Master
Slave
Second. NN überprüft periodisch den NN und logt die checkpoints um den NN
bei Absturz neuzustarten.
HDFS
Job Tracker
Task Tracker Task Tracker ….. Task Tracker
Master
Slave
Map Reduce
Job Tracker
Task Tracker Task Tracker ….. Task Tracker
Master
Slave
Job Tracker verwaltet die Jobs und Ressourcen im Cluster
Task Tracker eigentliche Ausführung von MapReduce-Jobs zuständig.
Map Reduce
http://2.bp.blogspot.com/-o6GdA8CBDv0/T-g_H8Dso6I/AAAAAAAAAY4/B21YgDYvxM8/s1600/MR.png
Map Reduce
Demo
Ausblick
http://de.hortonworks.com/products/hortonworks-sandbox/#install
Ersten Schritte…
Download Hortonworks Sandbox
5GB
Hadoop Einführung @codecentric
Hadoop Einführung @codecentric
Danke
Akhlaq Malik

Weitere ähnliche Inhalte

PDF
Hadoop in modernen BI-Infrastrukturen
PDF
Big Data mit Apache Hadoop
PDF
Hadoop 2.0 - The Next Level
PDF
Hadoop aus IT-Operations-Sicht - Teil 1 (Hadoop-Grundlagen)
PDF
Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?
PDF
BI mit Apache Hadoop (CDH)
PDF
Webinar Big Data - Enterprise Readiness mit Hadoop
PDF
MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 2
Hadoop in modernen BI-Infrastrukturen
Big Data mit Apache Hadoop
Hadoop 2.0 - The Next Level
Hadoop aus IT-Operations-Sicht - Teil 1 (Hadoop-Grundlagen)
Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?
BI mit Apache Hadoop (CDH)
Webinar Big Data - Enterprise Readiness mit Hadoop
MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 2

Was ist angesagt? (9)

PPTX
Das Back to Basics – Webinar 1: Einführung in NoSQL
PDF
MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 1
PDF
Sql on-hadoop-fuer-praktikables-bi-auf-big-data-zorn-benz-osbi-workshop-05.03...
PPT
SCAPE Skalierbare Langzeitarchivierung
PPTX
Prasentation Hadoop HDFS + YARN
PPTX
Portfolio 2016
PPTX
4×4: Big Data in der Cloud
PDF
Realtime BigData Step by Step mit Lambda, Kafka, Storm und Hadoop
PDF
Ceph Object Store
Das Back to Basics – Webinar 1: Einführung in NoSQL
MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 1
Sql on-hadoop-fuer-praktikables-bi-auf-big-data-zorn-benz-osbi-workshop-05.03...
SCAPE Skalierbare Langzeitarchivierung
Prasentation Hadoop HDFS + YARN
Portfolio 2016
4×4: Big Data in der Cloud
Realtime BigData Step by Step mit Lambda, Kafka, Storm und Hadoop
Ceph Object Store
Anzeige

Andere mochten auch (11)

PPTX
Hadoop und SAS für Einsteiger
PDF
Logical Data Warehouse - SQL mit Oracle DB und Hadoop
PDF
Introduction to Hadoop : A bird eye's view | Abhishek Mukherjee
ODP
HBase introduction talk
PDF
Which Hadoop Distribution to use: Apache, Cloudera, MapR or HortonWorks?
PPTX
Gartner Data and Analytics Summit: Bringing Self-Service BI & SQL Analytics ...
PDF
Hadoop Tutorial with @techmilind
 
PDF
Oracle hadoop doag-big-data_09_2014_gpi
PDF
Schweine latein-vortrag
PDF
Hadoop Overview & Architecture
 
PDF
Wie baue ich ein DataWarehouse auf Basis Hadoop
Hadoop und SAS für Einsteiger
Logical Data Warehouse - SQL mit Oracle DB und Hadoop
Introduction to Hadoop : A bird eye's view | Abhishek Mukherjee
HBase introduction talk
Which Hadoop Distribution to use: Apache, Cloudera, MapR or HortonWorks?
Gartner Data and Analytics Summit: Bringing Self-Service BI & SQL Analytics ...
Hadoop Tutorial with @techmilind
 
Oracle hadoop doag-big-data_09_2014_gpi
Schweine latein-vortrag
Hadoop Overview & Architecture
 
Wie baue ich ein DataWarehouse auf Basis Hadoop
Anzeige

Ähnlich wie Hadoop Einführung @codecentric (20)

PDF
Rbu amanox big_data_intro_infrastruktur
PDF
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
PDF
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
PDF
A NoSQL Summer - The Year After
PDF
Big Data Konnektivität
PDF
Einfuehrung in Apache Spark
PPTX
What’s new in Apache Solr 4.7 und Elasticsearch 1.1
PPTX
Elasticsearch Cluster Management mit Marvel
PDF
BATbern53 ELCA Analyticsdatenhaltung in der Cloud
PDF
SQL on Hadoop für praktikables BI auf Big Data
PDF
Fusion der Welten: Hadoop als DWH-Backend bei ProSieben
PPTX
Webinar: Typische MongoDB Anwendungsfälle (Common MongoDB Use Cases) 
PDF
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
PPTX
Big/Smart/Fast Data – a very compact overview
PDF
Cloud Computing für die Verarbeitung von Metadaten
PPTX
OOP 2014 SQL oder NoSQL - die Auswahl der richtigen Datenbankplattform für di...
PDF
Where are all transactions gone? Was in_der_cloud_alles_verboten_ist
PPTX
Apache Solr vs. Elasticsearch - And The Winner Is...! Ein Vergleich der Shoot...
PDF
Textanalyse mit UIMA und Hadoop
PDF
Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...
Rbu amanox big_data_intro_infrastruktur
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
A NoSQL Summer - The Year After
Big Data Konnektivität
Einfuehrung in Apache Spark
What’s new in Apache Solr 4.7 und Elasticsearch 1.1
Elasticsearch Cluster Management mit Marvel
BATbern53 ELCA Analyticsdatenhaltung in der Cloud
SQL on Hadoop für praktikables BI auf Big Data
Fusion der Welten: Hadoop als DWH-Backend bei ProSieben
Webinar: Typische MongoDB Anwendungsfälle (Common MongoDB Use Cases) 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Big/Smart/Fast Data – a very compact overview
Cloud Computing für die Verarbeitung von Metadaten
OOP 2014 SQL oder NoSQL - die Auswahl der richtigen Datenbankplattform für di...
Where are all transactions gone? Was in_der_cloud_alles_verboten_ist
Apache Solr vs. Elasticsearch - And The Winner Is...! Ein Vergleich der Shoot...
Textanalyse mit UIMA und Hadoop
Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...

Mehr von imalik8088 (6)

PDF
Redis
PDF
Sharia
PDF
Vom ewigen Aufschieben (Procrastination)
PDF
Sweden
PDF
India cultural differences
PDF
Tod Jesu (urdu: Wafat-e-Masih)
Redis
Sharia
Vom ewigen Aufschieben (Procrastination)
Sweden
India cultural differences
Tod Jesu (urdu: Wafat-e-Masih)

Hadoop Einführung @codecentric