Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop

1
Benoît de CHATEAUVIEUX
Tél : +33 (0)1 58 56 10 00
Fax : +33 (0)1 58 56 10 01
Hadoop
50, avenue des Champs-Elysées
75008 Paris - FRANCE
© OCTO 2014 www.octo.com
Twitter: @benchato

2
L’histoire d’Hadoop
Le principe et l’architecture d’Hadoop
Un filesystem: HDFS
Un framework (historique) de traitements distribués: MapReduce
Quelques composants de l’écosystème
Démo MapReduce
Démo Hive
Présentation Ambari
De quoi allons nous parler ?

3
Démos sur Hortonworks Data Platform
VM pré-cablée pour tester Hadoop
http://hortonworks.com/products/hortonworks-sandbox/

4
Présentation d’Hadoop – Qu’est ce que c’est ?
Solution Open Source Big Data fournissant un socle
Distribué
Stockage
Traitement
Scalable
Scalabilité linéaire
Stockage local  Rapide et peu cher
SAN  2-10$ / Go
NAS  1-5$/ Go
Local  0.05$ / Go
Clusters de « commodity hardware »
Open Source pour éviter le « vendor lock-in »

6
Pour les systèmes décisionnels, Hadoop s’impose
comme l’architecture de référence sur la marché
Open •Apache Hadoop
Source
•Cloudera
•Hortonworks
•MapR
Pure
Players
•Greenplum (Pivotal)
•IBM InfoSphere BigInsights (CDH)
•Oracle Big data appliance (CDH)
•NetApp Analytics (CDH)
•…
Editeurs
•Amazon Elastic MapReduce
•Microsoft Azure HDInsight (HW)
•Hadoop on Google GCP
Cloud
publique
De nombreuses
solutions d’entreprise
souvent construites autour d’Hadoop

8
HDFS: Hadoop Distributed File System

9
Les composants d’Hadoop – HDFS
Système de fichiers distribué
Scalable horizontalement (ajout de noeuds)
Tolérant aux pannes grâce à la réplication intelligente des blocs (128Mo)
Un noeud HDFS sur chaque DataNode du cluster
HDFS est optimisé
Pour le stockage de gros fichiers en nombre réduit (< 1M de fichiers)
Pour la lecture en bloc de ces fichiers (« full scan »)  Pas de Random Access
Déposer, naviguer, télécharger, supprimer des fichiers
CLI ou interface web
Le NameNode maintient la liste des fichiers et de ses blocs
Analogue à la FAT d’un système de fichiers classique

10
Les composants d’Hadoop – Un cluster HDFS
RÉSEAU LOCAL
Name node Data node
file1 #1
file2 #2
Client
HDFS
Data node
file1 #1
file1 #2
file2 #1
Data node
file2 #2
file1 #2
file2 #1
/file1
1 2
/file2
1 2
RACK 1 RACK 2
Console web

12
Framework de programmation
MapReduce
Parallélisation automatique des jobs Hadoop.
Gestion transparente du mode distribué  agréable pour le développeur !
MapReduce = 2 fonctions
map()
 convertir une donnée en entrée en une série de paires clé/valeur
et reduce()
 appliquer un traitement à l'ensemble des valeurs trouvées pour une clé
 Ie: consolider les données issues du Mapper
Map Reduce est un framework
 Structurant en terme de développement / conception
 Il faut rentrer dans le paradigme

13
Data node
Task tracker Task tracker Task tracker
file1 #1
Data node
file1 #2
Data node
file1 #3
Client
MR
Data node
Job tracker
Name node
Présentation d’Hadoop – Map Reduce

14
Principe fondamental d’Hadoop
Le traitement est envoyé
là où réside la donnée

15
Data node
Task tracker Task tracker Task tracker
file1 #1
Data node
file1 #2
Data node
file1 #3
Mapper
Reducer
Mapper
Reducer
Mapper
Data node
Job tracker
Name node
Shuffle & sort
Client
MR
Présentation d’Hadoop – Map Reduce

16
Exemple de MapReduce
Les Mapper
-lisent leur bloc ligne par ligne
-découpent les lignes en mot
-envoient ces mots aux Reducers
La phase de Shuffle & Sort
-combine les paires qui ont la même clé
-trie
Les Reducers
-somment les 1
-envoient vers la sortie (HDFS) la liste des
mots et le compte associé

17
API native en Java
Bas niveau
Comment créer un job Map Reduce ?
Rapide
Beaucoup de contrôle
Parfois complexe à utiliser pour des tâches complexes (ex: joins)
Trois éléments essentiels
Mapper : classe contenant la méthode map()
Reducer : classe contenant la méthode reduce()
Driver : classe contenant la méthode main() et configurant le job
Il est aussi possible d’écrire des jobs Map Reduce
indépendamment du langage (Shell, Python, Ruby…) grâce à
l’API Streaming Hadoop

27
YARN : Le système d’opération Hadoop

29
Explosion de l’écosystème

30
Explosion de l’écosystème

31
Requêtage SQL sur Hadoop (HiveQL)
Apache Hive
Permet d’accéder simplement aux données
Ouvre Hadoop aux habitués du SQL
Propose des drivers ODBC pour brancher des outils externes (Tableau, etc.)
Origine:
Facebook (90%+ des job Hadoop de Facebook sont générés avec Hive)
Les requêtes HiveQL sont compilés en jobs MapReduce
Lenteur importante (aujourd’hui: pas interactif mais batch)
Faibles performances + Marché très important des BD SQL
 Forte concurrence
Impala (Cloudera)
Spark SQL
Hortonworks de son côté pousse la communauté vers l’optimisation (Stinger)

32
Le projet Stinger d’Hortonworks

39
Continuer à explorer l’écosystème
HBase
Streaming (Storm, …)
…
Optimisation Hadoop (jobs MapReduce, etc.)
Industrialiser le déploiement de son cluster
Chef/Puppet
Capistrano
…
Pour aller plus loin

Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop

Contenu connexe

Tendances (20)

En vedette (20)

Similaire à Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop (20)

Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop

Notes de l'éditeur