SlideShare une entreprise Scribd logo
Distributed
programing
(HADOOP && JAVA)
Elaboré par :
Maaroufi Mohamed Amine
Chemkhi Mohamed Rebai
Ahmed
Les Problèmes du Big Data
Les Solutions du Big Data
Hadoop
Motivation pour le Big Data
Depuis l'aube de la civilisation jusqu'en 2003, l'homme a
généré 5 exabytes de données. Maintenant, nous
produisons 5 exabytes de données tous les deux jours .. et
le rythme accélère.
Eric Schmidit,
Executive Chairman, Google
“ “
Les problèmes du Big Data
L’explosion quantitative des données
numériques a obligé les chercheurs à
trouver de nouvelles manières de voir et
d’analyser le monde.
Il s’agit de découvrir de nouveaux ordres
de grandeur concernant la capture, la
recherche, le partage, le stockage, l’analyse
et la présentation de données.
c'est le principe du big data qui
révolutionne peu à peu notre quotidien.
Les Solutions de Big Data
Le Big Data est un concept global que l’on peut
définir comme un ensemble d’outils et
d’algorithmes qui permettent de stocker,
visualiser et analyser des quantités très
importantes de données non structurées grâce à
des milliers de machines capables de les traiter.
Définition
Les caractéristiques du Big Data
Volume Variété Vitesse
Base de Données NOSQL
implémentent des
systèmes de stockage
considérés comme plus
performants que le
traditionnel SQL pour
l'analyse de données en
masse (orienté clé/valeur,
document, colonne ou
graphe).
Cloud Computing
le Big Data exige une
capacité matérielle
hors du commun, que
soit pour le stockage
comme pour les
ressources
processeurs
nécessaires au
traitement.
Le Cloud est la pour
cela.
Les principales technologies de Big Data
Les infrastructures
de serveurs
pour distribuer les
traitements , sur des
dizaines, centaines,
voire milliers de
nœuds. C'est ce qu'on
appelle le traitement
massivement parallèle
Map Reduce
Est un modèle de
programmation
conçu
spécifiquement pour
lire, traiter et écrire
des volumes de
données très
importants.
›La capacité de stockage des disques
durs augmente mais le temps de
lecture croît également,
›Il devient alors nécessaire de
paralléliser les traitements en
stockant sur plusieurs unités de
disques durs.
La Solution Hadoop ?
› Apache Hadoop (High-availability distributed
object-oriented platform) est un système
distribué qui répond à ces problématiques,
› Hadoop est capable de stocker et traiter de
manière efficace un grand nombre de
donnés, en reliant plusieurs serveurs.
yahoo utilise
Hadoop pour
gérer son
système de
contrôle des
spams. Il analyse
environ 20,5
milliards de
Hadoop est la
base de Facebook
Messaging, et de
même, il est
utilisé pour gérer
les messages
envoyés à partir
de PC ou
téléphone mobile.
Moteur de
recommandatio
n de produits
(ex : Amazon,
Netflix).
Domaines d’utilisation du Hadoop
› Hadoop
Distributed File
System (HDFS)
Le système de
gestion de fichiers
distribués permet
de stocker les
données sur les
machines du
cluster.
› Hadoop
Common
Contient les
bibliothèques
et les utilitaires
nécessaires
aux autres
modules
Hadoop
› Hadoop
YARN
Une
plate-forme
chargée de la
gestion des
ressources
informatiques
du clusters
Composition Hadoop
★ HDFS est développé pour
supporter les applications avec
de grands volumes de données,
comme les fichiers individuels
dont la quantité peut se compter
en teraoctets.
★ HDFS utilise des tailles de blocs largement
supérieures à ceux des systèmes classiques
(la taille est fixée à 64 Mo. Il est toutefois
possible de monter à 128 Mo, 256 Mo, 512 Mo
voire 1 Go)
Hadoop Distributed FileSystem (HDFS)
★ Par défaut, les données chargée
dans un cluster Hadoop sont
stockées en trois exemplaires, sur
des nœuds différents
★ chaque nœud d'un cluster correspond à
un sous-ensemble du volume global de
données du cluster. Pour augmenter ce
volume global, il suffira d'ajouter de
nouveaux nœuds
› Un Namenode est un service central
(généralement appelé aussi maître) qui
s'occupe de gérer l'état du système de fichiers,
› Association entre fichiers et blocs de données,
› Association entre blocs et emplacement sur
les DataNodes,
› Moteur de réplication des blocs.
HDFS (Namenode)
› Le Namenode dans l'architecture Hadoop est un point unique
de défaillance (Single Point of Failure en anglais). Si ce
service est arrêté, il n'y a pas moyen de pouvoir extraire les
blocs d'un fichier donné,
› Son fonctionnement est relativement simple puisque le
Namenode secondaire vérifie périodiquement l'état du
Namenode principal et copier les métadonnées,
› Si le Namenode principal est indisponible, le Namenode
secondaire prend sa place.
HDFS (Secondary Namenode)
› Est un Serveur de Bloc permet:
-Stocker les données sur le système de fichier,
-Stocker les métadonnées des blocs,
-Fournir les métadonnées et les données aux clients.
› Les Datanodes sont sous les ordres du Namenode et sont
surnommés les Workers.
HDFS (DataNode)
HDFS architecture
http://www.wingnity.com/blog/hadoop-hdfs-common-interview-questions-and-answers/
› MapReduce est une stratégie de parallélisation et
lorsqu’on parle de MapReduce dans Hadoop, il s’agit
de son implémentation.
› Map : est la fonction qui permet de
découper les données en plusieurs
pièces.
› Reduce : est la fonction permet
d’assembler tous ces résultats en un
résultat final.
Map Reduce
MapReduce && Hadoop
Hadoop avec java
Démo
HBase est une base NoSQL distribuée orienté
colonne, horizontalement scalable et tolérante
aux pannes où la charge de travail en terme de
mémoire et de calcul (CPU) ainsi que le
stockage est distribué sur toutes les machines
du cluster HBase.
HBase la base NoSQL de Hadoop
HBase est inspirée des publications de
Google sur BigTable. Comme BigTable, elle est
une base de données orientée colonnes.
Basées sur une architecture maître/esclave,
les bases de données de ce type sont capables
de gérer d’énormes quantités d’informations
(plusieurs milliards de lignes par table).
Table : dans HBase les données sont
organisées dans des tables.
Row : dans chaque table les données sont
organisées dans des ligne. Une lignes est
identifiée par une clé unique (RowKey).
Column Family : Les données au sein d’une ligne
sont regroupées par column family.
Le modèle de données
Column qualifier : L’accès aux données au
sein d’une column family se fait via le
column qualifier ou column. Ce dernier n’est
pas spécifié à la création de la table mais
plus tôt à l’insertion de la donnée.
Cell : La combinaison du RowKey, de la
Column Family ainsi que la Column qualifier
identifie d’une manière unique une cellule.
Motivation Pour le Big Data
★ Chief Data Officer (CDO) : Il est le Directeur de la data
,Le salaire annuel brut, avec 10-15 années
d’expérience, est aux alentours de 120 000 euros,
★ Business Intelligence Manager :Son travail consiste à
faciliter les prises de décision,
★ Data Scientist : Il est responsable de la collecte, du
traitement, de l’évaluation et de l’analyse des
données massives,
★ Le Data Miner :le Sherlock Holmes de la data.
Métiers Créés par le Big Data
40 ZetaOctet
Données numérique
crées dans le monde
en 2020
48,6 milliards de dollars
seront dépensés dans le
Big Data en 2019
Conclusion
Hadoop n’est pas la solution que l’on va
sortir à tout bout de champ. Le but est de
manipuler de très gros volumes de données.
C’est clairement un outil qui va devenir de
plus en plus utile avec l’explosion des
données récoltées par les objets
connectées ou toutes les traces que nous
laissons sur Internet.
Merci pour votre attention
✓ https://fr.slideshare.net/hugfrance/introduction-hdfs
✓ http://www.journaldunet.com/developpeur/outils/mapreduce.shtml
✓ http://mbaron.developpez.com/tutoriels/bigdata/hadoop/introduction-hdfs-map-reduce/
#LIII-A
✓ https://www.france-science.org/Hadoop-une-technologie-en-plein.html
✓ http://www.lemagit.fr/definition/Hadoop-Distributed-File-System-HDFS
✓ https://www.slideshare.net/narangv43/seminar-presentation-hadoop
✓ http://substance.etsmtl.ca/hadoop-larchitecte-du-big-data/
✓ https://blog.groupe-sii.com/presentation-hadoop-distributed-file-system
✓ https://www.lcl.com/guides-pratiques/zooms-economiques/big-data-banque.jsp
Les réferences

Contenu connexe

PDF
Big Data, Hadoop & Spark
PDF
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
PDF
BigData_Chp5: Putting it all together
PDF
BigData_Chp2: Hadoop & Map-Reduce
PPTX
Présentation Big Data et REX Hadoop
PDF
BigData_Chp4: NOSQL
PPTX
Introduction à Hadoop
PDF
Hadoop Hbase - Introduction
Big Data, Hadoop & Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
BigData_Chp5: Putting it all together
BigData_Chp2: Hadoop & Map-Reduce
Présentation Big Data et REX Hadoop
BigData_Chp4: NOSQL
Introduction à Hadoop
Hadoop Hbase - Introduction

Tendances (20)

PDF
BigData_TP3 : Spark
PDF
Introduction aux bases de données NoSQL
PDF
Tech day hadoop, Spark
PDF
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
PDF
Big Data : Une Introduction
PPTX
Presentation Hadoop Québec
PPTX
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
PDF
BigData_TP2: Design Patterns dans Hadoop
PPTX
Les technologies big data avec speech commentaries
PPTX
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigData
PPTX
Presentation cassandra
PDF
Hadoop MapReduce - OSDC FR 2009
PPTX
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
PDF
Hadoop and friends : introduction
PPTX
Big data
PPTX
Data mining et data science
PPTX
PDF
Cours Big Data Chap5
PPTX
infrastructures de données geosud : des standards à la réalité
PDF
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP3 : Spark
Introduction aux bases de données NoSQL
Tech day hadoop, Spark
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Big Data : Une Introduction
Presentation Hadoop Québec
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
BigData_TP2: Design Patterns dans Hadoop
Les technologies big data avec speech commentaries
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigData
Presentation cassandra
Hadoop MapReduce - OSDC FR 2009
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Hadoop and friends : introduction
Big data
Data mining et data science
Cours Big Data Chap5
infrastructures de données geosud : des standards à la réalité
BigData_TP1: Initiation à Hadoop et Map-Reduce
Publicité

Similaire à Distributed programing (hadoop && java) version finale.pptx (20)

PDF
Cours_de_Big_Data_LF2_IG_EbhkjbhkhfhSB.pdf
PPTX
Big data: NoSQL comme solution
PPTX
Spad big data - sfds - 2016
PPSX
SUITE-BIG-DATA-COURS-3rd-computer-science-FSSM
PPSX
786231075-Cours-Big-DataDataDataData.ppsx
PDF
Big_Data_Cours.pdf
PPTX
Big data
PPTX
Hadoop
PDF
Chapitre-2-Le-Big-Data-Hadoop-HDFS-et-MapReduce.pdf
PPTX
Social Network Analysis Utilizing Big Data Technology
PPTX
Big Data Visualization PowerPoint Templates.pptx
PDF
ch3-IntroNoSql_avec_DW_ING2 dans l'isimm.pdf
PDF
Les mégadonnées ou Big Data sont des collections d'informations qui auraient ...
PPSX
chap1-big-data.pps pour comprendre le problème de big data
PDF
598262625-Presentation-D-HADOooooooOP.pdf
PDF
Morning with MongoDB Paris 2012 - Fast Connect
PDF
Alphorm.com Formation Big Data & Hadoop : Le Guide Complet
PDF
SAS Forum Soft Computing Théâtre
PDF
dddd dzdz edede edededededededededededed
PDF
Big data
Cours_de_Big_Data_LF2_IG_EbhkjbhkhfhSB.pdf
Big data: NoSQL comme solution
Spad big data - sfds - 2016
SUITE-BIG-DATA-COURS-3rd-computer-science-FSSM
786231075-Cours-Big-DataDataDataData.ppsx
Big_Data_Cours.pdf
Big data
Hadoop
Chapitre-2-Le-Big-Data-Hadoop-HDFS-et-MapReduce.pdf
Social Network Analysis Utilizing Big Data Technology
Big Data Visualization PowerPoint Templates.pptx
ch3-IntroNoSql_avec_DW_ING2 dans l'isimm.pdf
Les mégadonnées ou Big Data sont des collections d'informations qui auraient ...
chap1-big-data.pps pour comprendre le problème de big data
598262625-Presentation-D-HADOooooooOP.pdf
Morning with MongoDB Paris 2012 - Fast Connect
Alphorm.com Formation Big Data & Hadoop : Le Guide Complet
SAS Forum Soft Computing Théâtre
dddd dzdz edede edededededededededededed
Big data
Publicité

Plus de Ahmed rebai (16)

PDF
Dev fest GDG beja tensorflow presenatation
PDF
Dialogflow
PPTX
Reactjs workshop
PDF
Reactjs workshop (1)
PDF
Reclami
PDF
Machine learning presentation (gdg beja)
PDF
Cloud computing presentation
PDF
Tensorflow presentation
PDF
Machine learning presentation (gdg beja)
PPTX
Gestion du stress
PDF
Life is a pitch
PPTX
Présentation hack the road
PPTX
Isamm clubs
PPTX
Bmy bit presentation
PDF
Rapport pfe
PPTX
Final présention [recovered]
Dev fest GDG beja tensorflow presenatation
Dialogflow
Reactjs workshop
Reactjs workshop (1)
Reclami
Machine learning presentation (gdg beja)
Cloud computing presentation
Tensorflow presentation
Machine learning presentation (gdg beja)
Gestion du stress
Life is a pitch
Présentation hack the road
Isamm clubs
Bmy bit presentation
Rapport pfe
Final présention [recovered]

Distributed programing (hadoop && java) version finale.pptx

  • 1. Distributed programing (HADOOP && JAVA) Elaboré par : Maaroufi Mohamed Amine Chemkhi Mohamed Rebai Ahmed
  • 2. Les Problèmes du Big Data Les Solutions du Big Data Hadoop Motivation pour le Big Data
  • 3. Depuis l'aube de la civilisation jusqu'en 2003, l'homme a généré 5 exabytes de données. Maintenant, nous produisons 5 exabytes de données tous les deux jours .. et le rythme accélère. Eric Schmidit, Executive Chairman, Google “ “
  • 4. Les problèmes du Big Data
  • 5. L’explosion quantitative des données numériques a obligé les chercheurs à trouver de nouvelles manières de voir et d’analyser le monde.
  • 6. Il s’agit de découvrir de nouveaux ordres de grandeur concernant la capture, la recherche, le partage, le stockage, l’analyse et la présentation de données. c'est le principe du big data qui révolutionne peu à peu notre quotidien.
  • 7. Les Solutions de Big Data
  • 8. Le Big Data est un concept global que l’on peut définir comme un ensemble d’outils et d’algorithmes qui permettent de stocker, visualiser et analyser des quantités très importantes de données non structurées grâce à des milliers de machines capables de les traiter. Définition
  • 9. Les caractéristiques du Big Data Volume Variété Vitesse
  • 10. Base de Données NOSQL implémentent des systèmes de stockage considérés comme plus performants que le traditionnel SQL pour l'analyse de données en masse (orienté clé/valeur, document, colonne ou graphe). Cloud Computing le Big Data exige une capacité matérielle hors du commun, que soit pour le stockage comme pour les ressources processeurs nécessaires au traitement. Le Cloud est la pour cela. Les principales technologies de Big Data
  • 11. Les infrastructures de serveurs pour distribuer les traitements , sur des dizaines, centaines, voire milliers de nœuds. C'est ce qu'on appelle le traitement massivement parallèle Map Reduce Est un modèle de programmation conçu spécifiquement pour lire, traiter et écrire des volumes de données très importants.
  • 12. ›La capacité de stockage des disques durs augmente mais le temps de lecture croît également, ›Il devient alors nécessaire de paralléliser les traitements en stockant sur plusieurs unités de disques durs.
  • 14. › Apache Hadoop (High-availability distributed object-oriented platform) est un système distribué qui répond à ces problématiques, › Hadoop est capable de stocker et traiter de manière efficace un grand nombre de donnés, en reliant plusieurs serveurs.
  • 15. yahoo utilise Hadoop pour gérer son système de contrôle des spams. Il analyse environ 20,5 milliards de Hadoop est la base de Facebook Messaging, et de même, il est utilisé pour gérer les messages envoyés à partir de PC ou téléphone mobile. Moteur de recommandatio n de produits (ex : Amazon, Netflix). Domaines d’utilisation du Hadoop
  • 16. › Hadoop Distributed File System (HDFS) Le système de gestion de fichiers distribués permet de stocker les données sur les machines du cluster. › Hadoop Common Contient les bibliothèques et les utilitaires nécessaires aux autres modules Hadoop › Hadoop YARN Une plate-forme chargée de la gestion des ressources informatiques du clusters Composition Hadoop
  • 17. ★ HDFS est développé pour supporter les applications avec de grands volumes de données, comme les fichiers individuels dont la quantité peut se compter en teraoctets. ★ HDFS utilise des tailles de blocs largement supérieures à ceux des systèmes classiques (la taille est fixée à 64 Mo. Il est toutefois possible de monter à 128 Mo, 256 Mo, 512 Mo voire 1 Go) Hadoop Distributed FileSystem (HDFS)
  • 18. ★ Par défaut, les données chargée dans un cluster Hadoop sont stockées en trois exemplaires, sur des nœuds différents ★ chaque nœud d'un cluster correspond à un sous-ensemble du volume global de données du cluster. Pour augmenter ce volume global, il suffira d'ajouter de nouveaux nœuds
  • 19. › Un Namenode est un service central (généralement appelé aussi maître) qui s'occupe de gérer l'état du système de fichiers, › Association entre fichiers et blocs de données, › Association entre blocs et emplacement sur les DataNodes, › Moteur de réplication des blocs. HDFS (Namenode)
  • 20. › Le Namenode dans l'architecture Hadoop est un point unique de défaillance (Single Point of Failure en anglais). Si ce service est arrêté, il n'y a pas moyen de pouvoir extraire les blocs d'un fichier donné, › Son fonctionnement est relativement simple puisque le Namenode secondaire vérifie périodiquement l'état du Namenode principal et copier les métadonnées, › Si le Namenode principal est indisponible, le Namenode secondaire prend sa place. HDFS (Secondary Namenode)
  • 21. › Est un Serveur de Bloc permet: -Stocker les données sur le système de fichier, -Stocker les métadonnées des blocs, -Fournir les métadonnées et les données aux clients. › Les Datanodes sont sous les ordres du Namenode et sont surnommés les Workers. HDFS (DataNode)
  • 23. › MapReduce est une stratégie de parallélisation et lorsqu’on parle de MapReduce dans Hadoop, il s’agit de son implémentation. › Map : est la fonction qui permet de découper les données en plusieurs pièces. › Reduce : est la fonction permet d’assembler tous ces résultats en un résultat final. Map Reduce
  • 26. HBase est une base NoSQL distribuée orienté colonne, horizontalement scalable et tolérante aux pannes où la charge de travail en terme de mémoire et de calcul (CPU) ainsi que le stockage est distribué sur toutes les machines du cluster HBase. HBase la base NoSQL de Hadoop
  • 27. HBase est inspirée des publications de Google sur BigTable. Comme BigTable, elle est une base de données orientée colonnes. Basées sur une architecture maître/esclave, les bases de données de ce type sont capables de gérer d’énormes quantités d’informations (plusieurs milliards de lignes par table).
  • 28. Table : dans HBase les données sont organisées dans des tables. Row : dans chaque table les données sont organisées dans des ligne. Une lignes est identifiée par une clé unique (RowKey). Column Family : Les données au sein d’une ligne sont regroupées par column family. Le modèle de données
  • 29. Column qualifier : L’accès aux données au sein d’une column family se fait via le column qualifier ou column. Ce dernier n’est pas spécifié à la création de la table mais plus tôt à l’insertion de la donnée. Cell : La combinaison du RowKey, de la Column Family ainsi que la Column qualifier identifie d’une manière unique une cellule.
  • 30. Motivation Pour le Big Data
  • 31. ★ Chief Data Officer (CDO) : Il est le Directeur de la data ,Le salaire annuel brut, avec 10-15 années d’expérience, est aux alentours de 120 000 euros, ★ Business Intelligence Manager :Son travail consiste à faciliter les prises de décision, ★ Data Scientist : Il est responsable de la collecte, du traitement, de l’évaluation et de l’analyse des données massives, ★ Le Data Miner :le Sherlock Holmes de la data. Métiers Créés par le Big Data
  • 33. 48,6 milliards de dollars seront dépensés dans le Big Data en 2019
  • 35. Hadoop n’est pas la solution que l’on va sortir à tout bout de champ. Le but est de manipuler de très gros volumes de données. C’est clairement un outil qui va devenir de plus en plus utile avec l’explosion des données récoltées par les objets connectées ou toutes les traces que nous laissons sur Internet.
  • 36. Merci pour votre attention
  • 37. ✓ https://fr.slideshare.net/hugfrance/introduction-hdfs ✓ http://www.journaldunet.com/developpeur/outils/mapreduce.shtml ✓ http://mbaron.developpez.com/tutoriels/bigdata/hadoop/introduction-hdfs-map-reduce/ #LIII-A ✓ https://www.france-science.org/Hadoop-une-technologie-en-plein.html ✓ http://www.lemagit.fr/definition/Hadoop-Distributed-File-System-HDFS ✓ https://www.slideshare.net/narangv43/seminar-presentation-hadoop ✓ http://substance.etsmtl.ca/hadoop-larchitecte-du-big-data/ ✓ https://blog.groupe-sii.com/presentation-hadoop-distributed-file-system ✓ https://www.lcl.com/guides-pratiques/zooms-economiques/big-data-banque.jsp Les réferences