SlideShare une entreprise Scribd logo
DataViz BIG DATA 
Cours d’Introduction 
Big Data l Analytics l 
BIG DATA l ANALYTICS l DATAVIZ 
www.data-business.fr
2 
“Big data is like teenage sex: everyone talks about it, nobody 
really knows how to do it, everyone thinks everyone else is doing 
it, so everyone claims they are doing it...” 
Dan Ariely
Sommaire 
Big Data : Définition 
2 Explication des 3V : Volume, Variété, Vélocité 
Quelques exemples d’application 
3 
4 Les technologies derrière le Big Data 
1 
Copyright © Data-Business.fr. 3
4 
Pourquoi BIG Data ? 
L’historique du Big Data 
• 1951 : LEO, le premier ordinateur d’entreprise 
• Quelques exemples connus de Data-Mining 
• Les origines du Big Data dans la médecine génomique 
• Google et Yahoo : pionniers technologiques 
• The Economist : the Data Deluge 
• L’étude McKinsey : Big Data for Business 
Alors, buzz ou révolution ? 
Grâce à des évolutions sociales et des innovations technologiques, le Big Data permet de 
généraliser l’approche Data-Driven à tous les métiers et tous les secteurs
5 
Démarche Data-Driven : l’AB Testing 
QUEL PAGE CONVERTIT LE MIEUX ?
6 
Démarche Data-Driven : l’AB Testing 
QUEL PAGE CONVERTIT LE MIEUX ? 
Principe de l’AB Testing : diffuser des pages différentes à des internautes de manière aléatoire et 
observer les taux de clics et de conversion 
8,26% 11,6% 
Variation de +40%, soit 2,8 millions d’inscriptions en plus
7 
Fondamentaux : les piliers du Big Data 
• Innovations technologiques 
– Objets connectés 
– Cloud computing 
– Data Science, DataViz 
• Evolutions sociales et culturelles 
– Partage d’informations personnelles 
– Quantified Self, VRM 
• Innovations d’usage et opportunités business 
– Acquisition, fidélisation de clients 
– Amélioration des processus 
– Développement du business model
8 
Illustration : le Real-Time Bidding 
RTB : Enchères en temps réel pour la diffusion de publicités display (exemple : publicités youtube) 
L’utilisateur se 
connecte sur 
un site 
Son profil est qualifié 
et scoré (Démographie, 
Comportement, Intention) 
La publicité de l’annonceur 
avec la meilleure enchère 
des diffusée 
L’espace publicitaire est mis aux enchères auprès d’annonceurs
9 
Définition des 3V 
Les 3V sont une grille de lecture établie en 2001 par le cabinet Gartner, qui fait 
référence pour analyser le passage à l’échelle Big Data. 
Volume : massification et automatisation des échanges de 
données 
Variété : multiplication des sources et des types de 
données 
Vélocité : nécessité de collecter et de traiter les données 
en temps-réel 
1 
2 
3 
Depuis, d’autres ont essayé d’approfondir le sujet, en incluant des éléments comme la Validité, 
la Véracité, la Valeur ou la Visibilité des data.
• Données des entreprises : les emails, les documents, les bases de données, tous les historiques de processus métiers (logs)… 
• Données en dehors des entreprises : bases de données externes (publiques ou fournisseurs de données), contenus échangés sur 
les réseaux sociaux ou publiés en ligne, les historiques de navigation et de recherche, les données transmises par les objets 
connectés 
Exemple : Avec l’avènement du smartphone, l’entreprise AT&T a vu ses coûts de stockage d’enregistrements tripler entre 2010 et 2013 
(géolocalisation, historique de recherche, données d’applications…) 
BIG DATA – ESILV – Septembre 2014 10 
3V : Le Volume 
A Quelques chiffres 
• 30 milliards de contenus ajoutés sur Facebook par mois, par plus de 600 millions d’utilisateurs actifs 
• Plus de 2 milliards de vidéos regardées sur Youtube chaque jour 
• En 2008, le nombre d’appareils connectés à Internet a dépassé le nombre d’humains 
• On estime que fin 2011, 20 foyers moyens généraient plus de trafic que la totalité des utilisateurs Internet en 2008 
• 80% des données ont été créées dans les 12 derniers mois 
B Types de données 
Infographie volume big data
BIG DATA – ESILV – Septembre 2014 11 
3V : la Variété 
A Variété des sources 
• Données internes de l’entreprise (CRM, tracking site web, logs…) 
• Données externes (OpenData, Météo, indicateurs économiques…) 
• Données comportementales clients (géolocalisation, réseaux sociaux, wearables…) 
• Données Machine-To-Machine 
B Variété des contenus 
• Données structurées : informations que l’on trouve dans les bases de données 
• Données semi-structurées : contenu composé d’éléments s’adressant à un humain à d’éléments s’adressant à 
une machine (emails, page web) 
• Données non-structurées : contenu ne comportant pas de “balises” structurées lisibles par une machine (pile de 
CVs, enregistrement audio, vidéo…) 
Exemple : la vision “à 360°” du consommateur
A Fast Data, la capacité de traiter de la donnée en mouvement 
BIG DATA – ESILV – Septembre 2014 12 
3V : la Vélocité 
• Grâce aux innovations dans les infrastructures d’échange et dans le domaine du traitement de données 
(Hadoop, MapReduce), la vitesse d’analyse des données à été multipliée 
• Combinés aux outils décisionnels nouvelle génération, ils permettent d’améliorer l’efficacité de l’entreprise grâce 
à l’optimisation en temps réel des activités marketing et des processus internes 
B Exemples d’utilisation 
• Gestion du risque financier (banques, fonds d’investissement) 
• Déclenchement d’actions marketing en temps réel (retargeting, Real-Time Bidding) 
• Optimisation de trajets et alertes sur les risques matériels 
• Smart Grid / Smart City / Smart Building
13 
Illustration des 3V : le programme de surveillance PRISM 
"The NSA has built an infrastructure that allows it to intercept 
almost everything. With this capability, the vast majority of human 
communications are automatically ingested without targeting…” 
E. Snowden
14 
Illustration des 3V : le programme de surveillance PRISM 
Volume 
• L’ensemble des communications (téléphone et web) transitant par les US sont archivées et stockées 
•PRISM intercepte et stocke 30 milliards de «Data Points » par mois dont environ 5Mds d’emails 
Des sources… …et des contenus… 
•Email 
•TélChat audio 
•Photos / Vidéos 
•Login/Mdp 
•Conversations tél 
•Géo-localisation 
•Réseaux sociaux 
•….. 
…pour analyser les 
comportements et 
détecter des risques 
potentiels 
Variété 
Vélocité 
• Couches d’analyse sémantiques et de meta-données en temps réel sur les périmètres considérés « à risque » 
• En cas d’alerte, possibilité de suivre en temps réel l’ensemble des communications et des déplacements d’une cible
15 
Big Data : exemples d’application 
Customer Cen A tric: Acquisition et fidélisation de clients 
• Casinos Harra’s : intervenir avant que les pertes des joueurs ne soient trop élevées 
• Netflix : algorithmes de recommandation 
• Wal-Mart : prédiction de la demande et optimisation des promotions 
B Process Centric : Amélioration de l’efficacité opérationnelle 
• Qantas Airways : maintenance prédictive grâce aux capteurs embarqués 
• IRS : détection des fraudes fiscales 
• UPS : prédiction de la demande et optimisation des trajets 
C Diversification du Business Model 
• Orange : revente de données géolocalisées 
• Monster.com : développement d’une expertise en analyse automatisée des CVs 
• DHL : vente d’indicateurs économiques
16 
4 innovations à l’origine de la vague Big Data 
• Les Objets Connectés et l’automatisation des échanges 
• Le Cloud Computing, Hadoop et NoSQL 
• Les Analytics Avancés 
• La DataViz
17 
Les Objets Connectés 
• Explosion du nombre d’objets communicants : 15 mds en 2014 - 80 mds en 2020 
• Catégories d’objets connectés : 
– Wearables / Quantified Self 
– Capteurs embarqués (machine-to-machine) 
– Domotique & Hi-Tech 
• Exemples d’usage : 
– Etihad Airways : maintenance prédictive (Taleris) 
– Optimisation des services et allocations des ressources publiques 
– Quantified Self : comprendre et maîtriser son comportement
18 
Le Cloud, Hadoop et le NoSQL 
• Le Cloud Computing permet aux entreprises d’externaliser le stockage et le calcul de 
données massives de manière flexible à très faible coût 
 Capacité à héberger, traiter et interroger les données 
 Scalabilité et flexibilité 
 Très bas coût généralement réparti entre stockage et 
requêtes 
- < 0,20 € par giga-octets par mois pour le stockage 
- < 0,05 € par giga-octet traité par requête 
 Interfaces simples et standardisées 
 Facilité d’intégration et déploiement rapide 
Amazon Web Service EC2 
Google Cloud Compute Engine 
IBM SmartCloud Enterprise 
Microsoft Windows Azure 
En croissance de 43,7% en 2013, le marché du 
Cloud devrait s’élever à 9 Mds € en 2014 * 
Une solution adaptée aux enjeux du BIG DATA
19 
Le Cloud, Hadoop et le NoSQL 
• MapReduce, Hadoop et le NoSQL sont en train de remplacer les systèmes de gestion de 
bases de données classiques (relationnelles) sur certaines activités 
• Hadoop : framework Java libre permettant de créer des applications distribuées et scalables. Basé sur un 
système de fichiers distribués (HDFS), conçu pour stocker de très gros volumes de données sur un grand 
nombre de machines. Intègre le patron d’architecture MapReduce dans lequels sont effectués les calculs 
parralèles 
– Distributions : Cloudera, HortonWorks, MapR Technologies 
• Le NoSQL (not only SQL) : systèmes de gestion de bases de données à faible structuration relationnelle basé 
sur un modèle clé-valeur, facilement scalable en multipliant les serveurs. 
– Produits : Cassandra (Twitter), BigTable (Google), Hbase (Facebook), MongoDB, Neo4j
20 
Les Analytics Avancés / Data Science 
Data Science : quelques techniques 
• Régression : analyse d’une variable en fonction de variables explicatives 
 Qualité du vin = 12.145 + 0.00117 x (précipitations Oct. à Mars) + 0.0614 x (temp. moy Avr. à Sept.) – 
0.00386 x (précipitations Août et Sept) (source) 
1 
• Clustering : groupements d’individus aux caractéristiques communes 
 Permet d’optimiser le ciblage et la personnalisation de l’offre (algorithmes de recommandation…) 
2 
3 
• Text Mining (ou Traitement Automatisé du Langage) 
 Exemple : analyse des commentaires web client chez Disneyland et au Puy du Fou 
• 4 
Design Expérimental : test d’hypothèses sur des groupes aléatoires
21 
La DataViz 
A Définition 
« L’ensemble des techniques de représentation graphique et d’exploration visuelle de données 
quantitatives permettant de traduire un ensemble de données brutes en information afin de faciliter la 
prise de décision » 
• Information interprétable : claire, quelque soit le volume, la nature ou la provenance des données 
• Pertinente : qui réponde à un objectif métier dans un contexte défini 
• Novatrice : qui fournisser une perspective différente qui permet de découvrir de nouvelles opportunités 
B Types de Visualisations 
• Les méthodes graphiques : diagrammes, cartes de chaleur, diagrammes de Mekko 
• Les Visualisations interactives : D3.js, HTML5 (Snake Oil, Metropolitain.io) 
• Les infographies
22 
La DataViz : preuve du concept 
A Le quarter d’Ascombe
23 
La DataViz : preuve du concept 
A Le quarter d’Ascombe
24 
Prochains cours 
1. Cours d’Introduction 
2. Applications du Big Data en Entreprise 
3. L’individu dans l’ère Big Data 
4. L’ubiquité des données
25 
Présentation de Data-Business.fr 
Vincent de Stoecklin 
 HEC Paris, Mines ParisTech 
 Fondateur Data-Business.fr 
 Capgemini Consulting 
COMPÉTENCES FONCTIONNELLES 
 Stratégie Big Data 
 Transformation digitale 
 Webmarketing & Growth Hacking 
 Data Science 
• 1er site Big Data / Analytics / Dataviz 
• Expertise Usages et Applications Big Data 
• Missions de conseil et formations 
• Communauté de Data Scientists 
www.data-business.fr
CONTACT 
vincent@data-business.fr 
06.72.48.39.84 
BIG DATA l ANALYTICS l DATAVIZ 
www.data-business.fr

Contenu connexe

PDF
BigData_Chp1: Introduction à la Big Data
PPTX
Big data
PPSX
Introduction au BIG DATA
PPTX
PPTX
Big data
PDF
BigData_Chp3: Data Processing
PDF
Technologies pour le Big Data
PDF
Chapitre1 introduction
BigData_Chp1: Introduction à la Big Data
Big data
Introduction au BIG DATA
Big data
BigData_Chp3: Data Processing
Technologies pour le Big Data
Chapitre1 introduction

Tendances (20)

PPTX
Chp1 - Introduction à l'Informatique Décisionnelle
PPTX
Chp2 - Les Entrepôts de Données
PDF
Cours Big Data Chap2
PDF
Big Data, Hadoop & Spark
PDF
BigData_Chp2: Hadoop & Map-Reduce
PPTX
DataWarehouse
PDF
Etude sur le Big Data
PDF
Cours Big Data Chap1
PDF
Big Data : concepts, cas d'usage et tendances
PPTX
Introduction au big data
PPTX
La Big Data et ses applications
PDF
Une introduction à Hive
PPTX
Introduction aux bases de données
PDF
Partie1BI-DW2019
PDF
BigData_TP1: Initiation à Hadoop et Map-Reduce
PPTX
Introduction à la big data v3
PDF
Cours Big Data Chap5
PDF
Découvrez Power BI - [webinaire avec demo]
PDF
Les BD NoSQL
PDF
BigData_TP3 : Spark
Chp1 - Introduction à l'Informatique Décisionnelle
Chp2 - Les Entrepôts de Données
Cours Big Data Chap2
Big Data, Hadoop & Spark
BigData_Chp2: Hadoop & Map-Reduce
DataWarehouse
Etude sur le Big Data
Cours Big Data Chap1
Big Data : concepts, cas d'usage et tendances
Introduction au big data
La Big Data et ses applications
Une introduction à Hive
Introduction aux bases de données
Partie1BI-DW2019
BigData_TP1: Initiation à Hadoop et Map-Reduce
Introduction à la big data v3
Cours Big Data Chap5
Découvrez Power BI - [webinaire avec demo]
Les BD NoSQL
BigData_TP3 : Spark
Publicité

En vedette (20)

PDF
Un introduction à Pig
PDF
Valtech - Du BI au Big Data, une révolution dans l’entreprise
PPTX
The Truth Behind The Greatest Assassinations In American
PPTX
Filmindustry 131019052154-phpapp01 ir n
PDF
Crm Analytique vision et convictions
PDF
I love BIG DATA
PPTX
Conférence Big Data HEC Paris 2015
PPTX
Memoire recherche
PDF
Mémoire de fin d'étude - La big data et les réseaux sociaux
PPTX
Hive ppt (1)
PPTX
Introduction to Pig
PPTX
Introduction to Apache Pig
DOCX
Big data et marketing :Vers une analyse prédictif de d'acte d'achat
PDF
Mieux exploiter ses données pour augmenter ses ventes avec microsoft data mining
PPTX
Présentation Big Data et REX Hadoop
PDF
Une introduction à MapReduce
PPTX
NoSql : conception des schémas, requêtage, et optimisation
PDF
Big Data Analytics for connected home
PDF
Bases de données NoSQL
PDF
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Un introduction à Pig
Valtech - Du BI au Big Data, une révolution dans l’entreprise
The Truth Behind The Greatest Assassinations In American
Filmindustry 131019052154-phpapp01 ir n
Crm Analytique vision et convictions
I love BIG DATA
Conférence Big Data HEC Paris 2015
Memoire recherche
Mémoire de fin d'étude - La big data et les réseaux sociaux
Hive ppt (1)
Introduction to Pig
Introduction to Apache Pig
Big data et marketing :Vers une analyse prédictif de d'acte d'achat
Mieux exploiter ses données pour augmenter ses ventes avec microsoft data mining
Présentation Big Data et REX Hadoop
Une introduction à MapReduce
NoSql : conception des schémas, requêtage, et optimisation
Big Data Analytics for connected home
Bases de données NoSQL
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Publicité

Similaire à Big data - Cours d'introduction l Data-business (20)

PDF
Introduction au Big data
PDF
Big data : avis d'Experts
PDF
Big Data: quelle valeur pour l'entreprise
PDF
2014-12-16-G9plus-LB-Big-Data
PDF
Big data, l'accélération d'innovation
PDF
Big Data RenaissanceNumerique
PPTX
Big Data Des méandres des outils au potentiel business
PDF
690992112-Big-Data-chap-1-introduction.pdf
PDF
Big Data by Soft Computing - Lille
PPTX
Ch1Introduction sur Big data.pptx
PDF
Livre blanc "Big Data" de l'EBG
PDF
Livre blanc #G9plus : Big Data - l'accélérateur d'innovation
PDF
Maîtriser concrètement le Big Data
PDF
Guide bigdata 2015_2016
PDF
Guide du Big Data 2015 - 2016
PDF
Point de Vue Sopra Consulting sur le Big Data
PPTX
634092592-Untitledddddddddddddddddd.pptx
PPTX
Qu'est ce que le big data - Présentation AIMM 30 octobre
PDF
L'Encyclopédie des Big Data 2016
PDF
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Introduction au Big data
Big data : avis d'Experts
Big Data: quelle valeur pour l'entreprise
2014-12-16-G9plus-LB-Big-Data
Big data, l'accélération d'innovation
Big Data RenaissanceNumerique
Big Data Des méandres des outils au potentiel business
690992112-Big-Data-chap-1-introduction.pdf
Big Data by Soft Computing - Lille
Ch1Introduction sur Big data.pptx
Livre blanc "Big Data" de l'EBG
Livre blanc #G9plus : Big Data - l'accélérateur d'innovation
Maîtriser concrètement le Big Data
Guide bigdata 2015_2016
Guide du Big Data 2015 - 2016
Point de Vue Sopra Consulting sur le Big Data
634092592-Untitledddddddddddddddddd.pptx
Qu'est ce que le big data - Présentation AIMM 30 octobre
L'Encyclopédie des Big Data 2016
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance

Big data - Cours d'introduction l Data-business

  • 1. DataViz BIG DATA Cours d’Introduction Big Data l Analytics l BIG DATA l ANALYTICS l DATAVIZ www.data-business.fr
  • 2. 2 “Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it...” Dan Ariely
  • 3. Sommaire Big Data : Définition 2 Explication des 3V : Volume, Variété, Vélocité Quelques exemples d’application 3 4 Les technologies derrière le Big Data 1 Copyright © Data-Business.fr. 3
  • 4. 4 Pourquoi BIG Data ? L’historique du Big Data • 1951 : LEO, le premier ordinateur d’entreprise • Quelques exemples connus de Data-Mining • Les origines du Big Data dans la médecine génomique • Google et Yahoo : pionniers technologiques • The Economist : the Data Deluge • L’étude McKinsey : Big Data for Business Alors, buzz ou révolution ? Grâce à des évolutions sociales et des innovations technologiques, le Big Data permet de généraliser l’approche Data-Driven à tous les métiers et tous les secteurs
  • 5. 5 Démarche Data-Driven : l’AB Testing QUEL PAGE CONVERTIT LE MIEUX ?
  • 6. 6 Démarche Data-Driven : l’AB Testing QUEL PAGE CONVERTIT LE MIEUX ? Principe de l’AB Testing : diffuser des pages différentes à des internautes de manière aléatoire et observer les taux de clics et de conversion 8,26% 11,6% Variation de +40%, soit 2,8 millions d’inscriptions en plus
  • 7. 7 Fondamentaux : les piliers du Big Data • Innovations technologiques – Objets connectés – Cloud computing – Data Science, DataViz • Evolutions sociales et culturelles – Partage d’informations personnelles – Quantified Self, VRM • Innovations d’usage et opportunités business – Acquisition, fidélisation de clients – Amélioration des processus – Développement du business model
  • 8. 8 Illustration : le Real-Time Bidding RTB : Enchères en temps réel pour la diffusion de publicités display (exemple : publicités youtube) L’utilisateur se connecte sur un site Son profil est qualifié et scoré (Démographie, Comportement, Intention) La publicité de l’annonceur avec la meilleure enchère des diffusée L’espace publicitaire est mis aux enchères auprès d’annonceurs
  • 9. 9 Définition des 3V Les 3V sont une grille de lecture établie en 2001 par le cabinet Gartner, qui fait référence pour analyser le passage à l’échelle Big Data. Volume : massification et automatisation des échanges de données Variété : multiplication des sources et des types de données Vélocité : nécessité de collecter et de traiter les données en temps-réel 1 2 3 Depuis, d’autres ont essayé d’approfondir le sujet, en incluant des éléments comme la Validité, la Véracité, la Valeur ou la Visibilité des data.
  • 10. • Données des entreprises : les emails, les documents, les bases de données, tous les historiques de processus métiers (logs)… • Données en dehors des entreprises : bases de données externes (publiques ou fournisseurs de données), contenus échangés sur les réseaux sociaux ou publiés en ligne, les historiques de navigation et de recherche, les données transmises par les objets connectés Exemple : Avec l’avènement du smartphone, l’entreprise AT&T a vu ses coûts de stockage d’enregistrements tripler entre 2010 et 2013 (géolocalisation, historique de recherche, données d’applications…) BIG DATA – ESILV – Septembre 2014 10 3V : Le Volume A Quelques chiffres • 30 milliards de contenus ajoutés sur Facebook par mois, par plus de 600 millions d’utilisateurs actifs • Plus de 2 milliards de vidéos regardées sur Youtube chaque jour • En 2008, le nombre d’appareils connectés à Internet a dépassé le nombre d’humains • On estime que fin 2011, 20 foyers moyens généraient plus de trafic que la totalité des utilisateurs Internet en 2008 • 80% des données ont été créées dans les 12 derniers mois B Types de données Infographie volume big data
  • 11. BIG DATA – ESILV – Septembre 2014 11 3V : la Variété A Variété des sources • Données internes de l’entreprise (CRM, tracking site web, logs…) • Données externes (OpenData, Météo, indicateurs économiques…) • Données comportementales clients (géolocalisation, réseaux sociaux, wearables…) • Données Machine-To-Machine B Variété des contenus • Données structurées : informations que l’on trouve dans les bases de données • Données semi-structurées : contenu composé d’éléments s’adressant à un humain à d’éléments s’adressant à une machine (emails, page web) • Données non-structurées : contenu ne comportant pas de “balises” structurées lisibles par une machine (pile de CVs, enregistrement audio, vidéo…) Exemple : la vision “à 360°” du consommateur
  • 12. A Fast Data, la capacité de traiter de la donnée en mouvement BIG DATA – ESILV – Septembre 2014 12 3V : la Vélocité • Grâce aux innovations dans les infrastructures d’échange et dans le domaine du traitement de données (Hadoop, MapReduce), la vitesse d’analyse des données à été multipliée • Combinés aux outils décisionnels nouvelle génération, ils permettent d’améliorer l’efficacité de l’entreprise grâce à l’optimisation en temps réel des activités marketing et des processus internes B Exemples d’utilisation • Gestion du risque financier (banques, fonds d’investissement) • Déclenchement d’actions marketing en temps réel (retargeting, Real-Time Bidding) • Optimisation de trajets et alertes sur les risques matériels • Smart Grid / Smart City / Smart Building
  • 13. 13 Illustration des 3V : le programme de surveillance PRISM "The NSA has built an infrastructure that allows it to intercept almost everything. With this capability, the vast majority of human communications are automatically ingested without targeting…” E. Snowden
  • 14. 14 Illustration des 3V : le programme de surveillance PRISM Volume • L’ensemble des communications (téléphone et web) transitant par les US sont archivées et stockées •PRISM intercepte et stocke 30 milliards de «Data Points » par mois dont environ 5Mds d’emails Des sources… …et des contenus… •Email •TélChat audio •Photos / Vidéos •Login/Mdp •Conversations tél •Géo-localisation •Réseaux sociaux •….. …pour analyser les comportements et détecter des risques potentiels Variété Vélocité • Couches d’analyse sémantiques et de meta-données en temps réel sur les périmètres considérés « à risque » • En cas d’alerte, possibilité de suivre en temps réel l’ensemble des communications et des déplacements d’une cible
  • 15. 15 Big Data : exemples d’application Customer Cen A tric: Acquisition et fidélisation de clients • Casinos Harra’s : intervenir avant que les pertes des joueurs ne soient trop élevées • Netflix : algorithmes de recommandation • Wal-Mart : prédiction de la demande et optimisation des promotions B Process Centric : Amélioration de l’efficacité opérationnelle • Qantas Airways : maintenance prédictive grâce aux capteurs embarqués • IRS : détection des fraudes fiscales • UPS : prédiction de la demande et optimisation des trajets C Diversification du Business Model • Orange : revente de données géolocalisées • Monster.com : développement d’une expertise en analyse automatisée des CVs • DHL : vente d’indicateurs économiques
  • 16. 16 4 innovations à l’origine de la vague Big Data • Les Objets Connectés et l’automatisation des échanges • Le Cloud Computing, Hadoop et NoSQL • Les Analytics Avancés • La DataViz
  • 17. 17 Les Objets Connectés • Explosion du nombre d’objets communicants : 15 mds en 2014 - 80 mds en 2020 • Catégories d’objets connectés : – Wearables / Quantified Self – Capteurs embarqués (machine-to-machine) – Domotique & Hi-Tech • Exemples d’usage : – Etihad Airways : maintenance prédictive (Taleris) – Optimisation des services et allocations des ressources publiques – Quantified Self : comprendre et maîtriser son comportement
  • 18. 18 Le Cloud, Hadoop et le NoSQL • Le Cloud Computing permet aux entreprises d’externaliser le stockage et le calcul de données massives de manière flexible à très faible coût  Capacité à héberger, traiter et interroger les données  Scalabilité et flexibilité  Très bas coût généralement réparti entre stockage et requêtes - < 0,20 € par giga-octets par mois pour le stockage - < 0,05 € par giga-octet traité par requête  Interfaces simples et standardisées  Facilité d’intégration et déploiement rapide Amazon Web Service EC2 Google Cloud Compute Engine IBM SmartCloud Enterprise Microsoft Windows Azure En croissance de 43,7% en 2013, le marché du Cloud devrait s’élever à 9 Mds € en 2014 * Une solution adaptée aux enjeux du BIG DATA
  • 19. 19 Le Cloud, Hadoop et le NoSQL • MapReduce, Hadoop et le NoSQL sont en train de remplacer les systèmes de gestion de bases de données classiques (relationnelles) sur certaines activités • Hadoop : framework Java libre permettant de créer des applications distribuées et scalables. Basé sur un système de fichiers distribués (HDFS), conçu pour stocker de très gros volumes de données sur un grand nombre de machines. Intègre le patron d’architecture MapReduce dans lequels sont effectués les calculs parralèles – Distributions : Cloudera, HortonWorks, MapR Technologies • Le NoSQL (not only SQL) : systèmes de gestion de bases de données à faible structuration relationnelle basé sur un modèle clé-valeur, facilement scalable en multipliant les serveurs. – Produits : Cassandra (Twitter), BigTable (Google), Hbase (Facebook), MongoDB, Neo4j
  • 20. 20 Les Analytics Avancés / Data Science Data Science : quelques techniques • Régression : analyse d’une variable en fonction de variables explicatives  Qualité du vin = 12.145 + 0.00117 x (précipitations Oct. à Mars) + 0.0614 x (temp. moy Avr. à Sept.) – 0.00386 x (précipitations Août et Sept) (source) 1 • Clustering : groupements d’individus aux caractéristiques communes  Permet d’optimiser le ciblage et la personnalisation de l’offre (algorithmes de recommandation…) 2 3 • Text Mining (ou Traitement Automatisé du Langage)  Exemple : analyse des commentaires web client chez Disneyland et au Puy du Fou • 4 Design Expérimental : test d’hypothèses sur des groupes aléatoires
  • 21. 21 La DataViz A Définition « L’ensemble des techniques de représentation graphique et d’exploration visuelle de données quantitatives permettant de traduire un ensemble de données brutes en information afin de faciliter la prise de décision » • Information interprétable : claire, quelque soit le volume, la nature ou la provenance des données • Pertinente : qui réponde à un objectif métier dans un contexte défini • Novatrice : qui fournisser une perspective différente qui permet de découvrir de nouvelles opportunités B Types de Visualisations • Les méthodes graphiques : diagrammes, cartes de chaleur, diagrammes de Mekko • Les Visualisations interactives : D3.js, HTML5 (Snake Oil, Metropolitain.io) • Les infographies
  • 22. 22 La DataViz : preuve du concept A Le quarter d’Ascombe
  • 23. 23 La DataViz : preuve du concept A Le quarter d’Ascombe
  • 24. 24 Prochains cours 1. Cours d’Introduction 2. Applications du Big Data en Entreprise 3. L’individu dans l’ère Big Data 4. L’ubiquité des données
  • 25. 25 Présentation de Data-Business.fr Vincent de Stoecklin  HEC Paris, Mines ParisTech  Fondateur Data-Business.fr  Capgemini Consulting COMPÉTENCES FONCTIONNELLES  Stratégie Big Data  Transformation digitale  Webmarketing & Growth Hacking  Data Science • 1er site Big Data / Analytics / Dataviz • Expertise Usages et Applications Big Data • Missions de conseil et formations • Communauté de Data Scientists www.data-business.fr
  • 26. CONTACT vincent@data-business.fr 06.72.48.39.84 BIG DATA l ANALYTICS l DATAVIZ www.data-business.fr

Notes de l'éditeur

  • #11: AT&T : 100M consommateurs Légalement tenue de garder un enregistrement quotidien EN 2010, elle avait 193 000 enregistrements Entre 2010 et 2013, avec la localisation, historique de navigation, données d’applis, ses coûts de stockage on triplé
  • #22: http://www.informationisbeautiful.net/play/snake-oil-supplements/