SlideShare une entreprise Scribd logo
2
Plus lue
6
Plus lue
Chp5 – ”Putting it All Together"
Big Data, BI, NOSQL
Big Data
GL4 (Option Management des Systèmes d'Information) - 2016
Dr. Lilia SFAXI
www.liliasfaxi.wix.com/liliasfaxi
Slide 1
Big Data, BI, NOSQL
• Pas de solution miracle qui fonctionne dans toutes les situations
• Le métier et le type des données définissent la solution adéquate
§ Si la compagnie X réussit à gérer ses 500M utilisateurs avec MySQL, cela ne
veut pas dire que vous arriverez à bien gérer vos 100M d’utilisateurs avec
MySQL
§ Si la compagnie Y utilise MongoDB pour gérer ses 100M utilisateurs, cela ne
veut pas dire que vous y arriverez aussi!
• A good engineer can make bad product to work
• A bad engineer can make good product to suck
• Il faut tout d’abord comprendre le métier:
§ Sources, types et croissance des données
§ Consommation des données
o Utilisateur final, API, outils de reporting, interne…
§ SLA (Service Level Agreement), temps de réponse,
§ Coût
§ Penser à faire évoluer l’architecture avec la croissance de votre entreprise, ne
pas penser trop gros depuis le jour 1
2
Que choisir?
Big Data, BI, NOSQL
• SQL:
§ Relationnel et transactionnel
• NOSQL
§ Non-relationnel, distribué, haute performance, et hautement évolutif
• Analytiques et Business Intelligence
§ Entrepôt de données centralisé et unique, analyses métier, reporting
• Big Data, Hadoop et MapReduce
§ Distribué, hautement évolutif, tolérance aux fautes et traitement des
données parallèle
• Combinaison des quatre:
§ Commencer avec SQL et/ou NOSQL, et envisager ensuite BigData/Analytiques
3
D’abord, comprendre les objectifs des différentes technologies…
Big Data, BI, NOSQL
• Choix entre deux classes de technologie :
§ Systèmes fournissant des capacités opérationnelles pour des charges de
travail quotidiennes, interactives et en temps réel, où les données sont
principalement capturées et sauvegardées
§ Systèmes fournissant des capacités analytiques pour une analyse
rétrospective et complexe qui peut toucher toutes ou la plupart des données.
• Deux classes complémentaires et en général utilisées ensemble
• Systèmes opérationnels : Bases de données SQL et NOSQL
§ Satisfaire des requêtes concurrentes
§ Exhiber une latence faible (temps de réponse très rapide)
• Systèmes analytiques : Entrepôts de données et MapReduce
§ Se concentrent sur un grand débit
§ Requêtes peuvent être très complexes et toucher plusieurs sinon toutes les
données du système à tout moment
4
Ensuite, savoir ce qu’on veut!
BIG DATA & NOSQL
Chp5: Putting it all together
5
Big Data & NOSQL
• HDFS représente l’un des atouts majeurs de Hadoop car:
§ Distribué, en cluster
§ Facilement extensible
§ Offre une haute disponibilité
• Mais, il offre certains désavantages:
§ Utilise un système de stockage direct (DAS: Direct Attached Storage), pas
de SAN (Storage Area Network)
§ Problème de disponibilité pour les utilisateurs des anciennes versions de
Hadoop, où le NameNode n’est pas dupliqué
§ Les utilisateurs utilisent déjà une base de données distribuée, et ne
veulent pas perdre du temps à copier les données d’un système à un autre
• Plusieurs options sont proposées pour remplacer HDFS, dont
l’utilisation de bases NOSQL
6
Remplacer HDFS par NOSQL
Big Data & NOSQL
• C’est l’approche la plus utilisée
• NOSQL offrent des données diversifiées, en grand nombre et de divers types,
regroupées dans un endroit unique.
• Map Reduce pourra parcourir ces données, les filtrer, les traiter et afficher les
résultats
§ Profiter des capacités de stockage des bases NOSQL
§ Profiter de la tolérance aux pannes pour éviter la perte de données
§ Extraction facile des données, plus facile qu’une manipulation d’un fichier textuel
§ Moins de risques de données erronées ou non conformes
• Les résultats obtenus pourront être stockés:
§ Dans un fichier texte, excel…
§ Dans une base NOSQL, pour profiter de la capacité de stockage
§ Dans une base SQL pour faciliter le reporting
7
Utiliser le MapReduce pour interroger les bases NOSQL
BIG DATA & BUSINESS INTELLIGENCE
Chp5: Putting it all together
8
9
Sources Statistiques
Extraction
Transformation
Chargement
Affichage
Reporting
Bases	de	Données
Fichiers
ERP/CRM
DW
Entrepôt	de	Données Serveur	OLAP
Requête
Analyse
Exploration
Structured’un SystèmeDécisionnel
Big Data & BI
• Big Data s’impose pour les technologies touchant à l’analytique
• « La BI traditionnelle est morte, vive la Big BI! »
• Données peu structurées, de plus en plus nombreuses et diversifiées
(Variété)
§ Impossible d’exploiter cette volumétrie de données avec les techniques de BI
traditionnelle
§ Risque d’obtenir des infrastructures très complexes
• Données doit être traitées à chaud (Vélocité)
§ Opération d’ETL en BI se fait périodiquement, dans des moments où le système
opérationnel est au repos
§ Impossible de rafraîchir les tableaux de bord d’aide à la décision plus qu’une
fois par jour, ce qui est maintenant requis pour certains métiers (e-
commerçants, par ex.)
§ Outils décisionnels sont, certes, robustes, mais paraissent trop figés pour les
besoins actuels
• Données publiques
10
BI Traditionnelle, morte?
Approches d’Intégration
• D’après [Roe-2012], il existe 6 approches pour
combiner NOSQL avec BI
• Approche 1: Rapports NOSQL
§ Payer un développeur pour construire des applications
de reporting sur les systèmes NOSQL
§ Profite des avantages de NOSQL, mais coûteuse car
besoin d’un développeur spécialisé
§ Pas besoin d’outils BI, a seulement une seule source de
données
• Approche 2: Rapports NOSQL configurables
§ Plus flexible que l’approche 1, car offre à l’utilisateur la
possibilité de configurer son propre rapport
§ Systèmes plus ad-hoc, mais plus coûteux que
l’approche 1
§ Problème d’intégration avec les autres données SQL-
centric
11
NOSQL/BIG Data avec SQL/BI (1/3)
Application	
Reporting NOSQL
Application	 Reporting
Avancée
Config
+
Approches d’Intégration
• Approche 3: NOSQL + MySQL
§ Développement d’une application ETL pour
transporter les données d’une base NOSQL
vers la base MySQL, utilisée par les outils de
BI riches comme Pentaho et Jasper.
§ Moins coûteuse que 1 et 2, car pas besoin
de développeur pour un outil de reporting
spécifique
§ Mais, manque de fraîcheur de données, perte
de la richesse offerte par NOSQL
• Approche 4: NOSQL comme source de
données ETL
§ Données extraites à partir des bases NOSQL
et systèmes Big Data, et intégrées avec les
autres données de l’entreprise dans
l’entrepôt
§ Première architecture permettant d’intégrer
les données
§ Perte de l’expressivité de NOSQL pendant la
phase ETL
12
NOSQL/BIG Data avec SQL/BI (2/3)
Outil	BI
ETL
ETL
ERP
Outil	BI
Entrepôt
Approches d’Intégration
• Approche 5 : Programmes NOSQL dans les
outils BI
§ Développement d’un programme pour
l’outil BI qui le connecte à la base NOSQL
§ Pas besoin de définir les rapports un à un
comme dans Approche 1, mais étaler les
données NOSQL pour les rendre
compréhensibles par l’outil de reporting
• Approche 6 : Système d’intégration
§ Ajout d’un système tiers EII (Enterprise
Information Integration) entre l’outil BI et
le système NOSQL/BigData, qui agit comme
intermédiaire
§ Peut discuter avec les deux parties,
traduit les données en modèles utilisables
par l’outil BI
13
NOSQL/BIG Data avec SQL/BI (3/3)
Outil	BI
Outil	BI
EII
BI & NOSQL
• Avantages du NOSQL
§ Stockage efficace et évolutif
§ La possibilité de toujours stocker plus de données
§ Coûts réduits des outils
§ Outils analytiques plus riches: utilisation de l’analyse de graphes, des
frameworks Map-Reduce… au lieu du filtrage classique et « group by » de
SQL
§ Structures de données flexibles tolérance aux fautes
• Mais
§ NOSQL n’est pas « propre », car la structure est évolutive, donc facilement
modifiable, alors la BI cherche avant tout à rendre les différentes sources
de données (en général des bases de production plutôt anarchiques)
structurées, solides et faites pour durer
§ NOSQL surtout pratique pour les analyses ponctuelles
14
Entrepôts de données NOSQL?
BI & NOSQL
• On pourra utiliser NOSQL comme entrepôt de données, pour profiter de :
§ Sa capacité de stockage
§ Son évolutivité
§ Sa tolérance aux fautes
§ Sa rapidité d’insertion
§ Peut-être même de la flexibilité de sa structure dans le cas d’un besoin
d’évolution de l’entrepôt.
• Mais:
§ On ne pourra pas (trop) bénéficier de la diversité des formats de données
supportées
§ L’utilisateur sera pénalisé par les restrictions de requêtage des bases NOSQL,
et leur manque de flexibilité et de consistance.
• Les Bases orientées colonnes pourraient s’avérer être les plus appropriées
pour un entrepôt de données, car:
§ Elles définissent un schéma clair
§ Elles supportent de très grands volumes de données,
§ Elles sont très rapides en terme d’écriture par rapport aux autres
15
Entrepôts de données NOSQL?
• Présentations
§ Venu Anuganti, « SQL, NOSQL and Big Data in Architecture », 2012
• Sites
§ MongoDB, BigData Explained, http://www.mongodb.com/big-data-explained
• Articles
§ Romain Chaumais, “Le Big Data ou la mort annoncée de la BI traditionnelles”,
http://technologies.lesechos.fr/business-intelligence/le-big-data-ou-la-
mort-annoncee-de-la-bi-traditionnelle-_a-41-681.html , juin 2013
§ Charles Roe, « BI/Analytics on NoSQL: Review of architectures »,
http://www.dataversity.net/bianalytics-on-nosql-review-of-architectures-
part-1/ Février 2012
16
Sources

Contenu connexe

PDF
BigData_TP2: Design Patterns dans Hadoop
PDF
BigData_TP3 : Spark
PDF
BigData_Chp4: NOSQL
PDF
BigData_TP4 : Cassandra
PDF
BigData_Chp3: Data Processing
PDF
BigData_TP5 : Neo4J
PDF
Cours Big Data Chap6
PDF
Cours Big Data Chap5
BigData_TP2: Design Patterns dans Hadoop
BigData_TP3 : Spark
BigData_Chp4: NOSQL
BigData_TP4 : Cassandra
BigData_Chp3: Data Processing
BigData_TP5 : Neo4J
Cours Big Data Chap6
Cours Big Data Chap5

Tendances (20)

PDF
BigData_Chp1: Introduction à la Big Data
PDF
BigData_TP1: Initiation à Hadoop et Map-Reduce
PDF
Cours Big Data Chap2
PDF
Chapitre 2 hadoop
PDF
Les BD NoSQL
PDF
exercices business intelligence
PDF
Big Data, Hadoop & Spark
PDF
Conception datawarehouse
PDF
Cours Big Data Chap4 - Spark
PDF
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
PDF
BigData_Chp2: Hadoop & Map-Reduce
PDF
Hadoop Hbase - Introduction
PDF
Technologies pour le Big Data
PPTX
Introduction au big data
PPTX
Chp3 - Modélisation Multidimensionnelle
PDF
Resume de BI
PDF
TP2 Big Data HBase
PDF
TP1 Big Data - MapReduce
PDF
Cours Big Data Chap1
PDF
Architectures distribuées
BigData_Chp1: Introduction à la Big Data
BigData_TP1: Initiation à Hadoop et Map-Reduce
Cours Big Data Chap2
Chapitre 2 hadoop
Les BD NoSQL
exercices business intelligence
Big Data, Hadoop & Spark
Conception datawarehouse
Cours Big Data Chap4 - Spark
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
BigData_Chp2: Hadoop & Map-Reduce
Hadoop Hbase - Introduction
Technologies pour le Big Data
Introduction au big data
Chp3 - Modélisation Multidimensionnelle
Resume de BI
TP2 Big Data HBase
TP1 Big Data - MapReduce
Cours Big Data Chap1
Architectures distribuées
Publicité

En vedette (20)

PDF
Thinking Big - Big data: principes et architecture
PDF
Business Intelligence
PDF
Thinking BIG
PDF
Javascript Design Patterns
PDF
Introduction au Web
PDF
Core JavaScript
PDF
Client-side JavaScript
PDF
Angular
PDF
Testing Angular
PDF
Server-side JS with NodeJS
PDF
Mobile developement
PDF
Enquête RegionsJob : emploi et réseaux sociaux, deuxième édition
PDF
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
PPTX
NoSql : conception des schémas, requêtage, et optimisation
PDF
Big Data Analytics for connected home
PPTX
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
PDF
Bases de données NoSQL
PPTX
Présentation Big Data et REX Hadoop
PDF
Une introduction à MapReduce
PPT
Hadopp Vue d'ensemble
Thinking Big - Big data: principes et architecture
Business Intelligence
Thinking BIG
Javascript Design Patterns
Introduction au Web
Core JavaScript
Client-side JavaScript
Angular
Testing Angular
Server-side JS with NodeJS
Mobile developement
Enquête RegionsJob : emploi et réseaux sociaux, deuxième édition
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
NoSql : conception des schémas, requêtage, et optimisation
Big Data Analytics for connected home
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Bases de données NoSQL
Présentation Big Data et REX Hadoop
Une introduction à MapReduce
Hadopp Vue d'ensemble
Publicité

Similaire à BigData_Chp5: Putting it all together (20)

PDF
cours06-nosql.pdf
PDF
Introduction nosql
PDF
ch3-IntroNoSql_avec_DW_ING2 dans l'isimm.pdf
PPTX
Les Base de Données NOSQL
PDF
NoSQL: Quoi, quand et pour qui par Orlando Cassano du CETIC
PDF
Big data Paris Presentation Solocal 20150310
PDF
Bases de données no sql.pdf
PDF
MariaDB une base de donnees NewSQL
PPTX
Base de données NoSQL
PPSX
chap1-big-data.pps pour comprendre le problème de big data
PDF
690992112-Big-Data-chap-1-introduction.pdf
PDF
Relational databases & NoSQL databases
PPTX
Big data: NoSQL comme solution
PDF
Bigdata opensource
PDF
dddd dzdz edede edededededededededededed
PPTX
Ecosystème Big Data
PPTX
Les Base de Données NOSQL -Presentation -
PPTX
Cours 3 big data de donnes non sql for studets
PPTX
De la business intelligence au Big Data
PPT
Search, nosql et bigdata avec les moteurs de recherche
cours06-nosql.pdf
Introduction nosql
ch3-IntroNoSql_avec_DW_ING2 dans l'isimm.pdf
Les Base de Données NOSQL
NoSQL: Quoi, quand et pour qui par Orlando Cassano du CETIC
Big data Paris Presentation Solocal 20150310
Bases de données no sql.pdf
MariaDB une base de donnees NewSQL
Base de données NoSQL
chap1-big-data.pps pour comprendre le problème de big data
690992112-Big-Data-chap-1-introduction.pdf
Relational databases & NoSQL databases
Big data: NoSQL comme solution
Bigdata opensource
dddd dzdz edede edededededededededededed
Ecosystème Big Data
Les Base de Données NOSQL -Presentation -
Cours 3 big data de donnes non sql for studets
De la business intelligence au Big Data
Search, nosql et bigdata avec les moteurs de recherche

Plus de Lilia Sfaxi (20)

PDF
chp1-Intro à l'urbanisation des SI.pdf
PDF
Plan d'études_INSAT_2022_2023.pdf
PDF
Lab3-DB_Neo4j
PDF
Lab2-DB-Mongodb
PDF
Lab1-DB-Cassandra
PDF
TP2-UML-Correction
PDF
TP1-UML-Correction
PDF
TP0-UML-Correction
PDF
TD4-UML
PDF
TD4-UML-Correction
PDF
TD3-UML-Séquences
PDF
TD3-UML-Correction
PDF
TD2 - UML - Correction
PDF
TD1 - UML - DCU
PDF
TD1-UML-correction
PDF
Android - Tp1 - installation et démarrage
PDF
Android - Tp2 - Elements graphiques
PDF
Android - Tp3 - intents
PDF
Android - TPBonus - web services
PDF
Android - Tp4 - graphiques avancés
chp1-Intro à l'urbanisation des SI.pdf
Plan d'études_INSAT_2022_2023.pdf
Lab3-DB_Neo4j
Lab2-DB-Mongodb
Lab1-DB-Cassandra
TP2-UML-Correction
TP1-UML-Correction
TP0-UML-Correction
TD4-UML
TD4-UML-Correction
TD3-UML-Séquences
TD3-UML-Correction
TD2 - UML - Correction
TD1 - UML - DCU
TD1-UML-correction
Android - Tp1 - installation et démarrage
Android - Tp2 - Elements graphiques
Android - Tp3 - intents
Android - TPBonus - web services
Android - Tp4 - graphiques avancés

Dernier (7)

PDF
FORMATION EN Programmation En Langage C.pdf
PDF
Modems expliqués- votre passerelle vers Internet.pdf
PPTX
Presentation_Securite_Reseaux_Bac+2.pptx
PDF
FORMATION COMPLETE EN EXCEL DONE BY MR. NYONGA BRICE.pdf
PDF
Tendances tech 2025 - SFEIR & WENVISION.pdf
PPTX
Souveraineté numérique - Définition et enjeux pour les entreprises et les dév...
PDF
presentation_with_intro_compressee IEEE EPS France
FORMATION EN Programmation En Langage C.pdf
Modems expliqués- votre passerelle vers Internet.pdf
Presentation_Securite_Reseaux_Bac+2.pptx
FORMATION COMPLETE EN EXCEL DONE BY MR. NYONGA BRICE.pdf
Tendances tech 2025 - SFEIR & WENVISION.pdf
Souveraineté numérique - Définition et enjeux pour les entreprises et les dév...
presentation_with_intro_compressee IEEE EPS France

BigData_Chp5: Putting it all together

  • 1. Chp5 – ”Putting it All Together" Big Data, BI, NOSQL Big Data GL4 (Option Management des Systèmes d'Information) - 2016 Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 1
  • 2. Big Data, BI, NOSQL • Pas de solution miracle qui fonctionne dans toutes les situations • Le métier et le type des données définissent la solution adéquate § Si la compagnie X réussit à gérer ses 500M utilisateurs avec MySQL, cela ne veut pas dire que vous arriverez à bien gérer vos 100M d’utilisateurs avec MySQL § Si la compagnie Y utilise MongoDB pour gérer ses 100M utilisateurs, cela ne veut pas dire que vous y arriverez aussi! • A good engineer can make bad product to work • A bad engineer can make good product to suck • Il faut tout d’abord comprendre le métier: § Sources, types et croissance des données § Consommation des données o Utilisateur final, API, outils de reporting, interne… § SLA (Service Level Agreement), temps de réponse, § Coût § Penser à faire évoluer l’architecture avec la croissance de votre entreprise, ne pas penser trop gros depuis le jour 1 2 Que choisir?
  • 3. Big Data, BI, NOSQL • SQL: § Relationnel et transactionnel • NOSQL § Non-relationnel, distribué, haute performance, et hautement évolutif • Analytiques et Business Intelligence § Entrepôt de données centralisé et unique, analyses métier, reporting • Big Data, Hadoop et MapReduce § Distribué, hautement évolutif, tolérance aux fautes et traitement des données parallèle • Combinaison des quatre: § Commencer avec SQL et/ou NOSQL, et envisager ensuite BigData/Analytiques 3 D’abord, comprendre les objectifs des différentes technologies…
  • 4. Big Data, BI, NOSQL • Choix entre deux classes de technologie : § Systèmes fournissant des capacités opérationnelles pour des charges de travail quotidiennes, interactives et en temps réel, où les données sont principalement capturées et sauvegardées § Systèmes fournissant des capacités analytiques pour une analyse rétrospective et complexe qui peut toucher toutes ou la plupart des données. • Deux classes complémentaires et en général utilisées ensemble • Systèmes opérationnels : Bases de données SQL et NOSQL § Satisfaire des requêtes concurrentes § Exhiber une latence faible (temps de réponse très rapide) • Systèmes analytiques : Entrepôts de données et MapReduce § Se concentrent sur un grand débit § Requêtes peuvent être très complexes et toucher plusieurs sinon toutes les données du système à tout moment 4 Ensuite, savoir ce qu’on veut!
  • 5. BIG DATA & NOSQL Chp5: Putting it all together 5
  • 6. Big Data & NOSQL • HDFS représente l’un des atouts majeurs de Hadoop car: § Distribué, en cluster § Facilement extensible § Offre une haute disponibilité • Mais, il offre certains désavantages: § Utilise un système de stockage direct (DAS: Direct Attached Storage), pas de SAN (Storage Area Network) § Problème de disponibilité pour les utilisateurs des anciennes versions de Hadoop, où le NameNode n’est pas dupliqué § Les utilisateurs utilisent déjà une base de données distribuée, et ne veulent pas perdre du temps à copier les données d’un système à un autre • Plusieurs options sont proposées pour remplacer HDFS, dont l’utilisation de bases NOSQL 6 Remplacer HDFS par NOSQL
  • 7. Big Data & NOSQL • C’est l’approche la plus utilisée • NOSQL offrent des données diversifiées, en grand nombre et de divers types, regroupées dans un endroit unique. • Map Reduce pourra parcourir ces données, les filtrer, les traiter et afficher les résultats § Profiter des capacités de stockage des bases NOSQL § Profiter de la tolérance aux pannes pour éviter la perte de données § Extraction facile des données, plus facile qu’une manipulation d’un fichier textuel § Moins de risques de données erronées ou non conformes • Les résultats obtenus pourront être stockés: § Dans un fichier texte, excel… § Dans une base NOSQL, pour profiter de la capacité de stockage § Dans une base SQL pour faciliter le reporting 7 Utiliser le MapReduce pour interroger les bases NOSQL
  • 8. BIG DATA & BUSINESS INTELLIGENCE Chp5: Putting it all together 8
  • 10. Big Data & BI • Big Data s’impose pour les technologies touchant à l’analytique • « La BI traditionnelle est morte, vive la Big BI! » • Données peu structurées, de plus en plus nombreuses et diversifiées (Variété) § Impossible d’exploiter cette volumétrie de données avec les techniques de BI traditionnelle § Risque d’obtenir des infrastructures très complexes • Données doit être traitées à chaud (Vélocité) § Opération d’ETL en BI se fait périodiquement, dans des moments où le système opérationnel est au repos § Impossible de rafraîchir les tableaux de bord d’aide à la décision plus qu’une fois par jour, ce qui est maintenant requis pour certains métiers (e- commerçants, par ex.) § Outils décisionnels sont, certes, robustes, mais paraissent trop figés pour les besoins actuels • Données publiques 10 BI Traditionnelle, morte?
  • 11. Approches d’Intégration • D’après [Roe-2012], il existe 6 approches pour combiner NOSQL avec BI • Approche 1: Rapports NOSQL § Payer un développeur pour construire des applications de reporting sur les systèmes NOSQL § Profite des avantages de NOSQL, mais coûteuse car besoin d’un développeur spécialisé § Pas besoin d’outils BI, a seulement une seule source de données • Approche 2: Rapports NOSQL configurables § Plus flexible que l’approche 1, car offre à l’utilisateur la possibilité de configurer son propre rapport § Systèmes plus ad-hoc, mais plus coûteux que l’approche 1 § Problème d’intégration avec les autres données SQL- centric 11 NOSQL/BIG Data avec SQL/BI (1/3) Application Reporting NOSQL Application Reporting Avancée Config +
  • 12. Approches d’Intégration • Approche 3: NOSQL + MySQL § Développement d’une application ETL pour transporter les données d’une base NOSQL vers la base MySQL, utilisée par les outils de BI riches comme Pentaho et Jasper. § Moins coûteuse que 1 et 2, car pas besoin de développeur pour un outil de reporting spécifique § Mais, manque de fraîcheur de données, perte de la richesse offerte par NOSQL • Approche 4: NOSQL comme source de données ETL § Données extraites à partir des bases NOSQL et systèmes Big Data, et intégrées avec les autres données de l’entreprise dans l’entrepôt § Première architecture permettant d’intégrer les données § Perte de l’expressivité de NOSQL pendant la phase ETL 12 NOSQL/BIG Data avec SQL/BI (2/3) Outil BI ETL ETL ERP Outil BI Entrepôt
  • 13. Approches d’Intégration • Approche 5 : Programmes NOSQL dans les outils BI § Développement d’un programme pour l’outil BI qui le connecte à la base NOSQL § Pas besoin de définir les rapports un à un comme dans Approche 1, mais étaler les données NOSQL pour les rendre compréhensibles par l’outil de reporting • Approche 6 : Système d’intégration § Ajout d’un système tiers EII (Enterprise Information Integration) entre l’outil BI et le système NOSQL/BigData, qui agit comme intermédiaire § Peut discuter avec les deux parties, traduit les données en modèles utilisables par l’outil BI 13 NOSQL/BIG Data avec SQL/BI (3/3) Outil BI Outil BI EII
  • 14. BI & NOSQL • Avantages du NOSQL § Stockage efficace et évolutif § La possibilité de toujours stocker plus de données § Coûts réduits des outils § Outils analytiques plus riches: utilisation de l’analyse de graphes, des frameworks Map-Reduce… au lieu du filtrage classique et « group by » de SQL § Structures de données flexibles tolérance aux fautes • Mais § NOSQL n’est pas « propre », car la structure est évolutive, donc facilement modifiable, alors la BI cherche avant tout à rendre les différentes sources de données (en général des bases de production plutôt anarchiques) structurées, solides et faites pour durer § NOSQL surtout pratique pour les analyses ponctuelles 14 Entrepôts de données NOSQL?
  • 15. BI & NOSQL • On pourra utiliser NOSQL comme entrepôt de données, pour profiter de : § Sa capacité de stockage § Son évolutivité § Sa tolérance aux fautes § Sa rapidité d’insertion § Peut-être même de la flexibilité de sa structure dans le cas d’un besoin d’évolution de l’entrepôt. • Mais: § On ne pourra pas (trop) bénéficier de la diversité des formats de données supportées § L’utilisateur sera pénalisé par les restrictions de requêtage des bases NOSQL, et leur manque de flexibilité et de consistance. • Les Bases orientées colonnes pourraient s’avérer être les plus appropriées pour un entrepôt de données, car: § Elles définissent un schéma clair § Elles supportent de très grands volumes de données, § Elles sont très rapides en terme d’écriture par rapport aux autres 15 Entrepôts de données NOSQL?
  • 16. • Présentations § Venu Anuganti, « SQL, NOSQL and Big Data in Architecture », 2012 • Sites § MongoDB, BigData Explained, http://www.mongodb.com/big-data-explained • Articles § Romain Chaumais, “Le Big Data ou la mort annoncée de la BI traditionnelles”, http://technologies.lesechos.fr/business-intelligence/le-big-data-ou-la- mort-annoncee-de-la-bi-traditionnelle-_a-41-681.html , juin 2013 § Charles Roe, « BI/Analytics on NoSQL: Review of architectures », http://www.dataversity.net/bianalytics-on-nosql-review-of-architectures- part-1/ Février 2012 16 Sources