SlideShare une entreprise Scribd logo
Analytics & Machine Learning
avec la Data Virtualization
Emily Sergent
Sales Engineer
Juin 2019
Emily Sergent
Sales Engineer, Denodo Paris
Présentation
1. Vers l’analytique avancée
2. Les challenges de la donnée
3. Les architectures virtuelles
4. Machine Learning et Denodo : démo
5. Cas d’usage : McCormick
6. Q&A
7. Prochaines étapes
Agenda
4
Vers l’analytique avancée : valeur et investissement
5
Vers l’analytique avancée : le « gouffre » à franchir
6
Le cycle de vie de la Data Science
Un workflow type de data scientist :
1. Déterminer la cible de l’étude
2. Identifier et collecter les données pertinentes
3. Mettre les données dans un format utile
4. Analyser les données sélectionnées
5. Préparer les données dans le format attendu par
les algorithmes de Machine Learning
6. Exécuter les algorithmes (apprentissage)
7. Visualiser et partager les résultats
7
Le cycle de vie de la Data Science
80% du temps est passé à chercher les données
10% du temps est passé à analyser les données
10% du temps est passé à visualiser les données
8
L’accès aux données… partir à l’aventure ?
Trouver les données pertinentes
Obtenir l’accès
Maîtriser des technologies hétérogènes
(noSQL, REST APIs, etc.)
Transformer dans un format utile
Combiner les différentes sources
Nettoyer les données
Transformer pour les algorithmes ML
Partager les données, les méthodes, et les
résultats
Photo by Jasper van der Meij on Unsplash
9
Data Lake – La solution?
Mais… un investissement important
Sans gestion, un « Data Swamp »
Réplication, réplication, réplication…
souvent sans valeur ajoutée
Peut vite devenir chronophage pour les
data scientists… et pour l’IT
Puissance de calcul à moindre coût
Flexibilité
Photo by Aaron Burden on Unsplash
10
La Data Virtualization
Une infrastructure data mutualisée
Sécurité et accès maîtrisés
Plate-forme unique pour Data Science,
Analytics et APIs
Valeur extraite de vos technologies
existantes (RDBMS, Hadoop, etc.)
Investissement optimisé
Time-to-Data réduit
Photo by Tiago Gerken on Unsplash
11
Les architectures virtuelles
The evolution of Analytical Architectures: Adopt the Logical Data Warehouse Architecture to Meet Your Modern Analytical Needs, Gartner April 2018
12
Architecture Information Agile
Data Access
Security
Governance and Metadata management
Unstructured Data
Structured Data
RDBMS
Excel
Flat Files
XML
Email
Sensors (IIoT)
Social Media
RFID
Wearables
Storage
Compute
IMDG
Data Ingestion
Real Time/
Data Streaming
CDC
Metadata
Enrichment
Data Virtualization
Data Services
Data Insight
Data Mining
Dashboards
Data Discovery
and Self-Service
Reporting
Search and Index
SaaS Applications
Batch
Data Warehouse
RDBMS
Big Data Lakes
noSQL
13
Gartner, Adopt the Logical Data Warehouse Architecture to Meet Your Modern
Analytical Needs, May 2018
“When designed properly, Data Virtualization can speed data
integration, lower data latency, offer flexibility and reuse, and
reduce data sprawl across dispersed data sources.
Due to its many benefits, Data Virtualization is often the first step
for organizations evolving a traditional, repository-style data
warehouse into a Logical Architecture”
14
Etapes du workflow de la Data Science
Identifiez les
données utiles
Modifier les données dans
un format utile
Analyser
les données
Exécuter les algorithmes
de data science
(ML, AI, etc.)
Partagez avec les
utilisateurs métiers
Préparer pour les
algorithmes ML
Démonstration
Optimiser le workflow Data Science avec Denodo
15
16
https://flic.kr/p/x8HgrF
Peut-on prédire l’usage des vélos new-yorkais
à partir des données des années précédentes?
17
Source de données – Citibike
18
Quels sont les facteurs externes à prendre en
considération?
https://flic.kr/p/CYT7SS
19
Source de données – NWS Weather Data
20
Ce que l’on va faire…
1. Explorer les données mises à disposition
2. Formatter les données pour faciliter notre compréhension
• Comprendre les facteurs temporels, les conditions climatiques, etc.
3. Une fois les facteurs importants identifiés, formatter les données en
entrée des algorithmes
4. Avec Python, « entraîner » l’algorithme ML sur les données 2017
5. Lire les données de 2018 et les comparer avec nos prédictions
Démo
21
Cas d’usage : McCormick
22
23
McCormick Spice
24
McCormick Spice
Data Services
(Data Virtualization)
API Management and Runtime
Semantics & Discovery
Governance
Security
System 1 System n
External
API $
Governance
Security
25
McCormick Spice
L’approche
1. Requête envoyée par le modèle pour obtenir les données
2. Entrainement partiel ou complet du modèle
Algorithms
Backend
Systems
External
Systems
1
Request Enterprise
Data
Services
2 Collect
train
4 3
Receive
Bénéfices
✓ Données fraîches
✓ Sans réplication
✓ Partage des données sans étape manuelle de validation
✓ Plateforme adaptée à l’apprentissage
26
A retenir
• The Denodo Platform makes all kinds of data – from a variety of
data sources – readily available to your data analysts and data
scientists
• Data virtualization shortens the ‘data wrangling’ phases of
analytics/ML projects
• Avoids needing to write ‘data prep’ scripts in Python, R, etc.
• It’s easy to access and analyze the data from analytics tools such as
Zeppelin or Jupyter
• You can use the Denodo Platform to share the results of your
analytics with others
• Et enfin… même les new-yorkais n’aiment pas faire du vélo
sous la neige
• La plate-fome Denodo peut rendre toutes vos données
facilement accessibles pour les analystes et les data scientists
• Les étapes d’accès et de transformation des données sont
plus rapides
• L’accès est simple depuis les outils populaires, tels Zeppelin
or Jupyter
• Denodo peut également vous aider à partager les résultats de
vos recherches
Q&A
28
Prochaines étapes
Essayez Denodo dès aujourd’hui avec notre
Test Drive !
www.denodo.com/TestDrive
C’EST A VOUS
Merci !
www.denodo.com info@denodo.com
© Copyright Denodo Technologies. All rights reserved
Unless otherwise specified, no part of this PDF file may be reproduced or utilized in any for or by any means, electronic or mechanical, including photocopying and microfilm,
without prior the written authorization from Denodo Technologies.

Contenu connexe

PDF
Cours Big Data Chap5
PDF
BigData_TP3 : Spark
PDF
BigData_Chp5: Putting it all together
PDF
Réussir son analyse des besoins dans la conduite d'un projet informatique (2007)
PPTX
Big data
PPTX
PPTX
Projet décisionnel
PPTX
Base de données NoSQL
Cours Big Data Chap5
BigData_TP3 : Spark
BigData_Chp5: Putting it all together
Réussir son analyse des besoins dans la conduite d'un projet informatique (2007)
Big data
Projet décisionnel
Base de données NoSQL

Tendances (20)

PPTX
Module Statistique et BI de l’Application ITSPCare’Hosp
PDF
exercices business intelligence
PDF
BigData_Chp3: Data Processing
PPSX
Introduction au BIG DATA
PPT
Modelisation conception SI
PDF
BigData_Chp2: Hadoop & Map-Reduce
PDF
PDF
Rapport de stage boite à idées innovantes avec dashboard
PDF
Cours Big Data Chap3
PPT
La BI : Qu’est-ce que c’est ? A quoi ça sert ?
PDF
Business Intelligence
PPTX
Les règles de passage
PPTX
Business intelligence
PDF
BigData_Chp1: Introduction à la Big Data
PPT
Projet Bi - 3 - Alimentation des données
PDF
Technologies pour le Big Data
PDF
Rapport PFE ingénieur réseaux marwen SAADAOUI ( Juin 2018 )
PPTX
DataWarehouse
PPTX
Chp2 - Les Entrepôts de Données
PDF
Business Intelligence : Transformer les données en information.
Module Statistique et BI de l’Application ITSPCare’Hosp
exercices business intelligence
BigData_Chp3: Data Processing
Introduction au BIG DATA
Modelisation conception SI
BigData_Chp2: Hadoop & Map-Reduce
Rapport de stage boite à idées innovantes avec dashboard
Cours Big Data Chap3
La BI : Qu’est-ce que c’est ? A quoi ça sert ?
Business Intelligence
Les règles de passage
Business intelligence
BigData_Chp1: Introduction à la Big Data
Projet Bi - 3 - Alimentation des données
Technologies pour le Big Data
Rapport PFE ingénieur réseaux marwen SAADAOUI ( Juin 2018 )
DataWarehouse
Chp2 - Les Entrepôts de Données
Business Intelligence : Transformer les données en information.
Publicité

Similaire à Analytics & Machine Learning avec la Data Virtualization (20)

PDF
Discovery Session France: Atelier découverte de la Data Virtualization
PDF
Discovery Session France: Atelier découverte de la Data Virtualization
PDF
Discovery Session France: Atelier découverte de la Data Virtualization
PDF
Session découverte de la Data Virtualization
PDF
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
PDF
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
PDF
Quel est l'avenir des stratégies de données?
PDF
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
PDF
J'ai déjà un ETL, pourquoi aurais-je besoin de la Data Virtualization?
PDF
La Data Virtualization par Orano : cas d'usage à la Hague et démo de Denodo
PDF
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
PDF
La Data Virtualization au coeur de l’architecture “Data Mesh”
PDF
Session découverte de la Data Virtualization
PDF
La Logical Data Fabric au secours de la connaissance client
PDF
Réussissez vos projets d’analytique self-service avec une couche de services ...
PDF
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
PDF
Session découverte de la Data Virtualization
PPTX
leading_advancedanalytics_IA_seance1.pptx
PDF
Denodo, pilier central de votre stratégie API
PDF
Optimiser l’intégration globale des données grâce à la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
Session découverte de la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
Quel est l'avenir des stratégies de données?
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
J'ai déjà un ETL, pourquoi aurais-je besoin de la Data Virtualization?
La Data Virtualization par Orano : cas d'usage à la Hague et démo de Denodo
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
La Data Virtualization au coeur de l’architecture “Data Mesh”
Session découverte de la Data Virtualization
La Logical Data Fabric au secours de la connaissance client
Réussissez vos projets d’analytique self-service avec une couche de services ...
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session découverte de la Data Virtualization
leading_advancedanalytics_IA_seance1.pptx
Denodo, pilier central de votre stratégie API
Optimiser l’intégration globale des données grâce à la Data Virtualization
Publicité

Plus de Denodo (20)

PDF
Enterprise Monitoring and Auditing in Denodo
PDF
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
PDF
Achieving Self-Service Analytics with a Governed Data Services Layer
PDF
What you need to know about Generative AI and Data Management?
PDF
Mastering Data Compliance in a Dynamic Business Landscape
PDF
Denodo Partner Connect: Business Value Demo with Denodo Demo Lite
PDF
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
PDF
Drive Data Privacy Regulatory Compliance
PDF
Знакомство с виртуализацией данных для профессионалов в области данных
PDF
Data Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
PDF
Denodo Partner Connect - Technical Webinar - Ask Me Anything
PDF
Lunch and Learn ANZ: Key Takeaways for 2023!
PDF
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
PDF
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
PDF
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
PDF
How to Build Your Data Marketplace with Data Virtualization?
PDF
Webinar #2 - Transforming Challenges into Opportunities for Credit Unions
PDF
Enabling Data Catalog users with advanced usability
PDF
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
PDF
GenAI y el futuro de la gestión de datos: mitos y realidades
Enterprise Monitoring and Auditing in Denodo
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
Achieving Self-Service Analytics with a Governed Data Services Layer
What you need to know about Generative AI and Data Management?
Mastering Data Compliance in a Dynamic Business Landscape
Denodo Partner Connect: Business Value Demo with Denodo Demo Lite
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
Drive Data Privacy Regulatory Compliance
Знакомство с виртуализацией данных для профессионалов в области данных
Data Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
Denodo Partner Connect - Technical Webinar - Ask Me Anything
Lunch and Learn ANZ: Key Takeaways for 2023!
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
How to Build Your Data Marketplace with Data Virtualization?
Webinar #2 - Transforming Challenges into Opportunities for Credit Unions
Enabling Data Catalog users with advanced usability
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
GenAI y el futuro de la gestión de datos: mitos y realidades

Analytics & Machine Learning avec la Data Virtualization

  • 1. Analytics & Machine Learning avec la Data Virtualization Emily Sergent Sales Engineer Juin 2019
  • 2. Emily Sergent Sales Engineer, Denodo Paris Présentation
  • 3. 1. Vers l’analytique avancée 2. Les challenges de la donnée 3. Les architectures virtuelles 4. Machine Learning et Denodo : démo 5. Cas d’usage : McCormick 6. Q&A 7. Prochaines étapes Agenda
  • 4. 4 Vers l’analytique avancée : valeur et investissement
  • 5. 5 Vers l’analytique avancée : le « gouffre » à franchir
  • 6. 6 Le cycle de vie de la Data Science Un workflow type de data scientist : 1. Déterminer la cible de l’étude 2. Identifier et collecter les données pertinentes 3. Mettre les données dans un format utile 4. Analyser les données sélectionnées 5. Préparer les données dans le format attendu par les algorithmes de Machine Learning 6. Exécuter les algorithmes (apprentissage) 7. Visualiser et partager les résultats
  • 7. 7 Le cycle de vie de la Data Science 80% du temps est passé à chercher les données 10% du temps est passé à analyser les données 10% du temps est passé à visualiser les données
  • 8. 8 L’accès aux données… partir à l’aventure ? Trouver les données pertinentes Obtenir l’accès Maîtriser des technologies hétérogènes (noSQL, REST APIs, etc.) Transformer dans un format utile Combiner les différentes sources Nettoyer les données Transformer pour les algorithmes ML Partager les données, les méthodes, et les résultats Photo by Jasper van der Meij on Unsplash
  • 9. 9 Data Lake – La solution? Mais… un investissement important Sans gestion, un « Data Swamp » Réplication, réplication, réplication… souvent sans valeur ajoutée Peut vite devenir chronophage pour les data scientists… et pour l’IT Puissance de calcul à moindre coût Flexibilité Photo by Aaron Burden on Unsplash
  • 10. 10 La Data Virtualization Une infrastructure data mutualisée Sécurité et accès maîtrisés Plate-forme unique pour Data Science, Analytics et APIs Valeur extraite de vos technologies existantes (RDBMS, Hadoop, etc.) Investissement optimisé Time-to-Data réduit Photo by Tiago Gerken on Unsplash
  • 11. 11 Les architectures virtuelles The evolution of Analytical Architectures: Adopt the Logical Data Warehouse Architecture to Meet Your Modern Analytical Needs, Gartner April 2018
  • 12. 12 Architecture Information Agile Data Access Security Governance and Metadata management Unstructured Data Structured Data RDBMS Excel Flat Files XML Email Sensors (IIoT) Social Media RFID Wearables Storage Compute IMDG Data Ingestion Real Time/ Data Streaming CDC Metadata Enrichment Data Virtualization Data Services Data Insight Data Mining Dashboards Data Discovery and Self-Service Reporting Search and Index SaaS Applications Batch Data Warehouse RDBMS Big Data Lakes noSQL
  • 13. 13 Gartner, Adopt the Logical Data Warehouse Architecture to Meet Your Modern Analytical Needs, May 2018 “When designed properly, Data Virtualization can speed data integration, lower data latency, offer flexibility and reuse, and reduce data sprawl across dispersed data sources. Due to its many benefits, Data Virtualization is often the first step for organizations evolving a traditional, repository-style data warehouse into a Logical Architecture”
  • 14. 14 Etapes du workflow de la Data Science Identifiez les données utiles Modifier les données dans un format utile Analyser les données Exécuter les algorithmes de data science (ML, AI, etc.) Partagez avec les utilisateurs métiers Préparer pour les algorithmes ML
  • 15. Démonstration Optimiser le workflow Data Science avec Denodo 15
  • 16. 16 https://flic.kr/p/x8HgrF Peut-on prédire l’usage des vélos new-yorkais à partir des données des années précédentes?
  • 17. 17 Source de données – Citibike
  • 18. 18 Quels sont les facteurs externes à prendre en considération? https://flic.kr/p/CYT7SS
  • 19. 19 Source de données – NWS Weather Data
  • 20. 20 Ce que l’on va faire… 1. Explorer les données mises à disposition 2. Formatter les données pour faciliter notre compréhension • Comprendre les facteurs temporels, les conditions climatiques, etc. 3. Une fois les facteurs importants identifiés, formatter les données en entrée des algorithmes 4. Avec Python, « entraîner » l’algorithme ML sur les données 2017 5. Lire les données de 2018 et les comparer avec nos prédictions
  • 22. Cas d’usage : McCormick 22
  • 24. 24 McCormick Spice Data Services (Data Virtualization) API Management and Runtime Semantics & Discovery Governance Security System 1 System n External API $ Governance Security
  • 25. 25 McCormick Spice L’approche 1. Requête envoyée par le modèle pour obtenir les données 2. Entrainement partiel ou complet du modèle Algorithms Backend Systems External Systems 1 Request Enterprise Data Services 2 Collect train 4 3 Receive Bénéfices ✓ Données fraîches ✓ Sans réplication ✓ Partage des données sans étape manuelle de validation ✓ Plateforme adaptée à l’apprentissage
  • 26. 26 A retenir • The Denodo Platform makes all kinds of data – from a variety of data sources – readily available to your data analysts and data scientists • Data virtualization shortens the ‘data wrangling’ phases of analytics/ML projects • Avoids needing to write ‘data prep’ scripts in Python, R, etc. • It’s easy to access and analyze the data from analytics tools such as Zeppelin or Jupyter • You can use the Denodo Platform to share the results of your analytics with others • Et enfin… même les new-yorkais n’aiment pas faire du vélo sous la neige • La plate-fome Denodo peut rendre toutes vos données facilement accessibles pour les analystes et les data scientists • Les étapes d’accès et de transformation des données sont plus rapides • L’accès est simple depuis les outils populaires, tels Zeppelin or Jupyter • Denodo peut également vous aider à partager les résultats de vos recherches
  • 27. Q&A
  • 28. 28 Prochaines étapes Essayez Denodo dès aujourd’hui avec notre Test Drive ! www.denodo.com/TestDrive C’EST A VOUS
  • 29. Merci ! www.denodo.com info@denodo.com © Copyright Denodo Technologies. All rights reserved Unless otherwise specified, no part of this PDF file may be reproduced or utilized in any for or by any means, electronic or mechanical, including photocopying and microfilm, without prior the written authorization from Denodo Technologies.