SlideShare une entreprise Scribd logo
Copyright Synaltic 2015
CDAP,
la boîte à outil pour concevoir
vos applications Big Data
Simplifier l'approche Big Data
Charly Clairmont
Synaltic
@egwada
cclairmont@synaltic.fr
http://synaltic.fr
Copyright Synaltic 2015
Plus d'une dizaine d'années d'expérience
Co-fondateur d'Altic, maintenant Synaltic
Co-fondateur du Hadoop User Groupe France
Aime faire connaître les technologies open source surtout
celles dédiées à l'entreprise
Charly Clairmont
2
Copyright Synaltic 2015
Société de conseils et de services spécialisée dans la mise
en œuvre de projets de Data Management
Créée en 2004, Synaltic est la fusion des sociétés Synotis et Altic
25 spécialistes en Data Management
Filiale en Suisse , à Lausanne
Nos valeurs
Engagement
Expertise
Fidélité
Synaltic
3
R&D
Training
SupportProject
Expertise
Data
Intelligence
Data
Platform
Data
Governance
Data
Exchange
SYNALTIC
Copyright Synaltic 2015
Big Data, un écosystème « hyperactif »
Core Hadoop
HDFS, MR
2006
Hbase
Zookeeper
Core Hadoop
2008
Hive
Pig
Mahout
Hbase
Zookeeper
Core Hadoop
2009
Sqoop
whirr
Avro
Hive
Pig
Mahout
Hbase
Zookeeper
Core Hadoop
2010
Flume
Bigtop
Oozie
MRUnit
HCatalog
Sqoop
whirr
Avro
Hive
Pig
Mahout
Hbase
Zookeeper
Core Hadoop
2011
Spark
Impala
Solr
Kafka
Flume
Bigtop
Oozie
MRUnit
HCatalog
Sqoop
whirr
Avro
Hive
Pig
Mahout
Hbase
Zookeeper
Core Hadoop
2012
Nifi
Flink
Atlas
Ranger
Drill
Parquet
Sentry
Spark
Impala
Solr
Kafka
Flume
Bigtop
Oozie
MRUnit
HCatalog
Sqoop
whirr
Avro
Hive
Pig
Mahout
Hbase
Zookeeper
Core Hadoop
Aujourd'hui
Arun Murthy, founder of Hortonworks : « I think you
are getting a lot more attention to fit and finish rather
than to just getting the new technology in»
Copyright Synaltic 2015
!! Simplifier Hadoop !!
Copyright Synaltic 2015
Le nouveau mot d'ordre : « Le Data Lake »
Data Lake
« Enterprise-wide data
management platforms for
analyzing disparate sources
of data in its native format »
Data Lake
« Collect everything, dive in
anywhere, give flexible
access. Maximum scale
and insight with the lowest
Possible friction and cost. »
Data Hub
« A centralized, unified data
Source that can quickly
provide diverse business
users with the information
they need to do their jobs. »
Gartner Hortonworks Cloudera
Copyright Synaltic 2015
« Le Data Lake », plusieurs architectures
« Étang » « Lac » « Réservoir »
Données Internes Existantes
Traitements / Analyses
Diffusion
Données Externes
PME / Business Units
« Dessilotage »
Startups / IoT
Stockage & Analyse de logs
logs brutes
Traitements & Analyses
Toutes données !!
Audits
Gouvernance
Traitements & Analyses
Grandes Organisations
Passage à l'échelle du DWH
Diffusion
Données Internes Existantes
DiffusionDonnées Externes
Copyright Synaltic 2015
« Le Data Lake », de nombreux challenges
« Étang » « Lac » « Réservoir »
Traitements manuels
Traçabilité (lineage)
Exploitabilité
Découpler ingestion
et traitements
Conserver la donnée d'origine
Partager l'infrastructure
Couvrir plusieurs
architectures
Traçabilité
Agile / réactif
Copyright Synaltic 2015
Attention aux enjeux techniques des projets !
Consistance Intégration Éviter l'inutile
Ré-utilisabilité Simplicité Productivité
Copyright Synaltic 2015
Cask Data Application Platform
L'objectif de Cask Data Application Platform, CDAP, est de
permettre à tout développeur ou toute organisation de
rapidement et facilement créer, déployer, exécuter et
suivre des applications modernes à l'aide de
technologies Big Data telles que Hadoop
Copyright Synaltic
Open Source (Licence Apache V 2.0)
Framework & Plateforme pour développeurs & organisations
Construire, déployer, et gérer vos applications
CDAP
11
Supporte les principales
distributions Hadoop
S'appuie sur les dernières
technologies Big Data
Standards
Copyright Synaltic
CDAP, tout en un !
12
Copyright Synaltic
Architecture hautement disponible
13
Copyright Synaltic
CDAP, tout en un !
14
Copyright Synaltic
Hydrator, un ETL pour le Big Data
15
Copyright Synaltic
Ex : Réputation de pages web, architecture application
16
Programmes
– Injection des paires d'url
– SparkPageRankProgram : Calcul des PageRank, via Apache Spark ⇒ résultat
d'un jeu de données : ranks
– RanksCounter : Agrégation des résultats pour toutes les url, via Map / Reduce
⇒ résultat d'un jeu de données : rankscount
Workflow
– PageRankWorkflow : Enchaînement des programmes
SparkPageRankProgram et RanksCounter
Service :
– SparkPageRankService : connaître le rang d'une url
Copyright Synaltic
Ex : Réputation de pages web, l'application
17
Copyright Synaltic
Ex : Réputation de pages web, déploiement de l'application
18
Enregistrement et déploiement de l'application
Lancement du service
Exécution d'un flux de l'application
Copyright Synaltic
Ex : Réputation de pages web, visible depuis l'interface web
Liste des applications,
Liste des jeux de
données
Copyright Synaltic
Ex : Réputation de pages web, visible depuis l'interface web
Pour chaque
application
– Les programmes
associés
– Traçabilité des
programmes
Copyright Synaltic
Ex : Réputation de pages web, visible depuis l'interface web
Pour chaque
application
– Les jeux de
données associés
●
Traçabilité
des jeux de
données
Copyright Synaltic
Ex : Réputation de pages web, visible depuis l'interface web
Pour chaque
application
– Paramétrage
– Exécution de
l'application
Copyright Synaltic
Ex : Réputation de pages web, visible depuis l'interface web
Pour chaque
application
– Suivi des
exécutions
Copyright Synaltic
Ex : Réputation de pages web, visible depuis l'interface web
Les services sont
disponibles pour
l'intégration aux
applications tierces
Copyright Synaltic
Ex : Réputation de pages web, visible depuis l'interface web
Les jeux de données
peuvent être accédés
via JDBC
Copyright Synaltic
CDAP simplifie les projets Big Data
CDAP apporte une gestion de bout en bout de vos projets Big
Data
CDAP offre une vision complète et unifiée pour l'ensemble de
vos applications Big Data
– Extensibilité
– Metadonnées
– Audit
– Suivi
Ce qu'il faut retenir
26
Copyright Synaltic
CDAP :
– http://cdap.io/
Documentation :
– http://docs.cdap.io/cdap/current/en/index.html
Source :
– https://github.com/caskdata/cdap
Editeur :
– http://cask.co/
Liens
27
Copyright Synaltic 2015
Questions / Réponses

Contenu connexe

PDF
Webinaire Synaltic x Trifacta 27/10/2016
PPTX
Big Data Montée en compétence Hadoop
PDF
CDAP, la boîte à outil pour concevoir vos applications Big Data
PPT
Petit Déjeuner Talend/SQLI
PDF
DATA FORUM 2015 - Atelier ORACLE
PDF
Datalake de l'idée à la plateforme
PDF
[Smile] atelier spark - salon big data 13032018
PDF
Découvrez les nouvelles fonctionnalités de Talend 6
Webinaire Synaltic x Trifacta 27/10/2016
Big Data Montée en compétence Hadoop
CDAP, la boîte à outil pour concevoir vos applications Big Data
Petit Déjeuner Talend/SQLI
DATA FORUM 2015 - Atelier ORACLE
Datalake de l'idée à la plateforme
[Smile] atelier spark - salon big data 13032018
Découvrez les nouvelles fonctionnalités de Talend 6

En vedette (20)

PDF
PR Campaign Case Study 수강후기
PDF
IDMEF, the universal format for security alerts, OW2con'16, Paris.
 
PPT
Itf ipp ch09_2012_final
PDF
Building Confidence into Products starts with upstream citizenship
 
PDF
Automatizing SpagoBI, OW2con'16, Paris.
 
PDF
Trustie Forge Solutions Linux Ow2
 
PPTX
Tabacundo 2010
PDF
PDF
CHOReOS Large Scale Choreographies, OW2con11, Nov 24-25, 2011, Paris
 
PDF
Managing risks in OSS adoption: the RISCOSS approach, Xavier Franch, Universi...
 
PDF
OCCIware project and OCCI standard presented at China Cloud Computing & Stand...
 
PDF
SOA in the cloud with FraSCAti, OW2con11, Nov 24-25, Paris
 
PDF
OW2con'14 - Xlcloud, 3D rendering in the cloud
 
PDF
Open Source Software Editor without raising capital: can it be done and how? ...
 
PDF
OtaSizzle Platform for Technology Transfert
 
PPT
Paisajes De Serge Motylev
PDF
A new interface between smart device and web using html5 web socket and qr code
PPTX
Cayambe 2010
PDF
LinkedIn and Twitter Lab
PDF
Beowulf summary
PR Campaign Case Study 수강후기
IDMEF, the universal format for security alerts, OW2con'16, Paris.
 
Itf ipp ch09_2012_final
Building Confidence into Products starts with upstream citizenship
 
Automatizing SpagoBI, OW2con'16, Paris.
 
Trustie Forge Solutions Linux Ow2
 
Tabacundo 2010
CHOReOS Large Scale Choreographies, OW2con11, Nov 24-25, 2011, Paris
 
Managing risks in OSS adoption: the RISCOSS approach, Xavier Franch, Universi...
 
OCCIware project and OCCI standard presented at China Cloud Computing & Stand...
 
SOA in the cloud with FraSCAti, OW2con11, Nov 24-25, Paris
 
OW2con'14 - Xlcloud, 3D rendering in the cloud
 
Open Source Software Editor without raising capital: can it be done and how? ...
 
OtaSizzle Platform for Technology Transfert
 
Paisajes De Serge Motylev
A new interface between smart device and web using html5 web socket and qr code
Cayambe 2010
LinkedIn and Twitter Lab
Beowulf summary
Publicité

Similaire à Manage Traceability with Apache Atlas flexible metadata repository. (20)

PPTX
Les technologies big data avec speech commentaries
PDF
Introduction au nouveau moteur de workflow de Microsoft : Flow
PPTX
Introduction au nouveau moteur de workflow de Microsoft : Flow (Serge Luca)
PDF
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
PDF
Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend
PDF
ExperienceNow - Découvrez comment Soitec modernise son IT et gagne en agilité...
PDF
Webinaire Starxpert : Ged transverse avec alfresco
PPTX
#NuxeoDay | Retour d'expérience équipementier mondial du ferroviaire
PPTX
ML Ops a Survey
PDF
Introduction à Drupal. Pourquoi Drupal est, en toute objectivité, le meilleur...
PDF
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
PDF
BigData en France par Excelerate Systems
PDF
[French] Matinale du Big Data Talend
PDF
Zenika matinale spark-zeppelin_ml
PDF
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
PPTX
SplunkLive! Paris 2018: Getting Data In
PDF
Fiche Produit Verteego Data Suite, mars 2017
PDF
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
PPT
Refonte intranet du Conseil Général de la Drôme avec le CMS open source Amety...
PDF
Présentation Software AG par Pierre Vaidie, Responsable Partenaires
Les technologies big data avec speech commentaries
Introduction au nouveau moteur de workflow de Microsoft : Flow
Introduction au nouveau moteur de workflow de Microsoft : Flow (Serge Luca)
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend
ExperienceNow - Découvrez comment Soitec modernise son IT et gagne en agilité...
Webinaire Starxpert : Ged transverse avec alfresco
#NuxeoDay | Retour d'expérience équipementier mondial du ferroviaire
ML Ops a Survey
Introduction à Drupal. Pourquoi Drupal est, en toute objectivité, le meilleur...
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
BigData en France par Excelerate Systems
[French] Matinale du Big Data Talend
Zenika matinale spark-zeppelin_ml
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
SplunkLive! Paris 2018: Getting Data In
Fiche Produit Verteego Data Suite, mars 2017
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Refonte intranet du Conseil Général de la Drôme avec le CMS open source Amety...
Présentation Software AG par Pierre Vaidie, Responsable Partenaires
Publicité

Plus de OW2 (20)

PDF
OW2 and RIOS teaming up to boost the open source impact, Nov. 2022 in Roma
 
PDF
The Open Source Good Governance Initiative presented at RIOS OS Week, Nov. 20...
 
PDF
GLPi v.10, les fonctionnalités principales et l'offre cloud
 
PDF
Centreon: superviser le Cloud et le Legacy à partir d'une même plateforme, po...
 
PDF
FusionIAM : la gestion des identités et des accés open source
 
PDF
OW2 Association Européenne aux racines grenobloises, transformer l'industrie ...
 
PDF
SFScon'20 Bringing the User into the Equation
 
PDF
Towards a sustainable solution to open source sustainability, OW2online20, Ju...
 
PDF
Advanced proactive and polymorphing cloud application adaptation with MORPHEM...
 
PDF
Open Source governance and the Eclipse Foundation, OW2online, June 2020
 
PDF
Open source contribution policies, OW2online, June 2020
 
PDF
Software development at scale, pandemic lockdown and oss ecosystems, OW2onlin...
 
PDF
Overview of the OpenChain Reference Tooling Work Group, OW2online20, June 2020
 
PDF
Open Source Compliance at Orange, OW2online, June 2020
 
PDF
Ideas, methods and tools for OSS Compliance assessment, OW2online, June 2020
 
PDF
Intelligent package management with FASTEN, OW2online, June 2020
 
PDF
DECODER, a Smarter Environment for DevOps Teams , OW2online, June 2020
 
PDF
Enabling DevOps for IoT software development, powered by Open Source, OW2onli...
 
PDF
Upcoming Challenges in Artificial Intelligence Research and Development, OW2o...
 
PDF
Cacti and Big Data at Orange France, OW2online, June 2020
 
OW2 and RIOS teaming up to boost the open source impact, Nov. 2022 in Roma
 
The Open Source Good Governance Initiative presented at RIOS OS Week, Nov. 20...
 
GLPi v.10, les fonctionnalités principales et l'offre cloud
 
Centreon: superviser le Cloud et le Legacy à partir d'une même plateforme, po...
 
FusionIAM : la gestion des identités et des accés open source
 
OW2 Association Européenne aux racines grenobloises, transformer l'industrie ...
 
SFScon'20 Bringing the User into the Equation
 
Towards a sustainable solution to open source sustainability, OW2online20, Ju...
 
Advanced proactive and polymorphing cloud application adaptation with MORPHEM...
 
Open Source governance and the Eclipse Foundation, OW2online, June 2020
 
Open source contribution policies, OW2online, June 2020
 
Software development at scale, pandemic lockdown and oss ecosystems, OW2onlin...
 
Overview of the OpenChain Reference Tooling Work Group, OW2online20, June 2020
 
Open Source Compliance at Orange, OW2online, June 2020
 
Ideas, methods and tools for OSS Compliance assessment, OW2online, June 2020
 
Intelligent package management with FASTEN, OW2online, June 2020
 
DECODER, a Smarter Environment for DevOps Teams , OW2online, June 2020
 
Enabling DevOps for IoT software development, powered by Open Source, OW2onli...
 
Upcoming Challenges in Artificial Intelligence Research and Development, OW2o...
 
Cacti and Big Data at Orange France, OW2online, June 2020
 

Manage Traceability with Apache Atlas flexible metadata repository.

  • 1. Copyright Synaltic 2015 CDAP, la boîte à outil pour concevoir vos applications Big Data Simplifier l'approche Big Data Charly Clairmont Synaltic @egwada cclairmont@synaltic.fr http://synaltic.fr
  • 2. Copyright Synaltic 2015 Plus d'une dizaine d'années d'expérience Co-fondateur d'Altic, maintenant Synaltic Co-fondateur du Hadoop User Groupe France Aime faire connaître les technologies open source surtout celles dédiées à l'entreprise Charly Clairmont 2
  • 3. Copyright Synaltic 2015 Société de conseils et de services spécialisée dans la mise en œuvre de projets de Data Management Créée en 2004, Synaltic est la fusion des sociétés Synotis et Altic 25 spécialistes en Data Management Filiale en Suisse , à Lausanne Nos valeurs Engagement Expertise Fidélité Synaltic 3 R&D Training SupportProject Expertise Data Intelligence Data Platform Data Governance Data Exchange SYNALTIC
  • 4. Copyright Synaltic 2015 Big Data, un écosystème « hyperactif » Core Hadoop HDFS, MR 2006 Hbase Zookeeper Core Hadoop 2008 Hive Pig Mahout Hbase Zookeeper Core Hadoop 2009 Sqoop whirr Avro Hive Pig Mahout Hbase Zookeeper Core Hadoop 2010 Flume Bigtop Oozie MRUnit HCatalog Sqoop whirr Avro Hive Pig Mahout Hbase Zookeeper Core Hadoop 2011 Spark Impala Solr Kafka Flume Bigtop Oozie MRUnit HCatalog Sqoop whirr Avro Hive Pig Mahout Hbase Zookeeper Core Hadoop 2012 Nifi Flink Atlas Ranger Drill Parquet Sentry Spark Impala Solr Kafka Flume Bigtop Oozie MRUnit HCatalog Sqoop whirr Avro Hive Pig Mahout Hbase Zookeeper Core Hadoop Aujourd'hui Arun Murthy, founder of Hortonworks : « I think you are getting a lot more attention to fit and finish rather than to just getting the new technology in»
  • 5. Copyright Synaltic 2015 !! Simplifier Hadoop !!
  • 6. Copyright Synaltic 2015 Le nouveau mot d'ordre : « Le Data Lake » Data Lake « Enterprise-wide data management platforms for analyzing disparate sources of data in its native format » Data Lake « Collect everything, dive in anywhere, give flexible access. Maximum scale and insight with the lowest Possible friction and cost. » Data Hub « A centralized, unified data Source that can quickly provide diverse business users with the information they need to do their jobs. » Gartner Hortonworks Cloudera
  • 7. Copyright Synaltic 2015 « Le Data Lake », plusieurs architectures « Étang » « Lac » « Réservoir » Données Internes Existantes Traitements / Analyses Diffusion Données Externes PME / Business Units « Dessilotage » Startups / IoT Stockage & Analyse de logs logs brutes Traitements & Analyses Toutes données !! Audits Gouvernance Traitements & Analyses Grandes Organisations Passage à l'échelle du DWH Diffusion Données Internes Existantes DiffusionDonnées Externes
  • 8. Copyright Synaltic 2015 « Le Data Lake », de nombreux challenges « Étang » « Lac » « Réservoir » Traitements manuels Traçabilité (lineage) Exploitabilité Découpler ingestion et traitements Conserver la donnée d'origine Partager l'infrastructure Couvrir plusieurs architectures Traçabilité Agile / réactif
  • 9. Copyright Synaltic 2015 Attention aux enjeux techniques des projets ! Consistance Intégration Éviter l'inutile Ré-utilisabilité Simplicité Productivité
  • 10. Copyright Synaltic 2015 Cask Data Application Platform L'objectif de Cask Data Application Platform, CDAP, est de permettre à tout développeur ou toute organisation de rapidement et facilement créer, déployer, exécuter et suivre des applications modernes à l'aide de technologies Big Data telles que Hadoop
  • 11. Copyright Synaltic Open Source (Licence Apache V 2.0) Framework & Plateforme pour développeurs & organisations Construire, déployer, et gérer vos applications CDAP 11 Supporte les principales distributions Hadoop S'appuie sur les dernières technologies Big Data Standards
  • 15. Copyright Synaltic Hydrator, un ETL pour le Big Data 15
  • 16. Copyright Synaltic Ex : Réputation de pages web, architecture application 16 Programmes – Injection des paires d'url – SparkPageRankProgram : Calcul des PageRank, via Apache Spark ⇒ résultat d'un jeu de données : ranks – RanksCounter : Agrégation des résultats pour toutes les url, via Map / Reduce ⇒ résultat d'un jeu de données : rankscount Workflow – PageRankWorkflow : Enchaînement des programmes SparkPageRankProgram et RanksCounter Service : – SparkPageRankService : connaître le rang d'une url
  • 17. Copyright Synaltic Ex : Réputation de pages web, l'application 17
  • 18. Copyright Synaltic Ex : Réputation de pages web, déploiement de l'application 18 Enregistrement et déploiement de l'application Lancement du service Exécution d'un flux de l'application
  • 19. Copyright Synaltic Ex : Réputation de pages web, visible depuis l'interface web Liste des applications, Liste des jeux de données
  • 20. Copyright Synaltic Ex : Réputation de pages web, visible depuis l'interface web Pour chaque application – Les programmes associés – Traçabilité des programmes
  • 21. Copyright Synaltic Ex : Réputation de pages web, visible depuis l'interface web Pour chaque application – Les jeux de données associés ● Traçabilité des jeux de données
  • 22. Copyright Synaltic Ex : Réputation de pages web, visible depuis l'interface web Pour chaque application – Paramétrage – Exécution de l'application
  • 23. Copyright Synaltic Ex : Réputation de pages web, visible depuis l'interface web Pour chaque application – Suivi des exécutions
  • 24. Copyright Synaltic Ex : Réputation de pages web, visible depuis l'interface web Les services sont disponibles pour l'intégration aux applications tierces
  • 25. Copyright Synaltic Ex : Réputation de pages web, visible depuis l'interface web Les jeux de données peuvent être accédés via JDBC
  • 26. Copyright Synaltic CDAP simplifie les projets Big Data CDAP apporte une gestion de bout en bout de vos projets Big Data CDAP offre une vision complète et unifiée pour l'ensemble de vos applications Big Data – Extensibilité – Metadonnées – Audit – Suivi Ce qu'il faut retenir 26
  • 27. Copyright Synaltic CDAP : – http://cdap.io/ Documentation : – http://docs.cdap.io/cdap/current/en/index.html Source : – https://github.com/caskdata/cdap Editeur : – http://cask.co/ Liens 27