SlideShare une entreprise Scribd logo
Architecture « Big Data » Open
Source SMACK
Julien Anguenot
VP Software Engineering, iland cloud
Datastax MVP for Apache Cassandra
www.iland.comDRaaS, Cloud Backup, Secure Cloud
Les challenges du Big Data
● Sources multiples de données (internes / externes)
● Taille des données augmente
● Scalabilité et disponibilité
● Les systèmes doivent être distribués (multi-datacenters)
● Hybride (Cloud et sur site)
● Traitement dynamique des données (donnée à un temps « t »)
● Chaîne de traitement de données (pipeline)
● Gestion de systèmes complexes (clusters) distribués
● Coût (technologique et humain)
S.M.A.C.K
● Spark (moteur)
● Mesos (conteneur)
● Akka (modèle)
● Cassandra (stockage)
● Kafka  (agent de
message)
https://www.apache.org/
Architecture Big Data open source S.M.A.C.K
Kafka
● https://kakfa.apache.org
● Système de messaging distribué
● Publication – Abonnement (« pub-sub »)
● Rapide, durable, évolutif, performant, faible latence
● Développé par Linkedin
● Apache Foundation
Kafka : cas d’utilisation
● Agrégation de logs
● Files d’attente
● Monitoring
● Traitement « temps réel »
Kafka : APIs core (1/2)
● API « producer » 
● API « consumer »
● API « stream »
● API « connector »
https://kafka.apache.org/intro
Kafka : APIs core (2/2)
● API « producer » : publication de données vers un ou
plusieurs brokers (topics) 
● API « consumer » : abonnement et récupération de données
depuis un ou plusieurs brokers
● API « stream » application consomme des données depuis 1
ou plusieurs topics et publient en sortie sur un ou plusieurs
topics. (Processing et transformation)
● API « connector » composants extensibles réutilisables (Akka
Stream par exemple)
Kafka : concepts de base (1/2)
● Les producteurs publient des données vers les
brokers
● Les consommateurs s’abonnent et récupèrent les
données depuis les brokers
Kafka : concepts de base (2/2)
● Kafka tourne en mode cluster
● Le cluster stocke des « streams » de données dans des
topics
● Les topics sont divisés en partitions et répliqués
fonction du facteur de réplication. (configurable)
● Chaque enregistrement contient : clef, valeur et
timestamp
Kafka : les garanties
● Les messages sont ordonnés dans l’ordre dans lequel ils
sont envoyés par le producteur
● Les consommateurs reçoivent les messages dans
l’ordre dans lequel ils sont insérés par le producteur
dans le log
● Les messages sont délivrés au moins 1x
● Si RF = N, N-1 pannes serveurs sans perde de
messages commîtes
Cassandra
● Base de données distribuée « orientée colonnes »
● Google Big Table (modèle de données)
● Amazon's Dynamo (architecture distribuées)
● Réplication multi data-center native (Cloud et sur site)
● Fini le sharding
● Faible latence en écriture
● Large volume de données
● Élasticité : scalabilité linéaire
● Haute dispo : Pas de master / slave == pas de SPOF
● http://cassandra.apache.org/
Pourquoi utiliser Cassandra ?
● Déploiements massifs
● Beaucoup d’écritures
● Application distribuée géographiquement
● Application a besoin d’évoluer
http://www.datastax.com/
Comment ça marche ?
● Écriture séquentielle dans un commit log (fichier)
● Indexation et écriture en mémoire dans des memtables
● Sérialisation des données sur disque dans des SSTables
● Les données sont alors partitionnées et répliquer
automatiquement dans le cluster
● SSTables sont consolidées (fonction de la stratégie) par des
compactions et nettoie les tombsones
● Les repairs garantissent la consistance du cluster
Cassandra : l’abstraction
● Cluster
● Data-center
● Racks
● Serveurs (l’instance Cassandra)
● Vnodes (Abstraction de stockage)
Cassandra : modèle de données
● Keyspace
● Table
● Primary Key
● Index
Cassandra : CQL
● Cassandra Query Language (CQL)
● Remplace Thrift
● CQL ressemble à du SQL
● DDL (CREATE, ALTER, DROP)
● DML (INSERT, UPDATE, DELETE, TRUNCATE)
● Query (SELECT)
● Types assez riches et similaires à SQL
● Drivers et cqlsh
lectures
● Dynamo: Amazon’s Highly Distributed Key-Value
Store:)
http://www.allthingsdistributed.com/2007/10/amazons_
dynamo.html
● Brewer's CAP theorem :
https://fenix.tecnico.ulisboa.pt/downloadFile/11265183
82178117/10.e-CAP-3.pdf
Spark
● Moteur générique performant pour larges sources de
données distribuées
● Framework complet et unifié (type de données et sources de
données)
● MapReduce ++
● Utilisation mémoire et CPU vs disque et réseau (Hadoop)
● Java, Scala, Python, Closure et R
● https://spark.apache.org/
https://databricks.com/spark/about
Spark : l’écosystème
● Spark Streaming : traitement temps-réel des données
en flux (Dstream, RDD (Resilient Distributed Dataset)
● Spark SQL : expose des données Spark par API JDBC –
SQL, BI etc. - données extraite en JSON, Parquet, etc.
● Spark Mlib : bibliothèque de machine learning –
classification, regression, clustering, reduction etc.
● Spark GraphX : API pour traitement graphs –
extensions des RDD
En particulier
● Spark Cassandra Connector :
https://github.com/datastax/spark-cassandra-con
nector
● Spark Streaming + Kafka :
http://spark.apache.org/docs/latest/streaming-kaf
ka-0-10-integration.html
Spark : les jobs
● Standalone
● Mesos
● YARN
Spark & Hadoop
● Spark ne remplace pas Hadoop
● Spark et Hadoop fonctionne très bien ensemble
● Hadoop peut être utiliser comme stockage de données
distribuées (vs Cassandra)
● Spark beaucoup plus rapide que Hadoop pour les
traitement en mémoire
● « fast-data> vs « slow-data »
Akka
● http://akka.io/
● Toolkit et runtime pour applications concurrentes,
distribuées, résilientes et « event-driven » sur JVM
● Java & Scala : bibliothèque (JAR) ou natif SBT
● Reactive manifesto : http://www.reactivemanifesto.org/
● « Actor model »
● http://akka.io/
« Actor model »
● Distribué
● Parallèle
● Async
● « Non-blocking »
● Tolérant à la panne : superviseur et « let it crash » sémantique
● Le système peut tourner en multi-JVM
● Changements d’état du système peuvent être sauvegardés
● Peu de place en HEP pour des millions d’acteurs
Akka et Kafka
● Akka Streams : Kafka « Connector »
http://doc.akka.io/docs/akka-stream-and-http-experiment
al/current/
● Reactive Kafka :
https://github.com/softwaremill/reactive-kafka
Mesos
● Gestion de cluster pour environnements distribués
● Abstraction (Physique, VM, Conteneur Docker) et unification de
l’ensemble des ressources : CPU, mémoire, disque
● Allocation dynamique de ressources
● Gestion de l’exécution des tâches
● Isolation des ressources
● Tolérant à la panne
● Optimisation des ressources et des coûts
● http://mesos.apache.org/
Google « Borg »
● Google « Borg » white paper :
http://research.google.com/pubs/pub43438.
html
● Site Reliability Engineering - How Google
Runs Production Systems :
http://shop.oreilly.com/product/0636920041
528.do
Mesos : concepts de base (1/2)
● Le master daemon gère des agents (slaves) qui tournent sur chaque
nœuds du cluster
● Le master gère le partage des ressources (CPU, RAM, Disque) entre les
frameworks et leur fait des « resource offer » (CPU : X, RAM : Y,
DISQUE : Y)
● Le framework a 2 composants : scheduler et executor
● Scheduler : s’inscrit sur le master pour recevoir des offres de
ressources
● Executor : exécuté sur l’agent par le master et lance les tâches du
framework
Mesos : concepts de base (2/2)
http://mesos.apache.org/documentation/latest/architecture/
Mesos : resource offer
http://mesos.apache.org/documentation/latest/architecture/
Services (vs tâches) ?
● Apache Aurora :
● http://aurora.apache.org/
Mesos & conteneurs ?
● Marathon : orchestration de conteneurs
https://github.com/mesosphere/marathon
● cgroups ou Docker
● DC/OS :
https://dcos.io/get-started/#marathon
● Google Kubernete :
● https://github.com/mesosphere/kubernetes-mesos
En résumé, SMACK c’est …
● Un ensemble de logiciels stables et Open Source
● Déploiement Cloud ou sur site
● Une plateforme unique pour adresser une multitudes de cas
d’utilisation pour des applications orientées vers le traitement
« temps réel » de large volume de données
● Scalabilité et réplication des données avec une faible latence
● Gestion unifiée du cluster
● Prototypage rapide et à moindre coût
Questions
@anguenot www.iland.com
http://slideshare.net/anguenot/

Contenu connexe

PDF
Une introduction à HBase
PPTX
Spark - An In-Memory Distributed Computing Engine.pptx
PPTX
Introduction à la big data V2
PDF
Hadoop Hbase - Introduction
PDF
Spark (v1.3) - Présentation (Français)
PPTX
Quand utiliser MongoDB … Et quand vous en passer…
PPTX
Introduction à la big data v3
Une introduction à HBase
Spark - An In-Memory Distributed Computing Engine.pptx
Introduction à la big data V2
Hadoop Hbase - Introduction
Spark (v1.3) - Présentation (Français)
Quand utiliser MongoDB … Et quand vous en passer…
Introduction à la big data v3

Tendances (20)

PDF
BigData_TP3 : Spark
PDF
Découverte de Elastic search
PPTX
차곡차곡 쉽게 알아가는 Elasticsearch와 Node.js
PDF
Introduction à ElasticSearch
PDF
Une introduction à Hive
PPTX
Understanding Oracle GoldenGate 12c
PPT
OpenSearch
PPT
Document Databases & RavenDB
PDF
BigData_Chp5: Putting it all together
ODP
Deep Dive Into Elasticsearch
PDF
Support formation vidéo : Vos premiers pas avec le pare feu CISCO ASA
PDF
[245] presto 내부구조 파헤치기
PDF
BigData_TP4 : Cassandra
PPT
SSIS Presentation
PPTX
MySQL8.0_performance_schema.pptx
PPTX
Apache sqoop with an use case
PDF
EMR 플랫폼 기반의 Spark 워크로드 실행 최적화 방안 - 정세웅, AWS 솔루션즈 아키텍트:: AWS Summit Online Ko...
PDF
Thinking Big - Big data: principes et architecture
PDF
Power Bi, le tour complet 2017
PDF
BigData_Chp1: Introduction à la Big Data
BigData_TP3 : Spark
Découverte de Elastic search
차곡차곡 쉽게 알아가는 Elasticsearch와 Node.js
Introduction à ElasticSearch
Une introduction à Hive
Understanding Oracle GoldenGate 12c
OpenSearch
Document Databases & RavenDB
BigData_Chp5: Putting it all together
Deep Dive Into Elasticsearch
Support formation vidéo : Vos premiers pas avec le pare feu CISCO ASA
[245] presto 내부구조 파헤치기
BigData_TP4 : Cassandra
SSIS Presentation
MySQL8.0_performance_schema.pptx
Apache sqoop with an use case
EMR 플랫폼 기반의 Spark 워크로드 실행 최적화 방안 - 정세웅, AWS 솔루션즈 아키텍트:: AWS Summit Online Ko...
Thinking Big - Big data: principes et architecture
Power Bi, le tour complet 2017
BigData_Chp1: Introduction à la Big Data
Publicité

En vedette (20)

PDF
Data processing platforms architectures with Spark, Mesos, Akka, Cassandra an...
PDF
Streaming Analytics with Spark, Kafka, Cassandra and Akka by Helena Edelson
PPTX
Building Data Pipelines with SMACK: Designing Storage Strategies for Scale an...
PDF
Leveraging Cassandra for real-time multi-datacenter public cloud analytics
PDF
SMACK Stack 1.1
PDF
Data processing platforms with SMACK: Spark and Mesos internals
PPTX
Webinar - How to Build Data Pipelines for Real-Time Applications with SMACK &...
PDF
Laying down the smack on your data pipelines
ODP
Kick-Start with SMACK Stack
PDF
Sa introduction to big data pipelining with cassandra & spark west mins...
PDF
Real-Time Anomaly Detection with Spark MLlib, Akka and Cassandra
PDF
Reactive dashboard’s using apache spark
PDF
Streaming Analytics with Spark, Kafka, Cassandra and Akka
PPTX
[若渴計畫2015.8.18] SMACK
PPTX
Hundreds of queries in the time of one - Gianmario Spacagna
PDF
Apache Cassandra multi-datacenter essentials
PPT
Big Data Paris 2015 - Cassandra chez Chronopost
PPTX
eBay Experimentation Platform on Hadoop
PPTX
Apache phoenix: Past, Present and Future of SQL over HBAse
PDF
Cassandra multi-datacenter operations essentials
Data processing platforms architectures with Spark, Mesos, Akka, Cassandra an...
Streaming Analytics with Spark, Kafka, Cassandra and Akka by Helena Edelson
Building Data Pipelines with SMACK: Designing Storage Strategies for Scale an...
Leveraging Cassandra for real-time multi-datacenter public cloud analytics
SMACK Stack 1.1
Data processing platforms with SMACK: Spark and Mesos internals
Webinar - How to Build Data Pipelines for Real-Time Applications with SMACK &...
Laying down the smack on your data pipelines
Kick-Start with SMACK Stack
Sa introduction to big data pipelining with cassandra & spark west mins...
Real-Time Anomaly Detection with Spark MLlib, Akka and Cassandra
Reactive dashboard’s using apache spark
Streaming Analytics with Spark, Kafka, Cassandra and Akka
[若渴計畫2015.8.18] SMACK
Hundreds of queries in the time of one - Gianmario Spacagna
Apache Cassandra multi-datacenter essentials
Big Data Paris 2015 - Cassandra chez Chronopost
eBay Experimentation Platform on Hadoop
Apache phoenix: Past, Present and Future of SQL over HBAse
Cassandra multi-datacenter operations essentials
Publicité

Similaire à Architecture Big Data open source S.M.A.C.K (20)

PPTX
Realtime Web avec Kafka, Spark et Mesos
PPTX
Datastax Cassandra + Spark Streaming
PDF
NoSQL User Group Paris - 21 Juin 2011 - GigaSpaces
PDF
Cartographie du big data
PDF
Analytics et Big Data, une histoire de cubes...
PDF
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
PDF
Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014
DOCX
Résumkbjnnbuhb.jhyhuhuhhhhhhhhhhhhhhhhhhhhhhhé.docx
PPTX
Avenir des grilles - F. Desprez
PPTX
Hadoop et son écosystème
PDF
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
PPTX
Architectures bigdata
PDF
Plongée dans la plateforme hadoop
PDF
BigData_Technologies_PL.pdf
PDF
Hadoop Introduction in Paris
PPTX
Migration d'une Architecture Microservice vers une Architecture Event-Driven ...
PPTX
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
PDF
Big Data, Hadoop & Spark
PDF
chap 2 - cours -99999897765579 Spark.pdf
PPTX
noSQL
Realtime Web avec Kafka, Spark et Mesos
Datastax Cassandra + Spark Streaming
NoSQL User Group Paris - 21 Juin 2011 - GigaSpaces
Cartographie du big data
Analytics et Big Data, une histoire de cubes...
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014
Résumkbjnnbuhb.jhyhuhuhhhhhhhhhhhhhhhhhhhhhhhé.docx
Avenir des grilles - F. Desprez
Hadoop et son écosystème
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
Architectures bigdata
Plongée dans la plateforme hadoop
BigData_Technologies_PL.pdf
Hadoop Introduction in Paris
Migration d'une Architecture Microservice vers une Architecture Event-Driven ...
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Big Data, Hadoop & Spark
chap 2 - cours -99999897765579 Spark.pdf
noSQL

Architecture Big Data open source S.M.A.C.K

  • 1. Architecture « Big Data » Open Source SMACK
  • 2. Julien Anguenot VP Software Engineering, iland cloud Datastax MVP for Apache Cassandra
  • 4. Les challenges du Big Data ● Sources multiples de données (internes / externes) ● Taille des données augmente ● Scalabilité et disponibilité ● Les systèmes doivent être distribués (multi-datacenters) ● Hybride (Cloud et sur site) ● Traitement dynamique des données (donnée à un temps « t ») ● Chaîne de traitement de données (pipeline) ● Gestion de systèmes complexes (clusters) distribués ● Coût (technologique et humain)
  • 5. S.M.A.C.K ● Spark (moteur) ● Mesos (conteneur) ● Akka (modèle) ● Cassandra (stockage) ● Kafka  (agent de message)
  • 8. Kafka ● https://kakfa.apache.org ● Système de messaging distribué ● Publication – Abonnement (« pub-sub ») ● Rapide, durable, évolutif, performant, faible latence ● Développé par Linkedin ● Apache Foundation
  • 9. Kafka : cas d’utilisation ● Agrégation de logs ● Files d’attente ● Monitoring ● Traitement « temps réel »
  • 10. Kafka : APIs core (1/2) ● API « producer »  ● API « consumer » ● API « stream » ● API « connector » https://kafka.apache.org/intro
  • 11. Kafka : APIs core (2/2) ● API « producer » : publication de données vers un ou plusieurs brokers (topics)  ● API « consumer » : abonnement et récupération de données depuis un ou plusieurs brokers ● API « stream » application consomme des données depuis 1 ou plusieurs topics et publient en sortie sur un ou plusieurs topics. (Processing et transformation) ● API « connector » composants extensibles réutilisables (Akka Stream par exemple)
  • 12. Kafka : concepts de base (1/2) ● Les producteurs publient des données vers les brokers ● Les consommateurs s’abonnent et récupèrent les données depuis les brokers
  • 13. Kafka : concepts de base (2/2) ● Kafka tourne en mode cluster ● Le cluster stocke des « streams » de données dans des topics ● Les topics sont divisés en partitions et répliqués fonction du facteur de réplication. (configurable) ● Chaque enregistrement contient : clef, valeur et timestamp
  • 14. Kafka : les garanties ● Les messages sont ordonnés dans l’ordre dans lequel ils sont envoyés par le producteur ● Les consommateurs reçoivent les messages dans l’ordre dans lequel ils sont insérés par le producteur dans le log ● Les messages sont délivrés au moins 1x ● Si RF = N, N-1 pannes serveurs sans perde de messages commîtes
  • 15. Cassandra ● Base de données distribuée « orientée colonnes » ● Google Big Table (modèle de données) ● Amazon's Dynamo (architecture distribuées) ● Réplication multi data-center native (Cloud et sur site) ● Fini le sharding ● Faible latence en écriture ● Large volume de données ● Élasticité : scalabilité linéaire ● Haute dispo : Pas de master / slave == pas de SPOF ● http://cassandra.apache.org/
  • 16. Pourquoi utiliser Cassandra ? ● Déploiements massifs ● Beaucoup d’écritures ● Application distribuée géographiquement ● Application a besoin d’évoluer
  • 18. Comment ça marche ? ● Écriture séquentielle dans un commit log (fichier) ● Indexation et écriture en mémoire dans des memtables ● Sérialisation des données sur disque dans des SSTables ● Les données sont alors partitionnées et répliquer automatiquement dans le cluster ● SSTables sont consolidées (fonction de la stratégie) par des compactions et nettoie les tombsones ● Les repairs garantissent la consistance du cluster
  • 19. Cassandra : l’abstraction ● Cluster ● Data-center ● Racks ● Serveurs (l’instance Cassandra) ● Vnodes (Abstraction de stockage)
  • 20. Cassandra : modèle de données ● Keyspace ● Table ● Primary Key ● Index
  • 21. Cassandra : CQL ● Cassandra Query Language (CQL) ● Remplace Thrift ● CQL ressemble à du SQL ● DDL (CREATE, ALTER, DROP) ● DML (INSERT, UPDATE, DELETE, TRUNCATE) ● Query (SELECT) ● Types assez riches et similaires à SQL ● Drivers et cqlsh
  • 22. lectures ● Dynamo: Amazon’s Highly Distributed Key-Value Store:) http://www.allthingsdistributed.com/2007/10/amazons_ dynamo.html ● Brewer's CAP theorem : https://fenix.tecnico.ulisboa.pt/downloadFile/11265183 82178117/10.e-CAP-3.pdf
  • 23. Spark ● Moteur générique performant pour larges sources de données distribuées ● Framework complet et unifié (type de données et sources de données) ● MapReduce ++ ● Utilisation mémoire et CPU vs disque et réseau (Hadoop) ● Java, Scala, Python, Closure et R ● https://spark.apache.org/
  • 25. Spark : l’écosystème ● Spark Streaming : traitement temps-réel des données en flux (Dstream, RDD (Resilient Distributed Dataset) ● Spark SQL : expose des données Spark par API JDBC – SQL, BI etc. - données extraite en JSON, Parquet, etc. ● Spark Mlib : bibliothèque de machine learning – classification, regression, clustering, reduction etc. ● Spark GraphX : API pour traitement graphs – extensions des RDD
  • 26. En particulier ● Spark Cassandra Connector : https://github.com/datastax/spark-cassandra-con nector ● Spark Streaming + Kafka : http://spark.apache.org/docs/latest/streaming-kaf ka-0-10-integration.html
  • 27. Spark : les jobs ● Standalone ● Mesos ● YARN
  • 28. Spark & Hadoop ● Spark ne remplace pas Hadoop ● Spark et Hadoop fonctionne très bien ensemble ● Hadoop peut être utiliser comme stockage de données distribuées (vs Cassandra) ● Spark beaucoup plus rapide que Hadoop pour les traitement en mémoire ● « fast-data> vs « slow-data »
  • 29. Akka ● http://akka.io/ ● Toolkit et runtime pour applications concurrentes, distribuées, résilientes et « event-driven » sur JVM ● Java & Scala : bibliothèque (JAR) ou natif SBT ● Reactive manifesto : http://www.reactivemanifesto.org/ ● « Actor model » ● http://akka.io/
  • 30. « Actor model » ● Distribué ● Parallèle ● Async ● « Non-blocking » ● Tolérant à la panne : superviseur et « let it crash » sémantique ● Le système peut tourner en multi-JVM ● Changements d’état du système peuvent être sauvegardés ● Peu de place en HEP pour des millions d’acteurs
  • 31. Akka et Kafka ● Akka Streams : Kafka « Connector » http://doc.akka.io/docs/akka-stream-and-http-experiment al/current/ ● Reactive Kafka : https://github.com/softwaremill/reactive-kafka
  • 32. Mesos ● Gestion de cluster pour environnements distribués ● Abstraction (Physique, VM, Conteneur Docker) et unification de l’ensemble des ressources : CPU, mémoire, disque ● Allocation dynamique de ressources ● Gestion de l’exécution des tâches ● Isolation des ressources ● Tolérant à la panne ● Optimisation des ressources et des coûts ● http://mesos.apache.org/
  • 33. Google « Borg » ● Google « Borg » white paper : http://research.google.com/pubs/pub43438. html ● Site Reliability Engineering - How Google Runs Production Systems : http://shop.oreilly.com/product/0636920041 528.do
  • 34. Mesos : concepts de base (1/2) ● Le master daemon gère des agents (slaves) qui tournent sur chaque nœuds du cluster ● Le master gère le partage des ressources (CPU, RAM, Disque) entre les frameworks et leur fait des « resource offer » (CPU : X, RAM : Y, DISQUE : Y) ● Le framework a 2 composants : scheduler et executor ● Scheduler : s’inscrit sur le master pour recevoir des offres de ressources ● Executor : exécuté sur l’agent par le master et lance les tâches du framework
  • 35. Mesos : concepts de base (2/2) http://mesos.apache.org/documentation/latest/architecture/
  • 37. Services (vs tâches) ? ● Apache Aurora : ● http://aurora.apache.org/
  • 38. Mesos & conteneurs ? ● Marathon : orchestration de conteneurs https://github.com/mesosphere/marathon ● cgroups ou Docker ● DC/OS : https://dcos.io/get-started/#marathon ● Google Kubernete : ● https://github.com/mesosphere/kubernetes-mesos
  • 39. En résumé, SMACK c’est … ● Un ensemble de logiciels stables et Open Source ● Déploiement Cloud ou sur site ● Une plateforme unique pour adresser une multitudes de cas d’utilisation pour des applications orientées vers le traitement « temps réel » de large volume de données ● Scalabilité et réplication des données avec une faible latence ● Gestion unifiée du cluster ● Prototypage rapide et à moindre coût