[tours-jug19] Unifiez vos traitements Batch et Streaming avec Apache beam

Unifiez vos
traitements
Batch & Streaming
avec Apache BEAM
18 septembre 2019

Alexandre Touret
Architecte @Worldline
#Java #API #CI
#Software_Craftsmanship
@touret_alex
2

Sommaire
▪ Etat des lieux
▪ Présentation d’Apache Beam
▪ Concepts
▪ Démonstration
▪ (Ma) Conclusion
3

Etat des lieux
Quel Framework utiliser pour mes
traitements de données ?
1.

ETL ?
Extract Transform Load
5

Spring Integration
Traitements
“simples”
Apache Camel
6

Traitements
“distribués”
Spark Flink Google Dataflow
7

8
Portabilité ?
Quid de la
formation ?
Un outil et une API
pour chaque besoin
?
Et la
production ?

Apache Beam
Une courte présentation
2.

Apache Beam a été initié par Google
dans son offre Dataflow.
Il a été donné à la fondation Apache
en 2016.
https://beam.apache.org
Il est apparu en 2018 dans les
principaux radars tech.
11
Source: https://www.thoughtworks.com/radar

12https://beam.apache.org/documentation/runners/capability-matrix/
batch
streaming
Implémentation
Exécution

14
Un pipeline
Input Collection
Transformatio
n
Collection
Transformatio
n
Output
Transformatio
n

15
Les collections
PCollection<String> lines =
p.apply(TextIO.read().from("file:///some/inputData.txt"));

16
Les
transformations
Beam fournit plusieurs
transformations par défaut:
● ParDo
● GroupByKey
● Combine
● ...
On peut les étendre et créer nos
transformations.

17
public class FormatStringAsDocument extends
SimpleFunction<String, Document> {
@Override
public Document apply(String input) {
ObjectMapper objectMapper = new ObjectMapper();
Timestamp timestamp =
objectMapper.readValue(input, Timestamp.class);
Map<String, Object> value =
objectMapper.convertValue(timestamp, new
TypeReference<Map<String, Object>>() {
});
Document document = new Document(value);
return document;
}
}

18
Les IO
Beam fournit une bibliothèque de
transformations permettant
l’interaction avec des sources de
données
On peut trouver :
Kafka
Text
Hadoop
Cassandra
...

19
Les
transformations
appliquées aux IO
read()
Exemples:
JdbcIO.read()
MongoDbIO.read()
write()
Exemples:
JdbcIO.write()
MongoDbIO.write()

20
Streaming
p.apply(KafkaIO.<Long, String>read()
.withBootstrapServers(kafkaUrl)
.withTopic(kafkaTopicName)
.withKeyDeserializer(LongDeserializer.class)
.withValueDeserializer(StringDeserializer.class)
[...]
p.run().waitUntilFinish();

Batch exécuté une
fois
PCollection<String> lines = pipeline.apply(TextIO.read()
.from(“data/**.csv”));
21

Batch sur présence
de fichiers
PCollection<String> lines = pipeline.apply(TextIO.read()
.from(“data/**.csv”)
.watchForNewFiles(
standardSeconds(15),
afterTimeSinceNewOutput(Duration.standardHours(1))))
22

23
Les runners
Beam fournit plusieurs runners.
La sélection d’un runner se fait par
ajout d’une dépendance dans le
classpath
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-runners-direct-java
</artifactId>
<version>2.14.0</version>
<scope>test</scope>
</dependency>

Write once run
everywhere ?
24Source: https://beam.apache.org/documentation/runners/capability-matrix

Quelques points
négatifs
● Pas compatible avec JAVA 11
et les dernières versions de
certains frameworks (ex.
JUNIT5)
● La gestion des erreurs est
encore problématique dans
certains cas
27

Les points positifs
● Le projet est très
actif
● Permet
d'exécuter des
pipelines sur
plusieurs
runtimes avec
une seule API.
28
● Si vous devez
gérer plusieurs
environnements
et faire du
“débordement
dans le cloud”,
BEAM peut être
utile.

Pour aller plus loin
https://beam.apache.org
https://github.com/littlewing/beam-orleans-tech
https://blog.jetbrains.com/blog/2019/06/14/new-in-
educational-products-apache-beam-katas-and-more/
29

Merci!
Des questions?
@touret_alex
30
18 septembre 2019

[tours-jug19] Unifiez vos traitements Batch et Streaming avec Apache beam

Contenu connexe

En vedette (20)

[tours-jug19] Unifiez vos traitements Batch et Streaming avec Apache beam

Notes de l'éditeur