Le document traite de l'initiation au calcul distribué avec Apache Spark 2.x, expliquant les besoins en calcul distribué, l'écosystème de Spark, ainsi que ses abstractions de données. Il met en lumière les avantages de Spark par rapport à Hadoop, notamment en termes de traitement en mémoire et d'optimisation. Le document couvre également les composants Spark comme Spark SQL, Spark Streaming, MLlib pour le machine learning, et le concept de pipeline en machine learning.