Hadoop est une plateforme open source conçue pour le traitement distribué de grandes quantités de données, gérée par la fondation Apache et écrite en Java. Son architecture repose sur deux composants principaux : HDFS pour le stockage distribué et MapReduce pour le traitement des données. Historique d'Hadoop, il a été développé par Doug Cutting en 2004, influencé par des travaux de Google, et a évolué pour supporter des clusters de milliers de machines partageant des pétaoctets de données.