SlideShare una empresa de Scribd logo
Apache Spark Fundamentals
Bruno Ramírez
Agenda
- Acerca de mi
- ¿Qué es Apache Spark?
- Conceptos y arquitectura
- Ejemplos Básicos
- Preguntas y respuestas
Imagen extraida de Apache Spark Doc
¿Qué es Apache Spark?
➔ Es un motor de cómputo unificado y
un conjunto de librerías para el
procesamiento paralelo de datos.
➔ Es el motor open source más
desarrollado para esta tarea.
➔ Soporta múltiples lenguajes de
programación.
➔ Corre donde sea, desde una laptop
hasta en un cluster con cientos de
servidores.
Imagen extraida de Spark: The Definitive Guide
by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
El Problema
➔ Ley de Moore
➔ Esta tendencia se detuvo alrededor
del 2005
➔ Recolectar datos es extremadamente
barato
➔ Requiere de procesamientos largos y
paralelos
Imagen extraida de Tech Story
Historia
➔ UC Berkeley en 2009
➔ Spark: Cluster Computing with Working Sets, UC Berkeley AMPlab
➔ Cluster Computing - gran potencial
➔ MapReduce era desafiante e ineficiente al construir aplicaciones a larga
escala
➔ Functional Programming
➔ Eficiente intercambio de datos in-memory mediante pasos computados
➔ En 2013 - más de 100 contribuidores de más de 30 orgs
➔ Apache Software Foundation
Arquitectura Básica
Imagen extraida de Spark: The Definitive Guide
by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
La API
Imagen extraida de Spark: The Definitive Guide
by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
Empecemos con Spark
SparkSession
La instancia de SparkSession es la manera en que Spark ejecuta manipulaciones
definidas por el usuarios en el cluster.
Distributed Collections of Data
➔ Datasets
➔ DataFrames
➔ SQL Tables
➔ Resilient Distributed Datasets (RDDs)
Transformations
➔ Las transformaciones son la forma abstracta de expresar la logica de negocio
(plan lógico) usando Spark.
➔ Partitions
➔ Lazy Evaluation
Imagen extraida de Spark: The Definitive Guide
by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
Actions
➔ Las transformaciones nos permiten construir nuestro plan lógico de
transformación.
➔ Para desencadenar la computación, corremos una acción.
➔ Una acción ordena a Spark procesar un resultado de una serie de
transformaciones.
➔ Hay tres tipos de acciones:
◆ Acciones para ver datos en la consola
◆ Acciones para colectar datos en objetos nativos del lenguaje usado
◆ Acciones para escribir datos en destinos externos
Planeación Lógica
Imagen extraida de Spark: The Definitive Guide
by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
SparkUI
➔ La SparkUI muestra información del estado de los Spark jobs, su ambiente y el
estado del cluster
➔ Es muy útil para debuggear y mejorar el desempeño
Imagen extraida de Spark: The Definitive Guide
by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
Ejemplos Básicos
Ejemplo Básico con RDDs
Imagen extraida de Spark: The Definitive Guide
by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
Data Pipeline Básico con DataFrames
Imagen extraida de Spark: The Definitive Guide
by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
Qué más se puede hacer con Apache Spark?
¿Preguntas?
Gracias

Más contenido relacionado

PDF
¿Por que cambiar de Apache Hadoop a Apache Spark?
PDF
Parallel Programming
PDF
Primeros pasos con Apache Spark - Madrid Meetup
PDF
Apache Spark y Big Data
PPTX
Big data con Hadoop y SSIS 2016
PDF
Procesamiento masivo de datos en MongoDB
PDF
Introduccion a Apache Spark
PPTX
Estudio sobre Spark, Storm, Kafka y Hive
¿Por que cambiar de Apache Hadoop a Apache Spark?
Parallel Programming
Primeros pasos con Apache Spark - Madrid Meetup
Apache Spark y Big Data
Big data con Hadoop y SSIS 2016
Procesamiento masivo de datos en MongoDB
Introduccion a Apache Spark
Estudio sobre Spark, Storm, Kafka y Hive

Similar a Meetup Junio Apache Spark Fundamentals (20)

PDF
Análisis de datos con Apache Spark
PPTX
Introducción a Apache Spark
PDF
Meetup Spark y la Combinación de sus Distintos Módulos
PDF
Spark Hands-on
PDF
Primeros pasos con Spark - Spark Meetup Madrid 30-09-2014
PDF
Spark meetup barcelona
PPTX
OpenAnalytics Madrid 2014: Spark
PDF
6. SPARK.pdf
PDF
Taller: Limpieza y preparación de datos con Optimus y Apache Spark
PDF
Congreso Academy Journal Celaya 2017
PPTX
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
PDF
Apache Spark - Introduccion a RDDs
PDF
Data crunching con Spark
PPTX
Herramientas BigData.pptx
PDF
Spark web meetup
PDF
Meetup: Cómo monitorizar y optimizar procesos de Spark usando la Spark Web - ...
PDF
Big data: Valor y Mercado: Escola Universitària Salesians de Sarrià - UAB
PPTX
Meetup errores en proyectos Big Data
PPSX
G te c sesion3b- mapreduce
PDF
Introduccion a databricks
Análisis de datos con Apache Spark
Introducción a Apache Spark
Meetup Spark y la Combinación de sus Distintos Módulos
Spark Hands-on
Primeros pasos con Spark - Spark Meetup Madrid 30-09-2014
Spark meetup barcelona
OpenAnalytics Madrid 2014: Spark
6. SPARK.pdf
Taller: Limpieza y preparación de datos con Optimus y Apache Spark
Congreso Academy Journal Celaya 2017
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
Apache Spark - Introduccion a RDDs
Data crunching con Spark
Herramientas BigData.pptx
Spark web meetup
Meetup: Cómo monitorizar y optimizar procesos de Spark usando la Spark Web - ...
Big data: Valor y Mercado: Escola Universitària Salesians de Sarrià - UAB
Meetup errores en proyectos Big Data
G te c sesion3b- mapreduce
Introduccion a databricks
Publicidad

Más de DataLab Community (11)

PPTX
Meetup Julio Algoritmos Genéticos
PPTX
Meetup Junio Data Analysis with python 2018
PDF
Procesar e interpretar señales biológicas para hacer predicción de movimiento...
PDF
Metodos de kernel en machine learning by MC Luis Ricardo Peña Llamas
PDF
Curse of dimensionality by MC Ivan Alejando Garcia
PDF
Tensor models and other dreams by PhD Andres Mendez-Vazquez
PDF
Quiénes somos - DataLab Community
PDF
Profesiones de la ciencia de datos
PDF
El arte de la Ciencia de Datos
PPTX
Presentación de DataLab Community
PPTX
De qué hablamos cuando hablamos de Data Science
Meetup Julio Algoritmos Genéticos
Meetup Junio Data Analysis with python 2018
Procesar e interpretar señales biológicas para hacer predicción de movimiento...
Metodos de kernel en machine learning by MC Luis Ricardo Peña Llamas
Curse of dimensionality by MC Ivan Alejando Garcia
Tensor models and other dreams by PhD Andres Mendez-Vazquez
Quiénes somos - DataLab Community
Profesiones de la ciencia de datos
El arte de la Ciencia de Datos
Presentación de DataLab Community
De qué hablamos cuando hablamos de Data Science
Publicidad

Último (20)

PDF
Presentación_rendición_de_cuentas_2020_26-FEB-2021.pdf
PPSX
Unidad II - Diseño de una solucion 2025.ppsx
PPTX
Presentacion Capacitacion RC y RG (5).pptx
PDF
Riesgos en Negociaciones_comercio exterior.pdf
PDF
Unidad Nº 1 Introduccion a Estadísticas
PDF
Registro de Limpieza y Desinfección.pdf1
PDF
EJERCICIOS RESUELTOS CON SOLVER EXCEL.pdf
DOCX
LAS DROGAS, SU CONSUMO Y LAS ADICCIONES.docx
PPTX
Introducción al analisis de datos con Power bi
PPTX
EXPOSICIÓN 2021.pptxhgdfshdghsdgshdghsds
PPTX
FACTORES DE RIESGOS EN EL PERSONAL DE SALUD 2 DIAPOSITIVAS.pptx
PDF
REPORTE DE INCIDENCIA DELICTIVA IRAPUATO 1ER SEMESTRE 2025
PPT
2010_06 FSI_ASBA Pruebas de Stress de Riesgo de Crédito El Caso Peruano MLUY_...
PPTX
Las buenas costumbres en la familiaaaaaaa
PDF
MORFOLOGIA (ASPECTO FORMACION DE PALABRAS).pdf
PDF
RADIOGRAFIA DEL PARQUE AUTOMOTOR EN BOLIVA Y PROYECCIONES 2025-2030.pdf
PDF
Mapa mental.pdf esquema de realización en general
PPTX
INDUCCION Y ORIENTACION DE LA EMPRESA VALE
PDF
MAPAMENTALLa tendencia pedagógica basada en competencias hacia una.pdf
PDF
Presentación para empoderar a un equipo a factirar
Presentación_rendición_de_cuentas_2020_26-FEB-2021.pdf
Unidad II - Diseño de una solucion 2025.ppsx
Presentacion Capacitacion RC y RG (5).pptx
Riesgos en Negociaciones_comercio exterior.pdf
Unidad Nº 1 Introduccion a Estadísticas
Registro de Limpieza y Desinfección.pdf1
EJERCICIOS RESUELTOS CON SOLVER EXCEL.pdf
LAS DROGAS, SU CONSUMO Y LAS ADICCIONES.docx
Introducción al analisis de datos con Power bi
EXPOSICIÓN 2021.pptxhgdfshdghsdgshdghsds
FACTORES DE RIESGOS EN EL PERSONAL DE SALUD 2 DIAPOSITIVAS.pptx
REPORTE DE INCIDENCIA DELICTIVA IRAPUATO 1ER SEMESTRE 2025
2010_06 FSI_ASBA Pruebas de Stress de Riesgo de Crédito El Caso Peruano MLUY_...
Las buenas costumbres en la familiaaaaaaa
MORFOLOGIA (ASPECTO FORMACION DE PALABRAS).pdf
RADIOGRAFIA DEL PARQUE AUTOMOTOR EN BOLIVA Y PROYECCIONES 2025-2030.pdf
Mapa mental.pdf esquema de realización en general
INDUCCION Y ORIENTACION DE LA EMPRESA VALE
MAPAMENTALLa tendencia pedagógica basada en competencias hacia una.pdf
Presentación para empoderar a un equipo a factirar

Meetup Junio Apache Spark Fundamentals

  • 2. Agenda - Acerca de mi - ¿Qué es Apache Spark? - Conceptos y arquitectura - Ejemplos Básicos - Preguntas y respuestas Imagen extraida de Apache Spark Doc
  • 3. ¿Qué es Apache Spark? ➔ Es un motor de cómputo unificado y un conjunto de librerías para el procesamiento paralelo de datos. ➔ Es el motor open source más desarrollado para esta tarea. ➔ Soporta múltiples lenguajes de programación. ➔ Corre donde sea, desde una laptop hasta en un cluster con cientos de servidores. Imagen extraida de Spark: The Definitive Guide by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
  • 4. El Problema ➔ Ley de Moore ➔ Esta tendencia se detuvo alrededor del 2005 ➔ Recolectar datos es extremadamente barato ➔ Requiere de procesamientos largos y paralelos Imagen extraida de Tech Story
  • 5. Historia ➔ UC Berkeley en 2009 ➔ Spark: Cluster Computing with Working Sets, UC Berkeley AMPlab ➔ Cluster Computing - gran potencial ➔ MapReduce era desafiante e ineficiente al construir aplicaciones a larga escala ➔ Functional Programming ➔ Eficiente intercambio de datos in-memory mediante pasos computados ➔ En 2013 - más de 100 contribuidores de más de 30 orgs ➔ Apache Software Foundation
  • 6. Arquitectura Básica Imagen extraida de Spark: The Definitive Guide by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
  • 7. La API Imagen extraida de Spark: The Definitive Guide by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
  • 9. SparkSession La instancia de SparkSession es la manera en que Spark ejecuta manipulaciones definidas por el usuarios en el cluster. Distributed Collections of Data ➔ Datasets ➔ DataFrames ➔ SQL Tables ➔ Resilient Distributed Datasets (RDDs)
  • 10. Transformations ➔ Las transformaciones son la forma abstracta de expresar la logica de negocio (plan lógico) usando Spark. ➔ Partitions ➔ Lazy Evaluation Imagen extraida de Spark: The Definitive Guide by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
  • 11. Actions ➔ Las transformaciones nos permiten construir nuestro plan lógico de transformación. ➔ Para desencadenar la computación, corremos una acción. ➔ Una acción ordena a Spark procesar un resultado de una serie de transformaciones. ➔ Hay tres tipos de acciones: ◆ Acciones para ver datos en la consola ◆ Acciones para colectar datos en objetos nativos del lenguaje usado ◆ Acciones para escribir datos en destinos externos
  • 12. Planeación Lógica Imagen extraida de Spark: The Definitive Guide by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
  • 13. SparkUI ➔ La SparkUI muestra información del estado de los Spark jobs, su ambiente y el estado del cluster ➔ Es muy útil para debuggear y mejorar el desempeño Imagen extraida de Spark: The Definitive Guide by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
  • 15. Ejemplo Básico con RDDs Imagen extraida de Spark: The Definitive Guide by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
  • 16. Data Pipeline Básico con DataFrames Imagen extraida de Spark: The Definitive Guide by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
  • 17. Qué más se puede hacer con Apache Spark?