Flavio Clésio, Movile
Eiti Kimura, Movile
APACHE SPARK: CASOS DE USO E
ESCALABILIDADE
#Devfest2017
2
Flávio Clésio
• Core Machine Learning at Movile
• Me. Engenharia de Produção (Inteligência Computacional em NPLs) - (UNINOVE)
• Especialista em Engenharia de Banco de Dados (UNICAMP)
• Professor no Mackenzie (Curso Pós-Grad. em Ciência de Dados)
• Professor no Grupo Kroton (Curso Pós-Grad. em Gestão Estratégica)
• Speaker no Strata Hadoop World Singapore (2016)
• Speaker no Spark Summit Europe (2017)
• Blogger no Mineração de Dados - http://mineracaodedados.wordpress.com
flavioclesio
SOBRE NÓS
SOBRE NÓS
3
• Coordenador de TI e Arquiteto de Software na Movile
• Mestre em Engenharia Elétrica
• Apache Cassandra MVP (2014/2015 and 2015/2016)
• Apache Cassandra Contributor (2015)
• Cassandra Summit Speaker (2014 and 2015)
• Speaker no Strata Hadoop World Singapore (2016)
• Speaker no Spark Summit Europe (2017)
Eiti Kimura
eitikimura
[DEVFEST] Apache Spark  Casos de Uso e Escalabilidade
NOSSOS NEGÓCIOS
6
LÍDER EM MOBILE MARKETPLACES
● Introdução ao Apache Spark
● Funcionamento do Apache Spark
● Spark SQL
● Spark Structured Streaming
● Spark MLLib
● Casos de Uso
● Limitações
● Considerações Finais
Agenda
7
Evolução: Google Trends
8
Apache Hadoop
Apache Spark
Interesse ao longo do tempo
O que é Apache Spark?
9
Apache Spark™ is a fast and general engine
for large-scale data processing.
Em que o Apache Spark é usado?
10
● Processos de ETL
● Consultas Interativas (SQL)
● Análise de dados avançada
● Machine Learning/Deep Learning
● Streaming sobre grandes datasets
Como o Apache Spark funciona?
11
Como o Apache Spark funciona?
12
Como o Apache Spark funciona?
13
SPARK SQL
STRUCTURED STREAMING
SPARK MLLIB 14
Spark SQL
15
• Complemento ao Hadoop/Apache Hive
• Batch Processing para Analytics
• Camada de BI para Reporting
• Compatibilidade de Conectores para SGBD
• Operações Untyped / SQL ANSI
Spark Structured Streaming
16
• Nova API de alto nível
• Desenvolvimento de aplicações contínuas
• Junção de dados contínua com conteúdo estático
• Integrações com diversas fontes de dados (Kafka)
• Tolerante a falhas (check-points)
• Tratamento de eventos desordenados (Watermark)
https://databricks.com/blog/2016/07/28/structured-streaming-in-apache-spark.html
17
• Classificação: Regressão Logística, Árvores de Decisão,
Random Forest, GBT, MLP, SVM, Naive Bayes
• Regressão: Linear, GLM, Árvore de Decisão, Survival
Regression, GBR, Isotonic Regression
• Recomendação: Alternating Least Squares (ALS)
• Clustering: K-Means, Gaussian Mixture Model (GMM)
• Patterns: Itens Frequentes, Regras de Associação
Spark MLLib - Algoritmos
18
Considerações Finais
Limitações do Spark
20
● Necessidade muito grande de investimento em memória RAM
● Footprint de memória pode ser um pesadelo em pipelines de
ML intensivos, em especial em hiper-parametrizações pouco
seletivas
● Com MapReduce alguns algoritmos complexos são inviáveis
para a implementação, devido à comunicação entre os nós
para monitorar estados intermediários e interações
Definição de casos de uso
21
Casos de Uso
22
Casos de Uso
23
24
http://bit.ly/spark-ml-case
PREVENTING REVENUE LEAKAGE AND
MONITORING DISTRIBUTED SYSTEMS WITH
MACHINE LEARNING
github.com/eitikimura/spark-cases
http://bit.ly/spark-cases-devfest
http://bit.ly/playlist-spark-summit
OBRIGADO!
eitikimura eiti.kimura@movile.com
flavio.clesio@movile.comflavioclesio
Material sobre Apache Spark
Jacek Laskowski
26
Consultor Independente
http://www.gitbook.com/@jaceklaskowski
Mastering Apache Spark 2 (Spark 2.2+)
Spark Structured Streaming (Apache Spark 2.2+)
Aplicações interessantes com Spark - https://www.quora.com/What-are-some-interesting-applications-of-Apache-Spark
300Tb no Apache SPark em produção -
https://spark-summit.org/eu-2017/events/lessons-learned-developing-and-managing-massive-300tb-apache-spark-pipel
ines-in-production/
BenchML - https://github.com/szilard/benchm-ml
Haddop x Spark x Flink - https://data-flair.training/blogs/hadoop-vs-spark-vs-flink-comparison/
Map Reduce Core Paper -
https://github.com/eartsar/RIT-BigData/blob/master/docs/Presentation%20PDFs/nips06-mapreducemulticore.pdf
Data Intensive Processing MapReduce -
https://www.amazon.com/Data-Intensive-Processing-MapReduce-Synthesis-Technologies/dp/1608453421/
Map Reduce Core Paper -
https://github.com/eartsar/RIT-BigData/blob/master/docs/Presentation%20PDFs/nips06-mapreducemulticore.pdf
Referências
27
Data Intensive Processing MapReduce -
https://www.amazon.com/Data-Intensive-Processing-MapReduce-Synthesis-Technologies/dp/1608453421/
Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing:
https://www2.eecs.berkeley.edu/Pubs/TechRpts/2011/EECS-2011-82.html
Apache Spark officially sets a new record in large-scale sorting -
https://databricks.com/blog/2014/11/05/spark-officially-sets-a-new-record-in-large-scale-sorting.html
Spark SKLearn- https://github.com/databricks/spark-sklearn
Elephas - https://github.com/maxpumperla/elephas
Deep Learning Pipelines in Spark - https://github.com/databricks/spark-deep-learning
Distributed Keras - https://github.com/cerndb/dist-keras
Referências
28

Mais conteúdo relacionado

PDF
[Datafest 2018] Apache Spark Structured Stream - Moedor de dados em tempo qua...
PDF
Processamento em Big Data
PDF
Apache Spark Overview and Applications
PDF
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
PDF
Stream Processing - ThoughtWorks Architecture Group - 2017
PDF
Pentaho Hadoop Big Data e Data Lakes
PDF
Cientista de Dados – Dominando o Big Data com Software Livre
[Datafest 2018] Apache Spark Structured Stream - Moedor de dados em tempo qua...
Processamento em Big Data
Apache Spark Overview and Applications
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
Stream Processing - ThoughtWorks Architecture Group - 2017
Pentaho Hadoop Big Data e Data Lakes
Cientista de Dados – Dominando o Big Data com Software Livre

Semelhante a [DEVFEST] Apache Spark Casos de Uso e Escalabilidade (20)

PDF
Ferramentas e Aplicações em Big Data
PDF
Qcon Rio 2015 - Data Lakes Workshop
PDF
Data Lakes com Hadoop e Spark: Agile Analytics na prática
PPTX
Spark .net
PDF
Processamento de Eventos Complexos com Spark
PDF
TDC2017 | POA Trilha BigData - Arquitetura Big Data para Gestão de Regras de ...
PDF
Big Data e seu fiel companheiro Spark
PDF
Pré processamento de grandes dados com Apache Spark
PDF
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
PPSX
Sparsi big data
PDF
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PDF
TDC2016SP - Trilha BigData
PDF
Pentaho, Hadoop , Big Data e Data Lakes
PDF
TDC2018SP | Trilha BigData - Processando dados de acidentes de transito em st...
PDF
Modelos de computação distribuída no Hadoop
PDF
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
PPTX
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
PDF
TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data
PDF
Apache Flink a Quarta Geração do Big Data
PDF
Desenvolvendo Aplicações baseadas em Big Data com PySpark
Ferramentas e Aplicações em Big Data
Qcon Rio 2015 - Data Lakes Workshop
Data Lakes com Hadoop e Spark: Agile Analytics na prática
Spark .net
Processamento de Eventos Complexos com Spark
TDC2017 | POA Trilha BigData - Arquitetura Big Data para Gestão de Regras de ...
Big Data e seu fiel companheiro Spark
Pré processamento de grandes dados com Apache Spark
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
Sparsi big data
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
TDC2016SP - Trilha BigData
Pentaho, Hadoop , Big Data e Data Lakes
TDC2018SP | Trilha BigData - Processando dados de acidentes de transito em st...
Modelos de computação distribuída no Hadoop
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data
Apache Flink a Quarta Geração do Big Data
Desenvolvendo Aplicações baseadas em Big Data com PySpark
Anúncio

Mais de Eiti Kimura (11)

PDF
[Redis conf18] The Versatility of Redis
PDF
[DataFest-2017] Apache Cassandra Para Sistemas de Alto Desempenho
PDF
[TDC2016] Apache SparkMLlib: Machine Learning na Prática
PDF
[TDC2016] Apache Cassandra Estratégias de Modelagem de Dados
PDF
QConSP16 - Apache Cassandra Evoluindo Sistemas Distribuídos
PPTX
SP Big Data Meetup - Conhecendo Apache Cassandra @Movile
PDF
Cassandra Summit 2015 - A Change of Seasons
PDF
TDC2015 - Apache Cassandra no Desenvolvimento de Sistemas de Alto Desempenho
PDF
Conhecendo Apache Cassandra @Movile
PDF
Cassandra overview: Um Caso Prático
PDF
QConSP 2014 - Cassandra no Desenvolvimento de Aplicações para serviços Móveis
[Redis conf18] The Versatility of Redis
[DataFest-2017] Apache Cassandra Para Sistemas de Alto Desempenho
[TDC2016] Apache SparkMLlib: Machine Learning na Prática
[TDC2016] Apache Cassandra Estratégias de Modelagem de Dados
QConSP16 - Apache Cassandra Evoluindo Sistemas Distribuídos
SP Big Data Meetup - Conhecendo Apache Cassandra @Movile
Cassandra Summit 2015 - A Change of Seasons
TDC2015 - Apache Cassandra no Desenvolvimento de Sistemas de Alto Desempenho
Conhecendo Apache Cassandra @Movile
Cassandra overview: Um Caso Prático
QConSP 2014 - Cassandra no Desenvolvimento de Aplicações para serviços Móveis
Anúncio

Último (12)

PDF
SLIDES - AULA 1 - APRESENTAÇÃO - Material de Cleyton Souza - IFPB
PPT
07_slides de Estilos_Arquiteturais sommerville.ppt
PPT
05_slide especificacao de sistemas de software e a uml UML.ppt
PDF
SLIDES - AULA 3 - CLASSES E OBJETOS EM JAVA - Material de Cleyton Souza - IFPB
PDF
SLIDES - AULA 5 - HERANÇA - Material de Cleyton Souza - IFPB
PPT
10_ slides de Reuso sommerville cap 10.ppt
PDF
SLIDES - AULA 2 - INTRODUÇÃO - Material de Cleyton Souza - IFPB
PPT
03_slide de Gerenciamento de Projetos .ppt
PPT
06_slide de Arquitetura_de_Software .ppt
PPT
00_Apresentacao sobre o livro do sommerville_ES.ppt
PDF
SLIDES - AULA 7 - SWING - Cleyton Souza - IFPB
PPT
09_Evolucao de software e_Refatoracao.ppt
SLIDES - AULA 1 - APRESENTAÇÃO - Material de Cleyton Souza - IFPB
07_slides de Estilos_Arquiteturais sommerville.ppt
05_slide especificacao de sistemas de software e a uml UML.ppt
SLIDES - AULA 3 - CLASSES E OBJETOS EM JAVA - Material de Cleyton Souza - IFPB
SLIDES - AULA 5 - HERANÇA - Material de Cleyton Souza - IFPB
10_ slides de Reuso sommerville cap 10.ppt
SLIDES - AULA 2 - INTRODUÇÃO - Material de Cleyton Souza - IFPB
03_slide de Gerenciamento de Projetos .ppt
06_slide de Arquitetura_de_Software .ppt
00_Apresentacao sobre o livro do sommerville_ES.ppt
SLIDES - AULA 7 - SWING - Cleyton Souza - IFPB
09_Evolucao de software e_Refatoracao.ppt

[DEVFEST] Apache Spark Casos de Uso e Escalabilidade

  • 1. Flavio Clésio, Movile Eiti Kimura, Movile APACHE SPARK: CASOS DE USO E ESCALABILIDADE #Devfest2017
  • 2. 2 Flávio Clésio • Core Machine Learning at Movile • Me. Engenharia de Produção (Inteligência Computacional em NPLs) - (UNINOVE) • Especialista em Engenharia de Banco de Dados (UNICAMP) • Professor no Mackenzie (Curso Pós-Grad. em Ciência de Dados) • Professor no Grupo Kroton (Curso Pós-Grad. em Gestão Estratégica) • Speaker no Strata Hadoop World Singapore (2016) • Speaker no Spark Summit Europe (2017) • Blogger no Mineração de Dados - http://mineracaodedados.wordpress.com flavioclesio SOBRE NÓS
  • 3. SOBRE NÓS 3 • Coordenador de TI e Arquiteto de Software na Movile • Mestre em Engenharia Elétrica • Apache Cassandra MVP (2014/2015 and 2015/2016) • Apache Cassandra Contributor (2015) • Cassandra Summit Speaker (2014 and 2015) • Speaker no Strata Hadoop World Singapore (2016) • Speaker no Spark Summit Europe (2017) Eiti Kimura eitikimura
  • 6. 6 LÍDER EM MOBILE MARKETPLACES
  • 7. ● Introdução ao Apache Spark ● Funcionamento do Apache Spark ● Spark SQL ● Spark Structured Streaming ● Spark MLLib ● Casos de Uso ● Limitações ● Considerações Finais Agenda 7
  • 8. Evolução: Google Trends 8 Apache Hadoop Apache Spark Interesse ao longo do tempo
  • 9. O que é Apache Spark? 9 Apache Spark™ is a fast and general engine for large-scale data processing.
  • 10. Em que o Apache Spark é usado? 10 ● Processos de ETL ● Consultas Interativas (SQL) ● Análise de dados avançada ● Machine Learning/Deep Learning ● Streaming sobre grandes datasets
  • 11. Como o Apache Spark funciona? 11
  • 12. Como o Apache Spark funciona? 12
  • 13. Como o Apache Spark funciona? 13
  • 15. Spark SQL 15 • Complemento ao Hadoop/Apache Hive • Batch Processing para Analytics • Camada de BI para Reporting • Compatibilidade de Conectores para SGBD • Operações Untyped / SQL ANSI
  • 16. Spark Structured Streaming 16 • Nova API de alto nível • Desenvolvimento de aplicações contínuas • Junção de dados contínua com conteúdo estático • Integrações com diversas fontes de dados (Kafka) • Tolerante a falhas (check-points) • Tratamento de eventos desordenados (Watermark)
  • 18. • Classificação: Regressão Logística, Árvores de Decisão, Random Forest, GBT, MLP, SVM, Naive Bayes • Regressão: Linear, GLM, Árvore de Decisão, Survival Regression, GBR, Isotonic Regression • Recomendação: Alternating Least Squares (ALS) • Clustering: K-Means, Gaussian Mixture Model (GMM) • Patterns: Itens Frequentes, Regras de Associação Spark MLLib - Algoritmos 18
  • 20. Limitações do Spark 20 ● Necessidade muito grande de investimento em memória RAM ● Footprint de memória pode ser um pesadelo em pipelines de ML intensivos, em especial em hiper-parametrizações pouco seletivas ● Com MapReduce alguns algoritmos complexos são inviáveis para a implementação, devido à comunicação entre os nós para monitorar estados intermediários e interações
  • 21. Definição de casos de uso 21
  • 24. 24 http://bit.ly/spark-ml-case PREVENTING REVENUE LEAKAGE AND MONITORING DISTRIBUTED SYSTEMS WITH MACHINE LEARNING
  • 26. Material sobre Apache Spark Jacek Laskowski 26 Consultor Independente http://www.gitbook.com/@jaceklaskowski Mastering Apache Spark 2 (Spark 2.2+) Spark Structured Streaming (Apache Spark 2.2+)
  • 27. Aplicações interessantes com Spark - https://www.quora.com/What-are-some-interesting-applications-of-Apache-Spark 300Tb no Apache SPark em produção - https://spark-summit.org/eu-2017/events/lessons-learned-developing-and-managing-massive-300tb-apache-spark-pipel ines-in-production/ BenchML - https://github.com/szilard/benchm-ml Haddop x Spark x Flink - https://data-flair.training/blogs/hadoop-vs-spark-vs-flink-comparison/ Map Reduce Core Paper - https://github.com/eartsar/RIT-BigData/blob/master/docs/Presentation%20PDFs/nips06-mapreducemulticore.pdf Data Intensive Processing MapReduce - https://www.amazon.com/Data-Intensive-Processing-MapReduce-Synthesis-Technologies/dp/1608453421/ Map Reduce Core Paper - https://github.com/eartsar/RIT-BigData/blob/master/docs/Presentation%20PDFs/nips06-mapreducemulticore.pdf Referências 27
  • 28. Data Intensive Processing MapReduce - https://www.amazon.com/Data-Intensive-Processing-MapReduce-Synthesis-Technologies/dp/1608453421/ Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing: https://www2.eecs.berkeley.edu/Pubs/TechRpts/2011/EECS-2011-82.html Apache Spark officially sets a new record in large-scale sorting - https://databricks.com/blog/2014/11/05/spark-officially-sets-a-new-record-in-large-scale-sorting.html Spark SKLearn- https://github.com/databricks/spark-sklearn Elephas - https://github.com/maxpumperla/elephas Deep Learning Pipelines in Spark - https://github.com/databricks/spark-deep-learning Distributed Keras - https://github.com/cerndb/dist-keras Referências 28