SlideShare uma empresa Scribd logo
1
● Ciclista
● Recifense
● Filmes
● Desenvolvedora
Consultoria de Software
Engajamento em Justiça Social e Econômica
Excelência de Software
E estamos contratando!
https://www.thoughtworks.com/pt/careers/jobs
Roteiro
● Problema
● De onde vieram os dados?
● Spark
● Streaming
● Alguns Conceitos
● Código
● Informações extraídas dos dados
● Novas tendências
● Considerações Finais
Problema
De onde vieram os dados?
Dados abertos da Prefeitura de Recife
Acidentes de trânsito em Recife de 2015 a 2018
http://dados.recife.pe.gov.br/dataset/acidentes-de-transito-com-e-sem-viti
mas
Spark
● Framework open source para computação distribuída
● Criado em 2009 na Universidade da Califórnia em Berkeley
● 10-20x mais rápido que o MapReduce para certos jobs
● Predição de congestionamentos no trânsito na Bay Area de San
Francisco
● Spark Streaming surgiu apenas 2011
Spark
● Rápido
○ In-memory caching
○ Não persiste o dataset de uma operação para outra
○ JVMs ficam rodando em cada nó do cluster
● Propósito Geral
○ É possível desenvolver aplicações compondo vários operadores como mappers,
reducers, joins, group-bys e filters
Spark
Vários componentes
Spark
Vários componentes
Spark
Quais as aplicações do Spark?
● Engenharia de dados
● Ciência de dados
Streaming
● Definição
● Batch vs Streaming
Streaming
Exemplos
● Coordenadas de GPS
● Mensagens de log
● Tweets
● Exibir informações sobre acidentes de trânsito
Streaming
Alguns Conceitos
Abstrações do Spark Streaming
● RDD (Resilient Distributed Dataset)
● DStream (Discretized Stream)
Alguns Conceitos
RDD
● Particionado
● Imutável
● Resiliente
Alguns Conceitos
RDD
import sys
from pyspark import SparkContext
from pyspark.streaming import StreamingContext
sc = SparkContext(appName='RecifeCarAccidentsCount')
rdd = sc.textFile('file:///acidentes2018.csv')
Código
tipo, situacao, data, hora, bairro, endereco,
numero|complemento|natureza|descricao|auto|moto|
ciclom|ciclista|pedestre|onibus|caminhao|viatura|outros|vitimas|vitima
sfatais
"COM VÍTIMA"|"FINALIZADA"|09/01/18|12:31:00|"APIPUCOS"|"RUA DE
APIPUCOS"|261|"EM FRENTE AO EDIFICIO ENGENHO APIPUCOS"|"COLISÃO COM
CICLISTA"|"COLISÃO COM VÍTIMA"|2|||1||||||1|0
Como estão estruturados os dados
Código
Examplo com RDD e DStream usando socketTextStream
Código
<live coding>
Informações extraídas dos dados
● Ciclistas que sofreram acidentes de janeiro a abril de 2018
34
● Ciclistas acidentados em cada mês
○ Janeiro 10
○ Fevereiro 8
○ Março 16
Informações extraídas dos dados
● Ciclistas que foram vítimas fatais nesses 3 meses
0 (segundo os dados)
Análises
https://github.com/isabarros/recife-traffic-accidents
examples/src/main/python/streaming/recife_traffic_accidents_rdd.py
Novas tendências
● Streaming SQL
● RDD vs Dataframe vs Dataset
● https://databricks.com/blog/2016/01/04/introducing-apache-spark-data
sets.html
Novas tendências
Considerações Finais
● Vantagens do Spark
● Quando processar dados em Streaming
● Structured Streaming
● GitHub
OBRIGADA

Mais conteúdo relacionado

ODP
Escalabilidade em servidores REST - TDC 2017
PDF
Desenvolvendo Aplicações baseadas em Big Data com PySpark
PDF
Modelos de computação distribuída no Hadoop
PDF
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
PDF
Stream Processing - ThoughtWorks Architecture Group - 2017
PDF
Apache Spark: Casos de uso e escalabilidade
PDF
[DEVFEST] Apache Spark Casos de Uso e Escalabilidade
Escalabilidade em servidores REST - TDC 2017
Desenvolvendo Aplicações baseadas em Big Data com PySpark
Modelos de computação distribuída no Hadoop
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
Stream Processing - ThoughtWorks Architecture Group - 2017
Apache Spark: Casos de uso e escalabilidade
[DEVFEST] Apache Spark Casos de Uso e Escalabilidade

Semelhante a TDC2018SP | Trilha BigData - Processando dados de acidentes de transito em streaming com PySpark (20)

PDF
Ferramentas e Aplicações em Big Data
PDF
Big Data Analytics - Data Science - Aplicação e Tecnologia
PDF
Cientista de Dados – Dominando o Big Data com Software Livre
PDF
BigData e internte das coisas aplicada a engenharia
PDF
BIG DATA & IoT: Tecnologias e  Aplicações
PDF
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
PDF
Aula9-Spark-Básico sematix com dataframes
PDF
Apache Spark Overview and Applications
ODP
Bigdata na pratica: Resolvendo problemas de performance com hadoop
PPTX
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
PPTX
Seminário de Andamento de Doutorado
PDF
[Datafest 2018] Apache Spark Structured Stream - Moedor de dados em tempo qua...
PDF
Big Data na Globo.com - Dev Version - 2016
PDF
Processamento em Big Data
PPTX
Aula BigData.pptx
PDF
Pegue tweets com Python e Spark Streaming
PDF
Processamento de Eventos Complexos com Spark
PDF
TDC2017 | POA Trilha BigData - Arquitetura Big Data para Gestão de Regras de ...
PDF
Big data e a globo.com - 2017
PDF
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Ferramentas e Aplicações em Big Data
Big Data Analytics - Data Science - Aplicação e Tecnologia
Cientista de Dados – Dominando o Big Data com Software Livre
BigData e internte das coisas aplicada a engenharia
BIG DATA & IoT: Tecnologias e  Aplicações
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Aula9-Spark-Básico sematix com dataframes
Apache Spark Overview and Applications
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Seminário de Andamento de Doutorado
[Datafest 2018] Apache Spark Structured Stream - Moedor de dados em tempo qua...
Big Data na Globo.com - Dev Version - 2016
Processamento em Big Data
Aula BigData.pptx
Pegue tweets com Python e Spark Streaming
Processamento de Eventos Complexos com Spark
TDC2017 | POA Trilha BigData - Arquitetura Big Data para Gestão de Regras de ...
Big data e a globo.com - 2017
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Anúncio

Mais de tdc-globalcode (20)

PDF
TDC2019 Intel Software Day - Visao Computacional e IA a servico da humanidade
PDF
TDC2019 Intel Software Day - Tecnicas de Programacao Paralela em Machine Lear...
PDF
TDC2019 Intel Software Day - ACATE - Cases de Sucesso
PDF
TDC2019 Intel Software Day - Otimizacao grafica com o Intel GPA
PDF
TDC2019 Intel Software Day - Deteccao de objetos em tempo real com OpenVino
PDF
TDC2019 Intel Software Day - OpenCV: Inteligencia artificial e Visao Computac...
PDF
TDC2019 Intel Software Day - Inferencia de IA em edge devices
PDF
Trilha BigData - Banco de Dados Orientado a Grafos na Seguranca Publica
PPT
Trilha .Net - Programacao funcional usando f#
PDF
TDC2018SP | Trilha Go - Case Easylocus
PDF
TDC2018SP | Trilha Modern Web - Para onde caminha a Web?
PDF
TDC2018SP | Trilha Go - Clean architecture em Golang
PDF
TDC2018SP | Trilha Go - "Go" tambem e linguagem de QA
PDF
TDC2018SP | Trilha Mobile - Digital Wallets - Seguranca, inovacao e tendencia
PDF
TDC2018SP | Trilha .Net - Real Time apps com Azure SignalR Service
PDF
TDC2018SP | Trilha .Net - Passado, Presente e Futuro do .NET
PDF
TDC2018SP | Trilha .Net - Novidades do C# 7 e 8
PDF
TDC2018SP | Trilha .Net - Obtendo metricas com TDD utilizando build automatiz...
PDF
TDC2018SP | Trilha .Net - .NET funcional com F#
PDF
TDC2018SP | Trilha .Net - Crie SPAs com Razor e C# usando Blazor em .Net Core
TDC2019 Intel Software Day - Visao Computacional e IA a servico da humanidade
TDC2019 Intel Software Day - Tecnicas de Programacao Paralela em Machine Lear...
TDC2019 Intel Software Day - ACATE - Cases de Sucesso
TDC2019 Intel Software Day - Otimizacao grafica com o Intel GPA
TDC2019 Intel Software Day - Deteccao de objetos em tempo real com OpenVino
TDC2019 Intel Software Day - OpenCV: Inteligencia artificial e Visao Computac...
TDC2019 Intel Software Day - Inferencia de IA em edge devices
Trilha BigData - Banco de Dados Orientado a Grafos na Seguranca Publica
Trilha .Net - Programacao funcional usando f#
TDC2018SP | Trilha Go - Case Easylocus
TDC2018SP | Trilha Modern Web - Para onde caminha a Web?
TDC2018SP | Trilha Go - Clean architecture em Golang
TDC2018SP | Trilha Go - "Go" tambem e linguagem de QA
TDC2018SP | Trilha Mobile - Digital Wallets - Seguranca, inovacao e tendencia
TDC2018SP | Trilha .Net - Real Time apps com Azure SignalR Service
TDC2018SP | Trilha .Net - Passado, Presente e Futuro do .NET
TDC2018SP | Trilha .Net - Novidades do C# 7 e 8
TDC2018SP | Trilha .Net - Obtendo metricas com TDD utilizando build automatiz...
TDC2018SP | Trilha .Net - .NET funcional com F#
TDC2018SP | Trilha .Net - Crie SPAs com Razor e C# usando Blazor em .Net Core
Anúncio

Último (20)

PPTX
TREINAMENTO DE INSPETOR DE ANDAIMES.pptx
PDF
Formação politica brasil_2017.pptx.pdf
PDF
ESPELHOS DA ALMA A PSICOLOGIA POR TRÁS DOS CONTOS DE FADAS.pdf
PDF
Ebook - Matemática_Ensino_Médio_Saeb_V1.pdf
PDF
manual-orientacao-asb_5a8d6d8d87160aa636f63a5d0.pdf
DOC
PPP 2024 (2) (2) feito EM REELABORAÇÃO MORENA ( ABRIL 2024).doc
PDF
A provisão de jojuador (ramadã) islamismo
PPSX
4. A Cultura da Catedral - HistóriaCArtes .ppsx
PPTX
4. A cultura do cinema e as vanguardas.pptx
PPTX
disciplulado curso preparatorio para novos
PDF
metabolismo energtico das clulas-131017092002-phpapp02.pdf
PPTX
AULA METodologia MODIFIC PART 1 MSC.pptx
PDF
COMO OS CONTOS DE FADAS REFLETEM ARQUÉTIPOS_MEDOS E DESEJOS DO INCONSCIENTE H...
PDF
cadernodoprofessor20142017vol2baixalceducfisicaef6s7a-170409213016.pdf manual...
PPTX
Trabalho Cidades sustentáveis ou Utopia.pptx
PDF
50 anos Hoje - Volume V - 1973 - Manaus Amazonas
PPTX
Lição 8 EBD.pptxtudopossonaquelequemimfortalece
PDF
DOENÇAS SEXUALMENTE TRANSMISSIVEIS E SUAS POLARIDADES
PDF
Combate a Incêndio - Estratégias e Táticas de Combate a Incêndio por Francis...
PPSX
A epistemologia de Wilheim G Leibniz.ppsx
TREINAMENTO DE INSPETOR DE ANDAIMES.pptx
Formação politica brasil_2017.pptx.pdf
ESPELHOS DA ALMA A PSICOLOGIA POR TRÁS DOS CONTOS DE FADAS.pdf
Ebook - Matemática_Ensino_Médio_Saeb_V1.pdf
manual-orientacao-asb_5a8d6d8d87160aa636f63a5d0.pdf
PPP 2024 (2) (2) feito EM REELABORAÇÃO MORENA ( ABRIL 2024).doc
A provisão de jojuador (ramadã) islamismo
4. A Cultura da Catedral - HistóriaCArtes .ppsx
4. A cultura do cinema e as vanguardas.pptx
disciplulado curso preparatorio para novos
metabolismo energtico das clulas-131017092002-phpapp02.pdf
AULA METodologia MODIFIC PART 1 MSC.pptx
COMO OS CONTOS DE FADAS REFLETEM ARQUÉTIPOS_MEDOS E DESEJOS DO INCONSCIENTE H...
cadernodoprofessor20142017vol2baixalceducfisicaef6s7a-170409213016.pdf manual...
Trabalho Cidades sustentáveis ou Utopia.pptx
50 anos Hoje - Volume V - 1973 - Manaus Amazonas
Lição 8 EBD.pptxtudopossonaquelequemimfortalece
DOENÇAS SEXUALMENTE TRANSMISSIVEIS E SUAS POLARIDADES
Combate a Incêndio - Estratégias e Táticas de Combate a Incêndio por Francis...
A epistemologia de Wilheim G Leibniz.ppsx

TDC2018SP | Trilha BigData - Processando dados de acidentes de transito em streaming com PySpark