SlideShare uma empresa Scribd logo
BIG DATA ANALYTICS– IEL | FIEC 20h/a
AULA 1
INTRODUÇÃO
Prof. Me. Felipe Viana |
linkedin.com/in/datasciencefelipeviana
1
BEM VINDOS!
Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 2
Nome?
Empresa?
Departamento?
Expectativa?
Prof. Me. Felipe Viana |
linkedin.com/in/datasciencefelipeviana
3
INTRODUÇÃO
4
Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana
ANÁLISE DE
DADOS
Prof.
Me.
Felipe
Viana
|
linkedin.com/in/datasciencefelipeviana
A análise de dados é a atividade que
busca aprofundamento sobre os dados
gerador em uma empresa por exemplo.
Dados de diversas fontes podem e
devem ser explorados. CRM, ERP,
Instrumentos, equipamentos, Bancos
transacionais, e-mail , redes sociais, BIG
DATA...
5
Prof.
Me.
Felipe
Viana
|
linkedin.com/in/datasciencefelipeviana
APÓS A COMPREENSÃO DO PAPEL IMPORTANTE DE ANALISAR
DADOS OCORRE O SURGIMENTO DE UMA CULTURA DE TOMADA DE
DECISÃO BASEADA EM DADOS
DATA-DRIVEN-DECISION
6
“A ACHOLÓGIA DE TODAS AS CIÊNCIAS É A MAIS INCERTA...”
Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 7
Prof.
Me.
Felipe
Viana
|
linkedin.com/in/datasciencefelipeviana
Não há mais espaço para decisões baseadas em OPINIÃO...
O mundo produz mais informação a cada dia e a globalização
cria o efeito borboleta no mundo dos negócios.
8
PESQUISA OPERACIONAL
E o conjunto de técnicas que utilizando de método cientifico auxilia no
processo de tomada de decisão.
Prof.
Me.
Felipe
Viana
|
linkedin.com/in/datasciencefelipeviana
9
Prof.
Me.
Felipe
Viana
|
linkedin.com/in/datasciencefelipeviana
O termo Pesquisa Operacional, remete às origens da área, cujo interesse
primário era a gestão eficiente de operações (tipicamente de logística
militar). No entanto, o avanço metodológico e computacional, aliado a
constantes demandas de outras áreas, a PO se modernizou e ampliou seu
campo de atuação. Atualmente o termo Pesquisa Operacional é também
utilizado como uma tradução do termo em inglês Business Analytics (BA).
https://www.sobrapo.org.br/
10
Bussiness
Analytics
Prof.
Me.
Felipe
Viana
|
linkedin.com/in/datasciencefelipeviana
Para monitorar o retorno sobre investimento (ROI), satisfação do cliente,
qualidade de produto e tantos outros pontos que podem ser
evidenciados através de Indicadores chaves de performance (KPI’s) as
organizações buscam um relacionamento entre essas métricas e fatores
que impactam ou influenciam para uma evolução adequada.
12
Prof.
Me.
Felipe
Viana
|
linkedin.com/in/datasciencefelipeviana
In God we trust; all others must bring Data
Edwards Deming
https://en.wikipedia.org/wiki/W._Edwards_Deming
13
Analytics
Prof.
Me.
Felipe
Viana
|
linkedin.com/in/datasciencefelipeviana
E uma aréa de conhecimento que consiste é formada por estatística,
matemática, metodologia cientifica, técnicas de inteligência artificial,
machine learning, deep learning, data collection, armazenamento de dados,
processos de ETL, computação e Big Data.
14
Analytics
Bounded Rationality
Prof.
Me.
Felipe
Viana
|
linkedin.com/in/datasciencefelipeviana
O termo "racionalidade limitada" é usado para designar a escolha
racional que leva em consideração as limitações cognitivas do
tomador de decisão - limitações de conhecimento e capacidade
computacional. A racionalidade limitada é um tema central na
abordagem comportamental da economia, que está profundamente
preocupada com as maneiras pelas quais o atual processo de
tomada de decisão influencia as decisões que são alcançadas.
16
Prof.
Me.
Felipe
Viana
|
linkedin.com/in/datasciencefelipeviana
Proposto em 1972 por Herbert Simon essa teoria ganhou
notoriedade e tornou-se ponto chave para a compreensão de
que há uma complexidade na solução de problemas
relacionados a negócios pois diversas possibilidades de
soluções em diversos cenários possíveis porem com tempo de
decisão limitados são um desafio constante.
https://en.wikipedia.org/wiki/Herbert_A._Simon
17
Maiores Desafios
• Incertezas
• Clareza nas Alternativas
• Falta de conhecimento entre causa e efeito
• Tempo de avaliação
• O que é importante
Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 18
Step 1
Identificar problemas
/ Oportunidades de
Melhorias
Step 2
Identificar fontes de
dados que o Step 1
demanda
Step 3
Pre-Processamento
do dados
Step 4
Dividir os dados em
treino e validação.
Step 5
Selecionar e
desenvolver modelos
Step 6
Entregar a solução ou
decisão
Prof. Me. Felipe Viana |
linkedin.com/in/datasciencefelipeviana
19
Fluxo de uma processo de Data-Driven Decision-Making em Business Analytics.
Analytics
para
estratégia
Competitiva
Dado é tudo!
Analytics
para
tomada de decisão
Analytics
para
solução de problemas
Analytics
para
melhoria de processos
Prof. Me. Felipe Viana |
linkedin.com/in/datasciencefelipeviana
20
O Custo da
Decisão
Prof.
Me.
Felipe
Viana
|
linkedin.com/in/datasciencefelipeviana
21
Custo de produzir uma decisão
(Consultoria, procedimentos
ferramentas...)
Custo de implementação das
ações baseadas nas decisões
tomadas
Custo de falha para quando a
organização falha em seus
esforço.
Tipos de Analytics
Prof.
Me.
Felipe
Viana
|
linkedin.com/in/datasciencefelipeviana
22
Prof.
Me.
Felipe
Viana
|
linkedin.com/in/datasciencefelipeviana
Descritiva,
Preditiva e
Prescritiva
23
Analytics Descriptive
Prof.
Me.
Felipe
Viana
|
linkedin.com/in/datasciencefelipeviana
A análise descritiva é o processo de análise de dados históricos
para entender melhor as mudanças que ocorreram em um
negócio.
24
Ex:
Prof.
Me.
Felipe
Viana
|
linkedin.com/in/datasciencefelipeviana
25
Resumindo eventos anteriores, como
dados de vendas e operações ou
campanhas de marketing
Uso de mídia social e dados de
engajamento, como Instagram ou
curtidas no Facebook
Relatórios de tendências gerais
Coletando resultados da pesquisa
Analytics Predictive
Prof.
Me.
Felipe
Viana
|
linkedin.com/in/datasciencefelipeviana
Enquanto a análise descritiva se concentra em dados históricos,
a análise preditiva, como o nome indica, está focada em prever e
compreender o que pode acontecer no futuro. A análise de
tendências e padrões de dados anteriores, observando dados
históricos e percepções do cliente, pode prever o que pode
acontecer no futuro e, ao fazer isso, informar muitos aspectos
de um negócio, incluindo a definição de metas realistas,
planejamento eficaz, gerenciamento de expectativas de
desempenho e prevenção de riscos.
26
Ex:
Prof.
Me.
Felipe
Viana
|
linkedin.com/in/datasciencefelipeviana
27
E-commerce - previsão das preferências do cliente e
recomendação de produtos aos clientes com base em
compras anteriores e histórico de pesquisa
Vendas - prevendo a probabilidade de os clientes
comprarem outro produto ou deixarem a loja
Recursos humanos - detectar se os funcionários estão
pensando em pedir demissão e, em seguida,
persuadi-los a ficar
Segurança de TI - identificando possíveis violações de
segurança que requerem investigação adicional
Saúde - previsão das necessidades de pessoal e
recursos
Analytics Prescriptive
Prof.
Me.
Felipe
Viana
|
linkedin.com/in/datasciencefelipeviana
Se a análise descritiva diz o que aconteceu e a análise preditiva
diz o que poderia acontecer, a análise prescritiva diz o que deve
ser feito. Essa metodologia é a terceira, última e mais avançada
etapa do processo de análise de negócios e a que aciona os
negócios, auxiliando executivos, gestores e colaboradores
operacionais a tomar as melhores decisões possíveis com base
nos dados de que dispõem.
28
Ex:
Prof.
Me.
Felipe
Viana
|
linkedin.com/in/datasciencefelipeviana
29
Petróleo e manufatura - rastreando preços flutuantes
Fabricação - melhorando a gestão de equipamentos,
manutenção, modelagem de preços, produção e
armazenamento
Saúde - melhorar o atendimento ao paciente e a
administração da saúde, avaliando itens como taxas de
readmissão e a relação custo-benefício dos procedimentos
Seguro - avaliação de risco em relação a preços e
informações sobre prêmios para clientes
Pesquisa farmacêutica - identificando os melhores testes e
grupos de pacientes para testes clínicos.
AULA  2 FIEC Apache Spark é um poderoso engine/sistema
AULA  2 FIEC Apache Spark é um poderoso engine/sistema
32
Prof. Me. Felipe Viana |
linkedin.com/in/datasciencefelipeviana
Tamanho é
documento?
Prof.
Me.
Felipe
Viana
|
linkedin.com/in/datasciencefelipeviana
33
Não necessariamente.
Características como
tipo de dado e formato
são mais determinantes.
34
VOLUME
VELOCIDADE
VARIEDADE
VERACIDADE
VALOR
Prof. Me. Felipe Viana |
linkedin.com/in/datasciencefelipeviana
1. Volume: O grande
montante de dados
que são recebidos de
suas fontes.
2. Velocidade: Rapidez
com que os dados são
gerados
3. Variedade: Diversos
tipos de dados.
Estruturados, semi-
estruturados e não
estruturados.
4. Veracidade: O grau
de confiabilidade que
os dados gerador são
verdadeiros.
5. Valor: Os dados
devem gerar valor de
negócio.
35
Prof. Me. Felipe Viana |
linkedin.com/in/datasciencefelipeviana
36
Prof. Me. Felipe Viana |
linkedin.com/in/datasciencefelipeviana
Quais empresas usam Big Data?
AULA  2 FIEC Apache Spark é um poderoso engine/sistema
AULA  2 FIEC Apache Spark é um poderoso engine/sistema
AULA  2 FIEC Apache Spark é um poderoso engine/sistema
AULA  2 FIEC Apache Spark é um poderoso engine/sistema
AULA  2 FIEC Apache Spark é um poderoso engine/sistema
Você já se perguntou como a Starbucks pode abrir três filiais
na mesma rua e não ter seus negócios prejudicados?
O gigante da cafeteria usa big data para determinar o sucesso
potencial de cada nova localização, levando em consideração
informações sobre localização, tráfego, demografia da área e
comportamento do cliente.
Fazer esse tipo de avaliação antes de abrir uma loja significa que a
Starbucks pode fazer uma estimativa bastante precisa de qual será a
taxa de sucesso e escolher os locais com base na propensão para o
crescimento da receita.
AULA  2 FIEC Apache Spark é um poderoso engine/sistema
AULA  2 FIEC Apache Spark é um poderoso engine/sistema
A GE está usando os dados de sensores em máquinas como turbinas para
identificar maneiras de melhorar os processos de trabalho e a confiabilidade.
Os relatórios resultantes são então passados ​​para a equipe analítica
da GE para desenvolver ferramentas e melhorias para aumentar a
eficiência.
A empresa estimou que os dados poderiam aumentar a produtividade
nos EUA em 1,5%, o que, em um período de 20 anos, poderia
economizar dinheiro suficiente para aumentar a renda nacional média
em até 30%.
AULA  2 FIEC Apache Spark é um poderoso engine/sistema
AULA  2 FIEC Apache Spark é um poderoso engine/sistema
AULA  2 FIEC Apache Spark é um poderoso engine/sistema
AULA  2 FIEC Apache Spark é um poderoso engine/sistema
Jurimetria
Análise estatística para tomada de decisão, com base nas tendências
jurisprudenciais em todas as áreas jurídicas categorizados em diversos
níveis por tribunal, por magistrado, por tipo penal...
BIG PLAYERS
Alibaba
A chinesa é a maior plataforma de comércio
eletrônico do mundo, chegando a vender
mais do que a Amazon e o eBay juntos. A
inteligência artificial que faz parte das
operações diárias da empresa é utilizada
para prever o que os clientes querem
comprar. Com processamento de linguagem
natural, a Alibaba gera automaticamente
produtos para o site.
Além disso, a chinesa também usa IA em seu
projeto "City Brain", que visa a criação de
cidades inteligentes. O programa aplica
algoritmos para ajudar a reduzir os
congestionamentos e monitorar os veículos
da cidade.
A empresa dona do Google possui uma divisão autônoma de tecnologia chamada Waymo, que deseja
reduzir o número de acidentes com seus veículos. Isso é feito atualmente na Califórnia através de táxis
que possuem controles autônomos. No entanto, a empresa não pode cobrar tarifas caso o motorista não
seja humano.
Já o Google sinalizou um compromisso com o aprendizado profundo após adquirir o DeepMind. O sistema
não apenas aprendeu a jogar 49 jogos diferentes de Atari, como o AlphaGo foi o primeiro a derrotar um
jogador profissional no jogo. Outra inovação da empresa americana é o Google Duplex, que usa
processamento de linguagem natural e uma interface de voz que pode fazer ligações e agendar
compromissos em nome do usuário.
A Amazon tem como foco principal de IA sua assistente de voz digital Alexa, mas também opera outros
campos de seu negócio com a tecnologia. Um bom exemplo disso é a maneira inovadora de enviar
coisas para os seus usuários antes mesmo de eles pensarem em comprá-las. Isso é possível, pois eles
coletam muitos dados sobre os hábitos de compra dos clientes e, dessa forma, conseguem prever seus
desejos.
Em um momento em que muitas lojas físicas estão lutando pela sua sobrevivência, a empresa criou um
conceito chamado Amazon Go. As lojas possuem IA capaz de rastrear os itens que o usuário escolhe e
cobra automaticamente através de um app. Como não há check-out, o cliente pode levar suas próprias
mochilas para alocar os itens, mas existem câmeras que identificam o que é selecionado, de forma QUE
furtos não se tornem recorrentes.
Uma das maiores empresas de tecnologia do mundo,
a Apple, vende produtos como iPhones, Apple Watches,
softwares e serviços online.
A gigante utiliza IA em recursos de seus principais produtos,
como FaceID e a assistente inteligente Siri.
A empresa também está maximizando suas ofertas ao
recomendar músicas no Apple Music, ajudar a encontrar
determinada foto no iCloud ou dirigir para o local escolhido
pelo Maps.
O Google chinês usa inteligência
artificial de várias maneiras.
Eles têm uma ferramenta
chamada Deep Voice, que por
meio do aprendizado profundo
consegue clonar a voz de alguém
apenas escutando 3,7 segundos
de áudio.
A empresa utiliza a mesma
tecnologia para garantir que
livros selecionados sejam lidos
na voz do autor - todos
automatizados sem necessidade
de um estúdio de gravação.
O Facebook usa o DeepText
em sua plataforma, um
mecanismo de compreensão
de texto que entende e
interpreta automaticamente o
emocional de seus usuários
com base em suas postagens
na rede social.
Além disso, a empresa utiliza
inteligência artificial para
capturar e remover imagens
postadas consideradas
impróprias, como
pornografia, por exemplo.
A IBM está na vanguarda da IA há anos.
Prova disso é o computador Deep Blue, o
primeiro a derrotar um humano campeão
mundial de xadrez. A empresa acompanhou o
feito e produziu outros duelos entre homens e
máquinas.
A conquista mais recente da IBM é o Project
Debater, no qual um mecanismo de
computação cognitiva competiu contra dois
debatedores profissionais e formulou
argumentos semelhantes aos usados pelos
humanos em discussões.
A empresa deixa explícito seu foco em
inteligência artificial ao declarar sua
visão de marketing.
A tecnologia é utilizada em todos os
seus produtos e serviços,
como Cortana, Skype, Bing e Office
365.
Além disso, a companhia fundada
por Bill Gates é uma das maiores
fornecedoras de IA do mundo como
serviço (AIaaS).
Inteligência Artificial
A arte de criar máquinas que executam funções que exigem
inteligência quando executadas por pessoas.” (Kurzweil,1990)
“[Automatização de] atividades que associamos ao
pensamento humano, atividades como a tomada de decisões,
a resolução de problemas, o aprendizado...” (Bellman,1978)
AULA  2 FIEC Apache Spark é um poderoso engine/sistema
Machine Learning
“É o estudo de algoritmos de computador que se aprimoram automaticamente com a
experiência.” (Mitchell,1997)
Real time vs Batch
Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 64
Real-Time
Dados gerados e processados em tempo real. Esse é o conceito
aplicado a dados quando falamos de Real-time.
Ex: quando estamos navegando em uma plataforma de e-commerce e
procuramos por um produto logo surgem sugestões de compra de
outros produtos com frases como: “... Clientes que compraram esse
produto também compraram esses outros produtos...”
Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 65
O que aconteceu é que as suas escolhas enquanto navegava pelo site
(seus clicks) foram capturados em tempo real, como dados de entrada
de um sistema de recomendação que processou e devolveu uma
resposta, em tempo real, para aplicação web.
Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 66
Batch
Temos o processamento de dados em Lote ou batch quando esse
processamento não é em tempo real. O Batch ele pode ser agendado
ou realizado por um analista para determinada atividade.
Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 67
Um pouco mais sobre
Stream...
Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 68
Há dois tipos de processamento de Stream:
Stream nativo
Micro-Batch
Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 69
Stream Nativo
Significa que cada registro recebido é processado assim que chega, sem
esperar por outros. Existem alguns processos em execução contínua
(que chamamos de operators/tasks/bolts dependendo da estrutura) que
são executados para sempre e todos os registros passam por esses
processos para serem processados. Exemplos: Storm, Flink, Kafka
Streams, Samza.
Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 70
Micro-Batching
Também conhecido como Fast Batching. Isso significa que os registros
recebidos a cada poucos segundos são agrupados e, em seguida,
processados ​​em um único minilote com atraso de alguns segundos.
Exemplos: Spark Streaming, Storm-Trident.
Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 71
Prof.
Me.
Felipe
Viana
|
linkedin.com/in/datasciencefelipeviana
A utilização de processamento de dados em Streaming é algo
que depende de uma infraestrutura e tecnologia bem
específicos. Isso torna os custos dessas operações elevados.
O uso de modelos automatizados também é necessário.
72
Frameworks
Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 73
Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 74
A Apache foundation é uma companhia sem fins lucrativos composta
por desenvolvedores de software open source. Ex: servidor web Apache
http.
Empresas como Microsoft, HP, IBM dentre outras mantem por meio de
doações, as atividades da Apache.
https://www.apache.org/
Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 75
Lista dos projetos da Apache
https://www.apache.org/index.html#projects-list
Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 76
Ferramentas
de Analytics
Prof.
Me.
Felipe
Viana
|
linkedin.com/in/datasciencefelipeviana
77
IBM Watson Analytics
https://www.ibm.com/br-pt/products/cognos-analytics#product-header-top
Microsoft Power BI
https://powerbi.microsoft.com/pt-br/
Google Data Studio
https://datastudio.google.com/u/0/navigation/reporting
Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 78

Mais conteúdo relacionado

PDF
Business Analytics: empresas competitivas são orientadas por dados
PDF
Big Data: Desafios e Oportunidades
PDF
BI AULA_removedBusiness IntelligenceBusiness Intelligence.pdf
PPTX
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
PDF
Data Science - Big Data - Data Driven
PDF
Como utilizar Bid Data na minha empres
PDF
Curso Business Analytics.pdf
PDF
Wiseminer Data Blending, Data Preparation & Analytics
Business Analytics: empresas competitivas são orientadas por dados
Big Data: Desafios e Oportunidades
BI AULA_removedBusiness IntelligenceBusiness Intelligence.pdf
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Data Science - Big Data - Data Driven
Como utilizar Bid Data na minha empres
Curso Business Analytics.pdf
Wiseminer Data Blending, Data Preparation & Analytics

Semelhante a AULA 2 FIEC Apache Spark é um poderoso engine/sistema (20)

PDF
Wiseminer: Data Blending & Data Preparation
PPTX
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
PPTX
BIG data
PDF
Business Analytics - Data Science Processes
PDF
Ciência de Dados: a revolução na tomada de decisões
PDF
Valorizando seu negócio com Big Data e Business Analytics
PPTX
Mundo big data
PPTX
Impactos de Big Data na Gestão de TI
PPTX
Sistemas de Informações - Aula 16: BI, BA e Big Data
PDF
Wiseminer Data Preparation & Smart Analytics - 2016 02
PDF
BigData-Hekima-Ebook.pdf
PPTX
Big data: Descoberta de conhecimento em ambientes de big data e computação na...
DOCX
Tendências de inovações tecnológicas para analítica de negócios
PDF
Wiseminer Self-Service Data Analytics
PDF
Sample 6BDT20151
PDF
Tome Decisões + Inteligentes!
PDF
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
PDF
Hekima | Big Data Analytics
PPTX
Palestra Ciência de Dados
PDF
Cultura de dados: por que kpis garantem a saúde do seu negócio
Wiseminer: Data Blending & Data Preparation
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
BIG data
Business Analytics - Data Science Processes
Ciência de Dados: a revolução na tomada de decisões
Valorizando seu negócio com Big Data e Business Analytics
Mundo big data
Impactos de Big Data na Gestão de TI
Sistemas de Informações - Aula 16: BI, BA e Big Data
Wiseminer Data Preparation & Smart Analytics - 2016 02
BigData-Hekima-Ebook.pdf
Big data: Descoberta de conhecimento em ambientes de big data e computação na...
Tendências de inovações tecnológicas para analítica de negócios
Wiseminer Self-Service Data Analytics
Sample 6BDT20151
Tome Decisões + Inteligentes!
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
Hekima | Big Data Analytics
Palestra Ciência de Dados
Cultura de dados: por que kpis garantem a saúde do seu negócio
Anúncio

Último (8)

PPTX
Viasol Energia Solar -Soluções para geração e economia de energia
PDF
Termos utilizados na designação de relação entre pessoa e uma obra.pdf
PPTX
Gestao-de-Bugs-em-Software-Introducao.pptxxxxxxxx
PPTX
Como-se-implementa-um-softwareeeeeeeeeeeeeeeeeeeeeeeee.pptx
PPTX
Informática Aplicada Informática Aplicada Plano de Ensino - estudo de caso NR...
PPTX
Mecânico de Manutenção de Equipamentos.pptx
PDF
Manejo integrado de pragas na cultura do algodão
PPTX
Arquitetura de computadores - Memórias Secundárias
Viasol Energia Solar -Soluções para geração e economia de energia
Termos utilizados na designação de relação entre pessoa e uma obra.pdf
Gestao-de-Bugs-em-Software-Introducao.pptxxxxxxxx
Como-se-implementa-um-softwareeeeeeeeeeeeeeeeeeeeeeeee.pptx
Informática Aplicada Informática Aplicada Plano de Ensino - estudo de caso NR...
Mecânico de Manutenção de Equipamentos.pptx
Manejo integrado de pragas na cultura do algodão
Arquitetura de computadores - Memórias Secundárias
Anúncio

AULA 2 FIEC Apache Spark é um poderoso engine/sistema

  • 1. BIG DATA ANALYTICS– IEL | FIEC 20h/a AULA 1 INTRODUÇÃO Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 1
  • 2. BEM VINDOS! Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 2
  • 3. Nome? Empresa? Departamento? Expectativa? Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 3
  • 4. INTRODUÇÃO 4 Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana
  • 5. ANÁLISE DE DADOS Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana A análise de dados é a atividade que busca aprofundamento sobre os dados gerador em uma empresa por exemplo. Dados de diversas fontes podem e devem ser explorados. CRM, ERP, Instrumentos, equipamentos, Bancos transacionais, e-mail , redes sociais, BIG DATA... 5
  • 6. Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana APÓS A COMPREENSÃO DO PAPEL IMPORTANTE DE ANALISAR DADOS OCORRE O SURGIMENTO DE UMA CULTURA DE TOMADA DE DECISÃO BASEADA EM DADOS DATA-DRIVEN-DECISION 6
  • 7. “A ACHOLÓGIA DE TODAS AS CIÊNCIAS É A MAIS INCERTA...” Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 7
  • 8. Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana Não há mais espaço para decisões baseadas em OPINIÃO... O mundo produz mais informação a cada dia e a globalização cria o efeito borboleta no mundo dos negócios. 8
  • 9. PESQUISA OPERACIONAL E o conjunto de técnicas que utilizando de método cientifico auxilia no processo de tomada de decisão. Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 9
  • 10. Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana O termo Pesquisa Operacional, remete às origens da área, cujo interesse primário era a gestão eficiente de operações (tipicamente de logística militar). No entanto, o avanço metodológico e computacional, aliado a constantes demandas de outras áreas, a PO se modernizou e ampliou seu campo de atuação. Atualmente o termo Pesquisa Operacional é também utilizado como uma tradução do termo em inglês Business Analytics (BA). https://www.sobrapo.org.br/ 10
  • 12. Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana Para monitorar o retorno sobre investimento (ROI), satisfação do cliente, qualidade de produto e tantos outros pontos que podem ser evidenciados através de Indicadores chaves de performance (KPI’s) as organizações buscam um relacionamento entre essas métricas e fatores que impactam ou influenciam para uma evolução adequada. 12
  • 13. Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana In God we trust; all others must bring Data Edwards Deming https://en.wikipedia.org/wiki/W._Edwards_Deming 13
  • 14. Analytics Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana E uma aréa de conhecimento que consiste é formada por estatística, matemática, metodologia cientifica, técnicas de inteligência artificial, machine learning, deep learning, data collection, armazenamento de dados, processos de ETL, computação e Big Data. 14
  • 16. Bounded Rationality Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana O termo "racionalidade limitada" é usado para designar a escolha racional que leva em consideração as limitações cognitivas do tomador de decisão - limitações de conhecimento e capacidade computacional. A racionalidade limitada é um tema central na abordagem comportamental da economia, que está profundamente preocupada com as maneiras pelas quais o atual processo de tomada de decisão influencia as decisões que são alcançadas. 16
  • 17. Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana Proposto em 1972 por Herbert Simon essa teoria ganhou notoriedade e tornou-se ponto chave para a compreensão de que há uma complexidade na solução de problemas relacionados a negócios pois diversas possibilidades de soluções em diversos cenários possíveis porem com tempo de decisão limitados são um desafio constante. https://en.wikipedia.org/wiki/Herbert_A._Simon 17
  • 18. Maiores Desafios • Incertezas • Clareza nas Alternativas • Falta de conhecimento entre causa e efeito • Tempo de avaliação • O que é importante Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 18
  • 19. Step 1 Identificar problemas / Oportunidades de Melhorias Step 2 Identificar fontes de dados que o Step 1 demanda Step 3 Pre-Processamento do dados Step 4 Dividir os dados em treino e validação. Step 5 Selecionar e desenvolver modelos Step 6 Entregar a solução ou decisão Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 19 Fluxo de uma processo de Data-Driven Decision-Making em Business Analytics.
  • 20. Analytics para estratégia Competitiva Dado é tudo! Analytics para tomada de decisão Analytics para solução de problemas Analytics para melhoria de processos Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 20
  • 21. O Custo da Decisão Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 21 Custo de produzir uma decisão (Consultoria, procedimentos ferramentas...) Custo de implementação das ações baseadas nas decisões tomadas Custo de falha para quando a organização falha em seus esforço.
  • 24. Analytics Descriptive Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana A análise descritiva é o processo de análise de dados históricos para entender melhor as mudanças que ocorreram em um negócio. 24
  • 25. Ex: Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 25 Resumindo eventos anteriores, como dados de vendas e operações ou campanhas de marketing Uso de mídia social e dados de engajamento, como Instagram ou curtidas no Facebook Relatórios de tendências gerais Coletando resultados da pesquisa
  • 26. Analytics Predictive Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana Enquanto a análise descritiva se concentra em dados históricos, a análise preditiva, como o nome indica, está focada em prever e compreender o que pode acontecer no futuro. A análise de tendências e padrões de dados anteriores, observando dados históricos e percepções do cliente, pode prever o que pode acontecer no futuro e, ao fazer isso, informar muitos aspectos de um negócio, incluindo a definição de metas realistas, planejamento eficaz, gerenciamento de expectativas de desempenho e prevenção de riscos. 26
  • 27. Ex: Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 27 E-commerce - previsão das preferências do cliente e recomendação de produtos aos clientes com base em compras anteriores e histórico de pesquisa Vendas - prevendo a probabilidade de os clientes comprarem outro produto ou deixarem a loja Recursos humanos - detectar se os funcionários estão pensando em pedir demissão e, em seguida, persuadi-los a ficar Segurança de TI - identificando possíveis violações de segurança que requerem investigação adicional Saúde - previsão das necessidades de pessoal e recursos
  • 28. Analytics Prescriptive Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana Se a análise descritiva diz o que aconteceu e a análise preditiva diz o que poderia acontecer, a análise prescritiva diz o que deve ser feito. Essa metodologia é a terceira, última e mais avançada etapa do processo de análise de negócios e a que aciona os negócios, auxiliando executivos, gestores e colaboradores operacionais a tomar as melhores decisões possíveis com base nos dados de que dispõem. 28
  • 29. Ex: Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 29 Petróleo e manufatura - rastreando preços flutuantes Fabricação - melhorando a gestão de equipamentos, manutenção, modelagem de preços, produção e armazenamento Saúde - melhorar o atendimento ao paciente e a administração da saúde, avaliando itens como taxas de readmissão e a relação custo-benefício dos procedimentos Seguro - avaliação de risco em relação a preços e informações sobre prêmios para clientes Pesquisa farmacêutica - identificando os melhores testes e grupos de pacientes para testes clínicos.
  • 32. 32 Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana
  • 34. 34 VOLUME VELOCIDADE VARIEDADE VERACIDADE VALOR Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana
  • 35. 1. Volume: O grande montante de dados que são recebidos de suas fontes. 2. Velocidade: Rapidez com que os dados são gerados 3. Variedade: Diversos tipos de dados. Estruturados, semi- estruturados e não estruturados. 4. Veracidade: O grau de confiabilidade que os dados gerador são verdadeiros. 5. Valor: Os dados devem gerar valor de negócio. 35 Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana
  • 36. 36 Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana
  • 37. Quais empresas usam Big Data?
  • 43. Você já se perguntou como a Starbucks pode abrir três filiais na mesma rua e não ter seus negócios prejudicados? O gigante da cafeteria usa big data para determinar o sucesso potencial de cada nova localização, levando em consideração informações sobre localização, tráfego, demografia da área e comportamento do cliente. Fazer esse tipo de avaliação antes de abrir uma loja significa que a Starbucks pode fazer uma estimativa bastante precisa de qual será a taxa de sucesso e escolher os locais com base na propensão para o crescimento da receita.
  • 46. A GE está usando os dados de sensores em máquinas como turbinas para identificar maneiras de melhorar os processos de trabalho e a confiabilidade. Os relatórios resultantes são então passados ​​para a equipe analítica da GE para desenvolver ferramentas e melhorias para aumentar a eficiência. A empresa estimou que os dados poderiam aumentar a produtividade nos EUA em 1,5%, o que, em um período de 20 anos, poderia economizar dinheiro suficiente para aumentar a renda nacional média em até 30%.
  • 51. Jurimetria Análise estatística para tomada de decisão, com base nas tendências jurisprudenciais em todas as áreas jurídicas categorizados em diversos níveis por tribunal, por magistrado, por tipo penal...
  • 53. Alibaba A chinesa é a maior plataforma de comércio eletrônico do mundo, chegando a vender mais do que a Amazon e o eBay juntos. A inteligência artificial que faz parte das operações diárias da empresa é utilizada para prever o que os clientes querem comprar. Com processamento de linguagem natural, a Alibaba gera automaticamente produtos para o site. Além disso, a chinesa também usa IA em seu projeto "City Brain", que visa a criação de cidades inteligentes. O programa aplica algoritmos para ajudar a reduzir os congestionamentos e monitorar os veículos da cidade.
  • 54. A empresa dona do Google possui uma divisão autônoma de tecnologia chamada Waymo, que deseja reduzir o número de acidentes com seus veículos. Isso é feito atualmente na Califórnia através de táxis que possuem controles autônomos. No entanto, a empresa não pode cobrar tarifas caso o motorista não seja humano. Já o Google sinalizou um compromisso com o aprendizado profundo após adquirir o DeepMind. O sistema não apenas aprendeu a jogar 49 jogos diferentes de Atari, como o AlphaGo foi o primeiro a derrotar um jogador profissional no jogo. Outra inovação da empresa americana é o Google Duplex, que usa processamento de linguagem natural e uma interface de voz que pode fazer ligações e agendar compromissos em nome do usuário.
  • 55. A Amazon tem como foco principal de IA sua assistente de voz digital Alexa, mas também opera outros campos de seu negócio com a tecnologia. Um bom exemplo disso é a maneira inovadora de enviar coisas para os seus usuários antes mesmo de eles pensarem em comprá-las. Isso é possível, pois eles coletam muitos dados sobre os hábitos de compra dos clientes e, dessa forma, conseguem prever seus desejos. Em um momento em que muitas lojas físicas estão lutando pela sua sobrevivência, a empresa criou um conceito chamado Amazon Go. As lojas possuem IA capaz de rastrear os itens que o usuário escolhe e cobra automaticamente através de um app. Como não há check-out, o cliente pode levar suas próprias mochilas para alocar os itens, mas existem câmeras que identificam o que é selecionado, de forma QUE furtos não se tornem recorrentes.
  • 56. Uma das maiores empresas de tecnologia do mundo, a Apple, vende produtos como iPhones, Apple Watches, softwares e serviços online. A gigante utiliza IA em recursos de seus principais produtos, como FaceID e a assistente inteligente Siri. A empresa também está maximizando suas ofertas ao recomendar músicas no Apple Music, ajudar a encontrar determinada foto no iCloud ou dirigir para o local escolhido pelo Maps.
  • 57. O Google chinês usa inteligência artificial de várias maneiras. Eles têm uma ferramenta chamada Deep Voice, que por meio do aprendizado profundo consegue clonar a voz de alguém apenas escutando 3,7 segundos de áudio. A empresa utiliza a mesma tecnologia para garantir que livros selecionados sejam lidos na voz do autor - todos automatizados sem necessidade de um estúdio de gravação.
  • 58. O Facebook usa o DeepText em sua plataforma, um mecanismo de compreensão de texto que entende e interpreta automaticamente o emocional de seus usuários com base em suas postagens na rede social. Além disso, a empresa utiliza inteligência artificial para capturar e remover imagens postadas consideradas impróprias, como pornografia, por exemplo.
  • 59. A IBM está na vanguarda da IA há anos. Prova disso é o computador Deep Blue, o primeiro a derrotar um humano campeão mundial de xadrez. A empresa acompanhou o feito e produziu outros duelos entre homens e máquinas. A conquista mais recente da IBM é o Project Debater, no qual um mecanismo de computação cognitiva competiu contra dois debatedores profissionais e formulou argumentos semelhantes aos usados pelos humanos em discussões.
  • 60. A empresa deixa explícito seu foco em inteligência artificial ao declarar sua visão de marketing. A tecnologia é utilizada em todos os seus produtos e serviços, como Cortana, Skype, Bing e Office 365. Além disso, a companhia fundada por Bill Gates é uma das maiores fornecedoras de IA do mundo como serviço (AIaaS).
  • 61. Inteligência Artificial A arte de criar máquinas que executam funções que exigem inteligência quando executadas por pessoas.” (Kurzweil,1990) “[Automatização de] atividades que associamos ao pensamento humano, atividades como a tomada de decisões, a resolução de problemas, o aprendizado...” (Bellman,1978)
  • 63. Machine Learning “É o estudo de algoritmos de computador que se aprimoram automaticamente com a experiência.” (Mitchell,1997)
  • 64. Real time vs Batch Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 64
  • 65. Real-Time Dados gerados e processados em tempo real. Esse é o conceito aplicado a dados quando falamos de Real-time. Ex: quando estamos navegando em uma plataforma de e-commerce e procuramos por um produto logo surgem sugestões de compra de outros produtos com frases como: “... Clientes que compraram esse produto também compraram esses outros produtos...” Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 65
  • 66. O que aconteceu é que as suas escolhas enquanto navegava pelo site (seus clicks) foram capturados em tempo real, como dados de entrada de um sistema de recomendação que processou e devolveu uma resposta, em tempo real, para aplicação web. Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 66
  • 67. Batch Temos o processamento de dados em Lote ou batch quando esse processamento não é em tempo real. O Batch ele pode ser agendado ou realizado por um analista para determinada atividade. Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 67
  • 68. Um pouco mais sobre Stream... Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 68
  • 69. Há dois tipos de processamento de Stream: Stream nativo Micro-Batch Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 69
  • 70. Stream Nativo Significa que cada registro recebido é processado assim que chega, sem esperar por outros. Existem alguns processos em execução contínua (que chamamos de operators/tasks/bolts dependendo da estrutura) que são executados para sempre e todos os registros passam por esses processos para serem processados. Exemplos: Storm, Flink, Kafka Streams, Samza. Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 70
  • 71. Micro-Batching Também conhecido como Fast Batching. Isso significa que os registros recebidos a cada poucos segundos são agrupados e, em seguida, processados ​​em um único minilote com atraso de alguns segundos. Exemplos: Spark Streaming, Storm-Trident. Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 71
  • 72. Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana A utilização de processamento de dados em Streaming é algo que depende de uma infraestrutura e tecnologia bem específicos. Isso torna os custos dessas operações elevados. O uso de modelos automatizados também é necessário. 72
  • 73. Frameworks Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 73
  • 74. Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 74
  • 75. A Apache foundation é uma companhia sem fins lucrativos composta por desenvolvedores de software open source. Ex: servidor web Apache http. Empresas como Microsoft, HP, IBM dentre outras mantem por meio de doações, as atividades da Apache. https://www.apache.org/ Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 75
  • 76. Lista dos projetos da Apache https://www.apache.org/index.html#projects-list Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 76
  • 77. Ferramentas de Analytics Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 77 IBM Watson Analytics https://www.ibm.com/br-pt/products/cognos-analytics#product-header-top Microsoft Power BI https://powerbi.microsoft.com/pt-br/ Google Data Studio https://datastudio.google.com/u/0/navigation/reporting
  • 78. Prof. Me. Felipe Viana | linkedin.com/in/datasciencefelipeviana 78