SlideShare uma empresa Scribd logo
Big Data
Big Data
“Big data is quite simply data that
cannot be managed or analyzed by
traditional technologies.”
IBM
Agenda

Porquê e Fatores Chave
Análise de Dados e Modelos Preditivos
Aplicações Empresariais
Desenvolvimento com RapidMiner
Porquê
●

●

●

“Em 2009, o storage dos dados de empresas com mais de
1000 colaboradores tinham um tamanho médio de 200 Terabytes”
“Ganhos de 100 mil milhões de dólares em custos
operacionais e fraude fiscal”
“Ganhos de 600 mil milhões de dólares para empresas
que segmentem os seus produtos”
McKinsey Global Institute
Porquê
●

●

●
●

●

“Em 2009, o storage dos dados de empresas com mais de
1000 colaboradores tinham um tamanho médio de 200 Terabytes”
“Ganhos de 100 mil milhões de dólares em custos
operacionais e fraude fiscal”
“Ganhos de 600 mil milhões de dólares para empresas
que segmentem os seus produtos”
McKinsey Global Institute

“Big Data Technology and Services Forecast Shows Market Expected to Grow to
$32.4 Billion in 2017 (27%)”
IDC
Fatores Chave
●

Infraestrutura
Fatores Chave
●

Infraestrutura
Fatores Chave
●

Organização e Gestão de Dados
Fatores Chave
●

Organização e Gestão de Dados
Fatores Chave
●

Descoberta de Conhecimento
Fatores Chave
●

Descoberta de Conhecimento
Fatores Chave
●

Sistemas de Suporte à Decisão
Fatores Chave
●

Sistemas de Suporte à Decisão
Vantagens/Desvantagens e Ética
Vantagens/Desvantagens e Ética
●

Vantagens
→ Predição de tendências e opções futuras
→ Aumento de lucros através do estudo de hábitos e padrões
→ Redução de custos operacionais
Vantagens/Desvantagens e Ética
●

●

Vantagens
→ Predição de tendências e opções futuras
→ Aumento de lucros através do estudo de hábitos e padrões
→ Redução de custos operacionais
Desvantagens
→ Custos elevados de implementação
→ Privacidade dos dados
→ Possíveis erros no tratamento de dados
Vantagens/Desvantagens e Ética
●

●

●

Vantagens
→ Predição de tendências e opções futuras
→ Aumento de lucros através do estudo de hábitos e padrões
→ Redução de custos operacionais
Desvantagens
→ Custos elevados de implementação
→ Privacidade dos dados
→ Possíveis erros no tratamento de dados
Ética
→ exemplo: Banco A decide crédito com base num código postal pode
estar a excluir por raça
Conceitos, Exemplos e Atributos
Conceitos, Exemplos e Atributos
●

Descrição do conceito como output do esquema de aprendizagem
→ exemplo: Jogar Futebol: SIM ou NÃO?
Conceitos, Exemplos e Atributos
●

●

Descrição do conceito como output do esquema de aprendizagem
→ exemplo: Jogar Futebol: SIM ou NÃO?
Exemplos ou Instâncias
→ exemplo: Temperatura - 15º; Humidade – Alta; Ventoso – Sim
Conceitos, Exemplos e Atributos
●

●

●

Descrição do conceito como output do esquema de aprendizagem
→ exemplo: Jogar Futebol: SIM ou NÃO?
Exemplos ou Instâncias
→ exemplo: Temperatura - 15º; Humidade – Alta; Ventoso – Sim
Atributos
→ Temperatura; …;
→ Podem ter várias medidas
Tratamento de Dados
●

Normalização: descrever todos os atributos num mesmo formato
Tratamento de Dados
●
●

Normalização: descrever todos os atributos num mesmo formato
Valores em falta: devem ser normalizados da mesma forma
Tratamento de Dados
●
●
●

Normalização: descrever todos os atributos num mesmo formato
Valores em falta: devem ser normalizados da mesma forma
Valores errados/duplicados podem conduzir a resultados adulterados
Dataset
Temperatura

Humidade Ventoso

Jogar/Classificação

15º

Alta

Não

Sim

10º

Alta

Sim

Não

2º

Média

Não

Sim

20º

Baixa

Sim

Sim
Árvores de Decisão
Árvores de Decisão
●

Formam uma árvore em que cada nó é um atributo e os ramos são os valores
Árvores de Decisão
●

Formam uma árvore em que cada nó é um atributo e os ramos são os valores
Temperatura

<= 10

> 10
SIM

Ventoso

Não
SIM

Sim
NÃO
Árvores de Decisão
●

Formam uma árvore em que cada nó é um atributo e os ramos são os valores
Temperatura

<= 10

> 10
SIM

Ventoso

Não
SIM
●

Sim
NÃO

Qual o melhor atributo para escolher como raiz?
Árvores de Decisão
●

Deve ser escolhido como raíz o atributo mais “útil” - o que ajude mais a descrever
(classificar) o conjunto de exemplos
Árvores de Decisão
●

●

Deve ser escolhido como raíz o atributo mais “útil” - o que ajude mais a descrever
(classificar) o conjunto de exemplos
A entropia mede o grau de impureza dos atributos:

entropia (S )=− p y∗log (2)∗ p y− pn∗log (2)∗ p n
Árvores de Decisão
●

●

Deve ser escolhido como raíz o atributo mais “útil” - o que ajude mais a descrever
(classificar) o conjunto de exemplos
A entropia mede o grau de impureza dos atributos:

entropia (S )=− p y∗log (2)∗ p y− pn∗log (2)∗ p n
●

O ganho de informação mede a redução esperada de entropia

Sv
ganho(S , A)=entropia(S )− ∑ ( )∗entropia( S)
v∈Valores ( A) S
Árvores de Decisão
●

ID3 (Quinlan, 1986)
→ Problema 1: Nem todas as hipóteses são cobertas
Árvores de Decisão
●

ID3 (Quinlan, 1986)
→ Problema 1: Nem todas as hipóteses são cobertas
→ Problema 2: Após a escolha de um nó não existe reconsideração
Árvores de Decisão
●

ID3 (Quinlan, 1986)
→ Problema 1: Nem todas as hipóteses são cobertas
→ Problema 2: Após a escolha de um nó não existe reconsideração
→ Problema 3: A complexidade da árvore pode retirar informação quando
existem poucos dados ou dados com muito ruído (overfitting)
Árvores de Decisão
●

●

ID3 (Quinlan, 1986)
→ Problema 1: Nem todas as hipóteses são cobertas
→ Problema 2: Após a escolha de um nó não existe reconsideração
→ Problema 3: A complexidade da árvore pode retirar informação quando
existem poucos dados ou dados com muito ruído (overfitting)
C4.5 (Quinlan, 1993)
→ Pode ser necessário podar a árvore... para a generalizar!
Árvores de Decisão
●

●

ID3 (Quinlan, 1986)
→ Problema 1: Nem todas as hipóteses são cobertas
→ Problema 2: Após a escolha de um nó não existe reconsideração
→ Problema 3: A complexidade da árvore pode retirar informação quando
existem poucos dados ou dados com muito ruído (overfitting)
C4.5 (Quinlan, 1993)
→ Pode ser necessário podar a árvore... para a generalizar!
Árvores de Decisão
●

Deve-se usar com problemas em que:
→ os exemplos são descritos por valores discretos
→ o output é um valor discreto
→ há valores em falta
Redes Neuronais Artificiais
Redes Neuronais Artificiais
●

Simulam uma rede de sinapses com retro-propagação entre os neurónios
Redes Neuronais Artificiais
●

Simulam uma rede de sinapses com retro-propagação entre os neurónios
Redes Neuronais Artificiais
●

●

Simulam uma rede de sinapses com retro-propagação entre os neurónios

Os tempos de aprendizagem podem ser muito mais lentos e pode ser
difícil compreender o output, ao contrário das árvores
Redes Neuronais Artificiais
●

A rede é formada por um perceptrão multi-camada
Redes Neuronais Artificiais
●
●

A rede é formada por um perceptrão multi-camada
A primeira camada (input) corresponde ao número de atributos
Redes Neuronais Artificiais
●
●
●

A rede é formada por um perceptrão multi-camada
A primeira camada (input) corresponde ao número de atributos
A última camada (output) corresponde à classificação (ex: SIM / NÃO)
Redes Neuronais Artificiais
●
●
●
●

A rede é formada por um perceptrão multi-camada
A primeira camada (input) corresponde ao número de atributos
A última camada (output) corresponde à classificação (ex: SIM / NÃO)
A camada intermédia (escondida) deve ser testada para:
→ Não ter demasiados neurónios e levar a overfitting
→ Não ter excessivamente poucos e não ser possível uma decisão adequada
Redes Neuronais Artificiais
●

Cada neurónio tem uma função de activação dos pesos de cada sinapse para o
próximo neurónio à frente (feedforward)
Redes Neuronais Artificiais
●

●

Cada neurónio tem uma função de activação dos pesos de cada sinapse para o
próximo neurónio à frente (feedforward)
A retropropagação permite que sejam computados os erros de cada output
para se poder calibrar os melhores pesos para cada ligação
Redes Neuronais Artificiais
●

●

●

Cada neurónio tem uma função de activação dos pesos de cada sinapse para o
próximo neurónio à frente (feedforward)
A retropropagação permite que sejam computados os erros de cada output
para se poder calibrar os melhores pesos para cada ligação
Deve-se usar métodos de validação cruzada com um dataset de treino e outro
de validação para saber o número de iterações da retropropagação
Redes Neuronais Artificiais
●

Deve-se usar com problemas em que:
→ podem existir muitos pares atributo-valor com valores reais
→ o output pode conter vários pares atributo-valor ou valores discretos
→ é necessário uma avaliação rápida do output
→ os tempos de aprendizagem não são relevantes
→ não é importante a compreensão da rede gerada
Redes Bayesianas
Redes Bayesianas
●

Baseiam-se no Teorema de Bayes

P(

P(

A
B

)=

B

)∗P ( A)
A
P ( B)
Redes Bayesianas
●

Baseiam-se no Teorema de Bayes

P(
●

P(

A
B

)=

B

)∗P ( A)
A
P ( B)

Estimam a classificação mais provável

argmax v ∈V ∑h ∈H P (
j

i

vj
hi

)∗P (

hi
D

)
Redes Bayesianas
●

Baseiam-se no Teorema de Bayes

P(
●

P(

A
B

)=

B

)∗P ( A)
A
P ( B)

Estimam a classificação mais provável

argmax v ∈V ∑h ∈H P (
j

●

i

vj
hi

)∗P (

hi
D

)

Pode-se deduzir se Jogar Futebol = SIM, quando Temperatura <= 10, p.ex.
Redes Bayesianas
●

Baseiam-se no Teorema de Bayes

P(
●

P(

A
B

)=

B

)∗P ( A)
A
P ( B)

Estimam a classificação mais provável

argmax v ∈V ∑h ∈H P (
j

●
●

i

vj
hi

)∗P (

hi
D

)

Pode-se deduzir se se Jogar Futebol = SIM, quando Temperatura <= 10, p.ex.
São muitas vezes usados para validação de outros métodos
Algoritmos Genéticos
Algoritmos Genéticos
●

Simulam a teoria da evolução biológica, segundo a qual o elemento mais
“inteligente” é o que se adapta melhor
Algoritmos Genéticos
●

●

Simulam a teoria da evolução biológica, segundo a qual o elemento mais
“inteligente” é o que se adapta melhor
Utiliza conceitos das ciências naturais como cruzamento e mutação
Algoritmos Genéticos
●

●
●

Simulam a teoria da evolução biológica, segundo a qual o elemento mais
“inteligente” é o que se adapta melhor
Utiliza conceitos das ciências naturais como cruzamento e mutação
Os datasets representam populações com atributos genéticos
Algoritmos Genéticos
●

●
●
●

●

Simulam a teoria da evolução biológica, segundo a qual o elemento mais
“inteligente” é o que se adapta melhor
Utiliza conceitos das ciências naturais como cruzamento e mutação
Os datasets representam populações com atributos genéticos
Mutação
→ O novo elemento contém modificações aleatória de um atributo
Cruzamento
→ O novo elemento recebe atributos cruzados dos ascendentes
Algoritmos Genéticos
●

●
●
●

●

●

Simulam a teoria da evolução biológica, segundo a qual o elemento mais
“inteligente” é o que se adapta melhor
Utiliza conceitos das ciências naturais como cruzamento e mutação
Os datasets representam populações com atributos genéticos
Mutação
→ O novo elemento contém modificações aleatória de um atributo
Cruzamento
→ O novo elemento recebe atributos cruzados dos ascendentes
Problema: Como saber qual o melhor elemento para continuar a reprodução?
Algoritmos Genéticos
●

A escolha dos melhores elementos para predição deve ser feita com base
num dataset de treino
Algoritmos Genéticos
●

●

A escolha dos melhores elementos para predição deve ser feita com base
num dataset de treino
Os elementos que melhor representem a classificação de treino devem ser
escolhidos para nova iteração/reprodução
Algoritmos Genéticos
●

Deve-se usar com problemas em que:
→ computação pode ser paralelizada
→ a interação entre os diversos atributos, e a consequente
contribuição para o modelo, é complexa
Algoritmos Genéticos
●

●

●

A escolha dos melhores elementos para predição deve ser feita com base
num dataset de treino
Os elementos que melhor representem a classificação de treino devem ser
escolhidos para nova iteração/reprodução
Algoritmos baseados em Instâncias
●

Usam medidas para a similaridade, como a distância euclidiana
Algoritmos baseados em Instâncias
●

Usam medidas para a similaridade, como a distância euclidiana

d ( x i , x j )=

√

n

∑ (a r ( x i )−a r ( x j ))2
i=1
Algoritmos baseados em Instâncias
●

Usam medidas para a similaridade, como a distância euclidiana

d ( x i , x j )=
●

√

n

∑ (a r ( x i )−a r ( x j ))2
i=1

Podem usar pesos para indicar o valor dos atributos
Algoritmos baseados em Instâncias
●

●

●

Úteis quando o output é complexo demais para ser modelado, uma vez
que procuram apenas a resolução “mais próxima”
Podem ser lentos porque não só avaliam em relação a todos os exemplos de treino
como avaliam todos os atributos
Podem ter maus resultados quando apenas alguns atributos são relevantes
Text Mining
●

●

O texto deve ser uniformizado para que a mesma palavra não seja repetida
→ exemplo: construção vs construindo
Deve ser feito um dicionário de termos relevantes a considerar como atributos
→ retirar todos os termos irrelevantes
Text Mining
●

●

●
●

O texto deve ser uniformizado para que a mesma palavra não seja repetida
→ exemplo: construção vs construindo
Deve ser feito um dicionário de termos relevantes a considerar como atributos
→ retirar todos os termos irrelevantes
Transformar o texto em frequências (0 ou 1 ou mais) das palavras do dicionário
Aplicar os mecanismos de Data Mining :)
Aplicações Empresariais
●
●
●
●

Análise do cesto de compras
Classificação de música em géneros
Previsão de consumos de energia
Investigação médica e farmâceutica
Bibliografia Relevante
●
●
●

●
●

Artificial Intelligence: A Modern Approach (Stuart Russell and Peter Norvig, 1995)
Machine Learning (Tom Mitchell, 1997)
Data Mining: Practical Machine Learning Tools and Techniques (Ian Witten
and Eibe Frank, 2011)
The Data Warehouse Lifecycle Toolkit (Ralph Kimball, 2008)
Text Mining: Predictive Methods for Analyzing Unstructured Information
(Sholom M. Weiss, 2004)
Desenvolvimento com RapidMiner
http://sourceforge.net/projects/rapidminer/
http://archive.ics.uci.edu/ml/datasets.html?format=
&task=&att=&area=&numAtt=&numIns=&type=&sort=dateDown&view=table
Contactos
Pedro Costa
ppcosta@primeit.pt

Mais conteúdo relacionado

PDF
História da informática
PPT
A estrutura da mente
PPT
Estágios do desenvolvimento cognitivo segundo jean piaget
PPT
O estádio sensório motor
PPTX
Sistema Operativo Servidor
PDF
Manejo comportamental de crianças com transtorno do especto do autismo em co...
PDF
Interface Homem Computador - Aula02 - Principios de design em IHC
História da informática
A estrutura da mente
Estágios do desenvolvimento cognitivo segundo jean piaget
O estádio sensório motor
Sistema Operativo Servidor
Manejo comportamental de crianças com transtorno do especto do autismo em co...
Interface Homem Computador - Aula02 - Principios de design em IHC

Mais procurados (20)

PDF
Sensor para monitoramento de umidade do solo utilizando energia solar
PDF
Aula Sensação Percepção.pdf
PPTX
Erik erikson - Desenvolvimento Psicossocial
PDF
Freud e a Psicanálise
PPT
Tecnologias da Informacao E Comunicacao
PDF
Reflexões sobre a escola da ponte
PDF
Aula - Gerenciadores de layout
PDF
Recursividade em linguagem C
PPTX
Processador
PDF
Planta baixa
PPT
Projecto e Produção Multimédia
PPTX
Teoria de piaget (slides)
PPTX
PDF
Arquitetura Cliente-Servidor
PDF
Arquitetura de Hardware
DOCX
Hardware e sistemas operacionais
PDF
Desenvolvimento da linguagem
PPTX
Dislalia
PDF
Introdução ao desenvolvimento Web
PDF
Freud e-a-psicanlise-1204326364108510-2 (1)
Sensor para monitoramento de umidade do solo utilizando energia solar
Aula Sensação Percepção.pdf
Erik erikson - Desenvolvimento Psicossocial
Freud e a Psicanálise
Tecnologias da Informacao E Comunicacao
Reflexões sobre a escola da ponte
Aula - Gerenciadores de layout
Recursividade em linguagem C
Processador
Planta baixa
Projecto e Produção Multimédia
Teoria de piaget (slides)
Arquitetura Cliente-Servidor
Arquitetura de Hardware
Hardware e sistemas operacionais
Desenvolvimento da linguagem
Dislalia
Introdução ao desenvolvimento Web
Freud e-a-psicanlise-1204326364108510-2 (1)
Anúncio

Destaque (6)

PDF
Web Data Mining com R: pré-processamento de dados [no R]
PDF
Ferramentas Java para Recuperação e Mineração de Informações
PPT
Web Mining
PDF
Data, Text and Web Mining
PDF
Linguística de Corpus x Monitoramento de Mídias Sociais
PDF
SOCIAL MEDIA WEEK 2016 - Monitoramento de mídias sociais: construindo um port...
Web Data Mining com R: pré-processamento de dados [no R]
Ferramentas Java para Recuperação e Mineração de Informações
Web Mining
Data, Text and Web Mining
Linguística de Corpus x Monitoramento de Mídias Sociais
SOCIAL MEDIA WEEK 2016 - Monitoramento de mídias sociais: construindo um port...
Anúncio

Semelhante a Big data (20)

PPTX
Aprendizagem Automática
PDF
Árvore de Decisão | IA
PDF
Inteligência Artificial - Parte 5 -
PPTX
Aprendizagem Supervisionada I
PDF
Analytics - Data Science - Arvores de decisao
PDF
Classificação: Árvores de Decisão e Bias Indutivo
PDF
[José Ahirton Lopes] Treinamento - Árvores de Decisão, SVM e Naive Bayes
PPT
Gilcimar apresentação
PDF
ID3 Algorithm
PDF
Data Science e Inteligência de dados - Inteligencia artificial e machine lear...
PPT
Algoritmo_ID3_e_C.45_Gilcimar
PDF
Aprendizagem de máquina aplicada na neurociência
PDF
Introdução à Aprendizagem de Máquina
PPT
160277 redes neurais artificiais
PDF
Árvores de decisão no FreeBSD com R - PagSeguro
PDF
Guia completo para definição de estatística de modelos e algoritmos de machin...
PDF
Melhore seu conhecimento sobre analise de dados com a versao mais recente do ...
PDF
[DTC21] Raphael Castilho - Começando com Inteligência Artificial e Machine Le...
PDF
Introducao inteligenciaartificial
PDF
Aula rotulação automática - Automatic tagging
Aprendizagem Automática
Árvore de Decisão | IA
Inteligência Artificial - Parte 5 -
Aprendizagem Supervisionada I
Analytics - Data Science - Arvores de decisao
Classificação: Árvores de Decisão e Bias Indutivo
[José Ahirton Lopes] Treinamento - Árvores de Decisão, SVM e Naive Bayes
Gilcimar apresentação
ID3 Algorithm
Data Science e Inteligência de dados - Inteligencia artificial e machine lear...
Algoritmo_ID3_e_C.45_Gilcimar
Aprendizagem de máquina aplicada na neurociência
Introdução à Aprendizagem de Máquina
160277 redes neurais artificiais
Árvores de decisão no FreeBSD com R - PagSeguro
Guia completo para definição de estatística de modelos e algoritmos de machin...
Melhore seu conhecimento sobre analise de dados com a versao mais recente do ...
[DTC21] Raphael Castilho - Começando com Inteligência Artificial e Machine Le...
Introducao inteligenciaartificial
Aula rotulação automática - Automatic tagging

Último (20)

PPTX
Curso de Java 13 - (JavaEE (JSP e Servlets)).pptx
PPTX
Curso de Java 11 - (Serializable (Serialização de Objetos)).pptx
PDF
Custos e liquidação no SAP Transportation Management, TM130 Col18
PDF
20250805_ServiceNow e a Arquitetura Orientada a Serviços (SOA) A Base para Ap...
PPTX
Programação - Linguagem C - Variáveis, Palavras Reservadas, tipos de dados, c...
PPTX
Aula sobre banco de dados com firebase db
PDF
Gestão de transportes básica no SAP S/4HANA, S4611 Col20
PDF
Processos na gestão de transportes, TM100 Col18
PPTX
Curso de Java 15 - (Uso de Servlets (Entendendo a Estrutura)).pptx
PDF
Otimizador de planejamento e execução no SAP Transportation Management, TM120...
PPTX
Aula16ManipulaçãoDadosssssssssssssssssssssssssssss
PPT
Sistemas de Informação em Saúde Aplicada.ppt
PPTX
SISTEMA DE INFORMAÇÃO EM SAÚDE_UEPA.pptx
PPTX
Curso de Java 14 - (Explicações Adicionais (Classes Abstrata e Interface)).pptx
PDF
COBITxITIL-Entenda as diferença em uso governança TI
PPTX
Aula sobre desenvolvimento de aplicativos
PDF
Custos e faturamento no SAP S/4HANA Transportation Management, S4TM3 Col26
PPTX
Curso de Java 12 - (JDBC, Transation, Commit e Rollback).pptx
PDF
Fullfilment AI - Forum ecommerce 2025 // Distrito e Total Express
PPTX
BANCO DE DADOS - AULAS INICIAIS-sgbd.pptx
Curso de Java 13 - (JavaEE (JSP e Servlets)).pptx
Curso de Java 11 - (Serializable (Serialização de Objetos)).pptx
Custos e liquidação no SAP Transportation Management, TM130 Col18
20250805_ServiceNow e a Arquitetura Orientada a Serviços (SOA) A Base para Ap...
Programação - Linguagem C - Variáveis, Palavras Reservadas, tipos de dados, c...
Aula sobre banco de dados com firebase db
Gestão de transportes básica no SAP S/4HANA, S4611 Col20
Processos na gestão de transportes, TM100 Col18
Curso de Java 15 - (Uso de Servlets (Entendendo a Estrutura)).pptx
Otimizador de planejamento e execução no SAP Transportation Management, TM120...
Aula16ManipulaçãoDadosssssssssssssssssssssssssssss
Sistemas de Informação em Saúde Aplicada.ppt
SISTEMA DE INFORMAÇÃO EM SAÚDE_UEPA.pptx
Curso de Java 14 - (Explicações Adicionais (Classes Abstrata e Interface)).pptx
COBITxITIL-Entenda as diferença em uso governança TI
Aula sobre desenvolvimento de aplicativos
Custos e faturamento no SAP S/4HANA Transportation Management, S4TM3 Col26
Curso de Java 12 - (JDBC, Transation, Commit e Rollback).pptx
Fullfilment AI - Forum ecommerce 2025 // Distrito e Total Express
BANCO DE DADOS - AULAS INICIAIS-sgbd.pptx

Big data

  • 2. Big Data “Big data is quite simply data that cannot be managed or analyzed by traditional technologies.” IBM
  • 3. Agenda Porquê e Fatores Chave Análise de Dados e Modelos Preditivos Aplicações Empresariais Desenvolvimento com RapidMiner
  • 4. Porquê ● ● ● “Em 2009, o storage dos dados de empresas com mais de 1000 colaboradores tinham um tamanho médio de 200 Terabytes” “Ganhos de 100 mil milhões de dólares em custos operacionais e fraude fiscal” “Ganhos de 600 mil milhões de dólares para empresas que segmentem os seus produtos” McKinsey Global Institute
  • 5. Porquê ● ● ● ● ● “Em 2009, o storage dos dados de empresas com mais de 1000 colaboradores tinham um tamanho médio de 200 Terabytes” “Ganhos de 100 mil milhões de dólares em custos operacionais e fraude fiscal” “Ganhos de 600 mil milhões de dólares para empresas que segmentem os seus produtos” McKinsey Global Institute “Big Data Technology and Services Forecast Shows Market Expected to Grow to $32.4 Billion in 2017 (27%)” IDC
  • 12. Fatores Chave ● Sistemas de Suporte à Decisão
  • 13. Fatores Chave ● Sistemas de Suporte à Decisão
  • 15. Vantagens/Desvantagens e Ética ● Vantagens → Predição de tendências e opções futuras → Aumento de lucros através do estudo de hábitos e padrões → Redução de custos operacionais
  • 16. Vantagens/Desvantagens e Ética ● ● Vantagens → Predição de tendências e opções futuras → Aumento de lucros através do estudo de hábitos e padrões → Redução de custos operacionais Desvantagens → Custos elevados de implementação → Privacidade dos dados → Possíveis erros no tratamento de dados
  • 17. Vantagens/Desvantagens e Ética ● ● ● Vantagens → Predição de tendências e opções futuras → Aumento de lucros através do estudo de hábitos e padrões → Redução de custos operacionais Desvantagens → Custos elevados de implementação → Privacidade dos dados → Possíveis erros no tratamento de dados Ética → exemplo: Banco A decide crédito com base num código postal pode estar a excluir por raça
  • 19. Conceitos, Exemplos e Atributos ● Descrição do conceito como output do esquema de aprendizagem → exemplo: Jogar Futebol: SIM ou NÃO?
  • 20. Conceitos, Exemplos e Atributos ● ● Descrição do conceito como output do esquema de aprendizagem → exemplo: Jogar Futebol: SIM ou NÃO? Exemplos ou Instâncias → exemplo: Temperatura - 15º; Humidade – Alta; Ventoso – Sim
  • 21. Conceitos, Exemplos e Atributos ● ● ● Descrição do conceito como output do esquema de aprendizagem → exemplo: Jogar Futebol: SIM ou NÃO? Exemplos ou Instâncias → exemplo: Temperatura - 15º; Humidade – Alta; Ventoso – Sim Atributos → Temperatura; …; → Podem ter várias medidas
  • 22. Tratamento de Dados ● Normalização: descrever todos os atributos num mesmo formato
  • 23. Tratamento de Dados ● ● Normalização: descrever todos os atributos num mesmo formato Valores em falta: devem ser normalizados da mesma forma
  • 24. Tratamento de Dados ● ● ● Normalização: descrever todos os atributos num mesmo formato Valores em falta: devem ser normalizados da mesma forma Valores errados/duplicados podem conduzir a resultados adulterados
  • 27. Árvores de Decisão ● Formam uma árvore em que cada nó é um atributo e os ramos são os valores
  • 28. Árvores de Decisão ● Formam uma árvore em que cada nó é um atributo e os ramos são os valores Temperatura <= 10 > 10 SIM Ventoso Não SIM Sim NÃO
  • 29. Árvores de Decisão ● Formam uma árvore em que cada nó é um atributo e os ramos são os valores Temperatura <= 10 > 10 SIM Ventoso Não SIM ● Sim NÃO Qual o melhor atributo para escolher como raiz?
  • 30. Árvores de Decisão ● Deve ser escolhido como raíz o atributo mais “útil” - o que ajude mais a descrever (classificar) o conjunto de exemplos
  • 31. Árvores de Decisão ● ● Deve ser escolhido como raíz o atributo mais “útil” - o que ajude mais a descrever (classificar) o conjunto de exemplos A entropia mede o grau de impureza dos atributos: entropia (S )=− p y∗log (2)∗ p y− pn∗log (2)∗ p n
  • 32. Árvores de Decisão ● ● Deve ser escolhido como raíz o atributo mais “útil” - o que ajude mais a descrever (classificar) o conjunto de exemplos A entropia mede o grau de impureza dos atributos: entropia (S )=− p y∗log (2)∗ p y− pn∗log (2)∗ p n ● O ganho de informação mede a redução esperada de entropia Sv ganho(S , A)=entropia(S )− ∑ ( )∗entropia( S) v∈Valores ( A) S
  • 33. Árvores de Decisão ● ID3 (Quinlan, 1986) → Problema 1: Nem todas as hipóteses são cobertas
  • 34. Árvores de Decisão ● ID3 (Quinlan, 1986) → Problema 1: Nem todas as hipóteses são cobertas → Problema 2: Após a escolha de um nó não existe reconsideração
  • 35. Árvores de Decisão ● ID3 (Quinlan, 1986) → Problema 1: Nem todas as hipóteses são cobertas → Problema 2: Após a escolha de um nó não existe reconsideração → Problema 3: A complexidade da árvore pode retirar informação quando existem poucos dados ou dados com muito ruído (overfitting)
  • 36. Árvores de Decisão ● ● ID3 (Quinlan, 1986) → Problema 1: Nem todas as hipóteses são cobertas → Problema 2: Após a escolha de um nó não existe reconsideração → Problema 3: A complexidade da árvore pode retirar informação quando existem poucos dados ou dados com muito ruído (overfitting) C4.5 (Quinlan, 1993) → Pode ser necessário podar a árvore... para a generalizar!
  • 37. Árvores de Decisão ● ● ID3 (Quinlan, 1986) → Problema 1: Nem todas as hipóteses são cobertas → Problema 2: Após a escolha de um nó não existe reconsideração → Problema 3: A complexidade da árvore pode retirar informação quando existem poucos dados ou dados com muito ruído (overfitting) C4.5 (Quinlan, 1993) → Pode ser necessário podar a árvore... para a generalizar!
  • 38. Árvores de Decisão ● Deve-se usar com problemas em que: → os exemplos são descritos por valores discretos → o output é um valor discreto → há valores em falta
  • 40. Redes Neuronais Artificiais ● Simulam uma rede de sinapses com retro-propagação entre os neurónios
  • 41. Redes Neuronais Artificiais ● Simulam uma rede de sinapses com retro-propagação entre os neurónios
  • 42. Redes Neuronais Artificiais ● ● Simulam uma rede de sinapses com retro-propagação entre os neurónios Os tempos de aprendizagem podem ser muito mais lentos e pode ser difícil compreender o output, ao contrário das árvores
  • 43. Redes Neuronais Artificiais ● A rede é formada por um perceptrão multi-camada
  • 44. Redes Neuronais Artificiais ● ● A rede é formada por um perceptrão multi-camada A primeira camada (input) corresponde ao número de atributos
  • 45. Redes Neuronais Artificiais ● ● ● A rede é formada por um perceptrão multi-camada A primeira camada (input) corresponde ao número de atributos A última camada (output) corresponde à classificação (ex: SIM / NÃO)
  • 46. Redes Neuronais Artificiais ● ● ● ● A rede é formada por um perceptrão multi-camada A primeira camada (input) corresponde ao número de atributos A última camada (output) corresponde à classificação (ex: SIM / NÃO) A camada intermédia (escondida) deve ser testada para: → Não ter demasiados neurónios e levar a overfitting → Não ter excessivamente poucos e não ser possível uma decisão adequada
  • 47. Redes Neuronais Artificiais ● Cada neurónio tem uma função de activação dos pesos de cada sinapse para o próximo neurónio à frente (feedforward)
  • 48. Redes Neuronais Artificiais ● ● Cada neurónio tem uma função de activação dos pesos de cada sinapse para o próximo neurónio à frente (feedforward) A retropropagação permite que sejam computados os erros de cada output para se poder calibrar os melhores pesos para cada ligação
  • 49. Redes Neuronais Artificiais ● ● ● Cada neurónio tem uma função de activação dos pesos de cada sinapse para o próximo neurónio à frente (feedforward) A retropropagação permite que sejam computados os erros de cada output para se poder calibrar os melhores pesos para cada ligação Deve-se usar métodos de validação cruzada com um dataset de treino e outro de validação para saber o número de iterações da retropropagação
  • 50. Redes Neuronais Artificiais ● Deve-se usar com problemas em que: → podem existir muitos pares atributo-valor com valores reais → o output pode conter vários pares atributo-valor ou valores discretos → é necessário uma avaliação rápida do output → os tempos de aprendizagem não são relevantes → não é importante a compreensão da rede gerada
  • 52. Redes Bayesianas ● Baseiam-se no Teorema de Bayes P( P( A B )= B )∗P ( A) A P ( B)
  • 53. Redes Bayesianas ● Baseiam-se no Teorema de Bayes P( ● P( A B )= B )∗P ( A) A P ( B) Estimam a classificação mais provável argmax v ∈V ∑h ∈H P ( j i vj hi )∗P ( hi D )
  • 54. Redes Bayesianas ● Baseiam-se no Teorema de Bayes P( ● P( A B )= B )∗P ( A) A P ( B) Estimam a classificação mais provável argmax v ∈V ∑h ∈H P ( j ● i vj hi )∗P ( hi D ) Pode-se deduzir se Jogar Futebol = SIM, quando Temperatura <= 10, p.ex.
  • 55. Redes Bayesianas ● Baseiam-se no Teorema de Bayes P( ● P( A B )= B )∗P ( A) A P ( B) Estimam a classificação mais provável argmax v ∈V ∑h ∈H P ( j ● ● i vj hi )∗P ( hi D ) Pode-se deduzir se se Jogar Futebol = SIM, quando Temperatura <= 10, p.ex. São muitas vezes usados para validação de outros métodos
  • 57. Algoritmos Genéticos ● Simulam a teoria da evolução biológica, segundo a qual o elemento mais “inteligente” é o que se adapta melhor
  • 58. Algoritmos Genéticos ● ● Simulam a teoria da evolução biológica, segundo a qual o elemento mais “inteligente” é o que se adapta melhor Utiliza conceitos das ciências naturais como cruzamento e mutação
  • 59. Algoritmos Genéticos ● ● ● Simulam a teoria da evolução biológica, segundo a qual o elemento mais “inteligente” é o que se adapta melhor Utiliza conceitos das ciências naturais como cruzamento e mutação Os datasets representam populações com atributos genéticos
  • 60. Algoritmos Genéticos ● ● ● ● ● Simulam a teoria da evolução biológica, segundo a qual o elemento mais “inteligente” é o que se adapta melhor Utiliza conceitos das ciências naturais como cruzamento e mutação Os datasets representam populações com atributos genéticos Mutação → O novo elemento contém modificações aleatória de um atributo Cruzamento → O novo elemento recebe atributos cruzados dos ascendentes
  • 61. Algoritmos Genéticos ● ● ● ● ● ● Simulam a teoria da evolução biológica, segundo a qual o elemento mais “inteligente” é o que se adapta melhor Utiliza conceitos das ciências naturais como cruzamento e mutação Os datasets representam populações com atributos genéticos Mutação → O novo elemento contém modificações aleatória de um atributo Cruzamento → O novo elemento recebe atributos cruzados dos ascendentes Problema: Como saber qual o melhor elemento para continuar a reprodução?
  • 62. Algoritmos Genéticos ● A escolha dos melhores elementos para predição deve ser feita com base num dataset de treino
  • 63. Algoritmos Genéticos ● ● A escolha dos melhores elementos para predição deve ser feita com base num dataset de treino Os elementos que melhor representem a classificação de treino devem ser escolhidos para nova iteração/reprodução
  • 64. Algoritmos Genéticos ● Deve-se usar com problemas em que: → computação pode ser paralelizada → a interação entre os diversos atributos, e a consequente contribuição para o modelo, é complexa
  • 65. Algoritmos Genéticos ● ● ● A escolha dos melhores elementos para predição deve ser feita com base num dataset de treino Os elementos que melhor representem a classificação de treino devem ser escolhidos para nova iteração/reprodução
  • 66. Algoritmos baseados em Instâncias ● Usam medidas para a similaridade, como a distância euclidiana
  • 67. Algoritmos baseados em Instâncias ● Usam medidas para a similaridade, como a distância euclidiana d ( x i , x j )= √ n ∑ (a r ( x i )−a r ( x j ))2 i=1
  • 68. Algoritmos baseados em Instâncias ● Usam medidas para a similaridade, como a distância euclidiana d ( x i , x j )= ● √ n ∑ (a r ( x i )−a r ( x j ))2 i=1 Podem usar pesos para indicar o valor dos atributos
  • 69. Algoritmos baseados em Instâncias ● ● ● Úteis quando o output é complexo demais para ser modelado, uma vez que procuram apenas a resolução “mais próxima” Podem ser lentos porque não só avaliam em relação a todos os exemplos de treino como avaliam todos os atributos Podem ter maus resultados quando apenas alguns atributos são relevantes
  • 70. Text Mining ● ● O texto deve ser uniformizado para que a mesma palavra não seja repetida → exemplo: construção vs construindo Deve ser feito um dicionário de termos relevantes a considerar como atributos → retirar todos os termos irrelevantes
  • 71. Text Mining ● ● ● ● O texto deve ser uniformizado para que a mesma palavra não seja repetida → exemplo: construção vs construindo Deve ser feito um dicionário de termos relevantes a considerar como atributos → retirar todos os termos irrelevantes Transformar o texto em frequências (0 ou 1 ou mais) das palavras do dicionário Aplicar os mecanismos de Data Mining :)
  • 72. Aplicações Empresariais ● ● ● ● Análise do cesto de compras Classificação de música em géneros Previsão de consumos de energia Investigação médica e farmâceutica
  • 73. Bibliografia Relevante ● ● ● ● ● Artificial Intelligence: A Modern Approach (Stuart Russell and Peter Norvig, 1995) Machine Learning (Tom Mitchell, 1997) Data Mining: Practical Machine Learning Tools and Techniques (Ian Witten and Eibe Frank, 2011) The Data Warehouse Lifecycle Toolkit (Ralph Kimball, 2008) Text Mining: Predictive Methods for Analyzing Unstructured Information (Sholom M. Weiss, 2004)