SlideShare uma empresa Scribd logo
Contexto de Big Data, Ciência de
Dados e KDD
Fabrício J. Barth!
Disciplina de Modelagem Descritiva e Preditiva!
Pós-Graduação em Big Data e Analytics
quantidadedeinformações
10
100
1970 1980 1990 2000 2010 2020
Sempre houve:!
!
Produção de informação!
Geração de dados!
Geração de conteúdo
Sempre desejou-se: !
! sintetizar a informação!
! manter, disseminar, organizar, criar
conhecimento e tomar decisões mais!
assertivas com base nos dados.
Métodos, processos e ferramentas
✤ Gestão de Conhecimento, Sistemas Especialistas e Mineração de
Dados!
✤ Sistemas Especialistas e Projetos de Mineração de Dados (Processo de
Descoberta de Conhecimento) só funcionavam em cenários muito
bem delimitados e utilizando dados muito bem tratados e
estruturados.!
✤ Também, manipular dados diferentes dos dados não estruturados não
parecia ser algo relevante.
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
quantidadedeinformações
100
10000
1970 1980 1990 2000 2010 2020
O cenário mudou!
Gandour, F. O que muda com a computação cognitiva? Revista de ESPM, Set/Out de 2014.
✤ O cenário mudou!!
✤ Mas o desejo ainda continua:!
✤ sintetizar!
✤ manter!
✤ disseminar!
✤ organizar!
✤ encontrar!
✤ tomar decisões baseadas em ….
Mas o desafio mudou
✤ Ficou mais complexo devido as características dos dados, da forma
como eles são gerados e das novas necessidades dos usuários.!
✤ O volume de dados gerados é muito alto.!
✤ A velocidade com que eles são gerados e perdem a validade é
muito rápida.!
✤ A variedade das fontes é bem diversificada (estruturada + não
estruturada)!
✤ Aparentemente, os usuários não querem mais saber do passado. Estão
muito interessados no presente e futuro.
Alguns exemplos
Entrada: 13 milhões de registros históricos sobre crimes em LA.!
Saída: determinar quando um crime irá acontecer.
Entrada: rede de sensores que cobre todo o mundo!
Saída: determinar quando um terremoto irá
acontecer
Entrada: milhões de itens e milhões de usuários!
Saída: recomendar itens com acurácia alta para os usuários (clientes)
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Criar rôbos que !
compram e vendem ações!
O que estes projetos têm em
comun?
✤ Manipulam grandes volumes de
informação!
✤ Outros exemplos de grandes volumes de informação:!
✤ A380: Heathrow - JFK: 640 TBs de log!
✤ Twitter: 12+ TBs of tweet every day!
✤ Facebook: 25+ TBs of log data every day
O que estes projetos têm em
comun?
✤ A origem dos dados é muito variada.
O que estes
projetos têm
em comun?
Queremos modelos preditivos
Outros exemplos
✤ Identificar comportamento anômalo (i.e., fraudes, falhas)!
✤ Sumarizar tendências de publicações de artigos e patentes sobre um
determinado tema.!
✤ Sumarizar e filtrar notícias relevantes.!
✤ Sumarizar a opinião expressa na Web sobre a sua empresa.!
✤ Identificar padrões de navegação em sites.!
✤ Identificar conteúdo impróprio em sites.
Ciência de Dados (Data Science)
Cientísta de Dados (Data Scientist)
✤ Data Scientist: The sexiest job of the 21st Century. Harvard Business
Review.!
✤ Data Scientist applies advanced analytical tools and algorithms to
generate predictive insights and new product innovations that are a
direct result of the data.
Processo de Descoberta de
Conhecimento
Processo de Descoberta de Conhecimento
(KDD - Knowledge Discovery in Databases)
Qual é a pergunta?
É possível classificar espécies do
gênero iris levando em consideração
apenas o tamanho das plantas?
Processo de Descoberta de Conhecimento
(KDD - Knowledge Discovery in Databases)
Qual é a pergunta?
Aquisição e pré-processamento dos dados
Processo de Descoberta de Conhecimento
(KDD - Knowledge Discovery in Databases)
Qual é a pergunta?
Aquisição e pré-processamento dos dados
Análise exploratória
Processo de Descoberta de Conhecimento
(KDD - Knowledge Discovery in Databases)
Qual é a pergunta?
Aquisição e pré-processamento dos dados
Análise exploratória
Modelagem
Processo de Descoberta de Conhecimento
(KDD - Knowledge Discovery in Databases)
Qual é a pergunta?
Aquisição e pré-processamento dos dados
Análise exploratória
Modelagem
Avaliação do modelo
Acurácia do modelo?!
Quantidade falsos positivos?!
Falsos negativos?
Processo de Descoberta de Conhecimento
(KDD - Knowledge Discovery in Databases)
Qual é a pergunta?
Aquisição e pré-processamento dos dados
Análise exploratória
Modelagem
Avaliação do modelo
Entrega
Relatórios Estáticos
Aplicativos
Relatórios Dinâmicos
Processo de Descoberta de Conhecimento
(KDD - Knowledge Discovery in Databases)
Qual é a pergunta?
Aquisição e pré-
processamento dos
dados
Análise exploratória
Modelagem
Avaliação do modelo
Entrega
Processo de Descoberta de Conhecimento
(KDD - Knowledge Discovery in Databases)
Qual é a pergunta?
Aquisição e pré-
processamento dos
dados
Análise exploratória
Modelagem
Avaliação do modelo
Entrega
Processo de Descoberta de Conhecimento
(KDD - Knowledge Discovery in Databases)
Qual é a pergunta?
Aquisição e pré-
processamento dos
dados
Análise exploratória
Modelagem
Avaliação do modelo
Entrega
Este processo pode ser suportado por diversas ferramentas, entre elas: R,
SPSS, RapidMiner, Tableau, Weka, Matlab, Octave, Python, Julia,…
Leitura sugerida
✤ Capítulos 1, 2 e 3 do livro EMC Education Services, editor. Data
Science and Big Data Analytics: Discovering, Analysing, Visualizing
and Presenting Data. John Wiley & Sons, 2015.!
✤ Demais materiais da disciplina estão em: !
✤ http://fbarth.net.br/cursoBigData
Próximo assunto: compreender
melhor a etapa de modelagem
Qual é a pergunta?
Aquisição e pré-
processamento dos
dados
Análise exploratória
Modelagem
Avaliação do modelo
Entrega

Mais conteúdo relacionado

PDF
Governança de Dados e Big Data_v02
PDF
Governança de Dados e Big Data
PPTX
Big Data e Análise de Dados Massivos
PPT
Big Data
PDF
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
PDF
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
PDF
O que é BIG DATA e como pode influenciar nossas vidas
PDF
Big Data, o que é isso?
Governança de Dados e Big Data_v02
Governança de Dados e Big Data
Big Data e Análise de Dados Massivos
Big Data
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
O que é BIG DATA e como pode influenciar nossas vidas
Big Data, o que é isso?

Mais procurados (20)

PDF
Big data: Conceitos e Desafios
PPT
Big Data - uma visão executiva
PDF
Relatos de experiência com a gestão de dados abertos e de pesquisa
PPTX
Big data
ODP
Palestra Introdução a Big Data
PPTX
Big Data e Seus Impactos
PPTX
Big Data e NoSQL
PPTX
OS CINCO Vs DO BIG DATA
PPTX
Big data apresentacao
PDF
Data Science - A arte de estudar e analisar dados
PDF
Data analysis open data
PDF
Big Data Analytics - Data Science - Aplicação e Tecnologia
PDF
Big Data e Data Science - Tecnologia e Mercado
PDF
Boas práticas para publicação de dados na web
PPT
Big data Instituto Big Data Brasil Crie
PDF
Apresentacao ForumRNP 2015 - Daniela Brauner
PDF
Introdução a ciência de dados com aplicações em dados educacionais
PPT
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
PDF
Bigdata - Leandro Wanderley
PPTX
Big Data, JVM e Redes Sociais
Big data: Conceitos e Desafios
Big Data - uma visão executiva
Relatos de experiência com a gestão de dados abertos e de pesquisa
Big data
Palestra Introdução a Big Data
Big Data e Seus Impactos
Big Data e NoSQL
OS CINCO Vs DO BIG DATA
Big data apresentacao
Data Science - A arte de estudar e analisar dados
Data analysis open data
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data e Data Science - Tecnologia e Mercado
Boas práticas para publicação de dados na web
Big data Instituto Big Data Brasil Crie
Apresentacao ForumRNP 2015 - Daniela Brauner
Introdução a ciência de dados com aplicações em dados educacionais
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
Bigdata - Leandro Wanderley
Big Data, JVM e Redes Sociais
Anúncio

Destaque (20)

PDF
Análise de Problemas Big Data
PPT
Transparência em Belém: a hora é agora
PPT
Custos e controle social bh. 22.04.12
PPTX
Painel 00 01 - wesley - Análise de dados como ferramenta estratégica para o...
PPTX
PDF
Big Data e Data Science: admirável mundo novo - IV SIC IFNMG
PDF
La visión del ministerio de planificación- TCU
PPT
Data warehouse & Data mining
PDF
Apresentação data mining
ODP
MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...
PDF
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
PPTX
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
PPTX
De dev para data scientist 3 coisas que aprendi
PDF
Control social 2016 - la visión de la cámara de diputados.
PDF
Design thinking 2016 - Herramientas
PPT
Usabilidade de interface para busca e recuperação de informação na web
PDF
Palestra MVP living lab ms
PDF
Primeiros passos com o Cassandra
PDF
Mantendo seu Tempo a salvo com Python e Git
PDF
Mineração de dados na prática com RapidMiner e Weka
Análise de Problemas Big Data
Transparência em Belém: a hora é agora
Custos e controle social bh. 22.04.12
Painel 00 01 - wesley - Análise de dados como ferramenta estratégica para o...
Big Data e Data Science: admirável mundo novo - IV SIC IFNMG
La visión del ministerio de planificación- TCU
Data warehouse & Data mining
Apresentação data mining
MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
De dev para data scientist 3 coisas que aprendi
Control social 2016 - la visión de la cámara de diputados.
Design thinking 2016 - Herramientas
Usabilidade de interface para busca e recuperação de informação na web
Palestra MVP living lab ms
Primeiros passos com o Cassandra
Mantendo seu Tempo a salvo com Python e Git
Mineração de dados na prática com RapidMiner e Weka
Anúncio

Semelhante a Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data (20)

PPSX
Big data e data science
PDF
aula1 - Bigdata.pdf
PDF
Treinamento hadoop - dia1
PPTX
Palestra Ciência de Dados
PDF
Diálogos entre cientistas de dados e cientistas sociais
PPTX
Data Mining
PPTX
Slide cebrap
PDF
Ciência de Dados: a revolução na tomada de decisões
PDF
Demonstrações de análises de dados para social media e jornalismo
PPT
Data mining
PDF
Big data e Inteligência Artificial
PPT
Big Data e suas Vertentes
PDF
Palestra garimpando com pentaho data mining latinoware
PDF
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015
PDF
Aula - BIG DATA (conceitos, recursos, tendências e oportunidades.)
PDF
introdução a mineração de dados (noções )
PDF
Aula de apresentação de data mining e big data.
PPTX
KDD e Data Mining
PDF
PDF
Futurecom - Big data
Big data e data science
aula1 - Bigdata.pdf
Treinamento hadoop - dia1
Palestra Ciência de Dados
Diálogos entre cientistas de dados e cientistas sociais
Data Mining
Slide cebrap
Ciência de Dados: a revolução na tomada de decisões
Demonstrações de análises de dados para social media e jornalismo
Data mining
Big data e Inteligência Artificial
Big Data e suas Vertentes
Palestra garimpando com pentaho data mining latinoware
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015
Aula - BIG DATA (conceitos, recursos, tendências e oportunidades.)
introdução a mineração de dados (noções )
Aula de apresentação de data mining e big data.
KDD e Data Mining
Futurecom - Big data

Mais de Fabrício Barth (20)

PDF
Mineração de padrões frequentes - Pós Graduação em Big Data
PDF
Redução de dimensionalidade - Pós Graduação em Big Data
PDF
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
PDF
Pré-processamento [no R] e Análise Exploratória - Curso de Big Data
PDF
Algoritmos de Agrupamento - Aprendizado não supervisionado
PDF
Human Activity Recognition
PDF
Oficina: construção de modelos descritivos e preditivos utilizando R
PPT
Iniciativas em Big Data no VAGAS.com
PDF
Web Data Mining com R
PDF
Web Data Mining com R: identificação de spam utilizando Random Forest
PDF
Web Data Mining com R: design de projetos para criação de modelos preditivos
PDF
Web Data Mining em R: agrupamento de mensagens do twitter
PDF
Web Data Mining com R: criação de regras de associação a partir da navegação ...
PDF
Web Data Mining com r: aprendizagem de máquina
PDF
Web Data Mining com R: pré-processamento de dados [no R]
PDF
Data Science, Machine Learning and Big Data
PDF
Uma introdução à mineração de informações na era do Big Data
PDF
Projeto Simple Maps
PDF
Uma introdução à mineração de informações
PDF
Data, Text and Web Mining
Mineração de padrões frequentes - Pós Graduação em Big Data
Redução de dimensionalidade - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Pré-processamento [no R] e Análise Exploratória - Curso de Big Data
Algoritmos de Agrupamento - Aprendizado não supervisionado
Human Activity Recognition
Oficina: construção de modelos descritivos e preditivos utilizando R
Iniciativas em Big Data no VAGAS.com
Web Data Mining com R
Web Data Mining com R: identificação de spam utilizando Random Forest
Web Data Mining com R: design de projetos para criação de modelos preditivos
Web Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining com R: criação de regras de associação a partir da navegação ...
Web Data Mining com r: aprendizagem de máquina
Web Data Mining com R: pré-processamento de dados [no R]
Data Science, Machine Learning and Big Data
Uma introdução à mineração de informações na era do Big Data
Projeto Simple Maps
Uma introdução à mineração de informações
Data, Text and Web Mining

Último (9)

PPT
AULA COACHING INICIAL *******************
PDF
Apresentação CME-Caldas da Rainha_250217_102132.pdf
PDF
Medidor de PH de bancada PH140 para uso em laboratório
PDF
Bases de dados - basicos dos basicos. como identificar chaves
PPTX
Sermao a mensagem da Cruz.pptx gdfvdcdfdfdsfcdsfxdfdfdfvdgf
DOC
COMO CRIAR DASHBOARD ATRAVES DE CODIFICAÇÃO PYTHON
PPTX
Perguntas e respostas.pptx Informática aplicada
PDF
Plano de gestão - template.pptx.pdf.pdf
PDF
48585b89-ee4d-4f8d-b2c0-7db19cc44e44.pdf
AULA COACHING INICIAL *******************
Apresentação CME-Caldas da Rainha_250217_102132.pdf
Medidor de PH de bancada PH140 para uso em laboratório
Bases de dados - basicos dos basicos. como identificar chaves
Sermao a mensagem da Cruz.pptx gdfvdcdfdfdsfcdsfxdfdfdfvdgf
COMO CRIAR DASHBOARD ATRAVES DE CODIFICAÇÃO PYTHON
Perguntas e respostas.pptx Informática aplicada
Plano de gestão - template.pptx.pdf.pdf
48585b89-ee4d-4f8d-b2c0-7db19cc44e44.pdf

Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data

  • 1. Contexto de Big Data, Ciência de Dados e KDD Fabrício J. Barth! Disciplina de Modelagem Descritiva e Preditiva! Pós-Graduação em Big Data e Analytics
  • 2. quantidadedeinformações 10 100 1970 1980 1990 2000 2010 2020 Sempre houve:! ! Produção de informação! Geração de dados! Geração de conteúdo
  • 3. Sempre desejou-se: ! ! sintetizar a informação! ! manter, disseminar, organizar, criar conhecimento e tomar decisões mais! assertivas com base nos dados.
  • 4. Métodos, processos e ferramentas ✤ Gestão de Conhecimento, Sistemas Especialistas e Mineração de Dados! ✤ Sistemas Especialistas e Projetos de Mineração de Dados (Processo de Descoberta de Conhecimento) só funcionavam em cenários muito bem delimitados e utilizando dados muito bem tratados e estruturados.! ✤ Também, manipular dados diferentes dos dados não estruturados não parecia ser algo relevante.
  • 6. quantidadedeinformações 100 10000 1970 1980 1990 2000 2010 2020 O cenário mudou!
  • 7. Gandour, F. O que muda com a computação cognitiva? Revista de ESPM, Set/Out de 2014.
  • 8. ✤ O cenário mudou!! ✤ Mas o desejo ainda continua:! ✤ sintetizar! ✤ manter! ✤ disseminar! ✤ organizar! ✤ encontrar! ✤ tomar decisões baseadas em ….
  • 9. Mas o desafio mudou ✤ Ficou mais complexo devido as características dos dados, da forma como eles são gerados e das novas necessidades dos usuários.! ✤ O volume de dados gerados é muito alto.! ✤ A velocidade com que eles são gerados e perdem a validade é muito rápida.! ✤ A variedade das fontes é bem diversificada (estruturada + não estruturada)! ✤ Aparentemente, os usuários não querem mais saber do passado. Estão muito interessados no presente e futuro.
  • 11. Entrada: 13 milhões de registros históricos sobre crimes em LA.! Saída: determinar quando um crime irá acontecer.
  • 12. Entrada: rede de sensores que cobre todo o mundo! Saída: determinar quando um terremoto irá acontecer
  • 13. Entrada: milhões de itens e milhões de usuários! Saída: recomendar itens com acurácia alta para os usuários (clientes)
  • 17. Criar rôbos que ! compram e vendem ações!
  • 18. O que estes projetos têm em comun? ✤ Manipulam grandes volumes de informação! ✤ Outros exemplos de grandes volumes de informação:! ✤ A380: Heathrow - JFK: 640 TBs de log! ✤ Twitter: 12+ TBs of tweet every day! ✤ Facebook: 25+ TBs of log data every day
  • 19. O que estes projetos têm em comun? ✤ A origem dos dados é muito variada.
  • 20. O que estes projetos têm em comun?
  • 22. Outros exemplos ✤ Identificar comportamento anômalo (i.e., fraudes, falhas)! ✤ Sumarizar tendências de publicações de artigos e patentes sobre um determinado tema.! ✤ Sumarizar e filtrar notícias relevantes.! ✤ Sumarizar a opinião expressa na Web sobre a sua empresa.! ✤ Identificar padrões de navegação em sites.! ✤ Identificar conteúdo impróprio em sites.
  • 23. Ciência de Dados (Data Science)
  • 24. Cientísta de Dados (Data Scientist) ✤ Data Scientist: The sexiest job of the 21st Century. Harvard Business Review.! ✤ Data Scientist applies advanced analytical tools and algorithms to generate predictive insights and new product innovations that are a direct result of the data.
  • 25. Processo de Descoberta de Conhecimento
  • 26. Processo de Descoberta de Conhecimento (KDD - Knowledge Discovery in Databases) Qual é a pergunta? É possível classificar espécies do gênero iris levando em consideração apenas o tamanho das plantas?
  • 27. Processo de Descoberta de Conhecimento (KDD - Knowledge Discovery in Databases) Qual é a pergunta? Aquisição e pré-processamento dos dados
  • 28. Processo de Descoberta de Conhecimento (KDD - Knowledge Discovery in Databases) Qual é a pergunta? Aquisição e pré-processamento dos dados Análise exploratória
  • 29. Processo de Descoberta de Conhecimento (KDD - Knowledge Discovery in Databases) Qual é a pergunta? Aquisição e pré-processamento dos dados Análise exploratória Modelagem
  • 30. Processo de Descoberta de Conhecimento (KDD - Knowledge Discovery in Databases) Qual é a pergunta? Aquisição e pré-processamento dos dados Análise exploratória Modelagem Avaliação do modelo Acurácia do modelo?! Quantidade falsos positivos?! Falsos negativos?
  • 31. Processo de Descoberta de Conhecimento (KDD - Knowledge Discovery in Databases) Qual é a pergunta? Aquisição e pré-processamento dos dados Análise exploratória Modelagem Avaliação do modelo Entrega Relatórios Estáticos Aplicativos Relatórios Dinâmicos
  • 32. Processo de Descoberta de Conhecimento (KDD - Knowledge Discovery in Databases) Qual é a pergunta? Aquisição e pré- processamento dos dados Análise exploratória Modelagem Avaliação do modelo Entrega
  • 33. Processo de Descoberta de Conhecimento (KDD - Knowledge Discovery in Databases) Qual é a pergunta? Aquisição e pré- processamento dos dados Análise exploratória Modelagem Avaliação do modelo Entrega
  • 34. Processo de Descoberta de Conhecimento (KDD - Knowledge Discovery in Databases) Qual é a pergunta? Aquisição e pré- processamento dos dados Análise exploratória Modelagem Avaliação do modelo Entrega Este processo pode ser suportado por diversas ferramentas, entre elas: R, SPSS, RapidMiner, Tableau, Weka, Matlab, Octave, Python, Julia,…
  • 35. Leitura sugerida ✤ Capítulos 1, 2 e 3 do livro EMC Education Services, editor. Data Science and Big Data Analytics: Discovering, Analysing, Visualizing and Presenting Data. John Wiley & Sons, 2015.! ✤ Demais materiais da disciplina estão em: ! ✤ http://fbarth.net.br/cursoBigData
  • 36. Próximo assunto: compreender melhor a etapa de modelagem Qual é a pergunta? Aquisição e pré- processamento dos dados Análise exploratória Modelagem Avaliação do modelo Entrega