SlideShare uma empresa Scribd logo
16
Mais lidos
22
Mais lidos
23
Mais lidos
TRANSFORMAÇÃO DE DADOS 
Alexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad
TRANSFORMAÇÃO DE 
DADOS 
• Quando tiramos uma foto muitas vezes o resultado não é o esperado 
• As cores podem estar muito escuras ou muito claras 
• O foco pode estar errado 
• Objetos podem estar muito pequenos 
• Nestes casos, utilizamos ferramentas para aplicar filtros e transformar 
a foto em algo mais próximo do que desejamos 
• Muitas vezes o mesmo ocorrer com os dados
TRANSFORMAÇÃO DE 
DADOS 
• Muitas vezes obtemos um conjunto de dados que quando 
visualizado apresenta imperfeições ou objetivos difíceis de ver 
• Além disso, se você pretende analisar estatisticamente seus 
dados provavelmente precisar considerar a forma como os 
dados estão distribuídos 
• Transformações são utilizadas para tratar destes dois 
problemas
TRANSFORMAÇÃO DE 
DADOS 
• Transformações são conjuntos de procedimentos 
de manipulação que podem revelar fatos não 
observáveis em sua forma original. 
• Podemos, por exemplo, ajustar a distribuição dos 
dados para torná-los mais fáceis de exibir e 
adequadas para certos testes estatísticos
ALERTA 
• Jamais realize operações de transformação em 
seus dados originais! 
• Você deve criar uma nova coluna para armazenar 
os novos valores para as variáveis sendo 
transformadas ou criar uma cópia inteira do seu 
conjunto de dados!
DISTRIBUIÇÃO NORMAL 
• Uma das suposições mais frequentemente utilizadas nos testes 
estatísticos é que os dados são normalmente distribuídos 
• Os dados se distribuem de foram simétrica ao redor de um 
valor central 
• “Curva do sino” 
• Alguns dados que são geralmente geralmente distribuídos de 
forma normal são medições humanas como altura, peso, 
expectativa de vida e resultados em testes de QI
DISTRIBUIÇÃO NORMAL
DISTRIBUIÇÃO NORMAL
OBLIQUIDADE 
• Dados oblíquos, diferentemente de dados normais, não se 
distribuem de forma simétrica em relação a um valor central. 
• Estes conjuntos tendem a ter mais observações à direita ou 
à esquerda deste valor 
• Se você observar que seus dados apresentam esta 
característica talvez seja necessário realizar algum tipo de 
transformação
OBLIQUIDADE À ESQUERDA
OBLIQUIDADE À DIREITA
EXEMPLO
DISTRIBUIÇÃO DA POPULAÇÃO 
POR ESTADO BRASILEIRO 
Frequência 
16 
12 
8 
4 
0 
Até 5 6 a 10 11 a 15 16 a 20 21 a 25 26 a 30 31 a 35 36 a 40 41 a 45 
População (milhões de habitantes)
POPULAÇÃO POR ÁREA 
URBANIZADA 
População (milhões de habitantes) 
50 
37.5 
25 
12.5 
0 
0 12.5 25 37.5 50 
Área urbanizada (centenas de Km2)
TRANSFORMAÇÃO 
LOGARÍTMICA
DISTRIBUIÇÃO DA POPULAÇÃO 
POR ESTADO BRASILEIRO 
Frequência 
14 
10.5 
7 
3.5 
0 
Até 6.0 De 6.1 a 6.5 De 6.6 a 7.0 De 7.1 a 7.5 De 7.6 a 8 
Log da população (milhões de habitantes)
POPULAÇÃO POR ÁREA 
URBANIZADA 
Log da População (milhões de habitantes) 
8 
6.25 
4.5 
2.75 
1 
1 1.75 2.5 3.25 4 
Log da Área urbanizada (Km2)
TRANSFORMAÇÃO PELA RAÍZ 
QUADRADA
DISTRIBUIÇÃO DA POPULAÇÃO 
POR ESTADO BRASILEIRO 
Frequência 
12 
9 
6 
3 
0 
Até 1000 1001 a 2000 2001 a 3000 3001 a 4000 4001 a 5000 Acima de 5000 
Raiz quadrada da população (milhões de habitantes)
POPULAÇÃO POR ÁREA 
URBANIZADA 
Raiz Quadrada da População (milhões de 
habitantes) 
7000 
5250.25 
3500.5 
1750.75 
1 
1 20.75 40.5 60.25 80 
Raiz Quadrada da Área urbanizada (Km2)
ESCOLHENDO A 
TRANSFORMAÇÃO CORRETA 
• A medida que você começa a entender melhor os efeitos de 
diferentes transformações começará a se perguntar como 
escolher a transformação adequada 
• Não é simples responder esta pergunta! 
• Apesar de existirem métodos estatísticos para essa escolha, a 
resposta geralmente envolve tentativa e erro 
• Uma estratégia geral é aplicar algumas das transformações mais 
utilizadas, observar os resultados e escolher a mais adequada
TRANSFORMAÇÕES COMUNS 
Método Operação 
Matemática 
Indicações Contra-indicações 
Log ln(x) 
log(x) 
Obliquidade à 
direita 
Valores nulos 
Valores negativos 
Raiz Quadrada x Obliquidade à 
direita Valores negativos 
Quadrado x Obliquidade à 
esquerda Valores negativos 
Raíz Cúbica x 
Obliquidade à 
direita 
Valores Negativos 
Menos efetiva que 
o log na 
normalização 
Recíproco 1/x 
Diminuir valores 
grandes e 
aumentar valores 
pequenos 
Valores nulos 
Valores negativos
ARMADILHAS 
• Uma vez que os métodos de transformação envolvem a 
aplicação de uma função matemática aos dados, você precisa 
tomar cuidado na hora de interpretar e apresentar os 
resultados por conta da mudança na unidade 
• Por exemplo, ao apresentar a transformação logarítmica nos 
exemplos passamos a tratar do log da população e não mais 
da população. 
• Isso precisa ficar bem claro nos gráficos

Mais conteúdo relacionado

PPTX
Estudos Observacionais (aula 7)
PDF
Apostila teoria da amostragem
PPT
Aula1: Introdução á Bioestatística
PPT
bioestatística - 1 parte
PDF
Análise de Sobrevivência de Kaplan-Meier
PDF
Análise exploratória de dados no SPSS
PDF
Variaveis+aleatorias
PPTX
Exame fisico cabeça e pescoço
Estudos Observacionais (aula 7)
Apostila teoria da amostragem
Aula1: Introdução á Bioestatística
bioestatística - 1 parte
Análise de Sobrevivência de Kaplan-Meier
Análise exploratória de dados no SPSS
Variaveis+aleatorias
Exame fisico cabeça e pescoço

Mais procurados (20)

PPT
Bioestatística
PPT
Análises de Elementos Anormais e Sedimentos
PPTX
Tópico 2 Intervalo de Confiança
PDF
Análise de Agrupamentos (Clusters)
PDF
Hemograma
PDF
Hemoglobinopatias
PPT
Aula1 estatistica
PPSX
Apresentação leucemia
PPT
Interpretao de-exames-laboratoriais
PPSX
Aula 1 - Bioestatística
PDF
PPTX
Estudo de Caso
PDF
Teoria da Amostragem - Profa. Rilva - GESME
PPT
Tireóide
PDF
64012393 urinalise-questoes-gab
PDF
Método de extração por solvente
PPTX
Aula 2 estudo transversal
PDF
Questões de provas e simulados probabilidade e estatística junho 2014
PDF
Regressão Linear I
PPT
Análise estruturada de sistemas - Modelo de contexto
Bioestatística
Análises de Elementos Anormais e Sedimentos
Tópico 2 Intervalo de Confiança
Análise de Agrupamentos (Clusters)
Hemograma
Hemoglobinopatias
Aula1 estatistica
Apresentação leucemia
Interpretao de-exames-laboratoriais
Aula 1 - Bioestatística
Estudo de Caso
Teoria da Amostragem - Profa. Rilva - GESME
Tireóide
64012393 urinalise-questoes-gab
Método de extração por solvente
Aula 2 estudo transversal
Questões de provas e simulados probabilidade e estatística junho 2014
Regressão Linear I
Análise estruturada de sistemas - Modelo de contexto
Anúncio

Destaque (16)

PDF
Correlação e Classificação
PPTX
Desvios médios, variância e desvios padrões
PDF
Preparação e Limpeza de Dados
PDF
Analise de agrupamentos uem
PDF
Modelo de Componentes de IHC
PPT
Análises agrupamento e dissimilaridade no Genes
PPT
Aula programa Genes
PDF
Introdução à Teoria dos Grafos
PPT
Grafos e Árvores
DOC
Análise de correlação
PDF
Distribuição normal
PDF
Fundamentos do desenho técnico
PPTX
Coleta de dados
PDF
Teste t student
PPTX
Testes parametricos e nao parametricos
PPT
Cap4 - Parte 7 - Distribuição Normal
Correlação e Classificação
Desvios médios, variância e desvios padrões
Preparação e Limpeza de Dados
Analise de agrupamentos uem
Modelo de Componentes de IHC
Análises agrupamento e dissimilaridade no Genes
Aula programa Genes
Introdução à Teoria dos Grafos
Grafos e Árvores
Análise de correlação
Distribuição normal
Fundamentos do desenho técnico
Coleta de dados
Teste t student
Testes parametricos e nao parametricos
Cap4 - Parte 7 - Distribuição Normal
Anúncio

Semelhante a Transformação de Dados (6)

PDF
Conceitos Básicos de Estatística I
PPT
Cap3 - Apresentação De Dados
PDF
Bioestatística - Aula 1 Estudo sobre os
PDF
Aula 04 - Tópicos em Gestão da Informação Medidas de posição relativa
PDF
Estátística 1
PPT
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
Conceitos Básicos de Estatística I
Cap3 - Apresentação De Dados
Bioestatística - Aula 1 Estudo sobre os
Aula 04 - Tópicos em Gestão da Informação Medidas de posição relativa
Estátística 1
Curso_de_Estatística_Aplicada_Usando_o_R.ppt

Mais de Alexandre Duarte (20)

PPT
Projeto de Experimentos
PPTX
Táticas para Projeto de Experimentos
PDF
Causalidade e Abdução
PDF
Fazer Ciência é Difícil!
PDF
Atividades Científica
PDF
Escolhendo um Projeto de Pesquisa
PDF
Ciência da Computação como Ciência
PDF
Metodologia da Pesquisa Científica: Introdução
PDF
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
PPTX
Panorama de Pesquisas em Análise de Dados na UFPB
PDF
Agrupamento com K-Means
PDF
Sumarização Estatística 2D: Variáveis Nominais
PDF
Sumarização Estatística 2D
PDF
Sumarização Estatística 1D
PDF
Introdução ao Projeto de Experimentos
PDF
Introdução ao Projeto de Surveys
PDF
Introdução à Análise de Dados - Aula 01
PDF
Introdução à Analise de Dados - aula 3 - Agregação de Dados
PDF
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
PPTX
Análise de Redes Sociais: Introdução aos Grafos Aleatórios
Projeto de Experimentos
Táticas para Projeto de Experimentos
Causalidade e Abdução
Fazer Ciência é Difícil!
Atividades Científica
Escolhendo um Projeto de Pesquisa
Ciência da Computação como Ciência
Metodologia da Pesquisa Científica: Introdução
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Panorama de Pesquisas em Análise de Dados na UFPB
Agrupamento com K-Means
Sumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D
Sumarização Estatística 1D
Introdução ao Projeto de Experimentos
Introdução ao Projeto de Surveys
Introdução à Análise de Dados - Aula 01
Introdução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
Análise de Redes Sociais: Introdução aos Grafos Aleatórios

Último (20)

PPT
Elementos constituintes do esquema argumentativo (tese, argumento, tema, pont...
PPTX
AULA METodologia MODIFIC PART 1 MSC.pptx
PPT
YY2015MM3DD6HH12MM42SS3-Organiza__o do Estado ILP.ppt
PDF
Fiqh da adoração (islamismo)
PDF
morfologia5.pdfllllllllllllllllllllllllllll
PDF
Reino Monera - Biologiaensinomediofun.pdf
PDF
[Slides] A Literatura no ENEM 2017 (1).pdf
PDF
cadernodoprofessor20142017vol2baixalceducfisicaef6s7a-170409213016.pdf manual...
PDF
EXPRESSÕES IDIOMÁTICAS - LÍNGUA PORTUGUESA
PPTX
1. A Cultura do Palco - muitos palcos, um espetáculo.pptx
PPTX
INTRODUÇÃO AO ESTUDO DA ANATOMIA HUMANA [Salvo automaticamente].pptx
PDF
HORÁRIO GERAL SIGAA 2025_PRÉVIA_SIGAA-1.pdf
PDF
Atividades sobre o livro Letras de Carvão
PPTX
AULA 01 - INTRODUÇÃO AO ATENDIMENTO HUMANIZADO.pptx
PDF
edital-de-chamamento-publico-no-3-2025.pdf
PPTX
125511 - Aula 1 - América portuguesa antes da conquista patrimônio e preserva...
PPT
Aula de Sociologia 22022022154507AULA 2.ppt
PPTX
Primeiros Socorros. Aula 1 VEROUVIRSENTIR.pptx
PPTX
Fronteiras e soberania..........................pptx
PPTX
5. A cultura do mundo virtual - globalidade.pptx
Elementos constituintes do esquema argumentativo (tese, argumento, tema, pont...
AULA METodologia MODIFIC PART 1 MSC.pptx
YY2015MM3DD6HH12MM42SS3-Organiza__o do Estado ILP.ppt
Fiqh da adoração (islamismo)
morfologia5.pdfllllllllllllllllllllllllllll
Reino Monera - Biologiaensinomediofun.pdf
[Slides] A Literatura no ENEM 2017 (1).pdf
cadernodoprofessor20142017vol2baixalceducfisicaef6s7a-170409213016.pdf manual...
EXPRESSÕES IDIOMÁTICAS - LÍNGUA PORTUGUESA
1. A Cultura do Palco - muitos palcos, um espetáculo.pptx
INTRODUÇÃO AO ESTUDO DA ANATOMIA HUMANA [Salvo automaticamente].pptx
HORÁRIO GERAL SIGAA 2025_PRÉVIA_SIGAA-1.pdf
Atividades sobre o livro Letras de Carvão
AULA 01 - INTRODUÇÃO AO ATENDIMENTO HUMANIZADO.pptx
edital-de-chamamento-publico-no-3-2025.pdf
125511 - Aula 1 - América portuguesa antes da conquista patrimônio e preserva...
Aula de Sociologia 22022022154507AULA 2.ppt
Primeiros Socorros. Aula 1 VEROUVIRSENTIR.pptx
Fronteiras e soberania..........................pptx
5. A cultura do mundo virtual - globalidade.pptx

Transformação de Dados

  • 1. TRANSFORMAÇÃO DE DADOS Alexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad
  • 2. TRANSFORMAÇÃO DE DADOS • Quando tiramos uma foto muitas vezes o resultado não é o esperado • As cores podem estar muito escuras ou muito claras • O foco pode estar errado • Objetos podem estar muito pequenos • Nestes casos, utilizamos ferramentas para aplicar filtros e transformar a foto em algo mais próximo do que desejamos • Muitas vezes o mesmo ocorrer com os dados
  • 3. TRANSFORMAÇÃO DE DADOS • Muitas vezes obtemos um conjunto de dados que quando visualizado apresenta imperfeições ou objetivos difíceis de ver • Além disso, se você pretende analisar estatisticamente seus dados provavelmente precisar considerar a forma como os dados estão distribuídos • Transformações são utilizadas para tratar destes dois problemas
  • 4. TRANSFORMAÇÃO DE DADOS • Transformações são conjuntos de procedimentos de manipulação que podem revelar fatos não observáveis em sua forma original. • Podemos, por exemplo, ajustar a distribuição dos dados para torná-los mais fáceis de exibir e adequadas para certos testes estatísticos
  • 5. ALERTA • Jamais realize operações de transformação em seus dados originais! • Você deve criar uma nova coluna para armazenar os novos valores para as variáveis sendo transformadas ou criar uma cópia inteira do seu conjunto de dados!
  • 6. DISTRIBUIÇÃO NORMAL • Uma das suposições mais frequentemente utilizadas nos testes estatísticos é que os dados são normalmente distribuídos • Os dados se distribuem de foram simétrica ao redor de um valor central • “Curva do sino” • Alguns dados que são geralmente geralmente distribuídos de forma normal são medições humanas como altura, peso, expectativa de vida e resultados em testes de QI
  • 9. OBLIQUIDADE • Dados oblíquos, diferentemente de dados normais, não se distribuem de forma simétrica em relação a um valor central. • Estes conjuntos tendem a ter mais observações à direita ou à esquerda deste valor • Se você observar que seus dados apresentam esta característica talvez seja necessário realizar algum tipo de transformação
  • 13. DISTRIBUIÇÃO DA POPULAÇÃO POR ESTADO BRASILEIRO Frequência 16 12 8 4 0 Até 5 6 a 10 11 a 15 16 a 20 21 a 25 26 a 30 31 a 35 36 a 40 41 a 45 População (milhões de habitantes)
  • 14. POPULAÇÃO POR ÁREA URBANIZADA População (milhões de habitantes) 50 37.5 25 12.5 0 0 12.5 25 37.5 50 Área urbanizada (centenas de Km2)
  • 16. DISTRIBUIÇÃO DA POPULAÇÃO POR ESTADO BRASILEIRO Frequência 14 10.5 7 3.5 0 Até 6.0 De 6.1 a 6.5 De 6.6 a 7.0 De 7.1 a 7.5 De 7.6 a 8 Log da população (milhões de habitantes)
  • 17. POPULAÇÃO POR ÁREA URBANIZADA Log da População (milhões de habitantes) 8 6.25 4.5 2.75 1 1 1.75 2.5 3.25 4 Log da Área urbanizada (Km2)
  • 19. DISTRIBUIÇÃO DA POPULAÇÃO POR ESTADO BRASILEIRO Frequência 12 9 6 3 0 Até 1000 1001 a 2000 2001 a 3000 3001 a 4000 4001 a 5000 Acima de 5000 Raiz quadrada da população (milhões de habitantes)
  • 20. POPULAÇÃO POR ÁREA URBANIZADA Raiz Quadrada da População (milhões de habitantes) 7000 5250.25 3500.5 1750.75 1 1 20.75 40.5 60.25 80 Raiz Quadrada da Área urbanizada (Km2)
  • 21. ESCOLHENDO A TRANSFORMAÇÃO CORRETA • A medida que você começa a entender melhor os efeitos de diferentes transformações começará a se perguntar como escolher a transformação adequada • Não é simples responder esta pergunta! • Apesar de existirem métodos estatísticos para essa escolha, a resposta geralmente envolve tentativa e erro • Uma estratégia geral é aplicar algumas das transformações mais utilizadas, observar os resultados e escolher a mais adequada
  • 22. TRANSFORMAÇÕES COMUNS Método Operação Matemática Indicações Contra-indicações Log ln(x) log(x) Obliquidade à direita Valores nulos Valores negativos Raiz Quadrada x Obliquidade à direita Valores negativos Quadrado x Obliquidade à esquerda Valores negativos Raíz Cúbica x Obliquidade à direita Valores Negativos Menos efetiva que o log na normalização Recíproco 1/x Diminuir valores grandes e aumentar valores pequenos Valores nulos Valores negativos
  • 23. ARMADILHAS • Uma vez que os métodos de transformação envolvem a aplicação de uma função matemática aos dados, você precisa tomar cuidado na hora de interpretar e apresentar os resultados por conta da mudança na unidade • Por exemplo, ao apresentar a transformação logarítmica nos exemplos passamos a tratar do log da população e não mais da população. • Isso precisa ficar bem claro nos gráficos