§ Datos y mediciones
§ Tipos de datos
§ Calidad de los datos
§ Preprocesamiento
§ Ejercicios
Temario
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 2
§ Ejemplo de datos: ¿entidades?, ¿atributos?
Datos (data)
"age","workclass","fnlwgt","education","education.num","marital.status","occupation","relationship","rac
e","se·","capital.gain","capital.loss","hours.per.week","native.country","income"
90,"?",77053,"HS-grad",9,"Widowed","?","Not-in-family","White","Female",0,4356,40,"United-
States","<=50K"
82,"Private",132870,"HS-grad",9,"Widowed","E·ec-managerial","Not-in-
family","White","Female",0,4356,18,"United-States","<=50K"
66,"?",186061,"Some-college",10,"Widowed","?","Unmarried","Black","Female",0,4356,40,"United-
States","<=50K"
54,"Private",140359,"7th-8th",4,"Divorced","Machine-op-
inspct","Unmarried","White","Female",0,3900,40,"United-States","<=50K"
41,"Private",264663,"Some-college",10,"Separated","Prof-specialty","Own-
child","White","Female",0,3900,40,"United-States","<=50K"
adult
age workclass fnlwgt education education.num marital.status occupation relationship race sex capital.gain capital.loss hours.per.week native.country income
90 ? 77053 HS-grad 9 Widowed ? Not-in-family White Female 0 4356 40 United-States <=50K
82 Private 132870 HS-grad 9 Widowed Exec-managerial Not-in-family White Female 0 4356 18 United-States <=50K
66 ? 186061 Some-college 10 Widowed ? Unmarried Black Female 0 4356 40 United-States <=50K
54 Private 140359 7th-8th 4 Divorced Machine-op-inspct Unmarried White Female 0 3900 40 United-States <=50K
41 Private 264663 Some-college 10 Separated Prof-specialty Own-child White Female 0 3900 40 United-States <=50K
34 Private 216864 HS-grad 9 Divorced Other-service Unmarried White Female 0 3770 45 United-States <=50K
38 Private 150601 10th 6 Separated Adm-clerical Unmarried White Male 0 3770 40 United-States <=50K
74 State-gov 88638 Doctorate 16 Never-married Prof-specialty Other-relative White Female 0 3683 20 United-States >50K
adult.csv
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 3
Atributo: propiedad o
característica de una entidad (ej.
Color de ojos, temperatura)
§ ¿Qué es son los datos?: Es una colección de entidades y sus atributos
Datos (data)
Entidad:
colección de
atributos
(conocidos
como: registro,
punto, muestra,
objeto, o
instancia)
Atributo
Entidad
Atributos
Entidad
Tid Refund Marital
Status
Taxable
Income Cheat
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
10
Los valores de los
atributos son
números o signos
asignados a el
atributo
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 4
Tipos de
medidas
Nacionalidad, ocupación,
género, región, categoría
Likert score, tamaño
(pequeño, mediano,
largo), notas (A, ,B, C, D)
IQ, temperatura en
Fahrenheit/celcius
Tiempo, temperatura en
Kelvin, dinero, presión
Menos informativo Datos están limitados por la precisión del
dispositivo
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 5
Tipos de
medidas
Valores
SIN ORDEN
Sin gran
distancia entre
puntos
Con gran
distancia entre
puntos
Definición del
cero absoluto
Valores ORDENADOS
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 6
Tipos de
medidas
Ordenado,
diferencias sin
sentido entre
unidades
Solo nombres,
etiquetas, sin
orden
Igual intervalo
entre unidades
Igual intervalo
entre
unidades. Cero
Absoluto
Categóticos Cuantitativo
Operaciones
aritméticas
Estadística
descriptiva
Análisis
estadísticos
Desigualdad
Orden / ranking
Suma /resta
Multiplicación / División
Moda
Mediana
Promedio
Desviación Estándar
CrossTabs
Correlación
Regresión
Análisis de varianza
Nacionalidad,
ocupación, genero
Likert score,
tamaño (pequeño,
mediano, largo)
IQ, temperatura
en Fahrenheit
Tiempo,
temperatura en
Kelvin
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 7
Convención de
nombres
Atributo Feature
edad edad>25
24 28 32
Valores/
values F T T
Features puede ser interpretado
como un atributo. También como
una combinación de varios
atributos, o luego de un proceso
de abstracción con agregación de
funciones
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 8
§ Datos y mediciones
§ Tipos de datos
§ Calidad de los datos
§ Preprocesamiento
Temario
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 9
Tipos de
datos
Tabular
data
Conjunto de registros, donde cada uno contiene un número fijo
de atributos
Document
data
Transaction
data
Graph
data
adult
age workclass fnlwgt education educati
on.num
marital.status occupation relationship race sex
90 ? 77053 HS-grad 9 Widowed ? Not-in-family White Female
82 Private 132870 HS-grad 9 Widowed Exec-managerial Not-in-family White Female
66 ? 186061 Some-college 10 Widowed ? Unmarried Black Female
54 Private 140359 7th-8th 4 Divorced Machine-op-inspct Unmarried White Female
41 Private 264663 Some-college 10 Separated Prof-specialty Own-child White Female
34 Private 216864 HS-grad 9 Divorced Other-service Unmarried White Female
38 Private 150601 10th 6 Separated Adm-clerical Unmarried White Male
74 State-gov 88638 Doctorate 16 Never-married Prof-specialty Other-relative White Female
68 Federal-gov 422013 HS-grad 9 Divorced Prof-specialty Not-in-family White Female
41 Private 70037 Some-college 10 Never-married Craft-repair Unmarried White Male
45 Private 172274 Doctorate 16 Divorced Prof-specialty Unmarried Black Female
38 Self-emp-not-inc164526 Prof-school 15 Never-married Prof-specialty Not-in-family White Male
52 Private 129177 Bachelors 13 Widowed Other-service Not-in-family White Female
32 Private 136204 Masters 14 Separated Exec-managerial Not-in-family White Male
51 ? 172175 Doctorate 16 Never-married ? Not-in-family White Male
46 Private 45363 Prof-school 15 Divorced Prof-specialty Not-in-family White Male
45 Private 172822 11th 7 Divorced Transport-moving Not-in-family White Male
57 Private 317847 Masters 14 Divorced Exec-managerial Not-in-family White Male
22 Private 119592 Assoc-acdm 12 Never-married Handlers-cleaners Not-in-family Black Male
34 Private 203034 Bachelors 13 Separated Sales Not-in-family White Male
37 Private 188774 Bachelors 13 Never-married Exec-managerial Not-in-family White Male
29 Private 77009 11th 7 Separated Sales Not-in-family White Female
61 Private 29059 HS-grad 9 Divorced Sales Unmarried White Female
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 10
Tipos de
datos
Tabular
data
Cada documento es representado como un vector de elementos,
donde cada atributo registra el numero de veces que el término ocurre
en el documento
Document
data
Transaction
data
Graph
data
Términos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Datos 1 1 1 0 0 2 1 1 3 0 0 0 1 1 1 8 0 0 0 0
Ejemplos 2 5 1 3 5 2 3 5 4 3 1 0 3 5 3 1 4 5 1 3
introducción 2 2 3 1 4 4 3 2 3 5 5 5 0 4 4 1 0 3 1 3
Minería 5 2 2 2 0 3 2 5 1 1 0 2 1 1 3 1 1 2 0 2
Redes 2 2 1 1 2 3 2 4 1 2 4 2 1 2 0 3 4 4 5 2
Paquetes 4 3 1 0 5 3 3 5 4 1 1 2 0 1 0 2 4 3 4 5
Documentos
Significa que la palabra
”redes” aparece dos veces
en el documento #5
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 11
Tipos de
datos
Tabular
data
Cada registro corresponde a una transacción que involucra un conjunto de
elementos. Ejemplo: En una boleta de supermercado, el conjunto de
productos comprados por un cliente conforman una transacción, mientras
los productos individuales comprados corresponden a items
Document
data
Transaction
data
Graph
data
Customer ID Transacción Items comprados
1 0001 {a,d,e}
1 0024 {a,b,c,e}
2 0012 {a,b,d,e}
2 0031 {a,c,d,e}
3 0015 {b,c,e}
3 0022 {b,d,e}
4 0029 {c,d}
4 0040 {a,b,c}
5 0033 {a,d,e}
5 0038 {a,b,e}
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 12
Tipos de
datos
Tabular
data
Los nodos corresponden a entidades y las líneas a las relaciones
entre éstas. Ejemplo. Grafo de una red con links HTML,
moléculas con átomos y enlaces, proteínas y sus interacciones
Document
data
Transaction
data
Graph
data
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 13
§ Datos y mediciones
§ Tipos de datos
§ Calidad de los datos
Temario
Muchas veces los datos registrados
presentan importantes problemas.
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 14
Calidad de los
datos
Ruido
Outliers
Valores
faltantes
Datos
duplicados
El ruido corresponde a un error de medición en los datos.
El error puede ser aleatorio o sistemático
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 15
Calidad de los
datos
Ruido
Outliers
Valores
faltantes
Datos
duplicados
Los outliers son datos con
características que son
considerablemente
diferentes a la mayoría de
otros datos en el data set.
Podrían indicar casos
“interesantes”, podrían
indicar errores en los
datos
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 16
Calidad de los
datos
Ruido
Outliers
Valores
faltantes
Datos
duplicados
Razones para tener valores faltantes:
§ Información que no es obtenida (ej. Las personas
declinan a dar su edad)
§ Los atributos no son aplicables a todos los casos (ej.
El ingreso anual no es aplicable a los niños)
Formas para evitar valores faltantes:
§ Eliminar entidades con datos faltantes
§ Eliminar atributos con datos faltantes
§ Ignorar los datos faltantes durante el análisis
§ Reemplazar con todos los posibles valores
(ponderado por sus probabilidades)
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 17
Calidad de los
datos
Ruido
Outliers
Valores
faltantes
Datos
duplicados
El data set puede incluir entidades que están duplicadas,
o parcialmente duplicados
§ Principal problema con datos de fuentes
heterogéneas
§ Ejempo. Misma persona con múltiples direcciones de
correo.
Limpieza de datos (Data cleaning)
§ Encontrar y tratar con entidades duplicadas
§ Encontrar y corregir errores en las mediciones
§ Tratar con valores faltantes
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 18
§ Datos y mediciones
§ Tipos de datos
§ Calidad de los datos
§ Preprocesamiento
Temario
El preprocesamiento de datos “limpia” los datos
eliminando datos corruptos, redundantes, e
irrelevantes
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 19
Procesamiento de
datos
Aggregation
Discretization
Feature
selection
Reducción de
dimensionali
dad
Reducción de datos Reducir el número de atributos o objetos
Cambio de escala Emplear una escala mayor para reducir el
número de posibles salidas
Estabilizar datos Agregar datos tiene a disminuir la
variabilidad (variability)
Sampling
Combinar dos o más atributos en un único atributo o
objeto
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 20
Procesamiento de
datos
Aggregation
Discretization
Feature
selection
Reducción de
dimensionali
dad
Sampling
Precipitaciones en Australia
Desviación estándar del promedio de
presipitación mensual
Desviación estándar del promedio de
presipitación AnualNúmerodeubicaciones
Númerodeubicaciones
Combinar dos o más atributos en un único atributo o
objeto
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 21
Procesamiento de
datos
Aggregation
Discretization
Feature
selection
Reducción de
dimensio-
nalidad
Sampling
Procesar y obtener el conjunto completo de datos puede ser muy
costoso en tiempo (big data), por ello se utiliza un muestra. La muestra
debe ser representativa,debe tener apro·imadamente las mismas
propiedades que los datos originales
El sampling es la principal técnica empleada en la
selección de datos
http://www.biosciencenotes.com/simple-random-sampling/
Objetivo
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 22
Procesamiento de
datos
Aggregation
Discretization
Feature
selection
Reducción de
dimensio-
nalidad
Sampling
Divide los datos en muchas
divisiones, luego crea
datos aleatorios de cada
grupo
Simple Random
Sampling
Selección da datos con la
misma probabilidad de
seleccionar un item en
particular.
Sampling without
replacement
A medida que cada item es
seleccionado, es removido
de la población
Sampling with
replacement
Los objetos no son
removidos de la población
a medida que son
seleccionados
Stratified sampling
La muestra debe ser representativa,debe tener
apro·imadamente las mismas propiedades que los datos
originales
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 23
Procesamiento de
datos
Aggregation
Discretization
Feature
selection
Reducción de
dimensio-
nalidad
Sampling
Divide los datos en muchas
divisiones, luego crea datos
aleatorios de cada grupo
Stratified sampling
8000 puntos 2000 puntos 500 puntos
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 24
Procesamiento de
datos
Aggregation
Discretization
Feature
selection
Reducción de
dimensio-
nalidad
Sampling
La discretización es el proceso de poner valores en cubos
(buckets) de tal forma que hayan un número limitado de
estados
3 categorías para x e y 5 categorías para x e y
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 25
Procesamiento de
datos
Aggregation
Discretization
Feature
selection
Reducción de
dimensio-
nalidad
Sampling
Es un método para reducir la dimensionalidad de los
datos
Redundant Features
Duplicación de una parte o
toda la información
contenido en una o más
atributos
Precio de compra de un
producto y cantidad de
impuesto pagado
Irrelevant Features
No contiene información
que sea útil para las tareas
de minería de datos
El ID de un estudiante es
irrelevante para la tarea de
predecir su calificación
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 26
Procesamiento de
datos
Aggregation
Discretization
Feature
selection
Reducción de
dimensio-
nalidad
Sampling
Principal
Component Analisis
Singular Value
Descomposition
Otros métodos
(supervisados y no
lineales
§ Evitar el "curse of dimensionality"
§ Reducir la cantidad de tiempo y memoria requerida para los
algoritmos de minería de datos
§ Permitir una visualización más simple de los datos
§ Podría ayudar a eliminar features irrelevantes o reducir el ruido
Principales técnicas
Objetivo
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 27
Procesamiento de
datos
Aggregation
Discretization
Feature
selection
Reducción de
dimensio-
nalidad
Sampling
a. Cuando las dimensiones se incrementan, los datos comienzan a
separarse en el espacio que ocupan.
b. Las definiciones de densidad y distancia entre los puntos que son
críticos para el clustering y la detección de outliers se tornan
menos relevantes
§ Evitar el "curse of dimensionality"
§ 500 puntos aleatorios
§ Cálculo de la diferencia
entre la distancia del valor
máximo y mínimo entre
cualquier par de puntos
2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 28
Objetivo

Más contenido relacionado

PPTX
Escuela Global - Clase 01.pptx
PPTX
econometria aplicada clase numero uno- Clase 01
PDF
02 extraccion de conocimiento
PDF
Como pasar de la prediccion a la accion. Esther Morales
PDF
Presentación - Taller virtual de manejo de bases de datos, 12 sep 2013
DOCX
Data mining 1
PDF
Calidad de datos. Preparación y limpieza de los datos
PPTX
Procesamiento y visualización de datos para generar nuevo conocimiento
Escuela Global - Clase 01.pptx
econometria aplicada clase numero uno- Clase 01
02 extraccion de conocimiento
Como pasar de la prediccion a la accion. Esther Morales
Presentación - Taller virtual de manejo de bases de datos, 12 sep 2013
Data mining 1
Calidad de datos. Preparación y limpieza de los datos
Procesamiento y visualización de datos para generar nuevo conocimiento

Similar a 01 mod 2_intro_manejo_datos_1.1 (20)

PDF
Powerdata: "la calidad de datos como motor de negocio"
PDF
EMPRENDIMIENTO Y GESTION PARA BACHILLERARO
DOCX
4ta entrega forumación de proyectos
DOCX
3ra entrega forumación de proyectos
PDF
Iemdsql server2008
DOCX
3ra entrega forumación de proyectos
PDF
BI datos-informacion-conocimiento
PPTX
Business intelligence
PPTX
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
PPTX
Exposicion
PPTX
Exposicion
PPTX
Poggi analytics - intro - 1c
PDF
Charla big data y data mining para gestión de información y bibliotecas
PDF
8 Tablas y Graficos II
PDF
Mineria de datos
PDF
Lab7 tutorial de análisis services parte 2
PPT
Expo De Estadistica
PPT
Expo De Estadistica
PPT
Esp #002-validación de datos en la era digital-traducido
PDF
01_Intro.pdf
Powerdata: "la calidad de datos como motor de negocio"
EMPRENDIMIENTO Y GESTION PARA BACHILLERARO
4ta entrega forumación de proyectos
3ra entrega forumación de proyectos
Iemdsql server2008
3ra entrega forumación de proyectos
BI datos-informacion-conocimiento
Business intelligence
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
Exposicion
Exposicion
Poggi analytics - intro - 1c
Charla big data y data mining para gestión de información y bibliotecas
8 Tablas y Graficos II
Mineria de datos
Lab7 tutorial de análisis services parte 2
Expo De Estadistica
Expo De Estadistica
Esp #002-validación de datos en la era digital-traducido
01_Intro.pdf
Publicidad

Último (20)

PDF
METODOLOGÍA DE INVESTIGACION ACCIDENTES DEL TRABAJO.pdf
PDF
EVALUACIÓN 1_REFERENCIAPIR_FASE 1_2024.pdf
PDF
Diseño y Utiliación del HVAC Aire Acondicionado
PDF
silabos de colegio privado para clases tema2
PPT
flujo de caja paa la evaluacion de proyectos
PDF
UD3 -Producción, distribución del aire MA.pdf
PPTX
Riesgo eléctrico 5 REGLAS DE ORO PARA TRABAJOS CON TENSION
PDF
SESION 9 seguridad IZAJE DE CARGAS.pdf ingenieria
PPTX
Expo petroelo 2do ciclo.psssssssssssssptx
PPTX
376060032-Diapositivas-de-Ingenieria-ESTRUCTURAL.pptx
PDF
La 5ª Edición del Manual de Ingeniería de Sistemas ( SEH5E ) como base d...
PDF
manual-sostenibilidad-vivienda-yo-construyo (1).pdf
PPTX
Investigacioncientificaytecnologica.pptx
PPTX
Cómo Elaborar e Implementar el IPERC_ 2023.pptx
PPTX
PPT PE 7 ASOCIACIONES HUAMANGA_TALLER DE SENSIBILIZACIÓN_20.04.025.pptx
PDF
PRINCIPIOS ORDENADORES_20250715_183000_0000.pdf
PPTX
Identificacion de Peligros mediante GTC 45
PPTX
TRABAJOS DE ALTO RIESGO IZAJE Y CALIENTE.pptx
PDF
experto-gestion-calidad-seguridad-procesos-quimicos-industriales-gu.pdf
PDF
2. FICHA EMERGTENCIA VIAL PUCABAMBA - PAN DE AZUCAR.pdf
METODOLOGÍA DE INVESTIGACION ACCIDENTES DEL TRABAJO.pdf
EVALUACIÓN 1_REFERENCIAPIR_FASE 1_2024.pdf
Diseño y Utiliación del HVAC Aire Acondicionado
silabos de colegio privado para clases tema2
flujo de caja paa la evaluacion de proyectos
UD3 -Producción, distribución del aire MA.pdf
Riesgo eléctrico 5 REGLAS DE ORO PARA TRABAJOS CON TENSION
SESION 9 seguridad IZAJE DE CARGAS.pdf ingenieria
Expo petroelo 2do ciclo.psssssssssssssptx
376060032-Diapositivas-de-Ingenieria-ESTRUCTURAL.pptx
La 5ª Edición del Manual de Ingeniería de Sistemas ( SEH5E ) como base d...
manual-sostenibilidad-vivienda-yo-construyo (1).pdf
Investigacioncientificaytecnologica.pptx
Cómo Elaborar e Implementar el IPERC_ 2023.pptx
PPT PE 7 ASOCIACIONES HUAMANGA_TALLER DE SENSIBILIZACIÓN_20.04.025.pptx
PRINCIPIOS ORDENADORES_20250715_183000_0000.pdf
Identificacion de Peligros mediante GTC 45
TRABAJOS DE ALTO RIESGO IZAJE Y CALIENTE.pptx
experto-gestion-calidad-seguridad-procesos-quimicos-industriales-gu.pdf
2. FICHA EMERGTENCIA VIAL PUCABAMBA - PAN DE AZUCAR.pdf
Publicidad

01 mod 2_intro_manejo_datos_1.1

  • 1. § Datos y mediciones § Tipos de datos § Calidad de los datos § Preprocesamiento § Ejercicios Temario 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 2
  • 2. § Ejemplo de datos: ¿entidades?, ¿atributos? Datos (data) "age","workclass","fnlwgt","education","education.num","marital.status","occupation","relationship","rac e","se·","capital.gain","capital.loss","hours.per.week","native.country","income" 90,"?",77053,"HS-grad",9,"Widowed","?","Not-in-family","White","Female",0,4356,40,"United- States","<=50K" 82,"Private",132870,"HS-grad",9,"Widowed","E·ec-managerial","Not-in- family","White","Female",0,4356,18,"United-States","<=50K" 66,"?",186061,"Some-college",10,"Widowed","?","Unmarried","Black","Female",0,4356,40,"United- States","<=50K" 54,"Private",140359,"7th-8th",4,"Divorced","Machine-op- inspct","Unmarried","White","Female",0,3900,40,"United-States","<=50K" 41,"Private",264663,"Some-college",10,"Separated","Prof-specialty","Own- child","White","Female",0,3900,40,"United-States","<=50K" adult age workclass fnlwgt education education.num marital.status occupation relationship race sex capital.gain capital.loss hours.per.week native.country income 90 ? 77053 HS-grad 9 Widowed ? Not-in-family White Female 0 4356 40 United-States <=50K 82 Private 132870 HS-grad 9 Widowed Exec-managerial Not-in-family White Female 0 4356 18 United-States <=50K 66 ? 186061 Some-college 10 Widowed ? Unmarried Black Female 0 4356 40 United-States <=50K 54 Private 140359 7th-8th 4 Divorced Machine-op-inspct Unmarried White Female 0 3900 40 United-States <=50K 41 Private 264663 Some-college 10 Separated Prof-specialty Own-child White Female 0 3900 40 United-States <=50K 34 Private 216864 HS-grad 9 Divorced Other-service Unmarried White Female 0 3770 45 United-States <=50K 38 Private 150601 10th 6 Separated Adm-clerical Unmarried White Male 0 3770 40 United-States <=50K 74 State-gov 88638 Doctorate 16 Never-married Prof-specialty Other-relative White Female 0 3683 20 United-States >50K adult.csv 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 3
  • 3. Atributo: propiedad o característica de una entidad (ej. Color de ojos, temperatura) § ¿Qué es son los datos?: Es una colección de entidades y sus atributos Datos (data) Entidad: colección de atributos (conocidos como: registro, punto, muestra, objeto, o instancia) Atributo Entidad Atributos Entidad Tid Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes 10 Los valores de los atributos son números o signos asignados a el atributo 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 4
  • 4. Tipos de medidas Nacionalidad, ocupación, género, región, categoría Likert score, tamaño (pequeño, mediano, largo), notas (A, ,B, C, D) IQ, temperatura en Fahrenheit/celcius Tiempo, temperatura en Kelvin, dinero, presión Menos informativo Datos están limitados por la precisión del dispositivo 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 5
  • 5. Tipos de medidas Valores SIN ORDEN Sin gran distancia entre puntos Con gran distancia entre puntos Definición del cero absoluto Valores ORDENADOS 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 6
  • 6. Tipos de medidas Ordenado, diferencias sin sentido entre unidades Solo nombres, etiquetas, sin orden Igual intervalo entre unidades Igual intervalo entre unidades. Cero Absoluto Categóticos Cuantitativo Operaciones aritméticas Estadística descriptiva Análisis estadísticos Desigualdad Orden / ranking Suma /resta Multiplicación / División Moda Mediana Promedio Desviación Estándar CrossTabs Correlación Regresión Análisis de varianza Nacionalidad, ocupación, genero Likert score, tamaño (pequeño, mediano, largo) IQ, temperatura en Fahrenheit Tiempo, temperatura en Kelvin 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 7
  • 7. Convención de nombres Atributo Feature edad edad>25 24 28 32 Valores/ values F T T Features puede ser interpretado como un atributo. También como una combinación de varios atributos, o luego de un proceso de abstracción con agregación de funciones 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 8
  • 8. § Datos y mediciones § Tipos de datos § Calidad de los datos § Preprocesamiento Temario 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 9
  • 9. Tipos de datos Tabular data Conjunto de registros, donde cada uno contiene un número fijo de atributos Document data Transaction data Graph data adult age workclass fnlwgt education educati on.num marital.status occupation relationship race sex 90 ? 77053 HS-grad 9 Widowed ? Not-in-family White Female 82 Private 132870 HS-grad 9 Widowed Exec-managerial Not-in-family White Female 66 ? 186061 Some-college 10 Widowed ? Unmarried Black Female 54 Private 140359 7th-8th 4 Divorced Machine-op-inspct Unmarried White Female 41 Private 264663 Some-college 10 Separated Prof-specialty Own-child White Female 34 Private 216864 HS-grad 9 Divorced Other-service Unmarried White Female 38 Private 150601 10th 6 Separated Adm-clerical Unmarried White Male 74 State-gov 88638 Doctorate 16 Never-married Prof-specialty Other-relative White Female 68 Federal-gov 422013 HS-grad 9 Divorced Prof-specialty Not-in-family White Female 41 Private 70037 Some-college 10 Never-married Craft-repair Unmarried White Male 45 Private 172274 Doctorate 16 Divorced Prof-specialty Unmarried Black Female 38 Self-emp-not-inc164526 Prof-school 15 Never-married Prof-specialty Not-in-family White Male 52 Private 129177 Bachelors 13 Widowed Other-service Not-in-family White Female 32 Private 136204 Masters 14 Separated Exec-managerial Not-in-family White Male 51 ? 172175 Doctorate 16 Never-married ? Not-in-family White Male 46 Private 45363 Prof-school 15 Divorced Prof-specialty Not-in-family White Male 45 Private 172822 11th 7 Divorced Transport-moving Not-in-family White Male 57 Private 317847 Masters 14 Divorced Exec-managerial Not-in-family White Male 22 Private 119592 Assoc-acdm 12 Never-married Handlers-cleaners Not-in-family Black Male 34 Private 203034 Bachelors 13 Separated Sales Not-in-family White Male 37 Private 188774 Bachelors 13 Never-married Exec-managerial Not-in-family White Male 29 Private 77009 11th 7 Separated Sales Not-in-family White Female 61 Private 29059 HS-grad 9 Divorced Sales Unmarried White Female 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 10
  • 10. Tipos de datos Tabular data Cada documento es representado como un vector de elementos, donde cada atributo registra el numero de veces que el término ocurre en el documento Document data Transaction data Graph data Términos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Datos 1 1 1 0 0 2 1 1 3 0 0 0 1 1 1 8 0 0 0 0 Ejemplos 2 5 1 3 5 2 3 5 4 3 1 0 3 5 3 1 4 5 1 3 introducción 2 2 3 1 4 4 3 2 3 5 5 5 0 4 4 1 0 3 1 3 Minería 5 2 2 2 0 3 2 5 1 1 0 2 1 1 3 1 1 2 0 2 Redes 2 2 1 1 2 3 2 4 1 2 4 2 1 2 0 3 4 4 5 2 Paquetes 4 3 1 0 5 3 3 5 4 1 1 2 0 1 0 2 4 3 4 5 Documentos Significa que la palabra ”redes” aparece dos veces en el documento #5 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 11
  • 11. Tipos de datos Tabular data Cada registro corresponde a una transacción que involucra un conjunto de elementos. Ejemplo: En una boleta de supermercado, el conjunto de productos comprados por un cliente conforman una transacción, mientras los productos individuales comprados corresponden a items Document data Transaction data Graph data Customer ID Transacción Items comprados 1 0001 {a,d,e} 1 0024 {a,b,c,e} 2 0012 {a,b,d,e} 2 0031 {a,c,d,e} 3 0015 {b,c,e} 3 0022 {b,d,e} 4 0029 {c,d} 4 0040 {a,b,c} 5 0033 {a,d,e} 5 0038 {a,b,e} 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 12
  • 12. Tipos de datos Tabular data Los nodos corresponden a entidades y las líneas a las relaciones entre éstas. Ejemplo. Grafo de una red con links HTML, moléculas con átomos y enlaces, proteínas y sus interacciones Document data Transaction data Graph data 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 13
  • 13. § Datos y mediciones § Tipos de datos § Calidad de los datos Temario Muchas veces los datos registrados presentan importantes problemas. 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 14
  • 14. Calidad de los datos Ruido Outliers Valores faltantes Datos duplicados El ruido corresponde a un error de medición en los datos. El error puede ser aleatorio o sistemático 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 15
  • 15. Calidad de los datos Ruido Outliers Valores faltantes Datos duplicados Los outliers son datos con características que son considerablemente diferentes a la mayoría de otros datos en el data set. Podrían indicar casos “interesantes”, podrían indicar errores en los datos 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 16
  • 16. Calidad de los datos Ruido Outliers Valores faltantes Datos duplicados Razones para tener valores faltantes: § Información que no es obtenida (ej. Las personas declinan a dar su edad) § Los atributos no son aplicables a todos los casos (ej. El ingreso anual no es aplicable a los niños) Formas para evitar valores faltantes: § Eliminar entidades con datos faltantes § Eliminar atributos con datos faltantes § Ignorar los datos faltantes durante el análisis § Reemplazar con todos los posibles valores (ponderado por sus probabilidades) 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 17
  • 17. Calidad de los datos Ruido Outliers Valores faltantes Datos duplicados El data set puede incluir entidades que están duplicadas, o parcialmente duplicados § Principal problema con datos de fuentes heterogéneas § Ejempo. Misma persona con múltiples direcciones de correo. Limpieza de datos (Data cleaning) § Encontrar y tratar con entidades duplicadas § Encontrar y corregir errores en las mediciones § Tratar con valores faltantes 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 18
  • 18. § Datos y mediciones § Tipos de datos § Calidad de los datos § Preprocesamiento Temario El preprocesamiento de datos “limpia” los datos eliminando datos corruptos, redundantes, e irrelevantes 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 19
  • 19. Procesamiento de datos Aggregation Discretization Feature selection Reducción de dimensionali dad Reducción de datos Reducir el número de atributos o objetos Cambio de escala Emplear una escala mayor para reducir el número de posibles salidas Estabilizar datos Agregar datos tiene a disminuir la variabilidad (variability) Sampling Combinar dos o más atributos en un único atributo o objeto 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 20
  • 20. Procesamiento de datos Aggregation Discretization Feature selection Reducción de dimensionali dad Sampling Precipitaciones en Australia Desviación estándar del promedio de presipitación mensual Desviación estándar del promedio de presipitación AnualNúmerodeubicaciones Númerodeubicaciones Combinar dos o más atributos en un único atributo o objeto 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 21
  • 21. Procesamiento de datos Aggregation Discretization Feature selection Reducción de dimensio- nalidad Sampling Procesar y obtener el conjunto completo de datos puede ser muy costoso en tiempo (big data), por ello se utiliza un muestra. La muestra debe ser representativa,debe tener apro·imadamente las mismas propiedades que los datos originales El sampling es la principal técnica empleada en la selección de datos http://www.biosciencenotes.com/simple-random-sampling/ Objetivo 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 22
  • 22. Procesamiento de datos Aggregation Discretization Feature selection Reducción de dimensio- nalidad Sampling Divide los datos en muchas divisiones, luego crea datos aleatorios de cada grupo Simple Random Sampling Selección da datos con la misma probabilidad de seleccionar un item en particular. Sampling without replacement A medida que cada item es seleccionado, es removido de la población Sampling with replacement Los objetos no son removidos de la población a medida que son seleccionados Stratified sampling La muestra debe ser representativa,debe tener apro·imadamente las mismas propiedades que los datos originales 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 23
  • 23. Procesamiento de datos Aggregation Discretization Feature selection Reducción de dimensio- nalidad Sampling Divide los datos en muchas divisiones, luego crea datos aleatorios de cada grupo Stratified sampling 8000 puntos 2000 puntos 500 puntos 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 24
  • 24. Procesamiento de datos Aggregation Discretization Feature selection Reducción de dimensio- nalidad Sampling La discretización es el proceso de poner valores en cubos (buckets) de tal forma que hayan un número limitado de estados 3 categorías para x e y 5 categorías para x e y 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 25
  • 25. Procesamiento de datos Aggregation Discretization Feature selection Reducción de dimensio- nalidad Sampling Es un método para reducir la dimensionalidad de los datos Redundant Features Duplicación de una parte o toda la información contenido en una o más atributos Precio de compra de un producto y cantidad de impuesto pagado Irrelevant Features No contiene información que sea útil para las tareas de minería de datos El ID de un estudiante es irrelevante para la tarea de predecir su calificación 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 26
  • 26. Procesamiento de datos Aggregation Discretization Feature selection Reducción de dimensio- nalidad Sampling Principal Component Analisis Singular Value Descomposition Otros métodos (supervisados y no lineales § Evitar el "curse of dimensionality" § Reducir la cantidad de tiempo y memoria requerida para los algoritmos de minería de datos § Permitir una visualización más simple de los datos § Podría ayudar a eliminar features irrelevantes o reducir el ruido Principales técnicas Objetivo 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 27
  • 27. Procesamiento de datos Aggregation Discretization Feature selection Reducción de dimensio- nalidad Sampling a. Cuando las dimensiones se incrementan, los datos comienzan a separarse en el espacio que ocupan. b. Las definiciones de densidad y distancia entre los puntos que son críticos para el clustering y la detección de outliers se tornan menos relevantes § Evitar el "curse of dimensionality" § 500 puntos aleatorios § Cálculo de la diferencia entre la distancia del valor máximo y mínimo entre cualquier par de puntos 2019 © TICS-453: INTELIGENCIA DE NEGOCIOS. MIGUEL CARRASCO 28 Objetivo