SlideShare una empresa de Scribd logo
2
Lo más leído
4
Lo más leído
7
Lo más leído
Limpieza y Transformación de los
             Datos




                       Carlos Lobo Valerio
                Alexander Jiménez Palacios
Introducción
 Generalmente es necesario realizar alguna
  transformación a los datos para obtener materia
  prima adecuada.
 El éxito de un proceso de minería de datos depende
  de tener datos íntegros, completos y consistentes.
 Eliminar información incorrecta o inconsistente.
Integración y limpieza
 La integración generalmente se realiza durante el
  proceso de recopilación o carga de datos.
 La limpieza de datos puede detectar y solucionar
  problemas de datos no resueltos durante la
  integración.
 Evita problemas como datos faltantes, valores
  duplicados y datos incorrectos.
Integración
 Se puede dar de dos maneras:
   Unificar dos o más objetos.
   Separar un objeto en dos o más.
 Ejemplos:
   Separar personas por número de cédula nacional,
    extranjera y pasaporte.
   Unificar formatos: sexo, estado civil, fechas.
Reconocimiento
 Consiste en realizar un resumen de las
  características y observar el modelo para verificar
  errores.
 Algunos aspectos pueden salir a simple vista
   Cinco valores para el sexo.
 Otros aspectos son más difíciles de encontrar, para
 ellos se usan otras herramientas:
   Histogramas
   Gráficas de dispersión
Valores faltantes
 Causas:
  Faltan valores relevantes porque no se pudieron
   obtener.
  No existen los valores.
  Datos incompletos (varios orígenes).
 Tratamiento
  Ignorarlos.
  Eliminar toda la columna.
  Remplazar el valor.
  Segmentar
Valores erróneos
 Algunas veces no es un proceso trivial, clasificar
  y agrupar pueden ayudar.
 Tratamiento:
   Ignorar.
   Eliminar.
   Filtrar.
   Remplazar.
   Discretizar.
Transformación
 Es cualquier proceso que modifique la forma de
 los datos.
   Crear nuevos atributos derivados
   Cambiar el tipo de un atributo
   Cambiar total o parcial una tabla.
Discretización
 Conversión de un valor numérico en un valor
 nominal ordenado.
   Ejemplo: convertir un nota de 0 a 100 en aprobado
   y reprobado.
 Se realiza cuando el error en la medida puede
 ser grande o existen ciertos umbrales
 significativos.
Numerización
 Conversión de un valor nominal en un valor
 numérico.
   Ejemplo: el nivel de estudio de una persona (sin
   estudio, primaria, secundaria, universidad) se
   puede convertir en 0, 1, 2, 4.
Normalización de rango
 Transformar todos los datos respetando un
  mismo rango.
 Se define un mínimo y un máximo y todos los
  valores deben respetarlo.
 Ejemplo:
   Normalizar las distancias recorridas entre ciudades.
Sistema ETL
 Proceso de extracción, transformación y carga.
 Permiten extraer datos de algún origen,
  transformarlo si es necesario y cargarlo en un
  destino.
 Cada organización debe crear su propio sistema
  ETL.
 Existen herramientas que facilitan la creación de
  procesos ETL.
Tareas ETL
 Lectura de datos transaccionales mediante
    consultas SQL.
   Incorporación de datos externos como hojas de
    cálculo, archivos de texto y XML.
   Integración de los datos de diversas fuentes
   Limpieza y transformación de los datos.
   Crear metadatos que describan el proceso ETL
Tareas ETL
 Identificación de cambios en el origen para
  actualizar el destino.
 Planificar la carga y mantenimiento, respetar
  restricciones de integridad, no saturar las BD
 Crear índices y llaves primarias sobre datos
  relevantes o únicos.
 Realizar pruebas de calidad en los datos
  almacenados.
Diagrama ETL
Herramientas ETL
 Microsoft Integratios Services
 XMLoader
 Pentaho Data Integration
 Benetl
 MySQL Migration Toolkit
 Oracle Warehouse Builder
 Scriptella ETL

Más contenido relacionado

PPTX
ETL (Extracción, Transformación y Cargar)
PPT
Diccionario de Datos
PPTX
Limpieza de datos.
DOCX
Ciclo de vida de la inteligencia de negocios
PPTX
Sistemas de Información
PPTX
Metodologia Kendall y Kendall (1.997)
DOCX
Normas generales para la auditoría de sistemas de información
ETL (Extracción, Transformación y Cargar)
Diccionario de Datos
Limpieza de datos.
Ciclo de vida de la inteligencia de negocios
Sistemas de Información
Metodologia Kendall y Kendall (1.997)
Normas generales para la auditoría de sistemas de información

La actualidad más candente (20)

PPTX
Dominio del cobit
PPTX
Etapa de estudio de viabilidad de un proyecto informático c4
PDF
Introduccion datawarehouse
PPT
Modelo de datos
PPT
3-Modelamiento de Procesos usando BPMN.ppt
PPTX
DocumentacióN De Un Sistema
PPTX
AUDITORIA DE BASE DE DATOS
PPTX
¿Cómo implementar con éxito una solución de BI?
PDF
Diccionario de datos en los sistemas de información
PPTX
Fases del rup
PPTX
Presentacion data mining (mineria de datos)- base de datos
PPT
Sistemas de información gerencial Capítulo 2 Negocios en línea globales: cómo...
DOCX
Preguntas sobre los sistemas de informacion
PPT
Metodología para realizar auditorías de sistemas
PPTX
Ciclo de vida de un sistema de informacion
PDF
Análisis y diseño de sistemas estructurado
PPT
Diccionario de datos
PPTX
Metodología Estructurada -
PPTX
Capitulo 10 auditoria en base de datos
DOCX
Ensayo Analisis y Diseño de Sistemas
Dominio del cobit
Etapa de estudio de viabilidad de un proyecto informático c4
Introduccion datawarehouse
Modelo de datos
3-Modelamiento de Procesos usando BPMN.ppt
DocumentacióN De Un Sistema
AUDITORIA DE BASE DE DATOS
¿Cómo implementar con éxito una solución de BI?
Diccionario de datos en los sistemas de información
Fases del rup
Presentacion data mining (mineria de datos)- base de datos
Sistemas de información gerencial Capítulo 2 Negocios en línea globales: cómo...
Preguntas sobre los sistemas de informacion
Metodología para realizar auditorías de sistemas
Ciclo de vida de un sistema de informacion
Análisis y diseño de sistemas estructurado
Diccionario de datos
Metodología Estructurada -
Capitulo 10 auditoria en base de datos
Ensayo Analisis y Diseño de Sistemas
Publicidad

Destacado (20)

PPTX
Transformación de Datos en SPSS
PDF
Informatica Pentaho Etl Tools Comparison
PDF
Limpieza y transformación de datos
PPT
Mineria de Datos
PPTX
Data Warehouse Offload
PPTX
Transformar en spss
PDF
Integración de Oracle Data Integrator con Oracle GoldenGate 12c
PDF
SolidQ SSIS Framework
PDF
ETL: Logging y auditoría en SSIS
PDF
Webinar: Oracle Data Integrator 12c (25-02-2015)
PPTX
Procesamiento De Datos
PDF
Management in Informatica Power Center
PDF
Principios de diseño para procesos de ETL
PPTX
Almacen de datos
PPTX
DOCX
Etl extracción transformación y carga de datos
PPT
Designing and implementing_an_etl_framework
PPTX
Transformación de la información en conocimiento
PPTX
Minería de datos
PDF
Manual Scilab
Transformación de Datos en SPSS
Informatica Pentaho Etl Tools Comparison
Limpieza y transformación de datos
Mineria de Datos
Data Warehouse Offload
Transformar en spss
Integración de Oracle Data Integrator con Oracle GoldenGate 12c
SolidQ SSIS Framework
ETL: Logging y auditoría en SSIS
Webinar: Oracle Data Integrator 12c (25-02-2015)
Procesamiento De Datos
Management in Informatica Power Center
Principios de diseño para procesos de ETL
Almacen de datos
Etl extracción transformación y carga de datos
Designing and implementing_an_etl_framework
Transformación de la información en conocimiento
Minería de datos
Manual Scilab
Publicidad

Similar a 1. limpieza y transformación de datos (20)

PPTX
Limpieza de datos - Tech Cívica
PDF
CLASE 2 ETL 2024 7 32 dog the element etl.pdf
PDF
CLASE 2 ETL EXTRAERVTRANSFORMAR CARGAR.pdf
DOCX
Conceptos de minería de datos
PPTX
Trabajo final
PPTX
Proceso ETL 1.pptx
PDF
Calidad de datos (data quality)
PPTX
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
PPTX
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
PPTX
Introduccion-al-proceso-ETL PRESENTACION ETL
PDF
Microsoft sql server 2008 - ETL
PPT
5 Db2 Etl Cubos
PPT
OpenAnalytics - Taller de Talend 13/02/2014
PPTX
Modelos de bdd y modelos de datos Rafael Olivares
PPT
Presentacion base de datos
PPT
Unidad DidáCtica Iv DiseñO De Bases De Datos Relacionales
DOCX
Base de datos sin601
DOCX
Datos e informacion
Limpieza de datos - Tech Cívica
CLASE 2 ETL 2024 7 32 dog the element etl.pdf
CLASE 2 ETL EXTRAERVTRANSFORMAR CARGAR.pdf
Conceptos de minería de datos
Trabajo final
Proceso ETL 1.pptx
Calidad de datos (data quality)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Introduccion-al-proceso-ETL PRESENTACION ETL
Microsoft sql server 2008 - ETL
5 Db2 Etl Cubos
OpenAnalytics - Taller de Talend 13/02/2014
Modelos de bdd y modelos de datos Rafael Olivares
Presentacion base de datos
Unidad DidáCtica Iv DiseñO De Bases De Datos Relacionales
Base de datos sin601
Datos e informacion

1. limpieza y transformación de datos

  • 1. Limpieza y Transformación de los Datos Carlos Lobo Valerio Alexander Jiménez Palacios
  • 2. Introducción  Generalmente es necesario realizar alguna transformación a los datos para obtener materia prima adecuada.  El éxito de un proceso de minería de datos depende de tener datos íntegros, completos y consistentes.  Eliminar información incorrecta o inconsistente.
  • 3. Integración y limpieza  La integración generalmente se realiza durante el proceso de recopilación o carga de datos.  La limpieza de datos puede detectar y solucionar problemas de datos no resueltos durante la integración.  Evita problemas como datos faltantes, valores duplicados y datos incorrectos.
  • 4. Integración  Se puede dar de dos maneras:  Unificar dos o más objetos.  Separar un objeto en dos o más.  Ejemplos:  Separar personas por número de cédula nacional, extranjera y pasaporte.  Unificar formatos: sexo, estado civil, fechas.
  • 5. Reconocimiento  Consiste en realizar un resumen de las características y observar el modelo para verificar errores.  Algunos aspectos pueden salir a simple vista  Cinco valores para el sexo.  Otros aspectos son más difíciles de encontrar, para ellos se usan otras herramientas:  Histogramas  Gráficas de dispersión
  • 6. Valores faltantes  Causas:  Faltan valores relevantes porque no se pudieron obtener.  No existen los valores.  Datos incompletos (varios orígenes).  Tratamiento  Ignorarlos.  Eliminar toda la columna.  Remplazar el valor.  Segmentar
  • 7. Valores erróneos  Algunas veces no es un proceso trivial, clasificar y agrupar pueden ayudar.  Tratamiento:  Ignorar.  Eliminar.  Filtrar.  Remplazar.  Discretizar.
  • 8. Transformación  Es cualquier proceso que modifique la forma de los datos.  Crear nuevos atributos derivados  Cambiar el tipo de un atributo  Cambiar total o parcial una tabla.
  • 9. Discretización  Conversión de un valor numérico en un valor nominal ordenado.  Ejemplo: convertir un nota de 0 a 100 en aprobado y reprobado.  Se realiza cuando el error en la medida puede ser grande o existen ciertos umbrales significativos.
  • 10. Numerización  Conversión de un valor nominal en un valor numérico.  Ejemplo: el nivel de estudio de una persona (sin estudio, primaria, secundaria, universidad) se puede convertir en 0, 1, 2, 4.
  • 11. Normalización de rango  Transformar todos los datos respetando un mismo rango.  Se define un mínimo y un máximo y todos los valores deben respetarlo.  Ejemplo:  Normalizar las distancias recorridas entre ciudades.
  • 12. Sistema ETL  Proceso de extracción, transformación y carga.  Permiten extraer datos de algún origen, transformarlo si es necesario y cargarlo en un destino.  Cada organización debe crear su propio sistema ETL.  Existen herramientas que facilitan la creación de procesos ETL.
  • 13. Tareas ETL  Lectura de datos transaccionales mediante consultas SQL.  Incorporación de datos externos como hojas de cálculo, archivos de texto y XML.  Integración de los datos de diversas fuentes  Limpieza y transformación de los datos.  Crear metadatos que describan el proceso ETL
  • 14. Tareas ETL  Identificación de cambios en el origen para actualizar el destino.  Planificar la carga y mantenimiento, respetar restricciones de integridad, no saturar las BD  Crear índices y llaves primarias sobre datos relevantes o únicos.  Realizar pruebas de calidad en los datos almacenados.
  • 16. Herramientas ETL  Microsoft Integratios Services  XMLoader  Pentaho Data Integration  Benetl  MySQL Migration Toolkit  Oracle Warehouse Builder  Scriptella ETL