SlideShare una empresa de Scribd logo
Data Integration & Data QualityData Integration & Data Quality
Your open source based BI solution!!
by
Introducción a Data Quality
Qué es
Por qué
Conceptos
Beneficios de Data Quality
Data Quality & Business Intelligence
Pilares del BI
Integración de datos
Mejores prácticas
Opensource & Data Quality
Data Quality & Pentaho (PDI)
PDI / ETLs / Integridad / Validación
Data Cleaner
Integración Data Cleaner y PDI
Índice
Contacto Inicial
Confían en Business Intelligence Open Source
Sector Privado
Sector Público
Introducción a Data QualityIntroducción a Data Quality
http://optimizeyourdataquality.wordpress.com/
Introducción
¿Qué es Data Quality?¿Qué es Data Quality?
Definición no estándar
“Proceso constante de percepción o evaluación
del grado de conveniencia de los datos que
sirven para un propósito en un determinado
contexto”
Búsqueda de atributos en los datos:
Precisión
Fidelidad
Integridad
Relevancia
http://unitar.org
Introducción
¿Por qué Data Quality?¿Por qué Data Quality?
Introducción
ConceptosConceptos
Gobernanza de datos
Toma de decisiones
mejor y más rápida
Crítico disponer de
datos de calidad
Introducción
Fundamental realizar tareas de Data Quality en los
procesos de integración de datos
Beneficios de Data QualityBeneficios de Data Quality
Introducción
Segmentación de clientes adecuada  Satisfacción de clientes
Evita tratar información errónea  Reducción de costes
Mayor confianza y valor de la información
Mejor eficacia en los procesos de negocio Incremento en los
ingresos
& Business& Business
IntelligenceIntelligence
¿Qué es Business Intelligence?
(BI)
Habilidad para transformar
datos en información,
información en conocimiento y
optimizar el proceso de toma
de decisiones en los negocios
Data Quality & Business Intelligence
Herramientas Visuales para un
Análisis óptimo y sencillo
Datos robustos y confiables
Pilares del Business IntelligencePilares del Business Intelligence
Procesos involucrados:
•Integración de datos
•Explotación de información
Integración de datosIntegración de datos
Clave para cualquier proyecto BI
ETL = Extract, Transform and Load
Proceso para mover datos de diferentes fuentes, tratarlos y
cargarlos en bases de datos unificadas: data warehouse / data
marts.
Data Quality & Business Intelligence
Tareas principales:
Extraer datos de múltiples fuentes
Aplicar calidad y consistencia (limpiar) a los datos
Conformar (unificar) los datos
Cargar los datos en un DW
http://blog.bootstraptoday.com
CRM
ERP
BPM
CMS
Data Quality & Business Intelligence
DESAFÍOS:
Fuentes heterogéneas
Grandes volúmenes de datos
Mejorar eficiencia operativa
Sincronismo de las fuentes
Escalabilidad
Integración de datos y Data Quality muy relacionadosIntegración de datos y Data Quality muy relacionados
Integración de datosIntegración de datos
El Proceso de Data Quality puede realizarse de forma:
Manual  Consultas ad-hoc, búsqueda en ficheros, etc…
Automatizada  Incluido en el proceso de integración de datos
Son métodos complementarios, aunque:
Tareas de Data Quality como parte del proceso de Integración de Datos (ETL)Tareas de Data Quality como parte del proceso de Integración de Datos (ETL)
Data Quality & Business Intelligence
Integración de datosIntegración de datos
Mejores prácticas en ETLMejores prácticas en ETL
Centralizar procedimientos: asegura la homogeneidad y coherencia de
datos de diferentes fuentes.
Evitar redundancia de cálculos: si un dato está calculado en origen, no
volver a calcularlo. Mejora el rendimiento y evita posibles inconsistencias.
Establecer puntos de “control de calidad”: asegura la ejecución en puntos
clave del proceso y permite registrar información de seguimiento para
futuras auditorías.
Implementar procesos de recarga de la información: útiles ante posibles
errores de carga inicial.
Utilizar estructuras intermedias: facilita la monitorización y seguimiento del
proceso.
Data Quality & Business Intelligence
Mejores prácticas en ETLMejores prácticas en ETL
Data Quality & Business Intelligence
Procesos centralizados
y estandarizados
Puntos de control y registro
Estructuras intermedias
Aplicar filosofía BI al
proceso de calidad de
datos
Explotar y analizar
resultados de Data Quality
Permite
Opensource &Opensource &
Herramientas ETL y Data QualityHerramientas ETL y Data Quality
Pentaho Data Integration
Talend Open Studio
DataCleaner
Talend Data Quality
Google Refine
Opensource & Data Quality
Algunas Soluciones Data Quality Opensource:
Principales Soluciones ETL Opensource
Data Quality & Pentaho Data IntegrationData Quality & Pentaho Data Integration
Herramienta ETL intuitiva basada en trabajos y transformaciones
Libertad para decidir dónde y cómo realizar tareas de: profiling, cleansing,
integrity, validation; en base a metadatos.
Disponibilidad en transformaciones de componentes orientados a Data
Quality:
No es herramienta pura de profiling, pero se puede integrar DataCleaner
Arquitectura de Plug-in que permite expandir sus funcionalidades.
Opensource & Data Quality
Opensource & Data Quality
Variedad de componentes:
Limpieza
Scripting (sql, javascript)
Validación
Estadísticas
Etc…
Data Quality & Pentaho Data IntegrationData Quality & Pentaho Data Integration
Data Quality & Pentaho Data IntegrationData Quality & Pentaho Data Integration
Opensource & Data Quality
Importante buen diseño de ETL distribuido en fases:
1. Preparación del proceso
2. Recepción de datos
3. Procesamiento de datos
4. Carga final
5. Informes de resultados
6. Control de actividades transversal
Este planteamiento permite:
Estandarizar los procesos en una organización
Escalar mejor al incrementar el número de fuentes
Controlar de forma centralizada los resultados de los procesos
Data CleanerData Cleaner
Opensource & Data Quality
Herramienta de Profiling recomendada por Pentaho
Alternativas de uso:
Herramienta de escritorio
Herramienta web
Plugin para PDI
Data Cleaner DesktopData Cleaner Desktop
Opensource & Data Quality
Funcionalidades:
Limpieza de datos
Definición de
diccionarios de datos
Búsqueda de patrones,
duplicados, nulos, etc.
Monitorización
Estadísticas de
resultados completa
Etc.
Data Cleaner Monitor (web)Data Cleaner Monitor (web)
Opensource & Data Quality
Funcionalidades:
Monitorización
centralizada
Visualización elegante
Programación de
trabajos Data Cleaner y
PDI
Definición de métricas
propias
Etc.
Integración Data Cleaner / PDIIntegración Data Cleaner / PDI
Opensource & Data Quality
Al instalar el plugin de Data Cleaner para PDI, existen dos posibles uso:
Opción A Hacer profiling de los datos resultantes de un paso PDI
Integración Data Cleaner / PDIIntegración Data Cleaner / PDI
Opensource & Data Quality
Al instalar el plugin de Data Cleaner para PDI, existen dos posibles uso:
Opción B Ejecutar un trabajo de Data Cleaner
Referencias
International Association for Information and Data
Quality:
http://iaidq.org/
Pentaho Data Integration:
http://www.pentaho.com/explore/pentaho-data-integration/
Data Cleaner:
http://datacleaner.org/
Stratebi: Quiénes somos
www.TodoBI.com
info@stratebi.com
www.stratebi.com
Mas información
Tfno: 91.788.34.10
MadridMadrid: Pº de la Castellana, 164, 1º
BarcelonaBarcelona: C/ Valencia, 63
BrasilBrasil:: Av. Paulista, 37 4 andar

Más contenido relacionado

PPTX
Periodismo de Datos y Visualización con herramientas Open Source
PPT
Open Source Business Intelligence 2013 (spanish)
PPTX
Herramientas de business intelligence
PPT
Suite de inteligencia de negocios pentaho
PPTX
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos
PPT
Data quality
DOCX
Unidad iii componentes de entorno de inteligencia de negocios
PPTX
Data Quality
Periodismo de Datos y Visualización con herramientas Open Source
Open Source Business Intelligence 2013 (spanish)
Herramientas de business intelligence
Suite de inteligencia de negocios pentaho
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos
Data quality
Unidad iii componentes de entorno de inteligencia de negocios
Data Quality

La actualidad más candente (20)

PPT
Inteligancia de negocios
PPSX
Herramientas de business intelligence
PPT
Business intelligence-solutions 2012
PPTX
Exploradata - A new BigData Company
PPTX
¿Qué es Tableau Software?
PPTX
066 como implementar un data warehouse de manera paulatina
ODP
Inteligencia De Negocios, en Software Libre
PDF
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
DOCX
Ciclo de vida de la inteligencia de negocios
PDF
Migración de aplicaciones.... y mis datos.pptx
PPTX
Data integration
PPTX
Componentes de Business Intelligence
PDF
Aplicaciones de BI con Pentaho
PPTX
Inteligencia de negocios 5
PPT
Overview sap bo girona nib efimatica
PPT
Introducción al BI con pentaho
PDF
Una visión integrada para el estado de chile
PDF
Modelos de datos relacionales y no relacionales
PDF
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
PPTX
Porque Pentaho ?
Inteligancia de negocios
Herramientas de business intelligence
Business intelligence-solutions 2012
Exploradata - A new BigData Company
¿Qué es Tableau Software?
066 como implementar un data warehouse de manera paulatina
Inteligencia De Negocios, en Software Libre
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
Ciclo de vida de la inteligencia de negocios
Migración de aplicaciones.... y mis datos.pptx
Data integration
Componentes de Business Intelligence
Aplicaciones de BI con Pentaho
Inteligencia de negocios 5
Overview sap bo girona nib efimatica
Introducción al BI con pentaho
Una visión integrada para el estado de chile
Modelos de datos relacionales y no relacionales
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
Porque Pentaho ?
Publicidad

Destacado (20)

PPTX
Comparativa herramientas ETL
PPTX
Data warehouse
PPT
Webinario: importancia de una estrategia de ETL en proyectos de BI y Analítica
PPT
Marketing CRM Intelligence Open Source
PDF
TALEND ETL Introducción
PPTX
Talend
PPTX
OpenAnalytics - Business Intelligence por Emilio Arias
PDF
Migración de datos con OpenERP-Kettle
PDF
Talend Open Studio Fundamentals #1: Workspaces, Jobs, Metadata and Trips & Tr...
PPSX
Intro to Talend Open Studio for Data Integration
PPTX
Talend Big Data Capabilities Overview
PDF
Open Source ETL using Talend Open Studio
PPTX
Elementos ETL - Kettle Pentaho
PDF
14.03.23 livro sobre pentaho
PDF
Exercícios - Tutorial ETL com Pentaho Data Integration
PPT
Big Data Open Source Analytics (español)
PPTX
PDF
Informatica Pentaho Etl Tools Comparison
PPT
Manipulacion de datos con Kettle
PPTX
Data quality and data profiling
Comparativa herramientas ETL
Data warehouse
Webinario: importancia de una estrategia de ETL en proyectos de BI y Analítica
Marketing CRM Intelligence Open Source
TALEND ETL Introducción
Talend
OpenAnalytics - Business Intelligence por Emilio Arias
Migración de datos con OpenERP-Kettle
Talend Open Studio Fundamentals #1: Workspaces, Jobs, Metadata and Trips & Tr...
Intro to Talend Open Studio for Data Integration
Talend Big Data Capabilities Overview
Open Source ETL using Talend Open Studio
Elementos ETL - Kettle Pentaho
14.03.23 livro sobre pentaho
Exercícios - Tutorial ETL com Pentaho Data Integration
Big Data Open Source Analytics (español)
Informatica Pentaho Etl Tools Comparison
Manipulacion de datos con Kettle
Data quality and data profiling
Publicidad

Similar a Data Integration & Data Quality Open Source (spanish) (20)

PPTX
24 HOP edición Español - Asegurando la calidad del dato en mi proyecto de bi ...
PDF
Asegurando la calidad del dato en mi entorno de business intelligence
PPT
documents.mx_1-22-creando-el-proximo-data-warehouse-integracion-y-calidad-de-...
PPS
Fundamentos dw
PDF
Diplomado Técnico SQL Server 2012 - Sesión 4/8
PDF
2021 09 22 Calidad Datos V1.1.pdf
PDF
Calidad de datos
PPTX
3 formas disponibilizar y acceder rápidamente a tus datos
PPT
Gestión de la Calidad de Datos V1.0 (Ago 10)
PPT
Master Data Management
PPT
Master Data Management
PPTX
Calidad de datos de la información .pptx
PPTX
Analitica avanzada
PPTX
Data pipeline
PPT
PresentacióN Sistemas De InformacióN Empresarial
PPT
PresentacióN Sistemas De InformacióN Empresarial
 
PPT
Lanzamiento De La Gtm De Bi
PPT
Data Warehouse
PPTX
Business Intelligence
24 HOP edición Español - Asegurando la calidad del dato en mi proyecto de bi ...
Asegurando la calidad del dato en mi entorno de business intelligence
documents.mx_1-22-creando-el-proximo-data-warehouse-integracion-y-calidad-de-...
Fundamentos dw
Diplomado Técnico SQL Server 2012 - Sesión 4/8
2021 09 22 Calidad Datos V1.1.pdf
Calidad de datos
3 formas disponibilizar y acceder rápidamente a tus datos
Gestión de la Calidad de Datos V1.0 (Ago 10)
Master Data Management
Master Data Management
Calidad de datos de la información .pptx
Analitica avanzada
Data pipeline
PresentacióN Sistemas De InformacióN Empresarial
PresentacióN Sistemas De InformacióN Empresarial
 
Lanzamiento De La Gtm De Bi
Data Warehouse
Business Intelligence

Más de Stratebi (20)

PPTX
Destinos turisticos inteligentes
PDF
Azure Synapse
PPTX
Options for Dashboards with Python
PPTX
Dashboards with Python
PDF
PowerBI Tips y buenas practicas
PDF
Machine Learning Meetup Spain
PPTX
LinceBI IIoT (Industrial Internet of Things)
PPTX
SAP - PowerBI integration
PDF
Aplicaciones Big Data Marketing
PDF
A federated information infrastructure that works
PPTX
9 problemas en proyectos Data Analytics
PPTX
PowerBI: Soluciones, Aplicaciones y Cursos
PPTX
Sports Analytics
PPTX
Vertica Extreme Analysis
PDF
Businesss Intelligence con Vertica y PowerBI
PDF
Vertica Analytics Database general overview
PDF
Talend Cloud en detalle
PDF
Master Data Management (MDM) con Talend
PDF
Talend Introducion
PDF
Talent Analytics
Destinos turisticos inteligentes
Azure Synapse
Options for Dashboards with Python
Dashboards with Python
PowerBI Tips y buenas practicas
Machine Learning Meetup Spain
LinceBI IIoT (Industrial Internet of Things)
SAP - PowerBI integration
Aplicaciones Big Data Marketing
A federated information infrastructure that works
9 problemas en proyectos Data Analytics
PowerBI: Soluciones, Aplicaciones y Cursos
Sports Analytics
Vertica Extreme Analysis
Businesss Intelligence con Vertica y PowerBI
Vertica Analytics Database general overview
Talend Cloud en detalle
Master Data Management (MDM) con Talend
Talend Introducion
Talent Analytics

Último (20)

PPTX
CGI SESIÓN #2.pptx Competencias Gerenciales
PDF
07-gerencia-de-la-informatica contenidos.pdf
PDF
MODELO INNOVACION EN NEGOCIOS , METODOLOGIA APLICADA.pdf
PDF
Rendicion publica de cuentas inicial 2025 de la procuraduria
PDF
Presentación_rendición_de_cuentas_2020_26-FEB-2021.pdf
PPT
TALLERLIDERAZGO.ppt Competencias Gerenciales
PPTX
Presentación Plan de Negocio Moderno Morado y Blanco.pptx
PDF
Introducción iso 9001 curso UNIDAD - 3.pdf
PPTX
Expo N°1-Difusión de Política y Objetivos SST-31.01.23.pptx
PPTX
6. El proceso de la planificación.pptx6. El proceso de la planificación.pptx
PPTX
auditoria ambiental y su uso en la practica diaria
PDF
ORD-REG-ELEMENTOS-PUBLICITARIOS-AMSS-12-MARZO.pdf
PDF
Esta es una presentacion ejecutiva del cual pueden concluir
PPTX
clase Contabilidad 2 [Autoguardado].pptx
PPTX
Presentacion_charlas_Etapa_Productiva_aprendices.pptx
PPTX
Curso-de-Aire-Acondicionado-y-Refrigeracion-Electronica-para-Ingenio-Azucarer...
PPTX
saHERNISA FEMsOassaSAsasASAsaSasaSASaAsaS
PPTX
ABDOMEN ABIERWWDEDEFDWDXEWdedwqddeqwdTO.pptx
PDF
Introducción a iso 9001 curso UNIDAD - 4.pdf
PPTX
emprendedor social diapositivas de jhonatan del jesus
CGI SESIÓN #2.pptx Competencias Gerenciales
07-gerencia-de-la-informatica contenidos.pdf
MODELO INNOVACION EN NEGOCIOS , METODOLOGIA APLICADA.pdf
Rendicion publica de cuentas inicial 2025 de la procuraduria
Presentación_rendición_de_cuentas_2020_26-FEB-2021.pdf
TALLERLIDERAZGO.ppt Competencias Gerenciales
Presentación Plan de Negocio Moderno Morado y Blanco.pptx
Introducción iso 9001 curso UNIDAD - 3.pdf
Expo N°1-Difusión de Política y Objetivos SST-31.01.23.pptx
6. El proceso de la planificación.pptx6. El proceso de la planificación.pptx
auditoria ambiental y su uso en la practica diaria
ORD-REG-ELEMENTOS-PUBLICITARIOS-AMSS-12-MARZO.pdf
Esta es una presentacion ejecutiva del cual pueden concluir
clase Contabilidad 2 [Autoguardado].pptx
Presentacion_charlas_Etapa_Productiva_aprendices.pptx
Curso-de-Aire-Acondicionado-y-Refrigeracion-Electronica-para-Ingenio-Azucarer...
saHERNISA FEMsOassaSAsasASAsaSasaSASaAsaS
ABDOMEN ABIERWWDEDEFDWDXEWdedwqddeqwdTO.pptx
Introducción a iso 9001 curso UNIDAD - 4.pdf
emprendedor social diapositivas de jhonatan del jesus

Data Integration & Data Quality Open Source (spanish)

  • 1. Data Integration & Data QualityData Integration & Data Quality Your open source based BI solution!! by
  • 2. Introducción a Data Quality Qué es Por qué Conceptos Beneficios de Data Quality Data Quality & Business Intelligence Pilares del BI Integración de datos Mejores prácticas Opensource & Data Quality Data Quality & Pentaho (PDI) PDI / ETLs / Integridad / Validación Data Cleaner Integración Data Cleaner y PDI Índice
  • 4. Confían en Business Intelligence Open Source Sector Privado Sector Público
  • 5. Introducción a Data QualityIntroducción a Data Quality http://optimizeyourdataquality.wordpress.com/
  • 6. Introducción ¿Qué es Data Quality?¿Qué es Data Quality? Definición no estándar “Proceso constante de percepción o evaluación del grado de conveniencia de los datos que sirven para un propósito en un determinado contexto” Búsqueda de atributos en los datos: Precisión Fidelidad Integridad Relevancia http://unitar.org
  • 7. Introducción ¿Por qué Data Quality?¿Por qué Data Quality?
  • 9. Gobernanza de datos Toma de decisiones mejor y más rápida Crítico disponer de datos de calidad Introducción Fundamental realizar tareas de Data Quality en los procesos de integración de datos
  • 10. Beneficios de Data QualityBeneficios de Data Quality Introducción Segmentación de clientes adecuada  Satisfacción de clientes Evita tratar información errónea  Reducción de costes Mayor confianza y valor de la información Mejor eficacia en los procesos de negocio Incremento en los ingresos
  • 12. ¿Qué es Business Intelligence? (BI) Habilidad para transformar datos en información, información en conocimiento y optimizar el proceso de toma de decisiones en los negocios Data Quality & Business Intelligence Herramientas Visuales para un Análisis óptimo y sencillo Datos robustos y confiables Pilares del Business IntelligencePilares del Business Intelligence Procesos involucrados: •Integración de datos •Explotación de información
  • 13. Integración de datosIntegración de datos Clave para cualquier proyecto BI ETL = Extract, Transform and Load Proceso para mover datos de diferentes fuentes, tratarlos y cargarlos en bases de datos unificadas: data warehouse / data marts. Data Quality & Business Intelligence Tareas principales: Extraer datos de múltiples fuentes Aplicar calidad y consistencia (limpiar) a los datos Conformar (unificar) los datos Cargar los datos en un DW http://blog.bootstraptoday.com CRM ERP BPM CMS
  • 14. Data Quality & Business Intelligence DESAFÍOS: Fuentes heterogéneas Grandes volúmenes de datos Mejorar eficiencia operativa Sincronismo de las fuentes Escalabilidad Integración de datos y Data Quality muy relacionadosIntegración de datos y Data Quality muy relacionados Integración de datosIntegración de datos
  • 15. El Proceso de Data Quality puede realizarse de forma: Manual  Consultas ad-hoc, búsqueda en ficheros, etc… Automatizada  Incluido en el proceso de integración de datos Son métodos complementarios, aunque: Tareas de Data Quality como parte del proceso de Integración de Datos (ETL)Tareas de Data Quality como parte del proceso de Integración de Datos (ETL) Data Quality & Business Intelligence Integración de datosIntegración de datos
  • 16. Mejores prácticas en ETLMejores prácticas en ETL Centralizar procedimientos: asegura la homogeneidad y coherencia de datos de diferentes fuentes. Evitar redundancia de cálculos: si un dato está calculado en origen, no volver a calcularlo. Mejora el rendimiento y evita posibles inconsistencias. Establecer puntos de “control de calidad”: asegura la ejecución en puntos clave del proceso y permite registrar información de seguimiento para futuras auditorías. Implementar procesos de recarga de la información: útiles ante posibles errores de carga inicial. Utilizar estructuras intermedias: facilita la monitorización y seguimiento del proceso. Data Quality & Business Intelligence
  • 17. Mejores prácticas en ETLMejores prácticas en ETL Data Quality & Business Intelligence Procesos centralizados y estandarizados Puntos de control y registro Estructuras intermedias Aplicar filosofía BI al proceso de calidad de datos Explotar y analizar resultados de Data Quality Permite
  • 19. Herramientas ETL y Data QualityHerramientas ETL y Data Quality Pentaho Data Integration Talend Open Studio DataCleaner Talend Data Quality Google Refine Opensource & Data Quality Algunas Soluciones Data Quality Opensource: Principales Soluciones ETL Opensource
  • 20. Data Quality & Pentaho Data IntegrationData Quality & Pentaho Data Integration Herramienta ETL intuitiva basada en trabajos y transformaciones Libertad para decidir dónde y cómo realizar tareas de: profiling, cleansing, integrity, validation; en base a metadatos. Disponibilidad en transformaciones de componentes orientados a Data Quality: No es herramienta pura de profiling, pero se puede integrar DataCleaner Arquitectura de Plug-in que permite expandir sus funcionalidades. Opensource & Data Quality
  • 21. Opensource & Data Quality Variedad de componentes: Limpieza Scripting (sql, javascript) Validación Estadísticas Etc… Data Quality & Pentaho Data IntegrationData Quality & Pentaho Data Integration
  • 22. Data Quality & Pentaho Data IntegrationData Quality & Pentaho Data Integration Opensource & Data Quality Importante buen diseño de ETL distribuido en fases: 1. Preparación del proceso 2. Recepción de datos 3. Procesamiento de datos 4. Carga final 5. Informes de resultados 6. Control de actividades transversal Este planteamiento permite: Estandarizar los procesos en una organización Escalar mejor al incrementar el número de fuentes Controlar de forma centralizada los resultados de los procesos
  • 23. Data CleanerData Cleaner Opensource & Data Quality Herramienta de Profiling recomendada por Pentaho Alternativas de uso: Herramienta de escritorio Herramienta web Plugin para PDI
  • 24. Data Cleaner DesktopData Cleaner Desktop Opensource & Data Quality Funcionalidades: Limpieza de datos Definición de diccionarios de datos Búsqueda de patrones, duplicados, nulos, etc. Monitorización Estadísticas de resultados completa Etc.
  • 25. Data Cleaner Monitor (web)Data Cleaner Monitor (web) Opensource & Data Quality Funcionalidades: Monitorización centralizada Visualización elegante Programación de trabajos Data Cleaner y PDI Definición de métricas propias Etc.
  • 26. Integración Data Cleaner / PDIIntegración Data Cleaner / PDI Opensource & Data Quality Al instalar el plugin de Data Cleaner para PDI, existen dos posibles uso: Opción A Hacer profiling de los datos resultantes de un paso PDI
  • 27. Integración Data Cleaner / PDIIntegración Data Cleaner / PDI Opensource & Data Quality Al instalar el plugin de Data Cleaner para PDI, existen dos posibles uso: Opción B Ejecutar un trabajo de Data Cleaner
  • 28. Referencias International Association for Information and Data Quality: http://iaidq.org/ Pentaho Data Integration: http://www.pentaho.com/explore/pentaho-data-integration/ Data Cleaner: http://datacleaner.org/
  • 29. Stratebi: Quiénes somos www.TodoBI.com info@stratebi.com www.stratebi.com Mas información Tfno: 91.788.34.10 MadridMadrid: Pº de la Castellana, 164, 1º BarcelonaBarcelona: C/ Valencia, 63 BrasilBrasil:: Av. Paulista, 37 4 andar

Notas del editor

  • #9: Data Profiling: proceso de examinar los datos que existen en las fuentes de origen y recopilar estadísticas e información sobre los mismos. Data Cleansing: proceso de detectar y corregir datos corruptos, incoherentes o erróneos. Data Integrity: proceso de analizar la consistencia de los datos y las relaciones entre los diferentes conjuntos de datos. Data Validation: proceso de aplicar reglas de validación a los datos basándose en diccionarios de datos y/o reglas de negocio. Master Data Management: conjunto de procesos, políticas, estándares y herramientas que sirven para gestionar Datos Maestros de una organización (normalmente información no transaccional). Data Auditing: proceso de gestionar cómo los datos se ajustan a los propósitos definidos por la organización. Es necesario establecer las políticas necesarias. Actuar + Vigilar. Data Governance: concepto que engloba a todos los procesos anteriores y que permite a una organización disponer de una información confiable.