SlideShare una empresa de Scribd logo
Descubrimiento de Conocimiento en Base de Datos (KDD)Fase de Integración y RecopilaciónIntroducción
Almacén de Datos (Data Warehouse).
Almacén de Datos (DW) Ventajas.
Almacén de Datos (DW) Desventajas.
Procesamiento de Transacciones en Línea (OLPT) versus Almacén de Datos (DW).
DataMart.
DataMart (Tipos).
DataMart versus Almacén de Datos (DW).
Almacén de Datos (DW) Objetivos.
Almacén de Datos (DW) Arquitectura.
Almacén de Datos (DW) Procesos.
Almacén de Datos (DW) Diseño.
Almacén de Datos (DW) Diseño Pasos.
Almacén de Datos (DW) Diseño Modelo de Datos.
Almacén de Datos (DW) Diseño Modelo Multidimensional.
MOLAP – OLAP Multidimensional.
ROLAP – OLAP Relacional.
HOLAP – OLAP Hibrido.Elaborado por: Jean Sánchez
IntroducciónLos Almacenes de Datos (DataWarehouse) es la clave que permitirá a los usuarios del sistema efectuar sobre los datos:Cualquier pregunta (las preguntas que pueden hacer los usuarios).Cualquier  momento (el acceso de los usuarios a los datos).Cualquier dato (la cantidad de datos y detalles que el usuario puede tener sobre estos).
IntroducciónHoy en día toda empresa necesita depositar mucha confianza en la toma de decisiones sobre los negocios, para tomar dichas decisiones se requiere hechos y cifras, sabemos que la competencia crece en todo momento entonces las decisiones que debemos tomar en nuestra empresa deben ser mas aceleradas; pero que pasa si tenemos una montaña de información la cual debe ser analizada, lógicamente pensamos que necesitaríamos mucho tiempo.Los Almacenes de Datos son un proceso, no un producto.El DW es un conjunto de procesos y acciones, es una colección de datos orientados a un tema, integrados y no volátiles en el soporte al proceso  de toma de decisiones de la gerencia.
IntroducciónAlmacenes de Datos (DW)motivacióndisponer de Sistemas de Información de apoyo a la toma de decisiones (DSS)disponer de bases de datos que permitan extraer conocimiento de la información histórica almacenada en la organizaciónobjetivosanálisis de la organización previsiones de evolucióndiseño de estrategias
Introducción¿Cómo trabaja el Almacén de Datos?Extrae la información operacional. Transforma la operación a formatos consistentes. Automatiza las tareas de la información para prepararla a un análisis eficiente.¿En que puede ser usado?Manejo de relaciones de marketing.Análisis de rentabilidad.Reducción de costos.¿Por qué usarlo?Obtiene respuestas en tiempos razonables. Analiza desde una perspectiva en el tiempo con la información histórica que se brinde. Nos permite tener fuentes externas para ayudar a nuestra información. La información proveniente de fuentes operacionales es transformada y limpiada para lograr consistencia.
IntroducciónObjetivo: Analizar y extraer información útil de los datos Necesidad: disponer de los datos.Proceso de recopilación.- Diversidad de fuentes.- Tamaño de las fuentesArchivo simpleQué fuentes.- Internas.- ExternasCómo se van a mantener en el tiempoCómo se van a organizarCómo se va a poder extraer.- Total / parcialmente.- Agregados / en detalleLos almacenes de datos no son estrictamente necesarios para realizar minería de datos pero sí son muy útiles si se trabaja con grandes volúmenes de datos, que varían en el tiempo y donde se desea realizar tareas de minería de datos variadas, abiertas y cambiantes.
IntroducciónConsultas pre-definidasPreguntas ad hocModelamiento predictivo ¿Cómo se usan los Almacenes de Datos? y ¿cuáles son sus requerimientos?ETAPA 1de InformesQUÉ pasó?ETAPA 2 de AnálisisPOR QUÉ pasó?ETAPA 3 de PredicciónQUÉ PUEDE pasar si..?
Almacén de Datos (DW)Inmon[MicroSt96] (considerado el padre de las B.D.) en 1992: “Un DW es una colección de datos orientados a temas, integrados, no-volátiles y variante en el tiempo, organizados para soportar necesidades empresariales”. En 1993, Susan Osterfeldt[MicroSt96] publica una definición que sin duda acierta en la clave del DW: "Yo considero al DW como algo que provee dos beneficios empresariales reales: integración y Acceso de datos. DW elimina una gran cantidad de datos inútiles y no deseados, como también el procesamiento desde el ambiente operacional clásico".
Almacén de Datos (DW)Un Almacén de Datos o DataWarehouse es esencialmente una replica de la información existente estructurada de tal forma que permita acceder y representar grandes volúmenes de datos de la organización, sean estos estratégicos, tácticos y operativos, posibilitando la explotación de su contenido, proporcionando información vital para la toma de decisiones.Un DataWarehouse es:Orientada a un objetivo (subject-oriented),integrada,Variable en el tiempo,No volátil.
Almacén de Datos (DW)PRODUCTOGAMAVENTAPAÍSCURSOREUNIONPROTOTIPO.....................Información NecesariaSe diseña para consultar eficientemente información relativa a las  actividades (ventas, compras, producción, ...) básicas de la organización, no para soportar los procesos que se realizan en ella (gestión de pedidos, facturación, entre otros).DW: Orientado hacia a un objetivos, la información relevante de la organizaciónBase de Datos Transaccional
Almacén de Datos (DW)Fuente de Datos 1textoBase de Datos Transaccional 1Fuentes ExternasFuentes InternasBase de Datos Transaccional 2Almacén de DatosFuente de Datos 3Fuente de Datos 2HTMLIntegra todos los datos recogidos de  los diferentes sistemas operacionales de la organización, además de fuentes externas.DW: Integrado
Almacén de Datos (DW)DatosTiempo01/2007Datosde Enero02/2007Datos de Febrero03/2007Datos de MarzoLos datos son relativos a un período de tiempo y deben ser incrementados periódicamente.DW: Variable en el tiempoLos datos son almacenados como fotos (snapshots) correspondientes a períodos de tiempo.
Almacén de Datos (DW)Los datos almacenados no son actualizados, sólo son incrementados. DW: No volátilCargaBases de datos operacionalesAlmacén de DatosINSERT      READUPDATEDELETEREADEl período de tiempo cubierto por un DW varía entre 2 a 15 años.
Almacén de Datos (DW)
Almacén de Datos (DW) VentajasAlmacén de Datosventajas para las organizacionesrentabilidad de las inversiones realizadas para su creaciónaumento de la productividad de los técnicos de direcciónaumento de la competitividad en el mercado
Almacén de Datos (DW) Desventajas Almacén de Datosdesventajasprivacidad de los datosSub-valoración del esfuerzo necesario para su diseño y creaciónincremento continuo de los requisitos de los usuariosSub-valoración de los recursos necesarios para la captura, carga y almacenamiento de los datos
Procesamiento de Transacciones en Línea (OLPT) versus Almacén de Datos (DW)
DataMartEs el almacén de datos relacional que contiene las tablas a partir de las cuales se construye el cubo dimensional. Además, es un repositorio parcial de datos de la empresa, donde se almacenan datos tácticos y operativos, con el objeto de obtener información táctica.Por otra parte, es un conjunto de hechos y datos organizados para soporte decisional basados en la necesidad de un área o departamento específico. Los datos son orientados a satisfacer las necesidades particulares de un departamento dado teniendo sólo sentido  para el personal de ese departamento y sus datos no tienen porque tener las mismas fuentes que los de otro DataMart.Con su implementación se consigue:Programas y procedimientos para extraer, transformar y cargar datos.Instalar herramientas de acceso a los datos.Poblar el DW con los datos necesarios.Poblar el catálogo de metadatos con los datos necesarios.Técnicas de uso y soporte el almacén
DataMart (Tipos)1.- Data Marts Finanzas.2.- Data Marts Comercial.3.- Data Marts Logística.4.- Data Marts Recursos Humanos.
DataMart versus Almacén de Datos (DW)
Almacén de Datos (DW) ObjetivosPosibilitar a Ejecutivos de la empresa, de nivel superior y medio, y analistas, generar, a partir de la información disponible, el conocimiento necesario para orientar, readecuar o fortalecer mejores y más rápidas decisiones ejecutivas, a través de sistemas como:Sistema de información ejecutiva (EIS), herramientas que posibilitan la entrega de información estratégica a los ejecutivos a través de: reportes varios, reportes comparativos y cuadros de mando multi-dimensionales.Sistema de asistencia a las decisiones (DSS), herramientas que proporcionan asistencia para la toma de decisiones. Adiciona ciertas reglas de decisión y análisis de datos no predefinidos en las capacidades de un EIS .
Almacén de Datos (DW) ArquitecturaLos principales resultados del desarrollo de laarquitectura DW incluyen:El modelo de datos fuente.El modelo de datos conceptual DW.Arquitectura tecnológica DW.Estándares y procedimientos DW.El plan de implementación incremental para el DW.
Almacén de Datos (DW) ArquitecturaOrganización (Externa) de Los Datos…Las herramientas de explotación de los almacenes de datos han adoptado un modelo multidimensional de datos.Se ofrece al usuario una visión multidimensional de los datos que son objeto de análisis.
Almacén de Datos (DW) ArquitecturaMarcaTiempoDescripciónSemanaProductoCategoríaDepartamentoMesTrimestreNro_productoDíaVentasAñoTipoimporteunidadesAlmacénCiudadTipoAlmacénRegión
Almacén de Datos (DW) ArquitecturaTiempoProductoVentasimporteunidadesActividad que es objeto de análisis con los indicadores que interesa analizarAlmacénDimensiones (puntos de vista) desde los que se puede analizar la actividad.MarcaSemanaDescripciónCategoríaMesDepartamentoTrimestreDíaNro_productoAñoTipoAlmacénCiudadTipoRegión
Almacén de Datos (DW) ProcesosLos procesos que conforma el DataWarehouse son:Sistema ETL (Extraction, Transformation, Load): realiza las funciones de extracción de las fuentes de datos (transaccionales o externas), transformación (limpieza, consolidación, ...) y la carga del DW, realizando:Extracción de los datos.Filtrado de los datos: limpieza, consolidación, etc.Carga inicial del almacén: ordenación, agregaciones, etc.Refresco del almacén: operación periódica que propaga los cambios de las fuentes externas al almacén de datos.Repositorio Propio de Datos: Información relevante: corresponde a la mirada temporal de los datos (mezcla de “fotos” de los datos) y las agregaciones correspondientes) Metadatos (datos con respecto a los datos), que son almacenados para indicar el significado y uso de los datos propiamente tal.
Almacén de Datos (DW) ProcesosInterfaz: permiten acceder a los datos y sobre ellos se conectan otro tipo de herramientas más sofisticadas Herramientas de Consulta: corresponde a software especializado en el análisis y consulta de grandes volúmenes de datos (OLAP, EIS, Minería de Datos).Sistemas de Integridad: se encargan de un mantenimiento global (actualizaciones y calidad de información)Seguridad: encargado de realizar las copias de seguridad, recuperación, entre otros.
Almacén de Datos (DW) DiseñoEl desarrollo de la tecnología de Almacenes de Datos se caracteriza por:Temprano desarrollo industrial provocado por las demandas de los usuarios.Uso de metodologías de diseño, donde  la atención se ha centrado en mejorar la eficiencia en la ejecución de consultas.Se diseñan los Almacenes de Datos sabiendo que:Modelo de datos utilizado que de cuenta de la necesidad de almacenamiento de información histórica y orientada a análisis.Búsqueda de eficiencia en el almacenamiento y extracción de información, así como de herramientas de análisis.Compromiso entre el nivel de detalle requerido y la utilidad y costo de ellos .
Almacén de Datos (DW) DiseñoRecogida y análisis derequisitosDiseño conceptualDiseño lógico específicoDiseño físicoImplementación
Almacén de Datos (DW) DiseñoRecogida y análisis derequisitosAnálisisDiseño conceptualRequisitos de usuario (consultas de análisis necesarias, nivel de agregación, …)Discernimiento de fuentes necesarias del sistema de información de la organización (OLTP) y las externasDiseño lógicoDiseño físicoImplementaciónDiseño Conceptual
Almacén de Datos (DW) DiseñoRecogida y análisis derequisitosDiseño LógicoDiseño conceptualModelado multidimensional (MR)Diseño lógicoDiseño físicoEsquemas estrellaImplementación

Más contenido relacionado

PPTX
Aplicaciones difusas manejo de grandes volúmenes de datos
PPTX
Que Es Un Data Warehouse
PPTX
Aplicaciones difusas:Introducción a BI
DOCX
Almacén de datos
PDF
Introduccion datawarehouse
PPT
Datawarehouse práctica 6
PPTX
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
PPT
Data warehouse
Aplicaciones difusas manejo de grandes volúmenes de datos
Que Es Un Data Warehouse
Aplicaciones difusas:Introducción a BI
Almacén de datos
Introduccion datawarehouse
Datawarehouse práctica 6
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
Data warehouse

La actualidad más candente (20)

DOCX
Almacenes de datos
PDF
Datawarehouse
PPT
DATAWAREHOUSE, importancia del almacén de datos
PPTX
Almacen de datos
PPTX
Almacen de datos
PPTX
data warehouse
PPT
Datawarehouse y Datamining
DOCX
Almacén de datos
DOCX
Que Es Un Data Warehouse
DOCX
Arquitectura de un dw
PPT
DATA WAREHOUSE
DOCX
Data mart-data-warehouse-data-mining
PPTX
Data warehouse
PPSX
Datawarehouse
PPT
Datawarehouse1
PPT
Fundamentos de DataWarehouse
PPTX
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
PPTX
Data warehouse
PDF
Datawarehouse
PPT
Datawarehouse
Almacenes de datos
Datawarehouse
DATAWAREHOUSE, importancia del almacén de datos
Almacen de datos
Almacen de datos
data warehouse
Datawarehouse y Datamining
Almacén de datos
Que Es Un Data Warehouse
Arquitectura de un dw
DATA WAREHOUSE
Data mart-data-warehouse-data-mining
Data warehouse
Datawarehouse
Datawarehouse1
Fundamentos de DataWarehouse
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Data warehouse
Datawarehouse
Datawarehouse
Publicidad

Destacado (20)

PPT
Pintura com os pés
PPT
Internet
PPT
Caligrafía ezequiel ocampo
PPTX
Identificación_Institucional
ODS
Evaluacion primer periodo-11-2
PPT
MODELO TPACK
PPTX
Sopa de Pedra
PPTX
R E D E S S O C I A L E S
PDF
PPS
001 matrimonios-200413
PPT
El arte visigodo
PDF
Informe "Los cruceños y sus actitudes sobre el amor"
PPTX
Historia y cartografía de cartagena de indias
PDF
Receitas PráTicas
PPTX
Dia mundial del sida
PPTX
Presentacion andragogia
DOC
Guião de trabalho
PPT
Audiencia
Pintura com os pés
Internet
Caligrafía ezequiel ocampo
Identificación_Institucional
Evaluacion primer periodo-11-2
MODELO TPACK
Sopa de Pedra
R E D E S S O C I A L E S
001 matrimonios-200413
El arte visigodo
Informe "Los cruceños y sus actitudes sobre el amor"
Historia y cartografía de cartagena de indias
Receitas PráTicas
Dia mundial del sida
Presentacion andragogia
Guião de trabalho
Audiencia
Publicidad

Similar a Kdd fase1 (20)

PPSX
Datawarehouse base datos
PDF
Negocios inteligentes
PPT
Data Warehouse.gestion de bases de datos
PPTX
Data warehouse
PPTX
Exposicion reyna dora
PPTX
Data mart-data-warehouse-data-mining
DOCX
Actividad #1 introducción a la inteligencia de negocios
PDF
Fundamentos teóricos de los almacenes de datos. Metodologías y herramientas p...
PPTX
Datawarehouse2
DOCX
Traduccion data warehousing
PPTX
PonenciaImpAlmEmp FinalP.pptx
PPTX
ALMACEN DE DATOS.pptx
PPT
Conceptos de Data Warehouse.ppt
PDF
Bussiness inteligence
PDF
Bussiness inteligence
PPT
Unidad2 Bases De Datos Para L Toma De Desiciones
PPTX
CAPITULO 3. Data warehouse REVISADO.pptx
PPT
Copy of Charla Cibertec DAT.ppt
PPTX
SISTEMAS DE INTELIGENCIA DE NEGOCIOS
PPT
Presentación de como montar un Data Wharehouse
Datawarehouse base datos
Negocios inteligentes
Data Warehouse.gestion de bases de datos
Data warehouse
Exposicion reyna dora
Data mart-data-warehouse-data-mining
Actividad #1 introducción a la inteligencia de negocios
Fundamentos teóricos de los almacenes de datos. Metodologías y herramientas p...
Datawarehouse2
Traduccion data warehousing
PonenciaImpAlmEmp FinalP.pptx
ALMACEN DE DATOS.pptx
Conceptos de Data Warehouse.ppt
Bussiness inteligence
Bussiness inteligence
Unidad2 Bases De Datos Para L Toma De Desiciones
CAPITULO 3. Data warehouse REVISADO.pptx
Copy of Charla Cibertec DAT.ppt
SISTEMAS DE INTELIGENCIA DE NEGOCIOS
Presentación de como montar un Data Wharehouse

Más de Jean Sanchez (20)

PDF
WEKA: Programa que Permite una mayor Comprensión y Acercamiento a la Minería ...
PPT
Jean realidadaumentada
PPSX
PPSX
Brevepaseoporla mineríadedatos
PDF
PDF
Yog leaflet spanish
PDF
PDF
Gorila
PDF
Amazonalive web2
DOC
Grupo sslj-805
PPSX
Presentacion andragogia
PPSX
Presentacion andragogia
PPSX
Weka completo
PDF
Memorias IIICVEI
PDF
Articulo ICIEI
PPSX
Jornadas una
PDF
Jean sancheziiicvei extenso
PDF
IIICVEI
PDF
Programa final cvei
PDF
Program final cveiii
WEKA: Programa que Permite una mayor Comprensión y Acercamiento a la Minería ...
Jean realidadaumentada
Brevepaseoporla mineríadedatos
Yog leaflet spanish
Gorila
Amazonalive web2
Grupo sslj-805
Presentacion andragogia
Presentacion andragogia
Weka completo
Memorias IIICVEI
Articulo ICIEI
Jornadas una
Jean sancheziiicvei extenso
IIICVEI
Programa final cvei
Program final cveiii

Kdd fase1

  • 1. Descubrimiento de Conocimiento en Base de Datos (KDD)Fase de Integración y RecopilaciónIntroducción
  • 2. Almacén de Datos (Data Warehouse).
  • 3. Almacén de Datos (DW) Ventajas.
  • 4. Almacén de Datos (DW) Desventajas.
  • 5. Procesamiento de Transacciones en Línea (OLPT) versus Almacén de Datos (DW).
  • 8. DataMart versus Almacén de Datos (DW).
  • 9. Almacén de Datos (DW) Objetivos.
  • 10. Almacén de Datos (DW) Arquitectura.
  • 11. Almacén de Datos (DW) Procesos.
  • 12. Almacén de Datos (DW) Diseño.
  • 13. Almacén de Datos (DW) Diseño Pasos.
  • 14. Almacén de Datos (DW) Diseño Modelo de Datos.
  • 15. Almacén de Datos (DW) Diseño Modelo Multidimensional.
  • 16. MOLAP – OLAP Multidimensional.
  • 17. ROLAP – OLAP Relacional.
  • 18. HOLAP – OLAP Hibrido.Elaborado por: Jean Sánchez
  • 19. IntroducciónLos Almacenes de Datos (DataWarehouse) es la clave que permitirá a los usuarios del sistema efectuar sobre los datos:Cualquier pregunta (las preguntas que pueden hacer los usuarios).Cualquier momento (el acceso de los usuarios a los datos).Cualquier dato (la cantidad de datos y detalles que el usuario puede tener sobre estos).
  • 20. IntroducciónHoy en día toda empresa necesita depositar mucha confianza en la toma de decisiones sobre los negocios, para tomar dichas decisiones se requiere hechos y cifras, sabemos que la competencia crece en todo momento entonces las decisiones que debemos tomar en nuestra empresa deben ser mas aceleradas; pero que pasa si tenemos una montaña de información la cual debe ser analizada, lógicamente pensamos que necesitaríamos mucho tiempo.Los Almacenes de Datos son un proceso, no un producto.El DW es un conjunto de procesos y acciones, es una colección de datos orientados a un tema, integrados y no volátiles en el soporte al proceso de toma de decisiones de la gerencia.
  • 21. IntroducciónAlmacenes de Datos (DW)motivacióndisponer de Sistemas de Información de apoyo a la toma de decisiones (DSS)disponer de bases de datos que permitan extraer conocimiento de la información histórica almacenada en la organizaciónobjetivosanálisis de la organización previsiones de evolucióndiseño de estrategias
  • 22. Introducción¿Cómo trabaja el Almacén de Datos?Extrae la información operacional. Transforma la operación a formatos consistentes. Automatiza las tareas de la información para prepararla a un análisis eficiente.¿En que puede ser usado?Manejo de relaciones de marketing.Análisis de rentabilidad.Reducción de costos.¿Por qué usarlo?Obtiene respuestas en tiempos razonables. Analiza desde una perspectiva en el tiempo con la información histórica que se brinde. Nos permite tener fuentes externas para ayudar a nuestra información. La información proveniente de fuentes operacionales es transformada y limpiada para lograr consistencia.
  • 23. IntroducciónObjetivo: Analizar y extraer información útil de los datos Necesidad: disponer de los datos.Proceso de recopilación.- Diversidad de fuentes.- Tamaño de las fuentesArchivo simpleQué fuentes.- Internas.- ExternasCómo se van a mantener en el tiempoCómo se van a organizarCómo se va a poder extraer.- Total / parcialmente.- Agregados / en detalleLos almacenes de datos no son estrictamente necesarios para realizar minería de datos pero sí son muy útiles si se trabaja con grandes volúmenes de datos, que varían en el tiempo y donde se desea realizar tareas de minería de datos variadas, abiertas y cambiantes.
  • 24. IntroducciónConsultas pre-definidasPreguntas ad hocModelamiento predictivo ¿Cómo se usan los Almacenes de Datos? y ¿cuáles son sus requerimientos?ETAPA 1de InformesQUÉ pasó?ETAPA 2 de AnálisisPOR QUÉ pasó?ETAPA 3 de PredicciónQUÉ PUEDE pasar si..?
  • 25. Almacén de Datos (DW)Inmon[MicroSt96] (considerado el padre de las B.D.) en 1992: “Un DW es una colección de datos orientados a temas, integrados, no-volátiles y variante en el tiempo, organizados para soportar necesidades empresariales”. En 1993, Susan Osterfeldt[MicroSt96] publica una definición que sin duda acierta en la clave del DW: "Yo considero al DW como algo que provee dos beneficios empresariales reales: integración y Acceso de datos. DW elimina una gran cantidad de datos inútiles y no deseados, como también el procesamiento desde el ambiente operacional clásico".
  • 26. Almacén de Datos (DW)Un Almacén de Datos o DataWarehouse es esencialmente una replica de la información existente estructurada de tal forma que permita acceder y representar grandes volúmenes de datos de la organización, sean estos estratégicos, tácticos y operativos, posibilitando la explotación de su contenido, proporcionando información vital para la toma de decisiones.Un DataWarehouse es:Orientada a un objetivo (subject-oriented),integrada,Variable en el tiempo,No volátil.
  • 27. Almacén de Datos (DW)PRODUCTOGAMAVENTAPAÍSCURSOREUNIONPROTOTIPO.....................Información NecesariaSe diseña para consultar eficientemente información relativa a las actividades (ventas, compras, producción, ...) básicas de la organización, no para soportar los procesos que se realizan en ella (gestión de pedidos, facturación, entre otros).DW: Orientado hacia a un objetivos, la información relevante de la organizaciónBase de Datos Transaccional
  • 28. Almacén de Datos (DW)Fuente de Datos 1textoBase de Datos Transaccional 1Fuentes ExternasFuentes InternasBase de Datos Transaccional 2Almacén de DatosFuente de Datos 3Fuente de Datos 2HTMLIntegra todos los datos recogidos de los diferentes sistemas operacionales de la organización, además de fuentes externas.DW: Integrado
  • 29. Almacén de Datos (DW)DatosTiempo01/2007Datosde Enero02/2007Datos de Febrero03/2007Datos de MarzoLos datos son relativos a un período de tiempo y deben ser incrementados periódicamente.DW: Variable en el tiempoLos datos son almacenados como fotos (snapshots) correspondientes a períodos de tiempo.
  • 30. Almacén de Datos (DW)Los datos almacenados no son actualizados, sólo son incrementados. DW: No volátilCargaBases de datos operacionalesAlmacén de DatosINSERT READUPDATEDELETEREADEl período de tiempo cubierto por un DW varía entre 2 a 15 años.
  • 32. Almacén de Datos (DW) VentajasAlmacén de Datosventajas para las organizacionesrentabilidad de las inversiones realizadas para su creaciónaumento de la productividad de los técnicos de direcciónaumento de la competitividad en el mercado
  • 33. Almacén de Datos (DW) Desventajas Almacén de Datosdesventajasprivacidad de los datosSub-valoración del esfuerzo necesario para su diseño y creaciónincremento continuo de los requisitos de los usuariosSub-valoración de los recursos necesarios para la captura, carga y almacenamiento de los datos
  • 34. Procesamiento de Transacciones en Línea (OLPT) versus Almacén de Datos (DW)
  • 35. DataMartEs el almacén de datos relacional que contiene las tablas a partir de las cuales se construye el cubo dimensional. Además, es un repositorio parcial de datos de la empresa, donde se almacenan datos tácticos y operativos, con el objeto de obtener información táctica.Por otra parte, es un conjunto de hechos y datos organizados para soporte decisional basados en la necesidad de un área o departamento específico. Los datos son orientados a satisfacer las necesidades particulares de un departamento dado teniendo sólo sentido para el personal de ese departamento y sus datos no tienen porque tener las mismas fuentes que los de otro DataMart.Con su implementación se consigue:Programas y procedimientos para extraer, transformar y cargar datos.Instalar herramientas de acceso a los datos.Poblar el DW con los datos necesarios.Poblar el catálogo de metadatos con los datos necesarios.Técnicas de uso y soporte el almacén
  • 36. DataMart (Tipos)1.- Data Marts Finanzas.2.- Data Marts Comercial.3.- Data Marts Logística.4.- Data Marts Recursos Humanos.
  • 37. DataMart versus Almacén de Datos (DW)
  • 38. Almacén de Datos (DW) ObjetivosPosibilitar a Ejecutivos de la empresa, de nivel superior y medio, y analistas, generar, a partir de la información disponible, el conocimiento necesario para orientar, readecuar o fortalecer mejores y más rápidas decisiones ejecutivas, a través de sistemas como:Sistema de información ejecutiva (EIS), herramientas que posibilitan la entrega de información estratégica a los ejecutivos a través de: reportes varios, reportes comparativos y cuadros de mando multi-dimensionales.Sistema de asistencia a las decisiones (DSS), herramientas que proporcionan asistencia para la toma de decisiones. Adiciona ciertas reglas de decisión y análisis de datos no predefinidos en las capacidades de un EIS .
  • 39. Almacén de Datos (DW) ArquitecturaLos principales resultados del desarrollo de laarquitectura DW incluyen:El modelo de datos fuente.El modelo de datos conceptual DW.Arquitectura tecnológica DW.Estándares y procedimientos DW.El plan de implementación incremental para el DW.
  • 40. Almacén de Datos (DW) ArquitecturaOrganización (Externa) de Los Datos…Las herramientas de explotación de los almacenes de datos han adoptado un modelo multidimensional de datos.Se ofrece al usuario una visión multidimensional de los datos que son objeto de análisis.
  • 41. Almacén de Datos (DW) ArquitecturaMarcaTiempoDescripciónSemanaProductoCategoríaDepartamentoMesTrimestreNro_productoDíaVentasAñoTipoimporteunidadesAlmacénCiudadTipoAlmacénRegión
  • 42. Almacén de Datos (DW) ArquitecturaTiempoProductoVentasimporteunidadesActividad que es objeto de análisis con los indicadores que interesa analizarAlmacénDimensiones (puntos de vista) desde los que se puede analizar la actividad.MarcaSemanaDescripciónCategoríaMesDepartamentoTrimestreDíaNro_productoAñoTipoAlmacénCiudadTipoRegión
  • 43. Almacén de Datos (DW) ProcesosLos procesos que conforma el DataWarehouse son:Sistema ETL (Extraction, Transformation, Load): realiza las funciones de extracción de las fuentes de datos (transaccionales o externas), transformación (limpieza, consolidación, ...) y la carga del DW, realizando:Extracción de los datos.Filtrado de los datos: limpieza, consolidación, etc.Carga inicial del almacén: ordenación, agregaciones, etc.Refresco del almacén: operación periódica que propaga los cambios de las fuentes externas al almacén de datos.Repositorio Propio de Datos: Información relevante: corresponde a la mirada temporal de los datos (mezcla de “fotos” de los datos) y las agregaciones correspondientes) Metadatos (datos con respecto a los datos), que son almacenados para indicar el significado y uso de los datos propiamente tal.
  • 44. Almacén de Datos (DW) ProcesosInterfaz: permiten acceder a los datos y sobre ellos se conectan otro tipo de herramientas más sofisticadas Herramientas de Consulta: corresponde a software especializado en el análisis y consulta de grandes volúmenes de datos (OLAP, EIS, Minería de Datos).Sistemas de Integridad: se encargan de un mantenimiento global (actualizaciones y calidad de información)Seguridad: encargado de realizar las copias de seguridad, recuperación, entre otros.
  • 45. Almacén de Datos (DW) DiseñoEl desarrollo de la tecnología de Almacenes de Datos se caracteriza por:Temprano desarrollo industrial provocado por las demandas de los usuarios.Uso de metodologías de diseño, donde la atención se ha centrado en mejorar la eficiencia en la ejecución de consultas.Se diseñan los Almacenes de Datos sabiendo que:Modelo de datos utilizado que de cuenta de la necesidad de almacenamiento de información histórica y orientada a análisis.Búsqueda de eficiencia en el almacenamiento y extracción de información, así como de herramientas de análisis.Compromiso entre el nivel de detalle requerido y la utilidad y costo de ellos .
  • 46. Almacén de Datos (DW) DiseñoRecogida y análisis derequisitosDiseño conceptualDiseño lógico específicoDiseño físicoImplementación
  • 47. Almacén de Datos (DW) DiseñoRecogida y análisis derequisitosAnálisisDiseño conceptualRequisitos de usuario (consultas de análisis necesarias, nivel de agregación, …)Discernimiento de fuentes necesarias del sistema de información de la organización (OLTP) y las externasDiseño lógicoDiseño físicoImplementaciónDiseño Conceptual
  • 48. Almacén de Datos (DW) DiseñoRecogida y análisis derequisitosDiseño LógicoDiseño conceptualModelado multidimensional (MR)Diseño lógicoDiseño físicoEsquemas estrellaImplementación
  • 49. Almacén de Datos (DW) DiseñoRecogida y análisis derequisitosDiseño FísicoDiseño conceptualDiseño lógicoDefinición del esquema ROLAP o MOLAPDiseño físicoDiseño del ETLImplementación
  • 50. Almacén de Datos (DW) DiseñoRecogida y análisis derequisitosDiseño conceptualImplementaciónDiseño lógicoCarga del AD (ETL)Diseño físicoPreparación de las vistas de usuario (herramienta OLAP)Implementación
  • 51. Almacén de Datos (DW) DiseñoPasosPaso 1. Elegir un “proceso” de la organización para modelar.Paso 2. Decidir el gránulo (nivel de detalle) de representación del proceso.Paso 3. Identificar las dimensiones que caracterizan el proceso.Paso 4. Decidir la información a almacenar sobre el proceso.
  • 52. Almacén de Datos (DW) DiseñoPasosPaso 1. Elegir un “proceso” de la organización para modelar.Proceso: actividad de la organización soportada por un OLTP del cual se puede extraer información con el propósito de construir el almacén de datos.Pedidos (de clientes).Compras (a suministradores).Facturación.Envíos.Ventas.Inventario.
  • 53. Almacén de Datos (DW) DiseñoPasosPaso 2. Decidir el gránulo (nivel de detalle) de representación.Gránulo: es el nivel de detalle al que se desea almacenar información sobre la actividad a modelar.El gránulo define el nivel atómico de datos en el almacén de datos.
  • 54. El gránulo determina el significado de las tuplas de la tabla de hechos.
  • 55. El gránulo determina las dimensiones básicas del esquema
  • 59. información mensual.Almacén de Datos (DW) DiseñoPasosPaso 3. Identificar las dimensiones que caracterizan el proceso.Dimensiones: dimensiones que caracterizan la actividad al nivel de detalle (gránulo) que se ha elegido.Tiempo (dimensión temporal: ¿cuándo se produce la actividad?)Producto (dimensión ¿cuál es el objeto de la actividad?)Almacén (dimensión geográfica: ¿dónde se produce la actividad?)Cliente (dimensión ¿quién es el destinatario de la actividad?)De cada dimensión se debe decidir los atributos (propiedades) relevantes para el análisis de la actividad.
  • 60. Entre los atributos de una dimensión existen jerarquías naturales que deben ser identificadas (día-mes-año)Almacén de Datos (DW) DiseñoPasosPaso 4. Decidir la información a almacenar sobre el proceso.Hechos: información (sobre la actividad) que se desea almacenar en cada tupla de la tabla de hechos y que será el objeto del análisis.PrecioUnidadesImporteNota: algunos datos que en el OLTP coincidirían con valores de atributos de dimensiones, en el almacén de datos pueden representar hechos. (Ejemplo: el precio de venta de un producto).
  • 61. Almacén de Datos (DW) DiseñoModelo de DatosTiempoFoto de datosEl Modelo de Datos para representar historia y diseño del Almacén de Datos esta basado en el compromiso de:Repetir una foto temporal de los datos, así como aquellos elementos descriptivos (dimensiones).Orientación hacia el análisis y descubrimiento, así como identificar aquellos valores a ser requeridos (hechos).
  • 62. Almacén de Datos (DW) DiseñoModelo MultidimensionalModelo Multidimensional representa la actividad que es analizada (hecho) y las dimensiones que caracterizan la actividad (dimensiones).La información del hecho (actividad) se representan por indicadores (medidas o atributos de hecho).La información de cada dimensión se representan por atributos (de dimensión).Los tipos del Modelo Multidimensional son:Esquema de Estrella (Star schema): Un hecho está en medio del conjunto de dimensiones Esquema de Copo de Nieve (Snowflake schema): Un refinamiento del anterior, donde alguna jerarquía dimensional es normalizada en un conjunto de pequeñas dimensiones.Constelación de Hechos: Tablas de múltiples hechos, vistas como una colección de estrellas.
  • 63. Almacén de Datos (DW) DiseñoModelo Multidimensional (Esquema)Este esquema multidimensional recibe varios nombres:Estrella: si la jerarquía de dimensiones es linealEstrella jerárquica o copo de nieve: si la jerarquía no es lineal.
  • 64. Almacén de Datos (DW) DiseñoModelo Multidimensional en Estrella LinealProducto(Cantidad, Valor)DíaLocal
  • 65. Almacén de Datos (DW) DiseñoModelo Multidimensional en Estrella JerárquicoEn este caso existen dimensiones que tienen la posibilidad de extender su descripción vía jerarquía.El caso de la dimensión tiempo se extiende en dos jerarquías.
  • 66. MOLAP - OLAP MultidimensionalLos datos origen y sus agregaciones están en una estructura multidimensional.Los objetos dimensionales son procesados para incorporar cambios de los datos operacionalesExiste latencia. tiempo comprendido entre procesamientosCaracterísticas:Provee excelente rendimiento y compresión de datos. Mejor tiempo de respuesta, depende de las las agregaciones. Estructura optimizada para maximizar las consultas.Apropiado para cubos de rápida respuesta.
  • 67. ROLAP - OLAP RelacionalLa información del cubo, sus datos, su agregación, sumas son almacenados en una base de datos relacional.No copia la BD original, accede a las tablas origen.Es más lenta que las otras estrategias (MOLAP o HOLAP).Se utiliza para ahorrar espacio de almacenamiento en grandes DB de baja frecuencia de consulta.Usos comunes:Cuando los clientes desean ver los cambios inmediatamente. Cuando contamos con grandes conjuntos de datos que no son frecuentemente buscados
  • 68. HOLAP – OLAP HíbridoCombina atributos de MOLAP y ROLAP. Las agregaciones se almacenen en una estructura multidimensional y los detalle, en la BD original.Cubos más pequeños q’ MOLAP y más rápidos q’ ROLAP.Usos comunes:Cubos que requieren rápida respuestaCuando existen sumarizaciones basadas en una gran cantidad de datos de origen. Solución de compromiso para bajar el espacio ocupado sin perjudicar totalmente el rendimiento de las consultas.