SlideShare una empresa de Scribd logo
INGENIERÍA DE SISTEMAS Y TELEMÁTICA
Tema : ETL - EXTRAER, TRANSFORMAR Y CARGAR
Curso : Base de Datos II
Docente :Ing. Marco Aurelio Porro Chulli
Integrantes :
 Ana Leydi Linares Serrano.
 Patricia Reyna Reynaga
 Delsi Yakelin Huamán Villanueva
INTRODUCCIÓN
* ETL, esencialmente, es el proceso que permite a las empresas manejar y
movilizar datos desde distintos tipos de fuentes, para transformarlos,
limpiarlos y cargarlos en otra base de datos.
El principal propósito de ETL es transportar la información de la empresa
desde las aplicaciones de producción a los sistemas de Inteligencia de Negocio
(BI), este proceso consta de tres etapas:
*Extracción de datos
*Transformación de datos
*Carga de datos
FASES DE ETL
*FASE DE EXTRACCIÓN
La primera parte del proceso ETL consiste en extraer los datos desde el
sistema de origen.
Esta fase consta de tres pasos:
*
* se evalúan las necesidades
concretas de la organización.
*
* Antes de extraer los datos, se
identifica de qué tipo son y en qué
formato se encuentran los sistemas
fuente.
*
* En función de las necesidades
detectadas, se procede a la extracción
en sí de dichos datos.
*exigir siempre que esta tarea cause un
impacto mínimo en el sistema de
origen
*MODOS DE EXTRACCIÓN
Básicamente, existen tres modos distintos de extracción:
Full Extract o extracción
total
• Esta modalidad
consiste en extraer la
totalidad de datos.
Incremental Extract o
extracción incremental
• Se va procesando por
lotes únicamente lo
que fue modificado o
agregado.
Update Notification o
notificación de
actualizaciones
• En este caso, solo se
van extrayendo los
datos a medida que se
produce una
actualización (por
ejemplo, un inserto).
*
*Cualquier organización, empresa o
compañía debe exigir que el proceso de
extracción de datos desde su fuente o
fuentes de origen cause el menor
impacto posible. Es decir, que no
suponga ningún problema a los
empleados que, diariamente, trabajan
con los datos y registros.
*LIMPIEZA
*Asegura la calidad de los datos que vamos a procesar.
*Evita la información no veraz o errónea.
*Ahorra costes de espacio en disco al eliminarse la información duplicada.
*Agiliza las consultas por la ausencia de datos repetidos o inservibles.
*Ayuda a tomar decisiones estratégicas correctas.
La limpieza de datos se divide en distintas etapas, que vamos a describir a continuación:
Depurar los valores
Nombre
Ana Leydi Linares Serrano
Nombres Apellido Paterno Apellido Materno
Ana Leydi Linares Serrano
Por ejemplo: comprueba una dirección y el código postal correspondiente.
Corregir
formatos definidos. Por ejemplo: trato de Sr., Sra.
Estandarizar
eliminar duplicados. Por ejemplo: identificando nombres y direcciones similares.
Relacionar
analiza e identifica relaciones entre registros relacionados y los junta en una sola
representación.
Consolidar
FASE DE TRANSFORMACIÓN
Aplica una serie de reglas de negocio o funciones sobre los datos extraídos para
convertirlos en datos que serán cargados.
Algunas transformaciones:
 Seleccionar sólo ciertas columnas para su carga (por ejemplo, que las columnas
con valores nulos no se carguen).
 Traducir códigos (Por ejemplo, si la fuente de origen almacena una “H” para
hombres y una “M” para mujeres, dar las instrucciones necesarias para que en
destino se guarde un “ 1” para hombres y un” 2” para mujeres).
 Calcular totales de múltiples filas de datos (por ejemplo, ventas totales de cada
región).
 Dividir una columna en varias (por ejemplo, la columna “Nombre: García, Miguel”;
pasar a dos columnas “Nombre: Miguel” y “Apellido: García”)
Esta función corresponde al desarrollador o analista
del proceso ETL en cuestión. La definición de las
transformaciones a realizar se realiza en función de un
análisis previo y de la fase de limpieza.
¿Quién se encarga de realizar estas transformaciones?
FASE DE CARGA
En esta fase, los datos procedentes de la fase anterior(fase de
transformación) son dragados en el sistema e destino. Dependiendo de los
requerimientos de la organización, pueden ser de dos tipos:
 Acumulación simple
 Rolling
Acumulación simple
Consiste en realizar un resumen de todas las
transacciones comprendidas en el período de tiempo
seleccionado y transportar el resultado como una única
transacción hacia el data warehouse, almacenando un
valor calculado que consistirá típicamente en un
sumatorio o un promedio de la magnitud considerada.
Rolling
Este proceso sería el más recomendable en los casos
en que se busque mantener varios niveles de
granularidad. Para ello se almacena información
resumida a distintos niveles, correspondientes a
distintas agrupaciones de la unidad de tiempo o
diferentes niveles jerárquicos.
 Capacidad de entrega de datos.
 Capacidad de transformación de datos.
 Capacidad de Metadatos y Modelado de Datos.
 Adaptación a las diferentes plataformas hardware y sistema
operativos existentes.
 Emplearlas para la integración con sistemas heredados.
CARACTERISTICAS Y VENTAJAS
EJEMPLO
*
Gracias a los procesos ETL es posible que cualquier organización:
• Mueva datos desde una o múltiples fuentes.
• Reformatee esos datos y los limpie, cuando sea necesario.
• Los cargue en otro lugar como una base de datos, un data mart o un data warehouse.
• Una vez alojados en destino, esos datos se analicen.
• O, cuando ya están cargados en su ubicación definitiva, se empleen en otro sistema
operacional, para apoyar un proceso de negocio.
Las herramientas ETL pueden ser útiles para multitud de propósitos, como por ejemplo:
*Tareas de Bases de datos: que también se utilizan para consolidar, migrar y sincronizar
bases de datos operativas.
*Migración de datos entre diferentes aplicaciones por cambios de versión o cambio de
aplicativos.
*Sincronización entre diferentes sistemas operacionales (por ejemplo, entre nuestro
entorno ERP y la web de ventas).
*Consolidación de datos: sistemas con grandes volúmenes de datos que son consolidados
en sistemas paralelos, ya sea para mantener históricos o para llevar a cabo procesos de
borrado en los sistemas originales.
*Interfaces de datos con sistemas externos: como el envío de información a clientes o
proveedores. También servirían para la recepción, proceso e integración de la
información recibida.
*Interfaces con sistemas Frontoffice: serían interfaces de subida/bajada con sistemas de
venta.
*Otros cometidos: como la actualización de usuarios a sistemas paralelos o la
preparación de procesos masivos (tipo mailings o newsletter).
*
Los procesos ETL pueden incluir:
*Sistemas legacy. Es decir, legados, heredados o antiguos.
*Sistemas nuevos. Basados en Windows, Linux y también en las redes sociales
modernas: Facebook, Twitter, Linkedin, etc.
*
A cualquier empresa u organización le beneficia poner en marcha un proceso ETL
para mover y transformar los datos que maneja por los siguientes motivos:
*Poder crear una Master Data Management
*Posibilita a los directivos tomar decisiones estratégicas
*Sirve para integrar sistemas.
*Poder tener una visión global de todos los datos consolidados en una data
warehouse.
*
La implantación de un sistema ETL bien definido supone todo un reto puesto que,
para que sea realmente efectivo, debe permitir integrar los sistemas legacy
(algunos ya muy obsoletos) con los más modernos. Además, el acceso a todos
estos sistemas se debe producir no solo en modo de lectura, sino también como
escritura.
*
Como conclusión podemos decir que los ETL son proceso que organizan los flujos
datos entre distintos sistemas en una organización y aporta los métodos y
herramientas necesarias para movilizar los datos desde múltiples fuentes a un
almacén de datos, para transformarlos, limpiarlos y cargarlos en otra base de
datos.
ETL es parte de la Inteligencia de Negocios, también llamado “Gestión de los
Datos” (Data Management).
Etl

Más contenido relacionado

PPT
5 Db2 Etl Cubos
PPTX
DOCX
Etl extracción transformación y carga de datos
PDF
Principios de diseño para procesos de ETL
PDF
Arquitectura de datos empresariales actividad 2
PPTX
Videos de aplicaciones
5 Db2 Etl Cubos
Etl extracción transformación y carga de datos
Principios de diseño para procesos de ETL
Arquitectura de datos empresariales actividad 2
Videos de aplicaciones

La actualidad más candente (16)

DOC
X tuple sio (2)
DOCX
Tarea 1 sia 2011
PPTX
Sistemas de informacion
PPTX
OLAP - Procesamiento Analítico en Línea.
PPTX
Sofwares que se aplica en las areas de trabajo
PPT
Diagramas de Flujo de Datos
PPTX
Sistemas de Información
DOCX
Sistema de informacion
DOCX
Diccionario de datos
PPTX
Elementos de un sistema
PDF
Fundamentos de datawarehouse
PPT
Diccionario de datos
PPTX
Sistemas de informacion
PPTX
Procesamiento de datos en la auditoria
PPTX
Diccionario de datos
X tuple sio (2)
Tarea 1 sia 2011
Sistemas de informacion
OLAP - Procesamiento Analítico en Línea.
Sofwares que se aplica en las areas de trabajo
Diagramas de Flujo de Datos
Sistemas de Información
Sistema de informacion
Diccionario de datos
Elementos de un sistema
Fundamentos de datawarehouse
Diccionario de datos
Sistemas de informacion
Procesamiento de datos en la auditoria
Diccionario de datos
Publicidad

Similar a Etl (20)

PDF
CLASE 2 ETL 2024 7 32 dog the element etl.pdf
PDF
CLASE 2 ETL EXTRAERVTRANSFORMAR CARGAR.pdf
PPTX
Proceso ETL 1.pptx
PPTX
Introduccion-al-proceso-ETL PRESENTACION ETL
PPTX
PDF
Arquitectura de datos empresariales ta. informe
PPTX
ETL (Extracción, Transformación y Cargar)
PDF
Microsoft sql server 2008 - ETL
PPT
Webinario: importancia de una estrategia de ETL en proyectos de BI y Analítica
PDF
Dialnet tecnicas demodeladodeprocesosdeetl-unarevisiondealte-4271531 (1)
PDF
Business Intelligence
PDF
ModeladoETL.pdf
PDF
Business inteligence
PPTX
1. limpieza y transformación de datos
PDF
Integracion de datos Ana Karen Romero.pdf
DOCX
BIG DATA "ETL"
PPSX
Metodología De Migración De Datos
PDF
ACA3 CASOS DE EXTITO PREDICTIVOS Y NO.pdf
PPTX
Diseño y Funcionamiento de almacenes de datos
CLASE 2 ETL 2024 7 32 dog the element etl.pdf
CLASE 2 ETL EXTRAERVTRANSFORMAR CARGAR.pdf
Proceso ETL 1.pptx
Introduccion-al-proceso-ETL PRESENTACION ETL
Arquitectura de datos empresariales ta. informe
ETL (Extracción, Transformación y Cargar)
Microsoft sql server 2008 - ETL
Webinario: importancia de una estrategia de ETL en proyectos de BI y Analítica
Dialnet tecnicas demodeladodeprocesosdeetl-unarevisiondealte-4271531 (1)
Business Intelligence
ModeladoETL.pdf
Business inteligence
1. limpieza y transformación de datos
Integracion de datos Ana Karen Romero.pdf
BIG DATA "ETL"
Metodología De Migración De Datos
ACA3 CASOS DE EXTITO PREDICTIVOS Y NO.pdf
Diseño y Funcionamiento de almacenes de datos
Publicidad

Más de Delsi Yakelin Huaman Villanueva (6)

Último (20)

PDF
Presentación Ejecutiva Minimalista Azul.pdf
PDF
SESION 9 seguridad IZAJE DE CARGAS.pdf ingenieria
PDF
PRINCIPIOS ORDENADORES_20250715_183000_0000.pdf
PDF
SISTEMAS DE PUESTA A TIERRA: Una introducción a los fundamentos de los sistem...
PDF
experto-gestion-calidad-seguridad-procesos-quimicos-industriales-gu.pdf
PPTX
TRABAJOS DE ALTO RIESGO IZAJE Y CALIENTE.pptx
PDF
silabos de colegio privado para clases tema2
PPTX
DEBL Presentación PG 23.pptx [Autoguardado].pptx
PPTX
PPT SESIÓN 6 Los Injertos.- Micropropagación e Injertos Clonales.pptx
PDF
FUNCION CUADRATICA FUNCIONES RAIZ CUADRADA
PDF
EVALUACIÓN 1_REFERENCIAPIR_FASE 1_2024.pdf
PPTX
PROCESOS DE REGULACION DE CRECIMIENTO.pptx
PDF
Matriz_Seguimiento_Estu_Consult_2024_ACT.pdf
PDF
TRABAJO DE ANÁLISIS DE RIESGOS EN PROYECTOS
PDF
Prevención de estrés laboral y Calidad de sueño - LA PROTECTORA.pdf
PPTX
Investigacioncientificaytecnologica.pptx
PPT
flujo de caja paa la evaluacion de proyectos
PPTX
376060032-Diapositivas-de-Ingenieria-ESTRUCTURAL.pptx
PPTX
Expo petroelo 2do ciclo.psssssssssssssptx
PPTX
Cómo Elaborar e Implementar el IPERC_ 2023.pptx
Presentación Ejecutiva Minimalista Azul.pdf
SESION 9 seguridad IZAJE DE CARGAS.pdf ingenieria
PRINCIPIOS ORDENADORES_20250715_183000_0000.pdf
SISTEMAS DE PUESTA A TIERRA: Una introducción a los fundamentos de los sistem...
experto-gestion-calidad-seguridad-procesos-quimicos-industriales-gu.pdf
TRABAJOS DE ALTO RIESGO IZAJE Y CALIENTE.pptx
silabos de colegio privado para clases tema2
DEBL Presentación PG 23.pptx [Autoguardado].pptx
PPT SESIÓN 6 Los Injertos.- Micropropagación e Injertos Clonales.pptx
FUNCION CUADRATICA FUNCIONES RAIZ CUADRADA
EVALUACIÓN 1_REFERENCIAPIR_FASE 1_2024.pdf
PROCESOS DE REGULACION DE CRECIMIENTO.pptx
Matriz_Seguimiento_Estu_Consult_2024_ACT.pdf
TRABAJO DE ANÁLISIS DE RIESGOS EN PROYECTOS
Prevención de estrés laboral y Calidad de sueño - LA PROTECTORA.pdf
Investigacioncientificaytecnologica.pptx
flujo de caja paa la evaluacion de proyectos
376060032-Diapositivas-de-Ingenieria-ESTRUCTURAL.pptx
Expo petroelo 2do ciclo.psssssssssssssptx
Cómo Elaborar e Implementar el IPERC_ 2023.pptx

Etl

  • 1. INGENIERÍA DE SISTEMAS Y TELEMÁTICA Tema : ETL - EXTRAER, TRANSFORMAR Y CARGAR Curso : Base de Datos II Docente :Ing. Marco Aurelio Porro Chulli Integrantes :  Ana Leydi Linares Serrano.  Patricia Reyna Reynaga  Delsi Yakelin Huamán Villanueva
  • 2. INTRODUCCIÓN * ETL, esencialmente, es el proceso que permite a las empresas manejar y movilizar datos desde distintos tipos de fuentes, para transformarlos, limpiarlos y cargarlos en otra base de datos. El principal propósito de ETL es transportar la información de la empresa desde las aplicaciones de producción a los sistemas de Inteligencia de Negocio (BI), este proceso consta de tres etapas: *Extracción de datos *Transformación de datos *Carga de datos
  • 4. *FASE DE EXTRACCIÓN La primera parte del proceso ETL consiste en extraer los datos desde el sistema de origen. Esta fase consta de tres pasos:
  • 5. * * se evalúan las necesidades concretas de la organización.
  • 6. * * Antes de extraer los datos, se identifica de qué tipo son y en qué formato se encuentran los sistemas fuente.
  • 7. * * En función de las necesidades detectadas, se procede a la extracción en sí de dichos datos. *exigir siempre que esta tarea cause un impacto mínimo en el sistema de origen
  • 8. *MODOS DE EXTRACCIÓN Básicamente, existen tres modos distintos de extracción: Full Extract o extracción total • Esta modalidad consiste en extraer la totalidad de datos. Incremental Extract o extracción incremental • Se va procesando por lotes únicamente lo que fue modificado o agregado. Update Notification o notificación de actualizaciones • En este caso, solo se van extrayendo los datos a medida que se produce una actualización (por ejemplo, un inserto).
  • 9. * *Cualquier organización, empresa o compañía debe exigir que el proceso de extracción de datos desde su fuente o fuentes de origen cause el menor impacto posible. Es decir, que no suponga ningún problema a los empleados que, diariamente, trabajan con los datos y registros.
  • 10. *LIMPIEZA *Asegura la calidad de los datos que vamos a procesar. *Evita la información no veraz o errónea. *Ahorra costes de espacio en disco al eliminarse la información duplicada. *Agiliza las consultas por la ausencia de datos repetidos o inservibles. *Ayuda a tomar decisiones estratégicas correctas. La limpieza de datos se divide en distintas etapas, que vamos a describir a continuación:
  • 11. Depurar los valores Nombre Ana Leydi Linares Serrano Nombres Apellido Paterno Apellido Materno Ana Leydi Linares Serrano Por ejemplo: comprueba una dirección y el código postal correspondiente. Corregir formatos definidos. Por ejemplo: trato de Sr., Sra. Estandarizar eliminar duplicados. Por ejemplo: identificando nombres y direcciones similares. Relacionar analiza e identifica relaciones entre registros relacionados y los junta en una sola representación. Consolidar
  • 12. FASE DE TRANSFORMACIÓN Aplica una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos que serán cargados. Algunas transformaciones:  Seleccionar sólo ciertas columnas para su carga (por ejemplo, que las columnas con valores nulos no se carguen).  Traducir códigos (Por ejemplo, si la fuente de origen almacena una “H” para hombres y una “M” para mujeres, dar las instrucciones necesarias para que en destino se guarde un “ 1” para hombres y un” 2” para mujeres).  Calcular totales de múltiples filas de datos (por ejemplo, ventas totales de cada región).  Dividir una columna en varias (por ejemplo, la columna “Nombre: García, Miguel”; pasar a dos columnas “Nombre: Miguel” y “Apellido: García”)
  • 13. Esta función corresponde al desarrollador o analista del proceso ETL en cuestión. La definición de las transformaciones a realizar se realiza en función de un análisis previo y de la fase de limpieza. ¿Quién se encarga de realizar estas transformaciones?
  • 14. FASE DE CARGA En esta fase, los datos procedentes de la fase anterior(fase de transformación) son dragados en el sistema e destino. Dependiendo de los requerimientos de la organización, pueden ser de dos tipos:  Acumulación simple  Rolling
  • 15. Acumulación simple Consiste en realizar un resumen de todas las transacciones comprendidas en el período de tiempo seleccionado y transportar el resultado como una única transacción hacia el data warehouse, almacenando un valor calculado que consistirá típicamente en un sumatorio o un promedio de la magnitud considerada. Rolling Este proceso sería el más recomendable en los casos en que se busque mantener varios niveles de granularidad. Para ello se almacena información resumida a distintos niveles, correspondientes a distintas agrupaciones de la unidad de tiempo o diferentes niveles jerárquicos.
  • 16.  Capacidad de entrega de datos.  Capacidad de transformación de datos.  Capacidad de Metadatos y Modelado de Datos.  Adaptación a las diferentes plataformas hardware y sistema operativos existentes.  Emplearlas para la integración con sistemas heredados. CARACTERISTICAS Y VENTAJAS
  • 18. * Gracias a los procesos ETL es posible que cualquier organización: • Mueva datos desde una o múltiples fuentes. • Reformatee esos datos y los limpie, cuando sea necesario. • Los cargue en otro lugar como una base de datos, un data mart o un data warehouse. • Una vez alojados en destino, esos datos se analicen. • O, cuando ya están cargados en su ubicación definitiva, se empleen en otro sistema operacional, para apoyar un proceso de negocio.
  • 19. Las herramientas ETL pueden ser útiles para multitud de propósitos, como por ejemplo: *Tareas de Bases de datos: que también se utilizan para consolidar, migrar y sincronizar bases de datos operativas. *Migración de datos entre diferentes aplicaciones por cambios de versión o cambio de aplicativos. *Sincronización entre diferentes sistemas operacionales (por ejemplo, entre nuestro entorno ERP y la web de ventas). *Consolidación de datos: sistemas con grandes volúmenes de datos que son consolidados en sistemas paralelos, ya sea para mantener históricos o para llevar a cabo procesos de borrado en los sistemas originales. *Interfaces de datos con sistemas externos: como el envío de información a clientes o proveedores. También servirían para la recepción, proceso e integración de la información recibida. *Interfaces con sistemas Frontoffice: serían interfaces de subida/bajada con sistemas de venta. *Otros cometidos: como la actualización de usuarios a sistemas paralelos o la preparación de procesos masivos (tipo mailings o newsletter).
  • 20. * Los procesos ETL pueden incluir: *Sistemas legacy. Es decir, legados, heredados o antiguos. *Sistemas nuevos. Basados en Windows, Linux y también en las redes sociales modernas: Facebook, Twitter, Linkedin, etc.
  • 21. * A cualquier empresa u organización le beneficia poner en marcha un proceso ETL para mover y transformar los datos que maneja por los siguientes motivos: *Poder crear una Master Data Management *Posibilita a los directivos tomar decisiones estratégicas *Sirve para integrar sistemas. *Poder tener una visión global de todos los datos consolidados en una data warehouse.
  • 22. * La implantación de un sistema ETL bien definido supone todo un reto puesto que, para que sea realmente efectivo, debe permitir integrar los sistemas legacy (algunos ya muy obsoletos) con los más modernos. Además, el acceso a todos estos sistemas se debe producir no solo en modo de lectura, sino también como escritura.
  • 23. * Como conclusión podemos decir que los ETL son proceso que organizan los flujos datos entre distintos sistemas en una organización y aporta los métodos y herramientas necesarias para movilizar los datos desde múltiples fuentes a un almacén de datos, para transformarlos, limpiarlos y cargarlos en otra base de datos. ETL es parte de la Inteligencia de Negocios, también llamado “Gestión de los Datos” (Data Management).