SlideShare una empresa de Scribd logo
DATA ANALYSIS
LIFECYCLE
www.keepler.io
HELLO!
Marcos Sobrino
Data Analyst en Keepler Data Tech
marcos.sobrino@keepler.io
WHAT?
HOW?
WHERE?
TRANSFORMACIÓN AGILE
METODOLOGÍA / FRAMEWORK DEVOPS
ENFOQUE DATA PRODUCT
EXCELENCIA TÉCNICA
Cloud Computing
Big Data
Artificial Intelligence
¿CUÁLES SON LA ETAPAS REALES
EN UN ANÁLISIS DE DATOS?
Toma de requisitos EDA Modelo de datos Dataviz ¿Y ahora qué?
Data Analysis Lifecycle
ETAPAS
TOMA DE REQUISITOS
FUENTES DE DATOS
REQUERIMIENTOS Y REQUISITOS
Data Analysis Lifecycle
Product
Owner
Data
Analyst
Data
Engineer
REQUISITOS
ANÁLISIS
FUENTES
DISTINTAS FUENTES DE DATOS PARA EL ANÁLISIS
Data Analysis Lifecycle
señor/a data analyst señor/a data engineer
REQUISITOS
fUENTES
aNÁLISIS
TENEMOS REQUISITOS, FUENTES Y ANÁLISIS A REALIZAR...
Data Analysis Lifecycle
Data
Analyst
Data
Engineer
Product
Owner
SER ESCÉPTICO NO IMPLICA DESCONFIANZA
Data Analysis Lifecycle
EDA
Toma de requisitos EDA Modelo de datos Dataviz ¿Y ahora qué?
Data Analysis Lifecycle
EDA
ANÁLISIS DE LAS FUENTES
INCONSISTENCIAS MODELO
CONFIRMAREMOS PLANTEAMIENTO
NUEVOS PRISMAS ANÁLISIS
MAYOR EFICIENCIA
AHORRO EN DISGUSTOS
Data Analysis Lifecycle
ANÁLISIS EXPLORATORIO DE DATOS
Data Analysis Lifecycle
LENGUAJES Y HERRAMIENTAS
Data Analysis Lifecycle
LENGUAJES Y HERRAMIENTAS
Variables
PlotsConsola
Editor
Data Analysis Lifecycle
LENGUAJES Y HERRAMIENTAS
# Diverging Barcharts
ggplot(mtcars, aes(x=`car name`, y=mpg_z, label=mpg_z)) +
geom_bar(stat='identity', aes(fill=mpg_type), width=.5) +
scale_fill_manual(name="Mileage",
labels = c("Above Average", "Below Average"),
values = c("above"="#00ba38", "below"="#f8766d")) +
labs(subtitle="Normalised mileage from 'mtcars'",
title= "Diverging Bars") +
coord_flip()
num_bins = 50
fig, ax = plt.subplots()
n, bins, patches = ax.hist(x, num_bins, normed=1)
y = mlab.normpdf(bins, mu, sigma)
ax.plot(bins, y, '--')
ax.set_xlabel('Smarts')
ax.set_ylabel('Probability density')
ax.set_title(r'Histogram of IQ: $mu=100$, $sigma=15$')
# Tweak spacing to prevent clipping of ylabel
fig.tight_layout()
plt.show()
Data Analysis Lifecycle
LENGUAJES Y HERRAMIENTAS
Mediante EDA buscaremos inconsistencias en el modelo
o errores de formato mediante técnicas de data
cleaning, que puede implicar múltiples casuísiticas.
Dos grupos de datos a corregir:
1. Datos con errores de formato: NA’s, datos
erróneos, formatos erróneos, constantes,
duplicados, categorización errónea...
2. Datos con errores de intuición: Outliers,
distribuciones, segmentación errónea … datos
que contradicen el planteamiento, escenario o
hipótesis inicial del análisis.
Source: Ander Toons
Data Analysis Lifecycle
INCONSISTENCIAS
Sencillo de detectar, pero cada lenguaje/formato lo identifica de una
manera diferente: NaN, NA, “”,None, NULL….
En otras ocasiones, un valor dummy ocupa un valor sin información como
999, -999, ...9 ?
Missing Values
Data Analysis Lifecycle
MISSING VALUES
A veces muy obvio como en este ejemplo, pero otras veces no lo
es tanto. El contexto y definición del análisis determinarán si un
valor es un outlier o no.
Missing values Outliers
Data Analysis Lifecycle
OUTLIERS
Información innecesaria dentro de nuestro
modelo o fuente
Missing values Outliers Constants
Data Analysis Lifecycle
CONSTANTS
Quizá tengamos categorización duplicada
Evitamos tener una columna doble y conclusiones
erróneas
a
b
c
a
b
Missing values Outliers Constants
Cloned
features
Data Analysis Lifecycle
CATEGORIZACIÓN DUPLICADA
Errores de datos en las fuentes de
origen.
a
b
c
a
b
Missing values Outliers Constants
Cloned
features
Incorrect
labels
Data Analysis Lifecycle
CATEGORIZACIÓN INCORRECTA
Data Analysis Lifecycle
VIABILIDAD, VALIDEZ, VARIABILIDAD
Data Analysis Lifecycle
VIABILIDAD, VALIDEZ, VARIABILIDAD
ANALIZADO DISTINTAS FUENTES
LIMPIADO FUENTES
NORMALIZADO DATOS
ANÁLISIS INICIAL VIABLE
ANÁLISIS 2.0
CONOCIMIENTO DATO
CONOCIMIENTO CONTEXTO
MODELO
BONUS
Data Analysis Lifecycle
Data Analysis Lifecycle
MORALEJA
MODELO DE DATOS &
ARQUITECTURA
Toma de requisitos EDA Modelo de datos Dataviz ¿Y ahora qué?
Data Analysis Lifecycle
MODELO
Fact table
Dimension
table I
Dimension
table I
Dim
table III
Dim
table IV
Dim
table V
Fact table
Dimension
table I
Dimension
table I
Dim
table III
Dim
table IV
Dim
table V
Subdimension table
Subdimension table
Subdimension table ID # * ... n
ID1 #1 *1 ... n1
ID2 #2 *2 ... n2
ID3 #3 *3 ... n3
IDn #n *n ... nn
ESTRELLA COPO DE NIEVE TABLÓN
OTROS MAPAS GIS---> JSON
Data Analysis Lifecycle
DATAMODEL
SQL ESTÁNDAR ANALYTICS
BAJAS VOLUMETRÍAS ALTAS VOLUMETRÍAS / AGRUPA TB DATOS
RELACIONAL COLUMNAR
Data Analysis Lifecycle
OLAP
DATABASES
OLTP
DATAMART /
DATABASE
DWH
DATALAKE
✔
~
TAMAÑO ESTRUCTURADO TIPO ESTRUCTURA
-
-
✔
CLOUD
1- Coste por uso: Control de costes
2- Seguridad y privacidad: Acceso físico, control de acceso y
explotación de la información
3- Escalabilidad: Aumento y disminución rápido y automático de
recursos
Data Analysis Lifecycle
ARQUITECTURA
DATAVIZ
Toma de requisitos EDA Modelo de datos Dataviz ¿Y ahora qué?
Data Analysis Lifecycle
DATAVIZ
MODELO
AUTOGESTIONADO
MODELO
HÍBRIDO
MODELO
DIY
TIPOLOGÍA DE MODELOS
HERRAMIENTAS COMERCIALES
Microstrategy
Tableau
BO
Power BI
Spotfire
Qlik
Cognos
TODO EN 1 ADMIN MULTIDISCIPLINAR MULTIPERFIL DISTRIBUCIÓN
ANÁLISIS
DASHBOARDS
DOCUMENTS | REPORTS
AUTOCONSUMO
Data Analysis Lifecycle
MODELO AUTOGESTIONADO
VISIÓN
GLOBAL
KPIS
Data Analysis Lifecycle
MODELO AUTOGESTIONADO - DASHBOARDS
VISIÓN
GLOBAL
ANÁLISIS EVOLUTIVO
KPIS
Data Analysis Lifecycle
MODELO AUTOGESTIONADO - DASHBOARDS
VISIÓN
GLOBAL
MULTIDIMIENSIONALES
ANÁLISIS EVOLUTIVO
KPIS
Data Analysis Lifecycle
MODELO AUTOGESTIONADO - DASHBOARDS
VISIÓN
GLOBAL
MULTIDIMIENSIONALES
ANÁLISIS EVOLUTIVO
KPIS
DINÁMICOS
Data Analysis Lifecycle
MODELO AUTOGESTIONADO - DASHBOARDS
DINÁMICOS
ANÁLISIS ALTO NIVEL
ESCALABLES
DETECCIÓN PATRONES
PALANCAS DE CAMBIO
IMPACTOS
TODOS USUARIOS
VISIÓN
GLOBAL
MULTIDIMIENSIONALES
ANÁLISIS EVOLUTIVO
✔
✔
✔
✔
✔
✔
KPIS
Data Analysis Lifecycle
MODELO AUTOGESTIONADO - DASHBOARDS
COMPLEMENTO DASHBOARD
DINÁMICOS / ESTÁTICOS
EJECUTIVO (alto nivel)
DETALLE (bajo nivel)
DISTRIBUIBLES
CUSTOMIZABLES / MODIFICABLES
NIVEL INTERMEDIO ANÁLISIS
USUARIOS MEDIOS
✔
✔
✔
✔
✔
✔
✔
✔
Data Analysis Lifecycle
MODELO AUTOGESTIONADO - DOCUMENTOS/REPORTS
MODELADO DEL DWH
MULTIDIMENSIONAL - 360º
ATRIBUTOS, MÉTRICAS
FILTROS
RELACIONES, JERARQUÍAS
ALTO CONOCIMIENTO DEL MODELO
ALTO CONOCIMIENTO DE NEGOCIO
ANÁLISIS AD HOC
USUARIOS AVANZADOS
✔
✔
✔
✔
✔
✔
✔
✔
✔
Data Analysis Lifecycle
MODELO AUTOGESTIONADO - AUTOCONSUMO
ANÁLISIS INTERACTIVO APPS STANDALONE
DOCUMENTOS
DASHBOARDS
Data Analysis Lifecycle
MODELO HÍBRIDO - SHINY I
Data Analysis Lifecycle
MODELO HÍBRIDO - SHINY II
Data Analysis Lifecycle
MODELO HÍBRIDO - SHINY III
Data Analysis Lifecycle
MODELO DIY - D3.js: VISUALIZACIONES A MEDIDA
MODELO
AUTOGESTIONADO
MODELO
HÍBRIDO
MODELO
DIY
DESARROLLO FLEXIBILIDAD COSTE
Data Analysis Lifecycle
COMPARATIVA DE MODELOS
¿Y AHORA, QUÉ?
REQUISITOS
EDA
DATA MODEL
DATAVIZ
REQUISITOS EDA
DATA MODELDATAVIZ
Data Analysis Lifecycle
ANÁLISIS
THANKS.
www.keepler.io
Marcos Sobrino
Data Analyst en Keepler Data Tech
marcos.sobrino@keepler.io
No Pie Charts were harmed in the making of this presentation.
keepler.io/#empleo
people@keepler.io

Más contenido relacionado

PPTX
Conociendo qué es un data scientist
PPT
Redes neuronales
PDF
Informatica para economistas
PDF
Mi primer modelo de clasificación con Azure Machine Learning Studio
PPTX
Presentación final estadistica microsiris
PPTX
Procesamiento datos
PPTX
Clase 1 - CicloProcesoAnálisisDatos.pptx
Conociendo qué es un data scientist
Redes neuronales
Informatica para economistas
Mi primer modelo de clasificación con Azure Machine Learning Studio
Presentación final estadistica microsiris
Procesamiento datos
Clase 1 - CicloProcesoAnálisisDatos.pptx

Similar a Keepler | Data Analysis Lifecycle (20)

PDF
Business Analytics 101
PPTX
Entregable final. Analítica de Datos
PPTX
Gestion-integral-de-datos-Analisis-de-datos
PDF
Introducción al Data Mining
PDF
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos
PPTX
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos
PPTX
Session01.pptx
PPTX
Data pipeline
PPTX
BDAS-2017 | Innovación con base en datos en Silicon Valley y Latino América
PDF
Power-BI-básico.pdf
PPTX
Data Quality
PPSX
2023-T4-Analisis_Datos.ppsx
PPTX
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
PPTX
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
PDF
Calidad de datos. Preparación y limpieza de los datos
PDF
Inducción Analítica de Datos con PYTON .pdf
PDF
Data analysis for startups
PPTX
Presentacion A10 Big Data_Alteryx_Cloudera
PDF
UNI MBAIA – S2 Introducción a Business Analytics e Inteligencia Artificial v2...
DOCX
Conceptos de minería de datos
Business Analytics 101
Entregable final. Analítica de Datos
Gestion-integral-de-datos-Analisis-de-datos
Introducción al Data Mining
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos
Session01.pptx
Data pipeline
BDAS-2017 | Innovación con base en datos en Silicon Valley y Latino América
Power-BI-básico.pdf
Data Quality
2023-T4-Analisis_Datos.ppsx
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Calidad de datos. Preparación y limpieza de los datos
Inducción Analítica de Datos con PYTON .pdf
Data analysis for startups
Presentacion A10 Big Data_Alteryx_Cloudera
UNI MBAIA – S2 Introducción a Business Analytics e Inteligencia Artificial v2...
Conceptos de minería de datos
Publicidad

Más de Keepler Data Tech (10)

PDF
Keepler | Affinity Index to increase customer engagement
PDF
Keepler | What's next on Google Cloud?
PDF
Keepler | Experiencia de cliente en hoteles post-covid
PDF
Keepler Data Tech | Entendiendo tus propios modelos predictivos
PDF
Keepler Data Tech | The cloud data driven partner
PDF
Keepler | Series temporales en analítica de datos
PDF
Keepler | IoT Analytics & AI on Edge Computing
PDF
Keepler | Full-Stack Serverless Applications on GCP
PDF
Keepler | Google Cloud Next 2019 Review
PDF
Keepler | Understanding your own predictive models
Keepler | Affinity Index to increase customer engagement
Keepler | What's next on Google Cloud?
Keepler | Experiencia de cliente en hoteles post-covid
Keepler Data Tech | Entendiendo tus propios modelos predictivos
Keepler Data Tech | The cloud data driven partner
Keepler | Series temporales en analítica de datos
Keepler | IoT Analytics & AI on Edge Computing
Keepler | Full-Stack Serverless Applications on GCP
Keepler | Google Cloud Next 2019 Review
Keepler | Understanding your own predictive models
Publicidad

Último (20)

PDF
Pobreza por origen racial y zonas socialistas (1980, 2025 y 2030).pdf
PPTX
Características de jean Piaget y su fase cognitivo
PPTX
Precio optimo de venta para un emprendimiento familiar
PPTX
Introducción al analisis de datos con Power bi
PDF
EJERCICIOS RESUELTOS CON SOLVER EXCEL.pdf
PPTX
DOROTHEA E OREM EXPO.pptx de una teoridta importante
PDF
Presentación para empoderar a un equipo a factirar
PPTX
fisioterapia 6 semestre - ---- serealizo
PDF
REPORTE DE VICTIMAS POR HOMICIDIO DOLOSO IRAPUATO JULIO 2025
PDF
2425_s9_1_Bitacora_para_la_reflexion.pdf
PDF
docsity-diapositivas-de-la-salud-mental.pdf
PDF
RADIOGRAFIA DEL PARQUE AUTOMOTOR EN BOLIVA Y PROYECCIONES 2025-2030.pdf
PDF
Actualización en el uso de uterotónico.pdf
PPTX
Embarazo en adolescentes ksjsjjdkxkxkxkxxj
PPTX
Abdomen HosAESREBBweubeehkrhkqhrkhehrjktil.pptx
PDF
dhjhfjhjcnjhghhhdfhuhhchchuuhuhduhduddyhdu
PDF
Registro de Limpieza y Desinfección.pdf1
PPTX
TICS EN HONDURAS, PAIS DE CENTROAMERICA.pptx
PDF
Rendición_Pública_de_Cuentas_Inicial_2019.pdf
PDF
MOVIMIENTO DE TIERRA Y ASFALTO.pdf 2025A
Pobreza por origen racial y zonas socialistas (1980, 2025 y 2030).pdf
Características de jean Piaget y su fase cognitivo
Precio optimo de venta para un emprendimiento familiar
Introducción al analisis de datos con Power bi
EJERCICIOS RESUELTOS CON SOLVER EXCEL.pdf
DOROTHEA E OREM EXPO.pptx de una teoridta importante
Presentación para empoderar a un equipo a factirar
fisioterapia 6 semestre - ---- serealizo
REPORTE DE VICTIMAS POR HOMICIDIO DOLOSO IRAPUATO JULIO 2025
2425_s9_1_Bitacora_para_la_reflexion.pdf
docsity-diapositivas-de-la-salud-mental.pdf
RADIOGRAFIA DEL PARQUE AUTOMOTOR EN BOLIVA Y PROYECCIONES 2025-2030.pdf
Actualización en el uso de uterotónico.pdf
Embarazo en adolescentes ksjsjjdkxkxkxkxxj
Abdomen HosAESREBBweubeehkrhkqhrkhehrjktil.pptx
dhjhfjhjcnjhghhhdfhuhhchchuuhuhduhduddyhdu
Registro de Limpieza y Desinfección.pdf1
TICS EN HONDURAS, PAIS DE CENTROAMERICA.pptx
Rendición_Pública_de_Cuentas_Inicial_2019.pdf
MOVIMIENTO DE TIERRA Y ASFALTO.pdf 2025A

Keepler | Data Analysis Lifecycle