SlideShare una empresa de Scribd logo
Workshop
“Análisis, preparación y visualización de
datos usando herramientas Open Source”
05 - Marzo - 2016
Open Data Day - UIO
OPEN DATA
¿QUÉ ES OPEN DATA?
❏ Poner a disposición de la sociedad los datos
gestionados por la administración pública
❏ Sin restricciones de derecho de autor
❏ Los datos son abiertos cuando:
➔ Accedidos
➔ Usados
➔ Modificados
➔ Compartidos
HISTORIA
❏ El 17 de noviembre de 2003, la Directiva del
Parlamento Europeo, presentaba un Tratado
sobre el acceso de los datos
❏ En el año 2009 el gobierno de Estados Unidos
comunicaba su iniciativa de liberar los datos
❏ El 30 de Noviembre de 2010 el Reino Unido
liberó una licencia gubernamental
PRINCIPIOS DEL OPEN DATA
❏ Los datos deben ser:
➔ Públicos
➔ Detallados
➔ Actualizados
➔ Accesibles
➔ Automatizados
➔ Sin Registro
➔ Abiertos
➔ Libres
BENEFICIOS DEL OPEN DATA
❏ Construir nuevo conocimiento
❏ Más eficiencia en los servicios gubernamentales
y la administración pública
❏ Genera nuevos indicadores económicos y
sociales
❏ Mide el impacto de las políticas públicas
OPEN DATA Y POLITICA
FUNDACIÓN CIUDADANO INTELIGENTE
PROYECTOS
OBSERVATORIO ANTICORRUPCION
Análisis, preparación y visualización de datos usando herramientas Open Source
ENFOQUE DE
SOLUCIÓN
PROCEDIMIENTO
1
Preguntas a
responder
2 Obtener los
Datos
3 Explorar los
Datos
4Modelar los
Datos
Comunicar y
Visualizar
Resultados
5
ALGUNAS FUENTES DE DATOS
❏ Archivos
➔ Formatos Abiertos: CSV, XML, JSON
➔ Formatos Propietarios: Excel, SPSS
❏ Bases de Datos
➔ PostgreSQL, MySQL, Oracle
❏ APIs
➔ Servicios Web SOAP: XML
➔ Servicios REST: XML/JSON
❏ Documentos (PDFs, páginas web, etc.)
❏ Redes Sociales
FORMATOS ABIERTOS - CSV
Cabecera (Header) Separador (, ; |)
Enclosure (")
Registros (Rows)
FORMATOS ABIERTOS - XML
Etiquetas (Tags)
<tag>...</tag>
Codificación
FORMATOS ABIERTOS - JSON
Valor
Atributo
Arreglo
[ ]
Objeto
{ }
APIs - OPEN DATA BANCO MUNDIAL
http://api.worldbank.org/countries/all/indicators/DT.DOD.DECT.
CD?date=2010:2015&format=xml
❏ Invocación para obtener XML
http://api.worldbank.org/countries/all/indicators/DT.DOD.DECT.
CD?date=2010:2015&format=json
❏ Invocación para obtener JSON
http://api.worldbank.org/countries/all/indicators/DT.DOD.DECT.
CD?date=2010:2015&format=csv
❏ Invocación para obtener CSV
ARQUITECTURA DE
LA SOLUCIÓN
ARQUITECTURA
DATA_MODEL
(DIMENSIONAL)
CSV
ETLsCSV
CUBO DE
DATOS
ANÁLISIS
Y
VISUALIZACIÓN
SQL POWER
ARCHITECT
PENTAHO DATA
INTEGRATION
PENTAHO SCHEMA
WORKBENCH
PENTAHO BI SERVER
SAIKU ANALYTICS
SOFTWARE OPEN SOURCE A USAR
❏ Procesamiento de Datos
➔ Pentaho Data Integration CE v5.4
❏ Entrega de Información
➔ Pentaho Schema Workbench v5.4
➔ Pentaho BI Server CE v5.4, Saiku Analytics
➔ PostgreSQL v9.3
➔ SQL Power Architect v1.0.8
❏ Modelamiento
➔ Oracle JDK v1.7 (Java)
❏ Base de Datos
❏ Software Base
MODELAMIENTO
DIMENSIONAL
CONCEPTOS
❏ Consiste en modelar hechos y dimensiones
para llegar a lo que se conoce como Modelo
Estrella
DIMENSIÓN 1
DIMENSIÓN 2
...
DIMENSIÓN N
HECHOS
CONCEPTOS
DIMENSIONES
❏ Datos Cualitativos
❏ Representan información de una entidad. Ej.
País, Región, Sucursal, Producto
HECHOS
❏ Datos Cuantitativos
❏ Representan un indicador o medida. Ej. ventas,
deuda externa, comisiones
❏ Los indicadores pueden ser agregados (sum,
avg, max, min, count)
EJEMPLO
FECHA
CLIENTE PRODUCTO
LOCAL
VENDEDOR
HECHOS
VENTAS
1..*
POSTGRESQL
❏ Abrir Terminal y abrir pgAdmin III
❏ Ir a File > Add Server
❏ Crear la base de datos data_model
SQL POWER ARCHITECT
❏ Abrir Files
❏ Ir al siguiente directorio
Computer > /opt/pentaho/architect-1.0.8
❏ Iniciar la aplicación architect.jar
❏ Conexión: Connections > Add Source
Connection > New Connection
❏ Creación del modelo: Tools > Forward
Engineer
PROCESAMIENTO DE
DATOS
PENTAHO DATA INTEGRATION
❏ Descargar archivos CSV: http://bit.ly/1TfVKd9 en
el directorio src_data y descomprimir
❏ Crear el directorio src_data en
➔ /home/vagrant/Documents/workshop
../workshop/src_data/DeudaExterna
catalogo_indicadores.csv
catalogo_paises.csv
deuda_externa.csv
PENTAHO DATA INTEGRATION
❏ Abrir Terminal
❏ Ejecutar los siguientes comandos:
➔ cd /opt/pentaho/data-integration
➔ ./spoon.sh
❏ Seleccionar el repositorio workshop
❏ Conexión: Tools > Repository >
Connections > data_model
CUBOS DE DATOS
CONCEPTOS
❏ Un cubo es una colección de múltiples
dimensiones y medidas
FECHA TABLET
VENDEDOR
2013
2014
PRODUCTOPC
2015
SMARTPHONE
JUAN
PEDRO
ANDREA
MEDIDAS
- VENTAS
- COMISIONES
- CANTIDAD
DIMENSIONES
CUBOS, DIMENSIONES Y MEDIDAS
Analogía
❏ Las dimensiones del cubo son a las
dimensiones del modelo dimensional
❏ Las medidas del cubo son a los hechos del
modelo dimensional
Visualización
❏ Un cubo se lo visualiza como una tabla
cruzada o tabla pivot
VISUALIZACIÓN DE UN CUBO
FECHA TABLET
VENDEDOR
2013
2014
PRODUCTOPC
2015
SMARTPHONE
JUAN
PEDRO
ANDREA
TABLET PC SMARTPHONE
2013 2014 2015 2013 2014 2015 2013 2014 2015
JUAN 12 8 14 - - - - - -
PEDRO - - - 22 45 16 - - -
ANDREA - - - - - - 134 122 245
TABLA PIVOT / CRUZADA
PENTAHO SCHEMA WORKBENCH
❏ Conexión: Options > Connection >
data_model
❏ Publicación del Cubo: File > Publish
Admin|password|data_model
❏ Abrir Terminal
❏ Ejecutar los siguientes comandos:
➔ cd /opt/pentaho/schema-workbench
➔ ./workbench.sh
PENTAHO BI-SERVER
❏ Abrir Firefox: http://localhost:8080
❏ Abrir Terminal
❏ Ejecutar los siguientes comandos:
➔ cd /opt/pentaho/biserver-ce
➔ ./start-pentaho.sh
➔ sudo su - pentaho
❏ Conexión: Manage Data Sources > New
Connection > data_model
LINKS DE INTERÉS
❏ Blog Data Warehousing / Business Intelligence
con herramientas Open Source: http:
//ingmmurillo-dwh-bi.blogspot.com/
❏ Documentación API Banco Mundial: http:
//data.worldbank.org/developers/api-
overview/basic-call-structure
❏ Evaluador JSONPath en línea: http://jsonpath.
com
❏ Pentaho CE https://sourceforge.
net/projects/pentaho/files https://sourceforge.
net/projects/mondrian/files
MUCHAS GRACIAS
Para preguntas o sugerencias:
Gabriela Chasifan | gchasifan@thoughtworks.com
Byron Torres | btorres@thoughtworks.com
Mauricio Murillo | mmurillo@thoughtworks.com
Carlos Fuentes | cfuentes@thoughtworks.com

Más contenido relacionado

PDF
arquitectura gastronomica cocinas industriales. proyecto de locales comerciales
PPTX
Actividad integradoraa
PDF
Neurowork WhyFLOSS Conference - Presentación de eTravel
PDF
Entrega contínua en la práctica
PDF
Realidad virtual
PPT
DATA WAREHOUSE
PPTX
Datos abiertos: Reutilización de información en el sector público
arquitectura gastronomica cocinas industriales. proyecto de locales comerciales
Actividad integradoraa
Neurowork WhyFLOSS Conference - Presentación de eTravel
Entrega contínua en la práctica
Realidad virtual
DATA WAREHOUSE
Datos abiertos: Reutilización de información en el sector público

Similar a Análisis, preparación y visualización de datos usando herramientas Open Source (20)

PPT
Cómo desarrollar bienes y servicios públicos con datos
PPTX
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)
PPTX
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)
PPTX
Seminario BI CLEFormación
PDF
Arquitectura de datos empresariales actividad 3
PDF
Cómo conseguir un Gobierno Abierto
PDF
PDF
Software libre para la integración de información en la Universidad de Cádiz
PDF
Open Data in the world of Science” by Dr. Claudio Gutiérrez
DOCX
Almacén de datos
PPT
mineria de datos
PPTX
Generación de datos estadísticos enlazados del Instituto Aragonés de Estadística
PDF
Vocabularios abiertos para datos abiertos - María Poveda - EDAUA16
PDF
Estado de situación del acceso abierto en Argentina: gestión de datos cient...
PPTX
IX Encuentros de Centros de Documentación de Arte Contemporáneo en Artium - O...
PPTX
Tecnicas de presentacion de Cubos de analisis OLAP.pptx
DOCX
Base de datos multidimensional
PDF
Metodologías y herramientas en datos abiertos
PDF
Data warehouse
PDF
Data warehouse
Cómo desarrollar bienes y servicios públicos con datos
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)
Seminario BI CLEFormación
Arquitectura de datos empresariales actividad 3
Cómo conseguir un Gobierno Abierto
Software libre para la integración de información en la Universidad de Cádiz
Open Data in the world of Science” by Dr. Claudio Gutiérrez
Almacén de datos
mineria de datos
Generación de datos estadísticos enlazados del Instituto Aragonés de Estadística
Vocabularios abiertos para datos abiertos - María Poveda - EDAUA16
Estado de situación del acceso abierto en Argentina: gestión de datos cient...
IX Encuentros de Centros de Documentación de Arte Contemporáneo en Artium - O...
Tecnicas de presentacion de Cubos de analisis OLAP.pptx
Base de datos multidimensional
Metodologías y herramientas en datos abiertos
Data warehouse
Data warehouse
Publicidad

Más de Carlos Fuentes (10)

PDF
Desbloqueando el potencial de la Ingeniería de Datos con IA Generativa
PDF
Descubriendo el poder de la Ciencia de Datos.pdf
PDF
soda-sql
PDF
Firebolt vs Snowflake
PPTX
Data Ingestion in AWS
PPTX
Data Mesh
PDF
PDF
Adaptive Big Data Pipelines
PDF
Deep learning algo mas que una moda
PDF
Introducción a Data Science
Desbloqueando el potencial de la Ingeniería de Datos con IA Generativa
Descubriendo el poder de la Ciencia de Datos.pdf
soda-sql
Firebolt vs Snowflake
Data Ingestion in AWS
Data Mesh
Adaptive Big Data Pipelines
Deep learning algo mas que una moda
Introducción a Data Science
Publicidad

Último (20)

PDF
Mapa mental de cultura social Historia Economica
PDF
S07 - Morfología urbana..........................
PPT
2010_06 FSI_ASBA Pruebas de Stress de Riesgo de Crédito El Caso Peruano MLUY_...
PDF
Riesgos en Negociaciones_comercio exterior.pdf
DOCX
Estratégias de Ventas para WhatsApp paso a paso
PPTX
CRITERIOS DE UN SERVICIO DE INTENSIVO presen.pptx
PPTX
Precio optimo de venta para un emprendimiento familiar
PDF
PRESENTACION DE LA ASIGNATURA materiales no convencionales.pdf
PPTX
Milder Antoni quirhuayo segura trabajo de investigación .pptx
PPTX
Embarazo en adolescentes ksjsjjdkxkxkxkxxj
PDF
dhjhfjhjcnjhghhhdfhuhhchchuuhuhduhduddyhdu
PDF
docsity-diapositivas-de-la-salud-mental.pdf
PPTX
EXPOSICIÓN 2021.pptxhgdfshdghsdgshdghsds
PPTX
DIAPOSITIVA DE ADELA CORTINA - RAMOS ALANIA ANA MARIA.pptx
PPSX
Unidad II - Diseño de una solucion 2025.ppsx
DOCX
Documento sin título.dohdjdksksksksksjjskscx
PDF
Actualización en el uso de uterotónico.pdf
PDF
Principios d. Anatomía y no se que más poner jaja
PPT
TRATA Y TRÁFICO DE PERSONAS defensoría del pueblo
PDF
Mapa mental.pdf esquema de realización en general
Mapa mental de cultura social Historia Economica
S07 - Morfología urbana..........................
2010_06 FSI_ASBA Pruebas de Stress de Riesgo de Crédito El Caso Peruano MLUY_...
Riesgos en Negociaciones_comercio exterior.pdf
Estratégias de Ventas para WhatsApp paso a paso
CRITERIOS DE UN SERVICIO DE INTENSIVO presen.pptx
Precio optimo de venta para un emprendimiento familiar
PRESENTACION DE LA ASIGNATURA materiales no convencionales.pdf
Milder Antoni quirhuayo segura trabajo de investigación .pptx
Embarazo en adolescentes ksjsjjdkxkxkxkxxj
dhjhfjhjcnjhghhhdfhuhhchchuuhuhduhduddyhdu
docsity-diapositivas-de-la-salud-mental.pdf
EXPOSICIÓN 2021.pptxhgdfshdghsdgshdghsds
DIAPOSITIVA DE ADELA CORTINA - RAMOS ALANIA ANA MARIA.pptx
Unidad II - Diseño de una solucion 2025.ppsx
Documento sin título.dohdjdksksksksksjjskscx
Actualización en el uso de uterotónico.pdf
Principios d. Anatomía y no se que más poner jaja
TRATA Y TRÁFICO DE PERSONAS defensoría del pueblo
Mapa mental.pdf esquema de realización en general

Análisis, preparación y visualización de datos usando herramientas Open Source

  • 1. Workshop “Análisis, preparación y visualización de datos usando herramientas Open Source” 05 - Marzo - 2016 Open Data Day - UIO
  • 3. ¿QUÉ ES OPEN DATA? ❏ Poner a disposición de la sociedad los datos gestionados por la administración pública ❏ Sin restricciones de derecho de autor ❏ Los datos son abiertos cuando: ➔ Accedidos ➔ Usados ➔ Modificados ➔ Compartidos
  • 4. HISTORIA ❏ El 17 de noviembre de 2003, la Directiva del Parlamento Europeo, presentaba un Tratado sobre el acceso de los datos ❏ En el año 2009 el gobierno de Estados Unidos comunicaba su iniciativa de liberar los datos ❏ El 30 de Noviembre de 2010 el Reino Unido liberó una licencia gubernamental
  • 5. PRINCIPIOS DEL OPEN DATA ❏ Los datos deben ser: ➔ Públicos ➔ Detallados ➔ Actualizados ➔ Accesibles ➔ Automatizados ➔ Sin Registro ➔ Abiertos ➔ Libres
  • 6. BENEFICIOS DEL OPEN DATA ❏ Construir nuevo conocimiento ❏ Más eficiencia en los servicios gubernamentales y la administración pública ❏ Genera nuevos indicadores económicos y sociales ❏ Mide el impacto de las políticas públicas
  • 7. OPEN DATA Y POLITICA
  • 13. PROCEDIMIENTO 1 Preguntas a responder 2 Obtener los Datos 3 Explorar los Datos 4Modelar los Datos Comunicar y Visualizar Resultados 5
  • 14. ALGUNAS FUENTES DE DATOS ❏ Archivos ➔ Formatos Abiertos: CSV, XML, JSON ➔ Formatos Propietarios: Excel, SPSS ❏ Bases de Datos ➔ PostgreSQL, MySQL, Oracle ❏ APIs ➔ Servicios Web SOAP: XML ➔ Servicios REST: XML/JSON ❏ Documentos (PDFs, páginas web, etc.) ❏ Redes Sociales
  • 15. FORMATOS ABIERTOS - CSV Cabecera (Header) Separador (, ; |) Enclosure (") Registros (Rows)
  • 16. FORMATOS ABIERTOS - XML Etiquetas (Tags) <tag>...</tag> Codificación
  • 17. FORMATOS ABIERTOS - JSON Valor Atributo Arreglo [ ] Objeto { }
  • 18. APIs - OPEN DATA BANCO MUNDIAL http://api.worldbank.org/countries/all/indicators/DT.DOD.DECT. CD?date=2010:2015&format=xml ❏ Invocación para obtener XML http://api.worldbank.org/countries/all/indicators/DT.DOD.DECT. CD?date=2010:2015&format=json ❏ Invocación para obtener JSON http://api.worldbank.org/countries/all/indicators/DT.DOD.DECT. CD?date=2010:2015&format=csv ❏ Invocación para obtener CSV
  • 20. ARQUITECTURA DATA_MODEL (DIMENSIONAL) CSV ETLsCSV CUBO DE DATOS ANÁLISIS Y VISUALIZACIÓN SQL POWER ARCHITECT PENTAHO DATA INTEGRATION PENTAHO SCHEMA WORKBENCH PENTAHO BI SERVER SAIKU ANALYTICS
  • 21. SOFTWARE OPEN SOURCE A USAR ❏ Procesamiento de Datos ➔ Pentaho Data Integration CE v5.4 ❏ Entrega de Información ➔ Pentaho Schema Workbench v5.4 ➔ Pentaho BI Server CE v5.4, Saiku Analytics ➔ PostgreSQL v9.3 ➔ SQL Power Architect v1.0.8 ❏ Modelamiento ➔ Oracle JDK v1.7 (Java) ❏ Base de Datos ❏ Software Base
  • 23. CONCEPTOS ❏ Consiste en modelar hechos y dimensiones para llegar a lo que se conoce como Modelo Estrella DIMENSIÓN 1 DIMENSIÓN 2 ... DIMENSIÓN N HECHOS
  • 24. CONCEPTOS DIMENSIONES ❏ Datos Cualitativos ❏ Representan información de una entidad. Ej. País, Región, Sucursal, Producto HECHOS ❏ Datos Cuantitativos ❏ Representan un indicador o medida. Ej. ventas, deuda externa, comisiones ❏ Los indicadores pueden ser agregados (sum, avg, max, min, count)
  • 26. POSTGRESQL ❏ Abrir Terminal y abrir pgAdmin III ❏ Ir a File > Add Server ❏ Crear la base de datos data_model
  • 27. SQL POWER ARCHITECT ❏ Abrir Files ❏ Ir al siguiente directorio Computer > /opt/pentaho/architect-1.0.8 ❏ Iniciar la aplicación architect.jar ❏ Conexión: Connections > Add Source Connection > New Connection ❏ Creación del modelo: Tools > Forward Engineer
  • 29. PENTAHO DATA INTEGRATION ❏ Descargar archivos CSV: http://bit.ly/1TfVKd9 en el directorio src_data y descomprimir ❏ Crear el directorio src_data en ➔ /home/vagrant/Documents/workshop ../workshop/src_data/DeudaExterna catalogo_indicadores.csv catalogo_paises.csv deuda_externa.csv
  • 30. PENTAHO DATA INTEGRATION ❏ Abrir Terminal ❏ Ejecutar los siguientes comandos: ➔ cd /opt/pentaho/data-integration ➔ ./spoon.sh ❏ Seleccionar el repositorio workshop ❏ Conexión: Tools > Repository > Connections > data_model
  • 32. CONCEPTOS ❏ Un cubo es una colección de múltiples dimensiones y medidas FECHA TABLET VENDEDOR 2013 2014 PRODUCTOPC 2015 SMARTPHONE JUAN PEDRO ANDREA MEDIDAS - VENTAS - COMISIONES - CANTIDAD DIMENSIONES
  • 33. CUBOS, DIMENSIONES Y MEDIDAS Analogía ❏ Las dimensiones del cubo son a las dimensiones del modelo dimensional ❏ Las medidas del cubo son a los hechos del modelo dimensional Visualización ❏ Un cubo se lo visualiza como una tabla cruzada o tabla pivot
  • 34. VISUALIZACIÓN DE UN CUBO FECHA TABLET VENDEDOR 2013 2014 PRODUCTOPC 2015 SMARTPHONE JUAN PEDRO ANDREA TABLET PC SMARTPHONE 2013 2014 2015 2013 2014 2015 2013 2014 2015 JUAN 12 8 14 - - - - - - PEDRO - - - 22 45 16 - - - ANDREA - - - - - - 134 122 245 TABLA PIVOT / CRUZADA
  • 35. PENTAHO SCHEMA WORKBENCH ❏ Conexión: Options > Connection > data_model ❏ Publicación del Cubo: File > Publish Admin|password|data_model ❏ Abrir Terminal ❏ Ejecutar los siguientes comandos: ➔ cd /opt/pentaho/schema-workbench ➔ ./workbench.sh
  • 36. PENTAHO BI-SERVER ❏ Abrir Firefox: http://localhost:8080 ❏ Abrir Terminal ❏ Ejecutar los siguientes comandos: ➔ cd /opt/pentaho/biserver-ce ➔ ./start-pentaho.sh ➔ sudo su - pentaho ❏ Conexión: Manage Data Sources > New Connection > data_model
  • 37. LINKS DE INTERÉS ❏ Blog Data Warehousing / Business Intelligence con herramientas Open Source: http: //ingmmurillo-dwh-bi.blogspot.com/ ❏ Documentación API Banco Mundial: http: //data.worldbank.org/developers/api- overview/basic-call-structure ❏ Evaluador JSONPath en línea: http://jsonpath. com ❏ Pentaho CE https://sourceforge. net/projects/pentaho/files https://sourceforge. net/projects/mondrian/files
  • 38. MUCHAS GRACIAS Para preguntas o sugerencias: Gabriela Chasifan | gchasifan@thoughtworks.com Byron Torres | btorres@thoughtworks.com Mauricio Murillo | mmurillo@thoughtworks.com Carlos Fuentes | cfuentes@thoughtworks.com