SlideShare una empresa de Scribd logo
Business Intelligence con Pentaho
y Big Data con Hadoop
Presentado por: Carlos Carreño
ccarrenovi@gmail.com
Mayo, 2017
2
Acerca del Presentador
Carlos Augusto Carreño Villarreyes
Es Ingeniero de Sistemas y Computo de profesión, es físico matemático y tiene estudios de Maestría en Gestión de Tecnologías de la
Información en UNMSM. Esta certificado como ScrumMaster por ScrumAlliance, Red Hat JBoss Administrator, JBoss Fuse Expert, JBoss BPM
Expert y en Oracle Certified Profesional es especialista en Big Data y en Business Intelligence. Es instructor acreditado por Red Hat Inc. Para
Latinoamerica (Argentina, Bolivia, Colombina, Venezuela, Chile,Ecuador, Perú y Centro América ) y España. Instructor Oracle WDP y Software
Libre en Cognos – Bolivia en Perú en la Universidad Nacional de Ingeniería y New Horizons.
Experiencia Profesional:
✔ Jefe de Informática, Instituto Nacional de Defensa de la Competencia y Protección al Consumidor, Indecopi, entidad del Gobierno del Perú.
✔ Consultor del Programa de las Naciones Unidas para el Desarrollo, Sistema Nacional de Prevención y Atención de Desastres.
✔ Director y Socio de Bamtech, empresa integradora de soluciones tecnológicas con software de código abierto.
✔ Gerente de Proyectos de Business Intelligence, Cloud y Big Data en Tecnología y Gerencia del Perú
Email de Contacto: ccarrenovi@gmail.com
3
Agenda
● Introducción a Big Data con Hadoop
● Arquitectura de Hadoop
● Herramientas para Hadoop
● Ecosistemas Disponibles
● Introducción a Pentaho BI Suite
● "Stack" de tecnologías de Pentaho BI Suite
● Pentaho y Big Data
● Casos de Aplicación
4
Introducción a
Big Data
con Hadoop
5
¿Que es Big Data?
?
6
Desde cuando hablamos
de Big Data?
7
8
¿Cuánto es demasiada
información?
1 Gigabyte = 10 = 1,000,000,000⁹
1 Terabyte = 10¹² = 1,000,000,000,000
1 Petabyte = 10¹ = 1,000,000,000,000,000⁵
1 Exabyte = 10¹ = 1,000,000,000,000,000,000⁸
…
1 Quintillón
10³ = 1,000,000,000,000,000,000,000,000,000,000⁰
9
Seguimos creciendo
● Al 2016 la población
creció a 7,400 millones
de personas.
● Se prevee:
➢ 18.9 billones de
dispositivos.
➢ Que el tráfico global de
datos móviles alcance
10.8 Exabytes
mensuales
Fuente: ONU
http://exitosanoticias.pe/onu-poblacion-mundial-llego-a-7400-millones/
10
No, Solo los humanos
producimos información.
11
Aterrizando el concepto de Big Data
Big Data se refiere al procesamiento de volúmenes de
datos tan grandes que no se pueden realizar con tecnologías
tradicionales a una velocidad adecuada y a los
procedimientos para encontrar patrones repetitivos en
estos datos.
Referencia:https://es.wikipedia.org/wiki/Big_data
12
Las 3V del Big Data
● Volumen
● Velocidad
● Variedad
+
3V
13
¿Que es Hadoop?
?
14
Hadoop
● Apache™ Hadoop® es un proyecto de software
libre que permite el procesamiento distribuido de
grandes volúmenes de datos en clusters de
servidores básicos.
● Hadoop está diseñado para extender un sistema de
archivos de servidor único a miles de máquinas y a
petabytes de datos con un muy alto grado de
tolerancia a las fallas.
15
Porque interesa tanto Hadoop?
● Hadoop cambia la economía y la dinámica de
la computación a gran escala.
16
Hadoop hace posible el Big Data
● Redimensionable, pueden agregarse tantos nuevos
nodos como sea necesario.
● Rentable, Hadoop hace posible la computación
paralela con servidores básicos.
● Flexible, Hadoop funciona sin esquema y puede
absorber cualquier tipo de datos.
● Tolerante a fallas, si se pierde un nodo, el sistema
redirige el trabajo a otra localización de los datos y
continúa procesando sin perder el ritmo.
17
Arquitectura
de Hadoop
18
Componentes de Hadoop
● Hadoop está inspirado en el proyecto de Google
File System(GFS) y en el paradigma de
programación MapReduce (mapper reducer).
● Hadoop está compuesto de cuatro
componentes:
➢ Hadoop Distributed File System (HDFS)
➢ Hadoop MapReduce
➢ Yarn (Yet Another Resource Negotiator )
➢ Hadoop Common Utilities.
19
Arquitectura de Hadoop
20
Hadoop Distributed File System
● Hadoop Distributed File System (HDFS) es un sistema de
archivos que abarca todos los nodos de un cluster Hadoop
para el almacenamiento de datos. HDFS convierte todos los
sistemas de archivos locales de los nodos en un único gran
sistema de archivos
21
MapReduce
● MapReduce es el motor que Hadoop usa para procesar
las enormes cantidades de datos, se basa en el modelo
de programación Mapear – Reducir (MapReduce) .
22
Yarn
● YARN (Yet Another Resource Negotiator) es el
componente que asigna CPU, memoria y
almacenamiento a las aplicaciones que se
ejecutan en un cluster Hadoop.
23
Common Utilities
● Hadoop Common Utilities, son librerías java
que soportan otros módulos de Hadoop como:
➢ RPC
➢ File System
➢ Serializacion
24
Cluster Hadoop
25
Elementos del Cluster Hadoop
● NameNode: Sólo hay uno en el cluster. Regula el acceso
a los archivos por parte de los clientes. Mantiene en
memoria la metadata del sistema de archivos y control de
los bloques de los archivos que tiene cada DataNode.
● DataNode: Son los responsables de leer y escribir las
peticiones de los clientes. Los archivos en HDFS están
formados por bloques, estos se encuentran replicados en
los diferentes nodos.
26
Herramientas
Para
Hadoop
27
Herramientas para Hadoop
● En la implementación de una solución de Big
Data se requieren herramientas (proyectos)
adicionales que interactúen con Hadoop.
● Hadoop + el conjunto de proyectos para
Hadoop forman un ecosistema de Big Data.
28
Lista de Herramientas para
Hadoop
● Avro
● Cassandra
● Chukwa
● Flume
● HBase
● Hive
● Jaql
● Lucene
● Oozie
● Pig
● ZooKeeper
● Ambari
● Zeppelin
29
30
Ecosistemas
Disponibles
31
Plataformas de Big Data
● Hadoop ofrece una base para la creación de
plataformas o ecosistemas comerciales para el
análisis de Big Data.
● Detrás del uso de una plataforma comercial de
Big Data esta el propósito de facilitar su
adopción, esto es "Hadoop como servicio".
32
Plataformas de Big Data en
Hadoop
● Cloudera
● Amazon Web Services
● Hortonworks
● MapR
● IBM
● Microsoft HDInsight
● Intel Distribution for Apache Hadoop
● Datastax Enterprise Analytics
● Teradata Enterprise Access for Hadoop
● Pivotal HD
33
Cloudera
● Cloudera una de las primeras ofertas comerciales de Hadoop una de
las mas populares.
● Cloudera aporta Impala, que ofrece en tiempo real el procesamiento masivo
paralelo de Big Data a Hadoop.
34
Hortonworks
● Hortonworks es una de las pocas plataformas 100% de tecnología Hadoop de
código abierto sin ninguna modificación propietaria. También fueron los primeros en
integrar el soporte para Apache HCatalog, que crea "metadatos", datos dentro de los datos,
simplificando el proceso de compartir sus datos a través de otras capas de servicio como
Apache Hive o Pig.
35
Introducción
a
Pentaho BI
36
¿Que es Business Intelligence?
?
37
Concepto de Business
Intelligence - BI
● Business Intelligence (Inteligencia de Negocio), es el conjunto
de tecnologías y procedimientos que permiten el cruce de
información para soportar el análisis de los indicadores de
desempeño de un negocio.
38
Cubo OLAP
● Permite a los analistas de negocios, gerentes, tomadores de
decisiones sintetizar la información a través de diferentes
vistas.
39
Modelo Dimensional
● Técnicas y conceptos para crear modelos de
datos basados en hechos y dimensiones. Se
orienta el modelado hacia la búsqueda de
rendimiento de las consultas.
40
Modelo Estrella
● Desnormalizado
● Habilidad para análisis dimensional
41
Modelo Copo de Nieve
● Forma normalizada de las dimensiones (solo las
dimensiones primarias están enlazadas con la tabla de
hechos)
● Rompe el análisis dimensional
42
Data Warehouse
43
¿Que es Pentaho BI Platform?
?
44
Pentaho BI Platform
● Pentaho BI Platform es una suite de herramientas
“open source” basadas en Java, que permite soportar los
procesos de Inteligencia de Negocio de una empresa.
45
Alguna Empresas que usan
Pentaho BI Suite
46
"Stack" de
tecnologías en
Pentaho BI
Suite
47
Arquitectura de Pentaho BI Suite
48
Stack de Tecnologías
● Business Analysis
➢ Pentaho Web Console
➢ MDX Engine basado en Modrian/JPivot
➢ Pentaho Report Designer
➢ Pentaho Schema Workbench
➢ XMLA Data Sources
49
Stack de Tecnologías
● Data Integration
➢ Design Tool - ETL
➢ CLI
50
Pentaho
y Big Data
51
Pentaho & Hadoop
● Pentaho permite manejar complejas
transformaciones de datos y permite
operacionalizar Hadoop y Spark como parte de
una línea de datos de extremo a extremo.
52
Integración Pentaho y Hadoop
● Interfaz visual intuitiva para integrar y combinar datos de
Hadoop con prácticamente cualquier otra fuente.
● Capacidad para diseñar lógica de integración de datos 15
veces más rápido que los métodos de codificación manual
● Integración con el ecosistema de Hadoop incluyendo Spark
y compatibilidad con Kafka, YARN, Oozie, Sqoop y más
53
Arquitectura de Pentaho y
Hadoop
54
Beneficios de la Integración de
Pentaho y Hadoop
● Capacidad para procesar grandes volúmenes de datos en
sistemas de producción empresarial y dotar de capacidad de
autoservicio al usuario final
● Reportes y Analisis de datos soportando Impala, Hive y otras
base de datos analiticas
● Soporte a modelos predictivos basados en R, Weka, Python
y Mllib
● Soporte de seguridad empresarial basada en Kerberos en
plataformas Cloudera y Hortonworks.
55
Casos de
Aplicación
56
Big Data en el Campo de la
Investigacion
● De entre los proyectos que se pueden mencionar donde
se ha llevado a cabo el uso de una solución de Big Data
se encuentran:
➢ El Language, Interaction and Computation Laboratory - CLIC en
conjunto con la Universidad de Trento en Italia, son un grupo de
investigadores cuyo interés es el estudio de la comunicación
verbal y no verbal tanto con métodos computacionales como
cognitivos.
➢ Lineberger Comprehensive Cancer Center - Bioinformatics
Group utiliza Hadoop y HBase para analizar datos producidos
por los investigadores de The Cancer Genome Atlas(TCGA)
para soportar las investigaciones relacionadas con el cáncer.
57
Big Data en el Campo de la
Investigacion
● El PSG College of Technology, India, analiza múltiples secuencias
de proteínas para determinar los enlaces evolutivos y predecir
estructuras moleculares.
● La Universidad Distrital Francisco Jose de Caldas utiliza Hadoop
para apoyar su proyecto de investigación relacionado con el
sistema de inteligencia territorial de la ciudad de Bogotá.
●
La Universidad de Maryland es una de las seis universidades que
colaboran en la iniciativa académica de cómputo en la nube de
IBM/Google. Sus investigaciones incluyen proyectos en la
lingüistica computacional (machine translation), modelado del
lenguaje, bioinformática, análisis de correo electrónico y
procesamiento de imágenes.
58
Pentaho en la Industria
Financiera
● Las siguientes industrias de servicios
financieros han elegido Pentaho para su área
de inteligencia de negocios.
59
Sección de Preguntas
60
61
Referencias
● Que es Big Data
https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/
● Las 3V del Big Data
http://www.dataprix.com/blog-it/data-science/big-data-volumen-velocidad-
variedadHadoop
● MapReduce Tutorial
http://bigdatahadooptrainings.com/hadoop-mapreduce-tutorial/
● Que es Hadoop
https://www-01.ibm.com/software/cl/data/infosphere/hadoop/que-es.html
● Big Data: The Top 10 Commercial Hadoop Platforms
https://www.linkedin.com/pulse/big-data-top-10-commercial-hadoop-platforms-
bernard-marr
This work!, is dedicated to the supreme consciousness, God.

Más contenido relacionado

PDF
Cursos de Big Data y Machine Learning
PDF
Big Data Architecture con Pentaho
PPTX
Que debe saber un DBA de SQL Server sobre Hadoop
PPT
69 claves para conocer Big Data
PPT
Big Data Open Source Analytics (español)
PDF
2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK
PPTX
Big Data en el entorno Bancario
PPTX
SQL Saturday Bogota - Big Data HDInsight Server
Cursos de Big Data y Machine Learning
Big Data Architecture con Pentaho
Que debe saber un DBA de SQL Server sobre Hadoop
69 claves para conocer Big Data
Big Data Open Source Analytics (español)
2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK
Big Data en el entorno Bancario
SQL Saturday Bogota - Big Data HDInsight Server

La actualidad más candente (20)

PPTX
Jornada en enpresa digitala: Mitos y Realidades del Big Data
PDF
Hadoop
PDF
An evening with... Apache hadoop Meetup
PPTX
Big Data - Desarrollando soluciones efectivas
PPT
Cursos Big Data Open Source
PPTX
Anatomía de un proyecto de Big Data
PPTX
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
PDF
Introducción a Hadoop
PDF
Whitepaper – Qué es y cómo utilizar Hadoop
PPTX
Big Data, casos, tecnologias y aplicaciones reales
PDF
2016 ULL Cabildo KEEDIO - Arquitecturas Big Data
PPTX
Big Data: conceptos generales e impacto en los negocios
PPTX
Obtención de Datos en #BigData
PDF
Herramientas para computación distribuida. De Hadoop a Spark
PPTX
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
PDF
Congreso Academy Journal Celaya 2017
PPTX
Aplicaciones Difusas Map Reduce
PDF
Curso de Ajax
PDF
Como de grandes son tus datos
PDF
Big Data, Big Customer Value, Big Results
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Hadoop
An evening with... Apache hadoop Meetup
Big Data - Desarrollando soluciones efectivas
Cursos Big Data Open Source
Anatomía de un proyecto de Big Data
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Hadoop
Whitepaper – Qué es y cómo utilizar Hadoop
Big Data, casos, tecnologias y aplicaciones reales
2016 ULL Cabildo KEEDIO - Arquitecturas Big Data
Big Data: conceptos generales e impacto en los negocios
Obtención de Datos en #BigData
Herramientas para computación distribuida. De Hadoop a Spark
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
Congreso Academy Journal Celaya 2017
Aplicaciones Difusas Map Reduce
Curso de Ajax
Como de grandes son tus datos
Big Data, Big Customer Value, Big Results
Publicidad

Similar a Big Data y Business Intelligence con Software Open Source (20)

PDF
01 Introduccion a Big Data y Hadoop.pdf
PDF
HD Insight Integracion con SQL Server Power-Pivot Excel
PDF
Big Data a traves de una implementación
PPTX
Introduccion big data
PDF
"Casos de uso del Big Data" por Wolfram Rozas
PPTX
Building The Modern Architecture of Hybrid Data for Big Data with Microsoft D...
PPT
Exposicion big data
PPTX
Monta una Infraestructura Big Data para tu Empresa - Sesión I
PDF
Analisis de datos de la información para ingenieria
PPTX
Big Data con Sql Server 2014 y la nube
PPTX
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
DOCX
Informe big data
PPTX
PDF
Big Data
PPTX
Resumen del Microsoft Big Data Stack
PPTX
Big Data - Conceptos, herramientas y patrones
PPTX
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
DOCX
Trabajo de bigadata
PDF
Introducción a arquitecturas y herramientas de Big Data.pdf
01 Introduccion a Big Data y Hadoop.pdf
HD Insight Integracion con SQL Server Power-Pivot Excel
Big Data a traves de una implementación
Introduccion big data
"Casos de uso del Big Data" por Wolfram Rozas
Building The Modern Architecture of Hybrid Data for Big Data with Microsoft D...
Exposicion big data
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Analisis de datos de la información para ingenieria
Big Data con Sql Server 2014 y la nube
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Informe big data
Big Data
Resumen del Microsoft Big Data Stack
Big Data - Conceptos, herramientas y patrones
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
Trabajo de bigadata
Introducción a arquitecturas y herramientas de Big Data.pdf
Publicidad

Último (20)

PPTX
criminologia.pptxcriminologia policiales
PDF
CLASE 4.pdfkjljbjkbkjbihviuvvuuuuuuuuuuuu
PPT
Mano de obra directa para sistems de costeo .ppt
PDF
UP digital strategy v 2.2.pdf Marketing avanzado
PPT
Diseño de proyecto en temas educativos en todos los entornos
PDF
DESARROLLO E IMPACTO DE LA INNOVACION.pdf
PDF
ORD-REG-ELEMENTOS-PUBLICITARIOS-AMSS-12-MARZO.pdf
PPTX
Innovación en el Emprendimiento_Clase.pptx
PPTX
norma epidemiologica en el primer nivel de atencion
PDF
Rendicion publica de cuentas inicial 2025 de la procuraduria
PPTX
GESTION DE RECURSOS HUMANOS - MATERIAL ENTREGADO EN UTN FRC
PPTX
ETAPAS DE LA AUDITORIA PERUUUUUUUU.pptx
PPTX
EXPO ADMINISTRACION ESTRATEGICA HISTORIA Y EVOLUCIÓN DE LA ADMINISTRACIÓN
PPTX
Algunos aspectos fundamentales del Derecho Corporativo
PPTX
Pensamiento-Estrategico-Adaptativo-en-entornos-VUCA-BANI.pptx
PDF
PRESENTACION GESTION sobre las empresas.
PDF
CV Carlos Lira Zalaquett_Agosto 2025 - Asesor Técnico Empresarial / Facilitador
PDF
Presentación_rendición_de_cuentas_2020_26-FEB-2021.pdf
PDF
MODELO DE INNOVACION VERNE,HERRAMIENTAS Y METODO.pdf
PPT
Administración Financiera diapositivas.ppt
criminologia.pptxcriminologia policiales
CLASE 4.pdfkjljbjkbkjbihviuvvuuuuuuuuuuuu
Mano de obra directa para sistems de costeo .ppt
UP digital strategy v 2.2.pdf Marketing avanzado
Diseño de proyecto en temas educativos en todos los entornos
DESARROLLO E IMPACTO DE LA INNOVACION.pdf
ORD-REG-ELEMENTOS-PUBLICITARIOS-AMSS-12-MARZO.pdf
Innovación en el Emprendimiento_Clase.pptx
norma epidemiologica en el primer nivel de atencion
Rendicion publica de cuentas inicial 2025 de la procuraduria
GESTION DE RECURSOS HUMANOS - MATERIAL ENTREGADO EN UTN FRC
ETAPAS DE LA AUDITORIA PERUUUUUUUU.pptx
EXPO ADMINISTRACION ESTRATEGICA HISTORIA Y EVOLUCIÓN DE LA ADMINISTRACIÓN
Algunos aspectos fundamentales del Derecho Corporativo
Pensamiento-Estrategico-Adaptativo-en-entornos-VUCA-BANI.pptx
PRESENTACION GESTION sobre las empresas.
CV Carlos Lira Zalaquett_Agosto 2025 - Asesor Técnico Empresarial / Facilitador
Presentación_rendición_de_cuentas_2020_26-FEB-2021.pdf
MODELO DE INNOVACION VERNE,HERRAMIENTAS Y METODO.pdf
Administración Financiera diapositivas.ppt

Big Data y Business Intelligence con Software Open Source

  • 1. Business Intelligence con Pentaho y Big Data con Hadoop Presentado por: Carlos Carreño ccarrenovi@gmail.com Mayo, 2017
  • 2. 2 Acerca del Presentador Carlos Augusto Carreño Villarreyes Es Ingeniero de Sistemas y Computo de profesión, es físico matemático y tiene estudios de Maestría en Gestión de Tecnologías de la Información en UNMSM. Esta certificado como ScrumMaster por ScrumAlliance, Red Hat JBoss Administrator, JBoss Fuse Expert, JBoss BPM Expert y en Oracle Certified Profesional es especialista en Big Data y en Business Intelligence. Es instructor acreditado por Red Hat Inc. Para Latinoamerica (Argentina, Bolivia, Colombina, Venezuela, Chile,Ecuador, Perú y Centro América ) y España. Instructor Oracle WDP y Software Libre en Cognos – Bolivia en Perú en la Universidad Nacional de Ingeniería y New Horizons. Experiencia Profesional: ✔ Jefe de Informática, Instituto Nacional de Defensa de la Competencia y Protección al Consumidor, Indecopi, entidad del Gobierno del Perú. ✔ Consultor del Programa de las Naciones Unidas para el Desarrollo, Sistema Nacional de Prevención y Atención de Desastres. ✔ Director y Socio de Bamtech, empresa integradora de soluciones tecnológicas con software de código abierto. ✔ Gerente de Proyectos de Business Intelligence, Cloud y Big Data en Tecnología y Gerencia del Perú Email de Contacto: ccarrenovi@gmail.com
  • 3. 3 Agenda ● Introducción a Big Data con Hadoop ● Arquitectura de Hadoop ● Herramientas para Hadoop ● Ecosistemas Disponibles ● Introducción a Pentaho BI Suite ● "Stack" de tecnologías de Pentaho BI Suite ● Pentaho y Big Data ● Casos de Aplicación
  • 5. 5 ¿Que es Big Data? ?
  • 7. 7
  • 8. 8 ¿Cuánto es demasiada información? 1 Gigabyte = 10 = 1,000,000,000⁹ 1 Terabyte = 10¹² = 1,000,000,000,000 1 Petabyte = 10¹ = 1,000,000,000,000,000⁵ 1 Exabyte = 10¹ = 1,000,000,000,000,000,000⁸ … 1 Quintillón 10³ = 1,000,000,000,000,000,000,000,000,000,000⁰
  • 9. 9 Seguimos creciendo ● Al 2016 la población creció a 7,400 millones de personas. ● Se prevee: ➢ 18.9 billones de dispositivos. ➢ Que el tráfico global de datos móviles alcance 10.8 Exabytes mensuales Fuente: ONU http://exitosanoticias.pe/onu-poblacion-mundial-llego-a-7400-millones/
  • 10. 10 No, Solo los humanos producimos información.
  • 11. 11 Aterrizando el concepto de Big Data Big Data se refiere al procesamiento de volúmenes de datos tan grandes que no se pueden realizar con tecnologías tradicionales a una velocidad adecuada y a los procedimientos para encontrar patrones repetitivos en estos datos. Referencia:https://es.wikipedia.org/wiki/Big_data
  • 12. 12 Las 3V del Big Data ● Volumen ● Velocidad ● Variedad + 3V
  • 14. 14 Hadoop ● Apache™ Hadoop® es un proyecto de software libre que permite el procesamiento distribuido de grandes volúmenes de datos en clusters de servidores básicos. ● Hadoop está diseñado para extender un sistema de archivos de servidor único a miles de máquinas y a petabytes de datos con un muy alto grado de tolerancia a las fallas.
  • 15. 15 Porque interesa tanto Hadoop? ● Hadoop cambia la economía y la dinámica de la computación a gran escala.
  • 16. 16 Hadoop hace posible el Big Data ● Redimensionable, pueden agregarse tantos nuevos nodos como sea necesario. ● Rentable, Hadoop hace posible la computación paralela con servidores básicos. ● Flexible, Hadoop funciona sin esquema y puede absorber cualquier tipo de datos. ● Tolerante a fallas, si se pierde un nodo, el sistema redirige el trabajo a otra localización de los datos y continúa procesando sin perder el ritmo.
  • 18. 18 Componentes de Hadoop ● Hadoop está inspirado en el proyecto de Google File System(GFS) y en el paradigma de programación MapReduce (mapper reducer). ● Hadoop está compuesto de cuatro componentes: ➢ Hadoop Distributed File System (HDFS) ➢ Hadoop MapReduce ➢ Yarn (Yet Another Resource Negotiator ) ➢ Hadoop Common Utilities.
  • 20. 20 Hadoop Distributed File System ● Hadoop Distributed File System (HDFS) es un sistema de archivos que abarca todos los nodos de un cluster Hadoop para el almacenamiento de datos. HDFS convierte todos los sistemas de archivos locales de los nodos en un único gran sistema de archivos
  • 21. 21 MapReduce ● MapReduce es el motor que Hadoop usa para procesar las enormes cantidades de datos, se basa en el modelo de programación Mapear – Reducir (MapReduce) .
  • 22. 22 Yarn ● YARN (Yet Another Resource Negotiator) es el componente que asigna CPU, memoria y almacenamiento a las aplicaciones que se ejecutan en un cluster Hadoop.
  • 23. 23 Common Utilities ● Hadoop Common Utilities, son librerías java que soportan otros módulos de Hadoop como: ➢ RPC ➢ File System ➢ Serializacion
  • 25. 25 Elementos del Cluster Hadoop ● NameNode: Sólo hay uno en el cluster. Regula el acceso a los archivos por parte de los clientes. Mantiene en memoria la metadata del sistema de archivos y control de los bloques de los archivos que tiene cada DataNode. ● DataNode: Son los responsables de leer y escribir las peticiones de los clientes. Los archivos en HDFS están formados por bloques, estos se encuentran replicados en los diferentes nodos.
  • 27. 27 Herramientas para Hadoop ● En la implementación de una solución de Big Data se requieren herramientas (proyectos) adicionales que interactúen con Hadoop. ● Hadoop + el conjunto de proyectos para Hadoop forman un ecosistema de Big Data.
  • 28. 28 Lista de Herramientas para Hadoop ● Avro ● Cassandra ● Chukwa ● Flume ● HBase ● Hive ● Jaql ● Lucene ● Oozie ● Pig ● ZooKeeper ● Ambari ● Zeppelin
  • 29. 29
  • 31. 31 Plataformas de Big Data ● Hadoop ofrece una base para la creación de plataformas o ecosistemas comerciales para el análisis de Big Data. ● Detrás del uso de una plataforma comercial de Big Data esta el propósito de facilitar su adopción, esto es "Hadoop como servicio".
  • 32. 32 Plataformas de Big Data en Hadoop ● Cloudera ● Amazon Web Services ● Hortonworks ● MapR ● IBM ● Microsoft HDInsight ● Intel Distribution for Apache Hadoop ● Datastax Enterprise Analytics ● Teradata Enterprise Access for Hadoop ● Pivotal HD
  • 33. 33 Cloudera ● Cloudera una de las primeras ofertas comerciales de Hadoop una de las mas populares. ● Cloudera aporta Impala, que ofrece en tiempo real el procesamiento masivo paralelo de Big Data a Hadoop.
  • 34. 34 Hortonworks ● Hortonworks es una de las pocas plataformas 100% de tecnología Hadoop de código abierto sin ninguna modificación propietaria. También fueron los primeros en integrar el soporte para Apache HCatalog, que crea "metadatos", datos dentro de los datos, simplificando el proceso de compartir sus datos a través de otras capas de servicio como Apache Hive o Pig.
  • 36. 36 ¿Que es Business Intelligence? ?
  • 37. 37 Concepto de Business Intelligence - BI ● Business Intelligence (Inteligencia de Negocio), es el conjunto de tecnologías y procedimientos que permiten el cruce de información para soportar el análisis de los indicadores de desempeño de un negocio.
  • 38. 38 Cubo OLAP ● Permite a los analistas de negocios, gerentes, tomadores de decisiones sintetizar la información a través de diferentes vistas.
  • 39. 39 Modelo Dimensional ● Técnicas y conceptos para crear modelos de datos basados en hechos y dimensiones. Se orienta el modelado hacia la búsqueda de rendimiento de las consultas.
  • 40. 40 Modelo Estrella ● Desnormalizado ● Habilidad para análisis dimensional
  • 41. 41 Modelo Copo de Nieve ● Forma normalizada de las dimensiones (solo las dimensiones primarias están enlazadas con la tabla de hechos) ● Rompe el análisis dimensional
  • 43. 43 ¿Que es Pentaho BI Platform? ?
  • 44. 44 Pentaho BI Platform ● Pentaho BI Platform es una suite de herramientas “open source” basadas en Java, que permite soportar los procesos de Inteligencia de Negocio de una empresa.
  • 45. 45 Alguna Empresas que usan Pentaho BI Suite
  • 48. 48 Stack de Tecnologías ● Business Analysis ➢ Pentaho Web Console ➢ MDX Engine basado en Modrian/JPivot ➢ Pentaho Report Designer ➢ Pentaho Schema Workbench ➢ XMLA Data Sources
  • 49. 49 Stack de Tecnologías ● Data Integration ➢ Design Tool - ETL ➢ CLI
  • 51. 51 Pentaho & Hadoop ● Pentaho permite manejar complejas transformaciones de datos y permite operacionalizar Hadoop y Spark como parte de una línea de datos de extremo a extremo.
  • 52. 52 Integración Pentaho y Hadoop ● Interfaz visual intuitiva para integrar y combinar datos de Hadoop con prácticamente cualquier otra fuente. ● Capacidad para diseñar lógica de integración de datos 15 veces más rápido que los métodos de codificación manual ● Integración con el ecosistema de Hadoop incluyendo Spark y compatibilidad con Kafka, YARN, Oozie, Sqoop y más
  • 54. 54 Beneficios de la Integración de Pentaho y Hadoop ● Capacidad para procesar grandes volúmenes de datos en sistemas de producción empresarial y dotar de capacidad de autoservicio al usuario final ● Reportes y Analisis de datos soportando Impala, Hive y otras base de datos analiticas ● Soporte a modelos predictivos basados en R, Weka, Python y Mllib ● Soporte de seguridad empresarial basada en Kerberos en plataformas Cloudera y Hortonworks.
  • 56. 56 Big Data en el Campo de la Investigacion ● De entre los proyectos que se pueden mencionar donde se ha llevado a cabo el uso de una solución de Big Data se encuentran: ➢ El Language, Interaction and Computation Laboratory - CLIC en conjunto con la Universidad de Trento en Italia, son un grupo de investigadores cuyo interés es el estudio de la comunicación verbal y no verbal tanto con métodos computacionales como cognitivos. ➢ Lineberger Comprehensive Cancer Center - Bioinformatics Group utiliza Hadoop y HBase para analizar datos producidos por los investigadores de The Cancer Genome Atlas(TCGA) para soportar las investigaciones relacionadas con el cáncer.
  • 57. 57 Big Data en el Campo de la Investigacion ● El PSG College of Technology, India, analiza múltiples secuencias de proteínas para determinar los enlaces evolutivos y predecir estructuras moleculares. ● La Universidad Distrital Francisco Jose de Caldas utiliza Hadoop para apoyar su proyecto de investigación relacionado con el sistema de inteligencia territorial de la ciudad de Bogotá. ● La Universidad de Maryland es una de las seis universidades que colaboran en la iniciativa académica de cómputo en la nube de IBM/Google. Sus investigaciones incluyen proyectos en la lingüistica computacional (machine translation), modelado del lenguaje, bioinformática, análisis de correo electrónico y procesamiento de imágenes.
  • 58. 58 Pentaho en la Industria Financiera ● Las siguientes industrias de servicios financieros han elegido Pentaho para su área de inteligencia de negocios.
  • 60. 60
  • 61. 61 Referencias ● Que es Big Data https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/ ● Las 3V del Big Data http://www.dataprix.com/blog-it/data-science/big-data-volumen-velocidad- variedadHadoop ● MapReduce Tutorial http://bigdatahadooptrainings.com/hadoop-mapreduce-tutorial/ ● Que es Hadoop https://www-01.ibm.com/software/cl/data/infosphere/hadoop/que-es.html ● Big Data: The Top 10 Commercial Hadoop Platforms https://www.linkedin.com/pulse/big-data-top-10-commercial-hadoop-platforms- bernard-marr This work!, is dedicated to the supreme consciousness, God.