Carga y procesamiento de datos en
HDInsight
@erincon Eladio Rincón
Director Área Relacional
erincon@solidq.com
@yolrod Yolanda Olmedo
DPS
yolmedo@solidq.com
@Daniel_Seara Daniel Seara
Mentor
dseara@solidq.com
Agenda
• Almacenamiento en HDInsight
• Carga de datos
• Herramientas para la carga de datos
• Estructurados
• No estructurados
• Especiales
• Transformaciones
• Hive
• Pig
• Map Reduce
• Obteniendo resultados
2
• Azure HDInsight cluster
• Hortonworks Data Platform
• Arquitectura
HDInsight
Almacenamiento
3
HDInsight
Ecosistema
4
Distributed Storage
(HDFS)
Distributed Processing
(Map Reduce)
ODBC
World’s Data (Azure Data
Marketplace)
Windows Azure Storage
• Bibliotecas .Net que facilitan la tarea
• Serialización
• JSON
• AVRO
– Interacción con HDInsight y Azure
Carga de Datos
Herramientas para la carga de Datos
5
DEMO
6
Encontrando lo que
necesitamos con NuGet
Escenario
Datos de clima y consumo de cerveza 
Analizar grandes
volúmenes de
información
respecto del clima y
su correlación de
consumo,
relacionado con
períodos
estacionales
7
• Sqoop
• Importación/exportación RDMS  Hadoop
• Azure PowerShell
• Extensión de PowerShell para interactuar con
Azure
• AzureHDInsightSqoopJobDefinition
• …
Carga de Datos
Estructurados
8
DEMO
9
Importando datos de base
de datos a HDInsight
• ¡Serialización!
• AVRO
• JSON
• CSV
• ORC (Optimized Row Columnar)
• Transformar y almacenar
• Herramientas de serialización
• Herramientas de almacenamiento en la nube
Carga de Datos
No Estructurados
10
DEMO
11
Llevando datos no
estrcuturados a HDInsight
• Definir la estructura de datos necesarios
• “Copiar” entre el origen e instancias de la
estructura
• Serializar
Carga de Datos
Casos especiales
12
DEMO
13
Llevando datos diferentes a
HDInsight
• Núcleo de Hadoop
• Procesamiento paralelo
• Divide trabajo en pequeñas tareas
• Tolerancia a fallos
Transformaciones
MapReduce
14
Transformaciones
MapReduce
15
MapReduce
Mapper
Mapper
Mapper
Reducer
Reducer
Reducer
Mezcla
y
ordena
• Sistema Data Warehouse para Hadoop
• Consultas Ad-hoc
• Lenguaje de consulta como SQL: HiveQL
• Por detrás ejecuta MapReduce
Transformaciones
Hive
16
• Lenguaje de scripting de alto nivel
• Fácil programación extensible
• Ejecuta trabajos MapReduce
Transformaciones
Pig
17
Obteniendo resultados
Leyendo del cluster
18
¿Preguntas?
19
Siéntate a comer con nosotros o tómate un café y aclara tus
dudas 
¡Gracias!
20
@erincon
Director Área Relacional
Eladio Rincón
@yolrod
DPS
Yolanda Olmedo
@Daniel_Seara
Mentor
Daniel Seara
Si quieres disfrutar de las mejores sesiones de
nuestros mentores de España y Latino América,
ésta es tu oportunidad.
http://summit.solidq.com
Síguenos:
21

Más contenido relacionado

ODP
Big Data Begins
PPTX
DocumentDB la base de datos NoSql de Microsoft Azure
PDF
Procesamiento masivo de datos en MongoDB
PPTX
Taller de Big Data y Ciencia de Datos en COLMEX dia 2
PDF
Sql server 2016 novedades para desarrolladores
PPTX
Big data, Hadoop, HDInsight
PDF
Apache Spark y Big Data
Big Data Begins
DocumentDB la base de datos NoSql de Microsoft Azure
Procesamiento masivo de datos en MongoDB
Taller de Big Data y Ciencia de Datos en COLMEX dia 2
Sql server 2016 novedades para desarrolladores
Big data, Hadoop, HDInsight
Apache Spark y Big Data

Destacado (6)

PDF
NS Prefix 外伝 … Copy-On-Write #関モバ
PDF
Recycling Energy: Charge your Phone with Coffee #recyclenrgy
PDF
Swift 2.0 大域関数の行方から #swift2symposium
PDF
プロトコル指向 - 夢と現実の狭間 #cswift
PDF
AnyObject – 自分が見落としていた、基本の話
DOC
Tabela do zbierania informacji na temat trudności edukacyjnych ucznia
NS Prefix 外伝 … Copy-On-Write #関モバ
Recycling Energy: Charge your Phone with Coffee #recyclenrgy
Swift 2.0 大域関数の行方から #swift2symposium
プロトコル指向 - 夢と現実の狭間 #cswift
AnyObject – 自分が見落としていた、基本の話
Tabela do zbierania informacji na temat trudności edukacyjnych ucznia
Publicidad

Similar a Carga y procesamiento de datos en HDInsight (20)

PPTX
Análisis de datos con HD Insight
PPTX
Building The Modern Architecture of Hybrid Data for Big Data with Microsoft D...
PDF
01 Introduccion a Big Data y Hadoop.pdf
PDF
HD Insight Integracion con SQL Server Power-Pivot Excel
PPTX
Visualización de big data con power view
PDF
Expert Day 2013 - Trabaja al tope con tus datos BIG DATA
PPTX
OpenAnalytics Madrid 2014: Spark
PPTX
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
PPTX
Visualización de Big Data con Power View
PPTX
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
PDF
Polybase
PDF
Tech tuesday Big data with horton works
PPTX
Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG
PPTX
Smart Grid Big Data e IoT
PPTX
Big Data con Sql Server 2014 y la nube
PPTX
Herramientas de Microsoft para el Científicos de Datos
PPTX
CASO PRACTICO 2.pptx
PPTX
Inteligencia de negocio en la nube, una realidad palpable!!!
PPTX
Presentacion A10 Big Data_Alteryx_Cloudera
PDF
4. Microsoft Azure
Análisis de datos con HD Insight
Building The Modern Architecture of Hybrid Data for Big Data with Microsoft D...
01 Introduccion a Big Data y Hadoop.pdf
HD Insight Integracion con SQL Server Power-Pivot Excel
Visualización de big data con power view
Expert Day 2013 - Trabaja al tope con tus datos BIG DATA
OpenAnalytics Madrid 2014: Spark
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Visualización de Big Data con Power View
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Polybase
Tech tuesday Big data with horton works
Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG
Smart Grid Big Data e IoT
Big Data con Sql Server 2014 y la nube
Herramientas de Microsoft para el Científicos de Datos
CASO PRACTICO 2.pptx
Inteligencia de negocio en la nube, una realidad palpable!!!
Presentacion A10 Big Data_Alteryx_Cloudera
4. Microsoft Azure
Publicidad

Más de Eladio Rincón Herrera (7)

PPTX
No-SQL, Azure Table Storage y MongoDB
PPTX
Windows Azure SQL Databases
PPTX
Keynote Relacional SQL Server para hobbits y enanos
PPTX
03 24 hopes_2014_eladiorincon
PPTX
Some Features on SQL Server 2012 from the Accidental DBA and the ITPro perspe...
PPTX
Summit 2013: Optimizando SharePoint2013 para grandes volumenes de informacion
PPTX
Data E2E. el ciclo de vida de los datos
No-SQL, Azure Table Storage y MongoDB
Windows Azure SQL Databases
Keynote Relacional SQL Server para hobbits y enanos
03 24 hopes_2014_eladiorincon
Some Features on SQL Server 2012 from the Accidental DBA and the ITPro perspe...
Summit 2013: Optimizando SharePoint2013 para grandes volumenes de informacion
Data E2E. el ciclo de vida de los datos

Último (20)

PPTX
Diapositivas Borrador Rocha Jauregui David Paolo (3).pptx
PDF
Tips de Seguridad para evitar clonar sus claves del portal bancario.pdf
PPTX
Mecanismos-de-Propagacion de ondas electromagneticas
PDF
informe_fichas1y2_corregido.docx (2) (1).pdf
PPTX
Reconocimiento-Automatico-de-Placas-Vehiculares-con-IA.pptx
PPTX
ccna: redes de nat ipv4 stharlling cande
DOCX
TRABAJO GRUPAL (5) (1).docxsjjsjsksksksksk
PDF
Estrategia de Apoyo de Daylin Castaño (5).pdf
PDF
Guía_de_implementación_Marco_de_gobierno_y_gestión_de_TI_Universidades.pdf
PPTX
Uso responsable de la tecnología - EEST N°1
PDF
capacitación de aire acondicionado Bgh r 410
PPTX
CLAASIFICACIÓN DE LOS ROBOTS POR UTILIDAD
PPTX
Tema 1 Taller de tecnologia y proceso tecnologico.pptx
DOCX
Trabajo grupal.docxjsjsjsksjsjsskksjsjsjsj
PDF
Taller tecnológico Michelle lobo Velasquez
DOCX
TRABAJO GRUPAL (5) (1).docxjesjssjsjjskss
PDF
CONTABILIDAD Y TRIBUTACION, EJERCICIO PRACTICO
PDF
Documental Beyond the Code (Dossier Presentación - 2.0)
PPTX
Sistema de Gestión Integral TCA Ingenieros.pptx
PPTX
ccna: redes de nat ipv4 stharlling cande
Diapositivas Borrador Rocha Jauregui David Paolo (3).pptx
Tips de Seguridad para evitar clonar sus claves del portal bancario.pdf
Mecanismos-de-Propagacion de ondas electromagneticas
informe_fichas1y2_corregido.docx (2) (1).pdf
Reconocimiento-Automatico-de-Placas-Vehiculares-con-IA.pptx
ccna: redes de nat ipv4 stharlling cande
TRABAJO GRUPAL (5) (1).docxsjjsjsksksksksk
Estrategia de Apoyo de Daylin Castaño (5).pdf
Guía_de_implementación_Marco_de_gobierno_y_gestión_de_TI_Universidades.pdf
Uso responsable de la tecnología - EEST N°1
capacitación de aire acondicionado Bgh r 410
CLAASIFICACIÓN DE LOS ROBOTS POR UTILIDAD
Tema 1 Taller de tecnologia y proceso tecnologico.pptx
Trabajo grupal.docxjsjsjsksjsjsskksjsjsjsj
Taller tecnológico Michelle lobo Velasquez
TRABAJO GRUPAL (5) (1).docxjesjssjsjjskss
CONTABILIDAD Y TRIBUTACION, EJERCICIO PRACTICO
Documental Beyond the Code (Dossier Presentación - 2.0)
Sistema de Gestión Integral TCA Ingenieros.pptx
ccna: redes de nat ipv4 stharlling cande

Carga y procesamiento de datos en HDInsight