SlideShare una empresa de Scribd logo
Azure Data
Introducción a HDInsight
Freddy Angarita C.
MVP SQL Server
@flacMVP | geeks.ms/blogs/fangarita/
@sqlpassmed
Application
Building Blocks
storagebig data
caching
CDN
database
identity
media
messaging
networking
traffic
cloud
services
Demo
Configuración Storage y HDInsight
Hadoop
• Framework
• Procesamiento distribuido
• Modelo de programación simple
• Diseñado para escalabilidad
• Cada Nodo ofrece computación y
almacenamiento
• Diseñada para ser tolerante a fallos
Hadoop -Componentes
• Framework de procesamiento
• HDFS (Hadoo Distributed File System)
Esquema de Datos Tecnología de Consumo
Relacionales SQL
No relacionales NoSql (Not Only SQL)
Hadoop MapReduce
Consumo de información
MapReduce
• Consumo de Datos mediante trabajos
(normalmente Java)
• Alta Flexibilidad – Alta complejidad
• Ha aumentado su adopción pero como DW
• Opciones
• Hive – query en MapReduce
Distribuido en el clúster
• Los datos y el procesamiento se hospeda en
cada máquina
• Agrega redundancia y tolerancia a fallos
• El procesamiento ocurre localmente
Cómo consulta
JobTracker
TaskTracker
TaskTracker
TaskTracker
TaskTracker
TaskTracker
HDFS
• Replica los datos en otros nodos (128M)
• NameNode: Dónde están los datos
• DataNodes: Almacenamiento de la
información
• Cada máquina: más procesamiento, más
almacenamiento
Demo
Ejecutar un Job desde PowerShell
Demo
Obtener Resultados del Job localmente
Demo
Conectar herramientas BI (Excel)
PowerQuery http://bit.ly/1loMSko
HIVE
• Consultas en paralelo usando MapReduce
• Lenguaje parecido a SQL – HiveQL
• Ideal para procesar grandes volúmenes de datos
inmutables
• No se recomienda para almacenamiento transaccional
• Optimizado para
• Escalabilidad
• Extensibilidad
• Tolerancia a Fallos
• No se considera mucho la latencia
Ejecución Query HIVE
Ejemplo:
2012-02-03 20:26:41 SampleClass3 [ERROR] verbose detail for id 1527353937
Ejecución Invoke-Hive
• Alternativa para escribir MapReduce
• Pasos
• Carga: lee la información a usar
• Transformación: Manipulación de los datos
• Volcar o almacenar: Salida a pantalla o a almacenamiento
PIG
Acompáñanos mañana en
EAFIT en el Bloque 19,
Piso 4 desde las 9 a.m.
Evento de Comunidad

Más contenido relacionado

PPTX
BI en Sql Server 2014
PPTX
Global azure bootcamp SQL Azure End to End
PPTX
SQL Server Analysis Services
PPT
Bases de datos
PDF
Sql Saturday Guatemala 2018 - Azure SQL Data Warehouse
PPTX
Bases de datos
PPTX
Introducción a Azure DocumentDB
PPTX
Introducción Azure Synapse Analytics
BI en Sql Server 2014
Global azure bootcamp SQL Azure End to End
SQL Server Analysis Services
Bases de datos
Sql Saturday Guatemala 2018 - Azure SQL Data Warehouse
Bases de datos
Introducción a Azure DocumentDB
Introducción Azure Synapse Analytics

La actualidad más candente (17)

PPTX
Azure CosmosDB @ NETConf AR 2017
PPT
PPTX
Bases de datos
PPTX
Microsoft Azure SQL Database
PPTX
PPTX
NoSQL Cassandra
PDF
Que es azure sql datawarehouse
PPTX
PPTX
Data warehouseing e inteligencia de negocios
PDF
Presentación taller aplicaciones
PPTX
PDF
ARQCONF2015: Creando una Arquitectura Moderna para Big Data Analytics
PPTX
Unidad educativa
PPTX
Microsoft sql-server
PPTX
Seminario Web MongoDB-Paradigma: Cree aplicaciones más escalables utilizando ...
PPTX
Azure CosmosDB @ NETConf AR 2017
Bases de datos
Microsoft Azure SQL Database
NoSQL Cassandra
Que es azure sql datawarehouse
Data warehouseing e inteligencia de negocios
Presentación taller aplicaciones
ARQCONF2015: Creando una Arquitectura Moderna para Big Data Analytics
Unidad educativa
Microsoft sql-server
Seminario Web MongoDB-Paradigma: Cree aplicaciones más escalables utilizando ...
Publicidad

Similar a Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG (20)

PDF
Polybase
PDF
01 Introduccion a Big Data y Hadoop.pdf
PDF
SolidQ Business Analytics Day | Como de grandes son tus datos
PDF
Como de grandes son tus datos
PPTX
Clase Hadoop
PPTX
Hadoop_Introduction_pptx.pptx
PPTX
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
PPTX
Big data, Hadoop, HDInsight
PDF
Programación Disribuida
PDF
introduction to hadoop
PDF
Servidores web de altas prestaciones. Tema 7
PPTX
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
PPTX
Webinar de Introducción a Hive y Zeppelin
PDF
¿Por que cambiar de Apache Hadoop a Apache Spark?
PDF
An evening with... Apache hadoop Meetup
PDF
Whitepaper – Qué es y cómo utilizar Hadoop
PDF
Hadoop en accion
PPTX
Introducción a polybase en SQL Server
Polybase
01 Introduccion a Big Data y Hadoop.pdf
SolidQ Business Analytics Day | Como de grandes son tus datos
Como de grandes son tus datos
Clase Hadoop
Hadoop_Introduction_pptx.pptx
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big data, Hadoop, HDInsight
Programación Disribuida
introduction to hadoop
Servidores web de altas prestaciones. Tema 7
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Webinar de Introducción a Hive y Zeppelin
¿Por que cambiar de Apache Hadoop a Apache Spark?
An evening with... Apache hadoop Meetup
Whitepaper – Qué es y cómo utilizar Hadoop
Hadoop en accion
Introducción a polybase en SQL Server
Publicidad

Último (20)

PDF
PRESENTACION DE LA ASIGNATURA materiales no convencionales.pdf
PPTX
Abdomen HosAESREBBweubeehkrhkqhrkhehrjktil.pptx
PPTX
Presentacion Capacitacion RC y RG (5).pptx
PDF
dhjhfjhjcnjhghhhdfhuhhchchuuhuhduhduddyhdu
PDF
MOVIMIENTO DE TIERRA Y ASFALTO.pdf 2025A
PDF
Rendición_Pública_de_Cuentas_Inicial_2019.pdf
PDF
Unidad Nº 1 Introduccion a Estadísticas
DOCX
Clase 2.1 Estudio de Casos - preguntas, hipótesis y objetivos 13.04.23.docx
PDF
SEMANA 13.pdf MICROBIOLOGÍA Y PARÁSITISMO
PDF
MAPAMENTALLa tendencia pedagógica basada en competencias hacia una.pdf
PDF
Los 10 mayores Fondos Soberanos de Riqueza (2025).pdf
PPTX
DOROTHEA E OREM EXPO.pptx de una teoridta importante
PDF
docsity-diapositivas-de-la-salud-mental.pdf
PPTX
Introducción al analisis de datos con Power bi
PDF
Presentación_rendición_de_cuentas_2020_26-FEB-2021.pdf
PPTX
EPCE_EXCEL 365 CURSO DE ENTRENAMIENTO.pptx
PDF
Actualización en el uso de uterotónico.pdf
PPTX
lareformaprevisional-091013175510-phpapp01.pptx
PPTX
TICS EN HONDURAS, PAIS DE CENTROAMERICA.pptx
PDF
Riesgos en Negociaciones_comercio exterior.pdf
PRESENTACION DE LA ASIGNATURA materiales no convencionales.pdf
Abdomen HosAESREBBweubeehkrhkqhrkhehrjktil.pptx
Presentacion Capacitacion RC y RG (5).pptx
dhjhfjhjcnjhghhhdfhuhhchchuuhuhduhduddyhdu
MOVIMIENTO DE TIERRA Y ASFALTO.pdf 2025A
Rendición_Pública_de_Cuentas_Inicial_2019.pdf
Unidad Nº 1 Introduccion a Estadísticas
Clase 2.1 Estudio de Casos - preguntas, hipótesis y objetivos 13.04.23.docx
SEMANA 13.pdf MICROBIOLOGÍA Y PARÁSITISMO
MAPAMENTALLa tendencia pedagógica basada en competencias hacia una.pdf
Los 10 mayores Fondos Soberanos de Riqueza (2025).pdf
DOROTHEA E OREM EXPO.pptx de una teoridta importante
docsity-diapositivas-de-la-salud-mental.pdf
Introducción al analisis de datos con Power bi
Presentación_rendición_de_cuentas_2020_26-FEB-2021.pdf
EPCE_EXCEL 365 CURSO DE ENTRENAMIENTO.pptx
Actualización en el uso de uterotónico.pdf
lareformaprevisional-091013175510-phpapp01.pptx
TICS EN HONDURAS, PAIS DE CENTROAMERICA.pptx
Riesgos en Negociaciones_comercio exterior.pdf

Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG

Notas del editor

  • #4: Entrar al portalhttp://www.azure.com/#crearcuenta de almacenamiento:azurebootcampmed#CrearHDInsight 4 Nodos: azurebootcampmed
  • #12: http://www.windowsazure.com/en-us/documentation/articles/hdinsight-get-started/#Conectarse a la cuentaAdd-AzureAccount#Nombre de la suscripciónGet-AzureSubscription#Establecer variables base $subscriptionName = "Visual Studio Ultimate with MSDN" $clusterName = "azurebootcamp20140329"# Definición del job MapReduce$wordCountJobDefinition = New-AzureHDInsightMapReduceJobDefinition -JarFile "wasb:///example/jars/hadoop-examples.jar" -ClassName "wordcount" -Arguments "wasb:///example/data/gutenberg/davinci.txt", "wasb:///example/data/WordCountOutput"# Enviar el trabajoSelect-AzureSubscription $subscriptionName$wordCountJob = Start-AzureHDInsightJob -Cluster $clusterName -JobDefinition $wordCountJobDefinition# Revisarsi el trabajo ha sidofinalizadoWait-AzureHDInsightJob -Job $wordCountJob -WaitTimeoutInSeconds 3600 # Obtener la salida del trabajoGet-AzureHDInsightJobOutput -Cluster $clusterName -JobId $wordCountJob.JobId -StandardError
  • #13: #Creardirectoriod:mkdir \PruebasAzurecd \PruebasAzure#Establecerlas variables para los siguientescomandos$subscriptionName = "Visual Studio Ultimate with MSDN" $storageAccountName = "azurebootcamp20140329"$containerName = "azurebootcamp20140329"# Establece el objeto de contexto de la cuentadealmacenamiento (Storage Account)Select-AzureSubscription $subscriptionName$storageAccountKey = Get-AzureStorageKey $storageAccountName | %{ $_.Primary }$storageContext = New-AzureStorageContext -StorageAccountName $storageAccountName -StorageAccountKey $storageAccountKey# Descarga el resultado del Job a la estación de trabajoGet-AzureStorageBlobContent -Container $ContainerName -Blob example/data/WordCountOutput/part-r-00000 -Context $storageContext -Force# Visualizacion de Resultados (usandofindstr para laspalabras q tiene "there")cat ./example/data/WordCountOutput/part-r-00000 | findstr "there"
  • #14: #BajarPowerQuery#abrir Excel#Conectar a Otrasfuentes#Pegar en addres: azurebootcamp20140329#En el portal: Administrar claves de acceso#Copiar clave deaccesoprimaria#Seleccionarsegundo item#Buscar part-r-00000
  • #16: #AgregarcuentaAdd-AzureAccount#Configuración Variables$subscriptionName = "Visual Studio Ultimate with MSDN" $storageAccountName = "azurebootcamp20140329"$containerName = "azurebootcamp20140329"$clusterName = "azurebootcamp20140329"# HiveQL# TablaInterna$queryString = "DROP TABLE log4jLogs;" + "CREATE TABLE log4jLogs(t1 string, t2 string, t3 string, t4 string, t5 string, t6 string, t7 string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ';" + "LOAD DATA INPATH 'wasb://$containerName@$storageAccountName.blob.core.windows.net/example/data/sample.log' OVERWRITE INTO TABLE log4jLogs;" + "SELECT t4 AS sev, COUNT(*) AS cnt FROM log4jLogs WHERE t4 = '[ERROR]' GROUP BY t4;"# Crear Job Hive$hiveJobDefinition = New-AzureHDInsightHiveJobDefinition -Query $queryString# Submit the job to the cluster Select-AzureSubscription $subscriptionName$hiveJob = Start-AzureHDInsightJob -Cluster $clusterName -JobDefinition $hiveJobDefinition# Wait for the Hive job to completeWait-AzureHDInsightJob -Job $hiveJob -WaitTimeoutInSeconds 3600# Print the standard error and the standard output of the Hive job.Get-AzureHDInsightJobOutput -Cluster $clusterName -JobId $hiveJob.JobId -StandardOutput
  • #17: #Configuración Variables$subscriptionName = "Visual Studio Ultimate with MSDN" $storageAccountName = "azurebootcamp20140329"$containerName = "azurebootcamp20140329"$clusterName = "azurebootcamp20140329"Use-AzureHDInsightCluster $clusterName$response = Invoke-Hive -Query @" SELECT * FROM hivesampletable WHERE devicemake LIKE "HTC%" LIMIT 10; "@Write-Host $response