SlideShare una empresa de Scribd logo
Guillermo Bellmann
Cloud architect – Nubimetrics | Microsoft Azure MVP
@gjbellmann
Big Data en Azure: Azure Data Lake
“Big data is like teenage sex: everyone talks
about it, nobody really knows how to do it,
everyone thinks everyone else is doing it,
so everyone claims they are doing it.”
Dan Ariely
¿Qué es Big Data?
El Big Data o Datos masivos es un concepto que hace referencia al
almacenamiento de grandes cantidades de datos y a los
procedimientos usados para encontrar patrones repetitivos dentro
de esos datos.
Wikipedia
Son datos que exceden la capacidad de procesamiento de sistemas
convencionales de Bases de Datos.
• O’Reilly
Características
Volumen
Velocidad
Variedad
¿Dónde nace?
Mucha de la innovación viene de los buscadores web
¿Por qué no podemos construir un buscador con una base de datos SQL?
• El almacenamiento necesita de más de una máquina
• Los datos no son un rectángulo
• Mi pregunta puede no ser relacional
• Necesito hacer esa pregunta en muchas, muchas máquinas
Google
Bing
¿Qué tienen en común?
Almacenamiento
Opera sobre hardware
barato
Asume fallas a escala
Asume muchas lecturas,
algunas escrituras sólo de
append
Grandes archivos
Cómputo
Traer el código a los datos
Asume que la red es difícil
de escalar
Abstraer, y confiar en los
compiladores, y
optimizadores
No especifican un “formato
correcto”
Map/Reduce
Contar palabras en Python
Contar palabras en SQL
Contar palabras en Hadoop
Contar palabras en Spark
Big Data en Azure: Azure Data Lake
Ecosistema Hadoop
Big Data en Azure: Azure Data Lake
Azure Data Lake
Azure Data Lake store
Azure Data Lake analytics
Azure HDInsight
Microsoft Azure Data Lake
YARN
U-SQL
Analytics Service HDInsight
Store
HDFS
Microsoft Azure Data Lake
YARN
U-SQL
Analytics Service HDInsight
Store
HDFS
HDInsight: clúster como servicio
Oferta de Hadoop en la nube de Microsoft
100% open source Apache Hadoop
Administrado y soportado por Microsoft
Spark, Hive, Pig, Storm, HBase
Listo para usar en minutos
.NET y Java
Integración con Visual Studio
99.9% Enterprise Service Level Agreement
Windows o Linux
YARN
U-SQL
Analytics
Service
HDInsight
HDFS
Store
Azure Data Lake Store
Tamaño de archivo ilimitado
Diseñado para la diversidad de workloads de
analytics
Accesible para todas las aplicaciones de analytics
compatibles con HDFS (Hortonworks, Cloudera,
MapR)
Administrado, monitoreado y soportado por
Microsoft
Seguridad, compliance y administración
Enterprise grade
Microsoft Azure Data Lake
YARN
U-SQL
Analytics Service HDInsight
Store
HDFS
Azure Data Lake Analytics Service
Servicio de analytics distribuido
Escala dinámicamente para adaptarse a las
necesidades del negocio
Productividad desde el día uno con
herramientas de desarrollo líderes (para
novatos y expertos)
Analytics sobre todo tipo de datos (no
estructurados, semi estructurados,
estructurados)
U-SQL: simple y familiar, fácilmente extendible
Hive será soportado pronto
Construido sobre estándares abiertos (YARN)
ADLA: Trabajamos sobre todos los datos
Azure Data Lake
Analytics
Azure SQL DW Azure SQL DB
Azure
Storage Blobs
Azure
Data Lake Store
SQL DB in an
Azure VM
El lenguage de de próxima generación para
procesamiento de datos de gran escala combinando
La parte declarativa, optimizable y paralelización de SQL
La extensibilidad, expresividad y familiaridad de C#
ADLA: El origen de U-SQL
Alta performance Escalable Accesible Fácil de programar Seguro
Hive
T-SQL
U-SQL SCOPE
Anatomía de una query en U-SQL
REFERENCE ASSEMBLY WebLogExtASM;
@rs =
EXTRACT
UserID string,
Start DateTime,
End DatetTime,
Region string,
SitesVisited string,
PagesVisited string
FROM "swebhdfs://Logs/WebLogRecords.txt"
USING WebLogExtractor();
@result = SELECT UserID,
(End.Subtract(Start)).TotalSeconds AS Duration
FROM @rs ORDER BY Duration DESC FETCH 10;
OUTPUT @result TO "swebhdfs://Logs/Results/top10.txt"
USING Outputter.Tsv();
• Los tipos de U-SQL son los
mismos que en C#
• La estructura (schema) se
impone en el momento de leer/
extraer información del archivo
(schema-on-read)
Los datos de entrada se leen de este
archivo en ADL
Función custom para leer los
datos de entrada
Expresión C#
La salida se guarda en este archivo en ADL
Función built-in que escribe la salida en
formato TSV
Rowset: Conceptualmente es
como una tabla intermedia…
es la forma como pasamos datos
entre sentencias en U-SQL
Leer archivos con formatos custom
Extractores incorporados para leer archivos CSV y TSV,
o creamos extractores custom para otros formatos
Subir y registrar el assembly
2
CREATE ASSEMBLY WebLogExtAsm
FROM @”/WebLogExtAsm.dll"
WITH PERMISSION_SET = RESTRICTED;
CREATE EXTRACTOR WebLogExtractor
EXTERNAL NAME
WebLogExtractor;
Implementar IExtractor
using Microsoft.SCOPE.Interfaces;
public WebLogExtractor:IExtractor
{
public override
IEnumerable<IRow> Extract(…)
{
…
}
…
}
1
REFERENCE ASSEMBLY WebLogExtAsm;
//now just use it like a built-in
extractor
SELECT * FROM
@“swebhdfs://Logs/WebRecords.txt”
USING WebLogExtractor();
Referenciar el Assembly y usarlo
3
Big Data en Azure: Azure Data Lake
Big Data en Azure: Azure Data Lake
Big Data en Azure: Azure Data Lake
Big Data en Azure: Azure Data Lake

Más contenido relacionado

PDF
CloudCamp - Big Data – La revolución de los datos
PPTX
El mundo Big Data y las APIs
PDF
Que es azure sql datawarehouse
PPTX
Big data, Hadoop, HDInsight
PPTX
Big data2
PPTX
Novedades en sql server 2022
PDF
ARQCONF2015: Creando una Arquitectura Moderna para Big Data Analytics
PPTX
DocumentDB la base de datos NoSql de Microsoft Azure
CloudCamp - Big Data – La revolución de los datos
El mundo Big Data y las APIs
Que es azure sql datawarehouse
Big data, Hadoop, HDInsight
Big data2
Novedades en sql server 2022
ARQCONF2015: Creando una Arquitectura Moderna para Big Data Analytics
DocumentDB la base de datos NoSql de Microsoft Azure

La actualidad más candente (20)

PPTX
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
PPTX
Html5 Java Script Apis
PPTX
Que hay de nuevo en el Azure Data Lake Storage Gen2
PPTX
Text Mining con R en SQL Server 2016
PPTX
AWS en Español
PPTX
Escalando para sus primeros 10 millones de usuarios
PPTX
Conceptos básicos de Asp.net mvc
PDF
Arquitectura a escala
PDF
Explorando los Sabores de Azure Data Factory
PDF
PPTX
Conociendo los servicios adicionales en big data
PPTX
2017 04-22 - mst - curso patrones de diseño en nube
PDF
Azure SQL Databases para DBAs
PPTX
SGBD y tecnologías que usan las aplicaciones web 2.0
PPTX
Bases NoSQL y su implementación con Azure DocumentDB
PDF
Arquitectura a escala
PPTX
Azure Databricks
PPTX
Evento MultiTrain nube híbrida con Microsoft Azure
PPTX
Data Amp 2017 - Whats New in SQL Server 2017
PDF
Presentación de Kibana Lens: Una forma fácil e intuitiva de visualizar los datos
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Html5 Java Script Apis
Que hay de nuevo en el Azure Data Lake Storage Gen2
Text Mining con R en SQL Server 2016
AWS en Español
Escalando para sus primeros 10 millones de usuarios
Conceptos básicos de Asp.net mvc
Arquitectura a escala
Explorando los Sabores de Azure Data Factory
Conociendo los servicios adicionales en big data
2017 04-22 - mst - curso patrones de diseño en nube
Azure SQL Databases para DBAs
SGBD y tecnologías que usan las aplicaciones web 2.0
Bases NoSQL y su implementación con Azure DocumentDB
Arquitectura a escala
Azure Databricks
Evento MultiTrain nube híbrida con Microsoft Azure
Data Amp 2017 - Whats New in SQL Server 2017
Presentación de Kibana Lens: Una forma fácil e intuitiva de visualizar los datos
Publicidad

Destacado (20)

PPTX
Intorducing Big Data and Microsoft Azure
PPTX
Azure Data Lake Intro (SQLBits 2016)
PPTX
Big Data on azure
PDF
Dive into Spark Streaming
PPTX
PPTX
Microsoft Azure Big Data Analytics
PPTX
Azure Spark - Big Data - Coresic 2016
PDF
From no services to Microservices
PPTX
Apache Camel & The Art of Entreprise Integration
PPTX
Overcoming Obstacles to Success with Microservices
PPTX
Big data in Azure
PPTX
Azure Big Data Story
PPTX
Moving to microservices – a technology and organisation transformational journey
PDF
Big data on Azure for Architects
PPTX
PPTX
Go Serverless with Azure Functions
PPTX
Belgian Windows Server 2012 Launch windows azure insights for the enterprise ...
PPTX
Big data streaming with Apache Spark on Azure
PPTX
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
PPTX
Microsoft NYC 14
Intorducing Big Data and Microsoft Azure
Azure Data Lake Intro (SQLBits 2016)
Big Data on azure
Dive into Spark Streaming
Microsoft Azure Big Data Analytics
Azure Spark - Big Data - Coresic 2016
From no services to Microservices
Apache Camel & The Art of Entreprise Integration
Overcoming Obstacles to Success with Microservices
Big data in Azure
Azure Big Data Story
Moving to microservices – a technology and organisation transformational journey
Big data on Azure for Architects
Go Serverless with Azure Functions
Belgian Windows Server 2012 Launch windows azure insights for the enterprise ...
Big data streaming with Apache Spark on Azure
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
Microsoft NYC 14
Publicidad

Similar a Big Data en Azure: Azure Data Lake (20)

PPTX
Desayuno de arquitectos: Big data en azure
PPTX
Industria 4.0 2017 - Almacenamiento y procesamiento de datos en la nube
PDF
Introducción a U-SQL lenguaje que hace fácil el procesamiento de Big Data
PPTX
Azure SQL DataLake - SQL Saturday Bogota
PDF
PDF
Azure data lake
PDF
Cloud Computing & Big Data
PDF
Los mejores consejos para migrar de RDBMS a MongoDB.pptx.pdf
PPTX
Herramientas de Microsoft para el Científicos de Datos
PPTX
Microsoft Business Analytics 2013
PDF
Microsoft SQL Server - Presentación de PowerPoint
PPTX
Business Intelligence en Azure
DOCX
Diccionario de datos
PDF
01 Introduccion a Big Data y Hadoop.pdf
PPT
Introducción-a-Microsoft.NET-[parte2]
PDF
SolidQ Business Analytics Day | Como de grandes son tus datos
PDF
Dts y analysis services 2000
PPTX
Base de datos
PPTX
Bases de datos
PDF
Base de datos 2 (tema 1)
Desayuno de arquitectos: Big data en azure
Industria 4.0 2017 - Almacenamiento y procesamiento de datos en la nube
Introducción a U-SQL lenguaje que hace fácil el procesamiento de Big Data
Azure SQL DataLake - SQL Saturday Bogota
Azure data lake
Cloud Computing & Big Data
Los mejores consejos para migrar de RDBMS a MongoDB.pptx.pdf
Herramientas de Microsoft para el Científicos de Datos
Microsoft Business Analytics 2013
Microsoft SQL Server - Presentación de PowerPoint
Business Intelligence en Azure
Diccionario de datos
01 Introduccion a Big Data y Hadoop.pdf
Introducción-a-Microsoft.NET-[parte2]
SolidQ Business Analytics Day | Como de grandes son tus datos
Dts y analysis services 2000
Base de datos
Bases de datos
Base de datos 2 (tema 1)

Más de Guillermo Javier Bellmann (14)

PPTX
Serverless con .NET y Microsoft Azure
PPTX
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CL v...
PPTX
Cómputo en la nube: diferentes sabores para todas nuestras necesidades - .NET...
PPTX
Cómputo en la nube, diferentes sabores para todas nuestras necesidades - .NET...
PPTX
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CO v...
PPTX
Virtual Inspire Latam - Big data
PPTX
Tech night 2017-04-27
PPTX
.Net Conf CO v2017- Arquitecturas serverless con Azure Functions, Logic Apps ...
PPTX
.Net Conf UY 2017: Un paseo por Azure Service Fabric
PPTX
Empezá a trabajar en la nube
PPTX
Workshop: Microservicios con Azure Service Fabric
PPTX
.NetRAF 2017: Big data en Azure
PPTX
Uniendo las comunidades en la nube - DevDayAR 2016
PPTX
Introducción a Azure App Service - MUG Buenos Aires
Serverless con .NET y Microsoft Azure
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CL v...
Cómputo en la nube: diferentes sabores para todas nuestras necesidades - .NET...
Cómputo en la nube, diferentes sabores para todas nuestras necesidades - .NET...
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CO v...
Virtual Inspire Latam - Big data
Tech night 2017-04-27
.Net Conf CO v2017- Arquitecturas serverless con Azure Functions, Logic Apps ...
.Net Conf UY 2017: Un paseo por Azure Service Fabric
Empezá a trabajar en la nube
Workshop: Microservicios con Azure Service Fabric
.NetRAF 2017: Big data en Azure
Uniendo las comunidades en la nube - DevDayAR 2016
Introducción a Azure App Service - MUG Buenos Aires

Último (8)

PDF
DIMENSIONADO DE UNA INSTALACION FOTOVOLTAICA.pdf
PDF
simulacion de teoria de control para maquinas
PPTX
sistemas de informacion.................
PDF
Su punto de partida en la IA: Microsoft 365 Copilot Chat
PDF
modelos de control para sistemas digitales
DOCX
trabajo programacion.docxxdxxxddxdxxdxdxxxdxxdxdxd
PDF
AutoCAD Herramientas para el futuro, Juan Fandiño
PPTX
Derechos_de_Autor_y_Creative_Commons.pptx
DIMENSIONADO DE UNA INSTALACION FOTOVOLTAICA.pdf
simulacion de teoria de control para maquinas
sistemas de informacion.................
Su punto de partida en la IA: Microsoft 365 Copilot Chat
modelos de control para sistemas digitales
trabajo programacion.docxxdxxxddxdxxdxdxxxdxxdxdxd
AutoCAD Herramientas para el futuro, Juan Fandiño
Derechos_de_Autor_y_Creative_Commons.pptx

Big Data en Azure: Azure Data Lake

  • 1. Guillermo Bellmann Cloud architect – Nubimetrics | Microsoft Azure MVP @gjbellmann
  • 3. “Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.” Dan Ariely
  • 4. ¿Qué es Big Data? El Big Data o Datos masivos es un concepto que hace referencia al almacenamiento de grandes cantidades de datos y a los procedimientos usados para encontrar patrones repetitivos dentro de esos datos. Wikipedia Son datos que exceden la capacidad de procesamiento de sistemas convencionales de Bases de Datos. • O’Reilly
  • 6. ¿Dónde nace? Mucha de la innovación viene de los buscadores web ¿Por qué no podemos construir un buscador con una base de datos SQL? • El almacenamiento necesita de más de una máquina • Los datos no son un rectángulo • Mi pregunta puede no ser relacional • Necesito hacer esa pregunta en muchas, muchas máquinas
  • 9. ¿Qué tienen en común? Almacenamiento Opera sobre hardware barato Asume fallas a escala Asume muchas lecturas, algunas escrituras sólo de append Grandes archivos Cómputo Traer el código a los datos Asume que la red es difícil de escalar Abstraer, y confiar en los compiladores, y optimizadores No especifican un “formato correcto”
  • 18. Azure Data Lake Azure Data Lake store Azure Data Lake analytics Azure HDInsight Microsoft Azure Data Lake YARN U-SQL Analytics Service HDInsight Store HDFS
  • 19. Microsoft Azure Data Lake YARN U-SQL Analytics Service HDInsight Store HDFS HDInsight: clúster como servicio Oferta de Hadoop en la nube de Microsoft 100% open source Apache Hadoop Administrado y soportado por Microsoft Spark, Hive, Pig, Storm, HBase Listo para usar en minutos .NET y Java Integración con Visual Studio 99.9% Enterprise Service Level Agreement Windows o Linux
  • 20. YARN U-SQL Analytics Service HDInsight HDFS Store Azure Data Lake Store Tamaño de archivo ilimitado Diseñado para la diversidad de workloads de analytics Accesible para todas las aplicaciones de analytics compatibles con HDFS (Hortonworks, Cloudera, MapR) Administrado, monitoreado y soportado por Microsoft Seguridad, compliance y administración Enterprise grade
  • 21. Microsoft Azure Data Lake YARN U-SQL Analytics Service HDInsight Store HDFS Azure Data Lake Analytics Service Servicio de analytics distribuido Escala dinámicamente para adaptarse a las necesidades del negocio Productividad desde el día uno con herramientas de desarrollo líderes (para novatos y expertos) Analytics sobre todo tipo de datos (no estructurados, semi estructurados, estructurados) U-SQL: simple y familiar, fácilmente extendible Hive será soportado pronto Construido sobre estándares abiertos (YARN)
  • 22. ADLA: Trabajamos sobre todos los datos Azure Data Lake Analytics Azure SQL DW Azure SQL DB Azure Storage Blobs Azure Data Lake Store SQL DB in an Azure VM
  • 23. El lenguage de de próxima generación para procesamiento de datos de gran escala combinando La parte declarativa, optimizable y paralelización de SQL La extensibilidad, expresividad y familiaridad de C# ADLA: El origen de U-SQL Alta performance Escalable Accesible Fácil de programar Seguro Hive T-SQL U-SQL SCOPE
  • 24. Anatomía de una query en U-SQL REFERENCE ASSEMBLY WebLogExtASM; @rs = EXTRACT UserID string, Start DateTime, End DatetTime, Region string, SitesVisited string, PagesVisited string FROM "swebhdfs://Logs/WebLogRecords.txt" USING WebLogExtractor(); @result = SELECT UserID, (End.Subtract(Start)).TotalSeconds AS Duration FROM @rs ORDER BY Duration DESC FETCH 10; OUTPUT @result TO "swebhdfs://Logs/Results/top10.txt" USING Outputter.Tsv(); • Los tipos de U-SQL son los mismos que en C# • La estructura (schema) se impone en el momento de leer/ extraer información del archivo (schema-on-read) Los datos de entrada se leen de este archivo en ADL Función custom para leer los datos de entrada Expresión C# La salida se guarda en este archivo en ADL Función built-in que escribe la salida en formato TSV Rowset: Conceptualmente es como una tabla intermedia… es la forma como pasamos datos entre sentencias en U-SQL
  • 25. Leer archivos con formatos custom Extractores incorporados para leer archivos CSV y TSV, o creamos extractores custom para otros formatos Subir y registrar el assembly 2 CREATE ASSEMBLY WebLogExtAsm FROM @”/WebLogExtAsm.dll" WITH PERMISSION_SET = RESTRICTED; CREATE EXTRACTOR WebLogExtractor EXTERNAL NAME WebLogExtractor; Implementar IExtractor using Microsoft.SCOPE.Interfaces; public WebLogExtractor:IExtractor { public override IEnumerable<IRow> Extract(…) { … } … } 1 REFERENCE ASSEMBLY WebLogExtAsm; //now just use it like a built-in extractor SELECT * FROM @“swebhdfs://Logs/WebRecords.txt” USING WebLogExtractor(); Referenciar el Assembly y usarlo 3

Notas del editor

  • #12: ¿Problemas? Escala, fallas, overflows
  • #13: ¿Problemas? Escala, fallas, expresividad
  • #14: ¿Problemas? Demasiada ceremonia. Se complica, rápido.
  • #23: ADLA allows you to compute on data anywhere and a join data from multiple cloud sources.
  • #24: Remove SCOPE for external customers?