SlideShare una empresa de Scribd logo
Hadoop, Cloud y Spring Miguel Ángel Pastor Olivar
Contenidos ¿Qué es Hadoop? Motivaciones
Arquitectura básica de Hadoop
Una visión general de Map/Reduce
Ejemplos de aplicación
Hadoop y cloud: combinación perfecta
Incorporando Spring
Proyectos relacionados
¿Qué es  Hadoop ?
Un poco de historia Subproyecto de  Nutch (liderado por Doug Cutting)
Google  papers:  GFS y  Map/Reduce framework  (2004)
Adoptan los papers anteriores en  Nutch
Yahoo! contrata a Doug Cutting (Enero 2006)
Apache top level project (2008) Clúster linux +10000 núcleos
Ámbito y retos Infraestructura procesamiento  batch  distribuido Accesible
Robusto
Escalable
Simple En la actualidad volúmenes de  petabytes
Ámbito y retos Problemática programación distribuida: fallos de red, congestión, fallo de un proceso, sincronización, . . .
¿Por qué distribuido? Ley de Moore
Enfoque Hadoop Modelo de programación simplificado
Distribución de datos
“ Movimiento ” de los programas Proceso de Mapping Proceso de Reduce Proceso de Mapping Proceso de Mapping Proceso de Reduce Proceso de Reduce
Otros enfoques: RDBMS RDBMS MapReduce Tamaño Datos Gigabytes Petabytes Acceso Batch e interactivo Batch Actualizaciones (R/W)* W1/R* Estructura Estático Dinámico Integridad Alto Bajo Escalado Scale-up Scale-out Programación Declarativa Funcional
Otros enfoques: Grid Manejo grandes volúmenes datos
Sistema de archivos compartido ( SAN )
Intensivo en computación
Messaging Passing Interface (MPI) : bajo nivel
Otros enfoques:  Volunteer [email_address]
Donación de tiempo de CPU inactivo
Intensivo en CPU
Modelo de transmisión de datos
Componentes de  Hadoop
HDFS Sistema de archivos distribuido (maestro/esclavo)
Diseñado para: Archivos muy grandes (petabytes)
Una escritura y múltiples lecturas
Hardware barato No diseñado para: Bajas latencias en accesos a datos (milisegundos)
Muchos archivos pequeños
Múltiples escritores ni en posiciones arbitrarias
Arquitectura HDFS NameNode Maestro del clúster
Gestión sistema de archivos y metadatos DataNode Almacenan la información
Reportan al NameNode SecondaryNameNode Snapshots del namenode principal (periódicos)
HDFS: comandos básicos Crear un directorio:  hadoop dfs -mkdir path
Añadir archivo:  hadoop dfs -put file HdfsPath
Eliminar:  hadoop dfs -rmr HdfsPath
Recuperar un archivo:  hadoop dfs -get HdfsPath
Otros sistemas de archivos Filesystem URI Implementación Local file fs.LocalFileSystem  HDFS hdfs hdfs.DistributedFileSystem  HFTP hftp hdfs.HftpFileSystem HSFTP  hsftp hdfs.HsftpFileSystem HAR har fs.HarFileSystem KFS kfs fs.kfs.KosmosFileSystem FTP ftp fs.ftp.FTPFileSystem S3 (nativo) s3n fs.s3native.NativeS3FileSystem  S3 (bloques) s3 fs.s3.S3FileSystem
Map/Reduce
Conceptos básicos Modelo de programación no convencional
Dos fases: map y reduce Pares clave-valor como entradas y salidas (tipos indicados por el desarrollador)
Debemos especificar función de map y reduce Inmutabilidad
Flujo de información Datos locales  (previamente  cargados) Datos intermedios de los mappers (ordenados) Intercambio (aleatorio) de valores Generación de  la salida Proceso de Mapping Proceso de Reduce Proceso de Mapping Proceso de Mapping Proceso de Reduce Proceso de Reduce
Funciones  combiner Limitaciones ancho de banda del clúster
Minimizar el flujo de transferencia de información

Más contenido relacionado

PDF
Introducción a hadoop
PDF
Introducción a Hadoop
PDF
Hadoop
PDF
BigData y MapReduce
PPTX
OpenAnalytics Madrid 2014: Spark
PDF
Hadoop en accion
PPTX
Hadoop: MapReduce para procesar grandes cantidades de datos
PDF
Introducción a Hadoop
Introducción a hadoop
Introducción a Hadoop
Hadoop
BigData y MapReduce
OpenAnalytics Madrid 2014: Spark
Hadoop en accion
Hadoop: MapReduce para procesar grandes cantidades de datos
Introducción a Hadoop

La actualidad más candente (20)

PDF
Aula virtual apache_hadoop_v3 1
PPTX
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
PPTX
Cloud Computing y MapReduce
PPTX
Big data con Hadoop y SSIS 2016
PDF
Open analytics. data analytics con hadoop
PDF
Big data para desarrolladores utilizando hadoop y openstack
PDF
Hadoop: tecnologias relacionadas
PDF
¿Por que cambiar de Apache Hadoop a Apache Spark?
PPTX
El mundo Big Data y las APIs
PDF
Big Data a traves de una implementación
PDF
Introduccion a Apache Spark
PPTX
Monta una Infraestructura Big Data para tu Empresa - Sesión I
PPTX
Piensa en grande: Big data para programadores
PPTX
Introducción a Apache Spark
PPTX
Monta una Infraestructura para Big Data en tu Empresa
PDF
Meetup spark + kerberos
PDF
Apache Spark y Big Data
PDF
Parallel Programming
Aula virtual apache_hadoop_v3 1
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Cloud Computing y MapReduce
Big data con Hadoop y SSIS 2016
Open analytics. data analytics con hadoop
Big data para desarrolladores utilizando hadoop y openstack
Hadoop: tecnologias relacionadas
¿Por que cambiar de Apache Hadoop a Apache Spark?
El mundo Big Data y las APIs
Big Data a traves de una implementación
Introduccion a Apache Spark
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Piensa en grande: Big data para programadores
Introducción a Apache Spark
Monta una Infraestructura para Big Data en tu Empresa
Meetup spark + kerberos
Apache Spark y Big Data
Parallel Programming
Publicidad

Destacado (20)

PPTX
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
PDF
Introducción a Apache HBase
PPTX
Big Data en el entorno Bancario
DOC
Proyectos everis
PPTX
Meet Latin American Game Developers
PDF
Past present and future of Recommender Systems: an Industry Perspective
PPTX
Almacenamiento en la Nube y Cloud Computing
PPT
Presentacion Everis
PPTX
Presentación de empresa: Everis
PDF
Lean DevOps - Lessons Learned from Innovation-driven Companies
PDF
"Casos de uso del Big Data" por Wolfram Rozas
PPTX
File Format Benchmarks - Avro, JSON, ORC, & Parquet
PDF
하둡2 YARN 짧게 보기
PDF
Zookeeper 소개
PDF
하둡 HDFS 훑어보기
PDF
하둡 (Hadoop) 및 관련기술 훑어보기
PPTX
Gartner Data and Analytics Summit: Bringing Self-Service BI & SQL Analytics ...
PDF
Paris ML meetup
PDF
A Beginners Guide to noSQL
PDF
Montreal Girl Geeks: Building the Modern Web
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Introducción a Apache HBase
Big Data en el entorno Bancario
Proyectos everis
Meet Latin American Game Developers
Past present and future of Recommender Systems: an Industry Perspective
Almacenamiento en la Nube y Cloud Computing
Presentacion Everis
Presentación de empresa: Everis
Lean DevOps - Lessons Learned from Innovation-driven Companies
"Casos de uso del Big Data" por Wolfram Rozas
File Format Benchmarks - Avro, JSON, ORC, & Parquet
하둡2 YARN 짧게 보기
Zookeeper 소개
하둡 HDFS 훑어보기
하둡 (Hadoop) 및 관련기술 훑어보기
Gartner Data and Analytics Summit: Bringing Self-Service BI & SQL Analytics ...
Paris ML meetup
A Beginners Guide to noSQL
Montreal Girl Geeks: Building the Modern Web
Publicidad

Similar a Hadoop, Cloud y Spring (20)

PDF
An evening with... Apache hadoop Meetup
PPTX
Clase Hadoop
PDF
Cloud Computing: Algoritmos en la Nube
PDF
Sistemas distribuidos
PPTX
MIERCODSGDSGDGDGDSGHSDGDGDSDGASDGLE.pptx
PDF
Whitepaper – Qué es y cómo utilizar Hadoop
PPTX
Hadoop_Introduction_pptx.pptx
PDF
01 Introduccion a Big Data y Hadoop.pdf
PDF
Hadoop barcamp 2011
PDF
SolidQ Business Analytics Day | Como de grandes son tus datos
PPTX
TRTRTRTRTRTcxfsdfasdfasfasfzasfgsdvfxgbRTRTR.pptx
PDF
Como de grandes son tus datos
PPTX
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
PPT
69 claves para conocer Big Data
PDF
Análisis de datos con Apache Spark
PPTX
11- Unidad 3: Webservices - 3.2 Uso de Web services (aplicaciones))
PPTX
11-Unidad 3: Diseños de Vista-3.2 Usos Web Services
An evening with... Apache hadoop Meetup
Clase Hadoop
Cloud Computing: Algoritmos en la Nube
Sistemas distribuidos
MIERCODSGDSGDGDGDSGHSDGDGDSDGASDGLE.pptx
Whitepaper – Qué es y cómo utilizar Hadoop
Hadoop_Introduction_pptx.pptx
01 Introduccion a Big Data y Hadoop.pdf
Hadoop barcamp 2011
SolidQ Business Analytics Day | Como de grandes son tus datos
TRTRTRTRTRTcxfsdfasdfasfasfzasfgsdvfxgbRTRTR.pptx
Como de grandes son tus datos
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
69 claves para conocer Big Data
Análisis de datos con Apache Spark
11- Unidad 3: Webservices - 3.2 Uso de Web services (aplicaciones))
11-Unidad 3: Diseños de Vista-3.2 Usos Web Services

Más de Miguel Pastor (18)

PDF
Liferay & Big Data Dev Con 2014
PDF
Microservices: The OSGi way A different vision on microservices
PDF
Liferay and Big Data
PDF
Reactive applications and Akka intro used in the Madrid Scala Meetup
PDF
Reactive applications using Akka
PPTX
Liferay Devcon 2013: Our way towards modularity
ODP
Liferay Module Framework
ODP
Liferay and Cloud
PDF
Jvm fundamentals
PDF
Scala Overview
PDF
Scala: un vistazo general
ODP
Platform as a Service overview
ODP
HadoopDB
PDF
Aspect Oriented Programming introduction
ODP
Software measure-slides
ODP
Arquitecturas MMOG
ODP
Software Failures
ODP
Groovy and Grails intro
Liferay & Big Data Dev Con 2014
Microservices: The OSGi way A different vision on microservices
Liferay and Big Data
Reactive applications and Akka intro used in the Madrid Scala Meetup
Reactive applications using Akka
Liferay Devcon 2013: Our way towards modularity
Liferay Module Framework
Liferay and Cloud
Jvm fundamentals
Scala Overview
Scala: un vistazo general
Platform as a Service overview
HadoopDB
Aspect Oriented Programming introduction
Software measure-slides
Arquitecturas MMOG
Software Failures
Groovy and Grails intro

Último (20)

PPT
Que son las redes de computadores y sus partes
PDF
Estrategia de apoyo tecnología miguel angel solis
DOCX
Trabajo colaborativo Grupo #2.docxmkkkkkkl
DOCX
Zarate Quispe Alex aldayir aplicaciones de internet .docx
PPT
introduccion a las_web en el 2025_mejoras.ppt
PPTX
Introduccion a servidores de Aplicaciones (1).pptx
PDF
Conceptos básicos de programación tecnología.pdf
PDF
Plantilla para Diseño de Narrativas Transmedia.pdf
PDF
5.1 Pinch y Bijker en libro Actos, actores y artefactos de Bunch Thomas (coor...
PDF
Influencia-del-uso-de-redes-sociales.pdf
PDF
SAP Transportation Management para LSP, TM140 Col18
PDF
Estrategia de apoyo tecnología grado 9-3
PDF
La electricidad y la electrónica .pdf n
PDF
Instrucciones simples, respuestas poderosas. La fórmula del prompt perfecto.
PDF
taller de informática - LEY DE OHM
PPTX
Yogurt de tocosh (1).pptx preparacion receta
PPTX
RAP01 - TECNICO SISTEMAS TELEINFORMATICOS.pptx
PPTX
Presentación de Redes de Datos modelo osi
PPTX
Presentación PASANTIAS AuditorioOO..pptx
PPTX
Administración se srevidores de apliaciones
Que son las redes de computadores y sus partes
Estrategia de apoyo tecnología miguel angel solis
Trabajo colaborativo Grupo #2.docxmkkkkkkl
Zarate Quispe Alex aldayir aplicaciones de internet .docx
introduccion a las_web en el 2025_mejoras.ppt
Introduccion a servidores de Aplicaciones (1).pptx
Conceptos básicos de programación tecnología.pdf
Plantilla para Diseño de Narrativas Transmedia.pdf
5.1 Pinch y Bijker en libro Actos, actores y artefactos de Bunch Thomas (coor...
Influencia-del-uso-de-redes-sociales.pdf
SAP Transportation Management para LSP, TM140 Col18
Estrategia de apoyo tecnología grado 9-3
La electricidad y la electrónica .pdf n
Instrucciones simples, respuestas poderosas. La fórmula del prompt perfecto.
taller de informática - LEY DE OHM
Yogurt de tocosh (1).pptx preparacion receta
RAP01 - TECNICO SISTEMAS TELEINFORMATICOS.pptx
Presentación de Redes de Datos modelo osi
Presentación PASANTIAS AuditorioOO..pptx
Administración se srevidores de apliaciones

Hadoop, Cloud y Spring