SlideShare una empresa de Scribd logo
HadoopMapReducepara procesar grandes cantidades dedatosRaúl Ochoa
Antecedentes
AntecedentesSistemas Distribuidos
AntecedentesSistemas DistribuidosProgramación Funcional
AntecedentesSistemas DistribuidosProgramación FuncionalÁlgebra
AntecedentesSistemas DistribuidosProgramación FuncionalÁlgebraJava
AntecedentesSistemas DistribuidosProgramación FuncionalÁlgebraJavaGoogle
AntecedentesSistemas DistribuidosProgramación FuncionalÁlgebraJavaGoogle
AntecedentesSistemas DistribuidosProgramación FuncionalÁlgebraJavaGoogleCrédito de Libre Elección
AntecedentesSistemas DistribuidosProgramación FuncionalÁlgebraJavaGoogleCrédito de Libre Elección
ContenidosIntroducción a HadoopMapReduceHadoopDistributed File SystemMapReduce + HDFSSubproyectosDemo
ContenidosIntroducción a HadoopMapReduceHadoopDistributed File SystemMapReduce + HDFSSubproyectosDemo
Introducción
IntroducciónObjetivosBaseCaracterísticasHistoriaPowered byComparación con otros sistemas
ObjetivosOpen SourceComputación distribuidaProcesar grandes cantidades de datos
ObjetivosOpen SourceComputación distribuidaProcesar grandes cantidades de datos
ObjetivosOpen SourceComputación distribuidaProcesar grandes cantidades de datos
BaseMapReduceGFS
CaracterísticasEscalableEconómicoEficienteFiable
CaracterísticasEscalableEconómicoEficienteFiable
CaracterísticasEscalableEconómicoEficienteFiable
CaracterísticasEscalableEconómicoEficienteFiable
HistoriaCreador: Doug Cutting2002-2004: Nutch2004-2006: GFS & MapReducePapers2006-2008: Yahoo!
HistoriaCreador: Doug Cutting2002-2004: Nutch2004-2006: GFS & MapReducePapers2006-2008: Yahoo!
HistoriaCreador: Doug Cutting2002-2004: Nutch2004-2006: GFS & MapReducePapers2006-2008: Yahoo!
HistoriaCreador: Doug Cutting2002-2004: Nutch2004-2006: GFS & MapReducePapers2006-2008: Yahoo!
Powered by Hadoophttp://wiki.apache.org/hadoop/PoweredBy
ComparaciónRDBMSGridComputingSETI@home et al.
ComparaciónRDBMSGridComputingSETI@home et al.
ComparaciónRDBMSGridComputingSETI@home et al.
ContenidosIntroducción a HadoopMapReduceHadoopDistributed File SystemMapReduce + HDFSSubproyectosDemo
MapReduce
MapReduceComputación distribuida
Hadoop: MapReduce para procesar grandes cantidades de datos
DEAD LOCK
MapReduceComputación distribuidaProgramación Funcional
MapReduceComputación distribuidaProgramación FuncionalFunciones Map y Reduce
MapInputmap()Output
ReduceInputreduce()Output
MapReduceComputación distribuidaProgramación FuncionalFunciones Map y Reducemap() y reduce() en Python
ContenidosIntroducción a HadoopMapReduceHadoopDistributed File SystemMapReduce + HDFSSubproyectosDemo
HDFS
HDFSSuposiciones y ObjetivosArquitecturaNameNodesDataNodesOtras características
Suposiciones y ObjetivosEl hardware fallaGrandes cantidades de datosMáquinas comunesMover la computación, no los datosPortabilidad
Suposiciones y ObjetivosEl hardware fallaGrandes cantidades de datosMáquinas comunesMover la computación, no los datosPortabilidad
Suposiciones y ObjetivosEl hardware fallaGrandes cantidades de datosMáquinas comunesMover la computación, no los datosPortabilidad
Suposiciones y ObjetivosEl hardware fallaGrandes cantidades de datosMáquinas comunesMover la computación, no los datosPortabilidad
Suposiciones y ObjetivosEl hardware fallaGrandes cantidades de datosMáquinas comunesMover la computación, no los datosPortabilidad
Arquitectura
ArquitecturaEspacio de nombres únicoEscribir una vez, leer variasArchivos divididos en bloquesAcceso directo a los datos
ArquitecturaEspacio de nombres únicoEscribir una vez, leer variasArchivos divididos en bloquesAcceso directo a los datos
ArquitecturaEspacio de nombres únicoEscribir una vez, leer variasArchivos divididos en bloquesAcceso directo a los datos
ArquitecturaEspacio de nombres únicoEscribir una vez, leer variasArchivos divididos en bloquesAcceso directo a los datos
Arquitectura
NameNodeControla el espacio de nombresFicheros <> BloquesBloques <> DataNodesConfiguración de clusterMetadata
NameNodeMetadataEn memoriaFicherosAtributos: creación, factor de replica.BloquesBloques <> DataNodesLOG
Arquitectura
DataNodeServidor de bloquesReportes al NameNodeEnvió de datos a otros DataNodes
DataNodeServidor de bloquesReportes al NameNodeEnvió de datos a otros DataNodes
DataNodeServidor de bloquesReportes al NameNodeEnvió de datos a otros DataNodes
Arquitectura
Otras característicasDisposición de los bloquesHeartbeatsReplicaciónValidación de los datosBalanceoInterfaz web
Otras característicasDisposición de los bloquesHeartbeatsReplicaciónValidación de los datosBalanceoInterfaz web
Otras característicasDisposición de los bloquesHeartbeatsReplicaciónValidación de los datosBalanceoInterfaz web
Otras característicasDisposición de los bloquesHeartbeatsReplicaciónValidación de los datosBalanceoInterfaz web
Otras característicasDisposición de los bloquesHeartbeatsReplicaciónValidación de los datosBalanceoInterfaz web
Otras característicasDisposición de los bloquesHeartbeatsReplicaciónValidación de los datosBalanceoInterfaz de acceso
Fallos en NameNodeSingle Point of FailureLOGNameNode secundario
Lectura/EscrituraLecturaEscritura
Lectura/EscrituraLecturaEscritura
Más HDFSHDFS APIsMountableHDFS
ContenidosIntroducción a HadoopMapReduceHadoopDistributed File SystemMapReduce + HDFSSubproyectosDemo
MapReduce + HDFS
Nuevos componentesJobTrackerTaskTracker
JobTrackerClienteTaskTrackermapTaskTrackersortInputFormarramsplitregionregionsplitreduce()combine()reduce()readsplitOutputFormarTaskTrackerregionregionInputFilesOutputFileTaskTrackerregionregion
JobTrackerClienteTaskTrackermapTaskTrackersortInputFormarramsplitregionregionsplitreduce()combine()reduce()readsplitOutputFormarTaskTrackerregionregionInputFilesOutputFileTaskTrackerregionregion
JobTrackerClienteTaskTrackermapTaskTrackersortInputFormarramsplitregionregionsplitreduce()combine()reduce()readsplitOutputFormarTaskTrackerregionregionInputFilesOutputFileTaskTrackerregionregion
JobTrackerClienteMapTaskTaskTrackermapTaskTrackersortInputFormarramsplitregionregionsplitreduce()combine()reduce()readsplitOutputFormarTaskTrackerregionregionInputFilesOutputFileTaskTrackerregionregion
JobTrackerClienteMapTaskTaskTrackermapTaskTrackersortInputFormatramsplitregionregionsplitreduce()combine()reduce()readsplitOutputFormarTaskTrackerregionregionInputFilesOutputFileTaskTrackerregionregion
JobTrackerClienteMapTaskTaskTrackermapTaskTrackersortInputFormarramsplitregionregionsplitreduce()combine()reduce()readsplitOutputFormarTaskTrackerregionregionInputFilesOutputFileTaskTrackerregionregion
JobTrackerClienteMapTaskTaskTrackermapTaskTrackersortInputFormarramsplitregionregionsplitreduce()combine()reduce()readsplitOutputFormarTaskTrackerregionregionInputFilesOutputFileTaskTrackerregionregion
JobTrackerClienteMapTaskTaskTrackermapTaskTrackersortInputFormarramsplitregionregionsplitreduce()combine()reduce()readsplitOutputFormarTaskTrackerregionregionInputFilesOutputFileTaskTrackerregionregion
JobTrackerClienteMapTaskTaskTrackermapTaskTrackersortInputFormarramsplitregionregionsplitreduce()combine()reduce()readsplitOutputFormarTaskTrackerregionregionInputFilesOutputFileTaskTrackerregionregion
JobTrackerClienteMapTaskTaskTrackermapTaskTrackersortInputFormarramsplitregionregionsplitreduce()combine()reduce()readsplitOutputFormarTaskTrackerregionregionInputFilesOutputFileTaskTrackerregionregion
JobTrackerClienteTaskTrackermapTaskTrackersortInputFormarramsplitregionregionsplitreduce()combine()reduce()readsplitOutputFormarTaskTrackerregionregionInputFilesOutputFileTaskTrackerregionregion
JobTrackerClienteTaskTrackermapTaskTrackersortInputFormarramsplitregionregionsplitreduce()combine()reduce()readsplitOutputFormarTaskTrackerregionregionInputFilesOutputFileTaskTrackerregionregion
HadoopStreamingUtilidadSencillezPensar en tuberías (à la POSIX)Prototipado rápidoNo JavaDemo
ContenidosIntroducción a HadoopMapReduceHadoopDistributed File SystemMapReduce + HDFSSubproyectosDemo
Subproyectos
SubproyectosPigHiveHBaseMapReduceHDFSZooKeeperCore
PigHiveHBaseZooKeeperCoreMapReduceHDFSCore
ZooKeeperPigHiveHBaseMapReduceHDFSZooKeeperCore
ZooKeeperA. distribuidas: fallos parcialesSimpleExpresivoAlta disponibilidadLooselycoupledAlto rendimiento
ZooKeeperA. distribuidas: fallos parcialesSimpleExpresivoAlta disponibilidadLooselycoupledAlto rendimiento
ZooKeeperA. distribuidas: fallos parcialesSimpleExpresivoAlta disponibilidadLooselycoupledAlto rendimiento
ZooKeeperA. distribuidas: fallos parcialesSimpleExpresivoAlta disponibilidadLooselycoupledAlto rendimiento
ZooKeeperA. distribuidas: fallos parcialesSimpleExpresivoAlta disponibilidadLooselycoupledAlto rendimiento
ZooKeeperA. distribuidas: fallos parcialesSimpleExpresivoAlta disponibilidadLooselycoupledAlto rendimiento
PigPigHiveHBaseMapReduceHDFSZooKeeperCore
PigLenguaje de script: PigLatinNivel de abstracciónOperaciones y transformacionesMapReduce JobsNo es SQL
HivePigHiveHBaseMapReduceHDFSZooKeeperCore
HiveAnálisis de datosDatos estructuradosQuery Language (à la SQL)No es un sistema Real Time
HBasePigHiveHBaseMapReduceHDFSZooKeeperCore
HBaseBase de DatosDistribuidaOrientada a columnasBasada en BigTable
ContenidosIntroducción a HadoopMapReduceHadoopDistributed File SystemMapReduce + HDFSSubproyectosDemo
Demo
DocumentaciónHadoop Homepagehttp://hadoop.apache.org/HadoopWikihttp://wiki.apache.org/hadoop/
LibrosHadoop: TheDefinitiveGuideTom White – O’Reilly (Julio 2009)http://oreilly.com/catalog/9780596521998/Hadoop in ActionChuck Lam y James Warren –Manning (Octubre 2009)http://www.manning.com/lam/Pro HadoopJason Venner–Apress (No publicado)http://www.apress.com/book/view/1430219424
Preguntas?
Créditos imágenesDeadlock – Unknown Licensevia reddit: http://www.reddit.com/r/programming/comments/65pcg/deadlock_traffic_version_pic
GraciasRaúl Ochoarochoaf@gmail.com

Más contenido relacionado

PDF
Hadoop: tecnologias relacionadas
PDF
Introducción a Hadoop
PDF
MapReduce en Hadoop
PDF
Big Data a traves de una implementación
PDF
Introducción a Hadoop
PDF
BigData y MapReduce
Hadoop: tecnologias relacionadas
Introducción a Hadoop
MapReduce en Hadoop
Big Data a traves de una implementación
Introducción a Hadoop
BigData y MapReduce

La actualidad más candente (17)

PDF
Introducción a hadoop
PDF
Open analytics. data analytics con hadoop
PPTX
OpenAnalytics Madrid 2014: Spark
PDF
Aula virtual apache_hadoop_v3 1
PDF
Big data para desarrolladores utilizando hadoop y openstack
PPTX
Monta una Infraestructura para Big Data en tu Empresa
PDF
Hadoop
PPTX
Monta una Infraestructura Big Data para tu Empresa - Sesión II
PDF
Introducción a Apache HBase
PPTX
Monta una Infraestructura Big Data para tu Empresa - Sesión I
PPTX
Taller hadoop
PPTX
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
PPTX
Big data con Hadoop y SSIS 2016
PPTX
Webinar de Introducción a Hive y Zeppelin
PPTX
Cloud Computing y MapReduce
PDF
GOsa+samba+ldap
Introducción a hadoop
Open analytics. data analytics con hadoop
OpenAnalytics Madrid 2014: Spark
Aula virtual apache_hadoop_v3 1
Big data para desarrolladores utilizando hadoop y openstack
Monta una Infraestructura para Big Data en tu Empresa
Hadoop
Monta una Infraestructura Big Data para tu Empresa - Sesión II
Introducción a Apache HBase
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Taller hadoop
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big data con Hadoop y SSIS 2016
Webinar de Introducción a Hive y Zeppelin
Cloud Computing y MapReduce
GOsa+samba+ldap
Publicidad

Destacado (6)

PDF
Introduccion apache hadoop
PDF
¿Por que cambiar de Apache Hadoop a Apache Spark?
PDF
Hadoop en accion
PDF
Seminario mongo db springdata 10-11-2011
PPTX
PPT on Hadoop
Introduccion apache hadoop
¿Por que cambiar de Apache Hadoop a Apache Spark?
Hadoop en accion
Seminario mongo db springdata 10-11-2011
PPT on Hadoop
Publicidad

Similar a Hadoop: MapReduce para procesar grandes cantidades de datos (20)

ODP
Hadoop, Cloud y Spring
PPTX
Clase Hadoop
PPTX
TRTRTRTRTRTcxfsdfasdfasfasfzasfgsdvfxgbRTRTR.pptx
PPTX
MIERCODSGDSGDGDGDSGHSDGDGDSDGASDGLE.pptx
PDF
Sistemas distribuidos
PDF
01 Introduccion a Big Data y Hadoop.pdf
PDF
Whitepaper – Qué es y cómo utilizar Hadoop
PPTX
g2g2g2safasfcazcazFcfaSFCZczcAZCDg2.pptx
PPTX
Hadoop Distributed File System (HDFS) pt2.pptx
PPTX
lunedgfdsgfdfgdgdsgdsgdsgdgdsgdsgdsgs.pptx
PDF
Panorama BigData (OpenExpo2017)
PPTX
PDF
Hadoop barcamp 2011
PDF
SolidQ Business Analytics Day | Como de grandes son tus datos
PPTX
Hadoop_Introduction_pptx.pptx
PDF
Análisis de datos con Apache Spark
PPT
69 claves para conocer Big Data
Hadoop, Cloud y Spring
Clase Hadoop
TRTRTRTRTRTcxfsdfasdfasfasfzasfgsdvfxgbRTRTR.pptx
MIERCODSGDSGDGDGDSGHSDGDGDSDGASDGLE.pptx
Sistemas distribuidos
01 Introduccion a Big Data y Hadoop.pdf
Whitepaper – Qué es y cómo utilizar Hadoop
g2g2g2safasfcazcazFcfaSFCZczcAZCDg2.pptx
Hadoop Distributed File System (HDFS) pt2.pptx
lunedgfdsgfdfgdgdsgdsgdsgdgdsgdsgdsgs.pptx
Panorama BigData (OpenExpo2017)
Hadoop barcamp 2011
SolidQ Business Analytics Day | Como de grandes son tus datos
Hadoop_Introduction_pptx.pptx
Análisis de datos con Apache Spark
69 claves para conocer Big Data

Último (20)

DOCX
Trabajo colaborativo Grupo #2.docxmkkkkkkl
DOCX
Trabajo colaborativo Grupo #2.docxmmuhhlk
PPTX
RAP02 - TECNICO SISTEMAS TELEINFORMATICOS.pptx
PDF
clase auditoria informatica 2025.........
PPTX
IA de Cine - Como MuleSoft y los Agentes estan redefiniendo la realidad
PDF
Plantilla para Diseño de Narrativas Transmedia.pdf
PPTX
COMO AYUDAN LAS TIC EN LA EDUCACION SUPERIOR.pptx
PPTX
Presentación PASANTIAS AuditorioOO..pptx
PDF
ACTIVIDAD 2.pdf j
PPTX
Presentación de Redes de Datos modelo osi
PPT
introduccion a las_web en el 2025_mejoras.ppt
PDF
Instrucciones simples, respuestas poderosas. La fórmula del prompt perfecto.
PDF
Temas y subtemas de las fichas 1 y 2.pdf
PPTX
historia_web de la creacion de un navegador_presentacion.pptx
PDF
Calidad desde el Docente y la mejora continua .pdf
PPT
Que son las redes de computadores y sus partes
PDF
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
PPTX
Introduccion a servidores de Aplicaciones (1).pptx
PPTX
Yogurt de tocosh (1).pptx preparacion receta
PDF
Aristoteles-y-su-forma-de-entender-el-conocimiento-y-las-personas.pdf
Trabajo colaborativo Grupo #2.docxmkkkkkkl
Trabajo colaborativo Grupo #2.docxmmuhhlk
RAP02 - TECNICO SISTEMAS TELEINFORMATICOS.pptx
clase auditoria informatica 2025.........
IA de Cine - Como MuleSoft y los Agentes estan redefiniendo la realidad
Plantilla para Diseño de Narrativas Transmedia.pdf
COMO AYUDAN LAS TIC EN LA EDUCACION SUPERIOR.pptx
Presentación PASANTIAS AuditorioOO..pptx
ACTIVIDAD 2.pdf j
Presentación de Redes de Datos modelo osi
introduccion a las_web en el 2025_mejoras.ppt
Instrucciones simples, respuestas poderosas. La fórmula del prompt perfecto.
Temas y subtemas de las fichas 1 y 2.pdf
historia_web de la creacion de un navegador_presentacion.pptx
Calidad desde el Docente y la mejora continua .pdf
Que son las redes de computadores y sus partes
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
Introduccion a servidores de Aplicaciones (1).pptx
Yogurt de tocosh (1).pptx preparacion receta
Aristoteles-y-su-forma-de-entender-el-conocimiento-y-las-personas.pdf

Hadoop: MapReduce para procesar grandes cantidades de datos