Hadoop: MapReduce para procesar grandes cantidades de datos

1. HadoopMapReducepara procesar grandes cantidades dedatosRaúl Ochoa

2. Antecedentes

3. AntecedentesSistemas Distribuidos

4. AntecedentesSistemas DistribuidosProgramación Funcional

5. AntecedentesSistemas DistribuidosProgramación FuncionalÁlgebra

6. AntecedentesSistemas DistribuidosProgramación FuncionalÁlgebraJava

7. AntecedentesSistemas DistribuidosProgramación FuncionalÁlgebraJavaGoogle

8. AntecedentesSistemas DistribuidosProgramación FuncionalÁlgebraJavaGoogle

9. AntecedentesSistemas DistribuidosProgramación FuncionalÁlgebraJavaGoogleCrédito de Libre Elección

10. AntecedentesSistemas DistribuidosProgramación FuncionalÁlgebraJavaGoogleCrédito de Libre Elección

11. ContenidosIntroducción a HadoopMapReduceHadoopDistributed File SystemMapReduce + HDFSSubproyectosDemo

13. Introducción

14. IntroducciónObjetivosBaseCaracterísticasHistoriaPowered byComparación con otros sistemas

15. ObjetivosOpen SourceComputación distribuidaProcesar grandes cantidades de datos

18. BaseMapReduceGFS

19. CaracterísticasEscalableEconómicoEficienteFiable

23. HistoriaCreador: Doug Cutting2002-2004: Nutch2004-2006: GFS & MapReducePapers2006-2008: Yahoo!

27. Powered by Hadoophttp://wiki.apache.org/hadoop/PoweredBy

28. ComparaciónRDBMSGridComputingSETI@home et al.

32. MapReduce

33. MapReduceComputación distribuida

35. DEAD LOCK

36. MapReduceComputación distribuidaProgramación Funcional

37. MapReduceComputación distribuidaProgramación FuncionalFunciones Map y Reduce

38. MapInputmap()Output

39. ReduceInputreduce()Output

40. MapReduceComputación distribuidaProgramación FuncionalFunciones Map y Reducemap() y reduce() en Python

42. HDFS

43. HDFSSuposiciones y ObjetivosArquitecturaNameNodesDataNodesOtras características

44. Suposiciones y ObjetivosEl hardware fallaGrandes cantidades de datosMáquinas comunesMover la computación, no los datosPortabilidad

49. Arquitectura

50. ArquitecturaEspacio de nombres únicoEscribir una vez, leer variasArchivos divididos en bloquesAcceso directo a los datos

54. Arquitectura

55. NameNodeControla el espacio de nombresFicheros <> BloquesBloques <> DataNodesConfiguración de clusterMetadata

56. NameNodeMetadataEn memoriaFicherosAtributos: creación, factor de replica.BloquesBloques <> DataNodesLOG

57. Arquitectura

58. DataNodeServidor de bloquesReportes al NameNodeEnvió de datos a otros DataNodes

61. Arquitectura

62. Otras característicasDisposición de los bloquesHeartbeatsReplicaciónValidación de los datosBalanceoInterfaz web

67. Otras característicasDisposición de los bloquesHeartbeatsReplicaciónValidación de los datosBalanceoInterfaz de acceso

68. Fallos en NameNodeSingle Point of FailureLOGNameNode secundario

69. Lectura/EscrituraLecturaEscritura

70. Lectura/EscrituraLecturaEscritura

71. Más HDFSHDFS APIsMountableHDFS

73. MapReduce + HDFS

74. Nuevos componentesJobTrackerTaskTracker

75. JobTrackerClienteTaskTrackermapTaskTrackersortInputFormarramsplitregionregionsplitreduce()combine()reduce()readsplitOutputFormarTaskTrackerregionregionInputFilesOutputFileTaskTrackerregionregion

78. JobTrackerClienteMapTaskTaskTrackermapTaskTrackersortInputFormarramsplitregionregionsplitreduce()combine()reduce()readsplitOutputFormarTaskTrackerregionregionInputFilesOutputFileTaskTrackerregionregion

79. JobTrackerClienteMapTaskTaskTrackermapTaskTrackersortInputFormatramsplitregionregionsplitreduce()combine()reduce()readsplitOutputFormarTaskTrackerregionregionInputFilesOutputFileTaskTrackerregionregion

87. HadoopStreamingUtilidadSencillezPensar en tuberías (à la POSIX)Prototipado rápidoNo JavaDemo

89. Subproyectos

90. SubproyectosPigHiveHBaseMapReduceHDFSZooKeeperCore

91. PigHiveHBaseZooKeeperCoreMapReduceHDFSCore

92. ZooKeeperPigHiveHBaseMapReduceHDFSZooKeeperCore

93. ZooKeeperA. distribuidas: fallos parcialesSimpleExpresivoAlta disponibilidadLooselycoupledAlto rendimiento

99. PigPigHiveHBaseMapReduceHDFSZooKeeperCore

100. PigLenguaje de script: PigLatinNivel de abstracciónOperaciones y transformacionesMapReduce JobsNo es SQL

101. HivePigHiveHBaseMapReduceHDFSZooKeeperCore

102. HiveAnálisis de datosDatos estructuradosQuery Language (à la SQL)No es un sistema Real Time

103. HBasePigHiveHBaseMapReduceHDFSZooKeeperCore

104. HBaseBase de DatosDistribuidaOrientada a columnasBasada en BigTable

106. Demo

107. DocumentaciónHadoop Homepagehttp://hadoop.apache.org/HadoopWikihttp://wiki.apache.org/hadoop/

108. LibrosHadoop: TheDefinitiveGuideTom White – O’Reilly (Julio 2009)http://oreilly.com/catalog/9780596521998/Hadoop in ActionChuck Lam y James Warren –Manning (Octubre 2009)http://www.manning.com/lam/Pro HadoopJason Venner–Apress (No publicado)http://www.apress.com/book/view/1430219424

109. Preguntas?

110. Créditos imágenesDeadlock – Unknown Licensevia reddit: http://www.reddit.com/r/programming/comments/65pcg/deadlock_traffic_version_pic

111. GraciasRaúl Ochoarochoaf@gmail.com

Hadoop: MapReduce para procesar grandes cantidades de datos

Más contenido relacionado

La actualidad más candente (17)

Destacado (6)

Similar a Hadoop: MapReduce para procesar grandes cantidades de datos (20)

Último (20)

Hadoop: MapReduce para procesar grandes cantidades de datos