SlideShare una empresa de Scribd logo
"HADOOP DISTRIBUTED FILE SYSTEM (HDFS)"
"Almacenamiento escalable para Big Data“
Parte 2.
Ing. Frank Tarra
Especialización en Big Data y Visual Analytics
Universidad Internacional de la Rioja UNIR
NAMENODE SECUNDARIO
• Función:
• Crea checkpoints periódicos del estado del Namenode.
• No es un reemplazo en caliente (requiere intervención manual).
• Diferencia con HA:
• El secundario no está en standby (solo para backups).
FEDERACIÓN DE NAMENODES
• Objetivo: Escalar horizontalmente el Namespace.
• Múltiples Namenodes:
• Cada uno gestiona una parte del árbol de directorios (ej. /user, /share).
• Beneficios:
• Mayor capacidad de metadatos.
• Aislamiento de fallos.
COMANDOS BÁSICOS DE HDFS
• Estructura: hdfs dfs [opciones] <comando>.
• Ejemplos clave:
• hdfs dfs -ls /: Listar raíz de HDFS.
• hdfs dfs -mkdir /data: Crear directorio.
• hdfs dfs -copyFromLocal local.txt /data/: Copiar archivo local a HDFS.
• hdfs dfs -cat /data/archivo.txt: Mostrar contenido.
• Nota: No existe cd (siempre usar rutas absolutas).
EJEMPLO PRÁCTICO
• Escenario:
• Subir un CSV de 1 GB a HDFS y verificar bloques.
• Comandos:
• bash
• hdfs dfs -copyFromLocal dataset.csv /data/
• hdfs fsck /data/dataset.csv -blocks -files
• Salida: Mostrará el número de bloques y réplicas.
HDFS VS. SISTEMAS TRADICIONALES
Característica HDFS SistemaTradicional
Tamaño de archivo TB o PB Limitado por disco
Acceso Streaming (batch) Aleatorio (baja latencia)
Modificación No permitida Permitida
Hardware Commodity Especializado
LIMITACIONES DE HDFS.
• No adecuado para:
• Archivos pequeños: Ej: Millones de archivos de 1 KB.
• Modificaciones frecuentes: Ej: Bases de datos OLTP.
• Baja latencia: Ej: Consultas interactivas.
• Solución complementaria: Usar Apache HBase para acceso aleatorio.
SEGURIDAD EN HDFS
• Mecanismos:
• Permisos POSIX: chmod, chown.
• Kerberos: Autenticación en entornos empresariales.
• Ejemplo:
• bash
• hdfs dfs -chmod 750 /data/confidencial
CASO DE ÉXITO
• Yahoo!:
• Usó HDFS para almacenar 40 PB de datos en 2009.
• Clúster de +4,000 nodos.
• Lección:
• "HDFS escala linealmente: más nodos = más capacidad y rendimiento."
PREGUNTAS FRECUENTES
• ¿Puedo aumentar el tamaño de bloque?
• Sí, pero afecta al paralelismo (ej: Bloques de 256
MB).
• ¿Qué pasa si un Datanode falla?
• HDFS replica automáticamente los bloques perdidos.
• ¿Cómo monitoreo HDFS?
• Web UI del Namenode (puerto 9870).
• Diapositiva 20: Conclusiones
• Fortalezas:
• Escalabilidad masiva.
• Tolerancia a fallos.
• Coste reducido (hardware commodity).
• Desafíos:
• SPOF (Namenode), aunque mitigado con
HA.
• No es para todos los casos de uso.
BIBLIOGRAFÍA
• Dean, J. y Ghemawat, S. (2008). MapReduce: simplified data processing on large clusters. Communications of the ACM,
51(1), 107-113. https://doi.org/10.1145/1327452.1327492
• Ghemawat, S., Gobioff, H. y Leung, S.-T. (2003). The Google File System. ACM SIGOPS Operating Systems Review,
37(5), 29-43. https://doi.org/10.1145/1165389.945450
• White, T. (2015). Hadoop: the definitive guide (4ª ed.). O’Reilly.
• Apache Software Foundation. (2013, 21 de febrero). Apache Hadoop logo [Imagen].
https://svn.apache.org/repos/asf/hadoop/logos/out_rgb/
• Escuela Superior de Informática. (s.f.). Arquitectura de Hadoop [Imagen]. https://www.cnac.es/noticias/que-es-hadoop/
• Medrano, A. (s.f.). Inteligencia Artificial y Big Data: Proceso de lectura HDFS [Imagen].
https://aitor-medrano.github.io/bigdata2122/apuntes/bdaplicado02hdfs.html#funcionamiento-de-hdfs

Más contenido relacionado

PPTX
Hadoop Distributed File System (HDFS) Pt1.pptx
PPTX
Clase Hadoop
PDF
Polybase
PPTX
Webinar de Introducción a Hive y Zeppelin
PDF
Introducción a Apache HBase
PDF
EL WINDOWS SERVER 2012 Y SUS CONCEPTOS CLAVES.pdf
PPTX
Performance en Drupal 7
Hadoop Distributed File System (HDFS) Pt1.pptx
Clase Hadoop
Polybase
Webinar de Introducción a Hive y Zeppelin
Introducción a Apache HBase
EL WINDOWS SERVER 2012 Y SUS CONCEPTOS CLAVES.pdf
Performance en Drupal 7

Similar a Hadoop Distributed File System (HDFS) pt2.pptx (20)

PDF
Rendimiento en magento
PPTX
Base de dato act4
PPTX
Base de dato
PPTX
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
PPTX
Certification Day
ODP
Servidor web apache
PPTX
Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG
PDF
Servidores de mapas en alta disponibilidad CyLiconValley
PPTX
My sql clase_1
PDF
Análisis de datos con Apache Spark
PDF
EL WINDOWS SERVER Y SUS BENEFICIOS .pdf.
PPSX
PPTX
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
PPTX
Maricela poaquiza
PDF
Almacenamiento y backup open source de rango empresarial - WhiteBearSolutions...
PPTX
TIPOS DE DB Y FUNCIONES DE UN DBA
Rendimiento en magento
Base de dato act4
Base de dato
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Certification Day
Servidor web apache
Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG
Servidores de mapas en alta disponibilidad CyLiconValley
My sql clase_1
Análisis de datos con Apache Spark
EL WINDOWS SERVER Y SUS BENEFICIOS .pdf.
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Maricela poaquiza
Almacenamiento y backup open source de rango empresarial - WhiteBearSolutions...
TIPOS DE DB Y FUNCIONES DE UN DBA
Publicidad

Último (20)

PDF
Sugerencias Didacticas 2023_Diseño de Estructuras Metalicas_digital.pdf
PPTX
Seminario de telecomunicaciones para ingeniería
PDF
Durabilidad del concreto en zonas costeras
PDF
FIJA NUEVO TEXTO DE LA ORDENANZA GENERAL DE LA LEY GENERAL DE URBANISMO Y CON...
PDF
Sustitucion_del_maiz_por_harina_integral_de_zapall.pdf
PDF
Informe Comision Investigadora Final distribución electrica años 2024 y 2025
PPTX
Notificacion e investigación de incidentes y accidentes de trabajo.pptx
PPTX
Manual ISO9001_2015_IATF_16949_2016.pptx
PDF
Perfilaje de Pozos _20250624_222013_0000.pdf
PDF
5 Presentación de PowerPointGENERACIÓN DESECHOS UIS 18-02-2023 (1).pdf
PDF
prg2_t01_p01_Fundamentos POO - parte1.pdf
PDF
Primera formulación de cargos de la SEC en contra del CEN
PPTX
GEOLOGIA, principios , fundamentos y conceptos
PDF
Oficio SEC 293416 Comision Investigadora
PPTX
NILS actividad 4 PRESENTACION.pptx pppppp
PDF
NORMATIVA Y DESCRIPCION ALCANTARILLADO PLUVIAL.pdf
DOC
informacion acerca de la crianza tecnificada de cerdos
PDF
Informe Estudio Final Apagon del 25 de febrero
PDF
1132-2018 espectrofotometro uv visible.pdf
PPTX
MARITIMO Y LESGILACION DEL MACO TRANSPORTE
Sugerencias Didacticas 2023_Diseño de Estructuras Metalicas_digital.pdf
Seminario de telecomunicaciones para ingeniería
Durabilidad del concreto en zonas costeras
FIJA NUEVO TEXTO DE LA ORDENANZA GENERAL DE LA LEY GENERAL DE URBANISMO Y CON...
Sustitucion_del_maiz_por_harina_integral_de_zapall.pdf
Informe Comision Investigadora Final distribución electrica años 2024 y 2025
Notificacion e investigación de incidentes y accidentes de trabajo.pptx
Manual ISO9001_2015_IATF_16949_2016.pptx
Perfilaje de Pozos _20250624_222013_0000.pdf
5 Presentación de PowerPointGENERACIÓN DESECHOS UIS 18-02-2023 (1).pdf
prg2_t01_p01_Fundamentos POO - parte1.pdf
Primera formulación de cargos de la SEC en contra del CEN
GEOLOGIA, principios , fundamentos y conceptos
Oficio SEC 293416 Comision Investigadora
NILS actividad 4 PRESENTACION.pptx pppppp
NORMATIVA Y DESCRIPCION ALCANTARILLADO PLUVIAL.pdf
informacion acerca de la crianza tecnificada de cerdos
Informe Estudio Final Apagon del 25 de febrero
1132-2018 espectrofotometro uv visible.pdf
MARITIMO Y LESGILACION DEL MACO TRANSPORTE
Publicidad

Hadoop Distributed File System (HDFS) pt2.pptx

  • 1. "HADOOP DISTRIBUTED FILE SYSTEM (HDFS)" "Almacenamiento escalable para Big Data“ Parte 2. Ing. Frank Tarra Especialización en Big Data y Visual Analytics Universidad Internacional de la Rioja UNIR
  • 2. NAMENODE SECUNDARIO • Función: • Crea checkpoints periódicos del estado del Namenode. • No es un reemplazo en caliente (requiere intervención manual). • Diferencia con HA: • El secundario no está en standby (solo para backups).
  • 3. FEDERACIÓN DE NAMENODES • Objetivo: Escalar horizontalmente el Namespace. • Múltiples Namenodes: • Cada uno gestiona una parte del árbol de directorios (ej. /user, /share). • Beneficios: • Mayor capacidad de metadatos. • Aislamiento de fallos.
  • 4. COMANDOS BÁSICOS DE HDFS • Estructura: hdfs dfs [opciones] <comando>. • Ejemplos clave: • hdfs dfs -ls /: Listar raíz de HDFS. • hdfs dfs -mkdir /data: Crear directorio. • hdfs dfs -copyFromLocal local.txt /data/: Copiar archivo local a HDFS. • hdfs dfs -cat /data/archivo.txt: Mostrar contenido. • Nota: No existe cd (siempre usar rutas absolutas).
  • 5. EJEMPLO PRÁCTICO • Escenario: • Subir un CSV de 1 GB a HDFS y verificar bloques. • Comandos: • bash • hdfs dfs -copyFromLocal dataset.csv /data/ • hdfs fsck /data/dataset.csv -blocks -files • Salida: Mostrará el número de bloques y réplicas.
  • 6. HDFS VS. SISTEMAS TRADICIONALES Característica HDFS SistemaTradicional Tamaño de archivo TB o PB Limitado por disco Acceso Streaming (batch) Aleatorio (baja latencia) Modificación No permitida Permitida Hardware Commodity Especializado
  • 7. LIMITACIONES DE HDFS. • No adecuado para: • Archivos pequeños: Ej: Millones de archivos de 1 KB. • Modificaciones frecuentes: Ej: Bases de datos OLTP. • Baja latencia: Ej: Consultas interactivas. • Solución complementaria: Usar Apache HBase para acceso aleatorio.
  • 8. SEGURIDAD EN HDFS • Mecanismos: • Permisos POSIX: chmod, chown. • Kerberos: Autenticación en entornos empresariales. • Ejemplo: • bash • hdfs dfs -chmod 750 /data/confidencial
  • 9. CASO DE ÉXITO • Yahoo!: • Usó HDFS para almacenar 40 PB de datos en 2009. • Clúster de +4,000 nodos. • Lección: • "HDFS escala linealmente: más nodos = más capacidad y rendimiento."
  • 10. PREGUNTAS FRECUENTES • ¿Puedo aumentar el tamaño de bloque? • Sí, pero afecta al paralelismo (ej: Bloques de 256 MB). • ¿Qué pasa si un Datanode falla? • HDFS replica automáticamente los bloques perdidos. • ¿Cómo monitoreo HDFS? • Web UI del Namenode (puerto 9870). • Diapositiva 20: Conclusiones • Fortalezas: • Escalabilidad masiva. • Tolerancia a fallos. • Coste reducido (hardware commodity). • Desafíos: • SPOF (Namenode), aunque mitigado con HA. • No es para todos los casos de uso.
  • 11. BIBLIOGRAFÍA • Dean, J. y Ghemawat, S. (2008). MapReduce: simplified data processing on large clusters. Communications of the ACM, 51(1), 107-113. https://doi.org/10.1145/1327452.1327492 • Ghemawat, S., Gobioff, H. y Leung, S.-T. (2003). The Google File System. ACM SIGOPS Operating Systems Review, 37(5), 29-43. https://doi.org/10.1145/1165389.945450 • White, T. (2015). Hadoop: the definitive guide (4ª ed.). O’Reilly. • Apache Software Foundation. (2013, 21 de febrero). Apache Hadoop logo [Imagen]. https://svn.apache.org/repos/asf/hadoop/logos/out_rgb/ • Escuela Superior de Informática. (s.f.). Arquitectura de Hadoop [Imagen]. https://www.cnac.es/noticias/que-es-hadoop/ • Medrano, A. (s.f.). Inteligencia Artificial y Big Data: Proceso de lectura HDFS [Imagen]. https://aitor-medrano.github.io/bigdata2122/apuntes/bdaplicado02hdfs.html#funcionamiento-de-hdfs

Notas del editor

  • #1: Apache Software Foundation. (2013, febrero 21). Apache Hadoop logo [Imagen]. https://svn.apache.org/repos/asf/hadoop/logos/out_rgb/