SlideShare a Scribd company logo
HDFS -Hadoop Overview 2- 2009.01.20 유현정
Data Replication HDFS’s blocks in a file except the last block are the same size.  The block size and replication factor are configurable per file. The NameNode periodically receives a Heartbeat and a Blockreport from each of the DataNodes in the cluster.  DataNodes send Heartbeat to the NameNode. NameNode used Heartbeats to detect DataNode failure.  DataNode periodically sends a report of all existing blocks to the NameNode.
Replica Placement For the common case, replication factor == 3 One replica on one node in the local rack Another on a different node in the local rack The last on a different node in a different rack If replication factor > 3,  additional replicas are randomly placed
Replica Placement Does not impact data reliability and availability guarantees. However, it does reduce the aggregate network bandwidth used when reading data. (3 개의  rack 이 아닌 , 2 개의  rack 에 데이터를 저장하기 때문 ) Replicas of file 은 공평하게 분배되지 않음 This policy is a work in progress.
Replica Selection To minimize global bandwidth consumption and read latency, HDFS tries to satisfy a read request from a replica that is closest to the reader.
SafeMode 시작 시 , NameNode 는  SafeMode  상태 데이터  block 의 복제는 안전모드 상태일 때 발생하지 않음 안전하게 복제된  data block 의  percentage 를 점검한 후 ,  안전모드 상태에서 벗어남 명시된  replication factor 보다 적은  data block 의  list 를  check NameNode 가 위  block 들을 다른 데이터노드에 복재함
NameNode Meta-data The NameNode uses a tansaction log called the EditLog to persistently record every change that occurs to file system metadata.  E.g.) creating a file, deleting a file, or changing the replication factor of a file The entire file system namespace, including the mapping of blocks to files and file system properties, is stored in a file called the FsImage. EditLog & FsImage is stored as files in the NameNode’s local file system.
Checkpoint  When the NameNode starts up,  NameNode 는  FsImage 와  EditLog 를 디스크로부터 읽고 , EditLog 로부터의 모든  transaction 들을  FsImage 에 적용한 뒤 ,  새로운 버전의  FsImage 로 디스크에 저장 EditLog 의  transactions 은  FsImage 에 저장되었기 때문에 버림 현재 , checkpoint 는  NameNode 시작 시에만 발생 주기적으로  checkpointing 을 지원하는 작업 구현 중
The communication protocol Layered on top of the TCP/IP protocol Client Protocol : client ↔ NameNode DataNode Protocol : DataNodes↔ NameNode A Remote Procedure Call(RPC) abstration wraps both the Client Protocol and the DataNode Protocol. NameNode 는 어떠한  RPC 들도 초기화하지 않음 NameNode 는  DataNodes 나  Clients 에 발행된 요청에 대해서만 응답
Robustness The three common types of failure NameNode failures DataNode failures Network partitions
Data Disk Failure A network partition can cause a subset of DataNodes to lose connectivity with the NameNode.  Using a Heartbeat message The necessity for re-replication’s reasons A DataNode may become unavailable like a dead DataNode A replica may become corrupted A hard disk on a DataNode may fail The replication factor of a file may be increased
NameNode Failure A single point of failure 현재 ,  자동적인 재 시작과 다른 머신에 의한  NameNode software 의 장애 극복은 지원되지 않음
Data Correctness/Integrity Use Checksums to validate data Use CRC32 DataNode stores the checksum.
Snapshots 특정 시점 순간의 사본을 저장하는 기능 현재는 지원 안함
Replication Pipelining  DataNode 는  pipeline  내의 이전  DataNode 로부터 데이터를 받는 동시에  Pipeline  내의 다음  DataNode 로 전송 The data is pipelined from one DataNode to the next.
File Deletes and Undeletes 사용자나  application 에 의해서 파일이 삭제되었을 때 ,  그 파일은  HDFS 에서 바로 삭제되지 않음 /trash  폴더의 파일로 먼저 이름 변경 /trash  폴더에 있다면 ,  복원 가능 일정 시간 후 , NameNode 는 해당 파일을  Namespace 에서 삭제  해당 파일과 그에 관련된 블록들의 해제
File Deletes and Undeletes /trash  폴더는 삭제된 파일의 최근 사본을 갖고 있다 . /trash  폴더 안에 파일이 남아있다면 ,  그 파일을 삭제 후에도 취소 가능 현재 , default policy :  6 시간 이상의 것들이  /trash  폴더에서 삭제

More Related Content

PPTX
이디스커버리 솔루션의 구조
PPTX
Hadoop distributed file system rev3
DOC
OracleHistory2
PPTX
Chapter5 embedded storage
PDF
하둡 HDFS 훑어보기
PPT
Hadoop Overview 1
PPTX
4.5부동소수점
PPTX
선택 정렬과 버블 정렬
이디스커버리 솔루션의 구조
Hadoop distributed file system rev3
OracleHistory2
Chapter5 embedded storage
하둡 HDFS 훑어보기
Hadoop Overview 1
4.5부동소수점
선택 정렬과 버블 정렬

Viewers also liked (6)

PPTX
게임에서 사용 가능한 간편한 파서
PPS
토끼같은 강연
PDF
PPTX
02.선형변환과 행렬
PDF
NDC 2013 : 광택 재질 표현 - Voxel Ray Tracing
PPTX
뉴비라이터를 위한 게임라이팅 일반론
게임에서 사용 가능한 간편한 파서
토끼같은 강연
02.선형변환과 행렬
NDC 2013 : 광택 재질 표현 - Voxel Ray Tracing
뉴비라이터를 위한 게임라이팅 일반론
Ad

Similar to Hadoop Overview 2 (20)

PPTX
Linux programming study
PDF
HDFS Overview
PPTX
Hadoop administration
PDF
Osc4.x installation v1-upload
PDF
Glusterfs 구성제안 및_운영가이드_v2.0
PDF
Glusterfs 파일시스템 구성_및 운영가이드_v2.0
PDF
[124]네이버에서 사용되는 여러가지 Data Platform, 그리고 MongoDB
PDF
(130316) #fitalk trends in d forensics (feb, 2013)
PPTX
파이썬 병렬프로그래밍
PDF
Hadoop overview
PDF
Mongodb2.2와 2.4의 신 기능 소개
PPTX
Chapter 17
PDF
Terasort
PPTX
PDF
Linux 강의자료 ed10
PPT
Hadoop Introduction (1.0)
PPTX
Thread programming
PDF
Glusterfs 구성제안서 v1.0
PDF
Glusterfs 구성제안서 v1.0
PDF
Glusterfs 구성제안 v1.0
Linux programming study
HDFS Overview
Hadoop administration
Osc4.x installation v1-upload
Glusterfs 구성제안 및_운영가이드_v2.0
Glusterfs 파일시스템 구성_및 운영가이드_v2.0
[124]네이버에서 사용되는 여러가지 Data Platform, 그리고 MongoDB
(130316) #fitalk trends in d forensics (feb, 2013)
파이썬 병렬프로그래밍
Hadoop overview
Mongodb2.2와 2.4의 신 기능 소개
Chapter 17
Terasort
Linux 강의자료 ed10
Hadoop Introduction (1.0)
Thread programming
Glusterfs 구성제안서 v1.0
Glusterfs 구성제안서 v1.0
Glusterfs 구성제안 v1.0
Ad

More from Kay Kim (20)

PDF
HP/MP도 없앤다, Project Albatross
PPT
쩌는 게임 기획서, 이렇게 쓴다(How to write great design documents) from GDC 2008 (Korean)
PDF
"Lessons learned from Global Game Jam 2010" at NDC 2011
PPTX
게임 디자인 워크샵: 월드 오브 룰크래프트(Game Design Workshop: World of Rulecraft) at NDC 2010
PPTX
게임 디자인 워크샵: 월드 오브 룰크래프트(Game Design Workshop: World of Rulecraft) at NDC 2010
PPTX
Social Games, Whats The Difference @ Social Game Party 1st
PPTX
Everything Goes To Social @ Ignite Seoul 2nd
PPT
아티스트, 기획자 및 관리자들을 위한 '외주: 최상의 실천법들' [GDC2008]
PPTX
교전 수칙: 멀티플레이어 게임 기획에 대한 Blizzard의 접근법 [GDC2008] by Rob Pardo
PPTX
GDC Austin 2009-Final Fantasy XI-Problems And Solutions In A Global Community...
PPT
Nutch Homepage Search Engine
PPT
Google App Engine - Overview #2
PPT
Google App Engine - Overview #1
PPT
Google App Engine - Overview #3
PPT
찰리를 만나봅시다 - 엔터프라이즈 2.0이란 무엇인가 ( Meet Charlie - What is Enterprise 2.0 - Korean)
PPT
Outsourcing: Best Practices at Pandemic Studios [GDC 2008]
PPT
애자일 게임 개발이란?
PPT
애자일 게임 개발: 최전선의 이야기(Gamefest 2006)
PPT
Agile의 의미와 Agile 계획 수립(Gdc2007)
PPT
애자일 개발을 이용한 게임 기획 (Game Design In Agile Development) [GDC 2007]
HP/MP도 없앤다, Project Albatross
쩌는 게임 기획서, 이렇게 쓴다(How to write great design documents) from GDC 2008 (Korean)
"Lessons learned from Global Game Jam 2010" at NDC 2011
게임 디자인 워크샵: 월드 오브 룰크래프트(Game Design Workshop: World of Rulecraft) at NDC 2010
게임 디자인 워크샵: 월드 오브 룰크래프트(Game Design Workshop: World of Rulecraft) at NDC 2010
Social Games, Whats The Difference @ Social Game Party 1st
Everything Goes To Social @ Ignite Seoul 2nd
아티스트, 기획자 및 관리자들을 위한 '외주: 최상의 실천법들' [GDC2008]
교전 수칙: 멀티플레이어 게임 기획에 대한 Blizzard의 접근법 [GDC2008] by Rob Pardo
GDC Austin 2009-Final Fantasy XI-Problems And Solutions In A Global Community...
Nutch Homepage Search Engine
Google App Engine - Overview #2
Google App Engine - Overview #1
Google App Engine - Overview #3
찰리를 만나봅시다 - 엔터프라이즈 2.0이란 무엇인가 ( Meet Charlie - What is Enterprise 2.0 - Korean)
Outsourcing: Best Practices at Pandemic Studios [GDC 2008]
애자일 게임 개발이란?
애자일 게임 개발: 최전선의 이야기(Gamefest 2006)
Agile의 의미와 Agile 계획 수립(Gdc2007)
애자일 개발을 이용한 게임 기획 (Game Design In Agile Development) [GDC 2007]

Hadoop Overview 2

  • 1. HDFS -Hadoop Overview 2- 2009.01.20 유현정
  • 2. Data Replication HDFS’s blocks in a file except the last block are the same size. The block size and replication factor are configurable per file. The NameNode periodically receives a Heartbeat and a Blockreport from each of the DataNodes in the cluster. DataNodes send Heartbeat to the NameNode. NameNode used Heartbeats to detect DataNode failure. DataNode periodically sends a report of all existing blocks to the NameNode.
  • 3. Replica Placement For the common case, replication factor == 3 One replica on one node in the local rack Another on a different node in the local rack The last on a different node in a different rack If replication factor > 3, additional replicas are randomly placed
  • 4. Replica Placement Does not impact data reliability and availability guarantees. However, it does reduce the aggregate network bandwidth used when reading data. (3 개의 rack 이 아닌 , 2 개의 rack 에 데이터를 저장하기 때문 ) Replicas of file 은 공평하게 분배되지 않음 This policy is a work in progress.
  • 5. Replica Selection To minimize global bandwidth consumption and read latency, HDFS tries to satisfy a read request from a replica that is closest to the reader.
  • 6. SafeMode 시작 시 , NameNode 는 SafeMode 상태 데이터 block 의 복제는 안전모드 상태일 때 발생하지 않음 안전하게 복제된 data block 의 percentage 를 점검한 후 , 안전모드 상태에서 벗어남 명시된 replication factor 보다 적은 data block 의 list 를 check NameNode 가 위 block 들을 다른 데이터노드에 복재함
  • 7. NameNode Meta-data The NameNode uses a tansaction log called the EditLog to persistently record every change that occurs to file system metadata. E.g.) creating a file, deleting a file, or changing the replication factor of a file The entire file system namespace, including the mapping of blocks to files and file system properties, is stored in a file called the FsImage. EditLog & FsImage is stored as files in the NameNode’s local file system.
  • 8. Checkpoint When the NameNode starts up, NameNode 는 FsImage 와 EditLog 를 디스크로부터 읽고 , EditLog 로부터의 모든 transaction 들을 FsImage 에 적용한 뒤 , 새로운 버전의 FsImage 로 디스크에 저장 EditLog 의 transactions 은 FsImage 에 저장되었기 때문에 버림 현재 , checkpoint 는 NameNode 시작 시에만 발생 주기적으로 checkpointing 을 지원하는 작업 구현 중
  • 9. The communication protocol Layered on top of the TCP/IP protocol Client Protocol : client ↔ NameNode DataNode Protocol : DataNodes↔ NameNode A Remote Procedure Call(RPC) abstration wraps both the Client Protocol and the DataNode Protocol. NameNode 는 어떠한 RPC 들도 초기화하지 않음 NameNode 는 DataNodes 나 Clients 에 발행된 요청에 대해서만 응답
  • 10. Robustness The three common types of failure NameNode failures DataNode failures Network partitions
  • 11. Data Disk Failure A network partition can cause a subset of DataNodes to lose connectivity with the NameNode. Using a Heartbeat message The necessity for re-replication’s reasons A DataNode may become unavailable like a dead DataNode A replica may become corrupted A hard disk on a DataNode may fail The replication factor of a file may be increased
  • 12. NameNode Failure A single point of failure 현재 , 자동적인 재 시작과 다른 머신에 의한 NameNode software 의 장애 극복은 지원되지 않음
  • 13. Data Correctness/Integrity Use Checksums to validate data Use CRC32 DataNode stores the checksum.
  • 14. Snapshots 특정 시점 순간의 사본을 저장하는 기능 현재는 지원 안함
  • 15. Replication Pipelining DataNode 는 pipeline 내의 이전 DataNode 로부터 데이터를 받는 동시에 Pipeline 내의 다음 DataNode 로 전송 The data is pipelined from one DataNode to the next.
  • 16. File Deletes and Undeletes 사용자나 application 에 의해서 파일이 삭제되었을 때 , 그 파일은 HDFS 에서 바로 삭제되지 않음 /trash 폴더의 파일로 먼저 이름 변경 /trash 폴더에 있다면 , 복원 가능 일정 시간 후 , NameNode 는 해당 파일을 Namespace 에서 삭제 해당 파일과 그에 관련된 블록들의 해제
  • 17. File Deletes and Undeletes /trash 폴더는 삭제된 파일의 최근 사본을 갖고 있다 . /trash 폴더 안에 파일이 남아있다면 , 그 파일을 삭제 후에도 취소 가능 현재 , default policy : 6 시간 이상의 것들이 /trash 폴더에서 삭제