How MapReduce part of Hadoop works (i.e. system's view) ?

Hadoop MapReduce -
System’sView
By Niketan Pansare (np6@rice.edu)
Rice University
Wednesday, March 27, 13

JobSubmission at Client’s side
Client Node Job tracker Node
Task tracker Node

Client Node
Client
pgm

Client Node
Client
pgm
Job

Client Node
Client
pgm
Job
job.submit()

Client Node
Client
pgm
Job
job.submit()
JobClient

Client Node
Client
pgm
Job
job.submit()
JobClient
jobClient.submitJobInternal()

Client Node
Client
pgm
Job
job.submit()
JobClient
Client stub to
JobTracker

Client Node
Client
pgm
Job
job.submit()
JobClient
Client stub to
JobTrackerjobSubmissionClient.getNewJobID()

Client Node
Client
pgm
Job
job.submit()
JobClient
Client stub to
JobTracker
JobTracker
jobSubmissionClient.getNewJobID()

Client Node
Client
pgm
Job
job.submit()
JobClient
Client stub to
JobTracker
JobTracker
jobSubmissionClient.getNewJobID()
RPC call

Client Node
Client
pgm
Job
job.submit()
JobClient
jobConf.getOutputFormat().checkOutputSpecs()

Client Node
Client
pgm
Job
job.submit()
JobClient
Copy Job Resources

Client Node
Client
pgm
Job
job.submit()
JobClient
Copy Job Resources
JobSubmissionFiles

Client Node
Client
pgm
Job
job.submit()
JobClient
Copy Job Resources
1. Get destination paths
- Job staging area (getStagingArea())
- Job submission area
- Job config file path (getJobConfPath())
- Job jar file path (getJobJar())
- Information about splits:
(a) split meta file (getJobSplitMetaFile())
(b) split file (getJobSplitFile())
JobSubmissionFiles

Client Node
Client
pgm
Job
job.submit()
JobClient
Copy Job Resources (jar)
Shared FS (HDFS)

Client Node
Client
pgm
Job
job.submit()
JobClient
Shared FS (HDFS)
jar ﬁle + replication = 10

Client Node
Client
pgm
Job
job.submit()
JobClient
Shared FS (HDFS)
jar ﬁle + replication = 10
replication = mapred.submit.replication = default: 10

Client Node
Client
pgm
Job
job.submit()
JobClient
Copy Job Resources (splits/conﬁg)
Shared FS (HDFS)

Client Node
Client
pgm
Job
job.submit()
JobClient
Shared FS (HDFS)
a. Compute splits
jobConf.getInputFormat().getSplits()

Client Node
Client
pgm
Job
job.submit()
JobClient
Shared FS (HDFS)
a. Compute splits
b. Sort splits based on size (biggest goes ﬁrst)
- Modify Array.sort() in writeSplit() for randomization

Client Node
Client
pgm
Job
job.submit()
JobClient
Shared FS (HDFS)
a. Compute splits
c. Copy split “meta” ﬁle to jobtracker into path given by

Client Node
Client
pgm
Job
job.submit()
JobClient
JobSubmissionFiles
Shared FS (HDFS)
a. Compute splits

Client Node
Client
pgm
Job
job.submit()
JobClient
JobTracker
JobSubmissionFiles
Shared FS (HDFS)
a. Compute splits

Client Node
Client
pgm
Job
job.submit()
JobClient
JobTracker
JobSubmissionFiles
Shared FS (HDFS)
a. Compute splits
JobSplit.SplitMetaInfo

Client Node
Client
pgm
Job
job.submit()
JobClient
JobTracker
JobSubmissionFiles
Shared FS (HDFS)
a. Compute splits
d. Copy split ﬁle to HDFS (replica=10) path given by

Client Node
Client
pgm
Job
job.submit()
JobClient
JobTracker
JobSubmissionFiles
Shared FS (HDFS)
a. Compute splits
JobSplit.TaskSplitIndex

Client Node
Client
pgm
Job
job.submit()
JobClient
JobTracker
JobSubmissionFiles
Shared FS (HDFS)
a. Compute splits
e. Copy job conﬁg ﬁle to JobTracker path given by

Client Node
Client
pgm
Job
job.submit()
JobClient
JobTracker
JobSubmissionFiles
Shared FS (HDFS)
a. Compute splits
e. Copy job config file to JobTracker path given by
job config file

Client Node
Client
pgm
Job
job.submit()
JobClient
Client stub to
JobTracker
JobTracker
After copying job resources
(jar, split ﬁles, conﬁg)

Client Node
Client
pgm
Job
job.submit()
JobClient
Client stub to
JobTracker
JobTracker
RPC submitJob()

Client Node
Client
pgm
Job
job.submit()
JobClient
Client stub to
JobTracker
JobTracker
RPC submitJob()
Done with Job Submission at Client side ....
Now let’s look at JobTracker’s side.

JobSubmission at Job tracker node
Task tracker Node
Client stub to
JobTracker
JobTracker

Task tracker Node
Client stub to
JobTracker
RPC submitJob()
JobTracker

Job tracker Node
submitJob()
JobTracker

Job tracker Node
submitJob()
JobTracker
Read job conﬁg ﬁle

Job tracker Node
submitJob()
JobTracker
JobInProgress (job)
Read job conﬁg ﬁle

Job tracker Node
submitJob()
JobTracker
JobInProgress (job)

Job tracker Node
submitJob()
JobTracker
JobInProgress (job)
job.initTasks()

Job tracker Node
submitJob()
JobTracker
JobInProgress (job)
job.initTasks()
createSplits()

Job tracker Node
submitJob()
JobTracker
JobInProgress (job)
job.initTasks()
split meta ﬁle
(JobSplit.SplitMetaInfo)
createSplits()

Job tracker Node
submitJob()
JobTracker
JobInProgress (job)
job.initTasks()
split meta ﬁle
createSplits()
JobSplit.TaskSplitMetaInfo[] splits

Job tracker Node
submitJob()
JobTracker
JobInProgress (job)
job.initTasks()
split meta ﬁle

Job tracker Node
submitJob()
JobTracker
JobInProgress (job)
job.initTasks()

Job tracker Node
submitJob()
JobTracker
JobInProgress (job)
job.initTasks()
TaskInProgress[]
maps

Job tracker Node
submitJob()
JobTracker
JobInProgress (job)
job.initTasks()
TaskInProgress[]
maps
1 map
per split

Job tracker Node
submitJob()
JobTracker
JobInProgress (job)
job.initTasks()
TaskInProgress[]
maps
Map<Node, List<TIP>>
nonRunningMapCache

Job tracker Node
submitJob()
JobTracker
JobInProgress (job)
job.initTasks()
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache

Job tracker Node
submitJob()
JobTracker
JobInProgress (job)
job.initTasks()
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
mapred.reduce.tasks

Job tracker Node
submitJob()
JobTracker
JobInProgress (job)
job.initTasks()
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces

Job tracker Node
submitJob()
JobTracker
JobInProgress (job)
job.initTasks()
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
Other bookkeeping
structures:
runningMapCache,
nonLocalMaps,
failedMaps, ...
+
JobProﬁle, JobStatus

Job tracker Node
submitJob()
JobTracker
JobInProgress (job)
job.initTasks()
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup

Job tracker Node
submitJob()
JobTracker
JobInProgress (job)
job.initTasks()
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup

Job tracker Node
submitJob()
JobTracker
JobInProgress (job)
job.initTasks()
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup
Run by TaskTracker
and are used to setup
and to cleanup tasks

Job tracker Node
submitJob()
JobTracker
JobInProgress (job)
job.initTasks()
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup
2 = One for map and
other for reduce task

Job tracker Node
submitJob()
JobTracker
JobInProgress (job)
job.initTasks()
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup
What code to run by TaskInProgress ?

Job tracker Node
submitJob()
JobTracker
JobInProgress (job)
job.initTasks()
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup
What code to run by TaskInProgress ?User-deﬁned

Job tracker Node
submitJob()
JobTracker
JobInProgress (job)
job.initTasks()
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup
What code to run by TaskInProgress ?
For setup and cleanup, speciﬁed by
mapred.output.committer.class
Default: FileOutputCommitter

Job tracker Node
submitJob()
JobTracker
JobInProgress (job)
job.initTasks()
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup
Done initializing:

Job tracker Node
submitJob()
JobTracker
JobInProgress (job)
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup
Done initializing:

Job tracker Node
JobTracker
JobInProgress (job)
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup

Job tracker Node
submitJob()
JobTracker
JobInProgress (job)
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup

Job tracker Node
submitJob()
JobTracker QueueManagerqueueManager
JobInProgress (job)
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup

Job tracker Node
submitJob()
JobInProgress (job)
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup
Queue exists ? +
User permissions

Job tracker Node
submitJob()
JobInProgress (job)
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup
addJob()

Job tracker Node
submitJob()
JobInProgress (job)
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup
addJob()
Notify Listeners of
the queue

Job tracker Node
submitJob()
JobInProgress (job)
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup
addJob()
Done submitting the job !!!

TaskScheduler class

TaskScheduler class
• Used by JobTracker to schedule Task on TaskTracker.

TaskScheduler class
• Uses one or more JobInProgressListener to receive notiﬁcations about the jobs.

TaskScheduler class
• Uses ClusterStatus to get info about the state of cluster.

TaskScheduler class
• Methods:

TaskScheduler class
• Methods:
• start(), terminate(), refresh()

TaskScheduler class
• Methods:
• Collection<JobInProgress> getJobs(String queueName)

TaskScheduler class
• Methods:
• List<Task> assignTasks(TaskTracker)

TaskScheduler class
• Methods:
• Implementations:

TaskScheduler class
• Methods:
• Speciﬁed by mapred.jobtracker.taskScheduler

TaskScheduler class
• Methods:
• Default: FIFO scheduler (o.a.h.mapred.JobQueueTaskScheduler)

TaskScheduler class
• Methods:
- Multiple queue, each with different priority
(VERY_HIGH, HIGH, ....)

TaskScheduler class
• Methods:
- User speciﬁes job priority (mapred.job.priority)

TaskScheduler class
• Methods:
- Logic:

TaskScheduler class
• Methods:
- Logic:
First select queue with highest priority

TaskScheduler class
• Methods:
- Logic:
First select queue with highest priority
Then FIFO within that queue

Task Scheduling
Job tracker Node
JobInProgress (job)
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup
JobQueueTaskScheduler

Task Scheduling
Job tracker Node
JobInProgress (job)
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup
JIPListener

Task Scheduling
Job tracker Node
JobInProgress (job)
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup
JIPListener
Callback jobAdded(JIP)

Task Scheduling
Job tracker Node
JobInProgress (job)
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup
JIPListener
List<Task> assignTasks(TaskTracker)

Task Scheduling
Job tracker Node
JobInProgress (job)
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup
JIPListener
1. Calculate availableMapSlots

Task Scheduling
Job tracker Node
1. Calculate availableMapSlots
JobTracker
availableMapSlots = trackerCurrentMapCapacity trackerRunningMaps
= min(dmapLoadFactor ⇤ trackerMapCapacitye, trackerMapCapacity)
trackerRunningMaps
where,
trackerMapCapacity = taskTrackerStatus.getMaxMapSlots()
trackerRunningMaps = taskTrackerStatus.countMapTasks()
mapLoadFactor =
X
8jobs
JIP’s numMapTask finishedMapTask
clusterStatus.getMaxMapTasks()
TaskTrackerStatus
ClusterStatus
JIPListener
JobInProgress (JIP)

Task Scheduling
Job tracker Node
JobInProgress (job)
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup
JIPListener
for(i = 1 to availableMapSlots) {
for(JIP job : JIPListener.getJobQ()) {
}
}

Task Scheduling
Job tracker Node
JobInProgress (job)
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup
JIPListener getJobQueue() uses
Map<JobSchedulingInfo, JIP> +
FIFO_JOB_QUEUE comparator
Process jobs in higher
priority queue ﬁrst
}
}

Task Scheduling
Job tracker Node
JobInProgress (job)
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup
JIPListener
}
}
Task t = job.ﬁndNewMapTask()

Task Scheduling
Job tracker Node
JobInProgress (job)
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup
JIPListener
}
}
- Return task with most failures
(not on given m/c) w/o locality (JIP’s
failedMaps)
- Return non-running tasks using
locality info (JIP’s
nonRunningMapCache)
- Return speculative task

Task Scheduling
Job tracker Node
JobInProgress (job)
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup
JIPListener
}
}
assignedTasks.add(t)
// Also, make sure there are free
slots in cluster for speculative
tasks

Task Scheduling
Job tracker Node
JobInProgress (job)
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup
JIPListener
}
}
tasks
Do same thing for reducer

Task Scheduling
Job tracker Node
JobInProgress (job)
TaskInProgress[]
maps
TaskInProgress[]
reduces
nonRunningMapCache
Set<TaskInProgress>
nonRunningReduces
TaskInProgress[2]
setup
TaskInProgress[2]
cleanup
JIPListener
}
}
tasks
return assignedTasks

TaskScheduler class
• Methods:
• Facebook’s FairScheduler
•Yahoo’s CapacityScheduler

TaskScheduler class
• Methods:
- Doesnot support preemption
- Bad for production cluster (high priority can be
misused)

TaskScheduler class
• Methods:
Goal: Provide fast response time for small jobs
and guaranteed service levels for productions
jobs.
misused)

TaskScheduler class
• Methods:
jobs.
misused)
Pools:

TaskScheduler class
• Methods:
jobs.
misused)
Pools:
Min share: 30 slots 40 slots

TaskScheduler class
• Methods:
jobs.
misused)
Pools:
Cluster: 100 slots
available. Allocate
them !

TaskScheduler class
• Methods:
jobs.
misused)
Pools:
Cluster: 100 slots
available. Allocate
them !
40 slots30 slots30 slots

TaskScheduler class
• Methods:
jobs.
misused)
Pools:
Cluster: 100 slots
available. Allocate
them !
15 15

TaskScheduler class
• Methods:
jobs.
misused)
Additional features:
- Job weights for unequal sharing (based on
priority or size)
- Limits for #running jobs per user/pool
Usage:
cp build/contrib/fairscheduler/*.jar lib
mapred.jobtracker.taskScheduler to o.a.h.m.FairScheduler
mapred.fairscheduler.allocation.ﬁle to /path/pool.xml
Pools:
Cluster: 100 slots
available. Allocate
them !
15 15

TaskScheduler class
• Methods:
misused)
~ FairScheduler, queues instead of pools.

TaskScheduler class
• Methods:
misused)
Queue share % of cluster. Queue can have jobs of different
priorities

TaskScheduler class
• Methods:
misused)
priorities
FIFO scheduling within each queue. Scheduling more
deterministic than FairScheduler.

TaskScheduler class
• Methods:
misused)
priorities
FIFO scheduling within each queue. Scheduling more
deterministic than FairScheduler.
Also, unlike other 2, provides support for memory-based
scheduling and preemption.

Task creation
Job tracker Node Task tracker Node
JobTracker TaskTracker
TaskScheduler
Heartbeat protocol:
- Periodic
- Indicate health of TaskTracker
- Failure detection
- Remote Procedure Call
- Piggyback directives
- Launch a task
- Perform cleanup/commit

Task creation
JobTracker TaskTrackerjobClient
TaskScheduler
Heartbeat protocol:
- Periodic
- Failure detection
- Launch a task

Task creation
this.jobClient = (InterTrackerProtocol)
UserGroupInformation.getLoginUser().doAs(
new PrivilegedExceptionAction<Object>() {
public Object run() throws IOException {
return RPC.waitForProxy(InterTrackerProtocol.class,
InterTrackerProtocol.versionID,
jobTrackAddr, fConf);
}
});
TaskScheduler
Heartbeat protocol:
- Periodic
- Failure detection
- Launch a task

Task creation
jobClient.heartbeat(…);
}
});
TaskScheduler
Heartbeat protocol:
- Periodic
- Failure detection
- Launch a task

Task creation
}
});
TaskScheduler
Heartbeat protocol:
- Periodic
- Failure detection
- Launch a task

Task creation
HeartbeatResponse heartbeatResponse =
}
});
TaskScheduler
Heartbeat protocol:
- Periodic
- Failure detection
- Launch a task

Task creation
TaskScheduler
jobClient
Heartbeat protocol:
- Periodic
- Failure detection
- Launch a task

Task creation
TaskScheduler
jobClient
void run() {
offerService();
}
Heartbeat protocol:
- Periodic
- Failure detection
- Launch a task

Task creation
TaskScheduler
jobClient
offerService() {
void run() {
offerService();
}
Heartbeat protocol:
- Periodic
- Failure detection
- Launch a task

Task creation
TaskScheduler
jobClient
offerService() {
while(is task tracker running flags) {
void run() {
offerService();
}
Heartbeat protocol:
- Periodic
- Failure detection
- Launch a task

Task creation
TaskScheduler
jobClient
offerService() {
transmitHeartBeat(now);
void run() {
offerService();
}
Heartbeat protocol:
- Periodic
- Failure detection
- Launch a task

Task creation
TaskScheduler
jobClient
offerService() {
TaskTrackerAction[] actions =
heartbeatResponse.getActions();
void run() {
offerService();
}
Heartbeat protocol:
- Periodic
- Failure detection
- Launch a task

Task creation
TaskScheduler
jobClient
offerService() {
// type: LaunchTaskAction, CommitTaskAction
void run() {
offerService();
}
Heartbeat protocol:
- Periodic
- Failure detection
- Launch a task

Task creation
TaskScheduler
jobClient
offerService() {
// or explicit cleanup directive
void run() {
offerService();
}
Heartbeat protocol:
- Periodic
- Failure detection
- Launch a task

Task creation
TaskScheduler
jobClient
offerService() {
markUnresponsiveTasks();
void run() {
offerService();
}
Heartbeat protocol:
- Periodic
- Failure detection
- Launch a task

Task creation
TaskScheduler
jobClient
offerService() {
killOverflowingTasks(); // if low disk space: reduce
first, then least progress
void run() {
offerService();
}
Heartbeat protocol:
- Periodic
- Failure detection
- Launch a task

Task creation
TaskScheduler
jobClient
offerService() {
}}
void run() {
offerService();
}
Heartbeat protocol:
- Periodic
- Failure detection
- Launch a task

Task creation
TaskScheduler
jobClient
offerService() {
}}
void run() {
offerService();
}

Task creation
TaskScheduler
jobClient
offerService() {
}}
void run() {
offerService();
}
TaskTracker uses 2 internal

Task creation
TaskScheduler
jobClient
offerService() {
}}
void run() {
offerService();
}
classes:

Task creation
TaskScheduler
jobClient
offerService() {
}}
void run() {
offerService();
}
classes:
- TaskLauncher

Task creation
TaskScheduler
jobClient
offerService() {
}}
void run() {
offerService();
}
classes:
- TaskLauncher
mapLauncher,reduceLauncher

Task creation
TaskScheduler
jobClient
offerService() {
}}
void run() {
offerService();
}
classes:
- TaskLauncher
- TaskInProgress’s launchTask()

Task creation
TaskScheduler
jobClient
offerService() {
}}
void run() {
offerService();
}
classes:
- TaskLauncher
Calls TaskRunner

Task creation
TaskScheduler
jobClient
offerService() {
}}
void run() {
offerService();
}
classes:
- TaskLauncher
Calls TaskRunner
TaskRunner
start()

Task creation
TaskScheduler
jobClient
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}

Task creation
TaskScheduler
jobClient
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}
- Launches a new “child” JVM per task using class JvmManager.

Task creation
TaskScheduler
jobClient
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}
- Why? Any bug in map/reduce don’t affect TaskTracker.

Task creation
TaskScheduler
jobClient
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}
- Builds child JVM options using property mapred.java.child.opts (heapsize
(max/initial), garbage collection options). Default: -Xmx200m

Task creation
TaskScheduler
jobClient
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}
- To control additional processes by child JVM (eg: Hadoop Streaming), use
property mapred.child.ulimit (limit of virtual memory)

Task creation
TaskScheduler
jobClient
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}
- For short-lived tasks, reuse JVMs using mapred.job.reuse.jvm.num.tasks
(default 1)

Task creation
TaskScheduler
jobClient
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}
(default 1)
- Task for a given JVM: sequentially; but across JVMs: parallelly.

Task creation in little more detail
TaskScheduler
jobClient
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}
(default 1)

Task tracker Node
TaskTrackerjobClient
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}
(default 1)

Task tracker Node
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}
(default 1)
JvmManager

Task tracker Node
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}
(default 1)
JvmManager
JvmRunner
runChild() {
..
tracker.getTaskController()
.launchTask(...)
..
}

Task tracker Node
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}
(default 1)
JvmManager
JvmRunner
runChild() {
..
.launchTask(...)
..
}
- TaskController pluggable through mapred.task.tracker.task-controller
(DefaultTaskController or LinuxTaskController)

Task tracker Node
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}
(default 1)
JvmManager
JvmRunner
runChild() {
..
.launchTask(...)
..
}
- Creates directories for task (attempt, working, log)

Task tracker Node
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}
(default 1)
JvmManager
JvmRunner
runChild() {
..
.launchTask(...)
..
}
- Pass JVM args and OS speciﬁc manipulations to TaskLog and then to
o.a.h.util.Shell, which invokes JVM through java’s ProcessBuilder.

Task tracker Node
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}
(default 1)
JvmManager
JvmRunner
runChild() {
..
.launchTask(...)
..
}
Note, args for JVM already set by TaskRunner’s getJVMArgs(...)

Task tracker Node
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}
(default 1)
JvmManager
JvmRunner
runChild() {
..
.launchTask(...)
..
}
- Default main class: Child.java

Task tracker Node
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}
(default 1)
JvmManager
JvmRunner
runChild() {
..
.launchTask(...)
..
}
Different JVM

Task tracker Node
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}
(default 1)
JvmManager
JvmRunner
runChild() {
..
.launchTask(...)
..
}
Different JVM
Child
void main(..)
{ .... }

Task tracker Node
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}
(default 1)
JvmManager
JvmRunner
runChild() {
..
.launchTask(...)
..
}
Different JVM
umbilicalChild
void main(..)
{ .... }

Task tracker Node
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}
(default 1)
JvmManager
JvmRunner
runChild() {
..
.launchTask(...)
..
}
Different JVM
umbilicalChild
void main(..)
{ .... }
MapTask or Reduce Task
run(job, umbilical) {
}

Task tracker Node
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}
JvmManager
JvmRunner
runChild() {
..
.launchTask(...)
..
}
Different JVM
umbilicalChild
void main(..)
{ .... }
}

Task tracker Node
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}
JvmManager
JvmRunner
runChild() {
..
.launchTask(...)
..
}
Different JVM
umbilicalChild
void main(..)
{ .... }
}
TaskReporter
- Create TaskReporter that also uses umbilical object.

Task tracker Node
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}
JvmManager
JvmRunner
runChild() {
..
.launchTask(...)
..
}
Different JVM
umbilicalChild
void main(..)
{ .... }
}
TaskReporter
- Check if it is job/task setup/cleanup task.

Task tracker Node
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}
JvmManager
JvmRunner
runChild() {
..
.launchTask(...)
..
}
Different JVM
umbilicalChild
void main(..)
{ .... }
}
TaskReporter
- If so, run their respective method and return.

Task tracker Node
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}
JvmManager
JvmRunner
runChild() {
..
.launchTask(...)
..
}
Different JVM
umbilicalChild
void main(..)
{ .... }
}
TaskReporter
- Else, do Map/Reduce speciﬁc actions !!!

Task tracker Node
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}
JvmManager
JvmRunner
runChild() {
..
.launchTask(...)
..
}
Different JVM
umbilicalChild
void main(..)
{ .... }
}
TaskReporter
- Perform commit operation if it is required.

Task tracker Node
void run() {
offerService();
}
TaskRunner
start()
LaunchTaskAction
void run() {
}
JvmManager
JvmRunner
runChild() {
..
.launchTask(...)
..
}
Different JVM
umbilicalChild
void main(..)
{ .... }
}
TaskReporter
- Perform commit operation if it is required.
- If speculative task, ensure only one of the duplicate task is
committed.

Map-speciﬁc actions:

map
map
map
MapperInputFormat
mapper & input using ReﬂectionUtils.newInstance(...)

map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
Build split using MapTask’s getSplitDetails(splitIndex, ...) + Use FileSystem/Deserializer from JobConf

map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
For each key-value read from the split (through context.nextKeyValue()), call user-deﬁned map

map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
Sort/Spill

map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
Store output of map into in-memory circular buffer (MapOutputBuffer)
Sort/Spill

map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
- If no reducer, uses DirectMapOutputCollector instead, which writes immediately to disk.
Sort/Spill

map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
- When buffer reaches certain threshold, a background thread MapOutputBuffer’s inner class
SpillThread will start spilling the buffer to the disk (mapred.local.dir).
Sort/Spill

map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
- If speciﬁed, run combiner if at least 3 spill ﬁles (min.num.spills.for.combine)
Sort/Spill

map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
- Before writing to disk, compress if mapred.compress.map.output is true.
Sort/Spill

map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
- Sort uses user-deﬁned Comparator and Partitioner.
Sort/Spill

map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
- Sort uses user-deﬁned Comparator and Partitioner.
Sort/Spill
Final output: One sorted
partitioned ﬁle

In-memory circular buffer

io.sort.mb (Default: 100MB = 104857600 bytes) = $1

$1 * io.sort.spill.percent (Default: 0.8)

$1 * io.sort.record.percent (Default: 0.05)
Record pointers

Record pointers
kvindices
(1 int)
kvoffsets (3 ints)
Index
buffer:
Partition
buffer:

Record pointers
kvindices
(1 int)
kvoffsets (3 ints)
Index
buffer:
Partition
buffer:
<Partition, Key offset,Value offset>

Record pointers
kvindices
(1 int)
kvoffsets (3 ints)
Index
buffer:
Partition
buffer:
Avail data buffer: $1 * (1 - 0.05) * 0.8 = 79691776

Record pointers
kvindices
(1 int)
kvoffsets (3 ints)
Index
buffer:
Partition
buffer:
Max #records w/o spill: $1 * 0.05 / (4 ints * 4 bytes) = 327680

Record pointers
kvindices
(1 int)
kvoffsets (3 ints)
Index
buffer:
Partition
buffer:
INFO org.apache.hadoop.mapred.MapTask: data buffer =
79691776/99614720
INFO org.apache.hadoop.mapred.MapTask: record buffer =
262144/327680

Record pointers
kvindices
(1 int)
kvoffsets (3 ints)
Index
buffer:
Partition
buffer:
79691776/99614720
262144/327680
2 common cases for spilling:

Record pointers
kvindices
(1 int)
kvoffsets (3 ints)
Index
buffer:
Partition
buffer:
79691776/99614720
262144/327680
1. Lot of small records ﬁlling up the record buffer

Record pointers
kvindices
(1 int)
kvoffsets (3 ints)
Index
buffer:
Partition
buffer:
79691776/99614720
262144/327680
- Spill before the data buffer is full.Tweak io.sort.record.percent using heuristic:

Record pointers
kvindices
(1 int)
kvoffsets (3 ints)
Index
buffer:
Partition
buffer:
79691776/99614720
262144/327680
= 16 / (16 + avgRecordSize) ... (0.05 optimal if avgRecordSize ~ 300 byte)

Record pointers
kvindices
(1 int)
kvoffsets (3 ints)
Index
buffer:
Partition
buffer:
79691776/99614720
262144/327680
- See https://issues.apache.org/jira/browse/MAPREDUCE-64

Record pointers
kvindices
(1 int)
kvoffsets (3 ints)
Index
buffer:
Partition
buffer:
79691776/99614720
262144/327680
INFO org.apache.hadoop.mapred.MapTask: Spilling map output: record full = true

Record pointers
kvindices
(1 int)
kvoffsets (3 ints)
Index
buffer:
Partition
buffer:
79691776/99614720
262144/327680
2. Few but very large records ﬁlling up the data buffer

Record pointers
kvindices
(1 int)
kvoffsets (3 ints)
Index
buffer:
Partition
buffer:
79691776/99614720
262144/327680
- Increase buffer size and also spill percent (~ 1). Key:Try to spill only once.

Record pointers
kvindices
(1 int)
kvoffsets (3 ints)
Index
buffer:
Partition
buffer:
79691776/99614720
262144/327680
- Tradeoff: Buffer takes memory from JVM (i.e. from mapred.child.java.opts).Therefore,
if Max JVM =1GB and $1=128MB, then user code gets only 896MB.

Record pointers
kvindices
(1 int)
kvoffsets (3 ints)
Index
buffer:
Partition
buffer:
79691776/99614720
262144/327680
- Tradeoff: Buffer takes memory from JVM (i.e. from mapred.child.java.opts).Therefore,
if Max JVM =1GB and $1=128MB, then user code gets only 896MB.
INFO org.apache.hadoop.mapred.MapTask: Spilling map output: buffer full = true

Sort/Spill
Reduce-speciﬁc actions:
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5

Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskTracker (map-side)
mapping info

Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
mapping info
TaskTracker (reduce-side)
JobTracker
thru heartbeat

Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
mapping info
JobTracker
thru heartbeat
Reducers know which
machines to fetch data from.

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
mapping info

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
mapping info

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
mapping info

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTaskTaskTracker (map-side)
mapping info

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
if(mapred.job.tracker != local)
mapping info

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
mapping info
ReduceCopier
fetchOutput() {
}

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
mapping info
ReduceCopier
fetchOutput() {
}
MapOutputCopier

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
mapping info
ReduceCopier
fetchOutput() {
}
MapOutputCopier
HttpServer
MapOutputServlet
- Get output using HTTP

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
mapping info
ReduceCopier
fetchOutput() {
}
MapOutputCopier
HttpServer
MapOutputServlet
- mapred.reduce.parallel.copies: #MapOutputCopier
threads (i.e. # fetches in parallel on each reduce task)

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
mapping info
ReduceCopier
fetchOutput() {
}
MapOutputCopier
HttpServer
MapOutputServlet
- Default: 5

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
mapping info
ReduceCopier
fetchOutput() {
}
MapOutputCopier
HttpServer
MapOutputServlet
- Default: 5
- tasktracker.http.threads: #clients HttpServer will service

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
mapping info
ReduceCopier
fetchOutput() {
}
MapOutputCopier
HttpServer
MapOutputServlet
- Default: 5
- Default: 40

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
mapping info
ReduceCopier
fetchOutput() {
}
MapOutputCopier
HttpServer
MapOutputServlet
- Default: 5
- Default: 40
- Mapreduce2 will use Netty (2x #processors)

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
ReduceCopier
fetchOutput() {
}
MapOutputCopier
mapping info
HttpServer
MapOutputServlet

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
ReduceCopier
fetchOutput() {
}
MapOutputCopier

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
ReduceCopier
fetchOutput() {
}
MapOutputCopier
Is map output size < ShufﬂeRamManager’s
MaxSingleShufﬂeLimit ?

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
ReduceCopier
fetchOutput() {
}
MapOutputCopier
-Yes: Keep output in memory

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
ReduceCopier
fetchOutput() {
}
MapOutputCopier
- No:Write it to disk

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
ReduceCopier
fetchOutput() {
}
MapOutputCopier
MaxSingleShufﬂeLimit = mapred.child.java.opts’s -Xmx *
mapred.job.shufﬂe.input.buffer.percent (default: 0.7) *
0.25f

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
ReduceCopier
fetchOutput() {
}
MapOutputCopier
0.25f
INFO org.apache.hadoop.mapred.ReduceTask:
Shuffling ? bytes (? raw bytes) into (RAM/Local-
FS) from attempt_?

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
ReduceCopier
fetchOutput() {
}
MapOutputCopier
0.25f
FS) from attempt_?
LocalFSMerger
InMemFSMergeThread

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
ReduceCopier
fetchOutput() {
}
MapOutputCopier
0.25f
FS) from attempt_?
LocalFSMerger
InMemFSMergeThread
Perform “in-memory merge” if

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
ReduceCopier
fetchOutput() {
}
MapOutputCopier
0.25f
FS) from attempt_?
LocalFSMerger
InMemFSMergeThread
- Used memory > (-Xmx * 0.7) * mapred.job.shufﬂe.merge.percent (default: 0.66)

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
ReduceCopier
fetchOutput() {
}
MapOutputCopier
0.25f
FS) from attempt_?
LocalFSMerger
InMemFSMergeThread
- Or #map outputs > mapred.inmem.merge.threshold (default: 1000)

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
ReduceCopier
fetchOutput() {
}
MapOutputCopier
0.25f
FS) from attempt_?
LocalFSMerger
InMemFSMergeThread
Perform (interleaved) “on-disk merge” if

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
ReduceCopier
fetchOutput() {
}
MapOutputCopier
0.25f
FS) from attempt_?
LocalFSMerger
InMemFSMergeThread
- #ﬁles on disk > 2*io.sort.factor - 1 (fairly rare)

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
ReduceCopier
fetchOutput() {
}
MapOutputCopier
0.25f
FS) from attempt_?
LocalFSMerger
InMemFSMergeThread
Eg: 50 ﬁles and io.sort.factor = 10

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
ReduceCopier
fetchOutput() {
}
MapOutputCopier
0.25f
FS) from attempt_?
LocalFSMerger
InMemFSMergeThread
5 rounds of merging, 10 ﬁles at a time*

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
ReduceCopier
fetchOutput() {
}
MapOutputCopier
0.25f
FS) from attempt_?
LocalFSMerger
InMemFSMergeThread
Merge
SORT

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
ReduceCopier
fetchOutput() {
}
MapOutputCopier
0.25f
FS) from attempt_?
LocalFSMerger
InMemFSMergeThread
Merge
SORT
Finally, spills in-memory data to disk.Why ?

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
ReduceCopier
fetchOutput() {
}
MapOutputCopier
0.25f
FS) from attempt_?
LocalFSMerger
InMemFSMergeThread
Merge
SORT
- Assumes user reduce() needs all the RAM.

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
ReduceCopier
fetchOutput() {
}
MapOutputCopier
0.25f
FS) from attempt_?
LocalFSMerger
InMemFSMergeThread
Merge
SORT
- Assumes user reduce() needs all the RAM.
- Can tweak it using mapred.job.reduce.input.buffer.percent (default: 0)
to ~ 0.7, if simple reducer.

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
Merge
SORT

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
Merge
SORT
Use RawKeyValueIterator and

reduce
reduce
Sort/Spill
map
map
map
MapperInputFormat
split 1
split 2
split 3
split 4
split 5
TaskStatus.Phase.
Fetch
SHUFFLE
ReduceTask
Merge
SORT
call user-deﬁned Reducer class.
part-0
part-1
Reducer OutputFormat
REDUCE
Use RawKeyValueIterator and

References
- Hadoop - The deﬁnitive guide 3rd edition by Tom White.
- Hadoop Operations by Eric Sammers.
- Data-Intensive Text Processing by Jimmy Lin and Chris Dyers.
- Mining of Massive Datasets by Rajaraman et al.
- Online Aggregation for Large MapReduce Jobs by Pansare et al.
- Distributed and Cloud Computing by Hwang et al.
- http://developer.yahoo.com/hadoop/tutorial/
- http://www.slideshare.net/cloudera/mr-perf
- http://gbif.blogspot.com/2011/01/setting-up-hadoop-cluster-part-1-manual.html
- http://www.cs.rice.edu/~fd2/pdf/hpdc106-dinu.pdf

How MapReduce part of Hadoop works (i.e. system's view) ?

More Related Content

Similar to How MapReduce part of Hadoop works (i.e. system's view) ? (20)

Recently uploaded (20)

How MapReduce part of Hadoop works (i.e. system's view) ?