SlideShare a Scribd company logo
Introduction to
Hadoop TaskScheduler
         July 11, 2012
       Guangxian Liao
  Big Data Engineering Team
         Hanborq Inc.
MapReduce任务调度
•   配置:mapred.jobtracker.taskScheduler
•   插件式Task调度器
•   基类TaskScheduler
•   JT收到TT的心跳时,使用调度器分配Task




                                         2
Task调度器
           调度器                                      介绍


   JobQueueTaskScheduler             一个队列,FIFO,可以指定优先级

CapacityTaskScheduler(contrib目   多个队列,每个队列可以指定资源百分比,
              录)                 FIFO,支持优先级。可以设定单个用户占用
                                        队列资源的百分比上限
  FairScheduler(contrib目录)       默认每个用户有单独的Job pool,缺省平均
                                 分配资源,每个job可以配置优先级,每个
                                 pool可以配置权值和最低资源保障,支持
                                          Slot抢占。
LimitTasksPerJobTaskScheduler    基本功能和JobQueueTaskScheduler一样,可
                                  以指定每个Job同时运行的Task数量上限
                                 mapred.jobtracker.scheduler.maxRunningTasks
                                                    PerJob

                                                                               3
JobQueueTaskScheduler调度策略
• 按照数据局部性分配MapTask。

• 保证每个TaskTracker负载比较均衡。

• 默认TaskTracker和Map处理的数据片(split)在同一个节点或者同一个机
  架认为是LocalMapTask。

• 网络拓扑由脚本来提供,脚本负责获取主机对应的拓扑位置。
  ${topology.script.file.name}

• 可以一次heartbeat分配多个LocalMapTask。

• 如果没有LocalMapTask可以分配,则可以分配一个NonLocalMapTask。

• ReduceTask一次最多分配一个。


                                               4
FairScheduler配置
•   配置:mapred.fairscheduler.poolnameproperty
•   Job的poolname由哪个JobConf参数来指定。
•   默认是user.name,按照用户分pool
•   也可以指定为mapred.job.queue.name
•   或者group.name




                                               5
FairScheduler配置
• 配置:mapred.fairscheduler.pool
• 用户可以直接指定job放入哪个pool
• 配置这个参数后,mapred.fairscheduler.poolnameproperty
  失效




                                                  6
FairScheduler配置
• 配置:mapred.fairscheduler.allocation.file
• Pool分配的xml文件的路径
• Absolute path




                                            7
FairScheduler xml文件举例
• <?xml version="1.0"?>
  <allocations>
   <pool name="sample_pool">
    <minMaps>5</minMaps>
    <minReduces>5</minReduces>
    <weight>2.0</weight>
   </pool>
   <user name="sample_user">
    <maxRunningJobs>6</maxRunningJobs>
   </user>
   <userMaxJobsDefault>3</userMaxJobsDefault>
  </allocations>




                                                8
FairScheduler Task抢占
• mapred.fairscheduler.preemption
• Default:false
• 是否支持抢占




                                    9
两种情况会抢占
• 一个Pool一定时间内没有分配到最低的资源
• 一个Job一定时间内没有占用到它应该被分
  配资源的一半。




                      10
The End
Thank You Very Much!
    liaoguangxian@gmail.com




                              11

More Related Content

PPTX
Sql基础培训
PPT
Hbase
PDF
Hadoop系统及其关键技术
PPTX
7, OCP - configure database for backup and recovery
PPTX
Hadoop 設定與配置
PPTX
Hadoop 簡介 教師 許智威
PPT
Hadoop Map Reduce 程式設計
PPTX
Hadoop安裝 (1)
Sql基础培训
Hbase
Hadoop系统及其关键技术
7, OCP - configure database for backup and recovery
Hadoop 設定與配置
Hadoop 簡介 教師 許智威
Hadoop Map Reduce 程式設計
Hadoop安裝 (1)

What's hot (20)

PDF
Web请求异步处理和海量数据即时分析在淘宝开放平台的实践
PPTX
Hbase运维碎碎念
PPTX
Hadoop hive
PPTX
Spark streaming经验介绍
PDF
TomCat迁移步骤简述以及案例
PPTX
Spark性能调优分享
PDF
深入了解Oracle自动内存管理asmm
PDF
Hadoop-分布式数据平台
PPTX
HDInsight for Microsoft Users
PPTX
使用Ubuntu架設hadoop
PDF
PostgreSQL 9 Standby
PDF
Distributed Data Analytics at Taobao
PPT
PostgreSQL Search
PPT
海量日志分析系统实践,Dba
PDF
HDInsight for Hadoopers
PDF
Spark 巨量資料處理基礎教學
PPT
分区表基础知识培训
PDF
准实时海量数据分析系统架构探究
PDF
Oracle Instance 介紹
PDF
Hadoop ecosystem - hadoop 生態系
Web请求异步处理和海量数据即时分析在淘宝开放平台的实践
Hbase运维碎碎念
Hadoop hive
Spark streaming经验介绍
TomCat迁移步骤简述以及案例
Spark性能调优分享
深入了解Oracle自动内存管理asmm
Hadoop-分布式数据平台
HDInsight for Microsoft Users
使用Ubuntu架設hadoop
PostgreSQL 9 Standby
Distributed Data Analytics at Taobao
PostgreSQL Search
海量日志分析系统实践,Dba
HDInsight for Hadoopers
Spark 巨量資料處理基礎教學
分区表基础知识培训
准实时海量数据分析系统架构探究
Oracle Instance 介紹
Hadoop ecosystem - hadoop 生態系
Ad

Viewers also liked (6)

PPTX
Hadoop architecture by ajay
PPTX
Hadoop Summit 2012 | Optimizing MapReduce Job Performance
PDF
Hadoop Internals (2.3.0 or later)
PDF
Hadoop Summit Europe 2014: Apache Storm Architecture
PPTX
Hadoop introduction , Why and What is Hadoop ?
PPT
Seminar Presentation Hadoop
Hadoop architecture by ajay
Hadoop Summit 2012 | Optimizing MapReduce Job Performance
Hadoop Internals (2.3.0 or later)
Hadoop Summit Europe 2014: Apache Storm Architecture
Hadoop introduction , Why and What is Hadoop ?
Seminar Presentation Hadoop
Ad

More from Hanborq Inc. (12)

PDF
Introduction to Cassandra
PPTX
Hadoop HDFS NameNode HA
PDF
Hadoop大数据实践经验
PPTX
FlumeBase Study
PPTX
Flume and Flive Introduction
PPTX
Hadoop MapReduce Streaming and Pipes
PPTX
HBase Introduction
PPTX
Hadoop Versioning
PPTX
Hadoop MapReduce Introduction and Deep Insight
PPTX
Hadoop HDFS Detailed Introduction
PDF
How to Build Cloud Storage Service Systems
PPTX
Hanborq Optimizations on Hadoop MapReduce
Introduction to Cassandra
Hadoop HDFS NameNode HA
Hadoop大数据实践经验
FlumeBase Study
Flume and Flive Introduction
Hadoop MapReduce Streaming and Pipes
HBase Introduction
Hadoop Versioning
Hadoop MapReduce Introduction and Deep Insight
Hadoop HDFS Detailed Introduction
How to Build Cloud Storage Service Systems
Hanborq Optimizations on Hadoop MapReduce

Hadoop MapReduce Task Scheduler Introduction