Slurmのジョブスケジューリングと実装

Slurmのジョブ
スケジューリングと実装
東京大学坂本龍一
2020/1/22 Slurm User Group Meetup Tokyo #1 1

自己紹介
• 名前
• 坂本龍一
• 所属
• 東京大学計数システム、情報基盤センター（兼任）、助教
• JST CREST さきがけ研究員
• 計算機の省電力化に関する研究
• HPCシステム
• データセンター
• マイクロサービス
• 仮想化環境
• 5G
• 自動運転
• SLAM
• パスプランニング

簡単なアンケートにご協力お
願いいたします。
• バッチジョブの導入を検討されている方
• バッチジョブを投げて仕事/研究をされている方
• 所属
• アカデミック
• インダストリ
• 用途
• ML関連、HPC、その他
• 環境
• Only CPUs
• With GPUs
• With Container
• クラスタを運営している方
• Slurm本体に手を加えている方

本日の流れ
• バッチジョブの概要
• Slurmの特徴と全体構成
• ジョブスケジューリングの概要
• ジョブスケジューリングの実装

HPC(high-performance computing)
システム
• 数台から数十万ノードの計算機
• Fugaku: 150,000ノード (48コアCPU), 30MW-40MW
• 高速ネットワーク
• 32GB/s (Dual-rail EDR InfiniBand network)
• ヘテロジーニアス構成
• GPU/FPGA
• 複数ノードでのプログラミング
• 分散メモリプログラミング
• MPI(Message Passing Interface)
• 分散学習フレームワーク

アプリケーション
• HPCアプリ
• 気象
• 航空
• 創薬
• 地震
• 機械学習
• 分散訓練・学習

• 共有の計算機資源を時分割で多数のユーザーが利用
• ノードを時分割し占有する
• バッチジョブ実行
• 利用したい期間、CPU数、特定HWの有無(GPU等)を宣言
• リソースマネージャーは様々なユーザーからの要求を受け付け、実行中
のジョブ、ノード利用状況を加味し、要求されたジョブを実行
• 計算機の有効利用が重要
• 多数のユーザーが多数のノードを時分割し利用
バッチジョブとは
ユーザー
リソース
マネージャ
(資源管理) クラスタ
ジョブの投入
終了通知
ジョブ
実行制御

効率的なジョブ
スケジューリング
• バッチジョブの難しさ
• 多数のユーザーからのリクエストを受け付け、多数
の計算ノードの利用を最適化する必要がある
• 数百ジョブ
• 数百人
• 多数の共有資源の有効利用
• 計算ノード
• ネットワーク
• GPU
• ストレージ

FIFOジョブスケジューリング
①ノード数、実行時間を指定しジョブを投入
現在時刻
ノード利用（5ノード）
未来
Node1
Node5
Node4
Node3
Node2
ジョブキューユーザー
実行時間
ノード数

②多数のユーザーがジョブを投入
現在時刻
未来
Node1
Node5
Node4
Node3
Node2

③ジョブキューの先頭からジョブを割当て
現在時刻
未来
Node1
Node5
Node4
Node3
Node2
• 問題点：ノード利用に無駄が多い
• ノード利用の無駄をなくすことが大切

バックフィリング
• 後から投入されたジョブを前倒して実行
• 先に投入されたジョブの開始時刻が遅れないようにする
現在時刻
未来
Node1
Node5
Node4
Node3
Node2
• ノードの利用効率を向上させることができる
• ジョブスループットの向上
• ジョブ待ち時間の短縮化

ネットワークを考慮した
ノードスケジューリング（1/2）
• ネットワーク距離が長いと性能が低下
• できるだけノードの距離を近くすることが望ましい
物理的なネットワーク構成を考慮したノード配置が必要
A
B
A
A
C
A
A
A
B
A
C
A
A
C
C
A
A
B
A
B
A
A
C
A
A
A
B
A
C
A
A
CC
A
A
B
各ジョブはバラバラに配置近くのノードにジョブを配置

ネットワークを考慮した
ノードスケジューリング(2/2)
• ネットワーク構成は様々
ネットワーク構成に合わせて最適な割当を変える必要がある
Fat Tree Mesh/Torus
😊ネットワーク帯域が枯渇しにくい
😢構成が複雑
😊構成がシンプル
😢上位のネットワークが枯渇しやすい

GPUを考慮したスケジューリング
• ノードあたりのGPU搭載数
• 1枚、2枚、4枚
• 異種GPUの混在
• V100, P100
• GPU間高速ネットワークと
ノード間低速ネットワーク
• NVLink (300GB/s)
• InfiniBand (32GB/s)
GPU GPU GPU
GPU
GPUGPU
GPU
GPU
NVlink
GPU
GPU
GPU
GPU
NVlink
GPU
GPU
GPU
GPU
InfiniBand
V100 P100 P100V100
ノード構成に合わせて最適な割当を変える必要がある

リソースマネージャに
求められる要件
• ジョブスケジューリングとノードスケジューリ
ングの両立が必要
• バックフィリングによるジョブスケジューリング
• ネットワーク・ノード構成を考慮したノードスケ
ジューラ
• 構成の違いに柔軟に対応できることが重要
• ノード構成、ネットワーク構成、GPU構成
• 独自のカスタム構成
高い拡張性を有するSlurmスケジューラー

Slurmリソースマネージャ
• HPCシステム・GPUクラスタ向けリソースマネージャ
• ユーザー管理、ジョブ管理、ノード管理
• OSS
• GNU GPL
• 開発のメインはアメリカのSchedMD
• SlurmをベースにHPCシステム構築やコンサル業務を行う
• アメリカの国立研究所と密に連携
• 多くのHPCシステムで利用
• TOP500の半数近くでSlurmを利用
• 高い拡張性を持つ
• 様々なプラグインインターフェースをもつ
• プラグインの総数は100を超える

プラグイン(資源管理や最適化)
• ジョブスケジューリング
• Backfill, fifo
• ノードスケジューリング
• 効率的なノード割当てを計算
• 粗粒度：ジョブ間でのノード共有を行わない
• 細粒度：ジョブ間でノードを共有（CPUコアやメモリ単位の共
有）
• アクセラレータ(Generic REsource Scheduling = GRES)
• GPU, MIC, NIC
• ネットワーク
• Mesh/Tours, hypercube, tree

プラグイン
(低レベルハードウェア隠蔽)
• データ収集
• ジョブのプロファイル
• 消費エネルギー
• 通信量
• ベンダ依存のハードウェアモニタ
• Intel CPU向けモニタ、IPMIモニタ

プラグイン
(コントロールフローの拡張)
• SPANKプラグイン
• Slurm Plug-in Architecture for Node and job (K)control
• ジョブ実行フローを拡張するためのプラグイン
• ジョブの実行直前・直後などの様々なポイントでプラ
グインAPIが呼ばれる
• プログラム実行直前にハードウェアを制御したい
• 特定のハードウェアを制御できる権限を付加
• 特殊な権限を与えてプログラムを実行したい
• ファイルの属性変更
• プログラム実行直前・直後に特殊な前処理を走らせたい
• コンテナ仮想化等をサポート

Slurmの全体構成
• ユーザーインタ
フェースプログラム
• sbatch:ジョブの投入
• Squeue:ジョブの確認
ユーザー
リソース
マネージャ
クラスタ
ジョブの投入
終了確認
ジョブ
実行制御
• リソースマネー
ジャデーモン
• slurmctld:
• ログ保存DB
• slurmdbd
• 計算ノード
デーモン
• Slurmd:
sbatch
squeue
slurmdbd
slurmctld
ログ保存
slurmd
slurmd
slurmd
slurmd

ジョブスケジューリングと
プラグイン利用
ジョブキューの最適化
①ジョブスケジューラはバックフィル
を行うため、適切なノード割当てを
ノードスケジューラに問い合わせ
sbatch
slurmctld
slurmd
User Scheduler Compute
Node
Job info
Request Time
Number of Nodes
Job
Job Scheduler Node Scheduler
Backfill
plugin
Job Queue
launch Job
Node allocation
plugin
GRES plugin
②ノードアロケーションプラグイ
ンは最適なノード割当てを計算
③必要ならGRESプラグインを呼び
出すジョブ開始時の最適化
①最適なノード割当てを
ノードアロケーションプラ
グインに問い合わせ

将来のノード割当て予測と
バックフィリング
• バックフィルプラグインは将来の資源利用を加
味して、ジョブの前倒しを行う
• 将来のノード割当てをノードスケジューラに予測し
てもらう
• 将来のジョブキューを予測
slurmctld
Scheduler
Job Scheduler Node Scheduler
Backfill
plugin
Job Queue
launch Job
Node allocation
plugin
GRES plugin
• ノードスケジューラは渡
されたジョブ情報を利用
し、将来の最適なノード
割当てを計算

バックフィルの動作
（schedプラグイン）
• プラグインの呼び出し
• 起動直後にsched pluginの初期化関数が呼
ばれる
• バックフィルを行うスレッドを生成
• 一定期間ごとにタイマーによって起床
• バックフィルの試行
• 将来の資源利用を予想
• ジョブリストをコピーし、各ジョブの終了
時刻を予測、将来のジョブリストを生成
• スケジューリングを試みる
• 将来の最適なノード割当てをノードスケ
ジューラに問い合わせる
controller.c@main()
slurm_sched_init()
backfill_wrapper.c@init()
backfill.c@backfill_agent()
_attempt_backfill()
_try_sched()
select_g_job_test()
コード

ノードスケジューリング
プラグインインタフェース
• select_p_job_test()
• 最適なノード割当を計算するプラグインAPI
• バックフィルスケジューラやジョブ実行直前に呼び出される
• 主な引数
• 実行したいジョブ情報
• リソース要求、ジョブの開始希望時間
• ノード割当てビットマップ
• 最適なノード割当てがビットマップとして書き込まれる
• Mode:どのタイミングのノード割当てを計算するかを示すフ
ラグ
• RUN_NOW : 現時刻での最適なノード割当を計算し、即座にノードを
確保する
• WILL_RUN : 未来の最適なノード割当てを計算する。ノードの確保は
行わない

ノードスケジューラ
(linearプラグイン)の動作
• プラグインの呼び出し
• ジョブスケジューラやジョブ実行直前
にselect_p_job_test()が呼び出される
• モードによって_will_run_test()、また
は_run_now()が呼び出される
• _will_run_test()の場合
• ジョブの要件に合うノードをカウン
ト・リストアップ
• GRESプラグインにてGPU割当てを最適化
• 要求されるノード数、メモリ数より候補
となるノードリスト作成
• 最適化を行い実行可能かテストする
• ネットワークトポロジーの最適化
plugins/select/linear/
select_linear.c
select_p_job_test()
_will_run_test()
_job_count_bitmap()
_gres_plugin_job_test()
_job_test()
_job_test_hypercube()
_job_test_dfly()
_job_test_topo()
コード
*_run_now()も流れは同様。実際にノードを割り当てる

ファイル構成
slurm-18.XX
├── autogen.sh # Autotools向けスクリプト
├── configure #
├── configure.ac # Makefile.am等のファイル情報を含む
├── slurm # 重要なヘッダファイル類が入っている
│ ├── slurm.h.in # グローバルなデータの定義が入っている
├── slurm.spec # RPMパッケージを作る際の情報が入っている
├── src # ソースコード本体
│ ├── api # 高機能なAPIが入っている
│ ├── common # 様々な共通のプリミティブなAPIの実装が入っている
│ ├── plugins # プラグインが入っている
│ ├── sbatch # ジョブ投入コマンドの実装
│ ├── slurmctld # リソースマネージャ本体のソースコード
│ ├── slurmd # 計算ノード側のデーモンのソ－スコード
＊Makefile.am, Makefile.in、他のファイルは省略

Slurmctldのジョブ・ノード管理
関連のソースコード
• ジョブとノード管理を行う部分は4つのソースに記述
Job
list
Avail_node_bitmap
idle_node_bitmap
job_mgr.c
・ジョブリストを扱う
プリミティブな関数
・ジョブの終了・開始
処理
job_scheduler.c
・schedule():ジョブリスト
の先頭からジョブ実行
(Backfillとは独立に動作)
・非同期なepilog / prolog /
rebootの実行
node_mgr.c
・ノードの様々な
状態を保持
・ノードリストを扱う
プリミティブな関数
select_nodes()
_get_req_features()
_pick_best_nodes()
select_g_job_test()
gres_set_job_tres_cnt()
allocate_node()
_fill_in_gres_fileds()
node_scheduler.c
select_nodes()
ジョブに対する最適
なノード割当てを求
め、実際にノードを
割り当てる

並列化とグローバルデータ
• スレッドを生成し、生成したスレッドで処理を行う
• 他の処理との並列化
• ジョブスケジューリング、RPC受付処理、死活管理、非同期処理
• 重要なデータはグローバルに配置
• Configデータ、ジョブデータ、ノードデータ、他
• 排他制御
• 適切な排他制御が必要
• NO_LOCK, READ_LOCK, WRITE_LOCK
RPCフロント
エンド
ジョブ投入
進捗確認
ジョブ終了
通知
ユーザー
クラスタ
ジョブスケジュー
リング(Timer)
ジョブキュー更新
ジョブキュー確認
Job
listRead
lock
Write
lock
slurmctld

コンパイルフローと新しい
ソースファイルの追加
• コンパイルにはAutotoolsを利用
./autogen.sh, ./configure, make
• コンパイルフローの理解は大切
• 新しいソースコードを追加してもコンパイルされない
• グローバルデータを更新しても反映されない
• 新しいソースコードの追加(新しいプラグイン作成)
• Makefile.amを新規作成
• 親ディレクトリのMakefile.amを修正
• Configure.acに新しいMakefile.amの場所を登録
• アルファベット順に並べる必要がある
• autoreconfを実行
• 必要ならMakefile.inも修正
• slurm.specを修正

グローバルデータの拡張
• Nodeテーブル、ジョブテーブルはslurm/slurm.h
以下に定義されているが、直接slurm/slurm.hを
修正しても反映されない
• slurm/slurm.hはautotoolsによって自動生成
• slurm/slurm.h.inを変更する必要がある

ソースコードを解析するため
に用いたツール
• Doxygen
• 定番、Webベースで見れる
• Call/Callerグラフはコードが複雑すぎて有効に利用でき
なかった
• GNU GLOBAL
• Webベースで見れる
• それなりに活用
• プラグイン呼び出し側APIとプラグイン本体のAPI名が異
なるため、直接飛べない
• 呼び出し側select_g_job_test
• プラグイン本体select_p_job_test
• find -type f | xargs grep select_g_job_test
• プラグイン周りのAPI検索に利用

研究紹介 (IPDPS17, Ryuichi Sakamoto)
• HPCシステムの省電力化のため
Slurmを拡張
• 省電力化のためのプラグイン
インタフェースを追加
• 電力のモニタリング機能を追加
• 実際の大規模HPCシステムにイ
ンストールし電力制御を実現
• 1000ノードの電力を
リアルタイムに管理
• HPCシステム全体の電力
管理を現実的なものに
• 従来はシミュレーション
実行待ちの
ジョブ数
遊休ノード
の消費電力
ジョブごと
の消費電力
実行時間
1000ノード
の消費電力

まとめ
• バッチジョブの概要
• バッチジョブの難しさ
• Slurmの特徴と全体構成
• ジョブスケジューリングの概要
• バックフィリングによるジョブスケジューリング
• ノードスケジューラによる将来のノード割当て
• ジョブスケジューリングの実装
• backfillジョブプラグイン
• linearノードプラグイン

Slurmのジョブスケジューリングと実装

More Related Content

What's hot (20)

Similar to Slurmのジョブスケジューリングと実装 (20)

Slurmのジョブスケジューリングと実装