Apache Spark 3.0新機能紹介 - 拡張機能やWebUI関連のアップデート（Spark Meetup Tokyo #3 Online）

© 2020 NTT DATA Corporation
2020年7月31日
株式会社NTTデータ技術開発本部
猿田浩輔
Apache Spark 3.0新機能紹介
- 拡張機能やWebUI関連のアップデート -

© 2020 NTT DATA Corporation 2
$ whoami
 猿田浩輔
 株式会社NTTデータ技術開発本部
 シニア・ソフトウェアエンジニア / Apache Sparkコミッタ
 Hadoop/SparkなどOSS並列分散処理系の開発やテクニカルサポートに従事
 普及活動の一環で講演や書籍執筆なども
 Twitter: @raspberry1123

本日のお話
 先日リリースされたApache Spark 3.0の新機能のうち、主に拡張機能や、WebUI関連
のアップデートを解説
 Accelerator Aware Scheduling
 プラグイン
 WebUI

Accelerator Aware Scheduling

Accelarator Aware Schedulingとは
 GPUやFPGAなどのアクセラレータを、複数のタスク間で効率的にシェアで
きるようスケジューリングする仕組み
 Project Hydrogenと呼ばれる、AI関連のワークロードを指向した取り組みのひ
とつ
 AI関連のワークロードではGPUを活用することが当たり前になってきている
ことが、この取り組みの背景
 DLフレームワークをSpark向けに開発する場合、Spark内部からGPUなどのア
クセラレータを扱える必要がある
 これまではGPUなどのアクセラレータを想定した作りになっていなかった

これまでのSparkはアクセラレータの割り当て制御が不十分
 YARNやKubernetesなどは既にGPUをサポートしているはずでは？
 YARNやKubernetesがGPUの割り当てを制御するのはコンテナやPodの単位
 コンテナ/Pod単位ではGPUが適切に分離される
Executor
(コンテナやPod内で動作)
GPU GPU
GPU
GPU
GPU
GPU
ワーカノードに搭載
されているGPU
NodeManager/Workerは、
GPUプールの中から要求
された数のGPUを割り当
ててコンテナ/Podを起動
割り当てられている最中
のGPUは、他のコンテナ
やPodに割り当てられた
り、アクセスされないよ
うに制御される
ワーカノード

これまでのSparkはアクセラレータの割り当て制御が不十分
 SparkではExecutorプロセスがコンテナやPod内で動作するが、Executorの中
で更に複数のタスクがスロット分だけ並列で実行される
 YARNやKubernetesはコンテナ/Podの中身については関知しないので、タスク
に対してGPUをどのように割り当てるかは制御できない
Executor
GPU GPU GPUなどのアクセラレータはタスクに
対して割り当てが制御されていないため、
競合や無駄が生じる可能性がある
ワーカノード
タスクA タスクB

Accelerator Aware Schedulingによるアクセラレータの効率的なシェア
 Executorにどれだけアクセラレータを割り当てるかだけではなく、タスクに
対して割り当てる数を設定できる
 タスクのスケジューリングは、要求する種類/数のアクセラレータを満足する
スロットに対して行われる
Executor
GPU GPU
タスクに割り当てられたアクセラ
レータは他のタスクからアクセス
されないように分離されるGPU GPU
ワーカノード
タスクA タスクB

Accelerator Aware Schedulingの利用例
 Executorやタスクに割り当てるアクセラレータの数などを設定する(この例で
はGPU)
 アプリ側では、TaskContext#resourcesで、タスクに割り当てられたGPUのハ
ンドルを取得できる
context = TaskContext.get()
// タスクに割り当てられたGPUのハンドルを取得
assigned_gpu = context.resources()[“gpu”][0]
with tf.device(assigned_gpu):
<何か処理>
// Executorあたり4つGPUを割り当てる
spark.executor.resource.gpu.amount=4
// タスクあたりに割り当てるGPUの数
spark.executor.task.gpu.amount=2
// Executorに割り当てられたGPUを検出するスクリプトの設定 (※1)
spark.executor.resource.gpu.discoveryScript=...
※1: サンプルあり(examples/src/main/scripts/getGpusResources.sh)

Accelerator Aware Schedulingの開発状況
 Spark 3.0で主要なクラスタマネージャには対応
 YARN/Kubernetes/Standaloneに対応(Mesosには未対応)
 WebUIからもアクセラレータの割り当て状況が確認できる

プラグイン

プラグイン機能のアップデート
 実はSpark 2.4からひっそりと導入されていたプラグイン機能が拡張された
 主なアップデートは以下の通り
 Driver向けのプラグインも実装可能になった(従来はExecutor向けのみ)
 DriverプラグインとExecutorプラグイン間でRPCによる通信も可能
 ユーザ定義のメトリクスが実装可能になった
 プラグイン利用のための設定や配布方法は以下のドキュメントにまとめられ
ている
 https://spark.apache.org/docs/latest/monitoring.html#advanced-
instrumentation

プラグインの実装方法
 Driver向けのプラグインとExecutor向けのプラグインをペアで実装する
 プラグインのペアはSparkPluginのサブクラスとして定義する
 executorPluginとdriverPluginをオーバーライドし、それぞれのプラグイ
ンを返すように実装する
 以下の例ではScalaで実装しているが、SparkPluginはJavaのinterfaceと
して定義されているので、Javaでも実装可能
class MySparkPlugin extends SparkPlugin {
override def executorPlugin(): ExecutorPlugin = new MyExecutorPlugin()
// プラグインを利用しない場合はnullを返せば良い
override def driverPlugin(): DriverPlugin = null
}

プラグインの実装方法
 Driver向けのプラグインとExecutor向けのプラグインをペアで実装する
 init / shutdownに初期化/終了時の処理を実装する
 Executor/Driverの起動時および終了時に呼び出される
 RPCを実装する場合はDriverPlugin#receiveでメッセージ受信時の処理を実装
する(送信については後述する)
 DriverPlugin#registerMetricsについては後述する
class MyDriverPlugin extends DriverPlugin {
override def init(sc: SparkContext, ctx: PluginContext): j.u.Map[String, String] = { /* 初期化 */ }
override def shutdown(): Unit = { /*後始末*/ }
override def receive(message: Object): Object = { /*RPCメッセージ受信時の処理 */}
override def registerMetrics(appId: String, ctx: PluginContext): Unit = { /*メトリクスの登録 */ }
}
class MyExecutorPlugin extends ExecutorPlugin {
override def init(ctx: PluginContext, extraConf: j.u.Map[String, String]): Unit = { /* 初期化 */ }
override def shutdown(): Unit = { /*後始末*/ }
}

PluginContext
 PluginContext経由で以下の情報にアクセスできる
 SparkConf : conf()
 ExecutorのID: executorID()
 ホスト名: hostname()
 Executor/Driverに割り当てられているCPU/メモリ/アクセラレータの情
報: resources()
 Executor/Driverのメトリクスレジストリ: metricsRegistry()
• ユーザ定義のメトリクスを実装するのに必要
 またPluginContextのsend/askでDriverプラグインとExecutorプラグイン間の
RPCが可能
 send: 単にメッセージを送信する
 ask: メッセージを送信し、応答を待つ

 Dropwizardを利用してメトリクス収集ロジックを実装する
 DriverPluginの場合はregisterMetrics内で、ExecutorPluginの場合はinit内で
PluginContext#registerMetricsを呼び出してメトリクスを登録する
 収集したメトリクスは、既存のメトリクス同様GraphiteやJMXなどでモニタ
リングできる(https://spark.apache.org/docs/latest/monitoring.html#metrics)
 以下はS3上のデータの読み込み量に関するメトリクスを収集する例
プラグインを利用して独自メトリクスを作成する例
override def init(ctx: PluginContext, extraConf: JMap[String, String]): Unit = {
ctx.metricRegistry.register(MetricRegistry.name("s3BytesRead"), new Gauge[Long] {
override def getValue: Long = {
val hdfsStats = FileSystem.getAllStatistics().asScala.find(s => s.getScheme.equals("s3a"))
hdfsStats.map(_.getBytesRead).getOrElse(0L)
}
)
} MetricsRegistry.nameで設定した
名前が、メトリクスのラベルになる
メトリクスの内容によってDropwizardが提供
するAPIを使い分ける。
Gaugeは単一の値を返すタイプのメトリクス。
このほかに値を積み上げるCounterなど。

WebUI

WebUI for Structured Streaming
 Structured Streaming向けのWebUIが導入された
 Spark StreamingのWebUIにも実装されている
チャートが確認できる
 Input Rate
 Process Rate
 Input Rows
 Batch Duration
 その他マイクロバッチ内の各種オペレーションごと
の積み上げグラフが追加された
 History Server向けにも現在開発が続けられている
 SPARK-31953

イベントログファイルのローリング
 これまでイベントログファイルはローリングに対応しておらず、ストリーム処理など
長時間実行するアプリケーションでは使いづらかった(ログファイルの肥大化)
 Spark 3.0からはローリングが可能になった(デフォルトではオフ)。
 以下のプロパティで有効化 / 各種調整が可能
 spark.eventLog.rolling.enabled
 spark.eventLog.rolling.maxFileSize
 ローリングしたファイルが増えてトータルのサイズが肥大化しないよう、
HistoryServer側でイベントログファイルのコンパクションが可能。未コンパクション
のイベントログファイルをいくつ残しておくか設定できる
 spark.history.fs.eventLog.rolling.maxFilesToRetain
 ただし、以前のバージョンのイベントログファイルはコンパクションできない
こと、およびコンパクション後には特定の種類のイベントログは失われること
に注意(https://spark.apache.org/docs/latest/monitoring.html#applying-
compaction-on-rolling-event-log-files)

WebUI関連のドキュメント
 WebUIの使い方を説明したドキュメントが(ようやく)整備された
 https://spark.apache.org/docs/latest/web-ui.html
 3.0で追加されたStructured StreamingのWebUIもカバー

リリースノートもチェック
 このほか主要なアップデートはリリースノートで要チェック
 https://spark.apache.org/releases/spark-release-3-0-0.html

Apache Spark 3.0新機能紹介 - 拡張機能やWebUI関連のアップデート（Spark Meetup Tokyo #3 Online）

More Related Content

What's hot (20)

Similar to Apache Spark 3.0新機能紹介 - 拡張機能やWebUI関連のアップデート（Spark Meetup Tokyo #3 Online） (20)

More from NTT DATA Technology & Innovation (20)

Apache Spark 3.0新機能紹介 - 拡張機能やWebUI関連のアップデート（Spark Meetup Tokyo #3 Online）

Editor's Notes