SlideShare a Scribd company logo
2013年1月26日 14:00 – 17:00
SC論文読み会 @東工大

Mapping Applications with
Collectives over Sub-communicators
on Torus Networks (SC12)


                    著者:Abhinav Bhatele (LLNL), et al.
                発表者:高前田(山崎) 伸也 (東工大)
この論文を選んだ理由


n  実はうちの研究室でもスパコン向けタスク配置をやって
    いる
 l  あのテーマをSCに通すにはどんな感じの論文にすればいいんだ
     ろう?と興味がわいた


n  アプリには興味がないけど,スケジューリングとか配置
    とかで性能を高くするのは好き


n  絵がたくさん載っていて楽しそう


           Shinya Takamaeda-Y. Tokyo Tech   2
概要



n  スパコンにおける良いタスク配置を決定するためのツー
    ルに関する論文
 l  いくつかのシンプルなオペレーションでアプリケーションの配
     置を変更できる


n  2つのアプリケーションで評価
 l  pF3D: レーザープラズマ相互作用
 l  Qbox: 第1原理分子動力学




               Shinya Takamaeda-Y. Tokyo Tech   3
Introduction: タスク配置
n  「どのタスク」を「どのノード」に割り当てるか
        l  配置によってネットワークの使い方が変わる→性能が変わる


n  我々がやっているメニーコアの場合 (RMAP)

      Bitonic Sort       Matrix Multiply   Idle           Off-Chip Memory
                                                                                                               Normal    RMAP
                                                                                                      100000




                                                                            Elapsed cycle [K cycle]
                                                                                                               79775
                                                                                                      80000                     68921
                                                                                                                    76587
                                                                                                      60000                         68703

                                                                                                      40000

                                                                                                      20000

                                                                                                          0
                                                                                                               Bitonic Sort   Matrix Multiply
 (a) Normal Allocation                            (b) RMAP Allocation



                                                   Shinya Takamaeda-Y. Tokyo Tech                                                           4
Introduction: 従来手法について




n  通信するタスク間のホップ数を小さくするように配置
  l  ネットワークリンクの共有や混雑を減らすため



n  どんな時にこれは有効か?
  l  各タスクが少数のノードとPoint-to-Pointで通信する,かつ
  l  Global communicatorでcollective通信を行う場合




                   Shinya Takamaeda-Y. Tokyo Tech   5
Introduction: 問題点


n  スパコンのノード数とネットワークの直径は増加傾向
   l  Global communicatorではなくsub-communicatorを用いて
       collective通信を行うように


n  Sub-communicatorを用いる場合の最適なタスク配置
   l  Sub-communicator単位のグループでノードをまとめれば,
       ホップ数は削減できる
   l  グループ境界のハードウェアリンクが未使用となり,ネット
       ワークバンド幅の利用効率が制限される
   l  例えば,ただまとめるのではなく,ちょっとずらしたりすると
       使えるリンク数が増えてネットワーク性能が上がりそう


                   Shinya Takamaeda-Y. Tokyo Tech    6
Introduction: 本論文の貢献
n  N次元トーラスにおけるSub-communicatorを用いた
    Collective通信,特にall-to-allとbroadcastの性能向上を
    目指す
  l  複数の次元にまたがってトーラスのリンクを包み込むようにコ
      ミュニケータを配置することで,実効バンド幅を増やすことが
      でき,混雑を回避するための経路を提供することが可能になる
  l  直線上に配置した8ノードでのall-to-allは2x2x2のキューブのそれ
      よりもとても遅い


n  既存のライブラリはレイテンシを削減するためにホップ
    数を削減することにフォーカスしていたが,我々はより
    多くの次元のリンクを利用することによりバンド幅使用
    率を最大化する新しいツールRubikを提案する


                Shinya Takamaeda-Y. Tokyo Tech   7
リンク使用率とバンド幅の向上 (1)

n  ネットワークの端から端へのパスの数は
    ネットワークの次元が増えるにつれて増加
 l  うまく配置すればリンク共有と混雑は低減できるはず




           Shinya Takamaeda-Y. Tokyo Tech   8
リンク使用率とバンド幅の向上 (2)
n  Blue Gene/P 16ノードの配置MPI_AlltoallとMPI_Bcastの
    性能
  l  リンク集中が少なくなると所要時間が短縮




                Shinya Takamaeda-Y. Tokyo Tech    9
リンク使用率とバンド幅の向上 (3)
n  Blue Gene/Q 8ノードの配置MPI_AlltoallとMPI_Bcastの
    性能
  l  リンク集中が少なくなると所要時間が短縮




                Shinya Takamaeda-Y. Tokyo Tech   10
リンク使用率とバンド幅の向上 (4)




n  戦略
  l  通信するタスクはplane/boxまたはmeshの角に配置し,
      一直線上に配置しない
  l  通信ペア間の距離を離してスペアのリンクの数を増やす
  l  包み込むようなトーラスリンクを追加の経路として使う (?)




              Shinya Takamaeda-Y. Tokyo Tech   11
The Rubik Mapping Tool




               Shinya Takamaeda-Y. Tokyo Tech   12
Partitioning Operations (1)
 n  4つのオペレーションでタスク群を分割
   l  div: 指定した個数に分割
   l  tile: 指定した大きさに分割
   l  mod: 指定した個数に分割し,インターリーブで交互に配置
   l  cut: それぞれの次元に施すオペレーションを指定




                 Shinya Takamaeda-Y. Tokyo Tech   13
Partitioning Operations (2)

 n  アプリケーションだけではなくネットワーク(ノード)
     も同じオペレーションで分割
   l  それぞれのグループのサイズがアプリケーションとネットワーク
       で同じであれば,自動的にマップできる




                 Shinya Takamaeda-Y. Tokyo Tech   14
Permuting Operations (1)

 n  2つのオペレーションがで配置をずらすことができる
   l  tilt: 回転
   l  zigzag: ジグザグにずらす




                  Shinya Takamaeda-Y. Tokyo Tech   15
Permuting Operations (2)




                Shinya Takamaeda-Y. Tokyo Tech   16
Permuting Operations (3)




                Shinya Takamaeda-Y. Tokyo Tech   17
Mapping A Lazer-Plasma Interaction Code (1)
 n  2D-FFTの計算とMPI_Alltoallが多く含まれる


 n  ベースラインの性能
   l  デフォルトのタスク配置: TXYZ
      •  ノード内→X軸→Y軸→Z軸の順にMPIランクの順番に配置




                 Shinya Takamaeda-Y. Tokyo Tech   18
Mapping A Lazer-Plasma Interaction Code (2)
 n  ベースライン性能
   l  Weak-scalingで通信と計算の比率を比較
   l  ノード数の増加により通信オーバーヘッドが顕著化




                 Shinya Takamaeda-Y. Tokyo Tech   19
Mapping A Lazer-Plasma Interaction Code (3)


 n  2048コアにマッピング
   l  こんな簡単なコードで!




                 Shinya Takamaeda-Y. Tokyo Tech   20
Mapping A Lazer-Plasma Interaction Code (4)
 n  いくつかの配置におけるネットワーク利用状況




                 Shinya Takamaeda-Y. Tokyo Tech   21
Mapping A Lazer-Plasma Interaction Code (5)
 n  各配置におけるMPIにかかった時間
   l  TXYZがベースライン




                 Shinya Takamaeda-Y. Tokyo Tech   22
Mapping A Lazer-Plasma Interaction Code (6)
 n  各配置における性能
   l  通信レートと1イタレーションの時間




                 Shinya Takamaeda-Y. Tokyo Tech   23
Mapping A Lazer-Plasma Interaction Code (7)




                 Shinya Takamaeda-Y. Tokyo Tech   24
Mapping A First-Principles MD Code (1)
 n  計算インテンシブ,でも通信も多い


 n  ベースラインの性能
   l  デフォルトのタスク配置: TXYZ
     •  ノード内→X軸→Y軸→Z軸の順にMPIランクの順番に配置




                Shinya Takamaeda-Y. Tokyo Tech   25
Mapping A First-Principles MD Code (2)

 n  2048コアにマッピング
   l  こんな簡単なコードで!




                Shinya Takamaeda-Y. Tokyo Tech   26
Mapping A First-Principles MD Code (3)

 n  性能の変化
   l  原子数512で40.0% (tiltY) の実行時間短縮
   l  原子数1728で16.2% (mod)の実行時間短縮




                  Shinya Takamaeda-Y. Tokyo Tech   27
まとめ



n  スパコンにおける良いタスク配置を決定するためのツー
    ルに関する論文
 l  いくつかのシンプルなオペレーションでアプリケーションの配
     置を変更できる


n  2つのアプリケーションで評価
 l  pF3D: レーザープラズマ相互作用
 l  Qbox: 第1原理分子動力学




               Shinya Takamaeda-Y. Tokyo Tech   28

More Related Content

PPTX
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
PPTX
電気基礎実験Iii c.電子回路(変調・復調回路)
PPT
20030203 doctor thesis_presentation_makotoshuto
PPTX
卒業審査会
PPTX
冗長変換とその画像復元応用
PDF
More modern gpu
PDF
Introduction to Monte Carlo Ray Tracing (CEDEC 2013)
PDF
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
電気基礎実験Iii c.電子回路(変調・復調回路)
20030203 doctor thesis_presentation_makotoshuto
卒業審査会
冗長変換とその画像復元応用
More modern gpu
Introduction to Monte Carlo Ray Tracing (CEDEC 2013)
PyCoRAMを用いたグラフ処理FPGAアクセラレータ

Viewers also liked (16)

PDF
助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」
PDF
An FPGA-based Scalable Simulation Accelerator for Tile Architectures @HEART2011
PDF
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
PDF
A CGRA-based Approach for Accelerating Convolutional Neural Networks
PDF
Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)
PDF
マルチパラダイム型高水準ハードウェア設計環境の検討
PDF
PythonとPyCoRAMでお手軽にFPGAシステムを開発してみよう
PDF
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PDF
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
PDF
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
PDF
PythonとVeriloggenを用いたRTL設計メタプログラミング
PDF
Zynq+PyCoRAM(+Debian)入門
PDF
Pythonを用いた高水準ハードウェア設計環境の検討
PPTX
Zynq + Vivado HLS入門
PDF
FPGA・リコンフィギャラブルシステム研究の最新動向
PDF
Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)
助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」
An FPGA-based Scalable Simulation Accelerator for Tile Architectures @HEART2011
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
A CGRA-based Approach for Accelerating Convolutional Neural Networks
Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)
マルチパラダイム型高水準ハードウェア設計環境の検討
PythonとPyCoRAMでお手軽にFPGAシステムを開発してみよう
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
PythonとVeriloggenを用いたRTL設計メタプログラミング
Zynq+PyCoRAM(+Debian)入門
Pythonを用いた高水準ハードウェア設計環境の検討
Zynq + Vivado HLS入門
FPGA・リコンフィギャラブルシステム研究の最新動向
Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)
Ad

Similar to Mapping Applications with Collectives over Sub-communicators on Torus Networks (SC12) (20)

PDF
IEEE eScience 2012および併設ワークショップ報告
PDF
ソーシャルデザインパターン -評判と情報収集-
PDF
AspectJを用いた大規模分散システムHadoopの監視とプロファイリング
PDF
HistoPyramid Stream Compaction
PDF
5 inoue
PDF
Tuning, etc.
PDF
短距離古典分子動力学計算の 高速化と大規模並列化
PDF
[R勉強会][データマイニング] プロセス・リソース・グラフと数理統計解析
PDF
SSDとTokyoTyrantやMySQLの性能検証
PDF
How the future prediction affects on the evolution of technologies
PDF
【18-C-7】GPUコンピューティングが世界を変える~GPGPUで開発をはじめるために知っておくべき10個のこと
PDF
Zabbix勉強会
PPTX
マイクロインスタンスがいっぱい
PDF
ScalableCore system at SWoPP2010 BoF-2
PDF
[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編
PDF
研究動向から考えるx86/x64最適化手法
PDF
Kanban Vs Scrum日本語版
PDF
PostgreSQL9.0アップデート レプリケーションがやってきた!
PPTX
LODのOLAP分析を可能にするETLフレームワークの提案
PDF
機械学習とこれを支える並列計算 : 並列計算の現状と産業応用について
IEEE eScience 2012および併設ワークショップ報告
ソーシャルデザインパターン -評判と情報収集-
AspectJを用いた大規模分散システムHadoopの監視とプロファイリング
HistoPyramid Stream Compaction
5 inoue
Tuning, etc.
短距離古典分子動力学計算の 高速化と大規模並列化
[R勉強会][データマイニング] プロセス・リソース・グラフと数理統計解析
SSDとTokyoTyrantやMySQLの性能検証
How the future prediction affects on the evolution of technologies
【18-C-7】GPUコンピューティングが世界を変える~GPGPUで開発をはじめるために知っておくべき10個のこと
Zabbix勉強会
マイクロインスタンスがいっぱい
ScalableCore system at SWoPP2010 BoF-2
[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編
研究動向から考えるx86/x64最適化手法
Kanban Vs Scrum日本語版
PostgreSQL9.0アップデート レプリケーションがやってきた!
LODのOLAP分析を可能にするETLフレームワークの提案
機械学習とこれを支える並列計算 : 並列計算の現状と産業応用について
Ad

More from Shinya Takamaeda-Y (15)

PDF
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
PDF
DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモ
PDF
ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発
PDF
Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)
PDF
Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...
PDF
Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)
PDF
ゆるふわコンピュータ (IPSJ-ONE2017)
PDF
A Framework for Efficient Rapid Prototyping by Virtually Enlarging FPGA Resou...
PDF
A High Performance Heterogeneous FPGA-based Accelerator with PyCoRAM (Runner ...
PDF
PyCoRAM: Python-Verilog高位合成とメモリ抽象化によるFPGAアクセラレータ向けIPコア開発フレームワーク (FPGAX #05)
PDF
メモリ抽象化フレームワークPyCoRAMを用いたソフトプロセッサ混載FPGAアクセラレータの開発
PDF
PyCoRAM: Yet Another Implementation of CoRAM Memory Architecture for Modern F...
PDF
むかし名言集bot作りました!
PDF
APGAS言語X10を用いたオンチップネットワークシミュレーションの並列化
PDF
Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY...
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモ
ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発
Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)
Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...
Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)
ゆるふわコンピュータ (IPSJ-ONE2017)
A Framework for Efficient Rapid Prototyping by Virtually Enlarging FPGA Resou...
A High Performance Heterogeneous FPGA-based Accelerator with PyCoRAM (Runner ...
PyCoRAM: Python-Verilog高位合成とメモリ抽象化によるFPGAアクセラレータ向けIPコア開発フレームワーク (FPGAX #05)
メモリ抽象化フレームワークPyCoRAMを用いたソフトプロセッサ混載FPGAアクセラレータの開発
PyCoRAM: Yet Another Implementation of CoRAM Memory Architecture for Modern F...
むかし名言集bot作りました!
APGAS言語X10を用いたオンチップネットワークシミュレーションの並列化
Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY...

Mapping Applications with Collectives over Sub-communicators on Torus Networks (SC12)

  • 1. 2013年1月26日 14:00 – 17:00 SC論文読み会 @東工大 Mapping Applications with Collectives over Sub-communicators on Torus Networks (SC12) 著者:Abhinav Bhatele (LLNL), et al. 発表者:高前田(山崎) 伸也 (東工大)
  • 2. この論文を選んだ理由 n  実はうちの研究室でもスパコン向けタスク配置をやって いる l  あのテーマをSCに通すにはどんな感じの論文にすればいいんだ ろう?と興味がわいた n  アプリには興味がないけど,スケジューリングとか配置 とかで性能を高くするのは好き n  絵がたくさん載っていて楽しそう Shinya Takamaeda-Y. Tokyo Tech 2
  • 3. 概要 n  スパコンにおける良いタスク配置を決定するためのツー ルに関する論文 l  いくつかのシンプルなオペレーションでアプリケーションの配 置を変更できる n  2つのアプリケーションで評価 l  pF3D: レーザープラズマ相互作用 l  Qbox: 第1原理分子動力学 Shinya Takamaeda-Y. Tokyo Tech 3
  • 4. Introduction: タスク配置 n  「どのタスク」を「どのノード」に割り当てるか l  配置によってネットワークの使い方が変わる→性能が変わる n  我々がやっているメニーコアの場合 (RMAP) Bitonic Sort Matrix Multiply Idle Off-Chip Memory Normal RMAP 100000 Elapsed cycle [K cycle] 79775 80000 68921 76587 60000 68703 40000 20000 0 Bitonic Sort Matrix Multiply (a) Normal Allocation (b) RMAP Allocation Shinya Takamaeda-Y. Tokyo Tech 4
  • 5. Introduction: 従来手法について n  通信するタスク間のホップ数を小さくするように配置 l  ネットワークリンクの共有や混雑を減らすため n  どんな時にこれは有効か? l  各タスクが少数のノードとPoint-to-Pointで通信する,かつ l  Global communicatorでcollective通信を行う場合 Shinya Takamaeda-Y. Tokyo Tech 5
  • 6. Introduction: 問題点 n  スパコンのノード数とネットワークの直径は増加傾向 l  Global communicatorではなくsub-communicatorを用いて collective通信を行うように n  Sub-communicatorを用いる場合の最適なタスク配置 l  Sub-communicator単位のグループでノードをまとめれば, ホップ数は削減できる l  グループ境界のハードウェアリンクが未使用となり,ネット ワークバンド幅の利用効率が制限される l  例えば,ただまとめるのではなく,ちょっとずらしたりすると 使えるリンク数が増えてネットワーク性能が上がりそう Shinya Takamaeda-Y. Tokyo Tech 6
  • 7. Introduction: 本論文の貢献 n  N次元トーラスにおけるSub-communicatorを用いた Collective通信,特にall-to-allとbroadcastの性能向上を 目指す l  複数の次元にまたがってトーラスのリンクを包み込むようにコ ミュニケータを配置することで,実効バンド幅を増やすことが でき,混雑を回避するための経路を提供することが可能になる l  直線上に配置した8ノードでのall-to-allは2x2x2のキューブのそれ よりもとても遅い n  既存のライブラリはレイテンシを削減するためにホップ 数を削減することにフォーカスしていたが,我々はより 多くの次元のリンクを利用することによりバンド幅使用 率を最大化する新しいツールRubikを提案する Shinya Takamaeda-Y. Tokyo Tech 7
  • 8. リンク使用率とバンド幅の向上 (1) n  ネットワークの端から端へのパスの数は ネットワークの次元が増えるにつれて増加 l  うまく配置すればリンク共有と混雑は低減できるはず Shinya Takamaeda-Y. Tokyo Tech 8
  • 9. リンク使用率とバンド幅の向上 (2) n  Blue Gene/P 16ノードの配置MPI_AlltoallとMPI_Bcastの 性能 l  リンク集中が少なくなると所要時間が短縮 Shinya Takamaeda-Y. Tokyo Tech 9
  • 10. リンク使用率とバンド幅の向上 (3) n  Blue Gene/Q 8ノードの配置MPI_AlltoallとMPI_Bcastの 性能 l  リンク集中が少なくなると所要時間が短縮 Shinya Takamaeda-Y. Tokyo Tech 10
  • 11. リンク使用率とバンド幅の向上 (4) n  戦略 l  通信するタスクはplane/boxまたはmeshの角に配置し, 一直線上に配置しない l  通信ペア間の距離を離してスペアのリンクの数を増やす l  包み込むようなトーラスリンクを追加の経路として使う (?) Shinya Takamaeda-Y. Tokyo Tech 11
  • 12. The Rubik Mapping Tool Shinya Takamaeda-Y. Tokyo Tech 12
  • 13. Partitioning Operations (1) n  4つのオペレーションでタスク群を分割 l  div: 指定した個数に分割 l  tile: 指定した大きさに分割 l  mod: 指定した個数に分割し,インターリーブで交互に配置 l  cut: それぞれの次元に施すオペレーションを指定 Shinya Takamaeda-Y. Tokyo Tech 13
  • 14. Partitioning Operations (2) n  アプリケーションだけではなくネットワーク(ノード) も同じオペレーションで分割 l  それぞれのグループのサイズがアプリケーションとネットワーク で同じであれば,自動的にマップできる Shinya Takamaeda-Y. Tokyo Tech 14
  • 15. Permuting Operations (1) n  2つのオペレーションがで配置をずらすことができる l  tilt: 回転 l  zigzag: ジグザグにずらす Shinya Takamaeda-Y. Tokyo Tech 15
  • 16. Permuting Operations (2) Shinya Takamaeda-Y. Tokyo Tech 16
  • 17. Permuting Operations (3) Shinya Takamaeda-Y. Tokyo Tech 17
  • 18. Mapping A Lazer-Plasma Interaction Code (1) n  2D-FFTの計算とMPI_Alltoallが多く含まれる n  ベースラインの性能 l  デフォルトのタスク配置: TXYZ •  ノード内→X軸→Y軸→Z軸の順にMPIランクの順番に配置 Shinya Takamaeda-Y. Tokyo Tech 18
  • 19. Mapping A Lazer-Plasma Interaction Code (2) n  ベースライン性能 l  Weak-scalingで通信と計算の比率を比較 l  ノード数の増加により通信オーバーヘッドが顕著化 Shinya Takamaeda-Y. Tokyo Tech 19
  • 20. Mapping A Lazer-Plasma Interaction Code (3) n  2048コアにマッピング l  こんな簡単なコードで! Shinya Takamaeda-Y. Tokyo Tech 20
  • 21. Mapping A Lazer-Plasma Interaction Code (4) n  いくつかの配置におけるネットワーク利用状況 Shinya Takamaeda-Y. Tokyo Tech 21
  • 22. Mapping A Lazer-Plasma Interaction Code (5) n  各配置におけるMPIにかかった時間 l  TXYZがベースライン Shinya Takamaeda-Y. Tokyo Tech 22
  • 23. Mapping A Lazer-Plasma Interaction Code (6) n  各配置における性能 l  通信レートと1イタレーションの時間 Shinya Takamaeda-Y. Tokyo Tech 23
  • 24. Mapping A Lazer-Plasma Interaction Code (7) Shinya Takamaeda-Y. Tokyo Tech 24
  • 25. Mapping A First-Principles MD Code (1) n  計算インテンシブ,でも通信も多い n  ベースラインの性能 l  デフォルトのタスク配置: TXYZ •  ノード内→X軸→Y軸→Z軸の順にMPIランクの順番に配置 Shinya Takamaeda-Y. Tokyo Tech 25
  • 26. Mapping A First-Principles MD Code (2) n  2048コアにマッピング l  こんな簡単なコードで! Shinya Takamaeda-Y. Tokyo Tech 26
  • 27. Mapping A First-Principles MD Code (3) n  性能の変化 l  原子数512で40.0% (tiltY) の実行時間短縮 l  原子数1728で16.2% (mod)の実行時間短縮 Shinya Takamaeda-Y. Tokyo Tech 27
  • 28. まとめ n  スパコンにおける良いタスク配置を決定するためのツー ルに関する論文 l  いくつかのシンプルなオペレーションでアプリケーションの配 置を変更できる n  2つのアプリケーションで評価 l  pF3D: レーザープラズマ相互作用 l  Qbox: 第1原理分子動力学 Shinya Takamaeda-Y. Tokyo Tech 28