SlideShare a Scribd company logo
第7回 シングルコアとマルチコア
長岡技術科学大学 電気電子情報工学専攻 出川智啓
今回の内容
GPGPU実践基礎工学
 前々回の授業の復習
 CPUの進化
 半導体集積率の向上→CPUの動作周波数の向上
 + 複雑な処理を実行する回路を構成(前々回の授業)
 マルチコアCPUへの進化
 均一・不均一なプロセッサ
 コプロセッサ,アクセラレータ
2 2015/10/21
コンピュータの歴史
 世界初のデジタルコンピュータ
 1944年 ハーバードMark I*1
 機械式リレーを採用
 世界初の汎用コンピュータ
 1946年 ENIAC*2
 軍事用に開発(ミサイルの弾道計算など)
 300FLOPS
 金融や株取引にも利用が拡大
 様々な用途に利用できるようコンピュータを設計
GPGPU実践基礎工学3 2015/10/21
*1https://en.wikipedia.org/wiki/Harvard_Mark_I
*2https://en.wikipedia.org/wiki/ENIAC
スーパーコンピュータ
 様々な用途に利用できるようコンピュータを設計
 設計が複雑化
 1970年代には性能が停滞
 科学技術計算に特化して性能を高めたコンピュータ
 Cray‐1*
 世界初のスーパーコンピュータ
 日本製スーパーコンピュータ
 日立,富士通,NECが製造
 たびたび世界トップの性能を達成
GPGPU実践基礎工学4 2015/10/21
*https://en.wikipedia.org/wiki/Cray‐1
スーパーコンピュータの性能
 TOP500*
 スーパーコンピュータの世界ランキング
 6月と11月に更新
 次の発表は11月16~21日(New Orleans, LA)の
Supercomputing Conferenceで
 日本のスーパーコンピュータもたびたび世界一に
 数値風洞(航空宇宙技術研究所、現在はJAXAに統合)
 SR2201(東大)
 CP‐PACS(筑波大)
 地球シミュレータ(海洋研究開発機構)
 前期トップのコンピュータから5倍の性能向上
 2年半にわたって首位
 京コンピュータ(理化学研究所計算科学研究機構)
GPGPU実践基礎工学5 2015/10/21
*http://www.top500.org
TOP500 List(2015, Jun.)
 http://www.top500.org/lists/2015/6/
GPGPU実践基礎工学6
計算機名称(設置国) アクセラレータ
実効性能[PFlop/s]
/ピーク性能
[PFlop/s]
消費電力[MW]
1 Tianhe‐2 (China) Intel Xeon Phi 33.9/54.9 17.8
2 Titan (U.S.A.) NVIDIA K20x 17.6/27.1 8.20
3 Sequoia (U.S.A.) − 17.2/20.1 7.90
4 K computer (Japan) − 10.5/11.3 12.7
5 Mira (U.S.A.) − 8.59/10.1 3.95
6 Piz Daint (Switzerland) NVIDIA K20x 6.27/7.79 2.33
7 Shaheen II(Saudi Arabia) 5.54/7.24 2.83
8 Stampede (U.S.A.) Intel Xeon Phi 5.17/8.52 4.51
9 JUQUEEN (Germany) − 5.01/5.87 2.30
10 Vulcan (U.S.A.) − 4.29/5.03 1.97
2015/10/21
理論ピーク性能と実効性能
GPGPU実践基礎工学7
 Floating Point Operations Per Second
 1秒あたりに浮動小数演算を何回実行できるか
 理論ピーク性能
 プロセッサの数(プロセッサ上に実装された演算器の数)や動
作周波数から求める理論的な速度
 「全ての機能が全て同時に使えれば」という理論的な値
 実効性能(実行性能)
 ある問題に対してプログラムを実行したときに得られた性能
 プログラムの中で行っている計算(浮動小数点演算)の回数
を数え,プログラムの実行にかかった時間を測定して割り算
2015/10/21
理論ピーク性能と実効性能
GPGPU実践基礎工学8
 Floating Point Operations Per Second
 1秒あたりに浮動小数演算を何回実行できるか
 なぜ浮動小数点演算だけ?
 整数の加算はアドレス計算(プログラムカウンタなど)で頻繁に
使うので高速になるよう設計
 浮動小数点演算と比較すると整数演算の影響は非常に小さい
 影響が小さくないシステムは使い物にならない
2015/10/21
CPUの理論性能
GPGPU実践基礎工学9
 公式
 FLOPS =  1コアの演算性能 [?]
× コア数 [core]
× CPUの動作周波数 [Hz=clock/sec]
 1コアの演算性能
 =1度に発行出来る浮動小数点演算命令
 単位は[Floating Point Operations/clock/core]
 性能の評価には動作周波数だけでなく,1コアが1クロックで
発行できる命令数が重要
2015/10/21
代表的なCPUの理論性能
GPGPU実践基礎工学10
 Pentium
 1コアあたりの演算性能 1 
 コア数 1
 動作周波数(最高) 300M
 ピーク演算性能
 1 Floating Point Operations/clock/core 
× 1 core × 300M clock/s = 300M flop/s
2015/10/21
代表的なCPUの理論性能
GPGPU実践基礎工学11
 Pentium II
 1コアあたりの演算性能 1 
 コア数 1
 動作周波数(最高) 450M
 ピーク演算性能
 1 Floating Point Operations/clock/core 
× 1 core × 450M clock/s = 450M flop/s
2015/10/21
代表的なCPUの理論性能
GPGPU実践基礎工学12
 Pentium III
 1コアあたりの演算性能 1.5 
 コア数 1
 動作周波数(最高) 1.4G
 ピーク演算性能
 1.5 Floating Point Operations/clock/core  
× 1 core × 1.4G clock/s = 2.1G flop/s
初のSSE命令搭載
2015/10/21
代表的なCPUの理論性能
GPGPU実践基礎工学13
 Pentium 4
 1コアあたりの演算性能 2 
 コア数 1
 動作周波数(最高) 3.8G
 ピーク演算性能
 2 Floating Point Operations/clock/core 
× 1 core × 3.8G clock/s = 7.6G flop/s
2015/10/21
代表的なCPUの理論性能
GPGPU実践基礎工学14
 Core 2 Duo
 1コアあたりの演算性能 4 
 コア数 2
 動作周波数(最高) 3.33G
 ピーク演算性能
 4 Floating Point Operations/clock/core 
× 2 core × 3.33G clock/s = 26.64G flop/s
2015/10/21
代表的なCPUの理論性能
GPGPU実践基礎工学15
 Core 2 Quad
 1コアあたりの演算性能 4 
 コア数 4
 動作周波数(最高) 3.2G
 ピーク演算性能
 4 Floating Point Operations/clock/core 
× 4 core × 3.2G clock/s = 51.2G flop/s
2015/10/21
代表的なCPUの理論性能
GPGPU実践基礎工学16
 Core i7 (Nehalem)
 1コアあたりの演算性能 4 
 コア数 4
 動作周波数(最高) 3.2G
 ピーク演算性能
 4 Floating Point Operations/clock/core        
× 4 core × 3.2G clock/s = 51.2G flop/s
2015/10/21
代表的なCPUの理論性能
GPGPU実践基礎工学17
 Core i7 (Sandy Bridge)
 1コアあたりの演算性能 8
 コア数 6
 動作周波数(最高) 3.5G
 ピーク演算性能
 8 Floating Point Operations/clock/core        
× 6 core × 3.5G clock/s = 168G flop/s
2015/10/21
AVX命令を搭載
代表的なCPUの理論性能
GPGPU実践基礎工学18
 Core i7 (Haswell)
 1コアあたりの演算性能 16
 コア数 4
 動作周波数(最高) 3.5G
 ピーク演算性能
 16 Floating Point Operations/clock/core      
× 4 core × 3.5G clock/s = 224G flop/s
AVX2命令
2015/10/21
CPUの性能向上
GPGPU実践基礎工学19
 FLOPS =  1コアの演算性能
× コア数
× CPUの動作周波数
 1コアの演算性能の向上
 演算器(トランジスタ)の増加
 コア数の増加
 トランジスタの増加
 CPUの動作周波数
 回路の効率化や印可電圧の向上
動作周波数の向上に注力
(ほぼ全ての処理が速くなる)
様々な機能を追加
• パイプライン処理
• スーパースカラ実行
• 分岐予測等
2015/10/21
CPUの性能の変化
 Intelの予告(Intel Developer Forum 2003)
 2007年頃には10GHzに達する
2015/10/21GPGPU実践基礎工学20
Intelが公開している資料を基に作成
http://pc.watch.impress.co.jp/docs/2003/0227/kaigai01.htmで見ることができる
4004
8080
8085
8086
286
386 Processor
486 Processor
Pentium Processor
Pentium II Processor
Pentium III Processor
Pentium 4 Processor
CPUの性能の変化
 2004年頃からクロックが停滞
2015/10/21GPGPU実践基礎工学21
Intelが公開している資料を基に作成
ASCII.technologies(Dec‐2009)やhttp://www.gdep.jp/page/view/248で見ることができる
CPUの性能向上*
 電子回路の構成部品
 機械式リレー
 真空管
 トランジスタ
 IC (Integrated Circuit)
 LSI (Large Scale Integrated Circuit)
 製造技術の進歩による配線の細線化
 250nm→180nm→130nm→90nm→65nm→45nm→32nm→22nm
 10nmまではなんとかなりそう→3次元構造へ
 集積できるトランジスタ数の増加
 抵抗の低下による消費電力低減
集積率が上昇
2015/10/21GPGPU実践基礎工学22
*姫野龍太郎,絵でわかるスーパーコンピュータ,講談社 (2012)
CPUの性能向上*
 製造技術の進歩による配線の細線化
1.集積できるトランジスタ数の増加
 同じ面積に集積できるトランジスタ数が増加
 複雑な回路を構成
2.プロセッサの処理速度の向上
 抵抗が線幅に比例して減少し,消費電力が低下
 減少した電力を周波数向上に利用
 1秒あたりに0と1を切り替える回数(動作周波数)を増加
 (トランジスタ スイッチング速度,消費電力等のキーワードでGoogling)
2015/10/21GPGPU実践基礎工学23
*姫野龍太郎,絵でわかるスーパーコンピュータ,講談社 (2012)
ムーアの法則*
 インテルの共同設立者ムーアによる経験則
 半導体の集積率は1年で倍になる
 後に「18ヶ月で2倍」に修正
2015/10/21GPGPU実践基礎工学24
http://en.wikipedia.org/wiki/Moore%27s_law
*Moore, G.E., Electronics, Vol.38,No.8(1965).
http://ja.wikipedia.org/wiki/ムーアの法則
姫野龍太郎,絵でわかるスーパーコンピュータ,
講談社 (2012)に掲載されている絵を基に作成
1970 1975 1980 1985 1990 1995 2000 2005 2010
103
104
105
106
107
108
109
1010
NumberofTransistors
4004
8008
8080
8086
286
Intel386プロセッサ
Intel486プロセッサ
インテルPentiumプロセッサ
インテルPentium IIプロセッサ
インテルPentium IIIプロセッサ
インテルPentium 4プロセッサ
インテルItaniumプロセッサ
インテルItanium 2プロセッサ
デュアルコアインテルItanium 2プロセッサ
ムーアの法則
(12ヶ月で倍)
ムーアの法則
(18ヶ月で倍)
CPUの性能向上の限界
 製造技術の進歩による配線の細線化
 抵抗が線幅に比例して減少し,消費電力が低下
 減少した電力を周波数向上に利用
 細線化により絶縁部分も狭小化
 漏れ電流が発生し,消費電力が減少しない
 駆動する電力を上げると発熱量も増加
 空冷の限界に到達
 動作周波数が停滞
GPGPU実践基礎工学25 2015/10/21
ポラックの法則*
 2倍のトランジスタを使っても,プロセッサの性能はその
平方根倍(1.4倍)程度にしか伸びない
 消費電力は2倍,性能は1.4倍
 一つのCPUに複数のプロセッサ(コア)を搭載
 消費電力を上げずに“理論的な”性能を倍に
 プログラムの作り方に工夫が必要
GPGPU実践基礎工学26
*http://ja.wikipedia.org/wiki/ポラックの法則
http://en.wikipedia.org/wiki/Pollack%27s_Rule
2015/10/21
CPUの性能向上
2015/10/21GPGPU実践基礎工学27
半導体回路
の細線化
消費電力が
低下
低 下 分 の 電
力をトランジ
スタのスイッ
チングに利用
動作周波数
向上
性能向上
ムーアの法則
CPUの性能向上
2015/10/21GPGPU実践基礎工学28
半導体回路
の細線化
消費電力が
低下
低 下 分 の 電
力をトランジ
スタのスイッ
チングに利用
動作周波数
向上
性能向上
絶縁部が狭くなり
漏れ電流が発生,
電力が低下しない
消費電力の増加に
よって発熱量が増
加,空冷の限界
2倍のトランジスタ
を使っても性能は
1.4倍程度にしか
伸びない
ムーアの法則
CPUの性能向上
2015/10/21GPGPU実践基礎工学29
半導体回路
の細線化
消費電力が
低下
低 下 分 の 電
力をトランジ
スタのスイッ
チングに利用
動作周波数
向上
性能向上
絶縁部が狭くなり
漏れ電流が発生,
電力が低下しない
消費電力の増加に
よって発熱量が増
加,空冷の限界
2倍のトランジスタ
を使っても性能は
1.4倍程度にしか
伸びない
コア数の増加
ムーアの法則
CPUの性能向上
 FLOPS =  1コアの演算性能
× コア数
× CPUの動作周波数
 1コアの演算性能の向上
 演算器(トランジスタ)の増加
 コア数の増加
 トランジスタ数の増加
 CPUの動作周波数
 回路の効率化や印可電圧の向上
劇的な性能向上は期待できない
コンパイラの最適化を利用
複数のコアを使うように
プログラムを書かないと
速くならない
2015/10/21GPGPU実践基礎工学30
マルチコア化による高速化
GPGPU実践基礎工学31
 処理をN個に分割して各コアが処理を分担
 実行時間が1/Nに高速化されると期待
資源1
資源2
資源3
資源4
処理時間
シングルコアCPU
マルチコアCPU
資源1
資源2
資源3
資源4
資源1
資源2
資源3
資源4
2015/10/21
疑似的なマルチコア
GPGPU実践基礎工学32
 Hyper Threading Technology
 一つの物理CPUを複数のCPUに見せる技術
 CPU内のレジスタやパイプラインの空きを利用
 10~20%程度の高速化
資源1
資源2
資源3
資源4
シングルコアCPU
Hyper Threading Technology
資源1
資源2
資源3
資源4 処理時間
2015/10/21
マルチコアCPUの種類
GPGPU実践基礎工学33
 均一(ホモジニアス,Homogeneous)なプロセッサ
 一つのCPUの中に,同じ構造を持ったコアを複数持つ
 全てのコアが同じ性能を持つ
 プログラムの並列化が容易
 不均一(ヘテロジニアス,Heterogeneous)なプロセッサ
 一つのCPUの中に,異なる構造を持った数種類のコアを持つ
 複雑な処理が得意なコア(少数)と簡単な処理が得意なコア
(多数)を持つ
 それぞれのコアを意識したプログラミングが必要
2015/10/21
マルチコアCPU
GPGPU実践基礎工学34
 均一(Homogeneous)なプロセッサ
 Intel Coreシリーズ
 AMD Phenomシリーズ
 富士通 SPARCシリーズ
2015/10/21
マルチコアCPUの厳密な呼び方*
GPGPU実践基礎工学35
 現在コアと呼んでいるのは,シングルコアCPUそのもの
 厳密な定義に沿えば,マルチコアCPUは一つのチップに
複数のCPUを搭載
× マルチコアCPU
○ マルチコアチップ
2015/10/21
*小柳義夫, 中村宏, 佐藤三久, 松岡聡, 計算科学別巻 スーパーコンピュータ, 岩波書店, 2012
マルチコアCPU
GPGPU実践基礎工学36
 不均一(Heterogeneous)なCPU
 Cell Broadband Engine
 1個の汎用プロセッサと8個の演算用プロセッサの組合せ
 AMD APU (Accelerated Processing Unit)
 CPUとGPUを統合
 Intel Core iシリーズ(第2世代以降)
 GPUを搭載
2015/10/21
コプロセッサ,アクセラレータ
GPGPU実践基礎工学37
 コンピュータの特定の機能や処理能力を向上させるハー
ドウェア
 CPUで行っていた処理を専用ハードウェアが担当
 動画像のエンコード・デコード等
 コンピュータシミュレーションではCPUの代わりに計算を
実行するハードウェアを指す
 画像処理装置(Graphics Processing Unit)
 メニーコアプロセッサ(Intel Xeon Phi, PEZY‐SC)
2015/10/21
メニーコアプロセッサ
GPGPU実践基礎工学38
 Intel Xeon Phi*1
 OSを搭載しており,接続しているワークステーションとは独立
して動かすことが可能
 61コアCPU(1GHz), メモリ8GBのLinuxサーバ
 理論演算性能(単精度) 約1 TFLOPS
 CPUからの制御が必要なアクセラレータとは異なる
 アーキテクチャがIntel CPUと同じであるため,コンパイルし
直すだけで動作する
 新モデルを投入予定*2
 72コア,メモリ16GB
 理論演算性能3.0 TFLOPS
2015/10/21
*1http://www.intel.co.jp/content/www/jp/ja/processors/xeon/xeon‐phi‐detail.html
*2http://news.mynavi.jp/articles/2014/11/17/sc14/
メニーコアプロセッサ
GPGPU実践基礎工学39
 PEZY‐SC*
 株式会社PEZY Computingの1,024コアの低消費電力型メ
ニーコアプロセッサ
 1024コア,動作周波数733MHz
 理論演算性能
 単精度 3.0 TFLOPS
 倍精度 1.5 TFLOPS
 日本の次世代スーパーコンピュータに搭載
2015/10/21
*http://www.pezy.co.jp/products/pezy‐sc.html
GPU
 画像処理を行う専用パーツを数値計算用に利用
 グラフィックス処理に特化した演算器(コア)を搭載
 一つのコアは低性能
 並列処理で全体の処理を高速化
 GPGPU (General Purpose computing on GPU)
 グラフィックス処理用の専用チップであるGPU(Graphics 
Processing Unit)を一般的な目的(General Purpose)に
利用
 GPUを科学計算に利用することを特にGPU Computingと呼ぶ
GPGPU実践基礎工学40 2015/10/21
コプロセッサ,アクセラレータ
GPGPU実践基礎工学41
 万能的な能力を求められるCPUとは異なり,専用の役割
だけをこなす
 性能あたりのパフォーマンスが高い
 消費電力,体積,購入額
2015/10/21
System
Effective 
Speed
[Gflops]
Cost/speed
[$/Gflops]
Power/speed
[Watt/Gflops]
Size/speed
[liter/Gflops]
Xeon E5430
(Dual Quad‐
Core)
115 21.0 3.7 0.39
PLAYSTATION3 157 2.8 1.3 0.06
GeForce
9800GTX
569 2.6 0.5 0.05
MDGRAPE‐3 355 32.8 0.7 0.07
成見哲,濱田剛,小西史一,アクセラレータによる粒子法シミュレーションの加速,情報処理,50(2),pp.129‐139(2009).
best
second best

More Related Content

PDF
2015年度GPGPU実践基礎工学 第6回 ソフトウェアによるCPUの高速化技術
PDF
2015年度GPGPU実践基礎工学 第8回 並列計算の概念 (プロセスとスレッド)
PDF
2015年度GPGPU実践基礎工学 第5回 ハードウェアによるCPUの高速化技術
PDF
2015年度先端GPGPUシミュレーション工学特論 第5回 GPUのメモリ階層の詳細 (様々なメモリの利用)
PDF
2015年度GPGPU実践基礎工学 第15回 GPGPU開発環境 (OpenCL)
PDF
2015年度GPGPU実践基礎工学 第1回 学際的分野における先端シミュレーション技術の歴史
PDF
2015年度先端GPGPUシミュレーション工学特論 第1回 先端シミュレーションおよび産業界におけるGPUの役割
PDF
2015年度GPGPU実践基礎工学 第14回 GPGPU組込開発環境
2015年度GPGPU実践基礎工学 第6回 ソフトウェアによるCPUの高速化技術
2015年度GPGPU実践基礎工学 第8回 並列計算の概念 (プロセスとスレッド)
2015年度GPGPU実践基礎工学 第5回 ハードウェアによるCPUの高速化技術
2015年度先端GPGPUシミュレーション工学特論 第5回 GPUのメモリ階層の詳細 (様々なメモリの利用)
2015年度GPGPU実践基礎工学 第15回 GPGPU開発環境 (OpenCL)
2015年度GPGPU実践基礎工学 第1回 学際的分野における先端シミュレーション技術の歴史
2015年度先端GPGPUシミュレーション工学特論 第1回 先端シミュレーションおよび産業界におけるGPUの役割
2015年度GPGPU実践基礎工学 第14回 GPGPU組込開発環境

What's hot (20)

PDF
2015年度先端GPGPUシミュレーション工学特論 第2回 GPUによる並列計算の概念と メモリアクセス
PDF
2015年度GPGPU実践基礎工学 第3回 GPUクラスタ上でのプログラミング(CUDA)
PDF
2015年度GPGPU実践基礎工学 第13回 GPUのメモリ階層
PDF
2015年度GPGPU実践プログラミング 第15回 GPU最適化ライブラリ
PDF
2015年度GPGPU実践基礎工学 第9回 GPUのアーキテクチャ
PDF
2015年度GPGPU実践プログラミング 第8回 総和計算(高度な最適化)
PDF
2015年度GPGPU実践プログラミング 第6回 パフォーマンス解析ツール
PDF
2015年度GPGPU実践基礎工学 第4回 CPUのアーキテクチャ
PDF
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
PDF
2015年度GPGPU実践基礎工学 第10回 GPUのプログラム構造
PDF
2015年度先端GPGPUシミュレーション工学特論 第4回 GPUのメモリ階層の詳細 (共有メモリ)
PDF
2015年度GPGPU実践プログラミング 第4回 GPUでの並列プログラミング(ベクトル和,移動平均,差分法)
PDF
2015年度GPGPU実践プログラミング 第3回 GPGPUプログラミング環境
PDF
2015年度先端GPGPUシミュレーション工学特論 第13回 数値流体力学への応用 (高度な最適化)
PDF
2015年度GPGPU実践基礎工学 第11回 GPUでの並列 プログラミング(ベクトル和)
PDF
2015年度GPGPU実践基礎工学 第12回 GPUによる画像処理
PDF
2015年度先端GPGPUシミュレーション工学特論 第15回 CPUとGPUの協調
PDF
2015年度先端GPGPUシミュレーション工学特論 第14回 複数GPUの利用
PDF
2015年度GPGPU実践基礎工学 第2回 GPGPUの歴史と応用例
PDF
2015年度GPGPU実践プログラミング 第1回 GPGPUの歴史と応用例
2015年度先端GPGPUシミュレーション工学特論 第2回 GPUによる並列計算の概念と メモリアクセス
2015年度GPGPU実践基礎工学 第3回 GPUクラスタ上でのプログラミング(CUDA)
2015年度GPGPU実践基礎工学 第13回 GPUのメモリ階層
2015年度GPGPU実践プログラミング 第15回 GPU最適化ライブラリ
2015年度GPGPU実践基礎工学 第9回 GPUのアーキテクチャ
2015年度GPGPU実践プログラミング 第8回 総和計算(高度な最適化)
2015年度GPGPU実践プログラミング 第6回 パフォーマンス解析ツール
2015年度GPGPU実践基礎工学 第4回 CPUのアーキテクチャ
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
2015年度GPGPU実践基礎工学 第10回 GPUのプログラム構造
2015年度先端GPGPUシミュレーション工学特論 第4回 GPUのメモリ階層の詳細 (共有メモリ)
2015年度GPGPU実践プログラミング 第4回 GPUでの並列プログラミング(ベクトル和,移動平均,差分法)
2015年度GPGPU実践プログラミング 第3回 GPGPUプログラミング環境
2015年度先端GPGPUシミュレーション工学特論 第13回 数値流体力学への応用 (高度な最適化)
2015年度GPGPU実践基礎工学 第11回 GPUでの並列 プログラミング(ベクトル和)
2015年度GPGPU実践基礎工学 第12回 GPUによる画像処理
2015年度先端GPGPUシミュレーション工学特論 第15回 CPUとGPUの協調
2015年度先端GPGPUシミュレーション工学特論 第14回 複数GPUの利用
2015年度GPGPU実践基礎工学 第2回 GPGPUの歴史と応用例
2015年度GPGPU実践プログラミング 第1回 GPGPUの歴史と応用例
Ad

Viewers also liked (14)

PDF
2015年度GPGPU実践基礎工学 第9回補足 GROUSEの利用方法
PDF
2015年度先端GPGPUシミュレーション工学特論 第3回 GPUプログラム構造の詳細 (threadとwarp)
PDF
GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust)
PDF
2015年度先端GPGPUシミュレーション工学特論 第6回 プログラムの性能評価指針 (Flop/Byte,計算律速,メモリ律速)
PDF
2015年度先端GPGPUシミュレーション工学特論 第9回 偏微分方程式の差分計算 (移流方程式)
PDF
2015年度先端GPGPUシミュレーション工学特論 第8回 偏微分方程式の差分計算 (拡散方程式)
PDF
2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)
PDF
2015年度先端GPGPUシミュレーション工学特論 第1回補足 GPGPU教育計算機システムGROUSEの利用方法
PDF
2015年度GPGPU実践プログラミング 第7回 総和計算
PDF
2015年度GPGPU実践プログラミング 第11回 画像処理
PDF
2015年度GPGPU実践プログラミング 第13回 多粒子の運動
PDF
2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)
PDF
2015年度GPGPU実践プログラミング 第14回 N体問題
PDF
2015年度GPGPU実践プログラミング 第2回 GPUのアーキテクチャとプログラム構造
2015年度GPGPU実践基礎工学 第9回補足 GROUSEの利用方法
2015年度先端GPGPUシミュレーション工学特論 第3回 GPUプログラム構造の詳細 (threadとwarp)
GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust)
2015年度先端GPGPUシミュレーション工学特論 第6回 プログラムの性能評価指針 (Flop/Byte,計算律速,メモリ律速)
2015年度先端GPGPUシミュレーション工学特論 第9回 偏微分方程式の差分計算 (移流方程式)
2015年度先端GPGPUシミュレーション工学特論 第8回 偏微分方程式の差分計算 (拡散方程式)
2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)
2015年度先端GPGPUシミュレーション工学特論 第1回補足 GPGPU教育計算機システムGROUSEの利用方法
2015年度GPGPU実践プログラミング 第7回 総和計算
2015年度GPGPU実践プログラミング 第11回 画像処理
2015年度GPGPU実践プログラミング 第13回 多粒子の運動
2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)
2015年度GPGPU実践プログラミング 第14回 N体問題
2015年度GPGPU実践プログラミング 第2回 GPUのアーキテクチャとプログラム構造
Ad

Similar to 2015年度GPGPU実践基礎工学 第7回 シングルコアとマルチコア (20)

PDF
Data Parallel C++ と OpenVINO で iGPU, NPU の計算速度とエネルギー効率を測ってみた
PDF
プログラムを高速化する話Ⅱ 〜GPGPU編〜
PDF
High speed-pc-router 201505
PDF
(JP) GPGPUがPostgreSQLを加速する
PDF
【A-1】AIを支えるGPUコンピューティングの今
PDF
45分で理解する 最近のスパコン事情 斉藤之雄
PPTX
GPU-FPGA協調プログラミングを実現するコンパイラの開発
PDF
第1回 配信講義 計算科学技術特論A (2021)
PDF
OpenStack Kilo with 6Wind VA High-Performance Networking Using DPDK - OpenSta...
PDF
GPU-FPGA 協調計算を記述するためのプログラミング環境に関する研究(HPC169 No.10)
KEY
PyOpenCLによるGPGPU入門
PDF
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
PDF
200625material naruse
PPTX
20200709 fjt7tdmi-blog-appendix
PDF
データ爆発時代のネットワークインフラ
PDF
20130126 sc12-reading
PDF
GPUディープラーニング最新情報
PDF
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
PDF
20170421 tensor flowusergroup
PDF
GPGPU Seminar (GPU Accelerated Libraries, 2 of 3, cuSPARSE)
Data Parallel C++ と OpenVINO で iGPU, NPU の計算速度とエネルギー効率を測ってみた
プログラムを高速化する話Ⅱ 〜GPGPU編〜
High speed-pc-router 201505
(JP) GPGPUがPostgreSQLを加速する
【A-1】AIを支えるGPUコンピューティングの今
45分で理解する 最近のスパコン事情 斉藤之雄
GPU-FPGA協調プログラミングを実現するコンパイラの開発
第1回 配信講義 計算科学技術特論A (2021)
OpenStack Kilo with 6Wind VA High-Performance Networking Using DPDK - OpenSta...
GPU-FPGA 協調計算を記述するためのプログラミング環境に関する研究(HPC169 No.10)
PyOpenCLによるGPGPU入門
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
200625material naruse
20200709 fjt7tdmi-blog-appendix
データ爆発時代のネットワークインフラ
20130126 sc12-reading
GPUディープラーニング最新情報
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
20170421 tensor flowusergroup
GPGPU Seminar (GPU Accelerated Libraries, 2 of 3, cuSPARSE)

More from 智啓 出川 (17)

PDF
Fortranが拓く世界、VSCodeが架ける橋
PDF
Very helpful python code to find coefficients of the finite difference method
PDF
Why do we confuse String and Array of Characters in Fortran?
PDF
Pythonによる累乗近似
PDF
数値計算結果のPythonによる後処理について(1次元データのピーク値およびその位置の推定)
PDF
オブジェクト指向Fortranが拓く(はずだった)新しい世界
PPTX
Schematic diagrams of GPUs' architecture and Time evolution of theoretical FL...
PDF
GPGPU Seminar (GPU Accelerated Libraries, 1 of 3, cuBLAS)
PDF
GPGPU Education at Nagaoka University of Technology: A Trial Run
PDF
Cuda fortranの利便性を高めるfortran言語の機能
PDF
PGI CUDA FortranとGPU最適化ライブラリの一連携法
PPTX
教育機関でのJetsonの活用の可能性
PDF
GPGPU Seminar (GPGPU and CUDA Fortran)
PDF
GPGPU Seminar (Accelerataion of Lattice Boltzmann Method using CUDA Fortran)
PDF
GPGPU Seminar (PyCUDA)
PDF
2015年度先端GPGPUシミュレーション工学特論 第11回 数値流体力学への応用 (支配方程式,CPUプログラム)
PDF
2015年度先端GPGPUシミュレーション工学特論 第10回 Poisson方程式の求解 (線形連立一次方程式)
Fortranが拓く世界、VSCodeが架ける橋
Very helpful python code to find coefficients of the finite difference method
Why do we confuse String and Array of Characters in Fortran?
Pythonによる累乗近似
数値計算結果のPythonによる後処理について(1次元データのピーク値およびその位置の推定)
オブジェクト指向Fortranが拓く(はずだった)新しい世界
Schematic diagrams of GPUs' architecture and Time evolution of theoretical FL...
GPGPU Seminar (GPU Accelerated Libraries, 1 of 3, cuBLAS)
GPGPU Education at Nagaoka University of Technology: A Trial Run
Cuda fortranの利便性を高めるfortran言語の機能
PGI CUDA FortranとGPU最適化ライブラリの一連携法
教育機関でのJetsonの活用の可能性
GPGPU Seminar (GPGPU and CUDA Fortran)
GPGPU Seminar (Accelerataion of Lattice Boltzmann Method using CUDA Fortran)
GPGPU Seminar (PyCUDA)
2015年度先端GPGPUシミュレーション工学特論 第11回 数値流体力学への応用 (支配方程式,CPUプログラム)
2015年度先端GPGPUシミュレーション工学特論 第10回 Poisson方程式の求解 (線形連立一次方程式)

2015年度GPGPU実践基礎工学 第7回 シングルコアとマルチコア