Cuda

CUDA
東京工業大学　４年
千葉　滋　研究室
穂積　俊平

1

CUDA

【NVIDIA】の
【GPU】に対する、
【GPGPU】を目的とした
統合開発環境
2

NVIDIA
•  本社：アメリカ合衆国カリフォルニア州サンタクララ
•  主な製品：GPU
•  ライバル：

VS.

3

NVIDIA
•  ライバル：AMD

VS.

4

NVIDIA
•  ライバル：AMD

VS.

CUDAはNVIDIAのGPUでのみ動作する！

5

GPU
コンピュータにおける画像処理の需要の高まり

6

GPU

画像処理専用のプロセッサを作ろう

7

GPU

画像処理専用のプロセッサを作ろう

GPUの誕生!!!!!
8

GPUのアーキテクチャ
SM ： SPを複数個含む
SP ：最小単位の演算処理ユニット

SM
ビデオカード
GPU
SP
SP

SM
SM
SP
SP

ビデオメモリ
9

GPUとCPUの違い
•  SMはSIMDで動作する。

10

GPUとCPUの違い

Single Instruction Multi Data

11

GPUとCPUの違い

Single Instruction Multi Data

SM内のSPは異なる処理をする事はできない。

12

どのくらいの演算処理ユニット(SP)があるのか？

　　

13

比較対象：Intel Corei7
HyperThreadingが４つ。実質８個

　　

14

例：GT200
　　

15

例：GT200
　　　SM数30個

16

例：GT200
　　　SM数30個
　　　各SMに含まれるSPの数8個

30×8 =

17

例：GT200
　　　SM数30個

30×8 = 240個

18

例：GT200
　　　SM数30個

30×8 = 240個
30倍
19

GPGPU
GPUの演算処理能力はとても高い

20

GPGPU
GPUの演算処理能力はとても高い

より汎用的な目的でGPUを使おう！

21

CUDA

【NVIDIA】の
【GPU】に対する、
【GPGPU】を目的とした
統合開発環境
22

CUDA
CUDAはCPUとGPU両方扱う！
o  CPU => ホスト
o  GPU => デバイス

23

CUDA
CUDAはCPUとGPU両方扱う！
o  CPU => ホスト
o  GPU => デバイス

ホストとデバイスの間で通信が必要

24

典型的な処理の流れ
1.  デバイスメモリ上に領域を確保
2.  データをホストメモリからデバイスメモリにコピー
3.  GPUで処理を実行
4.  結果をデバイスメモリからホストメモリにコピー

GPU
CPU

デバイスメモリ
ホストメモリ
25


GPU
CPU

ホストメモリ
26


GPU
CPU

ホストメモリ
27


GPU
CPU

ホストメモリ
28


GPU
CPU

ホストメモリ
29

実際のCUDAコード
例
　for(int i = 0;i < 1024;i++){
C[i] = A[i] + B[i];
}

30


31

float *A_d, *B_d, *C_d
cudaMalloc(&A_d,sizeof(float)*N)

32


33

cudaMemcpy(A_d,A_h,sizeof(float)*N,hostToDevise)

34


35

dim3 Dg(2,1,1) Db(512,1,1)
vec_add<<Dg,Db>>(A_d,B_d,C_d)

36

dim3 Dg(2,1,1) Db(512,1,1)

37

dim3 Dg(2,1,1) Db(512,1,1)
cudaMemcpy(C_h,C_d,sizeof(float)*N,deviseToHost)

38

dim3 Dg(2,1,1) Db(512,1,1)
vec_add<<<Dg,Db>>>(A_d,B_d,C_d)
cudaMemcpy(C_h,C_d,sizeof(float)*N,deviseToHost)

dim3って何？
vec_addの中身は？
39

CUDAにおけるスレッド管理
•  グリッドとブロックという概念を導入し、３次元的にス
レッドを管理している。
グリッド
ブロック
ブロック
ブロック
ブロック

40

CUDAにおけるスレッド管理
•  グリッドとブロックという概念を導入し、３次元的にス
レッドを管理している。
グリッド
ブロック
ブロック
ブロック
ブロック

•  dim3変数はグリッド、ブロックのサイズを指定している。
o  Dg(2,1,1) Db(512,1,1)

41

カーネル関数
__global__ void vec_add(float *A_d, *B_d, *C_d){
int i = blockDim.x*blockIdx.x + threadIdx.x;
C_d[i] = A_d[i] + B_d[i];
}

42

カーネル関数
C_d[i] = A_d[i] + B_d[i];
}

ビルトイン変数
　カーネル関数内で宣言せずに使用できる変数

blockDim : blockの大きさの情報
blockIdx : 何番目のblockを参照しているか
threadIdx : 何番目のthreadを参照しているか
43

カーネル関数
C_d[i] = A_d[i] + B_d[i];
}

ビルトイン変数
　カーネル関数内で宣言せずに使用できる変数

blockDim : blockの大きさの情報
blockIdx : 何番目のblockを参照しているか
threadIdx : 何番目のthreadを参照しているか
各スレッドと配列の要素を結びつけている。
44

CUDA4.1
•  LLVMをベースにしたコンパイラを導入
o  最大で10%の速度アップ
•  自動でパフォーマンス測定を行うVisual Profiler
•  CUDA_GDB
o  カーネル関数におけるデバッグ、アサート
•  CUDA_MEMCHECK
o  カーネル関数におけるアウトオブバウンズを検知

45

Cuda

More Related Content

What's hot (20)

Viewers also liked (20)

Similar to Cuda (20)

Cuda