100Gbpsソフトウェアルータの実現可能性に関する論文

Building a Single-Box
100 Gbps Software Router
Sangjin Han, Keon Jang, KyoungSoo Park, Sue Moon
KAIST
In IEEE Workshop on Local and Metropolitan Area
Networks, 2010
id:y_uuki / @y_uuk1
1

PacketShader: a GPU-accelerated Software Router
Sangjin Han, Keon Jang, KyoungSoo Park and Sue Moon.
In proceedings of ACM SIGCOMM 2010, Delhi, India.
September 2010
SSLShader: Cheap SSL Acceleration
with Commodity Processors
Keon Jang, Sangjin Han, Seungyeop Han, Sue Moon, and
KyoungSoo Park.
In proceedings of USENIX NSDI 2011, Boston, MA, March
同じ研究グループの論文
2

Introduction
$ ソフトウェアルータは柔軟なパケット処理のための魅力
的なプラットフォームである
$ 初期のルータは汎用コンピュータで構築されていた
$ 90年代後半から10Gbpsの高品質ルータや特殊なハー
ドウェアが台頭
$ 最近のPCハードウェアを用いたソフトウェアルータが
コストパフォーマンスの面で競争
$ マルチコアCPU，高帯域幅NIC，高速なCPU-メモリ間のイ
ンターコネクトおよびシステムバスなど
$ RouteBricksのような実験的なソフトウェアルータ
(8.33 Gbps)
4

Introduction
$ 現在もしくは予測可能な未来の技術でSingle Boxソフ
トウェアルータの性能をどれくらいだせるのか？
$ 予測されるハードルをまとめ，単一のx86マシンで100
Gbpsのスループットを達成する計画をたてた
5

Ⅱ. Opportunities and
Challenges
6

高性能ハードウェアアーキテクチャ
$ 近年のIntelとAMDのアーキテクチャ改良
$ マルチコア・プロセッサ
$ 各コアに対して平等に大きなメモリ帯域幅を提供するCPUに
統合されたメモリコントローラ
$ 10 Gbps NICのような周辺機器に高速に接続するPCI
Express
$ Intel QuickPath Interconnect(QPI)やAMD
HyperTransportのようなpoint to pointインターコネクトに
より互いに接続されたマルチCPUソケット
$ これらのリソースを効果的に活用する高性能ソフトウェ
アルータを構築するとなる
7

ルータのハードウェア構成例
$ NUMA: CPUごとにローカルなメモリをもつアーキテクチャ
$ IOH（I/Oハブ）: NICやストレージとの接続
2 NUMA nodes
10G
x
6
8

パフォーマンスボトルネック
$ 前述のルータアーキテクチャにおけるパフォーマンスボ
トルネックを考察する
$ 以下の観点からボトルネックを考察
$ CPU サイクル
$ I/O 帯域幅
$ メモリ帯域幅
9

CPUサイクル
$ モダンなNICは，各CPUコアに対して独立したパケット
キューをもつため，CPUコア数に対してスケールする
$ しかし，小さなパケットではパケットフォワーディング
のようなper-packet処理が支配的となる
$ 10Gbps環境では，マルチコアCPUでさえ，per-
packet処理のコストは深刻である
10

CPUサイクル
$ RouteBricksでは，NIC portから別のNIC portにフォ
ワードするために，1,299 CPUサイクル必要
$ もし最小のパケットサイズ(64Bytes)で100Gbps
(146M pps) を達成しようとすると，277GHz CPUサ
イクル必要
$ 最新のIntel X7560 CPU(2.26GHz x 8コア) x 4 CPU
ソケットでさえ，合計サイクルは72.3GHz程度であり，
4倍の性能が必要
11

CPUサイクル
$ per-packet処理のオーバヘッドを改善できるか？
$ さらなる性能向上のために以下を提案
$ パケットバッファの動的確保をやめて，固定バッファを使う
$ 強制的なキャッシュミスを防ぐために，パケットデータを
ディスクリプタごしにprefetch (?)
$ cache bouncingを最小化して，CPUコア間の誤ったキャッ
シュの共有を削減 [6]
$ これらの最適化によりper-packet処理のオーバヘッド
を1/6まで削減 [4]
$ 必要なCPUサイクル数が 277GHz ➔ 30GHzとなり，
現在のCPUでも達成可能
$ パケットI/O以外の処理はFPGAやGPUにオフロード
12

I/O帯域幅
$ NICから受信したパケットはPCIeリンク，IOHs，QPI
リンク，最終的にメモリバスを通る
$ そのあと，CPUがメモリアクセスによりパケットを処
理し，逆順にパケットを送信する
$ NIC CPUのパケットデータパスにおけるボトルネッ
クを調査
13

I/O帯域幅 - PCIe
$ 現在の10GbE NICは1つまたは2つのポートをもち，ホ
ストインタフェースとしてPCIe x8
$ PCIe 2.0は1レーンあたり双方向で4Gbps, x8で
32Gbps
$ 100 Gbpsを達成するためには，少なくとも5個のx8
スロットが必要
$ 単一のIntel 5520または7500 IOHは4つまでのx8ス
ロットしかサポートしてない
$ したがって，マザボード上に2つのIOHが必要
$ Super Micro Computer s X8DAH+-Fを使用
$ 4つのPCIe 2.0 x8スロットと2つのx16スロットをもつ
14

I/O帯域幅 - QuickPath Interconnect
$ QPIリンクは4つの役割がある
$ ① CPUソケット to CPUソケット
$ ② IOH to IOH
$ ③ CPU to IOH
$ 各QPIリンクは双方向で102.4 Gbps
$ 最悪のシナリオは全パケットが片方のIOHで受信され，
もう片方のIOHにフォワーディングされることである
$ ②,③について片方向のリンク(50Gbps)しか使えない
$ リンク①については，各パケットが同じノードのCPUで
処理されて，NICがパケットを同じノードのメモリにコ
ピーする限り問題ない
①
②
③③
15

I/O帯域幅 - 計測手法
$ 8つの2ポートNICのうち，半分をパケットジェネレータ
に使い，半分を評価に使う
$ 評価のために2つのシステムを使う
$ 2個のCPUソケットと2個のIOHをもつサーバ
$ 1個のCPUソケットと1個のIOHをもつデスクトップ
$ デスクトップは3個のPCIeスロットをもち，2つはNIC，もう1つは
グラフィックカード
$ I/O帯域幅を正確に測定し，ボトルネックを明らかにす
るために3種類の構成で実験する
16

I/O帯域幅 - 計測手法(構成1)
送信スループット
は50Gbpsで抑え
られる
受信スループット
は30Gbps
フォワーディング
は20Gbps
17

送信スループットは
80Gbps(理論最大値)
受信/フォワーディン
グは60/40Gbps.
構成1の2倍
2CPUソケット/2IOH
構成では100Gbpsは
達成できない
node-crossingでもか
わらないので，QPIリ
ンクがボトルネックで
はない
18

送受信ともにスループットは2個のNIC
での最大スループットである40Gbps
送信と受信のスループット差の原因
は何か？
構成1,2での受信スループットの低下
は，2個のCPUソケットよりも2個の
IOHが原因
フォワーディング性能が
送信/受信性能より低い
メモリボトルネックによ
り制限されている(次ペー
ジ)
19

メモリ帯域幅
$ フォワーディングは様々なメモリアクセスを伴う
$ 100Gbpsトラフィックをフォワーディングするための
メモリ帯域幅は少なくとも400Gbps必要
$ NICとメモリ間の100Gbps転送
$ メモリとCPU間の100Gbps転送
$ 送信と受信で双方向必要なので2倍
$ 各パケットごとに16バイトのread/writeメモリアクセ
スが発生
$ さらにパケット長に依存してメモリバスに負荷がかかる
400 Gbps
20

メモリ帯域幅
$ p20で送信/受信性能よりもフォワーディング性能が低
い理由はメモリ帯域幅が不足しているため
$ フォワーディングに要するCPU利用率は100%である
$ より大きなメモリ帯域幅を得るために，メモリオーバクロッ
クするとフォワーディング性能が送信/受信性能に近くなった
$ 実験ではDDR3 1,333MHzのトリプルチャンネル使用
$ 1個のCPUに対して最大帯域幅の理論値は256Gbps，測定値
は143.2Gbps
$ 100Gbpsのフォワーディングには各ノードに200Gbps必要
なので143.2Gbpsでは足りない
$ メモリ帯域幅の向上手法としてノードの増加がある
$ NUMAではリモートメモリへのアクセスが高価なの
で，データ配置に気をつける必要がある
21

Ⅲ. Discussion and
Future Work
22

Discussion and Future Work
$ 現在の技術で100Gbpsルータの実現可能性について述
べた
$ 我々は現在のPCアーキテクチャにおける2つの主要な
ボトルネックを明らかにした
$ CPUサイクル
$ 最適化技術によりper-packet処理のオーバヘッドを削減し，FPGA
やGPUにより計算サイクルを増幅する
$ I/O帯域幅
$ IOハブのチップセットとマルチIOハブの構成の改良,およびマルチ
CPUソケットに対するより大きなメモリバンド幅が，ボトルネック
を軽減する
23

$ p.3 By Googling, we ﬁnd that ...
24

100Gbpsソフトウェアルータの実現可能性に関する論文

More Related Content

What's hot (20)

Viewers also liked (20)

Similar to 100Gbpsソフトウェアルータの実現可能性に関する論文 (20)

100Gbpsソフトウェアルータの実現可能性に関する論文