SlideShare a Scribd company logo
2
Most read
8
Most read
12
Most read
知っておくべきCephの
IOアクセラレーション技術と
その活用方法
2015 Sep
株式会社アルティマ
北島佑樹
自己紹介
 株式会社アルティマ
プロダクトセールス2部 SE 北島佑樹
 経歴
 これまでにアルティマFAE/SEとして複数ベンダを担当
 (HW)SASコントローラーチップ(FW開発サポート)
 (SW)デジカメ向け3Dソフト
 (HW)IO仮想化
 (HW)ARM高集積サーバ
 いま
 SE
 担当:Mellanox, HGST, Midokura, 6WIND
 担当分野
→クラウドインフラ(サーバ、ストレージ、ネットワーク)
2
トピック
 Keyword
「SDSをHWの視点から語ってみる」
 Point
 ストレージIOの仕組み
 ネットワークオーバーヘッド、IO遅延
 CephにはXioMessengerという魅力的な機能がある
3
スケールアウトストレージ システム概要
4
Client / Compute
iSCSI / FC
Storage Cluster
High Bandwidth
Front-end Back-end
 専用HW(ブラックボックス)
 システム設計はベンダ推奨があるものが主
 Back-Endネットワークには広帯域なインターフェースがサポートされ
ているケースが多い (Ex : InfiniBand)
アプライアンス型
InfiniBand(56Gb)
Ethernet(40GE)
Black Box
スケールアウトストレージ システム概要 con't
5
バックエンドに広帯域インターフェースをサポート
スケールアウトストレージ システム概要 con't
6
Client / Compute
1/10GE
Commodity Server
for Storage node
High Bandwidth
10GE/40GE
Front-end Back-end
 汎用サーバ(X86,ARM)
 システム設計はユーザ自身(自由度が高い)
→SWの理解と同時に、HWの理解も必要
 Back-Endネットワークは必ずしも必要ではない (Ex : Hyper Converged System)
汎用サーバ型
User-Defined
 ストレージまでの経路が遠くなる
= IOのオーバーヘッド(Latency)が大きくなる
= 性能(IOPS, Throughput)に影響
 たまに聞く話し
 All Flashにした
 or サーバスペックを上げた
 or 帯域を太くした
知っておきたいIOの流れ
7
APP
Network
APPLICATION CPU MEMORY ETHERNET / FC / IB SSD/ HDD
SERVER
APPAPP
APP
NETWORK
ADAPTER
NETWORK STORAGE
が、思ったより性能が改善しない
Ceph IO(write)の特徴
 同期レプリケーション
8
参考:http://docs.ceph.com/docs/master/architecture/
 完全同期のため全OSDから
のAckを受信しIOが完了
||
 トータルのオーバーヘッド
(Latency)は大きくなる
Ceph Failoverの特徴
9
OSD#1
(P)
Cluster Map
(MON)
OSD#3 OSD#6 OSD#7
Client
P:Primary
x
①OSD down
②Retrieve
③Copy all data
 OSDのデータ復旧時、大量のIOが発生する(Throughput多)
 帯域が細い
 レイテンシーが大きい
全体のIO性能に影響
ここまでのまとめ
 Back-End(クラスタネットワーク)の帯域は十分に確保する
→ 平均トラフィックで設計しない
 汎用サーバでストレージを組む際は、システム全体の
最適化が重要
 CephのIO特徴
 同期レプリケーション
 レプリケーション数でIOは倍増
※Erasure Codingはまた違う動作
 Failover時の挙動
10
11
数字で見るボトルネック
数字で見るIO性能 1
 ストレージデバイスとプロトコルの相関
12
※表中のデータは
メラノックス社提供データ
 プロトコルのオーバーヘッド (大)
 SSDの性能効率 (低)
 iSCSI(TCP)の場合、ユーザー空間で複雑なプロトコル
処理があるため数字以上のオーバーヘッドに
 プロトコルのオーバーヘッド (少)
 SSDの性能効率 (高)
 Ethernetでも高速なIOが可能 → RoCE
 Cephでも利用可能
数字で見るIO性能 2
 ストレージデバイスとネットワークスイッチの相関
13
Component Latency(usec)
Mellanox 0.22
Broadcom(TridentII) 8
SSD Read 25
Disk Read 6000
SSD Read
76%
Other(TridentII)
24%
Mellanox
0.8%
SSD Read
99.2%
参考:http://www.mellanox.com/related-docs/products/Tolly-215111-Mellanox-SwitchX-2_Performance.pdf
ネットワークが占めるレイテンシー割合(vs ストレージデバイス)
フレームサイズごとのパケットロスの割合
※Jamboフレーム = MTU9000
 ショートパケットでパケットロスが発生
 64byteパケットで約20%
 Mellanoxはゼロパケットロス
&低レイテンシー
数字で見るIO性能 2 con't
14
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
64 128 256 512 1,024 1,280 1,518 9,198
nsec
Frame Size
Mellanox SX1710
他社製スイッチ - Cut Throughモード
他社製スイッチ - Store and Forwardモード (Default) Ixia BreakingPoint
※Ixiaのスペック制限で10GbEの評価結果です
RFC2544テスト結果(Latency)
(Trident II)
RDMAによるIO高速化
 RDMAとは?
 利点
 ゼロコピー
 ネットワークレイヤ間のバッファコピーが発生しない
 カーネルバイパス
 コンテキストスイッチが発生しない
 ロスレス
 message based transaction
 対応プロトコル
 Ethernet(RoCE), InfiniBand(iSER, SRP), iWARP
15
RDMA (Remote DMA)は、CPUが関与することなくネットワーク越しにメモリへ
アクセスする(すなわち、リモートのRead/WriteをCPUを介さずにノード間で
処理できる)機能である。
参考:http://rdma.hatenablog.com/entry/2014/04/06/161737#fn1
CephのRDMAサポート
16
「v0.94 Hammer released」
参考:https://ceph.com/releases/v0-94-hammer-released/
http://tracker.ceph.com/projects/ceph/wiki/Accelio_RDMA_Messenger
機能 :XioMessenger
使用ライブラリ :Accelio
補足
 Accelioとは?
17
RPCライブラリのHWアクセラレーションに対応したモジュール
RDMAベースのロスレス通信を実現
参考データ
Ceph RDMA vs withoutRDMA
18
RDMA
TCP
RDMA
TCP
RDMA
TCP
Over 60% Performance Improvement (4K 100% Read)
※Beta Driver as of 2015 Apr
K
※表中のデータはメラノックス社提供データ
HWの紹介 1
 Mellanox社製 10/40GbE アダプタカード
19
型番 MCX311A-
XCCT
MCX312B-XCCT MCX313A-BCCT MCX314A-BCCT
ポート Single
10GbE
Dual
10GbE
Single
/10/40/56GbE
Dual
/10/40/56GbE
コネクタ SFP+ SFP+ QSFP QSFP
ケーブル ダイレクトアタッチカッパー、光ファイバ
ホストバス PCIe 3.0 x 8
特長 VXLAN/NVGRE オフロード, RDMA, SR-IOV,
各種オフロード(CheckSUM offload, TCP Segmentation offload, Stateless offload)
対応OS RHEL, SLES, Microsoft Windows Sever, FreeBSD, Ubuntu, VMWare ESXi
HWの紹介 2
 Mellanox社製 10/40GbE L2/L3スイッチ
20
SX1710 (x86)/1036 (PPC)
The Ideal 40/56GbE ToR/Aggregation
SX1400 (x86)/1024 (PPC)
Non-blocking 10GbE 40/56GbE ToR
SX1012
Ideal storage/Database 10/40/56GbE Switch
Classic storage/DB switch
Low LATENCY
220ns
Low POWER
SX1710 – 92W
SX1024 – 75W
SX1012 – 50W
Zero Packet Loss
 Ready for 25 / 50 / 100GbE !!
HWの紹介 3
21
Copper (Passive, Active) Optical Cables (VCSEL) Silicon Photonics
Entering the Era of 25, 50 and 100GbE
100GbE Adapter
(10 / 25 / 40 / 50 / 100GbE)
Multi Host Solution
32 100GbE Ports, 64 25/50GbE Ports
(10 / 25 / 40 / 50 / 100GbE)
Throughput of 6.4Tb/s
Erasure Coding offload対応
まとめ
 SDS + 汎用サーバを組む際は、システム全体の最適化を
考慮する
 HWはコモディティ化 != HWはなんでもいい
= 用途に応じて選定
 CephにはXioMessenger(RDMA)がサポートされている
(まだExperimental Versionです) [version Hammer as of 2015 sep]
 スケールアウトにはMellanoxのNIC, Switchがとても相性
がいい (宣伝…)
22
23
Ceph xio messenger設定方法
…TBD
参考手順:https://community.mellanox.com/docs/DOC-2141
Search!!
Thank You
問い合わせ先:
株式会社アルティマ メラノックス担当
mellanox-support@altima.co.jp
24

More Related Content

PPTX
OVN 設定サンプル | OVN config example 2015/12/27
PDF
OpenStack超入門シリーズ いまさら聞けないNeutronの使い方
PPTX
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
PDF
「Neutronになって理解するOpenStack Network」~Neutron/Open vSwitchなどNeutronと周辺技術の解説~ - ...
PDF
BGP Unnumbered で遊んでみた
PDF
TIME_WAITに関する話
PDF
第20回 OpenStack勉強会 Neutron Deep Dive - DVR
PDF
知っているようで知らないNeutron -仮想ルータの冗長と分散- - OpenStack最新情報セミナー 2016年3月
OVN 設定サンプル | OVN config example 2015/12/27
OpenStack超入門シリーズ いまさら聞けないNeutronの使い方
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
「Neutronになって理解するOpenStack Network」~Neutron/Open vSwitchなどNeutronと周辺技術の解説~ - ...
BGP Unnumbered で遊んでみた
TIME_WAITに関する話
第20回 OpenStack勉強会 Neutron Deep Dive - DVR
知っているようで知らないNeutron -仮想ルータの冗長と分散- - OpenStack最新情報セミナー 2016年3月

What's hot (20)

PDF
コンテナの作り方「Dockerは裏方で何をしているのか?」
PPTX
自宅インフラの育て方 第2回
PDF
OpenStack入門 2016/06/27
PDF
大規模環境のOpenStack アップグレードの考え方と実施のコツ
PDF
わかる!metadata.managedFields / Kubernetes Meetup Tokyo 48
PDF
ML2/OVN アーキテクチャ概観
PDF
コンテナ未経験新人が学ぶコンテナ技術入門
PPTX
Dockerからcontainerdへの移行
PDF
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
PDF
IPv4/IPv6 移行・共存技術の動向
PDF
containerdの概要と最近の機能
PDF
最近のOpenStackを振り返ってみよう
PPTX
Knative Eventing 入門(Kubernetes Novice Tokyo #11 発表資料)
PDF
OpenStack勉強会
PPTX
9/14にリリースされたばかりの新LTS版Java 17、ここ3年間のJavaの変化を知ろう!(Open Source Conference 2021 O...
PPTX
Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)
PDF
分散ストレージソフトウェアCeph・アーキテクチャー概要
PPTX
本当は恐ろしい分散システムの話
PDF
NFVアプリケーションをOpenStack上で動かす為に - OpenStack最新情報セミナー 2017年7月
PDF
Kubernetesのしくみ やさしく学ぶ 内部構造とアーキテクチャー
コンテナの作り方「Dockerは裏方で何をしているのか?」
自宅インフラの育て方 第2回
OpenStack入門 2016/06/27
大規模環境のOpenStack アップグレードの考え方と実施のコツ
わかる!metadata.managedFields / Kubernetes Meetup Tokyo 48
ML2/OVN アーキテクチャ概観
コンテナ未経験新人が学ぶコンテナ技術入門
Dockerからcontainerdへの移行
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
IPv4/IPv6 移行・共存技術の動向
containerdの概要と最近の機能
最近のOpenStackを振り返ってみよう
Knative Eventing 入門(Kubernetes Novice Tokyo #11 発表資料)
OpenStack勉強会
9/14にリリースされたばかりの新LTS版Java 17、ここ3年間のJavaの変化を知ろう!(Open Source Conference 2021 O...
Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)
分散ストレージソフトウェアCeph・アーキテクチャー概要
本当は恐ろしい分散システムの話
NFVアプリケーションをOpenStack上で動かす為に - OpenStack最新情報セミナー 2017年7月
Kubernetesのしくみ やさしく学ぶ 内部構造とアーキテクチャー
Ad

Similar to 知っておくべきCephのIOアクセラレーション技術とその活用方法 - OpenStack最新情報セミナー 2015年9月 (20)

PDF
ceph acceleration and storage architecture
PDF
PDF
[日本仮想化技術] 2014/6/5 OpenStack最新情報セミナー資料
PDF
OSSラボ様講演 OpenStack最新情報セミナー 2014年6月
PPTX
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)
PDF
openstack+cephインテグレーション
PPTX
Ceph アーキテクチャ概説
PDF
[G-Tech2014講演資料] シスコのSDN最新動向とITインフラエンジニアに求められるスキル - シスコシステムズ合同会社
PDF
Red Hat ストレージ製品
PDF
【Interop Tokyo 2015】 DC 5: Cisco ACI とエンタープライズ アプリケーション
PDF
[db tech showcase Tokyo 2016] D13: NVMeフラッシュストレージを用いた高性能高拡張高可用なデータベースシステムの実現方...
PPTX
分散ストレージ技術Cephの最新情報
PDF
Open-FCoE_osc2011tokyofall_20111119
PDF
Cisco Unified Computing System 製品カタログ
PDF
OSC 2011 Hokkaido 自宅SAN友の会(後半)
PDF
hbstudy25 劇的ビフォーアフター
PDF
プログラマ目線から見たRDMAのメリットと その応用例について
PPTX
Dell emc highperformancevirtualinfracommunitymeetup_20180621publish
PDF
160719 we love-sd-wan(juniper)_0.2
PDF
EthernetやCPUなどの話
ceph acceleration and storage architecture
[日本仮想化技術] 2014/6/5 OpenStack最新情報セミナー資料
OSSラボ様講演 OpenStack最新情報セミナー 2014年6月
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)
openstack+cephインテグレーション
Ceph アーキテクチャ概説
[G-Tech2014講演資料] シスコのSDN最新動向とITインフラエンジニアに求められるスキル - シスコシステムズ合同会社
Red Hat ストレージ製品
【Interop Tokyo 2015】 DC 5: Cisco ACI とエンタープライズ アプリケーション
[db tech showcase Tokyo 2016] D13: NVMeフラッシュストレージを用いた高性能高拡張高可用なデータベースシステムの実現方...
分散ストレージ技術Cephの最新情報
Open-FCoE_osc2011tokyofall_20111119
Cisco Unified Computing System 製品カタログ
OSC 2011 Hokkaido 自宅SAN友の会(後半)
hbstudy25 劇的ビフォーアフター
プログラマ目線から見たRDMAのメリットと その応用例について
Dell emc highperformancevirtualinfracommunitymeetup_20180621publish
160719 we love-sd-wan(juniper)_0.2
EthernetやCPUなどの話
Ad

More from VirtualTech Japan Inc. (20)

PDF
5G時代のアプリケーションとは 〜 5G+MECを活用した低遅延アプリの実現へ 〜
PPTX
エンジニアが幸せになれる会社を目指します
PDF
KubeVirt 201 How to Using the GPU
PDF
PDF
今からはじめる! Linuxコマンド入門
PDF
5G時代のアプリケーション開発とは - 5G+MECを活用した低遅延アプリの実現へ
PDF
Kubernetes雑にまとめてみた 2020年8月版
PDF
MS Teams + OBS Studio (+ OBS Mac Virtual Camera) でのオンラインセミナーのプロトタイプの構築
PDF
5G時代のアプリケーション開発とは
PDF
hbstudy#88 5G+MEC時代のシステム設計
PDF
通信への課題発掘ワークショップ 「5Gイノベーション」の取り組み
PDF
Kubernetes雑にまとめてみた 2019年12月版
PPTX
OpenStackを使用したGPU仮想化IaaS環境 事例紹介
PPTX
Docker超入門
PDF
5Gにまつわる3つの誤解 - 5G×ライブコンテンツ:5G時代の双方向コンテンツとは
PDF
KubeCon China & MWC Shangai 出張報告
PDF
NTT Docomo's Challenge looking ahead the world pf 5G × OpenStack - OpenStack最...
PDF
Introduction of private cloud in LINE - OpenStack最新情報セミナー(2019年2月)
PDF
Multi-access Edge Computing(MEC)における”Edge”の定義
PPTX
Edge Computing Architecture using GPUs and Kubernetes
5G時代のアプリケーションとは 〜 5G+MECを活用した低遅延アプリの実現へ 〜
エンジニアが幸せになれる会社を目指します
KubeVirt 201 How to Using the GPU
今からはじめる! Linuxコマンド入門
5G時代のアプリケーション開発とは - 5G+MECを活用した低遅延アプリの実現へ
Kubernetes雑にまとめてみた 2020年8月版
MS Teams + OBS Studio (+ OBS Mac Virtual Camera) でのオンラインセミナーのプロトタイプの構築
5G時代のアプリケーション開発とは
hbstudy#88 5G+MEC時代のシステム設計
通信への課題発掘ワークショップ 「5Gイノベーション」の取り組み
Kubernetes雑にまとめてみた 2019年12月版
OpenStackを使用したGPU仮想化IaaS環境 事例紹介
Docker超入門
5Gにまつわる3つの誤解 - 5G×ライブコンテンツ:5G時代の双方向コンテンツとは
KubeCon China & MWC Shangai 出張報告
NTT Docomo's Challenge looking ahead the world pf 5G × OpenStack - OpenStack最...
Introduction of private cloud in LINE - OpenStack最新情報セミナー(2019年2月)
Multi-access Edge Computing(MEC)における”Edge”の定義
Edge Computing Architecture using GPUs and Kubernetes

知っておくべきCephのIOアクセラレーション技術とその活用方法 - OpenStack最新情報セミナー 2015年9月