SlideShare a Scribd company logo
ひとつのデータベース技術だけでは生き残れない


    - SSD, Infiniband –

                      Insight Technology, Inc.
                      HW事業本部       石川 雅也
                                            1
Solid State Drive
    半導体素子メモリを記憶装置としたストレージ・デバイス。
    メモリの種類によりRAMディスクとFlash SSDなどがある。
    (Wikipedia)

   RAMディスク
   Texas Memory Systems      RamSan-440
   • Latency 14μsec というストレージとしては圧倒的な値
   • 10万円/GB(*) と非常に高価
     最小構成 256GBで
     ウン千万円以上!!




                                          2
(*) 最新価格ではないので、現在はもっと安いかも。
Flash SSD
NAND Flash Memoryを使用したSSD
SLCとMLCの二種類に別れる。


SLC(Single Level Cell)
容量単価が高いため(今でも2~5000円/GB位)
Enterprise市場でも広く使われている
わけではない。


MLC(Multi Level Cell)
書込みが遅い・寿命が短いため
Enterprise用途では使えない。


                            3
2009年前後から、MLC SSD(以下SSD)のイノベーションが
驚異的なスピードで進み、Enterprise用途での使用に耐えうる
製品が登場してきた。
SSDを使用してデータベースやシステム全体を高速化・最適化した事
例の数も増えてきている。

セッションの前半では、
• SSDの現在の性能は? HDD との比較
• SSDの構成要素
• SSDのもつ弱点と、その克服策
を紹介して、現在のSSDの姿について把握していただく。


セッションの後半では、
SSDで得た性能を活かすためのネットワーク Infinibandを紹介する。
                                    4
Throughput                           MB/s

PCIe SSD                                                      700~2GB/s [6GB/s]

    SSD                                                       500MB/s    [1GB/s]

    HDD                                                       ~200MB/s

           0          500         1000     1500        2000



               IOPS                               IOPS(k)

PCIe SSD                                                      70K~500k [1190k]

    SSD                                                       20~70k     [120k]

    HDD                                                       ~数百

           0      100       200      300    400       500

                                                                              5
Capacity                           GB

    PCIe                                                      300MB~2TB [5.1TB]

SAS/SATA                                                      500GB        [1.6TB]

    HDD                                                       900GB

           0         500         1000      1500     2000
               価格                                 円/GB

    PCIe                                                      1000 ~ 3000円

SAS/SATA                                                      100 ~ 500円

    HDD                                                       30 ~ 400円

           0              1000          2000           3000
               消費電力                               Watt

    PCIe                                                      Idle:20w RW:30w

SAS/SATA                                                      Idle:~1w RW:数w

    HDD                                                       Idle:10w RW:30w
                                                                               6
           0               10            20              30
SSDの容量単価はHDDと比較すると高いが、急激に低価格化
SSDの性能単価はHDDとは比較にならないほど低く、
 かつ3年間で1/22になっている。
       GBあたりの価格                           IOPSあたりの価格
  円                                円
1000                             250

 800                             200

 600                             150
                                                                   HDD
 400                             100
                                                                   SSD
 200                              50

   0                               0
       2008 2009                       2008
                   2010                       2009   2010
                          2011                              2011

                                                                    7
Intel SSD 320 300GB




                                                                              8
        http://journal.mycom.co.jp/articles/2011/04/12/i320/index.html   より
Controller
SSDの性能と寿命を制御する、一番大切な部品。
コントローラーの進化が MLC SSDの進化を支えている。
ウェアレベリングや読込み・書込みの並列化、書き込み回数の上
限の管理などを行っている。

主なメーカー
Marvell (Crucial, Intel)
SandForce (OCZ,A-Data)
Intel
Indilinx (今はOCZ)
JMicron
Samsung
Toshiba
LSI                             9
DRAMキャッシュメモリ
16~64MB程度のDRAMを搭載して、読み書き性能を上げる
ために使っている。
写真で使われているのは 64MBのSDRAM
但しSandForceのコントローラーの場合は独自に圧縮や冗長
化を行うためか、キャッシュメモリを積んでいない。

NAND Flash Memory
フラッシュメモリそのもの。
写真では 128Gbit MLC NANDが20個使われており、
128*20*1024*1024*1024/8 = 343.6GB
SSD容量は 300GBなので、43.6GB(14.5%)が予備容量。



                                      10
Write Amplification
NAND Flash Chipの特性で、データの上書きは出来ず、一度
消去してから書き込むしかない。また消去の単位は書込みの
単位より大きい。そのため余計な読み込み・書込みが発生。

                    1. データが書き込まれていな
                       い場合は、
                    2. そのまま書き込める




                                      11
Write Amplification
NAND Flash Chipの特性で、データの上書きは出来ず、一度
消去してから書き込むしかない。また消去の単位は書込みの
単位より大きい。そのため余計な読み込み・書込みが発生。

                    1. データが書き込まれている場合、
                    2. 1箇所だけ変更しようとしても、
                    3. 消去するサイズのデータをコピー
                       し、
                    4. データを消去し、
                    5. 1箇所を変更して、
                    6. 全て書き戻す。



                                     12
100%

90%

80%

70%                                 Rnd. Read
                                    (16k)
60%
                                    Seq. Read
50%
                                    Rnd. Write
40%                                 (16K)
                                    Seq. Write
30%

20%

10%

 0%
       A   B   C         D                  13
               最大速度を100として、速度劣化時の速度の割合。
SSDの寿命とは?
ビットエラーが多発したブロックを不良ブロックとして切り離し、予備
領域を使う。予備領域がなくなった時が寿命で、SSDはリードオンリー
になる。


MLCで5千回から1万回、 SLCで10万回がNAND Flash Chipとしての書
込み寿命。
このままではEnterpriseに使用できないので、いかに寿命を延ばすかが
コントローラーの性能!!




                                          14
TB
35

30

25

20
                                  Write Endurance
                                  TB / GB
15

10

 5

 0
     A   B   C        D                        15
                 容量1GBあたり、何TB書き込むと寿命になるか。
Ware Leveling
書込みを並列化させ、書込み速度の向上を図るとともに、
特定のチップに書込みが偏らないように調整する。
すべてのチップが同時に書込み寿命を迎えるのが理想的。




                             16
予備領域 (Over Provisioning)
一般的なコンシューマー向けSSDの場合 Binary GiB(ギビバイト)
(1024 x 1024 x 1024)と Decimal GB (1000 x 1000 x 1000)の違い
を利用している。
例えば 256GBの製品の場合 274.88GiB(256 x 1024 x 1024 x 1024)
なので、その差 18.8GBが予備領域 (約 7%)


エンタープライズ向けの場合、25%程度を予備領域として確保してい
る製品が多い。40%以上を予備領域としている製品もある。


予備領域のサイズの増加は、製品寿命の増加につながる。


予備領域を使い、データが書きこまれていない領域をバックグランドで
常に確保する。書込み速度の向上。(Grooming)     17
ECCエラー訂正
512byte毎に数ビット(1年前は 4~8bit)のエラーが訂正出来る。


Flashメモリのプロセスルールが微細になると、エラー発生率も上がる
ため、プロセスルールが進化すると ECCの bit数も大きくする必要があ
る。


ECCで訂正できるビット数を増やすと、その分チップを長く使うことが
出来るので、結果として寿命が延びる。


Fusion-ioの ioDriveは 512byteあたり 39bit
SandForce SF-2500は 512byteあたり 55bit

                                        18
今まで紹介した対策は一般的に知られている技術であり、それ以外に
様々な技術が投入されている。ここの技術が現在のSSD戦争の主戦場で
あり、詳細が公表されない技術も多い。


例えば、




                                19
• エンタープライズ市場で使えるMCL SSDが出てきた。


• HDDと性能単価で比較し、採用される事例が増えた。
  台数削減によるHWコスト、スペースコスト、運用コスト、消費電力
  コストの削減が実現出来るため。


• 性能劣化はどのSSDでも存在する。


• どれ位劣化するかはカタログには書いていない !!!!
  劣化の度合いは値段には比例しない !!!




                                20
• 複数SSDや 1枚のPCIe SSDで 20~30Gbpsのスループットを
  出せる時代


• スケーラビリティを出すには、それらを接続する高速ネット
  ワークが必要。


• GbEでは、1Gbpsしか出ないので、大きなボトルネックとなる




                                          21
• 転送速度 –  40Gbps (QDR x4)
     10GbEは 10Gbps
• コスト (ポート単価)
     10GbEよりもかなり安い
• Latency – 1μsec
       10GbEは 20~μsec


• 取り扱いや柔軟性、拡張性は 10GbEにかなわない。


• しかし、コストと速度、およびCluster内のインターコネクトと
  しての用途を考えると Infinibandが最適の選択肢。


• 但し、プロトコルを選ぶ必要が…
                                     22
80%   65% 55%


                23
http://www.infinibandta.org/content/pages.php?pg=technology_overview   24
• QDR(40Gbps) の次の規格 FDR(56Gbps)
• Bit変換の仕様が異なるため実際の速度は
  QDR 4GB/s に対して FDR 6GB/s
• PCI Express Gen3 x8 (80Gbps) を使用する


• DDR3-1333           10GB/s
• PCIe Gen3.0 x8      8GB/s 来年2月
• Infiniband FDR x4 6GB/s 出荷開始済み
• PICe Gen2.0 x8      4GB/s
• Infiniband QDR x4   4GB/s
• 10GbE               1GB/s


                                       25
• 現時点ではCluster間のインターコネクトとしてはベストな選択。
  一番早くて、相対的なコストも高くない。(安くないけど)


• 性能を活かすには使用するプロトコルをきちんと選択すること。
  取り扱いはかなり面倒ではあるが…


• 来年初にはFDRが登場し、転送速度が1.5倍!




                                  26
• SSDとInfinibandを使用し、データベース処理を
 早くするための最適化したハードウェア構成。
 HW Knowledgeと Database Knowledgeの融合。


• HW Innovationに追従できるパーツ設計。


• 1DBサーバー、4ストレージサーバーで 61Gbpsの
  転送速度を実現。TPC-Hテストで HDD RAID構成
  のサーバーの25倍の処理速度。


• 今年中には 90Gbps(QDRx4 x3枚),
  来年Q1には 120Gbps(FDRx4 x2枚)
  を目指している。

                                        27

More Related Content

PDF
第9回「Fusion-io ioDriveがもたらした新世界とテクノロジーの肝」(2011/10/06 on しすなま!) ②IBM資料
PDF
【MySQL編】サーバ環境が進化する今話題のPCIe SSDを評価してみた
PDF
【IOPS編】サーバ環境が進化する今話題のPCIe SSDを評価してみた
PDF
【Oracle ORION編】サーバ環境が進化する今話題のPCIe SSDを評価してみた
PDF
GPUアクセラレータと不揮発性メモリを考慮したI/O性能の予備評価
PDF
VIOPS10: SSDの基本技術と最新動向
PDF
商用VPSのここだけの話
PDF
20111028ssmjp
第9回「Fusion-io ioDriveがもたらした新世界とテクノロジーの肝」(2011/10/06 on しすなま!) ②IBM資料
【MySQL編】サーバ環境が進化する今話題のPCIe SSDを評価してみた
【IOPS編】サーバ環境が進化する今話題のPCIe SSDを評価してみた
【Oracle ORION編】サーバ環境が進化する今話題のPCIe SSDを評価してみた
GPUアクセラレータと不揮発性メモリを考慮したI/O性能の予備評価
VIOPS10: SSDの基本技術と最新動向
商用VPSのここだけの話
20111028ssmjp

What's hot (20)

PDF
はじめてのクラウドサーバー AWSとGCEを使い比べてみた
PPTX
MongoDB on EC2 #mongodbcasual
PDF
Snr004 windows server_2016とnvdimmで異次元の
PPT
Fusion io
PDF
OSC2011 Tokyo/Spring 自宅SAN友の会(前半)
PDF
ソーシャルゲームのためのデータベース設計
PDF
第29回長岡開発者勉強会
PPTX
Technical session 2 iaa s 始めました~自社内にある windows も linux もそして sql server も azur...
PDF
Dbtechshowcasesapporo mysql-turing-for-cloud-0.9.3
PDF
MySQLやSSDとかの話 その後
PDF
佐野裕章 Virident 社製半導体ストレージ flash max の検証
PDF
B21 DBエンジニアのための最新HW講座 (Deep Insight About Database and Hardware) by Masaya Is...
PDF
InnoDB Table Compression
PDF
D21 dbts tokyo_2013_ssd
PDF
OSC2012Kansai@Kyoto 自宅SAN友の会 - インフラエンジニアなら知っておきたい ストレージのはなし
PPTX
201711 vxrailチャンピオンクラブ_ワークショップ~入門編~テキスト
PDF
[B11] 基礎から知るSSD(いまさら聞けないSSDの基本) by Hironobu Asano
PDF
MySQLやSSDとかの話 後編
PDF
インフラエンジニアなら知っておきたいストレージのはなし2012/Spring ストレージの基礎おさらい編
PPTX
ちゃんとWeb会議
はじめてのクラウドサーバー AWSとGCEを使い比べてみた
MongoDB on EC2 #mongodbcasual
Snr004 windows server_2016とnvdimmで異次元の
Fusion io
OSC2011 Tokyo/Spring 自宅SAN友の会(前半)
ソーシャルゲームのためのデータベース設計
第29回長岡開発者勉強会
Technical session 2 iaa s 始めました~自社内にある windows も linux もそして sql server も azur...
Dbtechshowcasesapporo mysql-turing-for-cloud-0.9.3
MySQLやSSDとかの話 その後
佐野裕章 Virident 社製半導体ストレージ flash max の検証
B21 DBエンジニアのための最新HW講座 (Deep Insight About Database and Hardware) by Masaya Is...
InnoDB Table Compression
D21 dbts tokyo_2013_ssd
OSC2012Kansai@Kyoto 自宅SAN友の会 - インフラエンジニアなら知っておきたい ストレージのはなし
201711 vxrailチャンピオンクラブ_ワークショップ~入門編~テキスト
[B11] 基礎から知るSSD(いまさら聞けないSSDの基本) by Hironobu Asano
MySQLやSSDとかの話 後編
インフラエンジニアなら知っておきたいストレージのはなし2012/Spring ストレージの基礎おさらい編
ちゃんとWeb会議
Ad

Viewers also liked (9)

PDF
人間対Pc2
PDF
Exercise Backlog 1
PDF
NSEG#39 将棋ソフトと機械学習
PPTX
クラウドコンピューティング概論
PDF
クラウドコンピューティングとWebブラウザの新たな役割
PDF
45分で理解する 最近のスパコン事情 斉藤之雄
PPTX
ゲーム木探索技術とコンピュータ将棋への応用
PDF
コンピュータ将棋について~機械学習を用いた局面学習への道~
PDF
ぷよぷよ AI 人類打倒に向けて
人間対Pc2
Exercise Backlog 1
NSEG#39 将棋ソフトと機械学習
クラウドコンピューティング概論
クラウドコンピューティングとWebブラウザの新たな役割
45分で理解する 最近のスパコン事情 斉藤之雄
ゲーム木探索技術とコンピュータ将棋への応用
コンピュータ将棋について~機械学習を用いた局面学習への道~
ぷよぷよ AI 人類打倒に向けて
Ad

Similar to [INSIGHT OUT 2011] c14 openハードウェアの夜明け前(ssd infiniband検証) (20)

PDF
[db tech showcase Tokyo 2016] B22: 超高速NoSQLデータベースと超高速SSDの融合 by Aerospike Inc....
PPTX
Osc 20130223
PDF
20150821 Azure 仮想マシンと仮想ネットワーク
PDF
[INSIGHT OUT 2011] B32 open hardwareの夜明け pci express 3・infiniband fdrの登場(yama...
PDF
Fusion-io(ioDrive) benchmarking #sfstudy 01 LT
PDF
Crooz meet fusion io3 open
PDF
Snr005 レノボだから実現
PDF
20140315 jawsdays i2 instance io performance
PDF
re:Grouth 2020 : AWS Infrastrucuter Serviceの進化 2020
PDF
qpstudy 2014.04 ハードウェア設計の勘所
PDF
JAWS-UG 横浜 re:Invent re:Cap week1 EC2ストレージパフォーマンスの進化
PDF
Toshiba SSD catalog
PDF
[INSIGHT OUT 2011] A12 ひとつのデータベース技術では生き残れない part1 カラムナーデータベース(Shinkubo)
PDF
[db tech showcase Tokyo 2015] D13:PCIeフラッシュで、高可用性高性能データベースシステム?! by 株式会社HGSTジ...
PDF
JAWS-UG北陸第5回勉強会 クラウド破産しないためのEBS入門
PDF
20170329_BigData基盤研究会#7
PDF
RDMA for Windows Server 2012
PDF
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
PDF
楽天のプライベートクラウドを支えるフラッシュストレージ
PDF
[db tech showcase Sapporo 2015] B14:データベース環境における検証結果から理解する失敗しないフラッシュ活用法 第二章 b...
[db tech showcase Tokyo 2016] B22: 超高速NoSQLデータベースと超高速SSDの融合 by Aerospike Inc....
Osc 20130223
20150821 Azure 仮想マシンと仮想ネットワーク
[INSIGHT OUT 2011] B32 open hardwareの夜明け pci express 3・infiniband fdrの登場(yama...
Fusion-io(ioDrive) benchmarking #sfstudy 01 LT
Crooz meet fusion io3 open
Snr005 レノボだから実現
20140315 jawsdays i2 instance io performance
re:Grouth 2020 : AWS Infrastrucuter Serviceの進化 2020
qpstudy 2014.04 ハードウェア設計の勘所
JAWS-UG 横浜 re:Invent re:Cap week1 EC2ストレージパフォーマンスの進化
Toshiba SSD catalog
[INSIGHT OUT 2011] A12 ひとつのデータベース技術では生き残れない part1 カラムナーデータベース(Shinkubo)
[db tech showcase Tokyo 2015] D13:PCIeフラッシュで、高可用性高性能データベースシステム?! by 株式会社HGSTジ...
JAWS-UG北陸第5回勉強会 クラウド破産しないためのEBS入門
20170329_BigData基盤研究会#7
RDMA for Windows Server 2012
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
楽天のプライベートクラウドを支えるフラッシュストレージ
[db tech showcase Sapporo 2015] B14:データベース環境における検証結果から理解する失敗しないフラッシュ活用法 第二章 b...

More from Insight Technology, Inc. (20)

PDF
グラフデータベースは如何に自然言語を理解するか?
PDF
Docker and the Oracle Database
PDF
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
PDF
事例を通じて機械学習とは何かを説明する
PDF
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
PDF
MBAAで覚えるDBREの大事なおしごと
PDF
グラフデータベースは如何に自然言語を理解するか?
PDF
DBREから始めるデータベースプラットフォーム
PDF
SQL Server エンジニアのためのコンテナ入門
PDF
Lunch & Learn, AWS NoSQL Services
PDF
db tech showcase2019オープニングセッション @ 森田 俊哉
PDF
db tech showcase2019 オープニングセッション @ 石川 雅也
PDF
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
PPTX
難しいアプリケーション移行、手軽に試してみませんか?
PPTX
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
PPTX
そのデータベース、クラウドで使ってみませんか?
PPTX
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
PDF
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
PPTX
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
PPTX
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
グラフデータベースは如何に自然言語を理解するか?
Docker and the Oracle Database
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
事例を通じて機械学習とは何かを説明する
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
MBAAで覚えるDBREの大事なおしごと
グラフデータベースは如何に自然言語を理解するか?
DBREから始めるデータベースプラットフォーム
SQL Server エンジニアのためのコンテナ入門
Lunch & Learn, AWS NoSQL Services
db tech showcase2019オープニングセッション @ 森田 俊哉
db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
難しいアプリケーション移行、手軽に試してみませんか?
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
そのデータベース、クラウドで使ってみませんか?
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]

[INSIGHT OUT 2011] c14 openハードウェアの夜明け前(ssd infiniband検証)