SlideShare a Scribd company logo
1© Copyright 2013 EMC Corporation. All rights reserved.
Greenplum Database Technology
2013年5月29日
EMCジャパン株式会社
グリーンプラム事業本部
松下 正之
- Large Scale-out and Next generation
Analytics platform -
2© Copyright 2013 EMC Corporation. All rights reserved.
本日のアジェンダ
• はじめに
• Greenplum Database 3つの特長
– 拡張性: スケールアウト
– 高速性: 大規模並列分散処理(MPP)
– コストパフォーマンス: 柔軟・選択自由な実装環境
• Greenplum Database 高速化技術
• 適用領域と事例
• おわりに
3© Copyright 2013 EMC Corporation. All rights reserved.
はじめに
4© Copyright 2013 EMC Corporation. All rights reserved.
GREENPLUM概要
• 2003年 創業
本社 サンマテオ、カリフォルニア
CEO: Bill Cook
President and Co-Founder: Scott Yara
CTO and Co-Founder: Luke Lonergan
• 2006年 Greenplum DB出荷
• 2008年 ペタバイトのデータウェアハウスを実現
• 2010年7月 EMC社によるM&A発表
• 2010年9月 EMCジャパン(株)グリーンプラム事業本部開設
• 2010年10月 DCA (DWHアプライアンス) リリース
• 2011年4月 SAS / EMC Greenplum 提携発表
• 2011年5月 Greenplum MR (Hadoop製品) リリース
• 2011年12月 UAP (Unified Analytics Platform) 構想発表
• 2012年3月 Pivotal Lab (アジャイル開発) 買収
• 2012年3月 Greenplum Chorusリリース
• 2012年5月 Analytics Workbench - Data Scientistサービス提供開始
• 主要顧客: グローバルで700社以上
• 営業拠点: グローバル15拠点 (米国、欧州およびアジア・パシフィック)
• 開発拠点: 米国、中国、イスラエル
5© Copyright 2013 EMC Corporation. All rights reserved.
Greenplum DB
(DB/DCA)
高速MPP DB
汎用HW利用可能
SWおよびAppliance
Greenplum
Hadoop
(MR/HD)
エンタープライズ
向けHadoop
DBとの連携
Greenplum
関連Solution
(Chorus, Data
Scientist, SAS
Alliance)
GREENPLUMの製品ポートフォリオ
6© Copyright 2013 EMC Corporation. All rights reserved.
アナリティクス時代をリードするソリューション
DB ログ
経営者 分析専門家 一般社員 Webアプリケーション
CRM SFA ・・・BIツール
Webコンテンツ 音声
ファイル
映像
ファイル
画像
ファイル
・・・
Greenplum DB
Greenplum MR/Pivotal HD
7© Copyright 2013 EMC Corporation. All rights reserved.
Greenplum DB
3つの特長
8© Copyright 2013 EMC Corporation. All rights reserved.
• サーバノード数、CPU数を問わない容量課金のライセンス体系(ソフトウェア版)
• 運用負荷を軽減するチューニングレス思想
• 導入・運用コストを削減するアプラインス製品
• テスト・開発環境については仮想環境の利用も可能
• MPP型DBによる超高速の並列処理性能
• データロード、処理、アンロードまでを完全に並列で実行
• 標準搭載の豊富な高速化機能(データ圧縮、カラムストア、マルチレベルパーティション etc..)
Greenplum DB 3つの特長
• 必要な時に最適なシステム投資を実現するスケールアウトアーキテクチャ
• サーバノード追加により性能もリニアに向上
• クラウド、仮想化、コモディティサーバ、アプライアンスと豊富な実装環境に対応
拡張性
高速性
コストパフォーマンス
9© Copyright 2013 EMC Corporation. All rights reserved.
スケールアウトテクノロジー
スケールアップ スケールアウト
性能 性能
初期 リプレース1 リプレース2 初期 追加1 追加2
拡張性
10© Copyright 2013 EMC Corporation. All rights reserved.
スケールアウトを支えるテクノロジー
低レイテンシ&広帯域な
インタコネクト
CPU性能の高い
エントリレベルサーバ
大容量&高性能の
ストレージ性能
パラレル
コンピューティングの
進化
HPC、グリッドコンピューティング、
マルチプロセッシング等の技術の成熟
高密度化による
ストライプ数の増加と
性能の向上
ネットワークスイッチの
コモディティ化と
性能向上
1990年初頭 100Mbpsスイッチ
1990年代末 1Gbpsスイッチ
2000年半ば 10Gbsスイッチ
ムーアの法則に沿った
コモディティサーバの
CPUの性能向上と低価格化
拡張性
11© Copyright 2013 EMC Corporation. All rights reserved.
CPU
メモリ
ディスクI/Oを分散して処理を高速化
ディスク
CPU
メモリ
ディスク
CPU
メモリ
ディスク
CPU
メモリ
ディスク
CPU
メモリ
ディスク
CPUを
使いきれない CPUを
使いきれる
CPUを
使いきれる
CPUを
使いきれる
CPUを
使いきれる
ディスクI/Oがボトルネックとなり、
単一ノードでは処理の多重度に
限界がある
並列処理することで、I/Oが分散され、
HW本来の性能を使い切ることができる
従来型RDB
使
用
率
使
用
率
並列分散処理型DB
使
用
率
使
用
率
使
用
率
高速性
12© Copyright 2013 EMC Corporation. All rights reserved.
Greenplum最大の特長:選択出来る実装環境
仮想化
クラウド
コモディティH/WGreenplum
DCA
• GPDCAでの導入
– 最適(最速)環境
– サポート負荷軽減
• 仮想化S/W上で稼働可能
– 仮想インフラ上での開発環境
• コモディティH/Wでの導入
– 柔軟な拡張性
– お客様要件に合わせた機器構成
• パブリッククラウド上での稼働
– Amazon VPC等を使ったトレーニング
・検証環境の構築
アプライアンス構成 ソフトウェア構成
コストパフォーマンス
13© Copyright 2013 EMC Corporation. All rights reserved.
Greenplum Database アーキテクチャ
MPP (Massively Parallel Processing)
シェアードナッシングアーキテクチャ
インタコネクト
バス
... ...
マスター
サーバ x 2台
クエリプランニング&
ディスパッチ
セグメント
サーバ x 2台〜
クエリの実行&
データの格納
SQL
外部ソース
ローディング、
ストリーミング等
SQLを解析し、
セグメントサーバのための
最適な並列実行プランを
作成
パラレルデータ
フローエンジンが
ハードサーバ性能を
最大活用
gNetソフトウェア
インタコネクトによる
セグメント間の効率的な
データ送受信
パラレルロードによる
高速ローディング
Greenplum DCAは、マスターサーバ、インタコネクトバス、セグメントサーバ、そして、これらを管理するための管理スイッチから
構成されています。
14© Copyright 2013 EMC Corporation. All rights reserved.
世界最高速のデータロード性能
0
5
10
15
20
25
30
35
1ラック 2ラック 3ラック
Greenplum
A社
B社
TB/時間
15© Copyright 2013 EMC Corporation. All rights reserved.
他社処理方式とGreenplum方式の比較
パラレルデータフロー
エンジン
パラレルデータフロー
エンジン
パラレルデータフロー
エンジン
パラレルデータフロー
エンジン
セグメントサーバ
ローディング
プロセス
マスタサーバ
データソース データソース
セグメントサーバ
他社
16© Copyright 2013 EMC Corporation. All rights reserved.
Greenplum DB
高速化技術
17© Copyright 2013 EMC Corporation. All rights reserved.
Greenplum DB 高速化技術
カラムストア 圧縮
リソースキュー(ワークロード管理)パーティション
18© Copyright 2013 EMC Corporation. All rights reserved.
GreenplumDB機能
2種類のデータストア方式(Greenplum Polymorphic Data Storage)
• ローストア
– 従来のRDBMSによるデータ格納方式
– 行単位のデータレコードアクセスに特化
• カラムストア
– 特定カラムに対する集約処理を高速化
– 他カラムに対する読み込みを排除することによる、IO負荷の軽減
– 圧縮によるデータアクセススループットの向上とDB容量の拡大
列A 列B 列C 列D 列A 列B 列C 列D
読み出す必要のない
カラムの値もアクセス。
余分なIO負荷が発生
特定カラムの値のみ
アクセスするため、
IO負荷を劇的に軽減
従来からあるローストアのテーブル カラムストアのテーブル
19© Copyright 2013 EMC Corporation. All rights reserved.
一つのテーブル中においてのローストアとカラムスト
アの組み合わせ例
新しいデータ古いデータ
カラムストア・圧縮率重
視の圧縮で格納
最近のデータは行単位での
参照・更新アクセスが多い
ローストア・性能重視
の圧縮で格納
1つのテーブルとして
ユーザからは透過的に見える
期間やデータ使用目的・頻度などにより、
格納方法を変更して、効率的に使用可能
2008年 2009年 2010年 2011年 2012年
過去のデータは列単位での
集計アクセスが多い
20© Copyright 2013 EMC Corporation. All rights reserved.
GreenplumDB機能
圧縮によるIO負荷の軽減
• CPUパワーによるデータ解凍が実現する高IOスループット
• 格納可能容量の拡大
– 同一データ型での圧縮による高い効率性
– 非圧縮比3〜5倍の格納効率
• カラムストア使用時、カラム方向のより高圧縮の格納が可能
CPUによる圧縮デー
タの解凍が実現する
高いIOスループット
カラム単位のデータ
圧縮による高い格納
効率.。3〜5倍
データの非圧縮格納 データの圧縮格納
IOスループット
がストレージ
性能に依存
21© Copyright 2013 EMC Corporation. All rights reserved.
GreenplumDB機能
ワークロード管理 - リソースキュー -
複数の利用者・バッチ処理・システムでの同時利用のための機能
? ? ? ?? ? ? ?
?
?
?
? ? ? ?? ? ? ?
?
?
?
? ? ? ?? ? ? ?
?
?
?
? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ?
リソースキュー間でCPUや
メモリ割当をプライオリティ付け
リソースキュー間でCPUや
メモリ割当をプライオリティ付け
同時に処理できるクエリ数か、コストの
総和をリソースキュー毎に設定
エグゼクティブキュー
レポートキュー
アナリストグキュー
アナリスト
レポート作成
担当者
マネジメント
(CxO)
リソースキュー
• 複数の利用者やバッチ、システムの同時利用
• クエリ処理の優先順位付けを行うことが可能
4つの観点から優先順位付けを行う
1.同時に処理されるクエリのコストの総和
 クエリ毎のコストを確認
 複数クエリのコストの総和が指定した閾値を上回る
ことのないよう制御
※コスト:クエリ処理に使用する必要リソース量
2.同時に処理されるクエリ数
 処理中のクエリ数を確認
 処理するクエリの数が指定した閾値を上回ることが
ないよう制御
3.CPUリソースの優先度
 リソースキュー間でCPUリソースをどのように割り当
てるかを制御
4.メモリの優先度
 リソースキュー間でメモリをどのように割り当てるか
を制御 実行開始待ちのクエリ 実行中のクエリ
22© Copyright 2013 EMC Corporation. All rights reserved.
? ? ? ??
? ? ? ?? ?
?
?
?
? ? ? ?? ? ? ?
?
?
?
? ? ? ?
? ? ? ?
実行開始待ちのクエリ 実行中のクエリ
優先度: HIGH
優先度: LOW
優先度: Medium
リソースキューのしくみ
XXXロール
YYYロール
ZZZロール
?
?
発行されたクエリ
? ? ? ? ? ? ? ?
? ? ? ?
AAAキュー
ロールとリソースキューの関連付け
ハードウェアリソースの割当
(イメージとしては直径の大きさ)
同時に実行出来るクエリ数
(イメージとしては円柱の長さ)
BBBキュー
CCCキュー
相対的に
優先度を設定
23© Copyright 2013 EMC Corporation. All rights reserved.
ミラーセグメント機能
P1 P2 P3 M6 M8 M10
P4 P5 P6 M1 M9 M11
P7 P8 P9 M2 M4 M12
P10 P11 P12 M3 M5 M7
Segment
Server 1
Segment
Server 2
Segment
Server 3
Segment
Server 4
通常時のアクティブな
セグメントインスタンス
“Spread” ミラー方式
P1 P2 P3 M10
P4 P5 P6 M1
M11
P7 P8 P9
M2
M4
M12
P10 P11 P12
M3
M5
M7
“Grouped” ミラー方式
Segment Server 1が物理障害時に
アクティブなセグメントインスタンス
M6
M9M8
24© Copyright 2013 EMC Corporation. All rights reserved.
豊富な分析機能
• BIツール
• SAS
• MicroStrategy
• Business Objects(SAP)
• Cognos/SPSS(IBM)
• JasperSoft
• Pentaho
• JDBC/ODBC接続可能ツール全般
• 言語
• PL/pgSQL
• PL/Perl
• PL/Python
• PL/Java
• PL/R
• In-DB分析
• 重回帰分析
• ナイーブベイズ
• サポートベクトル、マトリクス
• ウィンドウファンクション, OLAP
• PL/R等
• 統計解析用ライブラリ MAD Lib
• ロジスティック回帰分析
• ランダムフォレスト
• ディシジョンツリー
• K平均クラスタリング
• NLTK(自然言語ツールキット)等
アプリケーション・言語との連携 インデータベース分析機能
GreenplumDBでは従来からあるBI関連アプリケーションとの連携に加え、GreenplumDB自身での分析機能の強化を行っています。
In-DB分析は GreenplumDBが標準で備えている分析機能です。MAD Libはオープンソースコミュニティーにて開発されている数理統計解析用
ライブラリ群です。GreenplumDB自身に標準に備わっていませんが、MAD Libを追加することでこ数理統計解析のさらなる高速化が可能となり
ます。
25© Copyright 2013 EMC Corporation. All rights reserved.
適用領域と事例
26© Copyright 2013 EMC Corporation. All rights reserved.
GreenplumDB適用領域
データベース機能別役割(1/2)
機能 OLTP処理
参照系処理の高
速化(キャッシュ)
バッチ処理
データ
ウェアハウス
主なユーザー
•顧客
•顧客窓口
•顧客
•顧客窓口
•アナリスト
-
•マネジメント
•アナリスト
サービス
•オンライン・トラン
ザクション
•オンライン参照
•オンライン参照
•レポーティング(定
型帳票/定型検索)
•集計
•データマート作成
•レポーティング
•データマイニング
/非定型検索
アクセス・
プロファイル
•複数ユーザによ
る頻繁な検索と更
新
•複数ユーザによ
る頻繁な検索
•バッチプロセスに
よるデータの集計
とテーブル作成
•複数ユーザによ
る頻繁な検索と分
析
ストアデータ 最新のデータ
直近3ヶ月のデー
タ
集計対象データ
過去3年間の長期
データ
候補DB
Oracle
DB2
GreenplumDB GreenplumDB GreenplumDB
27© Copyright 2013 EMC Corporation. All rights reserved.
OLTP処理
参照系処理の
高速化(キャッシュ)
バッチ処理
データ
ウェアハウス
トランザクション
キャッシュ
トランザクション
バッチ
データ
ウェアハウス
トラン
ザクション
トラン
ザクション
トラン
ザクション
トランザクション
GreenplumDB適用領域
データベース機能別役割(2/2)
28© Copyright 2013 EMC Corporation. All rights reserved.
導入事例: 国内大手製造業者様 (1/3)
• システム概要
• ORACLE/DBをDBMSとして採用したCRMシステム。
• 社内、関連会社に偏在する「顧客接点情報」を統合・一元管理する事で「戦略立案」、「営業施策」、「
KPI実績把握」を支援
• 100項目ほどの検索条件をエンドユーザ(全国の営業、本社企画立案部門、)が自由に設定し検索で
きる機能を提供。
• システムの課題
• 性能 :データローディング、検索に長時間かかりエンドユーザーの使用に耐えない。
• コスト:製品コスト、運用コストともに高コスト
• 要員 :DBエンジニアの確保が困難
• 対応策
• DWH製品を導入し、ORACLE/DBのスキーマをそのままDWH/DBに移行し、ユーザはDWH/DBに対して
検索。謂わばORACLE/DBのキャッシュとしてDWH/DBを活用。
• 製品選定理由
• 性能(レスポンス&スループット),初期コスト,拡張コスト,運用コスト、スケーラビリティ全ての点で競合他
社(4社)に比べてGreenplumが圧倒的な優位性をベンチマークテストで実証
オラクルスキーマを変更無しに移行
バッチ処理20倍高速化
非定型検索28倍高速化
定型検索13倍高速化
ロード性能103倍高速化
バッチ処理高速化
オラクル負荷のオフロード
29© Copyright 2013 EMC Corporation. All rights reserved.
導入事例: 国内大手製造業者様 (2/3)
BIツール
(非定型クエリ用)
OracleDB
ソース
ローディング/OLTP
• BIツールがOracleへクエリを実行
• データソースからのデータはOracleDBへロード
ソース ソース
GreenplumDB導入前システム
バッチ処理高速化
オラクル負荷のオフロード
30© Copyright 2013 EMC Corporation. All rights reserved.
導入事例: 国内大手製造業者様 (3/3)
GPDB BIツール
(非定型クエリ用)
ソース
ローディング/OLTP
• BIツールがGreenplumへクエリを実行
• データの変換はされず、OracleとGreenplumのデータは、1:1の関係に
ある
• Oracle - Greenplum間のデータ連携をトランザクション毎に実施
ソース ソース
トランザクション毎の
データ連携
OracleDB
GreenplumDB導入後システム(現在〜今後)
よりシームレスなデータ連携へ
(連携ツール選定中)
バッチ処理高速化
オラクル負荷のオフロード
31© Copyright 2013 EMC Corporation. All rights reserved.
優れたコストパフォーマンスと柔軟な拡張性により、SQL Serverで出来なかった処理を可能に
導入事例: トライアルカンパニー様
用途
• フェーズ1: 店舗展開や販売管理、調達管理などの戦略立案を行う際の売上レポート作成・データ分析
• フェーズ2: バスケット分析などの複雑なデータ分析
採用理由
• スケールアウト型ソリューション
• コモディティ・テクノロジーの採用
• コストパフォーマンスの高さ
効果
• 戦略的データ活用基盤として、将来の店舗拡大によるデータ増加に随時対応できる拡張性をもった
• GreenplumDB導入によるシステム能力の劇的な向上により、従来のSQL Serverで30分以上かかっていた集計処理
(1800万から274万抽出)のレスポンスを約250倍の性能向上となる7秒で達成
• 既存処理時間の大幅な削減により、GISデータを取り込んだ出店政策支援を実現
32© Copyright 2013 EMC Corporation. All rights reserved.
おわりに
33© Copyright 2013 EMC Corporation. All rights reserved.
アナリティクス時代のIT基盤
• 企業の保有データ量は
増加し、既存のインフラ
では追いつかない
• 社外に存在する、「ビジ
ネスに活用できるデータ
」はそれ以上に増加
• キャパシティ・プランニン
グが困難・不可能
スケールアップから
スケールアウトへの
転換が必要
• スモール・スタートが
可能
• 柔軟な拡張
データ増加が予測できない時代に最適なアーキテクチャの選択
従来型インフラでは対応が困難 アーキテクチャの転換
34© Copyright 2013 EMC Corporation. All rights reserved.
アナリティクス時代のIT基盤
• 企業の保有データ量は
増加し、既存のインフラ
では追いつかない
• 社外に存在する、「ビジ
ネスに活用できるデータ
」はそれ以上に増加
• キャパシティ・プランニン
グが困難・不可能
データ増加が予測できない時代に最適なアーキテクチャの選択
従来型インフラでは対応が困難 アーキテクチャの転換
ビッグデータ分析
プラットフォーム
スケールアウト型
超並列分散処理DB
35© Copyright 2013 EMC Corporation. All rights reserved.
アナリティクス時代のIT基盤に求められる
テクノロジー・キーワード
• スケールアウト・アーキテクチャ
– データが増加しても処理時間増加しないアーキテクチャ
– 分析の結果が成功するとより多く(量、種類)のデータで分析するニーズが出てくる
– ビッグ・データは「量を質」に変化させる試みでもある
• スモール・スタート可能な実装
– ROIは事前には想定困難
– プロジェクト初期段階はデータも少ない
– プロジェクトの進展と共にデータが増加する
• In DB Analytics
– 大量データを高速に処理する必要性
– スピードが価値を生む
– 非定形処理を何度も繰り返す(イテレーションの重要性)
• オープンなアーキテクチャ
– 今後登場してくる様々な新技術を迅速に適用できる事が重要
– クラウド対応
• 機械学習テクノロジー( Machine Learning )
36© Copyright 2013 EMC Corporation. All rights reserved.
今後のGreenplum関連のセッション
• 5/30(木) Session5: 17:00 - 17:45
– EMCジャパン株式会社 中村 完
– EMC Big Data Solution by Greenplum
- Integrated analytic platform for the coming cloud era -
• 5/31(金) Session3: 15:00 - 15:45
– ヴイエムウェア株式会社 市村 友寛
– Pivotal Data Management Solution by EMC/VMware
- Making Big, Fast Data scale for your business -
C14 Greenplum Database Technology - Large Scale-out and Next generation Analytics platform - by Masayuki Matsushita

More Related Content

PDF
[B27] エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション by Masataka Oka
PDF
[db tech showcase Tokyo 2014] C31: PostgreSQLをエンタープライズシステムで利用しよう by PostgreS...
PDF
【SRX】JUNOS ハンズオントレーニング資料 SRXシリーズ サービス ゲートウェイ コース
PDF
[Oracle DBA & Developer Day 2016] しばちょう先生の特別講義!!ストレージ管理のベストプラクティス ~ASMからExada...
PDF
perfを使ったPostgreSQLの解析(前編)
PDF
[db tech showcase Tokyo 2015] B15:最新PostgreSQLはパフォーマンスが飛躍的に向上する!? - PostgreSQ...
PDF
A12 既存のデータベース環境で分析業務を加速させるには? DB2が実現するソフトウエア分析ソリューション(DB2 BLU Acceleration)の仕...
PDF
不揮発メモリとOS研究にまつわる何か
[B27] エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション by Masataka Oka
[db tech showcase Tokyo 2014] C31: PostgreSQLをエンタープライズシステムで利用しよう by PostgreS...
【SRX】JUNOS ハンズオントレーニング資料 SRXシリーズ サービス ゲートウェイ コース
[Oracle DBA & Developer Day 2016] しばちょう先生の特別講義!!ストレージ管理のベストプラクティス ~ASMからExada...
perfを使ったPostgreSQLの解析(前編)
[db tech showcase Tokyo 2015] B15:最新PostgreSQLはパフォーマンスが飛躍的に向上する!? - PostgreSQ...
A12 既存のデータベース環境で分析業務を加速させるには? DB2が実現するソフトウエア分析ソリューション(DB2 BLU Acceleration)の仕...
不揮発メモリとOS研究にまつわる何か

What's hot (20)

PPTX
製造業向け量子コンピュータ時代のDXセミナー ~見える化、分析、予測、その先の最適化へ~
PDF
POWER8ここだけの話
PDF
製造業向け量子コンピュータ時代のDXセミナー~ 最適化の中身を覗いてみよう~
PDF
[db tech showcase Tokyo 2015] D32:HPの全方位インメモリDB化に向けた取り組みとSAP HANAインメモリDB の効果を...
PDF
災害対策セミナー 「検証プロジェクト報告と事例紹介」
PDF
Awamoto master thesis
PPTX
Okuyama説明資料 20120119 ss
PDF
【旧版】Oracle Gen 2 Exadata Cloud@Customer:サービス概要のご紹介 [2021年12月版]
PDF
Linux on Powerの最新情報(2014年11月)
PPTX
しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#3
PDF
MySQL Cluster でもフラッシュドライブを活用してみる
PDF
[db tech showcase Tokyo 2015] B17:PostgreSQLで動的にスケールアウト可能な負荷分散DBクラスタを作ろう! by ...
PDF
[Oracle DBA & Developer Day 2012] 高可用性システムに適した管理性と性能を向上させるASM と RMAN の魅力
PDF
ソフト高速化の専門家が教える!AI・IoTエッジデバイスの選び方
PDF
[db tech showcase Tokyo 2015] D16:マイケルストーンブレーカー発の超高速データベースで実現する分析基盤の簡単構築・運用ステ...
PDF
[Oracle Cloud Days Tokyo 2015] Oracle Database 12c最新情報 ~Maximum Availability ...
PDF
RWC2012(ワコムアイティ&テクノプロジェクト)
PDF
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編
PDF
C22 スプリットブレインになっても一貫性を保証するインメモリデータグリッド製品 by Taichi Umeda
PDF
Linux on Power と x86 Linux との技術的な相違点
製造業向け量子コンピュータ時代のDXセミナー ~見える化、分析、予測、その先の最適化へ~
POWER8ここだけの話
製造業向け量子コンピュータ時代のDXセミナー~ 最適化の中身を覗いてみよう~
[db tech showcase Tokyo 2015] D32:HPの全方位インメモリDB化に向けた取り組みとSAP HANAインメモリDB の効果を...
災害対策セミナー 「検証プロジェクト報告と事例紹介」
Awamoto master thesis
Okuyama説明資料 20120119 ss
【旧版】Oracle Gen 2 Exadata Cloud@Customer:サービス概要のご紹介 [2021年12月版]
Linux on Powerの最新情報(2014年11月)
しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#3
MySQL Cluster でもフラッシュドライブを活用してみる
[db tech showcase Tokyo 2015] B17:PostgreSQLで動的にスケールアウト可能な負荷分散DBクラスタを作ろう! by ...
[Oracle DBA & Developer Day 2012] 高可用性システムに適した管理性と性能を向上させるASM と RMAN の魅力
ソフト高速化の専門家が教える!AI・IoTエッジデバイスの選び方
[db tech showcase Tokyo 2015] D16:マイケルストーンブレーカー発の超高速データベースで実現する分析基盤の簡単構築・運用ステ...
[Oracle Cloud Days Tokyo 2015] Oracle Database 12c最新情報 ~Maximum Availability ...
RWC2012(ワコムアイティ&テクノプロジェクト)
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編
C22 スプリットブレインになっても一貫性を保証するインメモリデータグリッド製品 by Taichi Umeda
Linux on Power と x86 Linux との技術的な相違点
Ad

Similar to C14 Greenplum Database Technology - Large Scale-out and Next generation Analytics platform - by Masayuki Matsushita (20)

PDF
Pivotal Greenplumで実現する次世代データ分析基盤のご紹介
PDF
クラウドの破壊力
PPTX
第29回 SQL Server 勉強会 (JSSUG) - Azure Synapse Analytics 概要
PDF
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
PDF
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
PDF
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
PDF
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
PDF
進化を続けるデータベース・クラウド:Oracle Database, Exadata, MySQL, Cloud Machine [Oracle Clou...
PPTX
Qlik Talend Cloud概要:リアルタイムデータ統合とデータ品質を実現するデータファブリック
PPTX
1,000,000 foot view of Hadoop-like parallel data processing systems
PDF
MySQL最新情報  ※2016年12月
PDF
BIG DATA サービス と ツール
PDF
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
PDF
TokyoWebminig カジュアルなHadoop
PDF
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
PDF
SQream by Rafi (japanese)
PDF
20111130 10 aws-meister-emr_long-public
PDF
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
PDF
Architecting on Alibaba Cloud - 超基礎編 -
Pivotal Greenplumで実現する次世代データ分析基盤のご紹介
クラウドの破壊力
第29回 SQL Server 勉強会 (JSSUG) - Azure Synapse Analytics 概要
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
進化を続けるデータベース・クラウド:Oracle Database, Exadata, MySQL, Cloud Machine [Oracle Clou...
Qlik Talend Cloud概要:リアルタイムデータ統合とデータ品質を実現するデータファブリック
1,000,000 foot view of Hadoop-like parallel data processing systems
MySQL最新情報  ※2016年12月
BIG DATA サービス と ツール
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
TokyoWebminig カジュアルなHadoop
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
SQream by Rafi (japanese)
20111130 10 aws-meister-emr_long-public
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
Architecting on Alibaba Cloud - 超基礎編 -
Ad

More from Insight Technology, Inc. (20)

PDF
グラフデータベースは如何に自然言語を理解するか?
PDF
Docker and the Oracle Database
PDF
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
PDF
事例を通じて機械学習とは何かを説明する
PDF
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
PDF
MBAAで覚えるDBREの大事なおしごと
PDF
グラフデータベースは如何に自然言語を理解するか?
PDF
DBREから始めるデータベースプラットフォーム
PDF
SQL Server エンジニアのためのコンテナ入門
PDF
Lunch & Learn, AWS NoSQL Services
PDF
db tech showcase2019オープニングセッション @ 森田 俊哉
PDF
db tech showcase2019 オープニングセッション @ 石川 雅也
PDF
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
PPTX
難しいアプリケーション移行、手軽に試してみませんか?
PPTX
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
PPTX
そのデータベース、クラウドで使ってみませんか?
PPTX
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
PDF
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
PPTX
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
PPTX
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
グラフデータベースは如何に自然言語を理解するか?
Docker and the Oracle Database
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
事例を通じて機械学習とは何かを説明する
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
MBAAで覚えるDBREの大事なおしごと
グラフデータベースは如何に自然言語を理解するか?
DBREから始めるデータベースプラットフォーム
SQL Server エンジニアのためのコンテナ入門
Lunch & Learn, AWS NoSQL Services
db tech showcase2019オープニングセッション @ 森田 俊哉
db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
難しいアプリケーション移行、手軽に試してみませんか?
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
そのデータベース、クラウドで使ってみませんか?
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]

Recently uploaded (9)

PDF
【QYResearch】世界製薬業界の市場変革と将来展望における多角的な事業展開の探求
PPTX
Document from Suhani (2).pptx on the following topic
PDF
Fellowship Co.,Ltd. Company Overview for Students
PPTX
「AI×仕事の進め方」研修資料.pptx RIZAPビジネスイノベーション株式会社
PDF
自動鉱山スキャナー、グローバルトップ11企業のランキングと市場シェア2025~2031年.pdf
PPTX
株式会社フライク_______採用ピッチ資料_____update20250801
PDF
Syslabo_Company Guide_for saleshub_20250808
PDF
AI活用の成果が変わる!生成AI時代の速読・読解力トレーニング「AI Reading Lab」
PDF
西都 採用サイト掲載用ピッチ資料 | 安心して働ける環境と成長できるキャリアパス
【QYResearch】世界製薬業界の市場変革と将来展望における多角的な事業展開の探求
Document from Suhani (2).pptx on the following topic
Fellowship Co.,Ltd. Company Overview for Students
「AI×仕事の進め方」研修資料.pptx RIZAPビジネスイノベーション株式会社
自動鉱山スキャナー、グローバルトップ11企業のランキングと市場シェア2025~2031年.pdf
株式会社フライク_______採用ピッチ資料_____update20250801
Syslabo_Company Guide_for saleshub_20250808
AI活用の成果が変わる!生成AI時代の速読・読解力トレーニング「AI Reading Lab」
西都 採用サイト掲載用ピッチ資料 | 安心して働ける環境と成長できるキャリアパス

C14 Greenplum Database Technology - Large Scale-out and Next generation Analytics platform - by Masayuki Matsushita

  • 1. 1© Copyright 2013 EMC Corporation. All rights reserved. Greenplum Database Technology 2013年5月29日 EMCジャパン株式会社 グリーンプラム事業本部 松下 正之 - Large Scale-out and Next generation Analytics platform -
  • 2. 2© Copyright 2013 EMC Corporation. All rights reserved. 本日のアジェンダ • はじめに • Greenplum Database 3つの特長 – 拡張性: スケールアウト – 高速性: 大規模並列分散処理(MPP) – コストパフォーマンス: 柔軟・選択自由な実装環境 • Greenplum Database 高速化技術 • 適用領域と事例 • おわりに
  • 3. 3© Copyright 2013 EMC Corporation. All rights reserved. はじめに
  • 4. 4© Copyright 2013 EMC Corporation. All rights reserved. GREENPLUM概要 • 2003年 創業 本社 サンマテオ、カリフォルニア CEO: Bill Cook President and Co-Founder: Scott Yara CTO and Co-Founder: Luke Lonergan • 2006年 Greenplum DB出荷 • 2008年 ペタバイトのデータウェアハウスを実現 • 2010年7月 EMC社によるM&A発表 • 2010年9月 EMCジャパン(株)グリーンプラム事業本部開設 • 2010年10月 DCA (DWHアプライアンス) リリース • 2011年4月 SAS / EMC Greenplum 提携発表 • 2011年5月 Greenplum MR (Hadoop製品) リリース • 2011年12月 UAP (Unified Analytics Platform) 構想発表 • 2012年3月 Pivotal Lab (アジャイル開発) 買収 • 2012年3月 Greenplum Chorusリリース • 2012年5月 Analytics Workbench - Data Scientistサービス提供開始 • 主要顧客: グローバルで700社以上 • 営業拠点: グローバル15拠点 (米国、欧州およびアジア・パシフィック) • 開発拠点: 米国、中国、イスラエル
  • 5. 5© Copyright 2013 EMC Corporation. All rights reserved. Greenplum DB (DB/DCA) 高速MPP DB 汎用HW利用可能 SWおよびAppliance Greenplum Hadoop (MR/HD) エンタープライズ 向けHadoop DBとの連携 Greenplum 関連Solution (Chorus, Data Scientist, SAS Alliance) GREENPLUMの製品ポートフォリオ
  • 6. 6© Copyright 2013 EMC Corporation. All rights reserved. アナリティクス時代をリードするソリューション DB ログ 経営者 分析専門家 一般社員 Webアプリケーション CRM SFA ・・・BIツール Webコンテンツ 音声 ファイル 映像 ファイル 画像 ファイル ・・・ Greenplum DB Greenplum MR/Pivotal HD
  • 7. 7© Copyright 2013 EMC Corporation. All rights reserved. Greenplum DB 3つの特長
  • 8. 8© Copyright 2013 EMC Corporation. All rights reserved. • サーバノード数、CPU数を問わない容量課金のライセンス体系(ソフトウェア版) • 運用負荷を軽減するチューニングレス思想 • 導入・運用コストを削減するアプラインス製品 • テスト・開発環境については仮想環境の利用も可能 • MPP型DBによる超高速の並列処理性能 • データロード、処理、アンロードまでを完全に並列で実行 • 標準搭載の豊富な高速化機能(データ圧縮、カラムストア、マルチレベルパーティション etc..) Greenplum DB 3つの特長 • 必要な時に最適なシステム投資を実現するスケールアウトアーキテクチャ • サーバノード追加により性能もリニアに向上 • クラウド、仮想化、コモディティサーバ、アプライアンスと豊富な実装環境に対応 拡張性 高速性 コストパフォーマンス
  • 9. 9© Copyright 2013 EMC Corporation. All rights reserved. スケールアウトテクノロジー スケールアップ スケールアウト 性能 性能 初期 リプレース1 リプレース2 初期 追加1 追加2 拡張性
  • 10. 10© Copyright 2013 EMC Corporation. All rights reserved. スケールアウトを支えるテクノロジー 低レイテンシ&広帯域な インタコネクト CPU性能の高い エントリレベルサーバ 大容量&高性能の ストレージ性能 パラレル コンピューティングの 進化 HPC、グリッドコンピューティング、 マルチプロセッシング等の技術の成熟 高密度化による ストライプ数の増加と 性能の向上 ネットワークスイッチの コモディティ化と 性能向上 1990年初頭 100Mbpsスイッチ 1990年代末 1Gbpsスイッチ 2000年半ば 10Gbsスイッチ ムーアの法則に沿った コモディティサーバの CPUの性能向上と低価格化 拡張性
  • 11. 11© Copyright 2013 EMC Corporation. All rights reserved. CPU メモリ ディスクI/Oを分散して処理を高速化 ディスク CPU メモリ ディスク CPU メモリ ディスク CPU メモリ ディスク CPU メモリ ディスク CPUを 使いきれない CPUを 使いきれる CPUを 使いきれる CPUを 使いきれる CPUを 使いきれる ディスクI/Oがボトルネックとなり、 単一ノードでは処理の多重度に 限界がある 並列処理することで、I/Oが分散され、 HW本来の性能を使い切ることができる 従来型RDB 使 用 率 使 用 率 並列分散処理型DB 使 用 率 使 用 率 使 用 率 高速性
  • 12. 12© Copyright 2013 EMC Corporation. All rights reserved. Greenplum最大の特長:選択出来る実装環境 仮想化 クラウド コモディティH/WGreenplum DCA • GPDCAでの導入 – 最適(最速)環境 – サポート負荷軽減 • 仮想化S/W上で稼働可能 – 仮想インフラ上での開発環境 • コモディティH/Wでの導入 – 柔軟な拡張性 – お客様要件に合わせた機器構成 • パブリッククラウド上での稼働 – Amazon VPC等を使ったトレーニング ・検証環境の構築 アプライアンス構成 ソフトウェア構成 コストパフォーマンス
  • 13. 13© Copyright 2013 EMC Corporation. All rights reserved. Greenplum Database アーキテクチャ MPP (Massively Parallel Processing) シェアードナッシングアーキテクチャ インタコネクト バス ... ... マスター サーバ x 2台 クエリプランニング& ディスパッチ セグメント サーバ x 2台〜 クエリの実行& データの格納 SQL 外部ソース ローディング、 ストリーミング等 SQLを解析し、 セグメントサーバのための 最適な並列実行プランを 作成 パラレルデータ フローエンジンが ハードサーバ性能を 最大活用 gNetソフトウェア インタコネクトによる セグメント間の効率的な データ送受信 パラレルロードによる 高速ローディング Greenplum DCAは、マスターサーバ、インタコネクトバス、セグメントサーバ、そして、これらを管理するための管理スイッチから 構成されています。
  • 14. 14© Copyright 2013 EMC Corporation. All rights reserved. 世界最高速のデータロード性能 0 5 10 15 20 25 30 35 1ラック 2ラック 3ラック Greenplum A社 B社 TB/時間
  • 15. 15© Copyright 2013 EMC Corporation. All rights reserved. 他社処理方式とGreenplum方式の比較 パラレルデータフロー エンジン パラレルデータフロー エンジン パラレルデータフロー エンジン パラレルデータフロー エンジン セグメントサーバ ローディング プロセス マスタサーバ データソース データソース セグメントサーバ 他社
  • 16. 16© Copyright 2013 EMC Corporation. All rights reserved. Greenplum DB 高速化技術
  • 17. 17© Copyright 2013 EMC Corporation. All rights reserved. Greenplum DB 高速化技術 カラムストア 圧縮 リソースキュー(ワークロード管理)パーティション
  • 18. 18© Copyright 2013 EMC Corporation. All rights reserved. GreenplumDB機能 2種類のデータストア方式(Greenplum Polymorphic Data Storage) • ローストア – 従来のRDBMSによるデータ格納方式 – 行単位のデータレコードアクセスに特化 • カラムストア – 特定カラムに対する集約処理を高速化 – 他カラムに対する読み込みを排除することによる、IO負荷の軽減 – 圧縮によるデータアクセススループットの向上とDB容量の拡大 列A 列B 列C 列D 列A 列B 列C 列D 読み出す必要のない カラムの値もアクセス。 余分なIO負荷が発生 特定カラムの値のみ アクセスするため、 IO負荷を劇的に軽減 従来からあるローストアのテーブル カラムストアのテーブル
  • 19. 19© Copyright 2013 EMC Corporation. All rights reserved. 一つのテーブル中においてのローストアとカラムスト アの組み合わせ例 新しいデータ古いデータ カラムストア・圧縮率重 視の圧縮で格納 最近のデータは行単位での 参照・更新アクセスが多い ローストア・性能重視 の圧縮で格納 1つのテーブルとして ユーザからは透過的に見える 期間やデータ使用目的・頻度などにより、 格納方法を変更して、効率的に使用可能 2008年 2009年 2010年 2011年 2012年 過去のデータは列単位での 集計アクセスが多い
  • 20. 20© Copyright 2013 EMC Corporation. All rights reserved. GreenplumDB機能 圧縮によるIO負荷の軽減 • CPUパワーによるデータ解凍が実現する高IOスループット • 格納可能容量の拡大 – 同一データ型での圧縮による高い効率性 – 非圧縮比3〜5倍の格納効率 • カラムストア使用時、カラム方向のより高圧縮の格納が可能 CPUによる圧縮デー タの解凍が実現する 高いIOスループット カラム単位のデータ 圧縮による高い格納 効率.。3〜5倍 データの非圧縮格納 データの圧縮格納 IOスループット がストレージ 性能に依存
  • 21. 21© Copyright 2013 EMC Corporation. All rights reserved. GreenplumDB機能 ワークロード管理 - リソースキュー - 複数の利用者・バッチ処理・システムでの同時利用のための機能 ? ? ? ?? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? リソースキュー間でCPUや メモリ割当をプライオリティ付け リソースキュー間でCPUや メモリ割当をプライオリティ付け 同時に処理できるクエリ数か、コストの 総和をリソースキュー毎に設定 エグゼクティブキュー レポートキュー アナリストグキュー アナリスト レポート作成 担当者 マネジメント (CxO) リソースキュー • 複数の利用者やバッチ、システムの同時利用 • クエリ処理の優先順位付けを行うことが可能 4つの観点から優先順位付けを行う 1.同時に処理されるクエリのコストの総和  クエリ毎のコストを確認  複数クエリのコストの総和が指定した閾値を上回る ことのないよう制御 ※コスト:クエリ処理に使用する必要リソース量 2.同時に処理されるクエリ数  処理中のクエリ数を確認  処理するクエリの数が指定した閾値を上回ることが ないよう制御 3.CPUリソースの優先度  リソースキュー間でCPUリソースをどのように割り当 てるかを制御 4.メモリの優先度  リソースキュー間でメモリをどのように割り当てるか を制御 実行開始待ちのクエリ 実行中のクエリ
  • 22. 22© Copyright 2013 EMC Corporation. All rights reserved. ? ? ? ?? ? ? ? ?? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 実行開始待ちのクエリ 実行中のクエリ 優先度: HIGH 優先度: LOW 優先度: Medium リソースキューのしくみ XXXロール YYYロール ZZZロール ? ? 発行されたクエリ ? ? ? ? ? ? ? ? ? ? ? ? AAAキュー ロールとリソースキューの関連付け ハードウェアリソースの割当 (イメージとしては直径の大きさ) 同時に実行出来るクエリ数 (イメージとしては円柱の長さ) BBBキュー CCCキュー 相対的に 優先度を設定
  • 23. 23© Copyright 2013 EMC Corporation. All rights reserved. ミラーセグメント機能 P1 P2 P3 M6 M8 M10 P4 P5 P6 M1 M9 M11 P7 P8 P9 M2 M4 M12 P10 P11 P12 M3 M5 M7 Segment Server 1 Segment Server 2 Segment Server 3 Segment Server 4 通常時のアクティブな セグメントインスタンス “Spread” ミラー方式 P1 P2 P3 M10 P4 P5 P6 M1 M11 P7 P8 P9 M2 M4 M12 P10 P11 P12 M3 M5 M7 “Grouped” ミラー方式 Segment Server 1が物理障害時に アクティブなセグメントインスタンス M6 M9M8
  • 24. 24© Copyright 2013 EMC Corporation. All rights reserved. 豊富な分析機能 • BIツール • SAS • MicroStrategy • Business Objects(SAP) • Cognos/SPSS(IBM) • JasperSoft • Pentaho • JDBC/ODBC接続可能ツール全般 • 言語 • PL/pgSQL • PL/Perl • PL/Python • PL/Java • PL/R • In-DB分析 • 重回帰分析 • ナイーブベイズ • サポートベクトル、マトリクス • ウィンドウファンクション, OLAP • PL/R等 • 統計解析用ライブラリ MAD Lib • ロジスティック回帰分析 • ランダムフォレスト • ディシジョンツリー • K平均クラスタリング • NLTK(自然言語ツールキット)等 アプリケーション・言語との連携 インデータベース分析機能 GreenplumDBでは従来からあるBI関連アプリケーションとの連携に加え、GreenplumDB自身での分析機能の強化を行っています。 In-DB分析は GreenplumDBが標準で備えている分析機能です。MAD Libはオープンソースコミュニティーにて開発されている数理統計解析用 ライブラリ群です。GreenplumDB自身に標準に備わっていませんが、MAD Libを追加することでこ数理統計解析のさらなる高速化が可能となり ます。
  • 25. 25© Copyright 2013 EMC Corporation. All rights reserved. 適用領域と事例
  • 26. 26© Copyright 2013 EMC Corporation. All rights reserved. GreenplumDB適用領域 データベース機能別役割(1/2) 機能 OLTP処理 参照系処理の高 速化(キャッシュ) バッチ処理 データ ウェアハウス 主なユーザー •顧客 •顧客窓口 •顧客 •顧客窓口 •アナリスト - •マネジメント •アナリスト サービス •オンライン・トラン ザクション •オンライン参照 •オンライン参照 •レポーティング(定 型帳票/定型検索) •集計 •データマート作成 •レポーティング •データマイニング /非定型検索 アクセス・ プロファイル •複数ユーザによ る頻繁な検索と更 新 •複数ユーザによ る頻繁な検索 •バッチプロセスに よるデータの集計 とテーブル作成 •複数ユーザによ る頻繁な検索と分 析 ストアデータ 最新のデータ 直近3ヶ月のデー タ 集計対象データ 過去3年間の長期 データ 候補DB Oracle DB2 GreenplumDB GreenplumDB GreenplumDB
  • 27. 27© Copyright 2013 EMC Corporation. All rights reserved. OLTP処理 参照系処理の 高速化(キャッシュ) バッチ処理 データ ウェアハウス トランザクション キャッシュ トランザクション バッチ データ ウェアハウス トラン ザクション トラン ザクション トラン ザクション トランザクション GreenplumDB適用領域 データベース機能別役割(2/2)
  • 28. 28© Copyright 2013 EMC Corporation. All rights reserved. 導入事例: 国内大手製造業者様 (1/3) • システム概要 • ORACLE/DBをDBMSとして採用したCRMシステム。 • 社内、関連会社に偏在する「顧客接点情報」を統合・一元管理する事で「戦略立案」、「営業施策」、「 KPI実績把握」を支援 • 100項目ほどの検索条件をエンドユーザ(全国の営業、本社企画立案部門、)が自由に設定し検索で きる機能を提供。 • システムの課題 • 性能 :データローディング、検索に長時間かかりエンドユーザーの使用に耐えない。 • コスト:製品コスト、運用コストともに高コスト • 要員 :DBエンジニアの確保が困難 • 対応策 • DWH製品を導入し、ORACLE/DBのスキーマをそのままDWH/DBに移行し、ユーザはDWH/DBに対して 検索。謂わばORACLE/DBのキャッシュとしてDWH/DBを活用。 • 製品選定理由 • 性能(レスポンス&スループット),初期コスト,拡張コスト,運用コスト、スケーラビリティ全ての点で競合他 社(4社)に比べてGreenplumが圧倒的な優位性をベンチマークテストで実証 オラクルスキーマを変更無しに移行 バッチ処理20倍高速化 非定型検索28倍高速化 定型検索13倍高速化 ロード性能103倍高速化 バッチ処理高速化 オラクル負荷のオフロード
  • 29. 29© Copyright 2013 EMC Corporation. All rights reserved. 導入事例: 国内大手製造業者様 (2/3) BIツール (非定型クエリ用) OracleDB ソース ローディング/OLTP • BIツールがOracleへクエリを実行 • データソースからのデータはOracleDBへロード ソース ソース GreenplumDB導入前システム バッチ処理高速化 オラクル負荷のオフロード
  • 30. 30© Copyright 2013 EMC Corporation. All rights reserved. 導入事例: 国内大手製造業者様 (3/3) GPDB BIツール (非定型クエリ用) ソース ローディング/OLTP • BIツールがGreenplumへクエリを実行 • データの変換はされず、OracleとGreenplumのデータは、1:1の関係に ある • Oracle - Greenplum間のデータ連携をトランザクション毎に実施 ソース ソース トランザクション毎の データ連携 OracleDB GreenplumDB導入後システム(現在〜今後) よりシームレスなデータ連携へ (連携ツール選定中) バッチ処理高速化 オラクル負荷のオフロード
  • 31. 31© Copyright 2013 EMC Corporation. All rights reserved. 優れたコストパフォーマンスと柔軟な拡張性により、SQL Serverで出来なかった処理を可能に 導入事例: トライアルカンパニー様 用途 • フェーズ1: 店舗展開や販売管理、調達管理などの戦略立案を行う際の売上レポート作成・データ分析 • フェーズ2: バスケット分析などの複雑なデータ分析 採用理由 • スケールアウト型ソリューション • コモディティ・テクノロジーの採用 • コストパフォーマンスの高さ 効果 • 戦略的データ活用基盤として、将来の店舗拡大によるデータ増加に随時対応できる拡張性をもった • GreenplumDB導入によるシステム能力の劇的な向上により、従来のSQL Serverで30分以上かかっていた集計処理 (1800万から274万抽出)のレスポンスを約250倍の性能向上となる7秒で達成 • 既存処理時間の大幅な削減により、GISデータを取り込んだ出店政策支援を実現
  • 32. 32© Copyright 2013 EMC Corporation. All rights reserved. おわりに
  • 33. 33© Copyright 2013 EMC Corporation. All rights reserved. アナリティクス時代のIT基盤 • 企業の保有データ量は 増加し、既存のインフラ では追いつかない • 社外に存在する、「ビジ ネスに活用できるデータ 」はそれ以上に増加 • キャパシティ・プランニン グが困難・不可能 スケールアップから スケールアウトへの 転換が必要 • スモール・スタートが 可能 • 柔軟な拡張 データ増加が予測できない時代に最適なアーキテクチャの選択 従来型インフラでは対応が困難 アーキテクチャの転換
  • 34. 34© Copyright 2013 EMC Corporation. All rights reserved. アナリティクス時代のIT基盤 • 企業の保有データ量は 増加し、既存のインフラ では追いつかない • 社外に存在する、「ビジ ネスに活用できるデータ 」はそれ以上に増加 • キャパシティ・プランニン グが困難・不可能 データ増加が予測できない時代に最適なアーキテクチャの選択 従来型インフラでは対応が困難 アーキテクチャの転換 ビッグデータ分析 プラットフォーム スケールアウト型 超並列分散処理DB
  • 35. 35© Copyright 2013 EMC Corporation. All rights reserved. アナリティクス時代のIT基盤に求められる テクノロジー・キーワード • スケールアウト・アーキテクチャ – データが増加しても処理時間増加しないアーキテクチャ – 分析の結果が成功するとより多く(量、種類)のデータで分析するニーズが出てくる – ビッグ・データは「量を質」に変化させる試みでもある • スモール・スタート可能な実装 – ROIは事前には想定困難 – プロジェクト初期段階はデータも少ない – プロジェクトの進展と共にデータが増加する • In DB Analytics – 大量データを高速に処理する必要性 – スピードが価値を生む – 非定形処理を何度も繰り返す(イテレーションの重要性) • オープンなアーキテクチャ – 今後登場してくる様々な新技術を迅速に適用できる事が重要 – クラウド対応 • 機械学習テクノロジー( Machine Learning )
  • 36. 36© Copyright 2013 EMC Corporation. All rights reserved. 今後のGreenplum関連のセッション • 5/30(木) Session5: 17:00 - 17:45 – EMCジャパン株式会社 中村 完 – EMC Big Data Solution by Greenplum - Integrated analytic platform for the coming cloud era - • 5/31(金) Session3: 15:00 - 15:45 – ヴイエムウェア株式会社 市村 友寛 – Pivotal Data Management Solution by EMC/VMware - Making Big, Fast Data scale for your business -