SlideShare a Scribd company logo
© 2017 NTT DATA INTELLILINK Corporation
ほんとに使える?Big Data SQL検証結果から見る
その有益性(性能編)
NTTデータ先端技術株式会社オラクル事業部
チーフエンジニア 煤田 弘法
2© 2017 NTT DATA INTELLILINK Corporation
1. Exadata、Big Data ApplianceおよびBig Data SQLのご紹介
2. 検証の概要
3. 検証の環境および条件
4. 検証結果のサマリ
5. 検証結果の詳細および考察
アジェンダ
© 2017 NTT DATA INTELLILINK Corporation 3
1. Exadata、Big Data Applianceおよび
Big Data SQLのご紹介
4
4© 2017 NTT DATA INTELLILINK Corporation
Oracle Exadata 概要
■あらゆるワークロードに対して最適なパフォーマンスを提供する統合DB基盤!
PCIフラッシュ・ドライブ構成。X5~
※1:Exadata Technical Deep Dive:Architecture and Internals:http://www.oracle.com/technetwork/database/exadata/exadatatechnicaldeepdive-3518309.pdf
※1
5
5© 2017 NTT DATA INTELLILINK Corporation
Oracle Big Data Appliance (BDA) 概要
■事前最適化されたビッグデータ活用Hadoopプラットフォーム
※1:オラクルのHadoopソリューションご紹介:https://www.slideshare.net/oracle4engineer/oraclehadoop
※1
※2:Getting Real About Big Data: Build Versus Buy:http://www.oracle.com/us/corporate/analystreports/esg-getting-real-bigdata-2228170.pdf
事前最適化されたアプライアンス
製品であるため、
45% 導入コスト削減!
35% 構築期間削減!
※2
6
6© 2017 NTT DATA INTELLILINK Corporation
Oracle Big Data Appliance (BDA) 概要
■ビッグデータの蓄積から変換までを効率的に行うためのビッグデータ活用Hadoop基盤!
Exadata
(RDBMS)
ORACLE
Big Data Appliance
(Hadoop)
得意な部分を組み合わせることで、効果を発揮!
7
7© 2017 NTT DATA INTELLILINK Corporation
RDBMS と Hadoop エコシステムの効果的な組合せ方法
※1:クラウドでもデータマネジメントが命!~クラウドで加速するビッグデータ活用の未来~:http://www.oracle.co.jp/events/platform2017/download/
※1
「IoTデータなどの蓄積」、「大量データの分散処理」などが得意!
Hadoopの苦手なところは、
Oracle Databaseが得意なところ!
8
8© 2017 NTT DATA INTELLILINK Corporation
Oracle Big Data SQL (BDS) 概要
■すべてのデータにSQL一つで、高速に、セキュアに!
SQL
必要データ
のみ移動
SQL
ExadataBig Data Appliance
Smart Scan
クエリをBDAのデータノードへ
オフロード
Storage Index
クエリに必要なブロックのみを
スキャン
Predicate Pushdown
Hadoopが得意な処理を
Hadoop側で実施
結果
外部表
クライアント
ソース
Big Data SQLによる処理範囲
既存のアプリ、
ツール、スキル
そのままで全て
のデータが
クエリ可能!
Big Data SQLにより、Oracle
DatabaseとHadoopを簡単に
組み合わせることが可能!
9
9© 2017 NTT DATA INTELLILINK Corporation
Big Data Appliance お客様事例 某コーヒーチェーン様
※1:クラウドでもデータマネジメントが命!~クラウドで加速するビッグデータ活用の未来~:http://www.oracle.co.jp/events/platform2017/download/
※1
© 2017 NTT DATA INTELLILINK Corporation 10
2.検証の概要
11
11© 2017 NTT DATA INTELLILINK Corporation
■検証目的
■検証の拠点、機器
NTTデータ先端技術 株式会社
Oracle Engineered Systemsラボにて
検証を実施。
検証の概要
現行のExadataのDWH処理をオフロード
した際に、どの程度の性能差があるのか
シナリオ1:DWH処理の単体性能差
シナリオ2:OLTP処理への影響差
DWHワークロードを、Exadata単体で実行した場合と、
Exadata + Big Data Appliance /Big Data SQLで実行
した場合とでの単体性能を比較します。
Big Data SQLの強みの確認
Exadata 上でOLTPを実行し、DWH処理を Exadata 上で同
時実行した場合と、Big Data Applianceへオフロードした
場合で、高負荷時のOLTP処理の劣化状況を比較します。
© 2017 NTT DATA INTELLILINK Corporation 12
3.検証の環境および条件
13
13© 2017 NTT DATA INTELLILINK Corporation
検証の環境
Big Data Appliance X5-2 Starter Rack
BDA 4.4
Cloudera Enterprise Data Hub Edition
V5.5.1 6 node
Big Data SQL 3.1
Exadata X5-2 Quarter Rack Extreme Flash
Exadata Storage Server Software 12.1.2.1.2
Oracle Database/GI 12.1.0.2.170117
CDB構成(シングルテナント)
・SGA : 10GB / PGA : 10GB
ASM Disk Group : Normal Redundancy(2重
化)
10GbEInfiniband
Big Data Appliance Exadata
Exalytics
(クライアント)
最大IOPS
130倍!
※1:Exadata X5-2のデータシートより、SQLフラッシュ最大読取り IOPS(1,036,000 IOPS)とSQLディスク最大IOPS(7,800 IOPS)をもとに計算
最小構成!
※1
14
14© 2017 NTT DATA INTELLILINK Corporation
検証の条件①
• 検証用DBについて
‐ CDB構成のシングルテナントDBを使用
‐ SGA 10GB、PGA 10GB
• 検証用データ・サイズについて
‐ データ・サイズは以下の通り
DWH :5TB
OLTP :10GB
• 表について
- Exadata :実表
- BDA/BDS:外部表(ソースとしてHive表を使用)
• SQLについて
‐ TPC-H(22本)およびswingbenchのSQL文を使用
‐ SQL*Plusおよびswingbenchを使用してSQL文を実行
‐ TPC-Hの並列度は8、16、24の3種類を使用
‐ TPC-Hの計測では、各SQL文を1つずつ実行し、3回の平均を計測
- 各実施前に、CDBの共有プールとバッファキャッシュはフラッシュする
15
15© 2017 NTT DATA INTELLILINK Corporation
検証の条件②
• SQL文の計測について
‐ 計測には、以下のツールを使用
SQL*Plusのautotrace
AWR
SQL監視レポート
dstat
swingbench
16
16© 2017 NTT DATA INTELLILINK Corporation
Oracle Big Data SQLの構成手順
■Oracle Big Data SQL での外部表の構成手順
①ソースの配置
②外部表を定義
ExadataBig Data Appliance
外部表
ソース
HDFS
ソース
17
17© 2017 NTT DATA INTELLILINK Corporation
【参考】Oracle Big Data SQLの構成手順(データの配置方法)
■表の2重持ち
参照
ExadataBDA
Hive表
外部表
過去
データ
■表の分散配置
実表
直近
データ
参照
ExadataBDA
Hive表
外部表
全データ
実表
直近
データ
随時移動
・直接BDA上のデータを参照すること場合に有効
・データの2重持ちが発生する
■同一の実表
ExadataBDA
データファイル データファイル
実表
従来の実表と
同じ使用方法
✓今回の検証では、同一の表を使
用しての性能検証となるため、
同一の表を、ExadataとBDAの
両方に配置する
・UNION等で結合
・データの2重持ち無し
18
18© 2017 NTT DATA INTELLILINK Corporation
【参考】Oracle Big Data SQLの構成手順(データのローディング方法)
■Table Space in HDFS
ExadataBDA
データファイル
実表
データファイル
実表
移動
ExadataBDA
Hive表
参照
外部表
実表ダンプ/配置
参照
ダンプファイル
参照
ExadataBDA
Hive表 外部表
実表
ローディング
■Apache Sqoop ■Copy To Hadoop
✓今回の検証では、はじめにテキ
スト形式のフラット・ファイル
用意したため、フラット・ファ
イルをHDFSへの配置し、外部
表を定義しました。
© 2017 NTT DATA INTELLILINK Corporation 19
4.検証結果のサマリ
20
20© 2017 NTT DATA INTELLILINK Corporation
1GB 500GB 5TB
データ・サイズ
全SQL合計経過時間比較
シナリオ1:DWH処理の性能差
✓Exadata Extreme Flashとの
性能差は、1.2倍となった。
✓時間差は、データ・サイズが大
きくになる程、縮まっている。
✓幾つかのSQLについては、
Exadataよりも高速になってい
る。
1.2倍!
1.8倍!
7.6倍!
21
21© 2017 NTT DATA INTELLILINK Corporation
シナリオ1:DWH処理の性能差
SQLの性能差は、
全SQL(22本)の約6割以上が1.5倍未満!
SQL経過時間の比較(差の割合)
22
22© 2017 NTT DATA INTELLILINK Corporation
シナリオ2:DWH処理のオフロード
✓OLTPのTPSは、BDAと組み合
わせた場合、OLTPとDWH を
Exadataのみで実行した場合
に比べ、約22%高速となった
✓ワークロード別のトランザク
ション数については、どの
ワークロード要素についても、
約22%高速となった
22%改善!
© 2017 NTT DATA INTELLILINK Corporation 23
5.検証結果の詳細および考察
24
24© 2017 NTT DATA INTELLILINK Corporation
検証から得られた結果および考察
■検証から得られた結果
・データ・サイズおよび読込量
-ORC→I/O量削減
-Snappy→データサイズ削減
→BDSのSQL経過時間に効果
・SQL経過時間(DWH)
-数TB程度→Exadataとほぼ同等もしくは短い
-数GB程度→Exadataが短い
・データ読込の動作の違い
-Oracle DB →Smart Scan、Storage Index(Exadataの場合)
-BDA/BDS →Smart Scan、Storage Index
→Exadataと同じ機能が使用出来る。
→行列絞込み(ORC、Parquetの場合)
■想定されるBDA/BDSの効果的な使用ケース
・データ・サイズ観点
-大福帳や予約台帳など、大量データ(数TB程度)のデータに対して処理を行いたい場合
・データ・フォーマット観点
-様々なデータ・フォーマットのIoTデータに対する、列の絞込みなどを行いたい場合
-列指向処理は行いたいが、In-Memoryオプションでは技術的に敷居が高い場合
-既存のRDBのデータと、現在増加しつつあるIoTのデータの組合せを行いたい場合
-大福帳や予約台帳など、大量データを機械学習のデータとしても使用したい場合
・その他
-Hadoopは扱いたいが、DBのエンジニアしかいない場合
-システム基盤において、大量データのディスクI/Oが、ボトルネックの原因となる可能性がある場合
-1000列を超えるような多くの属性を持つデータ(一般的なRDBMSでは1表の列数は1000程度)
DWHを簡単にオフロード出来、経過時間や
ディスクI/Oに大きな効果が得られる!
Oracle DBと組み合わせることにより、
システム基盤として大きな効果が期待できる!
25
25© 2017 NTT DATA INTELLILINK Corporation
【参考】Oracle Database と Big Data SQLの組み合わせについて
※1:Oracle Database 12c Release 2 コアテク・セミナー:http://otndnld.oracle.co.jp/ondemand/od12c-oct2016/06_DB12201_coretech_BigData_forOTN_v3.pdf
※1
26
26© 2017 NTT DATA INTELLILINK Corporation
SQL別経過時間の比較 データサイズ 約5TB
並列度 最小差 最大差 平均差
8 0.68 8.86 2.06
16 0.97 13.07 2.92
24 1.00 13.19 3.21
0.9
2.0
1.0 1.1 1.0 1.1 1.1 1.5 1.1 1.0
2.0 1.4 1.3
2.3
1.2 1.2 1.3
3.3 3.7
6.5
8.9
0.7
0.0
2.0
4.0
6.0
8.0
10.0
0
1,000
2,000
3,000
4,000
5,000
Exadata BDA/BDS 経過時間比較
1.3 1.0 1.4
4.4
1.1 1.2 1.4 1.4 2.1 1.3
2.7 1.9 2.9 2.4 1.4
4.0
1.3
2.6
4.6
10.0
13.2
7.0
0.0
2.0
4.0
6.0
8.0
10.0
12.0
14.0
0
1,000
2,000
3,000
4,000
Exadata BDA/BDS 経過時間比較
並列度8 SQL経過時間
並列度24 SQL経過時間
✓並列度が低い方が、差が小さく
なる傾向にある。
→厳しいリソース制限があり、並
列度を挙げられない場合でも、
BDAとの組合せで効果が出る。
✓経過時間が長いSQLほど、
ExadataとBDAの経過時間差が
小さくなる傾向にある。
→データ読込に起因する経過時間
増加の場合、BDAの組合せで効果
が出る。
並列度と経過時間差の割合
1.0 1.2 1.2
3.6
1.0 1.2 1.0 1.2 2.1 2.2 2.2 1.0 1.9 3.0 2.3
3.9
1.4 1.4
4.4
9.1
13.1
4.9
0.0
5.0
10.0
15.0
0
1,000
2,000
3,000
4,000
Exadata BDA/BDS 経過時間比較
並列度16 SQL経過時間
検証結果、リソース状況の詳細については
割愛させていただいております。
検証結果、リソース状況の詳細につきましては、お手数ですが
弊社までお問い合わせいただきますようお願いいたします。
NTTデータ先端技術㈱オラクル事業部
oracle-sales@intellilink.co.jp
© 2017 NTT DATA INTELLILINK Corporation

More Related Content

PDF
Oracle Cloud Platform:サービス概要と活用ケースのご紹介
PPTX
超高速な機械学習を Oracle Database で実現!
PPTX
Oracle Data Minerハンズオンセミナー170927:①Oracle 機械学習概要
PPTX
Oracle Management Cloudのご紹介
PPTX
Zero Data Loss Recovery Appliance 設定手順例
PPTX
Oracle Advanced Analytics 概要
PPTX
Oracle Data Minerハンズオンセミナー170927:②Oracle data minerハンズオン資料
PPTX
Oracle Data Minerハンズオンセミナー170927:③Business Analytics概要と事例
Oracle Cloud Platform:サービス概要と活用ケースのご紹介
超高速な機械学習を Oracle Database で実現!
Oracle Data Minerハンズオンセミナー170927:①Oracle 機械学習概要
Oracle Management Cloudのご紹介
Zero Data Loss Recovery Appliance 設定手順例
Oracle Advanced Analytics 概要
Oracle Data Minerハンズオンセミナー170927:②Oracle data minerハンズオン資料
Oracle Data Minerハンズオンセミナー170927:③Business Analytics概要と事例

What's hot (20)

PDF
Oracle Data Integrator Cloud Serviceユーザーズガイド
PDF
CASB Cloud Service / Identity Cloud Service ご紹介
PDF
[db analytics showcase Sapporo 2017] B27:世界最速のAnalytic DBはHadoopの夢を見るか by 株式会...
PDF
【2016年3月時点】クラウド型 BI だからできる新たな情報活用方法
PDF
[db tech showcase OSS 2017] A14: IoT時代のデータストア--躍進するNoSQL、拡張するRDB by OSSコンソーシア...
PDF
20160323 道玄坂LT祭り オラクル資料
PDF
20151209 Oracle DDD オラクルで実現するクラウド・マシン・ラーニング
PPTX
20160301 5日でできるクラウドで始めるデータ利活用 新日鉄住金ソリューションズ株式会社
PDF
[db tech showcase Tokyo 2015] D23:MySQLはドキュメントデータベースになり、HTTPもしゃべる - MySQL Lab...
PDF
20170714_MySQLドキュメントストア JSONデータ型&JSON関数 by 日本オラクル株式会社 MySQL GBU 山﨑由章
PDF
オラクルコンサルが語る!オラクルPaaS活用術(データベース・クラウド)(Oracle Cloud Days Tokyo 2015)
PDF
クラウドを使って競争優位なビッグデータ活用の実現へ [Oracle Cloud Days Tokyo 2016]
PDF
ログ分析からセキュリティ監視まで:Oracle Management Cloudで実現するIT運用データのビッグデータ分析 [Oracle Cloud D...
PDF
ITアーキテクトのためのOracle Cloud Platform設計・構築入門 [Oracle Cloud Days Tokyo 2016]
PPTX
Oracle Labs 発! Parallel Graph AnalytiX(PGX)
PDF
Oracle Big Data SQL3.1のご紹介
PDF
オラクルクラウドで開発を~サーバからDB/アプリケーションサーバ準備が、2時間で~
PDF
0151209 Oracle DDD OracleとHadoop連携の勘所
PDF
Oracle Cloud IaaS活用:VMwareをそのままパブリック・クラウドへ&Windowsならオラクル [Oracle Cloud Days T...
PPTX
【2017年5月時点】セルフサービスBIからエンタープライズまで展開できるOracle Business Analytics クラウドプラットフォームのご紹介
Oracle Data Integrator Cloud Serviceユーザーズガイド
CASB Cloud Service / Identity Cloud Service ご紹介
[db analytics showcase Sapporo 2017] B27:世界最速のAnalytic DBはHadoopの夢を見るか by 株式会...
【2016年3月時点】クラウド型 BI だからできる新たな情報活用方法
[db tech showcase OSS 2017] A14: IoT時代のデータストア--躍進するNoSQL、拡張するRDB by OSSコンソーシア...
20160323 道玄坂LT祭り オラクル資料
20151209 Oracle DDD オラクルで実現するクラウド・マシン・ラーニング
20160301 5日でできるクラウドで始めるデータ利活用 新日鉄住金ソリューションズ株式会社
[db tech showcase Tokyo 2015] D23:MySQLはドキュメントデータベースになり、HTTPもしゃべる - MySQL Lab...
20170714_MySQLドキュメントストア JSONデータ型&JSON関数 by 日本オラクル株式会社 MySQL GBU 山﨑由章
オラクルコンサルが語る!オラクルPaaS活用術(データベース・クラウド)(Oracle Cloud Days Tokyo 2015)
クラウドを使って競争優位なビッグデータ活用の実現へ [Oracle Cloud Days Tokyo 2016]
ログ分析からセキュリティ監視まで:Oracle Management Cloudで実現するIT運用データのビッグデータ分析 [Oracle Cloud D...
ITアーキテクトのためのOracle Cloud Platform設計・構築入門 [Oracle Cloud Days Tokyo 2016]
Oracle Labs 発! Parallel Graph AnalytiX(PGX)
Oracle Big Data SQL3.1のご紹介
オラクルクラウドで開発を~サーバからDB/アプリケーションサーバ準備が、2時間で~
0151209 Oracle DDD OracleとHadoop連携の勘所
Oracle Cloud IaaS活用:VMwareをそのままパブリック・クラウドへ&Windowsならオラクル [Oracle Cloud Days T...
【2017年5月時点】セルフサービスBIからエンタープライズまで展開できるOracle Business Analytics クラウドプラットフォームのご紹介
Ad

Similar to ほんとに使える?Big Data SQL検証結果から見る、その有益性(性能編) (20)

PDF
[Oracle Cloud Days Tokyo2015]成功事例に学べ! ビッグデータ活用のための最新ベストプラクティス
PDF
オラクルのHadoopソリューションご紹介
PDF
脱Excelで部門のデータ管理業務を 効率化するデータ活用クラウド
PDF
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
PDF
20161125 Asakusa Framework Day オラクル講演資料
PDF
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
PDF
Oracle Big Data Cloud Serviceのご紹介
PDF
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
PDF
もうSQLとNoSQLを選ぶ必要はない!?~両者を備えたスケールアウトデータベースGridDB~
PDF
【OCP Summit 2016】ユースケースで解説、オラクルクラウドによるアプリケーション性能とログ分析
PDF
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~
PDF
ビッグIoTデータに対応したデータベース GridDB
PPTX
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
PDF
Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ~事例とデモから見えてくる、これからのデー...
PPTX
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
PDF
NTT DATA と PostgreSQL が挑んだ総力戦
PDF
IoT時代を迎えて、あなたのシステムは今までのDBで充分ですか?~ GridDBとその適用事例紹介 ~
PDF
サイバーフィジカルシステム(CPS)に必要なデータ基盤を考える ~ NoSQL/SQLハイブリット型GridDB ~
PDF
DDD 2016 DB 12c クエリー・オプティマイザ新機能活用と統計情報運用の戦略
PDF
[Modern Cloud Day Tokyo 2019] 次世代型データベース・クラウドの魅力に迫る ~ Autonomous Database Dee...
[Oracle Cloud Days Tokyo2015]成功事例に学べ! ビッグデータ活用のための最新ベストプラクティス
オラクルのHadoopソリューションご紹介
脱Excelで部門のデータ管理業務を 効率化するデータ活用クラウド
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
20161125 Asakusa Framework Day オラクル講演資料
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
Oracle Big Data Cloud Serviceのご紹介
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
もうSQLとNoSQLを選ぶ必要はない!?~両者を備えたスケールアウトデータベースGridDB~
【OCP Summit 2016】ユースケースで解説、オラクルクラウドによるアプリケーション性能とログ分析
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~
ビッグIoTデータに対応したデータベース GridDB
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ~事例とデモから見えてくる、これからのデー...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
NTT DATA と PostgreSQL が挑んだ総力戦
IoT時代を迎えて、あなたのシステムは今までのDBで充分ですか?~ GridDBとその適用事例紹介 ~
サイバーフィジカルシステム(CPS)に必要なデータ基盤を考える ~ NoSQL/SQLハイブリット型GridDB ~
DDD 2016 DB 12c クエリー・オプティマイザ新機能活用と統計情報運用の戦略
[Modern Cloud Day Tokyo 2019] 次世代型データベース・クラウドの魅力に迫る ~ Autonomous Database Dee...
Ad

More from オラクルエンジニア通信 (20)

PDF
Oracle Cloud Infrastructure:2023年5月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2023年4月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2023年3月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2023年2月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2023年1月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2022年12月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2022年11月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2022年10月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2022年9月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2022年8月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2022年7月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2022年6月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2022年5月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2022年4月度サービス・アップデート
PDF
Oracle Cloud Infrastructure データベース・クラウド:各バージョンのサポート期間 (2022年4月版)
PPTX
MySQL Technology Cafe #14 MySQL Shellを使ってもっと楽をしようの会
PDF
Oracle Cloud Infrastructure:2022年3月度サービス・アップデート
PPTX
Oracle Cloud Infrastructure:2022年2月度サービス・アップデート
PDF
Oracle Cloud Infrastructure:2022年1月度サービス・アップデート
PDF
Oracle Databaseはクラウドに移行するべきか否か 全10ケースをご紹介 (Oracle Cloudウェビナーシリーズ: 2021年11月30日)
Oracle Cloud Infrastructure:2023年5月度サービス・アップデート
Oracle Cloud Infrastructure:2023年4月度サービス・アップデート
Oracle Cloud Infrastructure:2023年3月度サービス・アップデート
Oracle Cloud Infrastructure:2023年2月度サービス・アップデート
Oracle Cloud Infrastructure:2023年1月度サービス・アップデート
Oracle Cloud Infrastructure:2022年12月度サービス・アップデート
Oracle Cloud Infrastructure:2022年11月度サービス・アップデート
Oracle Cloud Infrastructure:2022年10月度サービス・アップデート
Oracle Cloud Infrastructure:2022年9月度サービス・アップデート
Oracle Cloud Infrastructure:2022年8月度サービス・アップデート
Oracle Cloud Infrastructure:2022年7月度サービス・アップデート
Oracle Cloud Infrastructure:2022年6月度サービス・アップデート
Oracle Cloud Infrastructure:2022年5月度サービス・アップデート
Oracle Cloud Infrastructure:2022年4月度サービス・アップデート
Oracle Cloud Infrastructure データベース・クラウド:各バージョンのサポート期間 (2022年4月版)
MySQL Technology Cafe #14 MySQL Shellを使ってもっと楽をしようの会
Oracle Cloud Infrastructure:2022年3月度サービス・アップデート
Oracle Cloud Infrastructure:2022年2月度サービス・アップデート
Oracle Cloud Infrastructure:2022年1月度サービス・アップデート
Oracle Databaseはクラウドに移行するべきか否か 全10ケースをご紹介 (Oracle Cloudウェビナーシリーズ: 2021年11月30日)

Recently uploaded (10)

PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
PDF
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
PDF
Qlik TECH TALK セミナー:What's New In Qlik ~ 2025年7月リリース最新機能のご紹介
PDF
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
PDF
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
PDF
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
PDF
細胞培養用バイオリアクターおよび発酵槽市場規模の成長見通し:2031年には2823百万米ドルに到達へ
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
PDF
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
PDF
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
Qlik TECH TALK セミナー:What's New In Qlik ~ 2025年7月リリース最新機能のご紹介
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
細胞培養用バイオリアクターおよび発酵槽市場規模の成長見通し:2031年には2823百万米ドルに到達へ
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告

ほんとに使える?Big Data SQL検証結果から見る、その有益性(性能編)

  • 1. © 2017 NTT DATA INTELLILINK Corporation ほんとに使える?Big Data SQL検証結果から見る その有益性(性能編) NTTデータ先端技術株式会社オラクル事業部 チーフエンジニア 煤田 弘法
  • 2. 2© 2017 NTT DATA INTELLILINK Corporation 1. Exadata、Big Data ApplianceおよびBig Data SQLのご紹介 2. 検証の概要 3. 検証の環境および条件 4. 検証結果のサマリ 5. 検証結果の詳細および考察 アジェンダ
  • 3. © 2017 NTT DATA INTELLILINK Corporation 3 1. Exadata、Big Data Applianceおよび Big Data SQLのご紹介
  • 4. 4 4© 2017 NTT DATA INTELLILINK Corporation Oracle Exadata 概要 ■あらゆるワークロードに対して最適なパフォーマンスを提供する統合DB基盤! PCIフラッシュ・ドライブ構成。X5~ ※1:Exadata Technical Deep Dive:Architecture and Internals:http://www.oracle.com/technetwork/database/exadata/exadatatechnicaldeepdive-3518309.pdf ※1
  • 5. 5 5© 2017 NTT DATA INTELLILINK Corporation Oracle Big Data Appliance (BDA) 概要 ■事前最適化されたビッグデータ活用Hadoopプラットフォーム ※1:オラクルのHadoopソリューションご紹介:https://www.slideshare.net/oracle4engineer/oraclehadoop ※1 ※2:Getting Real About Big Data: Build Versus Buy:http://www.oracle.com/us/corporate/analystreports/esg-getting-real-bigdata-2228170.pdf 事前最適化されたアプライアンス 製品であるため、 45% 導入コスト削減! 35% 構築期間削減! ※2
  • 6. 6 6© 2017 NTT DATA INTELLILINK Corporation Oracle Big Data Appliance (BDA) 概要 ■ビッグデータの蓄積から変換までを効率的に行うためのビッグデータ活用Hadoop基盤! Exadata (RDBMS) ORACLE Big Data Appliance (Hadoop) 得意な部分を組み合わせることで、効果を発揮!
  • 7. 7 7© 2017 NTT DATA INTELLILINK Corporation RDBMS と Hadoop エコシステムの効果的な組合せ方法 ※1:クラウドでもデータマネジメントが命!~クラウドで加速するビッグデータ活用の未来~:http://www.oracle.co.jp/events/platform2017/download/ ※1 「IoTデータなどの蓄積」、「大量データの分散処理」などが得意! Hadoopの苦手なところは、 Oracle Databaseが得意なところ!
  • 8. 8 8© 2017 NTT DATA INTELLILINK Corporation Oracle Big Data SQL (BDS) 概要 ■すべてのデータにSQL一つで、高速に、セキュアに! SQL 必要データ のみ移動 SQL ExadataBig Data Appliance Smart Scan クエリをBDAのデータノードへ オフロード Storage Index クエリに必要なブロックのみを スキャン Predicate Pushdown Hadoopが得意な処理を Hadoop側で実施 結果 外部表 クライアント ソース Big Data SQLによる処理範囲 既存のアプリ、 ツール、スキル そのままで全て のデータが クエリ可能! Big Data SQLにより、Oracle DatabaseとHadoopを簡単に 組み合わせることが可能!
  • 9. 9 9© 2017 NTT DATA INTELLILINK Corporation Big Data Appliance お客様事例 某コーヒーチェーン様 ※1:クラウドでもデータマネジメントが命!~クラウドで加速するビッグデータ活用の未来~:http://www.oracle.co.jp/events/platform2017/download/ ※1
  • 10. © 2017 NTT DATA INTELLILINK Corporation 10 2.検証の概要
  • 11. 11 11© 2017 NTT DATA INTELLILINK Corporation ■検証目的 ■検証の拠点、機器 NTTデータ先端技術 株式会社 Oracle Engineered Systemsラボにて 検証を実施。 検証の概要 現行のExadataのDWH処理をオフロード した際に、どの程度の性能差があるのか シナリオ1:DWH処理の単体性能差 シナリオ2:OLTP処理への影響差 DWHワークロードを、Exadata単体で実行した場合と、 Exadata + Big Data Appliance /Big Data SQLで実行 した場合とでの単体性能を比較します。 Big Data SQLの強みの確認 Exadata 上でOLTPを実行し、DWH処理を Exadata 上で同 時実行した場合と、Big Data Applianceへオフロードした 場合で、高負荷時のOLTP処理の劣化状況を比較します。
  • 12. © 2017 NTT DATA INTELLILINK Corporation 12 3.検証の環境および条件
  • 13. 13 13© 2017 NTT DATA INTELLILINK Corporation 検証の環境 Big Data Appliance X5-2 Starter Rack BDA 4.4 Cloudera Enterprise Data Hub Edition V5.5.1 6 node Big Data SQL 3.1 Exadata X5-2 Quarter Rack Extreme Flash Exadata Storage Server Software 12.1.2.1.2 Oracle Database/GI 12.1.0.2.170117 CDB構成(シングルテナント) ・SGA : 10GB / PGA : 10GB ASM Disk Group : Normal Redundancy(2重 化) 10GbEInfiniband Big Data Appliance Exadata Exalytics (クライアント) 最大IOPS 130倍! ※1:Exadata X5-2のデータシートより、SQLフラッシュ最大読取り IOPS(1,036,000 IOPS)とSQLディスク最大IOPS(7,800 IOPS)をもとに計算 最小構成! ※1
  • 14. 14 14© 2017 NTT DATA INTELLILINK Corporation 検証の条件① • 検証用DBについて ‐ CDB構成のシングルテナントDBを使用 ‐ SGA 10GB、PGA 10GB • 検証用データ・サイズについて ‐ データ・サイズは以下の通り DWH :5TB OLTP :10GB • 表について - Exadata :実表 - BDA/BDS:外部表(ソースとしてHive表を使用) • SQLについて ‐ TPC-H(22本)およびswingbenchのSQL文を使用 ‐ SQL*Plusおよびswingbenchを使用してSQL文を実行 ‐ TPC-Hの並列度は8、16、24の3種類を使用 ‐ TPC-Hの計測では、各SQL文を1つずつ実行し、3回の平均を計測 - 各実施前に、CDBの共有プールとバッファキャッシュはフラッシュする
  • 15. 15 15© 2017 NTT DATA INTELLILINK Corporation 検証の条件② • SQL文の計測について ‐ 計測には、以下のツールを使用 SQL*Plusのautotrace AWR SQL監視レポート dstat swingbench
  • 16. 16 16© 2017 NTT DATA INTELLILINK Corporation Oracle Big Data SQLの構成手順 ■Oracle Big Data SQL での外部表の構成手順 ①ソースの配置 ②外部表を定義 ExadataBig Data Appliance 外部表 ソース HDFS ソース
  • 17. 17 17© 2017 NTT DATA INTELLILINK Corporation 【参考】Oracle Big Data SQLの構成手順(データの配置方法) ■表の2重持ち 参照 ExadataBDA Hive表 外部表 過去 データ ■表の分散配置 実表 直近 データ 参照 ExadataBDA Hive表 外部表 全データ 実表 直近 データ 随時移動 ・直接BDA上のデータを参照すること場合に有効 ・データの2重持ちが発生する ■同一の実表 ExadataBDA データファイル データファイル 実表 従来の実表と 同じ使用方法 ✓今回の検証では、同一の表を使 用しての性能検証となるため、 同一の表を、ExadataとBDAの 両方に配置する ・UNION等で結合 ・データの2重持ち無し
  • 18. 18 18© 2017 NTT DATA INTELLILINK Corporation 【参考】Oracle Big Data SQLの構成手順(データのローディング方法) ■Table Space in HDFS ExadataBDA データファイル 実表 データファイル 実表 移動 ExadataBDA Hive表 参照 外部表 実表ダンプ/配置 参照 ダンプファイル 参照 ExadataBDA Hive表 外部表 実表 ローディング ■Apache Sqoop ■Copy To Hadoop ✓今回の検証では、はじめにテキ スト形式のフラット・ファイル 用意したため、フラット・ファ イルをHDFSへの配置し、外部 表を定義しました。
  • 19. © 2017 NTT DATA INTELLILINK Corporation 19 4.検証結果のサマリ
  • 20. 20 20© 2017 NTT DATA INTELLILINK Corporation 1GB 500GB 5TB データ・サイズ 全SQL合計経過時間比較 シナリオ1:DWH処理の性能差 ✓Exadata Extreme Flashとの 性能差は、1.2倍となった。 ✓時間差は、データ・サイズが大 きくになる程、縮まっている。 ✓幾つかのSQLについては、 Exadataよりも高速になってい る。 1.2倍! 1.8倍! 7.6倍!
  • 21. 21 21© 2017 NTT DATA INTELLILINK Corporation シナリオ1:DWH処理の性能差 SQLの性能差は、 全SQL(22本)の約6割以上が1.5倍未満! SQL経過時間の比較(差の割合)
  • 22. 22 22© 2017 NTT DATA INTELLILINK Corporation シナリオ2:DWH処理のオフロード ✓OLTPのTPSは、BDAと組み合 わせた場合、OLTPとDWH を Exadataのみで実行した場合 に比べ、約22%高速となった ✓ワークロード別のトランザク ション数については、どの ワークロード要素についても、 約22%高速となった 22%改善!
  • 23. © 2017 NTT DATA INTELLILINK Corporation 23 5.検証結果の詳細および考察
  • 24. 24 24© 2017 NTT DATA INTELLILINK Corporation 検証から得られた結果および考察 ■検証から得られた結果 ・データ・サイズおよび読込量 -ORC→I/O量削減 -Snappy→データサイズ削減 →BDSのSQL経過時間に効果 ・SQL経過時間(DWH) -数TB程度→Exadataとほぼ同等もしくは短い -数GB程度→Exadataが短い ・データ読込の動作の違い -Oracle DB →Smart Scan、Storage Index(Exadataの場合) -BDA/BDS →Smart Scan、Storage Index →Exadataと同じ機能が使用出来る。 →行列絞込み(ORC、Parquetの場合) ■想定されるBDA/BDSの効果的な使用ケース ・データ・サイズ観点 -大福帳や予約台帳など、大量データ(数TB程度)のデータに対して処理を行いたい場合 ・データ・フォーマット観点 -様々なデータ・フォーマットのIoTデータに対する、列の絞込みなどを行いたい場合 -列指向処理は行いたいが、In-Memoryオプションでは技術的に敷居が高い場合 -既存のRDBのデータと、現在増加しつつあるIoTのデータの組合せを行いたい場合 -大福帳や予約台帳など、大量データを機械学習のデータとしても使用したい場合 ・その他 -Hadoopは扱いたいが、DBのエンジニアしかいない場合 -システム基盤において、大量データのディスクI/Oが、ボトルネックの原因となる可能性がある場合 -1000列を超えるような多くの属性を持つデータ(一般的なRDBMSでは1表の列数は1000程度) DWHを簡単にオフロード出来、経過時間や ディスクI/Oに大きな効果が得られる! Oracle DBと組み合わせることにより、 システム基盤として大きな効果が期待できる!
  • 25. 25 25© 2017 NTT DATA INTELLILINK Corporation 【参考】Oracle Database と Big Data SQLの組み合わせについて ※1:Oracle Database 12c Release 2 コアテク・セミナー:http://otndnld.oracle.co.jp/ondemand/od12c-oct2016/06_DB12201_coretech_BigData_forOTN_v3.pdf ※1
  • 26. 26 26© 2017 NTT DATA INTELLILINK Corporation SQL別経過時間の比較 データサイズ 約5TB 並列度 最小差 最大差 平均差 8 0.68 8.86 2.06 16 0.97 13.07 2.92 24 1.00 13.19 3.21 0.9 2.0 1.0 1.1 1.0 1.1 1.1 1.5 1.1 1.0 2.0 1.4 1.3 2.3 1.2 1.2 1.3 3.3 3.7 6.5 8.9 0.7 0.0 2.0 4.0 6.0 8.0 10.0 0 1,000 2,000 3,000 4,000 5,000 Exadata BDA/BDS 経過時間比較 1.3 1.0 1.4 4.4 1.1 1.2 1.4 1.4 2.1 1.3 2.7 1.9 2.9 2.4 1.4 4.0 1.3 2.6 4.6 10.0 13.2 7.0 0.0 2.0 4.0 6.0 8.0 10.0 12.0 14.0 0 1,000 2,000 3,000 4,000 Exadata BDA/BDS 経過時間比較 並列度8 SQL経過時間 並列度24 SQL経過時間 ✓並列度が低い方が、差が小さく なる傾向にある。 →厳しいリソース制限があり、並 列度を挙げられない場合でも、 BDAとの組合せで効果が出る。 ✓経過時間が長いSQLほど、 ExadataとBDAの経過時間差が 小さくなる傾向にある。 →データ読込に起因する経過時間 増加の場合、BDAの組合せで効果 が出る。 並列度と経過時間差の割合 1.0 1.2 1.2 3.6 1.0 1.2 1.0 1.2 2.1 2.2 2.2 1.0 1.9 3.0 2.3 3.9 1.4 1.4 4.4 9.1 13.1 4.9 0.0 5.0 10.0 15.0 0 1,000 2,000 3,000 4,000 Exadata BDA/BDS 経過時間比較 並列度16 SQL経過時間 検証結果、リソース状況の詳細については 割愛させていただいております。 検証結果、リソース状況の詳細につきましては、お手数ですが 弊社までお問い合わせいただきますようお願いいたします。 NTTデータ先端技術㈱オラクル事業部 oracle-sales@intellilink.co.jp
  • 27. © 2017 NTT DATA INTELLILINK Corporation