Amazon Redshift 
ANALYZEの必要性 
& 
VACUUMの落とし穴
• 深尾 もとのぶ(フリーランス) 
• AWS歴:9ヶ月(2014年3月~) 
• 得意分野:シェルスクリプト 
• 好きなAWS:Redshift
ビッグデータをSQLで 
簡単かつ高速に処理できるDB
S3 
Redshift 
S3 psqlコマンドサマリー 
広告配信の集計システム 
MySQL 
AP 
Relay 
バッチサーバ
Web広告の集計 
• 表示回数, クリック, 予算 
• データ量:5,000件/秒以上 
• 集計間隔:1分 
• 集計所要時間:10秒
事例1 
A N A LY Z E を実行していない
ANALYZEとは? 
ANALYZE 
クエリプランナーで使用するテーブル統計を更新します。 
分布状況やサイズによって 
SQLのクエリプランを最適化
A N A LY Z E を実行しないと 
何が起きたの?
集計処理を軽くしたはずが 
逆に極端に重くなった
総データ量 
集計所要時間 
利用データ量
TIMESTAMP 
(SORTKEY) UID 
10/31 23:55 abc 
10/31 23:56 def 
10/31 23:57 ghi 
10/31 23:58 jkl 
10/31 23:59 mno 
11/1 0:00 pqr 
11/1 0:01 stu 
11/1 0:02 vwx 
11/1 0:03 yz 
SELECT UID 
FROM <TABLE> 
WHERE 
 <SORTKEY> >= ’11/1 0:00’ 
10/31以前のデータを 
スキップしてI/Oを削減
軽くなるはずが・・・ 
クエリの実行時間が30 倍 
40秒1200秒 
クエリ実行中の 
 ストレージ使用率2倍 
メモリの大量消費?
原因 
ANALYZEを実行しておらず 
テーブル統計が実際と乖離 
テーブル統計が更新されるのは 
ANALYZE
psql (8.4.20, server 8.0.2) 
WARNING: psql version 8.4, server version 8.0. 
Some psql features might not work. 
SSL connection (cipher: ECDHE-RSA-AES256-SHA, bits: 
256) 
Type "help" for help. 
dmt01=> 
dmt01=> 
dmt01=> 
ANALYZE; 
テーブル統計を更新
クエリの所要時間 
40 秒 
秒 
1200 
10 
秒 
初期状態 
対象絞り込み 
ANALYZE後
教訓 
定期的にA N A LY Z E で 
テーブル統計を更新する
事例2 
D E L E T E 後のV A C U U M
VACUUMとは? 
VACUUM 
行のスペースの再利用や行の再ソートを行います。 
•データ削除後の解放 
•SORTKEYによるソート 
(差分ソートと全ソート)
ソートは2種類 
•通常は差分ソート 
• DELETE後は全ソート
通常は差分ソート 
古い新しい 
ソート済み 
VACUUM実行 
ソート済み 
未ソート 
未ソート 
VACUUM実行 
ソート済み 
追加 
追加
DELETE後は全ソート 
古い新しい 
ソート済み 
DELETE実行 
ソート対象 
VACUUM実行 
削除 
未解放 
解放+全ソート 
解放済ソート済み
その結果、 
DELETE後に残ったのデータの 
7 ソートに 
時間
DELETE後の全ソートを 
避けることはできない 
DELETE ONLYやSORT ONLYを使えば 
解放とソートを区別することはできるが 
差分ソートと全ソートを 
区別して実行することはできない。
どうやって古いデータを 
削除するの?
時系列テーブルの 
DROPまたはTRUNCATE
時系列テーブルとは? 
時系列テーブルの使用 
データの保存期間が固定されている場合、時系列テーブルの順序でデータを整理することを 
お勧めします。各テーブルは同じであっても、異なる時間範囲のデータが含まれるようにします。 
該当するテーブルで DROP TABLE を実行することで古いデータを簡単に削除できます。大規模な 
DELETE を実行するよりもはるかに高速であり、その後、VACUUM を実行して領域を再利用する 
必要がありません。UNION ALL ビューを作成し、データが異なるテーブルに保存されているとい 
う事実を隠すことができます。古いデータを削除するとき、UNION ALL ビューを微調整し、ドロ 
ップしたテーブルを削除します。同様に、新しい期間を新しいテーブルにロードするとき、新しい 
テーブルをこのビューに追加します。
時系列テーブルとは? 
UNION ALL ビュー 
1月2月3月4月 
5月6月7月 
9月10月11月 
8月 
12月
教訓 
定期的に古いデータを 
削除するなら時系列テーブル
AWS Redshift Analyzeの必要性とvacuumの落とし穴
Let’s try Redshift 
Thank you for your attention.

More Related Content

PPTX
AWSで作る分析基盤
PPT
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
PDF
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
PDF
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
PDF
ビックデータ最適解とAWSにおける新しい武器
PDF
Azure Synapse Analytics 専用SQL Poolベストプラクティス
PDF
クラウドDWHにおける観点とAzure Synapse Analyticsの対応
PDF
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
AWSで作る分析基盤
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
ビックデータ最適解とAWSにおける新しい武器
Azure Synapse Analytics 専用SQL Poolベストプラクティス
クラウドDWHにおける観点とAzure Synapse Analyticsの対応
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)

What's hot (20)

PDF
AWS Black Belt Online Seminar AWSで実現するDisaster Recovery
PDF
Snowflake Architecture and Performance
PPTX
Glue DataBrewでデータをクリーニング、加工してみよう
PDF
AWS Black Belt Online Seminar 2017 AWS WAF
PDF
AWS Black Belt - AWS Glue
PDF
20210127 AWS Black Belt Online Seminar Amazon Redshift 運用管理
PDF
20190205 AWS Black Belt Online Seminar 公共機関によるAWSの利活用
PDF
AWS Black Belt Online Seminar 2017 Amazon ElastiCache
PDF
20190806 AWS Black Belt Online Seminar AWS Glue
PDF
DMBOKをベースにしたデータマネジメント
PDF
20180704 AWS Black Belt Online Seminar Amazon Elastic File System (Amazon EFS...
PDF
AWS Black Belt online seminar 2017 Snowball
PDF
Google Cloud ベストプラクティス:Google BigQuery 編 - 01 : BigQuery とは?
PDF
20180221 AWS Black Belt Online Seminar AWS Lambda@Edge
PDF
20210127 今日から始めるイベントドリブンアーキテクチャ AWS Expert Online #13
PDF
AWS Black Belt Online Seminar Amazon Redshift
PDF
CircleCI vs. CodePipeline
PDF
Amazon Redshiftによるリアルタイム分析サービスの構築
PDF
なぜ「マイクロサービス“化”」が必要なのか
PDF
Sql server よく聞く設定とその効果
AWS Black Belt Online Seminar AWSで実現するDisaster Recovery
Snowflake Architecture and Performance
Glue DataBrewでデータをクリーニング、加工してみよう
AWS Black Belt Online Seminar 2017 AWS WAF
AWS Black Belt - AWS Glue
20210127 AWS Black Belt Online Seminar Amazon Redshift 運用管理
20190205 AWS Black Belt Online Seminar 公共機関によるAWSの利活用
AWS Black Belt Online Seminar 2017 Amazon ElastiCache
20190806 AWS Black Belt Online Seminar AWS Glue
DMBOKをベースにしたデータマネジメント
20180704 AWS Black Belt Online Seminar Amazon Elastic File System (Amazon EFS...
AWS Black Belt online seminar 2017 Snowball
Google Cloud ベストプラクティス:Google BigQuery 編 - 01 : BigQuery とは?
20180221 AWS Black Belt Online Seminar AWS Lambda@Edge
20210127 今日から始めるイベントドリブンアーキテクチャ AWS Expert Online #13
AWS Black Belt Online Seminar Amazon Redshift
CircleCI vs. CodePipeline
Amazon Redshiftによるリアルタイム分析サービスの構築
なぜ「マイクロサービス“化”」が必要なのか
Sql server よく聞く設定とその効果
Ad

Similar to AWS Redshift Analyzeの必要性とvacuumの落とし穴 (20)

PDF
[AWS Start-up ゼミ] よくある課題を一気に解説!〜御社の技術レベルがアップする 2017 夏期講習〜
PPTX
20141126 jaws-antipattern
PPTX
初心者向け負荷軽減のはなし
PDF
AWSのデータベースサービス全体像
PDF
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]
PDF
Dat004 開発者に捧ぐ「sql server_2016_
PDF
エンターテイメント業界におけるAWS活用事例
PDF
Developers.IO 2019 Effective Datalake
PDF
SQL Azure のシームレスな管理
PDF
Awsビギナー向け資料 ec2 20111124
PPTX
SIGMOD 2022 Amazon Redshift Re-invented を読んで
PDF
Hadoopによるリクルートでの技術調査とその活用
PDF
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
PDF
AWS Black Belt Online Seminar Amazon Aurora
PDF
Chugoku db 17th-postgresql-9.6
PDF
Webサービス向け、クラウドデザインパターン:アンチパターン紹介
PPTX
20170510aws blackbeltrds-170510101017
PDF
AWS Black Belt Online Seminar 2016 Amazon EC2 Container Service
PDF
お金をかけないDBチューニング
PDF
[Japan Tech summit 2017] DAL 003
[AWS Start-up ゼミ] よくある課題を一気に解説!〜御社の技術レベルがアップする 2017 夏期講習〜
20141126 jaws-antipattern
初心者向け負荷軽減のはなし
AWSのデータベースサービス全体像
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]
Dat004 開発者に捧ぐ「sql server_2016_
エンターテイメント業界におけるAWS活用事例
Developers.IO 2019 Effective Datalake
SQL Azure のシームレスな管理
Awsビギナー向け資料 ec2 20111124
SIGMOD 2022 Amazon Redshift Re-invented を読んで
Hadoopによるリクルートでの技術調査とその活用
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
AWS Black Belt Online Seminar Amazon Aurora
Chugoku db 17th-postgresql-9.6
Webサービス向け、クラウドデザインパターン:アンチパターン紹介
20170510aws blackbeltrds-170510101017
AWS Black Belt Online Seminar 2016 Amazon EC2 Container Service
お金をかけないDBチューニング
[Japan Tech summit 2017] DAL 003
Ad

AWS Redshift Analyzeの必要性とvacuumの落とし穴