SlideShare a Scribd company logo
45分でわかる
             PostgreSQLの仕組み

                   2012/10/17
               SRA OSS, Inc. Japan
                     山田 努
              tsutomu@sraoss.co.jp

2012/10/17    Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   1
序:目次
   各サーバプロセス
   クライアント/サーバ通信
   データ格納、ストレージ上の記録方式
   SQL実行
   トランザクション処理
   トランザクションログとリカバリ、レプリケーション



2012/10/17   Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   2
プロセス構成
 postmaterがメイン
 常駐支援プロセス
      一部設定に依存                 postmaster
                                                                                    postgres
 接続要求に応じて                       startup
                                                                                    postgres
  子プロセスを起動                     writer        wal writer           checkpointer


                               archiver           stats collector        logger
                               wal receiver                                       wal sender
                               autovacuum launcher                       autovacuum worker

2012/10/17   Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.                    3
各プロセスの役割
 プロセス
 postmaster            PostgreSQLの親プロセス。接続を待ち受けるプロセス。
 postgres              個々のクライアントの要求を処理するプロセス。
 writer                共有バッファをディスクに書き出すプロセス。
 wal writer            WAL書き込みを行うプロセス。
 checkpointer          CHECKPOINT処理を行うプロセス。(9.2)
 archiver              WALログをアーカイブするプロセス。
 logger                PostgreSQLのログをファイルへ書き出すプロセス。
 stats collector       統計情報を収集するプロセス。
 autovacuum launcher   不要領域を監視するプロセス。
 autovacuum worker     自動VACUUMを実行するプロセス。複数起動することがある。
 wal sender            WALをスタンバイサーバへ転送するプロセス。
 wal receiver          WALをマスターサーバから受信するプロセス。
プロセス間通信
 signalによる通知(INT,TERM,USR1)
      Windows版はEvent を使う
      latch (9.1~) pipeを使ってsignalを捉える仕組み
 SysV IPC
      共有メモリ
      セマフォ
 localhost udp
      statistic collecter


2012/10/17         Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   5
クライアント/サーバ
 ソケット通信(tcp/stream)
      unix domain
      IPv4,v6
 接続要求を受けてから fork() する
      ユーザ認証は、子プロセス側で行なわれる
      pg_hba.conf




2012/10/17      Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   6
通信プロトコル
 プロトコルバージョン3.0
 認証
 キャンセルキー
      別の接続経路を使って、中止依頼を送信する
 簡易問い合わせ、SQL文字列で送信
 拡張問い合わせ、PREPAREとEXECUTE
      parse/bind/excute
 notice バックエンドからの通知

2012/10/17      Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   7
データベースクラスタ
 データベースクラスタ
      ファイルシステムに記録されるデータ一式
              initdbコマンドで作成される
      プロセスの集合体
              postmasterプロセス他 (前述)
 データベースクラスタで共有される情報
      ロール、データベース
      global/ ディレクトリ = pg_globalテーブルスペース



2012/10/17            Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   8
プロセスとデータベースクラスタ
                    データベースクラスタ
  initdb     生成
 コマンド
                                             テンプレート
                  template0     template1    データベース
postmaster
 プロセス

             対応       userdb1      userdb2    postgres
 postgres
 プロセス                                        データベース
             対応
 postgres         postgres user1    user2 ロール
 プロセス
データ格納
 ファイルシステム上の1ディレクトリ
      ディレクトリ構成
              global/
                   pg_control …
                base/数字(データベース)/数字(リレーション)
                pg_clog/
                pg_xlog/16進数24桁(トランザクションログ)
                pg_tblspc/シンボリックリンク(テーブルスペース)
                *.conf (設定ファイル)



2012/10/17                Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   10
テーブルデータ
 リレーション単位(テーブル、インデックス)
      pg_class.relfilenode, oidで管理
              pg_filenode.map, pg_relation_filenode()
      1ファイル 1GBに分割
      TOAST (The Oversized-Attribute Storage
       Technique)
 _fsm (Free Space Map),_vm (Visibility Map)
      タプルが見える = 有効である = VACUUM不要
      index only scanでも利用

2012/10/17              Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   11
ブロック構造
 タプル(行)データはブロック単位で管理
         テーブルファイル
                                              ctid = (1, 1)
                                                pd_linp[0]            ctid = (1, 2)         ctid = (1, 3)
   8kB       0ページ                  PageHeaderData                          pd_linp[1]            pd_linp[2]
                                pd_linp[3]           …                           pd_linp[n]
   8kB       1ページ           ctid = (1, 4)                                   ctid = (1, n + 1)

                                                                                         pd_lower
   8kB       2ページ                                            フリースペース
                                                             フリースペース

                                                     pd_upper
              …
                                                                              タプルn                 …
                                タプル3                 タプル2                  タプル1                 特殊データ
   8kB       nページ
             nページ
                                                                   pd_special
      ページサイズは最大32kB


2012/10/17            Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.                               12
VACUUM
 追記型アーキテクチャ
   世代管理
   トランザクションID周回問題
 不要領域の回収
 HOT (Heap Only Tuple)
   更新内容を同じページ内に記録してリンクを作る。インデッ
    クスの更新を不要にする。適時不要領域の回収が可能。
   fill factor
SQL実行処理
 parse
      prepare/bind
 rewrite
 planner/optimizer
 executer




2012/10/17       Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   14
パース、リライト
 パースツリー
   デバックログ
     debug_print_parse / debug_print_rewritten /
      debug_print_plan
 SQLの書き換え(rewrite)
   pg_rules (pg_rewrite)
   pg_views
最適化処理
 optimizer
      ルールによるクエリ書き換え
      FROM JOINの組合せ、順序
 コスト計算
      スキャン方法の選択
      ANALYZEによる統計情報
 ヒント句はない
      設定パラメータの影響も少ない


2012/10/17    Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   16
executor
 プランに従って、データの参照・更新を行なう
 共有バッファの管理




                ページ
  エグゼキュータ
                       対応する   ブロック
                       ページが
                       既にあれば
            共有バッファメ    ブロックは テーブルファイル
  クライアント    モリ         読まない
データ書き込み
 更新はトランザクションログと共有バッファに行なう

          エグゼキュータ
           データ変更
                                     非同期書き込み
   変更01
             (1)   (2)               クラッシュしたら
   変更02                       ページ    トランザクションログ
   変更03                              から復旧
                                                  ブロック


トランザクションログ               共有バッファメモリ
(pg_xlog)
トランザクション隔離と同時実行
 MVCC (MultiVersion Concurrency Control)
  多版型同時実行制御
 追記型
      トランザクションIDを使った管理
 タプルは特殊なカラムを持っている
      xmin,xmax,cmin,cmax
      作られた時、消された時、その操作をしたトランザクション
              コマンドID (ex) CURSOR FETCHで見えるか見えないか



2012/10/17           Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   19
コミットログ
 pg_clog/
   トランザクションの状態
   実行中 / COMMITED / ABORTED

 参考文献
   Mvcc Unmasked - Bruce Momjian
     January, 2012
     http://momjian.us/main/writings/pgsql/mvcc.pdf
トランザクションログ
 pg_xlog/
 WAL (write ahead log)
      何を実行したかの記録
              バッファに対する変更内容を記録
              XLogInsert()
      確実に記録するために同期書き込み
              複数の実行バックエンドのための処理が入る
              共有バッファの更新前に処理される(共有バッファの同期は後述)




2012/10/17         Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   21
リカバリ
 recoveryモード
      プログラム起動時の初期処理
 WALファイルを元に再実行(replay)
      standbyモードやreplicationは、常時リカバリ状態になっ
       ている




2012/10/17    Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   22
同期処理
 共有バッファの更新内容をディスクへ書き込む
 checkpoint
      過去のトランザクションログが不要になる
              WALのリサイクル
              WALが不足すると強制checkpoint
              最後のcheckpoint以降の更新がクラッシュリカバリに必要
 共有バッファが不足した時は随時書き出す
 バックグラウンド書き込み
      writerプロセス

2012/10/17          Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   23
レプリケーション
 streaming replication
      ネットワーク経由でWALを受信
      非同期・同期

 詳しくは、別のところで…




2012/10/17   Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   24
終り
 各項目についての解説は他にも色々とありますので
  、探してみて下さい。
 他データベースでの各処理の仕組みと比較するのも
  良いだろう。


     ご静聴ありがとうございました。

More Related Content

PDF
PostgreSQLレプリケーション10周年!徹底紹介!(PostgreSQL Conference Japan 2019講演資料)
PDF
PostgreSQL13でのレプリケーション関連の改善について(第14回PostgreSQLアンカンファレンス@オンライン)
PPTX
スケールアウトするPostgreSQLを目指して!その第一歩!(NTTデータ テクノロジーカンファレンス 2020 発表資料)
PDF
PostgreSQLのリカバリ超入門(もしくはWAL、CHECKPOINT、オンラインバックアップの仕組み)
PDF
速習!論理レプリケーション ~基礎から最新動向まで~(PostgreSQL Conference Japan 2022 発表資料)
PDF
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
PDF
アーキテクチャから理解するPostgreSQLのレプリケーション
PDF
あなたの知らないPostgreSQL監視の世界
PostgreSQLレプリケーション10周年!徹底紹介!(PostgreSQL Conference Japan 2019講演資料)
PostgreSQL13でのレプリケーション関連の改善について(第14回PostgreSQLアンカンファレンス@オンライン)
スケールアウトするPostgreSQLを目指して!その第一歩!(NTTデータ テクノロジーカンファレンス 2020 発表資料)
PostgreSQLのリカバリ超入門(もしくはWAL、CHECKPOINT、オンラインバックアップの仕組み)
速習!論理レプリケーション ~基礎から最新動向まで~(PostgreSQL Conference Japan 2022 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
アーキテクチャから理解するPostgreSQLのレプリケーション
あなたの知らないPostgreSQL監視の世界

What's hot (20)

PDF
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
PDF
PostgreSQLでスケールアウト
PDF
MesonでPostgreSQLをビルドしてみよう!(第39回PostgreSQLアンカンファレンス@オンライン 発表資料)
PPTX
PostgreSQLモニタリングの基本とNTTデータが追加したモニタリング新機能(Open Source Conference 2021 Online F...
PDF
PostgreSQLレプリケーション徹底紹介
PDF
PostgreSQLによるデータ分析ことはじめ
PDF
まずやっとくPostgreSQLチューニング
PPTX
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
PPTX
PostgreSQLの統計情報について(第26回PostgreSQLアンカンファレンス@オンライン 発表資料)
PDF
PG-REXで学ぶPacemaker運用の実例
PPTX
PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)
PDF
PostgreSQL16新機能紹介 - libpq接続ロード・バランシング(第41回PostgreSQLアンカンファレンス@オンライン 発表資料)
PPTX
PostgreSQLクエリ実行の基礎知識 ~Explainを読み解こう~
PDF
PostgreSQL 15 開発最新情報
PDF
統計情報のリセットによるautovacuumへの影響について(第39回PostgreSQLアンカンファレンス@オンライン 発表資料)
PDF
Dockerからcontainerdへの移行
PPTX
押さえておきたい、PostgreSQL 13 の新機能!!(Open Source Conference 2021 Online/Hokkaido 発表資料)
PDF
pg_bigm(ピージーバイグラム)を用いた全文検索のしくみ
PDF
オンライン物理バックアップの排他モードと非排他モードについて(第15回PostgreSQLアンカンファレンス@オンライン 発表資料)
PPTX
PostgreSQL 12は ここがスゴイ! ~性能改善やpluggable storage engineなどの新機能を徹底解説~ (NTTデータ テクノ...
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
PostgreSQLでスケールアウト
MesonでPostgreSQLをビルドしてみよう!(第39回PostgreSQLアンカンファレンス@オンライン 発表資料)
PostgreSQLモニタリングの基本とNTTデータが追加したモニタリング新機能(Open Source Conference 2021 Online F...
PostgreSQLレプリケーション徹底紹介
PostgreSQLによるデータ分析ことはじめ
まずやっとくPostgreSQLチューニング
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
PostgreSQLの統計情報について(第26回PostgreSQLアンカンファレンス@オンライン 発表資料)
PG-REXで学ぶPacemaker運用の実例
PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)
PostgreSQL16新機能紹介 - libpq接続ロード・バランシング(第41回PostgreSQLアンカンファレンス@オンライン 発表資料)
PostgreSQLクエリ実行の基礎知識 ~Explainを読み解こう~
PostgreSQL 15 開発最新情報
統計情報のリセットによるautovacuumへの影響について(第39回PostgreSQLアンカンファレンス@オンライン 発表資料)
Dockerからcontainerdへの移行
押さえておきたい、PostgreSQL 13 の新機能!!(Open Source Conference 2021 Online/Hokkaido 発表資料)
pg_bigm(ピージーバイグラム)を用いた全文検索のしくみ
オンライン物理バックアップの排他モードと非排他モードについて(第15回PostgreSQLアンカンファレンス@オンライン 発表資料)
PostgreSQL 12は ここがスゴイ! ~性能改善やpluggable storage engineなどの新機能を徹底解説~ (NTTデータ テクノ...
Ad

Similar to C16 45分でわかるPostgreSQLの仕組み by 山田努 (20)

PDF
PostgreSQLバックアップの基本
PDF
PostgreSQLアーキテクチャ入門(INSIGHT OUT 2011)
PDF
いまさら聞けないPostgreSQL運用管理
PDF
PostgreSQLアーキテクチャ入門
PDF
PostgreSQLアーキテクチャ入門(PostgreSQL Conference 2012)
PDF
PostgreSQL 9.2 新機能 - 新潟オープンソースセミナー2012
ODP
PostgreSQL 9.2 新機能 - OSC 2012 Kansai@Kyoto
PDF
PostgreSQL安定運用のコツ2009 @hbstudy#5
PDF
PostgreSQL運用管理入門
PDF
PostgreSQLのパラレル化に向けた取り組み@第30回(仮名)PostgreSQL勉強会
PDF
PostgreSQLではじめるOSS開発@OSC 2014 Hiroshima
PDF
外部データラッパによる PostgreSQL の拡張
PDF
C27 基幹領域への適用におけるpostgre sqlの抱える課題 by 原嘉彦
PDF
OSS-DB Gold技術解説セミナー@db tech showcase 東京 2014
PDF
Heroku Postgres
PDF
PDF
Kof2016 postgresql-9.6
PDF
PostgreSQL10徹底解説
PDF
OSC沖縄2014_JPUG資料
PDF
PostgreSQLのSQL処理の流れとMVCC (第48回 PostgreSQLアンカンファレンス 発表資料)
PostgreSQLバックアップの基本
PostgreSQLアーキテクチャ入門(INSIGHT OUT 2011)
いまさら聞けないPostgreSQL運用管理
PostgreSQLアーキテクチャ入門
PostgreSQLアーキテクチャ入門(PostgreSQL Conference 2012)
PostgreSQL 9.2 新機能 - 新潟オープンソースセミナー2012
PostgreSQL 9.2 新機能 - OSC 2012 Kansai@Kyoto
PostgreSQL安定運用のコツ2009 @hbstudy#5
PostgreSQL運用管理入門
PostgreSQLのパラレル化に向けた取り組み@第30回(仮名)PostgreSQL勉強会
PostgreSQLではじめるOSS開発@OSC 2014 Hiroshima
外部データラッパによる PostgreSQL の拡張
C27 基幹領域への適用におけるpostgre sqlの抱える課題 by 原嘉彦
OSS-DB Gold技術解説セミナー@db tech showcase 東京 2014
Heroku Postgres
Kof2016 postgresql-9.6
PostgreSQL10徹底解説
OSC沖縄2014_JPUG資料
PostgreSQLのSQL処理の流れとMVCC (第48回 PostgreSQLアンカンファレンス 発表資料)
Ad

More from Insight Technology, Inc. (20)

PDF
グラフデータベースは如何に自然言語を理解するか?
PDF
Docker and the Oracle Database
PDF
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
PDF
事例を通じて機械学習とは何かを説明する
PDF
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
PDF
MBAAで覚えるDBREの大事なおしごと
PDF
グラフデータベースは如何に自然言語を理解するか?
PDF
DBREから始めるデータベースプラットフォーム
PDF
SQL Server エンジニアのためのコンテナ入門
PDF
Lunch & Learn, AWS NoSQL Services
PDF
db tech showcase2019オープニングセッション @ 森田 俊哉
PDF
db tech showcase2019 オープニングセッション @ 石川 雅也
PDF
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
PPTX
難しいアプリケーション移行、手軽に試してみませんか?
PPTX
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
PPTX
そのデータベース、クラウドで使ってみませんか?
PPTX
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
PDF
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
PPTX
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
PPTX
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
グラフデータベースは如何に自然言語を理解するか?
Docker and the Oracle Database
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
事例を通じて機械学習とは何かを説明する
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
MBAAで覚えるDBREの大事なおしごと
グラフデータベースは如何に自然言語を理解するか?
DBREから始めるデータベースプラットフォーム
SQL Server エンジニアのためのコンテナ入門
Lunch & Learn, AWS NoSQL Services
db tech showcase2019オープニングセッション @ 森田 俊哉
db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
難しいアプリケーション移行、手軽に試してみませんか?
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
そのデータベース、クラウドで使ってみませんか?
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]

C16 45分でわかるPostgreSQLの仕組み by 山田努

  • 1. 45分でわかる PostgreSQLの仕組み 2012/10/17 SRA OSS, Inc. Japan 山田 努 tsutomu@sraoss.co.jp 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 1
  • 2. 序:目次  各サーバプロセス  クライアント/サーバ通信  データ格納、ストレージ上の記録方式  SQL実行  トランザクション処理  トランザクションログとリカバリ、レプリケーション 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 2
  • 3. プロセス構成  postmaterがメイン  常駐支援プロセス  一部設定に依存 postmaster postgres  接続要求に応じて startup postgres 子プロセスを起動 writer wal writer checkpointer archiver stats collector logger wal receiver wal sender autovacuum launcher autovacuum worker 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 3
  • 4. 各プロセスの役割  プロセス postmaster PostgreSQLの親プロセス。接続を待ち受けるプロセス。 postgres 個々のクライアントの要求を処理するプロセス。 writer 共有バッファをディスクに書き出すプロセス。 wal writer WAL書き込みを行うプロセス。 checkpointer CHECKPOINT処理を行うプロセス。(9.2) archiver WALログをアーカイブするプロセス。 logger PostgreSQLのログをファイルへ書き出すプロセス。 stats collector 統計情報を収集するプロセス。 autovacuum launcher 不要領域を監視するプロセス。 autovacuum worker 自動VACUUMを実行するプロセス。複数起動することがある。 wal sender WALをスタンバイサーバへ転送するプロセス。 wal receiver WALをマスターサーバから受信するプロセス。
  • 5. プロセス間通信  signalによる通知(INT,TERM,USR1)  Windows版はEvent を使う  latch (9.1~) pipeを使ってsignalを捉える仕組み  SysV IPC  共有メモリ  セマフォ  localhost udp  statistic collecter 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 5
  • 6. クライアント/サーバ  ソケット通信(tcp/stream)  unix domain  IPv4,v6  接続要求を受けてから fork() する  ユーザ認証は、子プロセス側で行なわれる  pg_hba.conf 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 6
  • 7. 通信プロトコル  プロトコルバージョン3.0  認証  キャンセルキー  別の接続経路を使って、中止依頼を送信する  簡易問い合わせ、SQL文字列で送信  拡張問い合わせ、PREPAREとEXECUTE  parse/bind/excute  notice バックエンドからの通知 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 7
  • 8. データベースクラスタ  データベースクラスタ  ファイルシステムに記録されるデータ一式  initdbコマンドで作成される  プロセスの集合体  postmasterプロセス他 (前述)  データベースクラスタで共有される情報  ロール、データベース  global/ ディレクトリ = pg_globalテーブルスペース 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 8
  • 9. プロセスとデータベースクラスタ データベースクラスタ initdb 生成 コマンド テンプレート template0 template1 データベース postmaster プロセス 対応 userdb1 userdb2 postgres postgres プロセス データベース 対応 postgres postgres user1 user2 ロール プロセス
  • 10. データ格納  ファイルシステム上の1ディレクトリ  ディレクトリ構成  global/  pg_control …  base/数字(データベース)/数字(リレーション)  pg_clog/  pg_xlog/16進数24桁(トランザクションログ)  pg_tblspc/シンボリックリンク(テーブルスペース)  *.conf (設定ファイル) 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 10
  • 11. テーブルデータ  リレーション単位(テーブル、インデックス)  pg_class.relfilenode, oidで管理  pg_filenode.map, pg_relation_filenode()  1ファイル 1GBに分割  TOAST (The Oversized-Attribute Storage Technique)  _fsm (Free Space Map),_vm (Visibility Map)  タプルが見える = 有効である = VACUUM不要  index only scanでも利用 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 11
  • 12. ブロック構造  タプル(行)データはブロック単位で管理 テーブルファイル ctid = (1, 1) pd_linp[0] ctid = (1, 2) ctid = (1, 3) 8kB 0ページ PageHeaderData pd_linp[1] pd_linp[2] pd_linp[3] … pd_linp[n] 8kB 1ページ ctid = (1, 4) ctid = (1, n + 1) pd_lower 8kB 2ページ フリースペース フリースペース pd_upper … タプルn … タプル3 タプル2 タプル1 特殊データ 8kB nページ nページ pd_special ページサイズは最大32kB 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 12
  • 13. VACUUM  追記型アーキテクチャ  世代管理  トランザクションID周回問題  不要領域の回収  HOT (Heap Only Tuple)  更新内容を同じページ内に記録してリンクを作る。インデッ クスの更新を不要にする。適時不要領域の回収が可能。  fill factor
  • 14. SQL実行処理  parse  prepare/bind  rewrite  planner/optimizer  executer 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 14
  • 15. パース、リライト  パースツリー  デバックログ  debug_print_parse / debug_print_rewritten / debug_print_plan  SQLの書き換え(rewrite)  pg_rules (pg_rewrite)  pg_views
  • 16. 最適化処理  optimizer  ルールによるクエリ書き換え  FROM JOINの組合せ、順序  コスト計算  スキャン方法の選択  ANALYZEによる統計情報  ヒント句はない  設定パラメータの影響も少ない 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 16
  • 17. executor  プランに従って、データの参照・更新を行なう  共有バッファの管理 ページ エグゼキュータ 対応する ブロック ページが 既にあれば 共有バッファメ ブロックは テーブルファイル クライアント モリ 読まない
  • 18. データ書き込み  更新はトランザクションログと共有バッファに行なう エグゼキュータ データ変更 非同期書き込み 変更01 (1) (2) クラッシュしたら 変更02 ページ トランザクションログ 変更03 から復旧 ブロック トランザクションログ 共有バッファメモリ (pg_xlog)
  • 19. トランザクション隔離と同時実行  MVCC (MultiVersion Concurrency Control) 多版型同時実行制御  追記型  トランザクションIDを使った管理  タプルは特殊なカラムを持っている  xmin,xmax,cmin,cmax  作られた時、消された時、その操作をしたトランザクション  コマンドID (ex) CURSOR FETCHで見えるか見えないか 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 19
  • 20. コミットログ  pg_clog/  トランザクションの状態  実行中 / COMMITED / ABORTED  参考文献  Mvcc Unmasked - Bruce Momjian  January, 2012  http://momjian.us/main/writings/pgsql/mvcc.pdf
  • 21. トランザクションログ  pg_xlog/  WAL (write ahead log)  何を実行したかの記録  バッファに対する変更内容を記録  XLogInsert()  確実に記録するために同期書き込み  複数の実行バックエンドのための処理が入る  共有バッファの更新前に処理される(共有バッファの同期は後述) 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 21
  • 22. リカバリ  recoveryモード  プログラム起動時の初期処理  WALファイルを元に再実行(replay)  standbyモードやreplicationは、常時リカバリ状態になっ ている 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 22
  • 23. 同期処理  共有バッファの更新内容をディスクへ書き込む  checkpoint  過去のトランザクションログが不要になる  WALのリサイクル  WALが不足すると強制checkpoint  最後のcheckpoint以降の更新がクラッシュリカバリに必要  共有バッファが不足した時は随時書き出す  バックグラウンド書き込み  writerプロセス 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 23
  • 24. レプリケーション  streaming replication  ネットワーク経由でWALを受信  非同期・同期  詳しくは、別のところで… 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 24
  • 25. 終り  各項目についての解説は他にも色々とありますので 、探してみて下さい。  他データベースでの各処理の仕組みと比較するのも 良いだろう。 ご静聴ありがとうございました。