SlideShare a Scribd company logo
Statistical Disclosure Control 
の紹介 
Twitter ID @Wakamatz
ものまね鳥をまねる会 
 「ものまね鳥をまねる」という論理パズルの本の読書会 
を主宰している。 
 論理パズルを解きながらSKIコンビネータ論理を学ぶ。
1.オープンデータの隆盛 
 近年、ビッグデータ活用の合言葉のもとにオープン 
データがあちこちでなされるようになりました。 
 データの開示には個人情報漏えいのリスクが伴い 
ます。 
 データ開示リスクを防ぐための手法として 
SDC(Statistical Disclosure Control)を紹介しま 
す。
2.SDCの対象 
 microdata: 
 個別の情報(個人、世帯、組織別の情報) 
 対義語:aggregated macrodata(全体の統計情報)
3.データの種類 
 Direct Identity: 
 単体で個人、世帯、組織を正確に識別できる情報 
 例)社会保障番号、個人名、会社名、住所など 
 Key variables: 
 組み合わせることで個人、世帯、組織を正確に識別できる情報 
 例)性別、年齢、地域、職業など 
 Non-identifying variables 
 上記の2つ以外のデータ
4.SDCのトピック 
1.開示リスクの計測 
k-Anonimity, l-Diversity, etc 
2.microdataの匿名化の方法 
Recoding, Local Suppression, Post-randomization, 
etc 
3.元のデータと修正後のデータの比較
5.開示リスクの計測 
開示リスクを評価するためには、評価に直接影響を 
与える key variables を適切に選択することが不 
可欠である。
5.1.頻度カウント 
Key Variablesの組合せについての発生頻度からリ 
スクを計算する。 
年齢地域性別学歴リスクFk 
1 1 2 2 1 0.017 110.0 
2 1 2 1 1 0.022 84.5 
3 3 3 1 5 0.177 17.0 
4 4 3 1 4 0.012 541.0 
5 4 3 1 1 0.297 8.0 
6 6 2 1 5 0.402 5.0
5.2.k-匿名性(k-Anonimity) 
Key Variablesの組合せごとの頻度の最小値 
性別人種Fk 
1 1 1 3 
2 1 1 3 
3 1 1 3 
4 2 2 3 
5 2 2 3 
6 2 2 3 
3-anonimity 
性別人種Fk 
1 1 1 2 
2 1 1 2 
3 1 2 2 
4 1 2 2 
5 2 2 2 
6 2 2 2 
2-anonimity
5.3.l-多様性(l-Diversity) 
Key Variablesの組合せごとのsensitive variablesの 
数 
性別人種Sen Fk ldiv 
1 1 1 50 3 2 
2 1 1 50 3 2 
3 1 1 42 3 2 
性別人種Sen Fk ldiv 
1 2 2 62 2 1 
2 2 2 62 2 1 
2-diversity 1-diversity
5.4.連続値をとるKey Variablesに対する 
リスクの計測 
・外部データベースとのマッチングにより個人識別が 
可能になる可能性がある。 
・距離ベースでリスクを計測する。
6.匿名化手法 
匿名化手法として、一般的に次の2種類がある。 
1.決定的手法 
Recoding, Local Suppression, etc 
2.確率的手法 
Swapping, PRAM
6.1.Recoding 
複数のカテゴリーを組み合わせてより情報の少ないカテゴ 
リーにまとめる。 
例)年齢 
10代、20代、・・・、70代、80代以上 
よく使われるのが上と下でRecodingをすること。 
たとえば年齢では、下は20歳未満、上は80代以上
6.2.Local Suppression 
k-anonimityを実現するために用いられる。 
k-anonimityを達成するために、達成できないグルー 
プのデータを隠蔽する
6.3.Post-randomization 
Key variablesの各カテゴリー間を一定の確率で移動 
させる。 
たとえば男と女の間で移動する確率を次のようにす 
る。 
男→男:0.85 男→女:0.15 
女→男:0.20 男→女:0.80
6.4.連続値をとるKey Variablesに対する 
匿名化手法 
1. Microaggregation 
適当なクラスタリングによりグループ分けしてそれぞれのグループ 
ないで平均値をデータとする。 
2. Adding Noise 
3. Shuffling 
Num1 Num2 Num3 Mic1 Mic2 Mic3 
1 0.30 0.400 4 0.65 0.850 8.5 
2 0.12 0.220 22 0.15 0.510 15.0 
3 0.18 0.800 8 0.15 0.510 15.0 
4 1.90 9.00 91 1.45 1.150 52.5 
5 1.00 1.300 13 0.65 0.850 8.5 
6 1.00 1.400 14 1.45 1.150 52.5
7.データユーティリティと情報損失の計測 
データ匿名化を適用すると、一般的にデータユーティ 
リティが下がり、情報損失が発生する。 
匿名化手法を評価するために、データユーティリティ 
と情報損失を計測する。。
7.1.一般的な評価法 
1.IL1s 
IL1=1/pΣjΣi|xij-xij'|/√2Sj 
 ただし、xijは変更前、xij'は変更後のkey variables
8.ワークフロー
9.参考文献 
CRANのSDCの手法を実装したパッケージ 
http://cran.r-project.org/web/packages/sdcMicro/ 
そのリファレンス・・・Introduction to Statistical Disclosure Control (SDC) 
http://cran.r-project.org/web/packages/sdcMicro/vignettes/sdc_guidelines.pdf 
東京大学 中山 裕志 「プライバシー保護データマイニング」 
http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/labintro/2010PPDM-summary.pdf 
東京大学 竹村 彰通 「統計的開示抑制について」 
http://park.itc.u-tokyo.ac.jp/atstat/takemura-talks/090704-takemura-ppdm.pdf

More Related Content

ODP
安全なデータ公開のために
PDF
潜入 Deep Web 犯罪者の思考を探る
ODP
Snsプレゼン
PPTX
会社でPowershell
PDF
IT Pro のための PowerShell スクリプティング
PDF
Windows PowerShell によるWindows Server 管理の自動化 v4.0 2014.03.13 更新版
PDF
PowerShellが苦手だった男がPowerShellを愛するようになるまで
PDF
経済学のための実践的データ分析 3.データの可用性とプライバシー
安全なデータ公開のために
潜入 Deep Web 犯罪者の思考を探る
Snsプレゼン
会社でPowershell
IT Pro のための PowerShell スクリプティング
Windows PowerShell によるWindows Server 管理の自動化 v4.0 2014.03.13 更新版
PowerShellが苦手だった男がPowerShellを愛するようになるまで
経済学のための実践的データ分析 3.データの可用性とプライバシー

Similar to 安全なデータ公開のために (20)

PPT
VLDB09勉強会 Session27 Privacy2
PDF
PPDM-2006
PDF
『データ解析におけるプライバシー保護』勉強会 #2
PPTX
データベースセキュリティの重要課題
PPTX
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
PDF
匿名化の崩壊
PDF
2014人工知能学会大会および情報処理学会EIP研究会発表資料
PDF
パーソナル履歴データに対する匿名化と再識別:SCIS2017
PPTX
差分プライバシーとは何か? (定義 & 解釈編)
PDF
差分プライバシーによる時系列データの扱い方
PPT
R04 Security II
PDF
プライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシー
PPTX
R04 Security I I
PDF
『データ解析におけるプライバシー保護』勉強会
PDF
位置情報解析のためのプライバシ保護手法
PDF
17.01.18_論文紹介_Discrimination- and privacy-aware patterns
PDF
マイニング探検会#07
PDF
Stat r 9_principal
PPTX
数式を使わないプライバシー保護技術
PDF
匿名化と自己情報コントロール
VLDB09勉強会 Session27 Privacy2
PPDM-2006
『データ解析におけるプライバシー保護』勉強会 #2
データベースセキュリティの重要課題
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
匿名化の崩壊
2014人工知能学会大会および情報処理学会EIP研究会発表資料
パーソナル履歴データに対する匿名化と再識別:SCIS2017
差分プライバシーとは何か? (定義 & 解釈編)
差分プライバシーによる時系列データの扱い方
R04 Security II
プライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシー
R04 Security I I
『データ解析におけるプライバシー保護』勉強会
位置情報解析のためのプライバシ保護手法
17.01.18_論文紹介_Discrimination- and privacy-aware patterns
マイニング探検会#07
Stat r 9_principal
数式を使わないプライバシー保護技術
匿名化と自己情報コントロール
Ad

Recently uploaded (8)

PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
PDF
【初心者向け】生成AI SimonW/LLMとOllama・llamafile無料APIでコマンドラインをAI革命するセミナー。CPUでもGPUでも。Ne...
PDF
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
PDF
データモデラー視点で語るデータマネジメント入門~組織のデータ活用を成功に導くために~
PDF
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
PDF
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
PDF
【QYResearch】急拡大する医療機器市場における主要企業の動向と競争環境分析
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
【初心者向け】生成AI SimonW/LLMとOllama・llamafile無料APIでコマンドラインをAI革命するセミナー。CPUでもGPUでも。Ne...
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
データモデラー視点で語るデータマネジメント入門~組織のデータ活用を成功に導くために~
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
【QYResearch】急拡大する医療機器市場における主要企業の動向と競争環境分析
Ad

安全なデータ公開のために