Submit Search
安全なデータ公開のために
1 like
661 views
W
Wakamatz
安全なデータ公開のために - Statistical Disclosure Control -
Data & Analytics
Read more
1 of 20
Download now
Download to read offline
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
More Related Content
ODP
安全なデータ公開のために
Tsugio Wakamatsu
PDF
潜入 Deep Web 犯罪者の思考を探る
Noriaki Hayashi
ODP
Snsプレゼン
lagoon3939
PPTX
会社でPowershell
kobexr
PDF
IT Pro のための PowerShell スクリプティング
Kazuki Takai
PDF
Windows PowerShell によるWindows Server 管理の自動化 v4.0 2014.03.13 更新版
junichi anno
PDF
PowerShellが苦手だった男がPowerShellを愛するようになるまで
Kazuhiro Matsushima
PDF
経済学のための実践的データ分析 3.データの可用性とプライバシー
Yasushi Hara
安全なデータ公開のために
Tsugio Wakamatsu
潜入 Deep Web 犯罪者の思考を探る
Noriaki Hayashi
Snsプレゼン
lagoon3939
会社でPowershell
kobexr
IT Pro のための PowerShell スクリプティング
Kazuki Takai
Windows PowerShell によるWindows Server 管理の自動化 v4.0 2014.03.13 更新版
junichi anno
PowerShellが苦手だった男がPowerShellを愛するようになるまで
Kazuhiro Matsushima
経済学のための実践的データ分析 3.データの可用性とプライバシー
Yasushi Hara
Similar to 安全なデータ公開のために
(20)
PPT
VLDB09勉強会 Session27 Privacy2
Junpei Kawamoto
PDF
PPDM-2006
Hiroshi Nakagawa
PDF
『データ解析におけるプライバシー保護』勉強会 #2
MITSUNARI Shigeo
PPTX
データベースセキュリティの重要課題
UEHARA, Tetsutaro
PPTX
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
Hiroshi Nakagawa
PDF
匿名化の崩壊
Hiroshi Nakagawa
PDF
2014人工知能学会大会および情報処理学会EIP研究会発表資料
Hiroshi Nakagawa
PDF
パーソナル履歴データに対する匿名化と再識別:SCIS2017
Hiroshi Nakagawa
PPTX
差分プライバシーとは何か? (定義 & 解釈編)
Kentaro Minami
PDF
差分プライバシーによる時系列データの扱い方
Hiroshi Nakagawa
PPT
R04 Security II
Chiemi Watanabe
PDF
プライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシー
Hiroshi Nakagawa
PPTX
R04 Security I I
Chiemi Watanabe
PDF
『データ解析におけるプライバシー保護』勉強会
MITSUNARI Shigeo
PDF
位置情報解析のためのプライバシ保護手法
Junpei Kawamoto
PDF
17.01.18_論文紹介_Discrimination- and privacy-aware patterns
LINE Corp.
PDF
マイニング探検会#07
Yoji Kiyota
PDF
Stat r 9_principal
fusion2011
PPTX
数式を使わないプライバシー保護技術
Hiroshi Nakagawa
PDF
匿名化と自己情報コントロール
Hiroshi Nakagawa
VLDB09勉強会 Session27 Privacy2
Junpei Kawamoto
PPDM-2006
Hiroshi Nakagawa
『データ解析におけるプライバシー保護』勉強会 #2
MITSUNARI Shigeo
データベースセキュリティの重要課題
UEHARA, Tetsutaro
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
Hiroshi Nakagawa
匿名化の崩壊
Hiroshi Nakagawa
2014人工知能学会大会および情報処理学会EIP研究会発表資料
Hiroshi Nakagawa
パーソナル履歴データに対する匿名化と再識別:SCIS2017
Hiroshi Nakagawa
差分プライバシーとは何か? (定義 & 解釈編)
Kentaro Minami
差分プライバシーによる時系列データの扱い方
Hiroshi Nakagawa
R04 Security II
Chiemi Watanabe
プライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシー
Hiroshi Nakagawa
R04 Security I I
Chiemi Watanabe
『データ解析におけるプライバシー保護』勉強会
MITSUNARI Shigeo
位置情報解析のためのプライバシ保護手法
Junpei Kawamoto
17.01.18_論文紹介_Discrimination- and privacy-aware patterns
LINE Corp.
マイニング探検会#07
Yoji Kiyota
Stat r 9_principal
fusion2011
数式を使わないプライバシー保護技術
Hiroshi Nakagawa
匿名化と自己情報コントロール
Hiroshi Nakagawa
Ad
Recently uploaded
(8)
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
QY Research株式会社
PDF
【初心者向け】生成AI SimonW/LLMとOllama・llamafile無料APIでコマンドラインをAI革命するセミナー。CPUでもGPUでも。Ne...
Netwalker lab kapper
PDF
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
QY Research株式会社
PDF
データモデラー視点で語るデータマネジメント入門~組織のデータ活用を成功に導くために~
Koichi Inami
PDF
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
QY Research株式会社
PDF
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
QY Research株式会社
PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
h_yama2396
PDF
【QYResearch】急拡大する医療機器市場における主要企業の動向と競争環境分析
QY Research株式会社
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
QY Research株式会社
【初心者向け】生成AI SimonW/LLMとOllama・llamafile無料APIでコマンドラインをAI革命するセミナー。CPUでもGPUでも。Ne...
Netwalker lab kapper
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
QY Research株式会社
データモデラー視点で語るデータマネジメント入門~組織のデータ活用を成功に導くために~
Koichi Inami
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
QY Research株式会社
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
QY Research株式会社
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
h_yama2396
【QYResearch】急拡大する医療機器市場における主要企業の動向と競争環境分析
QY Research株式会社
Ad
安全なデータ公開のために
1.
Statistical Disclosure Control
の紹介 Twitter ID @Wakamatz
2.
ものまね鳥をまねる会 「ものまね鳥をまねる」という論理パズルの本の読書会
を主宰している。 論理パズルを解きながらSKIコンビネータ論理を学ぶ。
3.
1.オープンデータの隆盛 近年、ビッグデータ活用の合言葉のもとにオープン
データがあちこちでなされるようになりました。 データの開示には個人情報漏えいのリスクが伴い ます。 データ開示リスクを防ぐための手法として SDC(Statistical Disclosure Control)を紹介しま す。
4.
2.SDCの対象 microdata:
個別の情報(個人、世帯、組織別の情報) 対義語:aggregated macrodata(全体の統計情報)
5.
3.データの種類 Direct
Identity: 単体で個人、世帯、組織を正確に識別できる情報 例)社会保障番号、個人名、会社名、住所など Key variables: 組み合わせることで個人、世帯、組織を正確に識別できる情報 例)性別、年齢、地域、職業など Non-identifying variables 上記の2つ以外のデータ
6.
4.SDCのトピック 1.開示リスクの計測 k-Anonimity,
l-Diversity, etc 2.microdataの匿名化の方法 Recoding, Local Suppression, Post-randomization, etc 3.元のデータと修正後のデータの比較
7.
5.開示リスクの計測 開示リスクを評価するためには、評価に直接影響を 与える
key variables を適切に選択することが不 可欠である。
8.
5.1.頻度カウント Key Variablesの組合せについての発生頻度からリ
スクを計算する。 年齢地域性別学歴リスクFk 1 1 2 2 1 0.017 110.0 2 1 2 1 1 0.022 84.5 3 3 3 1 5 0.177 17.0 4 4 3 1 4 0.012 541.0 5 4 3 1 1 0.297 8.0 6 6 2 1 5 0.402 5.0
9.
5.2.k-匿名性(k-Anonimity) Key Variablesの組合せごとの頻度の最小値
性別人種Fk 1 1 1 3 2 1 1 3 3 1 1 3 4 2 2 3 5 2 2 3 6 2 2 3 3-anonimity 性別人種Fk 1 1 1 2 2 1 1 2 3 1 2 2 4 1 2 2 5 2 2 2 6 2 2 2 2-anonimity
10.
5.3.l-多様性(l-Diversity) Key Variablesの組合せごとのsensitive
variablesの 数 性別人種Sen Fk ldiv 1 1 1 50 3 2 2 1 1 50 3 2 3 1 1 42 3 2 性別人種Sen Fk ldiv 1 2 2 62 2 1 2 2 2 62 2 1 2-diversity 1-diversity
11.
5.4.連続値をとるKey Variablesに対する リスクの計測
・外部データベースとのマッチングにより個人識別が 可能になる可能性がある。 ・距離ベースでリスクを計測する。
12.
6.匿名化手法 匿名化手法として、一般的に次の2種類がある。 1.決定的手法
Recoding, Local Suppression, etc 2.確率的手法 Swapping, PRAM
13.
6.1.Recoding 複数のカテゴリーを組み合わせてより情報の少ないカテゴ リーにまとめる。
例)年齢 10代、20代、・・・、70代、80代以上 よく使われるのが上と下でRecodingをすること。 たとえば年齢では、下は20歳未満、上は80代以上
14.
6.2.Local Suppression k-anonimityを実現するために用いられる。
k-anonimityを達成するために、達成できないグルー プのデータを隠蔽する
15.
6.3.Post-randomization Key variablesの各カテゴリー間を一定の確率で移動
させる。 たとえば男と女の間で移動する確率を次のようにす る。 男→男:0.85 男→女:0.15 女→男:0.20 男→女:0.80
16.
6.4.連続値をとるKey Variablesに対する 匿名化手法
1. Microaggregation 適当なクラスタリングによりグループ分けしてそれぞれのグループ ないで平均値をデータとする。 2. Adding Noise 3. Shuffling Num1 Num2 Num3 Mic1 Mic2 Mic3 1 0.30 0.400 4 0.65 0.850 8.5 2 0.12 0.220 22 0.15 0.510 15.0 3 0.18 0.800 8 0.15 0.510 15.0 4 1.90 9.00 91 1.45 1.150 52.5 5 1.00 1.300 13 0.65 0.850 8.5 6 1.00 1.400 14 1.45 1.150 52.5
17.
7.データユーティリティと情報損失の計測 データ匿名化を適用すると、一般的にデータユーティ リティが下がり、情報損失が発生する。
匿名化手法を評価するために、データユーティリティ と情報損失を計測する。。
18.
7.1.一般的な評価法 1.IL1s IL1=1/pΣjΣi|xij-xij'|/√2Sj
ただし、xijは変更前、xij'は変更後のkey variables
19.
8.ワークフロー
20.
9.参考文献 CRANのSDCの手法を実装したパッケージ http://cran.r-project.org/web/packages/sdcMicro/
そのリファレンス・・・Introduction to Statistical Disclosure Control (SDC) http://cran.r-project.org/web/packages/sdcMicro/vignettes/sdc_guidelines.pdf 東京大学 中山 裕志 「プライバシー保護データマイニング」 http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/labintro/2010PPDM-summary.pdf 東京大学 竹村 彰通 「統計的開示抑制について」 http://park.itc.u-tokyo.ac.jp/atstat/takemura-talks/090704-takemura-ppdm.pdf
Download