SlideShare a Scribd company logo
欠損値の種類と補間手法
について
GRID 株式会社
小野寺 大輝
分析に用いるデータの欠損
・センサデータの中で故障していたセンサが
合ったことに気づいた
・そもそも試験Aと試験Bがあり、試験Aは全員
受けているが、試験Bは任意なので80%程度の
受験率
データ受け取り側 データ受け渡し側
・解析を行うためにデータを可視化してみると
特定の時期のデータが欠損しているようだ
・アンケート結果のデータ分析であるが、
データを確認してみると、
美容に関するアンケートのため、男性の
回答比率がそもそも少ない
解析してみて初めて分かった欠損 データ受け渡し前に分かっていた欠損
欠損のある
解析用データ
1 2
34
欠損にどう対処しているのか…?
諦めるパターン 消すパターン
平均値代入パターン 慎重パターン
欠損あるから
扱えないわ
コレ…
よくわからんし、
消しとこ…
欠損よりは平均
値を使った方が
マシじゃない?
欠損の仕方に
よって対処方法
が異なるに
違いない
欠損の種類
●時系列データ(順番に意味のあるデータ)
●時系列ではないデータ(順番に意味のないデータ)
例:電球の明るさの調査(売っている電球の明るさ抜き打ち検査)
時間 値1
13:00 135
13:01 134
13:02 N/A
13:03 130
・線形補間やスプライン補間
1.MCAR
(Missing Completely At Random)
電球ID 明るさ
A 130
B 115
C N/A
たまたま寿命
が来ていた電
球の値が欠損
した
2.MAR
(Missing At Random)
電球
ID
明る
さ
室温
A 130 24
B 115 23
C N/A 37
室温が高過ぎ
るとよく計測
器が壊れて計
れなくなる
=他の変数に
依存した欠損
3.MNAR
(Missing Not At Random)
電球
ID
明る
さ
A 130
B 115
C N/A
明るさが大き
すぎて計測器
が壊れて計れ
なかった
=特定の範囲
の値が欠損
欠損の種類
●時系列ではないデータ(順番に意味のないデータ)
例:電球の明るさの調査(売っている電球の明るさ抜き打ち検査)
1.MCAR
(Missing Completely At Random)
電球ID 明るさ
A 130
B 115
C N/A
たまたま寿命
が来ていた電
球の値が欠損
した
2.MAR
(Missing At Random)
電球
ID
明る
さ
室温
A 130 24
B 115 23
C N/A 37
室温が高過ぎ
るとよく計測
器が壊れて計
れなくなる
=他の変数に
依存した欠損
3.MNAR
(Missing Not At Random)
電球
ID
明る
さ
A 130
B 115
C N/A
明るさが大き
すぎて計測器
が壊れて計れ
なかった
=特定の範囲
の値が欠損
・削除しても推定にそれほど
大きな影響を与えない
・他のデータから推定も可能
・削除すると室温が高いときのデータ
が消えるため、バイアスのかかった
データになってしまう
・明るさと室温に関連があれば、
室温から明るさを推定できる
・削除すると明るさが大きいデータが
なくなってしまい、バイアスの
かかったデータになってしまう
・推定も難しい
欠損への対処(代入法)
・MARはバイアスが生じてしまうため単純に削除することは望ましくなく、
補間等によって欠損値に適切な値を他の変数から予測して代入する必要がある
3.FIML(Full Information Maximum Likelihood)
4.データ拡大法
多変量正規分布を作成し、サンプリングする手法
多変量正規分布からノイズを加えた回帰式を求める
1.平均値代入法
欠損している変数の平均値を代入値とする
2.近傍法
欠損している変数を除いた変数の中で
最も距離が近い個体の値を代入値とする
電球
ID
明る
さ
A 130
B 115
C N/A 明るさの平均値
電球ID 室温 明るさ
A 36 130
B 23 115
C 37 N/A
室温が最も近い
箇所の値を代入
⑴.欠損データを除いて左のような図を作成
⑵.明るさが欠損している電球の室温から
どのくらいの明るさになりやすいかを計算
⑶.⑵で明るさが130になる確率30%のような形で
求まるので、その確率に基づいてランダムに
欠損値を選び出して代入
⑷.明るさの欠損が代入され、平均などが変わる
ので⑴から繰り返す
明るさ
室温
明るさ = 𝑎 + 𝑎 × 室温+ノイズ
という回帰式のa0とa1を求めて計算
欠損への対処(時系列データ)
●時系列データ(順番に意味のあるデータ)
時間 値1
13:00 135
13:01 134
13:02 N/A
13:03 130
・線形補間やスプライン補間
x
y
𝑦 = 𝑒 に対するプロット
線形補間が有効なケース:欠損幅が短い・欠損を含む期間で大きく変化していない
スプライン補間が有効なケース:図のような非線形な変化でかつ変化幅も大きい
欠損幅
変化量
欠損への対処(時系列ではないデータ)
データ:MAR(Missing At Random)欠損値と関連のある完全データが存在するケースについて
手法:データ拡大法(回帰式を作って他の変数から欠損値を予測
データの作成
ID x1 x2 x3 x4
1 440 450 344 9
2 366 376 500 141
3 N/A 14 222 79
4 497 507 254 226
…
1000 N/A 150 127 474
・x1,x3,x4については0~500までの整数を乱数で生成
・x2はx1と関連を持たせるためにx2=x1+10として設定
・x2が閾値以下となるときx1を欠損させた
評価したいこと
1.欠損割合と誤差の関連
2.データ数と誤差の関連
データサイズ
500 1000 10000
閾
値
(
欠
損
率
)
50(10%) 0.517 0.497 0.465
100(20%) 1.647 1.896 1.787
250(50%) 49.490 57.064 47.565
350(70%) 531.661 656.484 598.405
結果として
・データサイズを増やしたが、誤差は変わらなかった
(減ると思っていた)
・欠損率は思った通り大きくなるほど誤差は大きくなった
・急に誤差が増える場所があるのか…?
表中の値は
真の値との二乗誤差
欠損値に対する処理の所感まとめ
・有効だと考えているケース
線形補間:欠損幅が短い・欠損を含む期間で大きく変化していない
スプライン補間:図のような非線形な変化でかつ変化幅も大きい
●時系列データ(順番に意味のあるデータ)
●時系列ではないデータ(順番に意味のないデータ)
・平均値を代入する方法や最も近傍と思われる値を代入する方法、
回帰方程式を作成して回帰して代入する方法が存在するが、どれがベストかは検証が必要
・補間の性能の良さはデータサイズに依らないのではないか
・補間の性能の良さは欠損率には大いに関係がありそうだが、
欠損率と誤差の綿密な違いまでは発見できなかった
・欠損のパターンと補間方法をまとめる必要があり、
MNAR(Missing Not At Random)のような欠損値の補間のヒントになるような数値が無い場合
やカテゴリ変数にもNARに対する手法は適用できるのか検証

More Related Content

PDF
ReNom User Group #1 Part2
PDF
ReNomによるNeural Style Transfer
PDF
TDAを構成する技術の紹介 ~PCA編~
PDF
強化学習を用いたポートフォリオマネジメントの試み
PDF
AIによる働き方改革!~本当にストレスを感じている社員を見逃すな~
PDF
深層学習を医療に応用するために
PDF
ReNom User Group #1 Part1
PDF
ReNom User Group #1 Part3
ReNom User Group #1 Part2
ReNomによるNeural Style Transfer
TDAを構成する技術の紹介 ~PCA編~
強化学習を用いたポートフォリオマネジメントの試み
AIによる働き方改革!~本当にストレスを感じている社員を見逃すな~
深層学習を医療に応用するために
ReNom User Group #1 Part1
ReNom User Group #1 Part3

Viewers also liked (9)

PDF
元BIエバンジェリストが語る!脱獄matplot!
PPTX
Style transfer
PDF
Infrastructure as CodeでReNom環境構築入門
PDF
Recurrent Neural Networks
PDF
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
PDF
AWS OpsWorksのご紹介
PDF
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
PDF
AWS Black Belt Online Seminar 2017 Deployment on AWS
PDF
深層学習時代の自然言語処理
元BIエバンジェリストが語る!脱獄matplot!
Style transfer
Infrastructure as CodeでReNom環境構築入門
Recurrent Neural Networks
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
AWS OpsWorksのご紹介
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
AWS Black Belt Online Seminar 2017 Deployment on AWS
深層学習時代の自然言語処理
Ad

More from ReNom User Group (20)

PPTX
AI画像認識モデル開発をやってみた!#1
PDF
ReNomを利活用した溶接モニタリングの取組について
PDF
ReNom IMG version3.0最新情報の紹介
PDF
Renomロードマップの紹介
PDF
EDGEMATRIX社のご紹介と、Edge AI Computing Platformについて
PDF
AIのビジネス実装を成功に近づけるために
PDF
ReNomDL 高速化の紹介
PDF
量子コンピュータ向けアプリケーション開発フレームワークReNomQとは
PDF
ReNom IMGの活用事例 + ReNom TAGの告知
PDF
ReNom RG新機能の紹介
PDF
ReNomDL V3の紹介
PDF
エンジニアではなくてもAIモデル構築が可能な時代に
PDF
バージョンアップした「ReNomIMG」の紹介
PDF
数値回帰モデル作成アプリケーション 「ReNomRG」の紹介
PDF
ReNomIMG を使った料理名判別による栄養管理アプリ
PDF
AI/DeepLearningに必要なデータ準備〜そのデータ本当ですか?~
PDF
ReNom チュートリアルと今後 ~renom.jpで始めるAI開発~
PDF
ReNom DP&TDA
PDF
ReNom 2016 ~ 2018振り返り
PDF
ユニアデックスのAIに向けた取り組みご紹介
AI画像認識モデル開発をやってみた!#1
ReNomを利活用した溶接モニタリングの取組について
ReNom IMG version3.0最新情報の紹介
Renomロードマップの紹介
EDGEMATRIX社のご紹介と、Edge AI Computing Platformについて
AIのビジネス実装を成功に近づけるために
ReNomDL 高速化の紹介
量子コンピュータ向けアプリケーション開発フレームワークReNomQとは
ReNom IMGの活用事例 + ReNom TAGの告知
ReNom RG新機能の紹介
ReNomDL V3の紹介
エンジニアではなくてもAIモデル構築が可能な時代に
バージョンアップした「ReNomIMG」の紹介
数値回帰モデル作成アプリケーション 「ReNomRG」の紹介
ReNomIMG を使った料理名判別による栄養管理アプリ
AI/DeepLearningに必要なデータ準備〜そのデータ本当ですか?~
ReNom チュートリアルと今後 ~renom.jpで始めるAI開発~
ReNom DP&TDA
ReNom 2016 ~ 2018振り返り
ユニアデックスのAIに向けた取り組みご紹介
Ad

Recently uploaded (9)

PDF
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
PDF
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
PDF
口腔内スキャナー市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
PDF
液体クラトム抽出物供給側分析:世界の生産能力・販売量・平均価格動向(2025-2031)
PDF
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
PDF
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
PDF
Qlik TECH TALK セミナー:What's New In Qlik ~ 2025年7月リリース最新機能のご紹介
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
口腔内スキャナー市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
液体クラトム抽出物供給側分析:世界の生産能力・販売量・平均価格動向(2025-2031)
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
Qlik TECH TALK セミナー:What's New In Qlik ~ 2025年7月リリース最新機能のご紹介
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf

~チュートリアル第1弾~ チュートリアルの概要と事例の紹介