Submit Search
~チュートリアル第1弾~ チュートリアルの概要と事例の紹介
0 likes
793 views
ReNom User Group
ReNom User Group #3 Part2
Data & Analytics
Related topics:
Deep Learning
Read more
1 of 9
Download now
Downloaded 14 times
1
2
3
4
5
6
7
8
9
More Related Content
PDF
ReNom User Group #1 Part2
ReNom User Group
PDF
ReNomによるNeural Style Transfer
ReNom User Group
PDF
TDAを構成する技術の紹介 ~PCA編~
ReNom User Group
PDF
強化学習を用いたポートフォリオマネジメントの試み
ReNom User Group
PDF
AIによる働き方改革!~本当にストレスを感じている社員を見逃すな~
ReNom User Group
PDF
深層学習を医療に応用するために
ReNom User Group
PDF
ReNom User Group #1 Part1
ReNom User Group
PDF
ReNom User Group #1 Part3
ReNom User Group
ReNom User Group #1 Part2
ReNom User Group
ReNomによるNeural Style Transfer
ReNom User Group
TDAを構成する技術の紹介 ~PCA編~
ReNom User Group
強化学習を用いたポートフォリオマネジメントの試み
ReNom User Group
AIによる働き方改革!~本当にストレスを感じている社員を見逃すな~
ReNom User Group
深層学習を医療に応用するために
ReNom User Group
ReNom User Group #1 Part1
ReNom User Group
ReNom User Group #1 Part3
ReNom User Group
Viewers also liked
(9)
PDF
元BIエバンジェリストが語る!脱獄matplot!
ReNom User Group
PPTX
Style transfer
zaburo
PDF
Infrastructure as CodeでReNom環境構築入門
ReNom User Group
PDF
Recurrent Neural Networks
Seiya Tokui
PDF
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
Shotaro Sano
PDF
AWS OpsWorksのご紹介
Amazon Web Services Japan
PDF
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
Takayoshi Yamashita
PDF
AWS Black Belt Online Seminar 2017 Deployment on AWS
Amazon Web Services Japan
PDF
深層学習時代の自然言語処理
Yuya Unno
元BIエバンジェリストが語る!脱獄matplot!
ReNom User Group
Style transfer
zaburo
Infrastructure as CodeでReNom環境構築入門
ReNom User Group
Recurrent Neural Networks
Seiya Tokui
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
Shotaro Sano
AWS OpsWorksのご紹介
Amazon Web Services Japan
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
Takayoshi Yamashita
AWS Black Belt Online Seminar 2017 Deployment on AWS
Amazon Web Services Japan
深層学習時代の自然言語処理
Yuya Unno
Ad
More from ReNom User Group
(20)
PPTX
AI画像認識モデル開発をやってみた!#1
ReNom User Group
PDF
ReNomを利活用した溶接モニタリングの取組について
ReNom User Group
PDF
ReNom IMG version3.0最新情報の紹介
ReNom User Group
PDF
Renomロードマップの紹介
ReNom User Group
PDF
EDGEMATRIX社のご紹介と、Edge AI Computing Platformについて
ReNom User Group
PDF
AIのビジネス実装を成功に近づけるために
ReNom User Group
PDF
ReNomDL 高速化の紹介
ReNom User Group
PDF
量子コンピュータ向けアプリケーション開発フレームワークReNomQとは
ReNom User Group
PDF
ReNom IMGの活用事例 + ReNom TAGの告知
ReNom User Group
PDF
ReNom RG新機能の紹介
ReNom User Group
PDF
ReNomDL V3の紹介
ReNom User Group
PDF
エンジニアではなくてもAIモデル構築が可能な時代に
ReNom User Group
PDF
バージョンアップした「ReNomIMG」の紹介
ReNom User Group
PDF
数値回帰モデル作成アプリケーション 「ReNomRG」の紹介
ReNom User Group
PDF
ReNomIMG を使った料理名判別による栄養管理アプリ
ReNom User Group
PDF
AI/DeepLearningに必要なデータ準備〜そのデータ本当ですか?~
ReNom User Group
PDF
ReNom チュートリアルと今後 ~renom.jpで始めるAI開発~
ReNom User Group
PDF
ReNom DP&TDA
ReNom User Group
PDF
ReNom 2016 ~ 2018振り返り
ReNom User Group
PDF
ユニアデックスのAIに向けた取り組みご紹介
ReNom User Group
AI画像認識モデル開発をやってみた!#1
ReNom User Group
ReNomを利活用した溶接モニタリングの取組について
ReNom User Group
ReNom IMG version3.0最新情報の紹介
ReNom User Group
Renomロードマップの紹介
ReNom User Group
EDGEMATRIX社のご紹介と、Edge AI Computing Platformについて
ReNom User Group
AIのビジネス実装を成功に近づけるために
ReNom User Group
ReNomDL 高速化の紹介
ReNom User Group
量子コンピュータ向けアプリケーション開発フレームワークReNomQとは
ReNom User Group
ReNom IMGの活用事例 + ReNom TAGの告知
ReNom User Group
ReNom RG新機能の紹介
ReNom User Group
ReNomDL V3の紹介
ReNom User Group
エンジニアではなくてもAIモデル構築が可能な時代に
ReNom User Group
バージョンアップした「ReNomIMG」の紹介
ReNom User Group
数値回帰モデル作成アプリケーション 「ReNomRG」の紹介
ReNom User Group
ReNomIMG を使った料理名判別による栄養管理アプリ
ReNom User Group
AI/DeepLearningに必要なデータ準備〜そのデータ本当ですか?~
ReNom User Group
ReNom チュートリアルと今後 ~renom.jpで始めるAI開発~
ReNom User Group
ReNom DP&TDA
ReNom User Group
ReNom 2016 ~ 2018振り返り
ReNom User Group
ユニアデックスのAIに向けた取り組みご紹介
ReNom User Group
Ad
Recently uploaded
(9)
PDF
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
yhresearch
PDF
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
2418867459
PDF
口腔内スキャナー市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
snow326214
PDF
液体クラトム抽出物供給側分析:世界の生産能力・販売量・平均価格動向(2025-2031)
yhresearch
PDF
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
2418867459
PDF
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
snow326214
PDF
Qlik TECH TALK セミナー:What's New In Qlik ~ 2025年7月リリース最新機能のご紹介
QlikPresalesJapan
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
QY Research株式会社
PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
h_yama2396
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
yhresearch
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
2418867459
口腔内スキャナー市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
snow326214
液体クラトム抽出物供給側分析:世界の生産能力・販売量・平均価格動向(2025-2031)
yhresearch
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
2418867459
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
snow326214
Qlik TECH TALK セミナー:What's New In Qlik ~ 2025年7月リリース最新機能のご紹介
QlikPresalesJapan
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
QY Research株式会社
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
h_yama2396
~チュートリアル第1弾~ チュートリアルの概要と事例の紹介
1.
欠損値の種類と補間手法 について GRID 株式会社 小野寺 大輝
2.
分析に用いるデータの欠損 ・センサデータの中で故障していたセンサが 合ったことに気づいた ・そもそも試験Aと試験Bがあり、試験Aは全員 受けているが、試験Bは任意なので80%程度の 受験率 データ受け取り側 データ受け渡し側 ・解析を行うためにデータを可視化してみると 特定の時期のデータが欠損しているようだ ・アンケート結果のデータ分析であるが、 データを確認してみると、 美容に関するアンケートのため、男性の 回答比率がそもそも少ない 解析してみて初めて分かった欠損 データ受け渡し前に分かっていた欠損 欠損のある 解析用データ
3.
1 2 34 欠損にどう対処しているのか…? 諦めるパターン 消すパターン 平均値代入パターン
慎重パターン 欠損あるから 扱えないわ コレ… よくわからんし、 消しとこ… 欠損よりは平均 値を使った方が マシじゃない? 欠損の仕方に よって対処方法 が異なるに 違いない
4.
欠損の種類 ●時系列データ(順番に意味のあるデータ) ●時系列ではないデータ(順番に意味のないデータ) 例:電球の明るさの調査(売っている電球の明るさ抜き打ち検査) 時間 値1 13:00 135 13:01
134 13:02 N/A 13:03 130 ・線形補間やスプライン補間 1.MCAR (Missing Completely At Random) 電球ID 明るさ A 130 B 115 C N/A たまたま寿命 が来ていた電 球の値が欠損 した 2.MAR (Missing At Random) 電球 ID 明る さ 室温 A 130 24 B 115 23 C N/A 37 室温が高過ぎ るとよく計測 器が壊れて計 れなくなる =他の変数に 依存した欠損 3.MNAR (Missing Not At Random) 電球 ID 明る さ A 130 B 115 C N/A 明るさが大き すぎて計測器 が壊れて計れ なかった =特定の範囲 の値が欠損
5.
欠損の種類 ●時系列ではないデータ(順番に意味のないデータ) 例:電球の明るさの調査(売っている電球の明るさ抜き打ち検査) 1.MCAR (Missing Completely At
Random) 電球ID 明るさ A 130 B 115 C N/A たまたま寿命 が来ていた電 球の値が欠損 した 2.MAR (Missing At Random) 電球 ID 明る さ 室温 A 130 24 B 115 23 C N/A 37 室温が高過ぎ るとよく計測 器が壊れて計 れなくなる =他の変数に 依存した欠損 3.MNAR (Missing Not At Random) 電球 ID 明る さ A 130 B 115 C N/A 明るさが大き すぎて計測器 が壊れて計れ なかった =特定の範囲 の値が欠損 ・削除しても推定にそれほど 大きな影響を与えない ・他のデータから推定も可能 ・削除すると室温が高いときのデータ が消えるため、バイアスのかかった データになってしまう ・明るさと室温に関連があれば、 室温から明るさを推定できる ・削除すると明るさが大きいデータが なくなってしまい、バイアスの かかったデータになってしまう ・推定も難しい
6.
欠損への対処(代入法) ・MARはバイアスが生じてしまうため単純に削除することは望ましくなく、 補間等によって欠損値に適切な値を他の変数から予測して代入する必要がある 3.FIML(Full Information Maximum
Likelihood) 4.データ拡大法 多変量正規分布を作成し、サンプリングする手法 多変量正規分布からノイズを加えた回帰式を求める 1.平均値代入法 欠損している変数の平均値を代入値とする 2.近傍法 欠損している変数を除いた変数の中で 最も距離が近い個体の値を代入値とする 電球 ID 明る さ A 130 B 115 C N/A 明るさの平均値 電球ID 室温 明るさ A 36 130 B 23 115 C 37 N/A 室温が最も近い 箇所の値を代入 ⑴.欠損データを除いて左のような図を作成 ⑵.明るさが欠損している電球の室温から どのくらいの明るさになりやすいかを計算 ⑶.⑵で明るさが130になる確率30%のような形で 求まるので、その確率に基づいてランダムに 欠損値を選び出して代入 ⑷.明るさの欠損が代入され、平均などが変わる ので⑴から繰り返す 明るさ 室温 明るさ = 𝑎 + 𝑎 × 室温+ノイズ という回帰式のa0とa1を求めて計算
7.
欠損への対処(時系列データ) ●時系列データ(順番に意味のあるデータ) 時間 値1 13:00 135 13:01
134 13:02 N/A 13:03 130 ・線形補間やスプライン補間 x y 𝑦 = 𝑒 に対するプロット 線形補間が有効なケース:欠損幅が短い・欠損を含む期間で大きく変化していない スプライン補間が有効なケース:図のような非線形な変化でかつ変化幅も大きい 欠損幅 変化量
8.
欠損への対処(時系列ではないデータ) データ:MAR(Missing At Random)欠損値と関連のある完全データが存在するケースについて 手法:データ拡大法(回帰式を作って他の変数から欠損値を予測 データの作成 ID
x1 x2 x3 x4 1 440 450 344 9 2 366 376 500 141 3 N/A 14 222 79 4 497 507 254 226 … 1000 N/A 150 127 474 ・x1,x3,x4については0~500までの整数を乱数で生成 ・x2はx1と関連を持たせるためにx2=x1+10として設定 ・x2が閾値以下となるときx1を欠損させた 評価したいこと 1.欠損割合と誤差の関連 2.データ数と誤差の関連 データサイズ 500 1000 10000 閾 値 ( 欠 損 率 ) 50(10%) 0.517 0.497 0.465 100(20%) 1.647 1.896 1.787 250(50%) 49.490 57.064 47.565 350(70%) 531.661 656.484 598.405 結果として ・データサイズを増やしたが、誤差は変わらなかった (減ると思っていた) ・欠損率は思った通り大きくなるほど誤差は大きくなった ・急に誤差が増える場所があるのか…? 表中の値は 真の値との二乗誤差
9.
欠損値に対する処理の所感まとめ ・有効だと考えているケース 線形補間:欠損幅が短い・欠損を含む期間で大きく変化していない スプライン補間:図のような非線形な変化でかつ変化幅も大きい ●時系列データ(順番に意味のあるデータ) ●時系列ではないデータ(順番に意味のないデータ) ・平均値を代入する方法や最も近傍と思われる値を代入する方法、 回帰方程式を作成して回帰して代入する方法が存在するが、どれがベストかは検証が必要 ・補間の性能の良さはデータサイズに依らないのではないか ・補間の性能の良さは欠損率には大いに関係がありそうだが、 欠損率と誤差の綿密な違いまでは発見できなかった ・欠損のパターンと補間方法をまとめる必要があり、 MNAR(Missing Not At
Random)のような欠損値の補間のヒントになるような数値が無い場合 やカテゴリ変数にもNARに対する手法は適用できるのか検証
Download