SlideShare a Scribd company logo
要因に基づく機械学習分析ツールPADOC
2020/07/03 mabo
1
• 2000年1月 機械学習のコンサル会社に入社
• 20年間機械学習ビジネスに関わる
• 産業技術大学院大学(AIIT) 研究員
• 産業技術総合研究所(AIST) 研究員
自己紹介
2
❖機械学習の定義 ⇒ 将来データで予測を当てること
❖ビジネスでの機械学習の要件 ⇒ 説明性と頑健性
本スライドでは上記を満たすため以下を示す
1.分析対象によって手法が異なる
2.ビジネスでの機械学習では以下が求められる
1.要因に基づく機械学習
2.共変量シフト(要因の分布変化)に対処
3.業務知識の獲得と膨大な前処理
4.Python以外の処理言語
3.ビジネス用の機械学習ツールPadoc/Statの提供
目的
3
1. 機械学習の定義
2. データ種類と機械学習
1. データ種類と将来データの変動
2. データ種類と要因分析
3. データ種類と前処理
4. データ種類と処理言語
3. ビジネス機械学習の要求されること
1. 指標
2. パターン認識モデルの併用
4. PADOCの統合環境
1. PADOCの前処理
2. PADOCの文字と数値の混合分析
3. 多様な分析モデル
5. PADOCのHands-On
目次
4
機械学習の定義:将来データで予測を当てること
•機械学習 wikipediaの定義:訓練データから学んだ「既知」の特徴に基づく予測
•Google (GCP)での定義 :将来の予測を当てることである
残念ながら将来データは学習時点では未知
しかし将来データの変動はデータ種類によって異なる
1.機械学習の定義
5
例
データの種類
自然から観測 記録データ ビジネス・データ
画像 音声 言語 販売 ログ 故障記録 在庫 入出金 顧客管理
将来データ 殆ど変化しない
雑音
長いトレンドで変化
景気で敏感に変化
データの種類と将来データの変動
2.1 データ種類とデータの変動
6
データ種類毎に異なる手法が必要
例
データの種類
自然から観測 記録データ ビジネス・データ
画像 音声 言語 販売 ログ 故障記録 在庫 入出金 顧客管理
将来データ 殆ど変化しない
雑音が多く
長いトレンドで変化
景気や施策に変動
学習データに依存 学習データに依存 変動要因を分析
パターン認識 パターン認識
要因に基づく
機械学習
2.2 データ種類と手(1)
7
手法
データの種類
自然から観測 記録データ ビジネス・データ
画像 音声 言語 販売 ログ 故障記録 在庫 入出金 顧客管理
将来データ 殆ど変化しない
雑音が多く
長いトレンドで変化
景気や施策で変化
パターン
認識
深層学習・AI 協調フィルタ 異常検出 劣化が著しい
要因に基づく
機械学習
要因は不要 要因は不明
特徴量の線形和
共変量シフトで対処
将来データの変動と手法(まとめ)
2.2 データ種類と手法(2)
8
2.2 データ種類と手法(3)
将来データの変動で共変量シフトの観測
(要因の分布が学習時と相違)
➢ 共変量シフト無し 対処不要
➢ 共変量シフト有り
• 要因と予測が連動(上図)
対処不要
殆どは連動が観測される(頑健)
• 要因と予測が非連動(下図)
1.再学習
2.共変量シフトの補正
9
手法と指標
データの種類
自然から観測 記録データ ビジネス・データ
画像 音声 言
語
販売 ログ 故障記録 在庫 入出金 顧客管理
手法 パターン認識 パターン認識 要因に基づく機械学習
要求される指標 高精度 高精度 説明性と頑健性
ビジネスの要件:安心して投資
説明性と頑健性
機械学習のガイドライン(総務省)
2.3 データ種類と要求される指標
10
手段
データの種類
自然から観測 記録データ ビジネス・データ
画像 音声 言語 販売 ログ 故障記録 在庫 入出金 顧客管理
要求される指標 高精度 高精度 説明性と精度の維持
データ解釈 解釈不能 要因データが少ない 業務知識
データ型 数値 数値 文字と数値
欠損 OK OK NG
要因分析 不要 不可能 可能
データの種類と要因分析
2.4 データ種類と要因分析
11
手段
データの種類
自然から観測 記録データ ビジネス・データ
画像 音声 言語 販売数 ログ 故障記録 在庫 入出金 顧客管理
データ
入手先
観測 モニタリング 記録 モニタリング 大規模DB
データ解釈 解釈不能 要因データが少ない 業務知識
前処理 コード化
データ空間が莫大
次元圧縮が必要
莫大な
前処理作業
データ種類と前処理
2.5 データ種類と前処理
12
手段
データの種類
自然から観測 記録データ ビジネス・データ
画像 音声 言語 販売数 ログ 故障記録 在庫 入出金 顧客管理
前処理 コード化 次元圧縮 莫大な前処理作業
データ値 数値 数値 文字と数値
手法 パターン認識 パターン認識 要因による機械学習
処理言語 python python pythonでは困難
データ種類によって適切な処理言語が異なる
PADOCの提供
2.6 データ種類と処理言語
13
安心して投資できるモデルであること
1.結果の説明性(総務省の機械学習のガイドライン)
⇒○ 要因による機械学習は説明が容易
⇒× パターン認識は結果の説明が困難
2.将来データでの精度(頑健性)
⇒〇 要因による機械学習は共変動シフトがあっても頑健
⇒× パターン認識は将来データの変動を考えていない
3. 業務知識による前処理
⇒ × 要因による機械学習は膨大な前処理が必要
⇒ ○ パター認識は業務知識を必要としない
3.ビジネス機械学習に要求されること
14
• 要因に基づく機械学習の限界
• 人間が認識できないパターンの補足はできない
• パター認識モデルの併用による補強
• クラスターの発見⇒原因の把握⇒モデル改善
低確率←要因に基づくモデルの結果→高確率
低確率
↑
パター
ン認識
↓
高確率
クラスター
クラスター
複合モデルの分布状態
要因モデル 低
パターン認識 高
人間が認識
できないパターン
3 ビジネス機械学習に要求されること(2)
15
説明責任
説明可能性
16
1.データ編集と分析を繰返し
精度を向上させる環境
1.データ編集
2.分析
3.結果表示
2.簡単なコマンドでの編集②
3.実行結果の表示③
4.編集結果の表示④
5.分析結果の表示⑤
①
②
③
④ ⑤
実行アイコ
ン
データの前処理を容易にする統合環境を提供
4. PADOC 統合環境
17
実行アイコン
4.1 PADOC 統合環境(拡大図)
18
(例)
ローン破綻と関係が高い項目
のランキングと分布表示
ローン破綻と関係が強い上位3項目
1. home(持ち家状態)
2. amount(ローン金額)
3. mon(貸出し期間)
持ち家状態(home)の分布では
賃貸や借家などの流動性が高い先
の破綻率が高い
(全体の関係を俯瞰)
AIC表は分析対象と他の項目との
関係の強さをランキング表示
4.2 PADOC 文字と数値の混在分析
19
判別木は文字と数値混在で分析(全体の要因関係の俯瞰)
世帯プロファイル別のマンション購入希望価格(百万円)
4.2 PADOC 文字と数値の混在分析
20
Cox Hazard3Dの重回帰結果
SVM
ガウス過程回帰カーネル回帰
最短経路問題
ベイジアンネット
共分散構造分析(SEM)ガウス構造(GGM)
4.3 PADOC 多様な分析モデル
21
警告が出るが
実行する
5.PadocのHands On (Download)
22
ローン情報
顧客コード(複数)
個人コード
サマリー
顧客コード
個人コード
summary
個人データ
個人コード
家族コード
家族データ
家族コード
統合情報
顧客コード
個人コード
家族コード
ローン破綻情報
顧客コード
分析データ
金額 返済
年齢 年収
破綻
変数加工
merge merge
感応度
分析
変数選択
5.1 PADOCのHands On(判別木)
23
Kaggleデータの
読込み
価格の平均
より上のフラグ
住宅価格の
分布
感応度
分析
変数選択
予測
モデル
5.2 PADOCのHands On(回帰木)
24

More Related Content

PPTX
20180215 devsumi-base
PPTX
ラボラトリーオートメーションのためのソフトウェア思想教育(非プログラマ―が知っておくべきプログラミングの本質)
PPTX
「DX完全に理解した」「DXわけがわからないよ」なユーザ企業の方へ
PPTX
20201023 Builders Box 2nd Enterprise Architect
PDF
Business utilization of real estate image classification system using deep le...
PDF
AI系ディープテックスタートアップ の経営環境
PDF
Developpers Summit2015 Autumn 講演資料
PDF
DMPの分析機能を実現する技術
20180215 devsumi-base
ラボラトリーオートメーションのためのソフトウェア思想教育(非プログラマ―が知っておくべきプログラミングの本質)
「DX完全に理解した」「DXわけがわからないよ」なユーザ企業の方へ
20201023 Builders Box 2nd Enterprise Architect
Business utilization of real estate image classification system using deep le...
AI系ディープテックスタートアップ の経営環境
Developpers Summit2015 Autumn 講演資料
DMPの分析機能を実現する技術

What's hot (20)

PDF
デジタル変革とソフトウェア化する産業:これからの20年に君たちが知っておくべきこと
PDF
ビジネスパーソンのためのDX入門講座エッセンス版
PDF
身の丈にあった社会問題解決
PPTX
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
PDF
2018.08.21-機械学習工学研究会 現場を交えた勉強会発表資料
PDF
ET-IoT2021-SEPA9thJa
PDF
DX 組織デザインパターン
PDF
エンジニア勉強会資料_⑤広告プロダクトとプラットフォームの開発
PDF
AI とデジタル変革
PDF
デジタルが切り開く未来ビジネス
PPTX
20200515 api meetup online #1
PDF
ブレインパッドにおける機械学習プロジェクトの進め方
PDF
Big Data Analytics Tokyo講演資料
PDF
Pmi日本フォーラム2015講演資料(アイ・ティ・イノベーション 井上英明) v1.0_講演用_カスタマイズ
PDF
超高速開発の基礎概念 20141119 0
PDF
デジタル戦略とAWS
PDF
B2Bデジタルマーケティング最前線 〜顧客は会社でなく、そこに存在する人である〜
PDF
メルペイの与信モデリングにおける特徴量の品質向上の施策
PPTX
デジタル時代の企業変革 - 2020
PDF
クラウドの進化とメディア理解の発展
デジタル変革とソフトウェア化する産業:これからの20年に君たちが知っておくべきこと
ビジネスパーソンのためのDX入門講座エッセンス版
身の丈にあった社会問題解決
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
2018.08.21-機械学習工学研究会 現場を交えた勉強会発表資料
ET-IoT2021-SEPA9thJa
DX 組織デザインパターン
エンジニア勉強会資料_⑤広告プロダクトとプラットフォームの開発
AI とデジタル変革
デジタルが切り開く未来ビジネス
20200515 api meetup online #1
ブレインパッドにおける機械学習プロジェクトの進め方
Big Data Analytics Tokyo講演資料
Pmi日本フォーラム2015講演資料(アイ・ティ・イノベーション 井上英明) v1.0_講演用_カスタマイズ
超高速開発の基礎概念 20141119 0
デジタル戦略とAWS
B2Bデジタルマーケティング最前線 〜顧客は会社でなく、そこに存在する人である〜
メルペイの与信モデリングにおける特徴量の品質向上の施策
デジタル時代の企業変革 - 2020
クラウドの進化とメディア理解の発展
Ad

Similar to Factor analysis for ml by padoc 6 r (20)

PPTX
機械学習の基礎
PDF
Jubatusにおける大規模分散オンライン機械学習
PPTX
Machine learning
PDF
Jubatusの特徴変換と線形分類器の仕組み
PDF
データベースで始める機械学習
PPTX
Oracle advanced analyticsによる機械学習full version
PDF
Hands on-ml section1-1st-half-20210317
PDF
機械学習の理論と実践
PDF
Padocview anonimous2
PPTX
TECHTALK 20230131 ビジネスユーザー向け機械学習入門 第1回~機械学習の概要と、ビジネス課題と機械学習問題の定義
PDF
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
PDF
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
PDF
失敗から学ぶ機械学習応用
PDF
予測型戦略を知るための機械学習チュートリアル
PPTX
1028 TECH & BRIDGE MEETING
PPTX
Oracle Data Miner で始める簡単・高速な機械学習
PDF
機械学習チュートリアル@Jubatus Casual Talks
PDF
Overview and Roadmap
PDF
機械学習 入門
PPTX
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで
機械学習の基礎
Jubatusにおける大規模分散オンライン機械学習
Machine learning
Jubatusの特徴変換と線形分類器の仕組み
データベースで始める機械学習
Oracle advanced analyticsによる機械学習full version
Hands on-ml section1-1st-half-20210317
機械学習の理論と実践
Padocview anonimous2
TECHTALK 20230131 ビジネスユーザー向け機械学習入門 第1回~機械学習の概要と、ビジネス課題と機械学習問題の定義
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
失敗から学ぶ機械学習応用
予測型戦略を知るための機械学習チュートリアル
1028 TECH & BRIDGE MEETING
Oracle Data Miner で始める簡単・高速な機械学習
機械学習チュートリアル@Jubatus Casual Talks
Overview and Roadmap
機械学習 入門
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで
Ad

More from Masato Nakai (20)

PDF
Padoc_presen4R.pdf
PDF
報酬が殆ど得られない場合の強化学習
PDF
presentation for padoc
PDF
Ai neuro science_pdf
PDF
Deep IRL by C language
PDF
Open pose時系列解析7
PDF
Team ai 3
PDF
Semi vae memo (2)
PDF
Open posedoc
PPT
Dr.raios papers
PDF
Deep genenergyprobdoc
PDF
Irs gan doc
PDF
Semi vae memo (1)
PDF
Ai論文サイト
PDF
Vae gan nlp
PDF
機械学習の全般について 4
PDF
Word2vecの理論背景
PDF
粒子フィルターによる自動運転
PDF
Icpによる原画像推定
PDF
Siftによる特徴点抽出
Padoc_presen4R.pdf
報酬が殆ど得られない場合の強化学習
presentation for padoc
Ai neuro science_pdf
Deep IRL by C language
Open pose時系列解析7
Team ai 3
Semi vae memo (2)
Open posedoc
Dr.raios papers
Deep genenergyprobdoc
Irs gan doc
Semi vae memo (1)
Ai論文サイト
Vae gan nlp
機械学習の全般について 4
Word2vecの理論背景
粒子フィルターによる自動運転
Icpによる原画像推定
Siftによる特徴点抽出

Recently uploaded (10)

PDF
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
PDF
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
PDF
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
PDF
細胞培養用バイオリアクターおよび発酵槽市場規模の成長見通し:2031年には2823百万米ドルに到達へ
PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
PDF
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
PDF
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
PDF
Qlik TECH TALK セミナー:What's New In Qlik ~ 2025年7月リリース最新機能のご紹介
PDF
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
細胞培養用バイオリアクターおよび発酵槽市場規模の成長見通し:2031年には2823百万米ドルに到達へ
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
Qlik TECH TALK セミナー:What's New In Qlik ~ 2025年7月リリース最新機能のご紹介
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031

Factor analysis for ml by padoc 6 r