SlideShare a Scribd company logo
2
Most read
3
Most read
5
Most read
GBDTを使った
feature transformationの適用例
担当: @Quasi_quant2010
データサイエンスLT祭り 2夜目 @Quasi_quant20101
【データサイエンスLT祭り 2夜目】
概要
- 特徴量の相関(非線形性)をGDBTで抽出 -
データサイエンスLT祭り 2夜目 @Quasi_quant20102
 ケース
 予測ラベル:年収が高い・低い
 feature:年齢・教育年数・投資損失・労働時間/週, etc
 例えば、(労働時間/週, 投資利益)の二つを組み合わせた時、
労働時間は短いが、投資利益が高い人は高い傾向にあるはず
 ドメイン知識より、Featureをand条件の組み合わせで
非線形featureは作れる
 ただし、観測したfeatureが多い場合、組み合わせは指数爆発
 そもそも、人間がゼロから非線形featureを設計するのは大変
 非線形性の設計をGBDTで処理した後、線形モデルで予測
前処理 分類器
実験結果
- Stacking+Blending ≒ GBDT+LR > LR -
 GBDTのMax_Depthは8
 独立に見えるfeatureに非線形性があった
データサイエンスLT祭り 2夜目 @Quasi_quant20103
Model accuracy precision recall f-value
LR 8.35e-01 9.22e-01 8.67e-01 8.94e-01
GDBT+LR **8.63e-01 **9.31e-01 8.91e-01 9.11e-01
Stacking+
Blending
8.62e-01 9.30e-01 **8.92e-01 **9.11e-01
注1) 計算データ : Adult Data Set (goo.gl/GzB8bS)
age workclass sex education
education-
num
39 State-gov male Bachelors 13
50
Self-emp-
not-inc
female Bachelors 13
注2) 5-Fold
注3) ** : Best Score
注4) カテゴリカル変数は
全てOne-hot-encoding
データセット例
予測結果
参考
- GBDTとは -
 PAC Learning
 Boostingとは弱学習器をたくさん集めて強学習器を作ろう
 機械学習
 PAC Learningを損失関数を最小化する問題として再定義、
損失を最小化する方向を探すのに勾配情報を使っているので、
Gradient Boosting
 ポイント
 negative gradientを最小二乗近似し、弱学習器を推定
 詳しくは
 [Quasi_quant2010c] を参照
データサイエンスLT祭り 2夜目 @Quasi_quant20104
前処理(イメージ図)
- 非線形性の設計をGBDTで処理 -
 2つの決定木のアンサンブル例
 一つは3つのleaf node(A)
 一つは2つのleaf node(B)
 データ例
 Aの2番目のleaf nodeに到達
 Bの1番目のleaf nodeに到達
 非線形変換後のfeatureは
[0,1,0,1,0] となる
データサイエンスLT祭り 2夜目 @Quasi_quant20105
引用 [H.Xinran, etc]
Figure1
Input Features
Transoformed
Features
線形モデル
で予測
GBDTの原理が損失を最小化するように木を追加するという点で根拠
をもち、決定木が複数and条件の情報も有する非線形変換が可能
A B
実験結果
- FeatureImportanceと正則化path -
データサイエンスLT祭り 2夜目 @Quasi_quant20106
 Feature間のand条件を考慮可
 age * hours-parweek等
 Blendingは損失関数と正則化関
数の組み合わせを比較
 損失関数 : Logistic-Loss or
Hinge Loss
 正則化関数 : L1 or L2
Ridge回帰でBlending
考察①
- サンプルデータの振り返り -
 モデルの振り返り
 GBDTがfeature間の相関をうまく処理したか
 作ったtreeに関し、max_depthが8なので、うまく処理できた
 ただし、実務ではHyper-paramsを忍耐強く調整する必要あり
 実務を想定した振り返り
 施策単体が有効なのか、複合要因なのか
 今回のデータでは、施策複合も有効だった
 部門単体により増収効果という報告があった場合
それは、誤りであることがモデル上確認できる
 決算上事実かは、非線形featureを基に収益を追跡すればよい
 モデル話ではビジネスサイドが納得できないので、
考察をビジネスサイドの手触り感に近づけることも重要
データサイエンスLT祭り 2夜目 @Quasi_quant20107
考察②(実務という視点で)
- 施策への示唆を得られることが最も重要 -
 α,βなど、施策単体を評価するのではなく、施策の組み合わ
せを評価できる枠組みなので、より客観的な振り返りが可能
 施策単体しか評価できないとPDCAを回し切るのに時間がかかる
 観測した特徴量をモデルで非線形変換しているものの、
隠れ変数を導入していないため、単体施策(feature) や複
合施策(非線形feature)に関する振り返りが可能
 単体施策
 GBDTのfeature importance
 複合施策
 非線形変換したfeatureのweight(線形モデルのfeature weight)
 featureの安定性も加味する事も可能で、持続効果もわかる
データサイエンスLT祭り 2夜目 @Quasi_quant20108
参考文献
 **[H.Xinran, etc] Practical Lessons from Predicting Clicks on
Ads at Facebook. ADKDD14
 [C.Zhicheng, etc] Optimal Action Extraction for Random
Forests and Boosted Trees. KDD15
 [Quasi_quant2010a] Gradient Boostingについて - Scikit-Learnを
使ったfeature transformation(GBDT + LR vs LR) -
goo.gl/Pkto81
 [Quasi_quant2010b] Stacking - テンプレート化編・計算編② -
goo.gl/jXSrw8
 [Quasi_quant2010c] Gradient Boostingについて - 準備編 -
goo.gl/tng0vl
 [Quasi_quant2010d] Gradient Boostingについて - 正則化編・
Xgboost – goo.gl/dBQqYc
データサイエンスLT祭り 2夜目 @Quasi_quant20109

More Related Content

PDF
LightGBM: a highly efficient gradient boosting decision tree
PDF
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
PDF
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
PPTX
密度比推定による時系列データの異常検知
PDF
因果探索: 基本から最近の発展までを概説
PDF
変分推論と Normalizing Flow
PPTX
Transformerを雰囲気で理解する
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
LightGBM: a highly efficient gradient boosting decision tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
密度比推定による時系列データの異常検知
因果探索: 基本から最近の発展までを概説
変分推論と Normalizing Flow
Transformerを雰囲気で理解する
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...

What's hot (20)

PDF
失敗から学ぶ機械学習応用
PDF
方策勾配型強化学習の基礎と応用
PDF
推薦アルゴリズムの今までとこれから
PPTX
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
PDF
非ガウス性を利用した 因果構造探索
PDF
決定木学習
PDF
統計的因果推論への招待 -因果構造探索を中心に-
PDF
機械学習と機械発見:自然科学研究におけるデータ利活用の再考
PDF
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PDF
論文紹介 Semi-supervised Learning with Deep Generative Models
PDF
形態素解析
PDF
2 6.ゼロ切断・過剰モデル
PDF
ファクター投資と機械学習
PPTX
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
PDF
分散学習のあれこれ~データパラレルからモデルパラレルまで~
PDF
ウィナーフィルタと適応フィルタ
PDF
スパースモデリング
PPTX
畳み込みニューラルネットワークの高精度化と高速化
PPTX
[DL輪読会]Focal Loss for Dense Object Detection
PDF
機械学習モデルの判断根拠の説明
失敗から学ぶ機械学習応用
方策勾配型強化学習の基礎と応用
推薦アルゴリズムの今までとこれから
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
非ガウス性を利用した 因果構造探索
決定木学習
統計的因果推論への招待 -因果構造探索を中心に-
機械学習と機械発見:自然科学研究におけるデータ利活用の再考
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
論文紹介 Semi-supervised Learning with Deep Generative Models
形態素解析
2 6.ゼロ切断・過剰モデル
ファクター投資と機械学習
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
分散学習のあれこれ~データパラレルからモデルパラレルまで~
ウィナーフィルタと適応フィルタ
スパースモデリング
畳み込みニューラルネットワークの高精度化と高速化
[DL輪読会]Focal Loss for Dense Object Detection
機械学習モデルの判断根拠の説明
Ad

Viewers also liked (9)

PPTX
RandomForest
PDF
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
PPTX
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜
PDF
Kaggleのテクニック
PPTX
10分でわかるRandom forest
PDF
不均衡データのクラス分類
PDF
合成変量とアンサンブル:回帰森と加法モデルの要点
PDF
実践多クラス分類 Kaggle Ottoから学んだこと
ZIP
今さら聞けないカーネル法とサポートベクターマシン
RandomForest
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜
Kaggleのテクニック
10分でわかるRandom forest
不均衡データのクラス分類
合成変量とアンサンブル:回帰森と加法モデルの要点
実践多クラス分類 Kaggle Ottoから学んだこと
今さら聞けないカーネル法とサポートベクターマシン
Ad

Similar to GBDTを使ったfeature transformationの適用例 (6)

PDF
201803NC
PPTX
20170618論文読み会 伊藤
PDF
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
PPTX
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
PDF
20160717 dikf
PDF
15min nov25
201803NC
20170618論文読み会 伊藤
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
20160717 dikf
15min nov25

More from Takanori Nakai (18)

PPTX
Sentence-State LSTM for Text Representation
PDF
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
PDF
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
PDF
Note : Noise constastive estimation of unnormalized statictics methods
PDF
Adaptive subgradient methods for online learning and stochastic optimization ...
PDF
Learning Better Embeddings for Rare Words Using Distributional Representations
PDF
Preference-oriented Social Networks_Group Recommendation and Inference
PDF
高次元データの統計:スパース正則化の近似誤差と推定誤差
PDF
Analysis of Learning from Positive and Unlabeled Data
PDF
Positive Unlabeled Learning for Deceptive Reviews Detection
PDF
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
PDF
Similarity component analysis
PDF
Query driven context aware recommendation
PDF
Unsupervised Graph-based Topic Labelling using DBpedia
PDF
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
PDF
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PDF
金利期間構造について:Forward Martingale Measureの導出
PPTX
Topic discovery through data dependent and random projections
Sentence-State LSTM for Text Representation
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
Note : Noise constastive estimation of unnormalized statictics methods
Adaptive subgradient methods for online learning and stochastic optimization ...
Learning Better Embeddings for Rare Words Using Distributional Representations
Preference-oriented Social Networks_Group Recommendation and Inference
高次元データの統計:スパース正則化の近似誤差と推定誤差
Analysis of Learning from Positive and Unlabeled Data
Positive Unlabeled Learning for Deceptive Reviews Detection
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Similarity component analysis
Query driven context aware recommendation
Unsupervised Graph-based Topic Labelling using DBpedia
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
金利期間構造について:Forward Martingale Measureの導出
Topic discovery through data dependent and random projections

GBDTを使ったfeature transformationの適用例

  • 1. GBDTを使った feature transformationの適用例 担当: @Quasi_quant2010 データサイエンスLT祭り 2夜目 @Quasi_quant20101 【データサイエンスLT祭り 2夜目】
  • 2. 概要 - 特徴量の相関(非線形性)をGDBTで抽出 - データサイエンスLT祭り 2夜目 @Quasi_quant20102  ケース  予測ラベル:年収が高い・低い  feature:年齢・教育年数・投資損失・労働時間/週, etc  例えば、(労働時間/週, 投資利益)の二つを組み合わせた時、 労働時間は短いが、投資利益が高い人は高い傾向にあるはず  ドメイン知識より、Featureをand条件の組み合わせで 非線形featureは作れる  ただし、観測したfeatureが多い場合、組み合わせは指数爆発  そもそも、人間がゼロから非線形featureを設計するのは大変  非線形性の設計をGBDTで処理した後、線形モデルで予測 前処理 分類器
  • 3. 実験結果 - Stacking+Blending ≒ GBDT+LR > LR -  GBDTのMax_Depthは8  独立に見えるfeatureに非線形性があった データサイエンスLT祭り 2夜目 @Quasi_quant20103 Model accuracy precision recall f-value LR 8.35e-01 9.22e-01 8.67e-01 8.94e-01 GDBT+LR **8.63e-01 **9.31e-01 8.91e-01 9.11e-01 Stacking+ Blending 8.62e-01 9.30e-01 **8.92e-01 **9.11e-01 注1) 計算データ : Adult Data Set (goo.gl/GzB8bS) age workclass sex education education- num 39 State-gov male Bachelors 13 50 Self-emp- not-inc female Bachelors 13 注2) 5-Fold 注3) ** : Best Score 注4) カテゴリカル変数は 全てOne-hot-encoding データセット例 予測結果
  • 4. 参考 - GBDTとは -  PAC Learning  Boostingとは弱学習器をたくさん集めて強学習器を作ろう  機械学習  PAC Learningを損失関数を最小化する問題として再定義、 損失を最小化する方向を探すのに勾配情報を使っているので、 Gradient Boosting  ポイント  negative gradientを最小二乗近似し、弱学習器を推定  詳しくは  [Quasi_quant2010c] を参照 データサイエンスLT祭り 2夜目 @Quasi_quant20104
  • 5. 前処理(イメージ図) - 非線形性の設計をGBDTで処理 -  2つの決定木のアンサンブル例  一つは3つのleaf node(A)  一つは2つのleaf node(B)  データ例  Aの2番目のleaf nodeに到達  Bの1番目のleaf nodeに到達  非線形変換後のfeatureは [0,1,0,1,0] となる データサイエンスLT祭り 2夜目 @Quasi_quant20105 引用 [H.Xinran, etc] Figure1 Input Features Transoformed Features 線形モデル で予測 GBDTの原理が損失を最小化するように木を追加するという点で根拠 をもち、決定木が複数and条件の情報も有する非線形変換が可能 A B
  • 6. 実験結果 - FeatureImportanceと正則化path - データサイエンスLT祭り 2夜目 @Quasi_quant20106  Feature間のand条件を考慮可  age * hours-parweek等  Blendingは損失関数と正則化関 数の組み合わせを比較  損失関数 : Logistic-Loss or Hinge Loss  正則化関数 : L1 or L2 Ridge回帰でBlending
  • 7. 考察① - サンプルデータの振り返り -  モデルの振り返り  GBDTがfeature間の相関をうまく処理したか  作ったtreeに関し、max_depthが8なので、うまく処理できた  ただし、実務ではHyper-paramsを忍耐強く調整する必要あり  実務を想定した振り返り  施策単体が有効なのか、複合要因なのか  今回のデータでは、施策複合も有効だった  部門単体により増収効果という報告があった場合 それは、誤りであることがモデル上確認できる  決算上事実かは、非線形featureを基に収益を追跡すればよい  モデル話ではビジネスサイドが納得できないので、 考察をビジネスサイドの手触り感に近づけることも重要 データサイエンスLT祭り 2夜目 @Quasi_quant20107
  • 8. 考察②(実務という視点で) - 施策への示唆を得られることが最も重要 -  α,βなど、施策単体を評価するのではなく、施策の組み合わ せを評価できる枠組みなので、より客観的な振り返りが可能  施策単体しか評価できないとPDCAを回し切るのに時間がかかる  観測した特徴量をモデルで非線形変換しているものの、 隠れ変数を導入していないため、単体施策(feature) や複 合施策(非線形feature)に関する振り返りが可能  単体施策  GBDTのfeature importance  複合施策  非線形変換したfeatureのweight(線形モデルのfeature weight)  featureの安定性も加味する事も可能で、持続効果もわかる データサイエンスLT祭り 2夜目 @Quasi_quant20108
  • 9. 参考文献  **[H.Xinran, etc] Practical Lessons from Predicting Clicks on Ads at Facebook. ADKDD14  [C.Zhicheng, etc] Optimal Action Extraction for Random Forests and Boosted Trees. KDD15  [Quasi_quant2010a] Gradient Boostingについて - Scikit-Learnを 使ったfeature transformation(GBDT + LR vs LR) - goo.gl/Pkto81  [Quasi_quant2010b] Stacking - テンプレート化編・計算編② - goo.gl/jXSrw8  [Quasi_quant2010c] Gradient Boostingについて - 準備編 - goo.gl/tng0vl  [Quasi_quant2010d] Gradient Boostingについて - 正則化編・ Xgboost – goo.gl/dBQqYc データサイエンスLT祭り 2夜目 @Quasi_quant20109