SlideShare a Scribd company logo
xgboost!
About My Self
安井翔太 / Shota Salmon Yasui
Twitter: @housecat442
<けーれき>
• 日本のド文系経済学部
• アメリカで計量経済学1年
• ノルウェーで資源・環境経済学修士取得
• SNF研究所でデータ分析(環境税作成)
• 広告関係のデータ分析やってます。
xgboostとは?
• Gradient Boosting Decision Treeという予測モデルのC++での実装。
• それをRから使える様にするのが、xgboost package。
• メモリエラーが原因でCRANから消されてる・・・けど、githubからイン
ストール可能。
<githubからインストール>
devtools::install_github('dmlc/xgboost',subdir='R-package')
gbmよりはやい!(当社比10倍・・・らしい)
Gradient Boosting Decision Treeとは?
• Decision Tree(決定木)をGradient Boostingする。
• 決定木は割愛
• Boostingとは、複数のモデルを連動させ、「M人寄れば文殊の知恵」的な
感じに逐次的に学習をする方法。(adaboostというのが有名)
• Gradient Boosting とは基本的にはboostingと一緒だが、疑似的な誤差を算
出してその誤差に対して次のモデルを学習させるという方法。
• 疑似的な誤差は、各サンプルについての誤差を予測モデルについて偏微
分した値なので、モデルに変化を与えた際に誤差が変わりやすいサンプ
ルに対して重点的に追加の学習が行われていると解釈できる。
1. 決定木の学習をする
2. 決定木の予測と誤差を算出する
3. 誤差に対して決定木を学習しなおす。(木が1本増える)
4. 誤差を算出する。
5. 指定したM本の木が出来るまで3-4を繰り返す。
単純化して言えば・・・
学習の際のハイパーパラメーターは
• 木の本数
• 木の深さ
• 次の木にどのくらい学習の情報を渡すかの重み(shrinkage)
 3で学習する際に適応される
の3つが基本。
Y
X
こんなデータがある
x <- 1:5000*0.005 + rnorm(5000)
y <- sin(x)
GBDTの学習結果を木の本数を2本刻みで変えて表示(shrinkage = 0.3)
2
4
6
8
• 本数を増やすとよりデータに対してフィットして行くのが解る。
• ただ増やしまくれば良いと言う訳ではない。
GBDTの学習結果を木の本数を本刻みで変えて表示(shrinkage = 0.1)
5
10
15
20
GBDTの学習結果を木の本数を150本刻みで変えて表示(shrinkage = 0.001)
150
300
450
Shrinkageが下がると学習に必要な木の本数が増えている事が解る。
▶︎オーバーフィッティングしにくくなるので精度が上がり易い。
Xgboostの使い方
#データをsparse.model.matrixにする
data.model <- sparse.model.matrix(y~x,ds)
#GBDTの学習
gdbt.result <- xgboost(data = data.model,
label = y,
booster = "gbtree",
max.depth = 4,
eta = 0.3,
nrounds = 1000)
おしまい!

More Related Content

PDF
Data Science Bowl 2017 Winning Solutions Survey
PPTX
Introduction of featuretweakR package
PDF
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
PDF
機会学習ハッカソン:ランダムフォレスト
PPTX
How to use in R model-agnostic data explanation with DALEX & iml
PDF
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
PDF
ディープラーニング入門 ~ 画像処理・自然言語処理について ~
PDF
エントリー層向けセミナー#04『はじめての最適化』
Data Science Bowl 2017 Winning Solutions Survey
Introduction of featuretweakR package
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
機会学習ハッカソン:ランダムフォレスト
How to use in R model-agnostic data explanation with DALEX & iml
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
ディープラーニング入門 ~ 画像処理・自然言語処理について ~
エントリー層向けセミナー#04『はじめての最適化』

Similar to Xgboost for share (19)

PDF
[db analytics showcase Sapporo 2018] A33 AI社内実装の試み~ソニーNNCを非技術者に使わせてみる~
PDF
Machine learning CI/CD with OSS
PDF
なれる! Debian開発者 〜 45分でわかる? メンテナ入門
PDF
外部委託から内製化アジャイルへの切替支援を通してわかったこと #augj
PDF
PPT
AlphaGo Zero 解説
PDF
Hadoopデータ基盤とMulti-CloudなML基盤への取り組みの紹介
PDF
#経済学のための実践的データ分析 11. データのビジュアライゼーション
PDF
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
PDF
NeurIPS'21参加報告 tanimoto_public
PDF
QA teamを組成した話
PDF
Deeplearning bank marketing dataset
PDF
Eccv 2020 dsmnet
PDF
Contextual package
PDF
GCSアジャイル開発を使ったゲームの作り方
PDF
ChatGPTは思ったほど賢くない
PPTX
全体セミナー20170629
PPTX
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
PPTX
佐賀大学 - データ分析と向き合う
[db analytics showcase Sapporo 2018] A33 AI社内実装の試み~ソニーNNCを非技術者に使わせてみる~
Machine learning CI/CD with OSS
なれる! Debian開発者 〜 45分でわかる? メンテナ入門
外部委託から内製化アジャイルへの切替支援を通してわかったこと #augj
AlphaGo Zero 解説
Hadoopデータ基盤とMulti-CloudなML基盤への取り組みの紹介
#経済学のための実践的データ分析 11. データのビジュアライゼーション
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
NeurIPS'21参加報告 tanimoto_public
QA teamを組成した話
Deeplearning bank marketing dataset
Eccv 2020 dsmnet
Contextual package
GCSアジャイル開発を使ったゲームの作り方
ChatGPTは思ったほど賢くない
全体セミナー20170629
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
佐賀大学 - データ分析と向き合う
Ad

More from Shota Yasui (13)

PDF
L 05 bandit with causality-公開版
PDF
PaperFriday: The selective labels problem
PDF
TokyoR 20180421
PDF
何故あなたの機械学習はビジネスを改善出来ないのか?
PDF
木と電話と選挙(causalTree)
PDF
計量経済学と 機械学習の交差点入り口 (公開用)
PDF
Factorization machines with r
PDF
Estimating the effect of advertising with Machine learning
PPTX
Prml nn
PPTX
重回帰分析で頑張る
PDF
Dynamic panel in tokyo r
PDF
Rで部屋探し For slide share
PDF
Salmon cycle
L 05 bandit with causality-公開版
PaperFriday: The selective labels problem
TokyoR 20180421
何故あなたの機械学習はビジネスを改善出来ないのか?
木と電話と選挙(causalTree)
計量経済学と 機械学習の交差点入り口 (公開用)
Factorization machines with r
Estimating the effect of advertising with Machine learning
Prml nn
重回帰分析で頑張る
Dynamic panel in tokyo r
Rで部屋探し For slide share
Salmon cycle
Ad

Recently uploaded (9)

PDF
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
PDF
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
PDF
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
PDF
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
PDF
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
PDF
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
PDF
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告

Xgboost for share