SlideShare a Scribd company logo
5
Most read
8
Most read
11
Most read
表形式データに必要なものは
ディープラーニングだけではない!
表形式データ予測での新しい見解
今回紹介する内容
● Tabular Data: Deep Learning is Not All You Need
○ 著者: Ravid Shwartz-Ziv, Amitai Armon (Intelの研究者)
○ 投稿: https://arxiv.org/abs/2106.03253, 2021
● 論文の内容
○ 最近提案された表形式データ向けのDNNモデルについてXGBoostと比較検証
○ これらのDNNモデルは論文内で使用されてなかったデータセットに対しては
XGBoostよりも性能が劣ることがわかった
○ DNNモデルとXGBoostのアンサンブルが最も良い性能を示した
表形式データに最適なモデル
● XGBoostを始めとする決定木系のアルゴリズムが推奨されている
● 最近、DNNモデルを表形式データに適用する試みが行われていた
○ TabNet, 2019
○ Neural Oblivious Decision Ensembles (NODE), 2019
○ DNF-Net, 2020
○ 1D-CNN, 2021
● このうちいくつかはXGBoostを上回ると主張するが、
それぞれ異なるデータセットを用いている
オープンソースの実装がないことがある
ため、モデルの比較が困難
● さらに比較する際それぞれのモデルを同等に最適化していなかった
検証したいこと
● 提案されたDNNモデルが本当に表形式データの予測に適しているのか?
具体的には、提案されたDNNモデルが
● 論文内で使用していたデータセット以外にも有効か?
● 他のモデルと比較してパラメータ探索や学習にどのくらい時間がかかるか?
といったことを確かめる
実験設定
● データセット
○ TabNet, DNF-Net, NODE の論文から3つずつ、さらにどの論文でも使用されていないkaggle
のデータセット2つの合計11のデータセット
● パラメータの最適化
○ HyperOpt (ベイズ最適化) を使用
○ 初期値は論文の設定と合わせ、1000イテレーション
○ 学習・検証・テストの分け方も論文の設定と同様
○ 損失関数
■ 分類: クロスエントロピー
■ 回帰: 平均二乗誤差
結果: 各データセットにおけるパフォーマンス
● XGBoostは一般的にDNNモデルよりも優れている
● この論文で新しく追加されたデータセットに対では、DNNとXGBoostのアン
サンブルが最もよい性能を示している。
● DNNとXGBoostのアンサンブルが全体的に最も良い性能を示したのは、11個
中6個のデータセット。
結果: 平均パフォーマンス
● 各データセットでのベストなモデルと比較した際の、それぞれのモデルの
相対的なパフォーマンス
● 未使用データセットでの平均をとった
● XGBoostを含むアンサンブル
が最も良い
● XGBoostはそれに次いで2番目
● DNNモデルは論文で使用して
いたデータセット以外を用い
ると、XGBoostよりも性能が
悪い
● 特定のデータセットに敏感
アンサンブルにXGBoostは必要か?
● DNNを除く古典的なモデル(SVM, CatBoost)を使用したアンサンブルや、
DNNを使用するがXGBoostを用いないアンサンブルよりも、DNN+XGBoost
のアンサンブルが最も性能が良かった → XGBoost必要
アンサンブルに使用するモデルの選択法
● アンサンブルによって精度が向上することが確認できた
○ しかし現実的な計算量でモデルを設計する必要がある
○ アンサンブル内のモデルのサブセットを使用することを検討
○ 選択基準
■ ランダム
■ 不確実性に基づく
■ バリデーションでの損失に基づく
わずか3つのモデルでほぼ最適な性能を
得ることができた
パラメータ最適化の難しさ
● データセット: Shrutime に対するハイ
パーパラメータの最適化過程を示す
● XGBoostはDNNモデルよりも早く、損
失を小さくすることができている
● 原因として考えられること
○ 最適化手法に依存(今回はベイズ最適化)
○ XGBoostの初期パラメータが多くのデータ
セットで最適化されておりロバストな
ものとなっていた
○ XGBoostがロバストで最適化しやすいとい
う特性があるのかもしれない
まとめ
● 最近提案された表形式データ向けのDNNモデルとXGBoostの性能を比較した
● DNNモデルは元論文で登場していないデータセットには弱く、パラメータの
最適化条件やデータセット分割などの条件を揃えると、XGBoostよりも性能
が劣ることが多いことがわかった
● DNNモデルとXGBoostのアンサンブルが最も良い性能を示した
● 実社会(AutoMLなど)に適応させる上で重要になる、パラメータ探索・学習の
時間と精度のトレードオフについて示した
● この結果を踏まえ、表形式データ向けのDNNモデルについては更なる研究が
必要である
チャンネル紹介
● チャンネル名: 【経営xデータサイエンスx開発】西岡 賢一郎のチャンネル
● URL: https://www.youtube.com/channel/UCpiskjqLv1AJg64jFCQIyBg
● チャンネルの内容
○ 経営・データサイエンス・開発に関する情報を発信しています。
○ 例: アジャイル開発、データパイプライン構築、AIで使われるアルゴリズム4種類など
● noteでも情報発信しています → https://note.com/kenichiro

More Related Content

PPTX
【DL輪読会】Flow Matching for Generative Modeling
PDF
時系列予測にTransformerを使うのは有効か?
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
PPTX
[DL輪読会]When Does Label Smoothing Help?
PDF
【メタサーベイ】数式ドリブン教師あり学習
PDF
Iclr2016 vaeまとめ
PPTX
[DL輪読会]逆強化学習とGANs
PDF
統計的因果推論への招待 -因果構造探索を中心に-
【DL輪読会】Flow Matching for Generative Modeling
時系列予測にTransformerを使うのは有効か?
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]When Does Label Smoothing Help?
【メタサーベイ】数式ドリブン教師あり学習
Iclr2016 vaeまとめ
[DL輪読会]逆強化学習とGANs
統計的因果推論への招待 -因果構造探索を中心に-

What's hot (20)

PDF
スパース推定法による統計モデリング(入門)
PPTX
【DL輪読会】時系列予測 Transfomers の精度向上手法
PDF
変分推論法(変分ベイズ法)(PRML第10章)
PPTX
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
PDF
ドメイン適応の原理と応用
PDF
PDF
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
PDF
GAN(と強化学習との関係)
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
PDF
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
PDF
最適化超入門
PPTX
畳み込みニューラルネットワークの高精度化と高速化
PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
PPTX
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
PDF
機械学習モデルの判断根拠の説明(Ver.2)
PPTX
学習時に使ってはいないデータの混入「リーケージを避ける」
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
PPTX
ようやく分かった!最尤推定とベイズ推定
PDF
BlackBox モデルの説明性・解釈性技術の実装
PDF
グラフィカル Lasso を用いた異常検知
スパース推定法による統計モデリング(入門)
【DL輪読会】時系列予測 Transfomers の精度向上手法
変分推論法(変分ベイズ法)(PRML第10章)
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
ドメイン適応の原理と応用
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
GAN(と強化学習との関係)
【DL輪読会】Scaling Laws for Neural Language Models
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
最適化超入門
畳み込みニューラルネットワークの高精度化と高速化
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
機械学習モデルの判断根拠の説明(Ver.2)
学習時に使ってはいないデータの混入「リーケージを避ける」
【論文紹介】How Powerful are Graph Neural Networks?
ようやく分かった!最尤推定とベイズ推定
BlackBox モデルの説明性・解釈性技術の実装
グラフィカル Lasso を用いた異常検知
Ad

More from 西岡 賢一郎 (20)

PPTX
Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
PPTX
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
PPTX
Amazon SageMakerのNotebookからJobを作成する
PPTX
リモートワークで知っておきたい コミュニケーション時の過大な期待
PPTX
リモートワークで意識すべき7つのこと
PPTX
Amazon SageMaker ML Governance 3つの機能紹介
PPTX
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
PPTX
機械学習の特徴量を管理するAmazon SageMaker Feature Store
PPTX
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
PPTX
Amazon SageMakerでカスタムコンテナを使った学習
PPTX
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
PPTX
Amazon AthenaでSageMakerを使った推論
PPTX
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
PPTX
未来のカタチ x AI
PPTX
TorchDataチュートリアル解説
PPTX
Amazon SageMaker JumpStart
PPTX
Amazon SageMaker Studio Lab紹介
PPTX
Amazon SageMaker Canvasを使ったノーコード機械学習
PPTX
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
PPTX
H2O Waveを使ったAIアプリケーション作成入門
Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
Amazon SageMakerのNotebookからJobを作成する
リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで意識すべき7つのこと
Amazon SageMaker ML Governance 3つの機能紹介
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon AthenaでSageMakerを使った推論
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
未来のカタチ x AI
TorchDataチュートリアル解説
Amazon SageMaker JumpStart
Amazon SageMaker Studio Lab紹介
Amazon SageMaker Canvasを使ったノーコード機械学習
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
H2O Waveを使ったAIアプリケーション作成入門
Ad

表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」

Editor's Notes

  • #2: 今回は、表形式データに必要なものはディープラーニングはだけではないというテーマでお話します。 実務でよく使われる表形式データでは、ディープラーニングを使ってもよいパフォーマンスを出しにくいと言われています。 この問題に対し以前の動画で、DNNと決定木のいいとこ取りをしたTabNetというアルゴリズムが、表形式データで他のアルゴリズムよりも優れたパフォーマンスを示すという論文を紹介しました。 今回は、TabNetの論文の主張とはまた別の観点の論文を紹介します。 機械学習で精度向上を目指す人にとって参考になる話となるのでぜひ最後までご視聴ください。 このチャンネルでは、データサイエンスやデータサイエンスを実務のための開発や、またそれらを活用した経営・組織づくりの話などをしていきます。 最新の研究なども含めて紹介していくので、興味のある方はぜひチャンネル登録をしていってください。
  • #3: 今回は、「表形式データ: 必要なものはディープラーニングだけではない」という論文を紹介します。 この論文は2021年にIntelの研究者から投稿された論文で、表形式データ向けDNNモデルとXGBoostを比較検証しています。 そして、表形式データ向けDNNモデルの論文内で使用されていなかったデータセットを使った予測において、XGBoostの方が性能がよかったという結果が出ています。 また、最も良い性能を出したのはDNNモデルとXGBoostのアンサンブルとなったということです。 それでは詳細を解説していきます。
  • #4: これまで実世界でよく出てくる表形式データには、XGBoostを始めとする決定木系のアルゴリズムが推奨されてきました。 しかし、最近はDNNモデルを表形式データに適用する試みが行われてきています。 代表的なものとしては、2019年のTabNetやNODE, 2020年のDNF-Net, 2021年の1D-CNNなどがあります。 これらのうちいくつかは、XGBoostより良いパフォーマンスが出ると主張しているのですが、それぞれが異なるデータセットを使っていたり、オープンソースの実装がなかったりすることがあるため、モデルの比較が困難になっています。 また、各モデルを比較する際に、同等の最適化がされていないということを、この著者は主張しています。
  • #5: そこでこの論文では、提案されたDNNモデルが本当に表形式データの予測に適しているかを検証しています。 具体的には、提案されたDNNモデルが、論文で使用されていたデータセット以外でも有効であるかどうかと、他のモデルと比較してパラメータ探索や学習にどのくらい時間がかかるかを調べています。
  • #6: この論文の実験では、TabNet, DNF-Net, NODEの論文で使われていたデータセットを3つずつ合計9個を使い、さらに、どの論文でも使用されていないKaggleのデータセット2つを追加した合計11個のデータセットを用いています。 パラメータの最適化では、HyperOptを使ってベイズ最適化を行っています。 初期値は論文の設定と合わせ、イテレーションの数は1000回としています。 また、学習・検証・テストの分け方も論文と同様の条件を使っています。 損失関数としては、分類であればクロスエントロピー、回帰であれば平均二乗誤差を用いています。
  • #7: それでは、実験の結果です。 この表は行がアルゴリズム、列がデータセットを表しています。 最初の5行は、XGBoost, NODE, DNF-Net, TabNet, 1D-CNNそれぞれ単体を表しており、残りの3行はアンサンブルモデルを表しています。 最初の3列がTabNetで使われていたデータセット、次の3列がDNF-Netで使われていたデータセット、さらに次の3列がNODEで使われていたデータセット、そして最後の2列が新しく追加されたデータセットとなっています。 太字になっている部分が最もよいパフォーマンスを表しています。 1番上のXGBoostとその下すぐ4行のDNNモデルを見比べてみると、XGBoostのパフォーマンスがDNNモデルよりも多くの場合優れていることがわかります。 この論文で新しく追加されたデータセットに関しては、DNNとXGBoostのアンサンブルが最もよいパフォーマンスをだしています。 11個のデータセットのうち6個のデータセットで、DNNとXGBoostのアンサンブルが最もよいパフォーマンスとなる結果が出ています。
  • #8: こちらの結果は、各データセットで最適なモデルとの相対的なパフォーマンスを出し、データセット横断で平均を出したものです。 低い値であればあるほど、最適なモデルに近いパフォーマンスを出せることを表します。 このグラフを見ると、一番上XGBoost単体と一番下のXGBoostとDNNのアンサンブルの平均パフォーマンスが良いことがわかります。 一方DNNモデルでは、平均にするとパフォーマンスが悪い事がわかります。 これは、DNNモデルが特定のデータセットに対して大きな影響をうけることが原因と考えられます。 もしかすると、もとの論文で、対象とするモデルがうまくいくようなデータセットを選択していた可能性もあるということですね。 もちろん、今回の論文では、パラメータ探索空間が元論文に比べて限定されていたことも要因の一つとして考えられます。 幾何平均 この実験でDNNモデルがうまくいかなかった理由 データセットの選択バイアス 元論文では対象とするモデルがよく機能するようなデータセットを選択していた パラメータ探索空間の違い 今回は探索空間が元論文に比べ限定されていた (十分だったの?)
  • #9: 次にアンサンブルにXGBoostを組み込む必要があるかについて見ていきます。 下の3行がアンサンブルの結果になっており、一番上がDNNを除いた古典的なモデルを使用したアンサンブル、2つめがDNNを用いるがXGBoostを用いないアンサンブルモデル、そして最後の行がDNNとXGBoostの両方を用いたアンサンブルモデルとなっています。 ここの結果を見て分かるように、DNNとXGBoostの両方を混ぜることにより、高性能を出せるようになっていることがわかります。
  • #10: アンサンブルにより精度向上をすることが分かったのですが、アンサンブルでは多くのモデルを使うと計算量が多くなりすぎるという弱点があります。 とくに現実世界では、早く予測結果を出すことが重要になってくるので、アンサンブルに使うモデルの数を制御することで計算量を減らす必要が出てきます。 ここでは、アンサンブルに使うモデルの数を減らすと、どの程度性能が変わるかを調査しています。 アンサンブルに使うモデルの選択方法としては、ランダムの選択、不確実性にもとづく選択、そしてバリデーションでの損失に基づく選択の3つです。 右の図は、横軸が使用したモデルの数、縦軸が損失を表しています。 青い線がランダムの選択、オレンジの線が不確実性に基づく選択、緑の線がバリデーションの損失に基づく選択となっています。 グラフからわかるように、アンサンブルに3つのモデルを使うことで、最適な性能に近づくことができるようです。 つまり、アンサンブルをしたとしても予測に使用する主要なモデルはそこまで多くないということですね。
  • #11: 最後に、各モデルのハイパーパラメータを最適化するためにイテレーションが何回必要であるかを調べた実験結果を紹介します。 この図は、イテレーションの数と損失の関係を表しています。 赤い線がXGBoostの変化を表しており、他のアルゴリズムに比べて早い段階で損失を最高パフォーマンス近くまで下げていることがわかります。 この結果は、今回使った最適化手法であるベイズ最適化による影響が考えられます。 また、XGBoostの初期パラメータが多くのデータセットで最適化されロバストになる可能性や、そもそもXGBoost自体がロバストで最適化しやすい特性がある可能性も考えられます。 この論文には、これ以上の詳しい調査はのっていなかったので、最適化についてはまた別の論文などを調べて見たほうがよさそうですね。
  • #12: まとめをします。 今回紹介した論文では、最近提案されている表形式データ向けのDNNモデルとXGBoostの性能を比較しています。 各DNNモデルは、提案された論文で使われたデータセット以外に弱く、パラメータの最適化条件やデータセット分割などの条件を揃えると、XGBoostよりも性能が劣ること多いことがわかりました。 論文内の実験で一番良い性能を示したのは、DNNモデルとXGBoostの両方を用いたアンサンブルでした。 また、この論文では、実生活で重要となってくる、パラメータ探索や学習の時間と精度のトレードオフについても述べられています。 アンサンブルに使うモデルを3つまで減らしても高いパフォーマンスを出せることなどが実験的に示されていました。 DNNモデルは最近流行りの手法の一つであるのですが、この論文の結果が示すように、XGBoostなどとの組み合わせや使い分けのさらなる研究が必要になりそうです。
  • #13: 最後にチャンネルの紹介をさせてください。 このチャンネルでは、経営やデータサイエンスや開発の話をしていきます。 聞きたい話のリクエストも募集中です。 もし、この動画が役に立ったら高評価とチャンネル登録をお願いいたします。