表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」

表形式データに必要なものは
ディープラーニングだけではない！
表形式データ予測での新しい見解

今回紹介する内容
● Tabular Data: Deep Learning is Not All You Need
○ 著者: Ravid Shwartz-Ziv, Amitai Armon (Intelの研究者)
○ 投稿: https://arxiv.org/abs/2106.03253, 2021
● 論文の内容
○ 最近提案された表形式データ向けのDNNモデルについてXGBoostと比較検証
○ これらのDNNモデルは論文内で使用されてなかったデータセットに対しては
XGBoostよりも性能が劣ることがわかった
○ DNNモデルとXGBoostのアンサンブルが最も良い性能を示した

表形式データに最適なモデル
● XGBoostを始めとする決定木系のアルゴリズムが推奨されている
● 最近、DNNモデルを表形式データに適用する試みが行われていた
○ TabNet, 2019
○ Neural Oblivious Decision Ensembles (NODE), 2019
○ DNF-Net, 2020
○ 1D-CNN, 2021
● このうちいくつかはXGBoostを上回ると主張するが、
それぞれ異なるデータセットを用いている
オープンソースの実装がないことがある
ため、モデルの比較が困難
● さらに比較する際それぞれのモデルを同等に最適化していなかった

検証したいこと
● 提案されたDNNモデルが本当に表形式データの予測に適しているのか？
具体的には、提案されたDNNモデルが
● 論文内で使用していたデータセット以外にも有効か？
● 他のモデルと比較してパラメータ探索や学習にどのくらい時間がかかるか？
といったことを確かめる

実験設定
● データセット
○ TabNet, DNF-Net, NODE の論文から3つずつ、さらにどの論文でも使用されていないkaggle
のデータセット2つの合計11のデータセット
● パラメータの最適化
○ HyperOpt (ベイズ最適化) を使用
○ 初期値は論文の設定と合わせ、1000イテレーション
○ 学習・検証・テストの分け方も論文の設定と同様
○ 損失関数
■ 分類: クロスエントロピー
■ 回帰: 平均二乗誤差

結果: 各データセットにおけるパフォーマンス
● XGBoostは一般的にDNNモデルよりも優れている
● この論文で新しく追加されたデータセットに対では、DNNとXGBoostのアン
サンブルが最もよい性能を示している。
● DNNとXGBoostのアンサンブルが全体的に最も良い性能を示したのは、11個
中6個のデータセット。

結果: 平均パフォーマンス
● 各データセットでのベストなモデルと比較した際の、それぞれのモデルの
相対的なパフォーマンス
● 未使用データセットでの平均をとった
● XGBoostを含むアンサンブル
が最も良い
● XGBoostはそれに次いで2番目
● DNNモデルは論文で使用して
いたデータセット以外を用い
ると、XGBoostよりも性能が
悪い
● 特定のデータセットに敏感

アンサンブルにXGBoostは必要か？
● DNNを除く古典的なモデル(SVM, CatBoost)を使用したアンサンブルや、
DNNを使用するがXGBoostを用いないアンサンブルよりも、DNN+XGBoost
のアンサンブルが最も性能が良かった → XGBoost必要

アンサンブルに使用するモデルの選択法
● アンサンブルによって精度が向上することが確認できた
○ しかし現実的な計算量でモデルを設計する必要がある
○ アンサンブル内のモデルのサブセットを使用することを検討
○ 選択基準
■ ランダム
■ 不確実性に基づく
■ バリデーションでの損失に基づく
わずか3つのモデルでほぼ最適な性能を
得ることができた

パラメータ最適化の難しさ
● データセット: Shrutime に対するハイ
パーパラメータの最適化過程を示す
● XGBoostはDNNモデルよりも早く、損
失を小さくすることができている
● 原因として考えられること
○ 最適化手法に依存(今回はベイズ最適化)
○ XGBoostの初期パラメータが多くのデータ
セットで最適化されておりロバストな
ものとなっていた
○ XGBoostがロバストで最適化しやすいとい
う特性があるのかもしれない

まとめ
● 最近提案された表形式データ向けのDNNモデルとXGBoostの性能を比較した
● DNNモデルは元論文で登場していないデータセットには弱く、パラメータの
最適化条件やデータセット分割などの条件を揃えると、XGBoostよりも性能
が劣ることが多いことがわかった
● DNNモデルとXGBoostのアンサンブルが最も良い性能を示した
● 実社会(AutoMLなど)に適応させる上で重要になる、パラメータ探索・学習の
時間と精度のトレードオフについて示した
● この結果を踏まえ、表形式データ向けのDNNモデルについては更なる研究が
必要である

チャンネル紹介
● チャンネル名: 【経営xデータサイエンスx開発】西岡賢一郎のチャンネル
● URL: https://www.youtube.com/channel/UCpiskjqLv1AJg64jFCQIyBg
● チャンネルの内容
○ 経営・データサイエンス・開発に関する情報を発信しています。
○ 例: アジャイル開発、データパイプライン構築、AIで使われるアルゴリズム4種類など
● noteでも情報発信しています → https://note.com/kenichiro

表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」

More Related Content

What's hot (20)

More from 西岡賢一郎 (20)