SlideShare a Scribd company logo
Leverages Marketing Department
データ分析ランチセッション#24
OSSのAutoML~TPOTについて
2020/07/29 渋谷スクランブルスクエア25F
レバレジーズ株式会社 データ戦略室室長
阪上晃幸
1
Leverages Marketing Department
● Automated machine learningの略
○ 機械学習を実際の問題に適用するプロセスを自動化することを目的としている。
それらを実現するツールのことをAutoMLと呼んでいる。
○ AutoMLは、生のデータセットからデプロイ可能な機械学習モデルまでの完全なパイプラインを
カバーする。
○ 専門家でなくとも機械学習を用いたプロダクトを構築することを可能になるという画期的なツー
ル。
■ データサイエンティストの仕事を楽にしてくれるものでもある。
AutoMLとは
2
Leverages Marketing Department
● 具体的に何を自動化するのか?
○ データの準備、取り込み
■ データの型の判定(離散なのか連続なのか、ブーリアン代数なのか)
■ カラムの意味するものの判定(数値なのかカテゴリなのか)
■ タスクの判定(回帰か分類かクラスタリングか、ランク付けか)
○ 特徴量エンジニアリング
■ 特徴量選択
■ 特徴量抽出
■ 転移学習
■ 欠損値の対応
○ モデル選択
○ ハイパーパラメータチューニング
○ 制約下でのMLパイプライン構築
○ 評価指標と検証の方法の選択
○ その他
■ リークの発見
AutoMLが自動化する対象
3
Leverages Marketing Department
いっぱいあるAutoML
4
有償 OSS
Leverages Marketing Department
スターが多いOSSのAutoMLツールから探してみる
5
リンク:https://awesomeopensource.com/projects/automl
Leverages Marketing Department
OSSのAutoMLツールTPOTを触ってみる
詳細には立ち入らないので詳しくは参考文献へ
6
Leverages Marketing Department
● Tree-based Pipeline Optimization Toolの略で、Pythonでの機械学習の自動化のた
めのツールのこと。遺伝的プログラミングを用いて機械学習のパイプラインを最適化す
る。
● scikit-learnの上に乗っかったツールで、記法も
scikit-learnに近い。
○ 分類や回帰の機械学習タスクを行える。
● 絶賛開発中
TPOTとは
7
Leverages Marketing Department
TPOTで自動化される工程
8
引用元: https://github.com/EpistasisLab/tpot
誰かコミッターになり
ましょう!
前処理は引き続き頑
張りましょう。
Leverages Marketing Department
TPOTの処理概要(生成されたパイプラインの処理)
9
引用元: https://github.com/EpistasisLab/tpot
Leverages Marketing Department
TPOTを使うには
10
pip install deap update_checker tqdm stopit
pip install xgboost
pip install dask[delayed] dask[dataframe] dask-ml fsspec>=0.3.3
pip install scikit-mdr skrebate
pip install tpot
まずはインストール
Leverages Marketing Department
TPOTの分類器の引数について(分類)
11
詳しくはドキュメント見ましょ
う。
Leverages Marketing Department
TPOTの分類器の引数について(回帰)
12
詳しくはドキュメント見ましょ
う。
Leverages Marketing Department
チュートリアルの実行
13
MNISTの分類タスクが簡単
すぎたのか、あっという間に
0.98になって以降、改善しな
い。
MNISTデータを使った分類タ
スクを扱う。
Leverages Marketing Department
チュートリアルの実行
14
このような.pyファイルが生成
される。
Leverages Marketing Department
● Iris flower classification
● Digits dataset
● Boston housing prices modeling
● Titanic survival analysis
● Portuguese Bank Marketing
● MAGIC Gamma Telescope
● Neural network classifier using TPOT-NN
いろいろあるチュートリアルたち
15
色々あるので遊んでみよう。
チュートリアルのリンク: http://epistasislab.github.io/tpot/examples/
Leverages Marketing Department
● 某不動産紹介サイトから集めた、マンションの付帯設備に関するデータと、それがデザイ
ナーズマンションかどうかのラベル。(1864件、正例322件)
○ 付帯設備情報から、そのマンションがデザイナーズマンションかどうかを予測するタスクを行う。
評価指標はAUCとする。
実践
16
Leverages Marketing Department
● 自身のブログでは AUCで88%くらいにはなっているので、今回はそれを超えれると良い
と思われる。
先行事例
17
引用元: http://kamonohashiperry.com/archives/2444
Leverages Marketing Department
形態素解析でテキストデータの前処理を行う
18
Leverages Marketing Department
TPOTを実行(次元削減してないので処理時間が長い)
19
Leverages Marketing Department
結果
20
● AUCは先行研究の88%を超えて89%台に!
Leverages Marketing Department
.pyファイルも生成された
21
Leverages Marketing Department
● OSSのAutoMLツールであるTPOTの概要と、チュートリアルを紹介した。
● 過去にブログで扱った事例を上回る精度を出すことが出来たので、網羅的にモデルを試
すという観点では良いツールと思われる。
● 前処理までは人間が行う必要はあるし、クロスバリデーションの自動化はまだなので、複
雑なタスクには向いていない。今後の開発が期待される。
まとめ
22
Leverages Marketing Department
● The Top 76 Automl Open Source Projects
● Installation - TPOT
● EpistasisLab / tpot
● TPOT API Classification
● Automated machine learning
● AutoMLがすごいと聞いたので色々使って比べてみた
● Scalable AutoML for Time Series Prediction Using Ray and Analytics Zoo
● TPOT Examples
参考文献
23

More Related Content

PDF
AutoML & InterpretML (2019/11/27 Deep Learning Lab 講演資料)
PDF
これから機械学習エンジニアとして戦っていくみなさんへ ~MLOps というマインドセットについて~
PPTX
エンタープライズと機械学習技術
PDF
東大大学院 電子情報学特論講義資料「ハイパーパラメタ最適化ライブラリOptunaの開発」柳瀬利彦
PPTX
機械学習 - MNIST の次のステップ
PPTX
20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方
PPTX
20180925_【サポーターズCoLab勉強会】【営業から運用まで】データサイエンティストという職業
PDF
機械学習応用システムのアーキテクチャ・デザイパターン(2020-07 ドラフトバージョン))
AutoML & InterpretML (2019/11/27 Deep Learning Lab 講演資料)
これから機械学習エンジニアとして戦っていくみなさんへ ~MLOps というマインドセットについて~
エンタープライズと機械学習技術
東大大学院 電子情報学特論講義資料「ハイパーパラメタ最適化ライブラリOptunaの開発」柳瀬利彦
機械学習 - MNIST の次のステップ
20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方
20180925_【サポーターズCoLab勉強会】【営業から運用まで】データサイエンティストという職業
機械学習応用システムのアーキテクチャ・デザイパターン(2020-07 ドラフトバージョン))

Similar to データ分析ランチセッション#24 OSSのAutoML~TPOTについて (20)

PDF
【de:code 2020】 AutoML ではじめる機械学習の民主化
PDF
20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方
PDF
科学的説明を持つ機械学習システム
PDF
Azure Machine Learning getting started
PDF
Azure Machine Learningによるレコメンデーションの設計&実装を公開!~朝日カルチャーセンターの事例から~
PDF
2018/8/6 トレLABO2 AI案件のよくある落とし穴と人材育成
PPTX
20190212 supporterz
PDF
データマイニングCROSS 第2部-機械学習・大規模分散処理
PDF
最新!2015年 クラウドAI プラットフォーム比較 AzureML & AmazonML
PDF
FastAPIを使って 機械学習モデルをapi化してみた
PDF
(Draft) lambda architecture by using TreasureData
PDF
GOの機械学習システムを支えるMLOps事例紹介
PPTX
1028 TECH & BRIDGE MEETING
PPTX
東北大学AIE - 機械学習中級編とAzure紹介
PPTX
いまできるデータ分析を Power BI ではじめよう
PDF
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
PDF
(修正)機械学習デザインパターン(ML Design Patterns)の解説
PDF
BtoBマーケティングにおけるML/NLPの活用
PPT
yokyo-unv.
PDF
ピタゴラAPIのすゝめ ー APIの組み合わせ利用でできること -
【de:code 2020】 AutoML ではじめる機械学習の民主化
20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方
科学的説明を持つ機械学習システム
Azure Machine Learning getting started
Azure Machine Learningによるレコメンデーションの設計&実装を公開!~朝日カルチャーセンターの事例から~
2018/8/6 トレLABO2 AI案件のよくある落とし穴と人材育成
20190212 supporterz
データマイニングCROSS 第2部-機械学習・大規模分散処理
最新!2015年 クラウドAI プラットフォーム比較 AzureML & AmazonML
FastAPIを使って 機械学習モデルをapi化してみた
(Draft) lambda architecture by using TreasureData
GOの機械学習システムを支えるMLOps事例紹介
1028 TECH & BRIDGE MEETING
東北大学AIE - 機械学習中級編とAzure紹介
いまできるデータ分析を Power BI ではじめよう
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
(修正)機械学習デザインパターン(ML Design Patterns)の解説
BtoBマーケティングにおけるML/NLPの活用
yokyo-unv.
ピタゴラAPIのすゝめ ー APIの組み合わせ利用でできること -
Ad

More from Teruyuki Sakaue (15)

PDF
実務と論文で学ぶジョブレコメンデーション最前線2022
PDF
警察庁オープンデータで交通事故の世界にDeepDive!
PDF
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
PDF
[Music×Analytics]プロの音に近づくための研究と練習
PDF
[DSO] Machine Learning Seminar Vol.8 Chapter 9
PDF
[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる
PDF
[DSO] Machine Learning Seminar Vol.2 Chapter 3
PDF
[第6回]データ分析ランチセッション - Camphrでモダンな自然言語処理
PDF
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
PDF
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16
PDF
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
PDF
流行りの分散表現を用いた文書分類について Netadashi Meetup 7
PDF
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
PDF
Marketing×Python/Rで頑張れる事例16本ノック
PDF
機械学習による積極的失業〜オウンドメディアの訪問予測
実務と論文で学ぶジョブレコメンデーション最前線2022
警察庁オープンデータで交通事故の世界にDeepDive!
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
[Music×Analytics]プロの音に近づくための研究と練習
[DSO] Machine Learning Seminar Vol.8 Chapter 9
[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる
[DSO] Machine Learning Seminar Vol.2 Chapter 3
[第6回]データ分析ランチセッション - Camphrでモダンな自然言語処理
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
流行りの分散表現を用いた文書分類について Netadashi Meetup 7
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
Marketing×Python/Rで頑張れる事例16本ノック
機械学習による積極的失業〜オウンドメディアの訪問予測
Ad

データ分析ランチセッション#24 OSSのAutoML~TPOTについて