SlideShare a Scribd company logo
5
Most read
7
Most read
8
Most read
H2Oを使ったノーコードのAutoML
10分でAutoMLを動かす
自己紹介
● 名前: 西岡 賢一郎
○ Twitter: @ken_nishi
○ note: 西岡賢一郎@研究者から経営者へ (https://note.com/kenichiro)
○ YouTube: 【経営xデータサイエンスx開発】西岡 賢一郎のチャンネル
(https://www.youtube.com/channel/UCpiskjqLv1AJg64jFCQIyBg)
● 経歴
○ 東京大学で位置予測アルゴリズムを研究し博士 (学術) を取得
○ 東京大学の博士課程在学中にデータサイエンスをもとにしたサービスを提供する株式会社ト
ライディアを設立
○ トライディアを別のIT会社に売却し、CTOとして3年半務め、2021年10月末にCTOを退職
○ 自社および他社のプロダクト開発チーム・データサイエンスチームの立ち上げ経験
今回のお話
● AutoMLが必要となる背景
● H2Oとはなにか
● H2Oを開発するH2O.ai
● H2Oを実際に使ったAutoMLのデモ
AutoMLが必要となる背景
● 最適なモデルを探索
○ 機械学習が著しく発展する中で、最適なモデルの構築は専門家でも難しくなった
○ 最適なモデルを目指すためには、特徴量エンジニアリング・ハイパーパラメータチューニン
グ・複数モデルの組み合わせなどの試行錯誤が当たり前
○ できる限り自動化し高速で良いモデルを構築したい → AutoMLを利用
○ 監視やデプロイなど幅広くカバーするAutoMLサービスも出てきている
● AutoMLで有名なツール
○ AutoGluon: 前回の勉強会で紹介 (https://www.youtube.com/watch?v=v_mUh8hlmYc)
○ H2O: 今回紹介
○ auto-WEKA
○ auto-sklearn
○ AutoML Tables
○ Amazon SageMaker Autopilot
● H2OはGUI環境が簡単に立ち上がり、ノーコードでAutoMLを試せる
○ MVPでAutoMLを試したいときに特におすすめ
H2Oとは
● H2O.aiが作成するオープンソースの機械学習プラットフォーム
● 線形スケーラブルな分散型インメモリ機械学習
● 勾配ブースト、深層学習などよく使われているアルゴリズムを提供
● ハイパーパラメータを自動で最適化
● モデルを複数組み合わせたアンサンブルモデル学習も提供
● リーダーボードで簡単にモデルを比較
● モデルの性能やデータの性質などをグラフで可視化
● Jupyter NotebookベースのH2O FLOWでノーコードでAutoML
H2O.aiとは
● AIの民主化たのめに自動化と拡張性を備えた
プロダクトを提供する他、AIアプリを構築す
るためのプラットフォームを提供
● 2021/11に1億ドル調達の記事
(https://techcrunch.com/2021/11/07/h2o-
ai-raises-100m-at-a-1-7b-valuation-for-
tools-to-make-ai-usable-by-any-kind-of-
enterprise/)
● 金融・保険・ヘルスケア・マーケティング・
テレコミュニケーション・製造・小売りなど
様々なユースケースがある
(https://www.h2o.ai/solutions/usecases/)
H2O.aiのプロダクト
● H2O AI Hybrid Cloud: エンドツーエンドの機械学習プラットフォーム
● H2O: オープンソースの機械学習プラットフォーム
● H2O Driverless AI: 特徴量エンジニアリング、モデル構築、視覚化、解釈を
自動化できる商用製品
● H2O Wave: AIアプリケーションをつくるためのオープンソースPythonフレ
ームワーク
● Sparkling Water: Spark上でH2Oを提供
H2O デモ
● Java (version 8 ~ 15) がインストールされていればすぐ動かせる
● H2O FlOWを使ってウェブブラウザで実行可能
● データがあればインストールからAutoMLの実行まで10分もかからない
● 立ち上げたサーバにはPythonやRから簡単に接続も可能
import h2o
from h2o.automl import H2OAutoML
h2o.init()
train = h2o.import_file("https://s3.amazonaws.com/erin-data/higgs/higgs_train_10k.csv")
test = h2o.import_file("https://s3.amazonaws.com/erin-data/higgs/higgs_test_5k.csv")
x = train.columns
y = "response"
x.remove(y)
train[y] = train[y].asfactor()
test[y] = test[y].asfactor()
aml = H2OAutoML(max_models=20, seed=1)
aml.train(x=x, y=y, training_frame=train)
lb = aml.leaderboard
H2O FLOW
Pythonから実行 (https://docs.h2o.ai/h2o/latest-stable/h2o-
docs/automl.html#code-examples)
initでサーバを指定するだけ
H2O デモ
1. コマンドを実行 (zipは500MB程度)
curl -O http://h2o-release.s3.amazonaws.com/h2o/rel-zizler/4/h2o-3.34.0.4.zip
unzip h2o-3.34.0.4.zip
java -jar h2o-3.34.0.4/h2o.jar
1. http://localhost:54321へ接続

More Related Content

PDF
[DL輪読会] Residual Attention Network for Image Classification
PPTX
XAI (説明可能なAI) の必要性
PPTX
H2O Waveを使ったAIアプリケーション作成入門
PDF
20160417dlibによる顔器官検出
PDF
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
PDF
時系列問題に対するCNNの有用性検証
PPTX
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
PDF
Transformerを多層にする際の勾配消失問題と解決法について
[DL輪読会] Residual Attention Network for Image Classification
XAI (説明可能なAI) の必要性
H2O Waveを使ったAIアプリケーション作成入門
20160417dlibによる顔器官検出
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
時系列問題に対するCNNの有用性検証
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
Transformerを多層にする際の勾配消失問題と解決法について

What's hot (20)

PDF
研究分野をサーベイする
PPTX
モデル高速化百選
PDF
[DL輪読会]Attention Is All You Need
PDF
最近のDeep Learning (NLP) 界隈におけるAttention事情
PPTX
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
PDF
Transformer メタサーベイ
PPTX
画像キャプションの自動生成
PDF
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
PDF
トップカンファレンスへの論文採択に向けて(AI研究分野版)/ Toward paper acceptance at top conferences (AI...
PDF
CV分野におけるサーベイ方法
PPTX
機械学習を民主化する取り組み
PDF
Long Short-term Memory
PDF
Domain Adaptation 発展と動向まとめ(サーベイ資料)
PDF
Data-Centric AIの紹介
PDF
深層学習を利用した音声強調
PPTX
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
PDF
研究室における研究・実装ノウハウの共有
PPTX
2014 3 13(テンソル分解の基礎)
PPTX
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
PDF
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
研究分野をサーベイする
モデル高速化百選
[DL輪読会]Attention Is All You Need
最近のDeep Learning (NLP) 界隈におけるAttention事情
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
Transformer メタサーベイ
画像キャプションの自動生成
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
トップカンファレンスへの論文採択に向けて(AI研究分野版)/ Toward paper acceptance at top conferences (AI...
CV分野におけるサーベイ方法
機械学習を民主化する取り組み
Long Short-term Memory
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Data-Centric AIの紹介
深層学習を利用した音声強調
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
研究室における研究・実装ノウハウの共有
2014 3 13(テンソル分解の基礎)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Ad

Similar to H2Oを使ったノーコードのAutoML (20)

PPTX
TorchDataチュートリアル解説
PPTX
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
PPTX
AutoGluonではじめるAutoML
PPTX
機械学習の特徴量を管理するAmazon SageMaker Feature Store
PPTX
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
PPTX
Amazon SageMakerでカスタムコンテナを使った学習
PPTX
Amazon SageMakerのNotebookからJobを作成する
PPTX
Amazon SageMaker JumpStart
PPTX
Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
PPTX
Amazon SageMaker Studio Lab紹介
PPTX
Amazon AthenaでSageMakerを使った推論
PPTX
機械学習の技術的負債
PPTX
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
PPTX
Amazon SageMaker ML Governance 3つの機能紹介
PPTX
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
PPTX
Amazon SageMaker Canvasを使ったノーコード機械学習
PPTX
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
PPTX
未来のカタチ x AI
PPTX
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
PDF
データ分析案件の上手な進め方~ディレクターの立場から~
TorchDataチュートリアル解説
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
AutoGluonではじめるAutoML
機械学習の特徴量を管理するAmazon SageMaker Feature Store
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerのNotebookからJobを作成する
Amazon SageMaker JumpStart
Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
Amazon SageMaker Studio Lab紹介
Amazon AthenaでSageMakerを使った推論
機械学習の技術的負債
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon SageMaker ML Governance 3つの機能紹介
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
未来のカタチ x AI
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
データ分析案件の上手な進め方~ディレクターの立場から~
Ad

More from 西岡 賢一郎 (8)

PPTX
リモートワークで知っておきたい コミュニケーション時の過大な期待
PPTX
リモートワークで意識すべき7つのこと
PPTX
機械学習プラットフォーム5つの課題とAmazon SageMakerの4つの利点
PPTX
ストリートビューから地域の豊かさを推定
PPTX
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
PPTX
人間の意思決定を機械学習でモデル化できるか
PPTX
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
PPTX
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」
リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで意識すべき7つのこと
機械学習プラットフォーム5つの課題とAmazon SageMakerの4つの利点
ストリートビューから地域の豊かさを推定
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
人間の意思決定を機械学習でモデル化できるか
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」

H2Oを使ったノーコードのAutoML

Editor's Notes

  • #3: こちらが私の自己紹介です。 もともと大学院で位置情報のデータを用いた機械学習の研究をしており、博士課程の途中でデータサイエンスのスタートアップを立ち上げました。 そのスタートアップを2018年に売却し、売却先でCTOとして3年半ほど務め、先月末にその会社を退職しました。 今までは、プロダクト開発チームやデータサイエンスチームの立ち上げなどをやってきています。
  • #4: 私の発表では、まずAutoMLが必要となる背景を簡単に説明し、AutoMLのツールの一つであるH2Oを紹介します。 次に、H2Oを開発するH2O.aiについて簡単に紹介し、実際のH2Oを使ったAutoMLのデモをお見せします。
  • #5: まず、なぜAutoMLが必要になってきているかをお話します。 ここに参加しているみなさんはすでに馴染みのあると思いますが、近年機械学習が著しく発展してきており、専門家でも最適なモデルの構築が難しくなってきています。 最適なモデルを構築するためには、特徴量エンジニアリング・ハイパーパラメータチューニング・複数モデルの組み合わせなどの試行錯誤が当たり前となってきています。 この最適なモデルを探す部分を自動化し高速で実行したいという要望に答えるのがAutoMLです。 最近では、最適なモデルを探すだけでなく、学習の監視や学習モデルをデプロしてアプリケーションで使えるようにするようなAutoMLのサービスも出てきています。 AutoMLで有名なツールとしては、前回の勉強会で紹介したAutoGluon、そして今回紹介するH2O、他にはauto-WEKAやauto-sklearn、またGCPが提供しているAutoML TablesやAWSが提供しているAutopilotがあります。 このように様々なツールが存在する中でとりあえずどれを選べばいいか悩ましいのですが、今回紹介するH2OはGUI環境を簡単に立ち上げることができ、ノーコードでAutoMLを試すことができるため、MVPでちょっとAutoMLを使ってみたいなという場合におすすめです。
  • #6: H2Oについて簡単に紹介します。 H2OとはシリコンバレーにあるAIスタートアップであるH2O.aiが提供している、オープンソースの機械学習のプラットフォームです。 線形スケーラブルな分散型インメモリ機械学習となっており、高速で機械学習モデルを構築できます。 勾配ブーストや深層学習など機械学習の現場でよく使われているアルゴリズムも提供されており、ハイパーパラメータの最適化やアンサンブル学習も提供しています。 そして、複数のモデルの性能をリーダーボードで比較できます。 また、モデルの性能やデータの性質をグラフで可視化できる機能も備わっています。 Jupyter nobookベースのH2Oフローというウェブブラウザで動く解析環境が提供されており、これを用いてノーコードでAutoMLの実現ができます。 このH2O FLOWを使って今回のデモを行います。
  • #7: ここからはH2Oを開発しているH2O.aiについて紹介します。 H2O.aiはAIを民主化するためにAIの自動化や拡張できるプロダクトや、AIアプリ自体を構築するためのプラットフォームを提供しています。 ちょうど今月techcrunchで1億ドルの資金調達の記事が出ていて、AIプラットフォームをスタートアップの中でも注目度の高いスタートアップとなっています。 H2O.aiの提供するプロダクトを使ったユースケースは幅広く、金融・保険・ヘルスケア・マーケティング・テレコミュニケーション・製造・小売りなど、様々な業界で成功を遂げているようです。 詳しくはホームページの方を御覧ください。
  • #8: H2Oは大きく分けて、5つのプロダクトを提供しているようです。 エンドツーエンドの機械学習プラットフォームであるH2O AI Hybrid Cloud。 今回紹介する、オープンソースの機械学習プラットフォームH2O。 特徴量エンジニアリング、モデル構築、視覚化、解釈を自動化できる商法製品のH2O DriverlessAI。 AIアプリケーションを作るためのオープンソースPythonフレームワークのH2O Wave. そして、Spark上でH2Oを実行できるようにするSparkling Waterです。 どれも魅力的なプロダクトとなっているので、今後の勉強会でいくつか紹介できればと思っています。
  • #9: それでは、H2OやH2O.aiについて簡単に紹介したところで、H2Oを動かしてみたいと思います。 H2Oはjavaの8 ~ 15があれば簡単に動かすことができます。 H2O FlowというウェブブラウザでH2Oを試すことができるので、H2O Flowを使ってAutoMLをお見せしていきます。 データさえあればH2OのインストールからAutoMLの実行まで10分もかからないと思います。 ちなみに、javaで立ち上げたサーバはPythonやRから簡単に接続することができ、他の言語でもAutoMLを使うことができます。 ただし、学習時の誤差の減衰であったり、データの統計情報などはH2O Flowを使ったほうが楽に出すことができます。
  • #10: H2Oの立ち上げ方はここに書いてあるコマンドを実行するだけです。 H2Oのzipをダウンロードし、回答し、中に入っているjarを実行するだけです。 zipは500MBあり、ダウンロードに少し時間がかかるので、すでにダウンロード済みで解凍してjavaで実行してある環境に接続します。 javaで実行をすると、localhostのポート54321に接続することでH2O Flowに接続ができます。