SlideShare a Scribd company logo
2
Most read
8
Most read
13
Most read
機械学習の特徴量を管理する
Amazon SageMaker Feature Store
Online StoreとOffline Storeを同時管理
2022/10/30 第16回勉強会
自己紹介
● 名前: 西岡 賢一郎
○ Twitter: @ken_nishi
○ note: 西岡賢一郎@研究者から経営者へ (https://note.com/kenichiro)
○ YouTube: 【経営xデータサイエンスx開発】西岡 賢一郎のチャンネル
(https://www.youtube.com/channel/UCpiskjqLv1AJg64jFCQIyBg)
● 経歴
○ 東京大学で位置予測アルゴリズムを研究し博士 (学術) を取得
○ 東京大学の博士課程在学中にデータサイエンスをもとにしたサービスを提供する株式会社ト
ライディアを設立
○ トライディアを別のIT会社に売却し、CTOとして3年半務め、2021年10月末にCTOを退職
○ CDPのスタートアップと株式会社データインフォームドの2つに所属
○ 自社および他社のプロダクト開発チーム・データサイエンスチームの立ち上げ経験
今回のお話
● プロダクションにおける機械学習の課題
● Feature Store
● Amazon SageMaker Feature Store
● デモ
プロダクションにおける機械学習の課題
プロダクションの構成例
● 複数のデータソースを取りまとめたData Lake/Warehouseからオフラインで学習
を実施
● 推論はBatchとオンラインの二種類
学習・推論に使う特徴量はどこから来るのか?
機械学習プロダクトにおけるETL乱立問題
機械学習を用いたプロダクトでは、目的に応じた別々のETLが作成され、構築・運用コストが増大し、業務の多
くがデータ準備に取られてしまう。
● 学習モデルごとのETL
● 学習用ETLと推論ETL
● 同じ特徴量が別々のETLで作成
● プロダクション、ステージング、開発、それぞれのETL
● …
Modelのチューニングをしたい
のにデータの準備ばかり
データサイエンティスト
プロダクションとレイテンシ
● プロダクションでは推論結果をユーザに出来る限り早く返さないといけない
● 事前に計算できるものは出来る限り計算するのが基本
○ 特徴量の準備
○ モデルの学習
○ 推論?
● 事前に計算できないものはレイテンシが少なくなる構成にする
○ Offline Store: レイテンシが大きいためプロダクションに不向き。分散ファイルシステムが使われること
が多い。
○ Online Store: レイテンシが小さいのでプロダクション向き。Key Valueストアなどが使われることが多
い。
Online Store
KV Store
...
Offline Store
DFS
...
Batch Inference vs Online Inference
● 学習時はOffline Storeで十分な事が多い
● 推論は状況に応じてBatch InferenceとOnline Inferenceの使い分けが必要
○ Batch Inference
■ Offline Storeに保存されたFeatureを利用
■ 想定されるスコアをすべて計算しておく必要があり、条件分岐が多いと推論結果を保存するため
の保存容量が指数関数的に増える (推論結果の多くが使われず無駄になる)
○ Online Inference (Online Store)
■ Online Storeに保存されたFeatureを利用
■ 推論はリクエストされたタイミングで実施
Feature Store
Feature Storeとは
● 機械学習の学習・推論のための特徴量を管理するシステム
● Feature Storeの特徴
○ 特徴量が共有されている
○ Feature Engineeringの情報が参照できる
○ データのバージョン管理されている
○ アクセスコントロールができる
○ Online(低レイテンシ)とOffline(高レイテンシ)両方の性質を備える
Feature Storeの重要な3つの要素
● Offline Feature Store
○ 数分以上のレイテンシで提供
○ 分散ファイルシステムやデータウェアハウスで実装
● Online Feature Store
○ 個々の予測のための入力として使われる
○ 数秒から数ミリ秒のレイテンシで提供
○ Key-Valueストアなどで実装
● Featureレジストリ
○ OfflineとOnlineのFeature Storeで使用される、すべての特徴量のメタデータを系統立てて保
存し、どのように特徴量が生成されたかなどの情報を参照できるようにする
主要なFeature Store
● Hopsworks: https://www.hopsworks.ai/
● Feast: https://feast.dev/
● Amazon SageMaker Feature Store:
https://aws.amazon.com/jp/sagemaker/feature-store/
Amazon SageMaker Feature Store
Amazon SageMaker Feature Store
出典: https://aws.amazon.com/jp/sagemaker/feature-store/
● フルマネージドのFeature Store
● Glue Catalogを自動作成したりと、AWSのその他サービスと自動連携
● Online StoreからOffline Storeへ自動で同期 (タイムラグあり)
● Point-in-time Queryでリーケージを防ぐことが可能
Point-in-time Query
出典: https://aws.amazon.com/jp/sagemaker/feature-store/
出典: https://aws.amazon.com/jp/blogs/machine-
learning/build-accurate-ml-training-datasets-using-point-in-
time-queries-with-amazon-sagemaker-feature-store-and-
apache-spark/
● 予測モデルを構築するとき、学習時に本来得られるはずのないデータが混ざるこ
とによるリーケージが発生することがよくある
● 特徴量が生成された時間を管理することで、時間に依存するリーケージを防ぐ
参考: リーケージを避ける方法
https://www.youtube.com/watch?v=vrcai7QvVn0
● 「Leakage in Data Mining: Formulation, Detecting,
and Avoidance」の紹介
○ 著者: Shachar Kaufman, Saharon Rosset,
Claudia Perlich, Ori Stitelman
○ 投稿: Knowledge Discovery and Data Mining (KDD),
2011.
● 論文の内容
○ データマイニングにおいて起こしやすい誤ちのう
ちの1つに"リーケージ"というものがある
○ リーケージ: 本来得られるはずのないデータをモ
デルの学習時に使用してしまうこと。データがも
れるということでリークするともいう。
■ 学習時には精度が高く出るが、本番環境で
は精度が落ちる
○ これは現実世界、機械学習コンペの両方で起きて
いる
○ 深く議論されてこなかったリーケージの定式化を
試み、未然に防ぐ、検出する方法を紹介
デモ
● Amazon SageMaker Feature Storeの基本的な使い方
○ Feature Groupの作成
○ データの格納
○ データの取得
■ Online
■ Offline
○ Online StoreとOffline Storeの違い
● コード: https://github.com/knishioka/machine-learning-
workshop/blob/main/sagemaker/feature_store/feature_group_sample.ipynb

More Related Content

PPTX
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
PPTX
Amazon SageMakerでカスタムコンテナを使った学習
PPTX
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
PPTX
Amazon SageMakerのNotebookからJobを作成する
PPTX
Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
PPTX
Amazon SageMaker ML Governance 3つの機能紹介
PPTX
Amazon SageMaker JumpStart
PPTX
Amazon AthenaでSageMakerを使った推論
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerのNotebookからJobを作成する
Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker JumpStart
Amazon AthenaでSageMakerを使った推論

Similar to 機械学習の特徴量を管理するAmazon SageMaker Feature Store (20)

PPTX
Amazon SageMaker Canvasを使ったノーコード機械学習
PPTX
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
PPTX
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
PPTX
Amazon SageMaker Studio Lab紹介
PPTX
H2Oを使ったノーコードのAutoML
PPTX
AutoGluonではじめるAutoML
PPTX
H2O Waveを使ったAIアプリケーション作成入門
PPTX
TorchDataチュートリアル解説
PPTX
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
PPTX
機械学習の技術的負債
PPTX
XAI (説明可能なAI) の必要性
PPTX
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
PPTX
未来のカタチ x AI
PDF
実践的なUXデザインとグロースハック
PDF
身近なところからはじめるマーケットデザイン
PDF
『MAGELLAN BLOCKS』を使って BigQuery を使い倒す!| Google Cloud INSIDE Games & Apps: Online
PDF
実践的なUXデザインとインタラクションデザインの考え方
PDF
[テックタッチ株式会社]第05回 Customer系エンジニア座談会.pdf
PDF
3Dプリント×Python ~コードからアプローチする3Dプリンティング~
PPTX
Photogrammetry on Cloud
Amazon SageMaker Canvasを使ったノーコード機械学習
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
Amazon SageMaker Studio Lab紹介
H2Oを使ったノーコードのAutoML
AutoGluonではじめるAutoML
H2O Waveを使ったAIアプリケーション作成入門
TorchDataチュートリアル解説
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
機械学習の技術的負債
XAI (説明可能なAI) の必要性
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
未来のカタチ x AI
実践的なUXデザインとグロースハック
身近なところからはじめるマーケットデザイン
『MAGELLAN BLOCKS』を使って BigQuery を使い倒す!| Google Cloud INSIDE Games & Apps: Online
実践的なUXデザインとインタラクションデザインの考え方
[テックタッチ株式会社]第05回 Customer系エンジニア座談会.pdf
3Dプリント×Python ~コードからアプローチする3Dプリンティング~
Photogrammetry on Cloud
Ad

More from 西岡 賢一郎 (9)

PPTX
リモートワークで知っておきたい コミュニケーション時の過大な期待
PPTX
リモートワークで意識すべき7つのこと
PPTX
機械学習プラットフォーム5つの課題とAmazon SageMakerの4つの利点
PPTX
ストリートビューから地域の豊かさを推定
PPTX
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
PPTX
人間の意思決定を機械学習でモデル化できるか
PPTX
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
PPTX
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
PPTX
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」
リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで意識すべき7つのこと
機械学習プラットフォーム5つの課題とAmazon SageMakerの4つの利点
ストリートビューから地域の豊かさを推定
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
人間の意思決定を機械学習でモデル化できるか
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」
Ad

機械学習の特徴量を管理するAmazon SageMaker Feature Store

Editor's Notes

  • #3: こちらが私のプロフィールとなります。 機械学習には、大学時代の研究から携わっており、自分で立ち上げたスタートアップでも機械学習を使ったサービスを提供していました。 プロダクト開発チームやデータサイエンスチームの立ち上げなどもやっています。