Submit Search
【JAWS-UG AI/ML支部 第14回勉強会】Amazon EC2 Trn1 GA ! ~ AWSが提供するML向けインスタンスの豊富な品揃えと 専用チップによるコスパ最適化のご紹介 ~
0 likes
374 views
T
TakeshiFukae
JAWS-UG AI/ML支部の第14回勉強会の投影資料です。
Data & Analytics
Read more
1 of 39
Download now
Download to read offline
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
More Related Content
PDF
SQL大量発行処理をいかにして高速化するか
Shogo Wakayama
PDF
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
NTT DATA Technology & Innovation
PDF
Javaコードが速く実⾏される秘密 - JITコンパイラ⼊⾨(JJUG CCC 2020 Fall講演資料)
NTT DATA Technology & Innovation
PDF
マルチテナント化で知っておきたいデータベースのこと
Amazon Web Services Japan
PDF
(修正)機械学習デザインパターン(ML Design Patterns)の解説
Hironori Washizaki
PPTX
MLflowで学ぶMLOpsことはじめ
Kenichi Sonoda
PPTX
初心者向けMongoDBのキホン!
Tetsutaro Watanabe
PDF
AWSではじめるMLOps
MariOhbuchi
SQL大量発行処理をいかにして高速化するか
Shogo Wakayama
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
NTT DATA Technology & Innovation
Javaコードが速く実⾏される秘密 - JITコンパイラ⼊⾨(JJUG CCC 2020 Fall講演資料)
NTT DATA Technology & Innovation
マルチテナント化で知っておきたいデータベースのこと
Amazon Web Services Japan
(修正)機械学習デザインパターン(ML Design Patterns)の解説
Hironori Washizaki
MLflowで学ぶMLOpsことはじめ
Kenichi Sonoda
初心者向けMongoDBのキホン!
Tetsutaro Watanabe
AWSではじめるMLOps
MariOhbuchi
What's hot
(20)
PDF
Python 3.9からの新定番zoneinfoを使いこなそう
Ryuji Tsutsui
PDF
SQLアンチパターン - 開発者を待ち受ける25の落とし穴 (拡大版)
Takuto Wada
PDF
Kubernetesによる機械学習基盤への挑戦
Preferred Networks
PDF
3分でわかるAzureでのService Principal
Toru Makabe
PDF
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
Amazon Web Services Japan
PPTX
トランザクションの設計と進化
Kumazaki Hiroki
PDF
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
Takuto Wada
PDF
Microsoft Azure Storage 概要
Takeshi Fukuhara
PDF
Infrastructure as Code (IaC) 談義 2022
Amazon Web Services Japan
PPTX
本当は恐ろしい分散システムの話
Kumazaki Hiroki
PPTX
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
Deep Learning JP
PDF
PGOを用いたPostgreSQL on Kubernetes入門(PostgreSQL Conference Japan 2022 発表資料)
NTT DATA Technology & Innovation
PPTX
MLOps入門
Hiro Mura
PDF
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
Google Cloud Platform - Japan
PDF
Amazon SageMaker 推論エンドポイントを利用したアプリケーション開発
Amazon Web Services Japan
PDF
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
Preferred Networks
PDF
ブルックスのいう銀の弾丸とは何か?
Yoshitaka Kawashima
PDF
オープンソースで構築するWebメタバース ~Mozilla Hubsで学ぶUX開発から運用コスト最小化まで #CEDEC2022
GREE VR Studio Lab
PPTX
世の中のPostgreSQLエンジニアのpsql設定(第34回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
PDF
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)
Trainocate Japan, Ltd.
Python 3.9からの新定番zoneinfoを使いこなそう
Ryuji Tsutsui
SQLアンチパターン - 開発者を待ち受ける25の落とし穴 (拡大版)
Takuto Wada
Kubernetesによる機械学習基盤への挑戦
Preferred Networks
3分でわかるAzureでのService Principal
Toru Makabe
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
Amazon Web Services Japan
トランザクションの設計と進化
Kumazaki Hiroki
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
Takuto Wada
Microsoft Azure Storage 概要
Takeshi Fukuhara
Infrastructure as Code (IaC) 談義 2022
Amazon Web Services Japan
本当は恐ろしい分散システムの話
Kumazaki Hiroki
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
Deep Learning JP
PGOを用いたPostgreSQL on Kubernetes入門(PostgreSQL Conference Japan 2022 発表資料)
NTT DATA Technology & Innovation
MLOps入門
Hiro Mura
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
Google Cloud Platform - Japan
Amazon SageMaker 推論エンドポイントを利用したアプリケーション開発
Amazon Web Services Japan
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
Preferred Networks
ブルックスのいう銀の弾丸とは何か?
Yoshitaka Kawashima
オープンソースで構築するWebメタバース ~Mozilla Hubsで学ぶUX開発から運用コスト最小化まで #CEDEC2022
GREE VR Studio Lab
世の中のPostgreSQLエンジニアのpsql設定(第34回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)
Trainocate Japan, Ltd.
Ad
Similar to 【JAWS-UG AI/ML支部 第14回勉強会】Amazon EC2 Trn1 GA ! ~ AWSが提供するML向けインスタンスの豊富な品揃えと 専用チップによるコスパ最適化のご紹介 ~
(20)
PDF
20230418_JAWS-AIML-EC2-Trn1-Inf2.pdf
TakeshiFukae
PDF
20201008 AWS独自設計推論チップInferentiaとInf1インスタンス
Hiroshi Tokoyo
PPTX
re:Invent 2018 ML サービスアップデート
Amazon Web Services Japan
PPTX
Japan Wrap Up re:Invent2018
Kameda Harunobu
PPTX
Japan wrapup reinvent2018
Amazon Web Services Japan
PPTX
研究用途でのAWSの利用事例と機械学習について
Yasuhiro Matsuo
PDF
Machine Learning on AWS
Amazon Web Services Japan
PDF
Amazonでのレコメンド生成における深層学習とAWS利用について
Amazon Web Services Japan
PDF
AWS re:Invent 2019 recap For Digital Native Business
Amazon Web Services Japan
PPTX
AWSとGPUインスタンスのご紹介
Yasuhiro Matsuo
PPTX
20170826 Oita JAWS
Kameda Harunobu
PDF
20190305_AWS-Blackbelt-EC2.pdf
ssuserf4b2a6
PDF
[AWS re:invent 2013 Report] AWS New EC2 Instance Types
Amazon Web Services Japan
PPTX
HPC on AWS 2020 Summer
Daisuke Miyamoto
PPTX
[JAWS-UG AI支部] AWS AIアップデート
Yasuhiro Matsuo
PPTX
スケーラブルな Deep Leaning フレームワーク "Apache MXNet” を AWS で学ぶ
Amazon Web Services Japan
PDF
iot@Loft#14-LT4-AI /機械学習に活用できる AWSのエッジソリューションのご紹介
Amazon Web Services Japan
PDF
[CTO Night & Day 2019] ML services: MLOps #ctonight
Amazon Web Services Japan
PPTX
JAWS-UG HPC #17 - HPC on AWS @ 2019
Daisuke Miyamoto
PDF
Microsoft の深層学習への取り組み
Hirono Jumpei
20230418_JAWS-AIML-EC2-Trn1-Inf2.pdf
TakeshiFukae
20201008 AWS独自設計推論チップInferentiaとInf1インスタンス
Hiroshi Tokoyo
re:Invent 2018 ML サービスアップデート
Amazon Web Services Japan
Japan Wrap Up re:Invent2018
Kameda Harunobu
Japan wrapup reinvent2018
Amazon Web Services Japan
研究用途でのAWSの利用事例と機械学習について
Yasuhiro Matsuo
Machine Learning on AWS
Amazon Web Services Japan
Amazonでのレコメンド生成における深層学習とAWS利用について
Amazon Web Services Japan
AWS re:Invent 2019 recap For Digital Native Business
Amazon Web Services Japan
AWSとGPUインスタンスのご紹介
Yasuhiro Matsuo
20170826 Oita JAWS
Kameda Harunobu
20190305_AWS-Blackbelt-EC2.pdf
ssuserf4b2a6
[AWS re:invent 2013 Report] AWS New EC2 Instance Types
Amazon Web Services Japan
HPC on AWS 2020 Summer
Daisuke Miyamoto
[JAWS-UG AI支部] AWS AIアップデート
Yasuhiro Matsuo
スケーラブルな Deep Leaning フレームワーク "Apache MXNet” を AWS で学ぶ
Amazon Web Services Japan
iot@Loft#14-LT4-AI /機械学習に活用できる AWSのエッジソリューションのご紹介
Amazon Web Services Japan
[CTO Night & Day 2019] ML services: MLOps #ctonight
Amazon Web Services Japan
JAWS-UG HPC #17 - HPC on AWS @ 2019
Daisuke Miyamoto
Microsoft の深層学習への取り組み
Hirono Jumpei
Ad
Recently uploaded
(8)
PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
h_yama2396
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
QY Research株式会社
PDF
データモデラー視点で語るデータマネジメント入門~組織のデータ活用を成功に導くために~
Koichi Inami
PDF
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
QY Research株式会社
PDF
【QYResearch】急拡大する医療機器市場における主要企業の動向と競争環境分析
QY Research株式会社
PDF
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
QY Research株式会社
PDF
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
QY Research株式会社
PDF
【初心者向け】生成AI SimonW/LLMとOllama・llamafile無料APIでコマンドラインをAI革命するセミナー。CPUでもGPUでも。Ne...
Netwalker lab kapper
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
h_yama2396
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
QY Research株式会社
データモデラー視点で語るデータマネジメント入門~組織のデータ活用を成功に導くために~
Koichi Inami
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
QY Research株式会社
【QYResearch】急拡大する医療機器市場における主要企業の動向と競争環境分析
QY Research株式会社
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
QY Research株式会社
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
QY Research株式会社
【初心者向け】生成AI SimonW/LLMとOllama・llamafile無料APIでコマンドラインをAI革命するセミナー。CPUでもGPUでも。Ne...
Netwalker lab kapper
【JAWS-UG AI/ML支部 第14回勉強会】Amazon EC2 Trn1 GA ! ~ AWSが提供するML向けインスタンスの豊富な品揃えと 専用チップによるコスパ最適化のご紹介 ~
1.
© 2022, Amazon
Web Services, Inc. or its affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. Amazon EC2 Trn1 GA ! 〜 AWS が提供する ML 向けインスタンスの豊富な品揃えと 専⽤チップによるコスパ最適化のご紹介 〜 常世 ⼤史 (Hiroshi Tokoyo) アマゾンウェブサービスジャパン合同会社 2022年10⽉18⽇
2.
© 2022, Amazon
Web Services, Inc. or its affiliates. 本日お話しすること • AWS が提供する ML 向けインスタンスの豊富な品揃え • AWS 専⽤チップによるコスパ最適化 § 10⽉10⽇⼀般提供開始 AWS Trainium 搭載 Trn1 インスタンス
3.
© 2022, Amazon
Web Services, Inc. or its affiliates. ⾃⼰紹介 名前︓常世 ⼤史 (とこよ ひろし) 所属︓Annapurna labs (アンナプルナラボ) 職務︓アンナプルナラボ発信技術の拡販、技術⽀援 経歴︓外資半導体企業を経て、2013年7⽉アンナプルナラボ に参加。2015年2⽉の買収に伴い AWS の⼀員に 好きなAWSサービス︓ EC2 Inf1, Trn1, F1インスタンス 2021 AWS Summit Online Japan Keynote Annapurna labs (アンナプルナラボ) とは... AWS 内の半導体開発部⾨。 Graviton 64bit ARM プロセッサや Inferentia, Trainium 深層学習専⽤ チップを開発
4.
© 2022, Amazon
Web Services, Inc. or its affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. AWS が提供する ML 向けインスタンスの 豊富な品揃え
5.
© 2022, Amazon
Web Services, Inc. or its affiliates. AWS の AI/ML スタック 広 範 か つ 最 も 充 実 し た 機 械 学 習 の 機 能 群 AI サービス Code + DevOps Amazon CodeGuru Amazon DevOps Guru Business processes Amazon Personalize Amazon Forecast Amazon Fraud Detector Amazon Lookout for Metrics Search Amazon Kendra Industrial Amazon Monitron Amazon Lookout for Equipment Amazon Lookout for Vision Healthcare Amazon HealthLake Amazon Comprehend Medical Amazon Transcribe Medical SPECIALIZED Chatbots Amazon Lex Text & Documents Amazon Translate Amazon Comprehend Amazon Textract Speech Amazon Polly Amazon Transcribe Amazon Transcribe Call Analytics Vision Amazon Rekognition AWS Panorama CORE ML サービス Manage edge devices Learn ML No-code ML for business analysts Prepare data Store features Detect bias Build with notebooks Manage & monitor Train models Deploy in production Tune parameters Explain predictions CI/CD Label data SAGEMAKER CANVAS SAGEMAKER STUDIO LAB AMAZON SAGEMAKER STUDIO IDE ML フレームワーク & インフラストラクチャ TensorFlow, PyTorch, Apache MXNet, Hugging Face Amazon EC2 CPUs GPUs AWS Trainium Elastic inference AWS Inferentia FPGA Habana Gaudi Deep Learning Containers (DLC)
6.
© 2022, Amazon
Web Services, Inc. or its affiliates. AWS の AI/ML スタック 広 範 か つ 最 も 充 実 し た 機 械 学 習 の 機 能 群 AI サービス Code + DevOps Amazon CodeGuru Amazon DevOps Guru Business processes Amazon Personalize Amazon Forecast Amazon Fraud Detector Amazon Lookout for Metrics Search Amazon Kendra Industrial Amazon Monitron Amazon Lookout for Equipment Amazon Lookout for Vision Healthcare Amazon HealthLake Amazon Comprehend Medical Amazon Transcribe Medical SPECIALIZED Chatbots Amazon Lex Text & Documents Amazon Translate Amazon Comprehend Amazon Textract Speech Amazon Polly Amazon Transcribe Amazon Transcribe Call Analytics Vision Amazon Rekognition AWS Panorama CORE ML サービス Manage edge devices Learn ML No-code ML for business analysts Prepare data Store features Detect bias Build with notebooks Manage & monitor Train models Deploy in production Tune parameters Explain predictions CI/CD Label data SAGEMAKER CANVAS SAGEMAKER STUDIO LAB AMAZON SAGEMAKER STUDIO IDE ML フレームワーク & インフラストラクチャ TensorFlow, PyTorch, Apache MXNet, Hugging Face Amazon EC2 CPUs GPUs AWS Trainium Elastic inference AWS Inferentia FPGA Habana Gaudi Deep Learning Containers (DLC) Amazon EC2 インスタンス • ⽤途に合わた 500種類にも上る選択肢 • AI サービス、ML サービスを⽀える基盤 • 機械学習の環境を⾃在に構築して利⽤
7.
© 2022, Amazon
Web Services, Inc. or its affiliates. 機械学習向け Amazon EC2 インスタンスの選択肢 Ice Lake CPU Cascade Lake CPU Habana accelerator EPYC CPU A100, A10G, T4G GPUs Graviton CPU Inferentia Chip Trainium Chip UltraScale+ FPGA アクセラレーテッドコンピューティング C7g C6g C6i C6a M6g M6i M6a R6g R6i R6a F1 Inf1 G5g G5 P4 DL1 Trn1 Elastic Inference 従来の機械学習 推論 学習 深層学習 学習 + 推論
8.
© 2022, Amazon
Web Services, Inc. or its affiliates. GPUインスタンスの変遷 GPGPU 機械学習 グラフィック 機械学習(推論) 2017 2016 2010 NVIDIA Tesla M2050 2013 2018 2019 NVIDIA Grid K2 NVIDIA Tesla M60 NVIDIA Tesla T4 NVIDIA Tesla V100 32GB NVIDIA Tesla V100 16GB NVIDIA Tesla K80 2020 2021 CG1 G2 NVIDIA Tesla A100 AMD Radeon Pro V520 G5 NVIDIA Tesla A10G G5g NVIDIA Tesla T4G (ARM CPU) 2022年6⽉ 東京リージョンGA 2022年5⽉ P4de GPU インスタンスのプレビューを発表
9.
© 2022, Amazon
Web Services, Inc. or its affiliates. Trn1 Inf1 機械学習向け Amazon EC2 インスタンスの選択肢 EPYC CPU A100, A10G, T4G GPUs Graviton CPU Inferentia Chip Trainium Chip UltraScale+ FPGA C7g C6g C6i C6a M6g M6i M6a R6g R6i R6a F1 G5g G5 P4 DL1 Elastic Inference 従来の機械学習 推論 学習 深層学習 学習 + 推論 最新 Graviton3 プロセッサ搭載 bfloat16 と fp16 に対応し機械学習 ワークロードでは最大3倍高速に AWS Trainium による学習コストの最適化 AWS クラウドで最高の性能、P4dインスタ ンスと比較し最大50%低価格を実現 AWS Inferentia による推論コストの最 適化 G4インスタンスと比較し最大2.3倍の スループット向上、推論処理当たり 最大70%低価格を実現 AWS独自開発プロセッサ Graviton2 によるコスト最適化 M/C/R6gインスタンスはx86ベースの M/C/R5インスタンスと比較し最大 40%優れた価格性能を提供
10.
© 2022, Amazon
Web Services, Inc. or its affiliates. 推論ワークロードの要件 • 軽めのMLモデル、性能要件は低め • CPUインスタンスでは性能要件を満たせないが、推論リクエストは 散発的に発⽣するためGPUインスタンスでは⾮効率 • 性能要件が⾼めのDLモデル(推論リクエストは常時発⽣ or ⼀度に まとめてバッチ処理可能) • NVIDIA CUDA, CuDNN, TensorRT、DALI等、NVIDIA社のライブ ラリを利⽤したアプリケーションの最適化を想定 • 低遅延が求められ、カスタムでの前処理、後処理のハードウェア化 が必要、IP資産を保持(or 開発リソースあり) • プロダクション時のコストとパフォーマンスの最適化が重要 • リアルタイム性能、低遅延が重要 Amazon EC2 インスタンスの選択指針(推論ワークロード) • 全ての機械学習ワークロードに対してベストとなるインスタンスの選択肢は存在しない • 可⽤性向上を⽬的とした複数種類のインスタンス利⽤も視野に CPUインスタンス CPUインスタンス +Elastic Inference GPUインスタンス F1インスタンス Inf1インスタンス
11.
© 2022, Amazon
Web Services, Inc. or its affiliates. 学習ワークロードの要件 • ⼩規模モデルで性能要件は低め • NVIDIA社のGPU対応ライブラリ、 エコシステムを活⽤ • 開発容易性が重要 • 中⼤規模モデル • 複数GPUを利⽤ • ⼩中規模モデル • 単⼀GPUを利⽤ • コストパフォーマンス最適化が重 要 • GPUインスタンスに選択肢を追加、 プロダクション時の可⽤性を向上 • PyTorch, TensorFlowフレーム ワークを利⽤ • 中⼤規模モデル • 複数インスタンスの利⽤も 視野に • ⼩中規模モデル Amazon EC2 インスタンスの選択指針(学習ワークロード) CPU インスタンス GPU インスタンス (p3.8/16xlarge, p3dn.24xlarge p4d.24xlarge g5.12/24/48xlarge) GPU インスタンス (p3.2xlarge, g5.xlarge ~ 16xlarge) DL1 インスタンス (dl1.24xlarge) Trn1 インスタンス (trn1.32xlarge) Trn1 インスタンス (trn1.2xlarge) • 全ての機械学習ワークロードに対してベストとなるインスタンスの選択肢は存在しない • 可⽤性向上を⽬的とした複数種類のインスタンス利⽤も視野に
12.
© 2022, Amazon
Web Services, Inc. or its affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. AWS 専⽤チップによるコスパ最適化
13.
© 2020, Amazon
Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark. AWS におけるシリコンイノベーション re:Invent 2016 re:Invent 2017 re:Invent 2018 re:Invent 2019
14.
© 2020, Amazon
Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark. AWS におけるシリコンイノベーション re:Invent 2021 re:Invent 2020
15.
© 2022, Amazon
Web Services, Inc. or its affiliates. AWS 独⾃設計 ML チップ搭載インスタンス Amazon EC2 Inf1 Amazon EC2 Trn1 AWS Inferentia によるML推論の最適化 G4インスタンスと比較し最大 2.3倍のスルー プット向上、推論処理当たり最大 70%低価格 を実現 AWS Trainium によるML学習の最適化 GPUインスタンスと比較し最大 50%低価格 を実現 2022年10⽉10⽇⼀般提供開始
16.
© 2022, Amazon
Web Services, Inc. or its affiliates. Amazon EC2 Inf1 インスタンス • 機械学習の推論を⾼性能かつ低価格で実⾏するための インスタンス • AWS が独⾃設計した機械学習推論チップ AWS Inferentia を搭載 • クラウド上で深層学習モデルを実⾏する上で最も低価 格を実現 • GPUインスタンスと⽐較し最⼤2.3倍のスループット 向上、推論処理当たり最⼤70%低価格 • ソフトウェアは主要な機械学習フレームワーク (TensorFlow, PyTorch, MXNet)とシームレスに統合、 最⼩限のコード変更のみですぐに利⽤開始可能 EC2 Inf1インスタンス クラウド上で高速かつ低価格な 推論を実現 https://aws.amazon.com/ec2/instance-types/inf1/
17.
© 2022, Amazon
Web Services, Inc. or its affiliates. Amazon EC2 Inf1 インスタンス • 4つのインスタンスサイズから選択可能 • インスタンス毎に1~16個の Inferentia 推論チップを搭載 • 6xlarge、24xlargeでは複数の Inferentia チップを⾼速チップ間通信で接続 • 最⼤ 100Gbps のネットワークインタフェース • 2022年10⽉現在、東京を含む23のリージョンにて利⽤可能 • 他のEC2同様、複数の⽀払いオプションを⽤意 • オンデマンド、リザーブドインスタンス、スポットインスタンス、Savings Plans インスタンスサイズ Inferentia vCPU メモリ (GiB) ストレージ EBS帯域 (Gbps) NW帯域 (Gbps) オンデマンド価格 (USD/時間) inf1.xlarge 1 4 8 EBS Only 最⼤ 3.5 最⼤ 25 0.228 inf1.2xlarge 1 8 16 EBS Only 最⼤ 3.5 最⼤ 25 0.362 inf1.6xlarge 4 24 48 EBS Only 3.5 25 1.18 inf1.24xlarge 16 96 192 EBS Only 19 100 4.721 *2022年10⽉時点の⽶国東部 (バージニア北部)の価格
18.
© 2022, Amazon
Web Services, Inc. or its affiliates. AWS Inferentia • AWS による独⾃設計 ML 推論チップ • 4 Neuron コア / チップ • Tensor エンジン︓畳み込み等、⾏列演算に最適化 • Scalar エンジン︓ReLU等の活性化関数に最適化 • Vector エンジン︓Batch Normalization や Pooling 処理に最適化 • チップ当たり最⼤128 TOPS (2,000 TOPS @24xlarge) • 2ステージ メモリハイアラーキー • ⼤容量オンチップ キャッシュと 8GB DRAMメモリ • FP16, BF16, INT8 データタイプをサポート • FP32で構築された学習モデルをBF16で実⾏可能 • NeuronLink ⾼速チップ間通信 https://aws.amazon.com/machine-learning/inferentia/
19.
© 2022, Amazon
Web Services, Inc. or its affiliates. 最新G5インスタンスと⽐較し、最⼤68%の低コストを実現 $0.000 $0.150 $0.300 $0.450 G4dn.xl G5.xl Inf1.xl Bert-Large $0.000 $0.300 $0.600 $0.900 G4dn.xl G5.xl Inf1.xl Yolov5 $0.000 $0.025 $0.050 $0.075 G4dn.xl G5.xl Inf1.xl Resnet50 $0.000 $0.100 $0.200 $0.300 G4dn.xl G5.xl Inf1.xl Bert-Base -64% -42% -49% -68% Bert-Large Bert-Base Yolov5 Resnet50 1M 推論当たりのコスト (USD) *G4dn: NVIDIA T4 GPU 搭載 G5: NVIDIA A10G GPU 搭載
20.
© 2022, Amazon
Web Services, Inc. or its affiliates. 0 400 800 1200 inf1.xl G5.xl g4dn.xl Bert-Base ⾼性能と低コストを両⽴ $0.000 $0.100 $0.200 $0.300 G4dn.xl G5.xl Inf1.xl Bert-Base -68% Cost / Million Inferences G4 と⽐較し、2.74倍のスループット G5 と⽐較し、24% ⾼いスループットを実現 Throughput (seq/sec) G4 と⽐較し、84% の低コスト G5 と⽐較し、68% の低コストを実現 -24% 1M 推論当たりのコスト (USD) *G4dn: NVIDIA T4 GPU 搭載 G5: NVIDIA A10G GPU 搭載 スループット (seq/sec)
21.
© 2022, Amazon
Web Services, Inc. or its affiliates. AWS Neuron • Inferentia上での⾼性能推論を実現するためのSDK Neuron コンパイラ Neuron ランタイム プロファイリングツール 主要なフレームワークを全てサポート 各フレームワーク、Neuron SDKは DLAMI (AWS Deep Learning AMI)に プリインストール https://github.com/aws-neuron/aws-neuron-samples https://awsdocs-neuron.readthedocs-hosted.com AWS Neuron SDK ドキュメント サンプルコード
22.
© 2022, Amazon
Web Services, Inc. or its affiliates. AWS Neuron コンパイラ • わずか数⾏のコードの変更のみで、事前学習済みモデルをInferentiaチップ向け にコンパイル可能
23.
© 2022, Amazon
Web Services, Inc. or its affiliates. 様々なお客様でコストパフォーマンス最適化を実現 https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials Hotpot.ai Amazon Rekognition
24.
© 2022, Amazon
Web Services, Inc. or its affiliates. Amazon内での Inf1 活用事例 Amazon Alexa 実際の⼈間の会話のような⾃然な⾳声を⽣成する⾮常に複雑な⾳声合成 モデルを導⼊しており、全世界で1億台以上の Alexa デバイスをサポー トしています。Inf1インスタンスにより、GPUインスタンスと⽐較して 運⽤コストを約30%削減し、推論レイテンシを25%改善することがで きました Amazon Robotics 私たちのシステムは 2022 年に 1,000 台以上の SageMaker ホストを使 ⽤する予定です。AWS Inferentia は、私たちの機械学習モデルを再ト レーニングすることなく、35% 低いコストと 20% ⾼いスループット で、急速に増加するトラフィックに対応する機会を与えてくれます」 Amazon Prime Video EC2 Inf1 インスタンスに画像分類機械学習モデルをデプロイしたところ、 パフォーマンスが 4 倍向上し、コストも最⼤ 40% 削減することができ ました。
25.
© 2022, Amazon
Web Services, Inc. or its affiliates. ⽇本国内のお客様の声 Money Forward, Inc. 「当社の AI チャットボットサービスを Amazon EC2 Inf1 イン スタンスに移⾏するのは簡単でした。2 か⽉以内に移⾏を完了し、 Amazon Elastic Container Service(ECS)を使⽤して AWS Inf1 インスタンスで⼤規模なサービスを開始しました。Inf1 イ ンスタンスあたり複数のモデルを提供することで、 (同等の GPU ベースのインスタンスに⽐べて) 推論レイテンシを 97% 削減し、 推論コストを 50% 以上削減できました。」 https://aws.amazon.com/jp/builders-flash/202209/create-large-scale-inference-environment/
26.
© 2022, Amazon
Web Services, Inc. or its affiliates. 2022年10⽉10⽇ EC2 Trn1 インスタンス⼀般提供開始
27.
© 2022, Amazon
Web Services, Inc. or its affiliates. Amazon EC2 Trn1 インスタンス • AWSによってカスタム設計された⾼性能機械学習トレーニング チップ AWS Trainium を搭載したインスタンス • 最も費⽤効果の⾼いMLトレーニング性能を実現 • GPUインスタンスと⽐較し最⼤ 50%低価格を実現 • 最⼤16個の AWS Trainium アクセラレータ、512GB の⾼速 HBM2メモリ、8TB のローカル NVMe SSDを搭載 • 最⼤800Gbps の Elastic Fabric Adapter (EFA) ネットワーク帯域 • Trainium 間は超⾼速 NeuronLink で接続 • Tensorflow、PyTorchなど主要MLフレームワークをサポート • Trn1上で学習し、デプロイ先は⾃由 インスタンスサイズ Trainium アクセラレータ メモリ (GB) vCPU メモリ (GB) NVMe SSD (TB) EBS帯域 (Gbps) NW帯域 (Gbps) オンデマンド価格 (USD/時間) Trn1.2xlarge 1 32 8 32 0.5 最⼤ 20 最⼤ 12.5 1.34 Trn1.32xlarge 16 512 128 512 8 80 800 21.50 https://aws.amazon.com/jp/ec2/instance-types/trn1/ *2022年10⽉時点の⽶国東部 (バージニア北部)の価格
28.
© 2022, Amazon
Web Services, Inc. or its affiliates. AWS Trainium • AWS による第2世代 独⾃設計 ML トレーニングチップ • 2 Neuronコア / チップ • Tensor エンジン︓畳み込み等、⾏列演算に最適化 • Scalar エンジン︓RELU等の活性化関数に最適化 • Vector エンジン︓Batch Normalizationやプーリング処理に最適化 • 組込型汎⽤DSP︓カスタムオペレータに対応 • 専⽤ collective compute エンジン • 分散学習を⾏う際に、演算と通信をオーバーラップ • 32GB HBM2E メモリスタック • FP32, TF32, FP16, BF16, INT8 データタイプをサポート • Configurable FP8、 Stochastic roundingにハードウェアで 対応 https://aws.amazon.com/machine-learning/trainium/
29.
© 2022, Amazon
Web Services, Inc. or its affiliates. 対応するデータタイプと性能⽐ FP32 P R E C I S I O N R A N G E S TF32 BF16 FP16 cFP8 UINT8 0 1 2 3 4 BF16/FP16 TF32 FP32 Normalized Performance P3dn P4d Trn1 デ ー タ タ イ プ ご と の 性 能 ( T F L O P S ) ⽐ NLP/DLRM Computer vision >5x >2.5x 1.4x *P3dn: NVIDIA V100 GPU 搭載 P4d: NVIDIA A100 GPU 搭載 性 能 ( T F L O P S ) ⽐
30.
© 2022, Amazon
Web Services, Inc. or its affiliates. Petabits/s throughput, billions of IOPS Trn1 30K+ Trainium Chips Trn1 Trn1 Trn1 Trn1 Trn1 Trn1 Trn1 EC2 UltraClusters Petabit non- blocking TOR 超⼤型モデルのための UltraCluster スケールアウト • EC2 UltraClusterごとに3万以上のTrainiumアクセラレータを搭載 6.3 ExaFLOPS の演算性能を持つ世界最⾼⽔準の スーパーコンピュータへのオンデマンドアクセス
31.
© 2022, Amazon
Web Services, Inc. or its affiliates. Stochastic rounding (確率的な丸め処理) • Round nearest even (標準的な丸め処理の⼿法) • 端数は四捨五⼊ • 例)整数1に対して0.2を何度加えても結果は変わらない • Stochastic rounding (確率的な丸め処理) • 例)整数1に0.2を加える場合、80%の確率で1、20%の確率で2として丸め処理 実行例)BERT-Large pre-training BF16 SRでは FP32 と同様の精度を維持 BF16 SRでは BF16 RNE と同様のスピードを達成 精度 (Loss) スループット
32.
© 2022, Amazon
Web Services, Inc. or its affiliates. AWS Neuron • Trainium 上での⾼性能MLトレーニングを実現するためのSDK https://github.com/aws-neuron/aws-neuron-samples https://awsdocs-neuron.readthedocs-hosted.com AWS Neuron SDK ドキュメント サンプルコード 主要なフレームワークを全てサポート Neuron コンパイラ Neuron ランタイム プロファイリングツール
33.
© 2022, Amazon
Web Services, Inc. or its affiliates. Example: BERT-Large pre-training • Bring your own model
34.
© 2022, Amazon
Web Services, Inc. or its affiliates. Example: BERT-Large pre-training • Bring your own model • JIT-compile to Trainium
35.
© 2022, Amazon
Web Services, Inc. or its affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. Live Demo !!
36.
© 2022, Amazon
Web Services, Inc. or its affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. 参考情報
37.
© 2022, Amazon
Web Services, Inc. or its affiliates. 参考情報 https://aws.amazon.com/jp/ec2/instance-types/inf1/ https://aws.amazon.com/jp/machine-learning/inferentia/ https://aws.amazon.com/jp/ec2/instance-types/trn1/ https://aws.amazon.com/jp/machine-learning/trainium/ https://awsdocs-neuron.readthedocs-hosted.com/
38.
© 2022, Amazon
Web Services, Inc. or its affiliates. 参考情報 – AWS ブログ https://aws.amazon.com/jp/blogs/news/aws-trainium-amazon-ec2-trn1-ml-training-part1/ https://aws.amazon.com/jp/builders-flash/202209/create-large-scale-inference-environment/ https://aws.amazon.com/jp/solutions/case-studies/amazon-robotics-case-study/ https://aws.amazon.com/jp/blogs/machine-learning/how-amazon-search-reduced-ml-inference-costs-by-85-with-aws-inferentia/ https://aws.amazon.com/jp/solutions/case-studies/finchcomputing-case-study/ https://aws.amazon.com/jp/blogs/news/inference-environment-using-aws-inferentia-and-amazon-ecs-with-aws-cdk-part1/ https://aws.amazon.com/jp/blogs/news/inference-environment-using-aws-inferentia-and-amazon-ecs-with-aws-cdk-part2/ https://medium.com/pytorch/democratizing-gpr-ground-penetrating-radar-with-deep-learning-feddd9d2286d
39.
© 2022, Amazon
Web Services, Inc. or its affiliates. 参考情報 – AWS ブログ https://aws.amazon.com/jp/blogs/news/how-infojobs-adevinta-improves-nlp-model-prediction-performance-with-aws-inferentia-and-amazon-sagemaker/ https://aws.amazon.com/jp/blogs/startup/event-report-deep-learning-accelerator-instances/ https://aws.amazon.com/jp/blogs/news/ec2-event-nttpc-anymotion-inf1-costperformance-optimization/ https://aws.amazon.com/jp/blogs/news/choose-the-best-ai-accelerator-and-model-compilation-for-computer-vision-inference-with-amazon-sagemaker/ https://aws.amazon.com/jp/blogs/news/serve-3000-deep-learning-models-on-amazon-eks-with-aws-inferentia-for-under-50-an-hour/ https://aws.amazon.com/jp/blogs/news/scaling-ad-verification-with-machine-learning-and-aws-inferentia/ https://aws.amazon.com/jp/blogs/news/achieve-12x-higher-throughput-and-lowest-latency-for-pytorch-natural-language-processing-applications-out-of- the-box-on-aws-inferentia/
Download