SlideShare a Scribd company logo
© 2022, Amazon Web Services, Inc. or its affiliates.
© 2022, Amazon Web Services, Inc. or its affiliates.
Amazon EC2 Trn1 GA !
〜 AWS が提供する ML 向けインスタンスの豊富な品揃えと
専⽤チップによるコスパ最適化のご紹介 〜
常世 ⼤史 (Hiroshi Tokoyo)
アマゾンウェブサービスジャパン合同会社
2022年10⽉18⽇
© 2022, Amazon Web Services, Inc. or its affiliates.
本日お話しすること
• AWS が提供する ML 向けインスタンスの豊富な品揃え
• AWS 専⽤チップによるコスパ最適化
§ 10⽉10⽇⼀般提供開始 AWS Trainium 搭載 Trn1 インスタンス
© 2022, Amazon Web Services, Inc. or its affiliates.
⾃⼰紹介
名前︓常世 ⼤史 (とこよ ひろし)
所属︓Annapurna labs (アンナプルナラボ)
職務︓アンナプルナラボ発信技術の拡販、技術⽀援
経歴︓外資半導体企業を経て、2013年7⽉アンナプルナラボ
に参加。2015年2⽉の買収に伴い AWS の⼀員に
好きなAWSサービス︓
EC2 Inf1, Trn1, F1インスタンス
2021 AWS Summit Online Japan Keynote
Annapurna labs (アンナプルナラボ) とは...
AWS 内の半導体開発部⾨。 Graviton 64bit ARM
プロセッサや Inferentia, Trainium 深層学習専⽤
チップを開発
© 2022, Amazon Web Services, Inc. or its affiliates.
© 2022, Amazon Web Services, Inc. or its affiliates.
AWS が提供する ML 向けインスタンスの
豊富な品揃え
© 2022, Amazon Web Services, Inc. or its affiliates.
AWS の AI/ML スタック
広 範 か つ 最 も 充 実 し た 機 械 学 習 の 機 能 群
AI サービス
Code + DevOps
Amazon CodeGuru
Amazon DevOps Guru
Business processes
Amazon Personalize
Amazon Forecast
Amazon Fraud Detector
Amazon Lookout for Metrics
Search
Amazon Kendra
Industrial
Amazon Monitron
Amazon Lookout for Equipment
Amazon Lookout for Vision
Healthcare
Amazon HealthLake
Amazon Comprehend Medical
Amazon Transcribe Medical
SPECIALIZED
Chatbots
Amazon Lex
Text & Documents
Amazon Translate
Amazon Comprehend
Amazon Textract
Speech
Amazon Polly
Amazon Transcribe
Amazon Transcribe Call Analytics
Vision
Amazon Rekognition
AWS Panorama
CORE
ML サービス Manage
edge devices
Learn
ML
No-code ML
for business
analysts
Prepare
data
Store
features
Detect
bias
Build with
notebooks
Manage
& monitor
Train
models
Deploy in
production
Tune
parameters
Explain
predictions
CI/CD
Label
data
SAGEMAKER
CANVAS
SAGEMAKER
STUDIO LAB
AMAZON SAGEMAKER STUDIO IDE
ML フレームワーク
& インフラストラクチャ
TensorFlow,
PyTorch,
Apache MXNet,
Hugging Face
Amazon EC2 CPUs GPUs AWS Trainium
Elastic
inference
AWS Inferentia FPGA
Habana
Gaudi
Deep Learning
Containers (DLC)
© 2022, Amazon Web Services, Inc. or its affiliates.
AWS の AI/ML スタック
広 範 か つ 最 も 充 実 し た 機 械 学 習 の 機 能 群
AI サービス
Code + DevOps
Amazon CodeGuru
Amazon DevOps Guru
Business processes
Amazon Personalize
Amazon Forecast
Amazon Fraud Detector
Amazon Lookout for Metrics
Search
Amazon Kendra
Industrial
Amazon Monitron
Amazon Lookout for Equipment
Amazon Lookout for Vision
Healthcare
Amazon HealthLake
Amazon Comprehend Medical
Amazon Transcribe Medical
SPECIALIZED
Chatbots
Amazon Lex
Text & Documents
Amazon Translate
Amazon Comprehend
Amazon Textract
Speech
Amazon Polly
Amazon Transcribe
Amazon Transcribe Call Analytics
Vision
Amazon Rekognition
AWS Panorama
CORE
ML サービス Manage
edge devices
Learn
ML
No-code ML
for business
analysts
Prepare
data
Store
features
Detect
bias
Build with
notebooks
Manage
& monitor
Train
models
Deploy in
production
Tune
parameters
Explain
predictions
CI/CD
Label
data
SAGEMAKER
CANVAS
SAGEMAKER
STUDIO LAB
AMAZON SAGEMAKER STUDIO IDE
ML フレームワーク
& インフラストラクチャ
TensorFlow,
PyTorch,
Apache MXNet,
Hugging Face
Amazon EC2 CPUs GPUs AWS Trainium
Elastic
inference
AWS Inferentia FPGA
Habana
Gaudi
Deep Learning
Containers (DLC)
Amazon EC2 インスタンス
• ⽤途に合わた 500種類にも上る選択肢
• AI サービス、ML サービスを⽀える基盤
• 機械学習の環境を⾃在に構築して利⽤
© 2022, Amazon Web Services, Inc. or its affiliates.
機械学習向け Amazon EC2 インスタンスの選択肢
Ice Lake CPU
Cascade Lake CPU
Habana accelerator
EPYC CPU A100, A10G, T4G
GPUs
Graviton CPU
Inferentia Chip
Trainium Chip
UltraScale+ FPGA
アクセラレーテッドコンピューティング
C7g
C6g
C6i
C6a
M6g
M6i
M6a
R6g
R6i
R6a
F1 Inf1 G5g G5 P4 DL1 Trn1
Elastic Inference
従来の機械学習
推論 学習
深層学習
学習 + 推論
© 2022, Amazon Web Services, Inc. or its affiliates.
GPUインスタンスの変遷
GPGPU
機械学習
グラフィック
機械学習(推論)
2017
2016
2010
NVIDIA Tesla
M2050
2013 2018 2019
NVIDIA Grid
K2
NVIDIA Tesla
M60
NVIDIA Tesla
T4
NVIDIA Tesla
V100 32GB
NVIDIA Tesla
V100 16GB
NVIDIA Tesla
K80
2020 2021
CG1
G2
NVIDIA Tesla
A100
AMD Radeon Pro
V520
G5
NVIDIA Tesla
A10G
G5g
NVIDIA Tesla
T4G (ARM CPU)
2022年6⽉
東京リージョンGA
2022年5⽉
P4de GPU インスタンスのプレビューを発表
© 2022, Amazon Web Services, Inc. or its affiliates.
Trn1
Inf1
機械学習向け Amazon EC2 インスタンスの選択肢
EPYC CPU A100, A10G, T4G
GPUs
Graviton CPU
Inferentia Chip
Trainium Chip
UltraScale+ FPGA
C7g
C6g
C6i
C6a
M6g
M6i
M6a
R6g
R6i
R6a
F1 G5g G5 P4 DL1
Elastic Inference
従来の機械学習
推論 学習
深層学習
学習 + 推論
最新 Graviton3 プロセッサ搭載
bfloat16 と fp16 に対応し機械学習
ワークロードでは最大3倍高速に
AWS Trainium による学習コストの最適化
AWS クラウドで最高の性能、P4dインスタ
ンスと比較し最大50%低価格を実現
AWS Inferentia による推論コストの最
適化
G4インスタンスと比較し最大2.3倍の
スループット向上、推論処理当たり
最大70%低価格を実現
AWS独自開発プロセッサ Graviton2
によるコスト最適化
M/C/R6gインスタンスはx86ベースの
M/C/R5インスタンスと比較し最大
40%優れた価格性能を提供
© 2022, Amazon Web Services, Inc. or its affiliates.
推論ワークロードの要件
• 軽めのMLモデル、性能要件は低め
• CPUインスタンスでは性能要件を満たせないが、推論リクエストは
散発的に発⽣するためGPUインスタンスでは⾮効率
• 性能要件が⾼めのDLモデル(推論リクエストは常時発⽣ or ⼀度に
まとめてバッチ処理可能)
• NVIDIA CUDA, CuDNN, TensorRT、DALI等、NVIDIA社のライブ
ラリを利⽤したアプリケーションの最適化を想定
• 低遅延が求められ、カスタムでの前処理、後処理のハードウェア化
が必要、IP資産を保持(or 開発リソースあり)
• プロダクション時のコストとパフォーマンスの最適化が重要
• リアルタイム性能、低遅延が重要
Amazon EC2 インスタンスの選択指針(推論ワークロード)
• 全ての機械学習ワークロードに対してベストとなるインスタンスの選択肢は存在しない
• 可⽤性向上を⽬的とした複数種類のインスタンス利⽤も視野に
CPUインスタンス
CPUインスタンス
+Elastic Inference
GPUインスタンス
F1インスタンス
Inf1インスタンス
© 2022, Amazon Web Services, Inc. or its affiliates.
学習ワークロードの要件
• ⼩規模モデルで性能要件は低め
• NVIDIA社のGPU対応ライブラリ、
エコシステムを活⽤
• 開発容易性が重要
• 中⼤規模モデル
• 複数GPUを利⽤
• ⼩中規模モデル
• 単⼀GPUを利⽤
• コストパフォーマンス最適化が重
要
• GPUインスタンスに選択肢を追加、
プロダクション時の可⽤性を向上
• PyTorch, TensorFlowフレーム
ワークを利⽤
• 中⼤規模モデル
• 複数インスタンスの利⽤も
視野に
• ⼩中規模モデル
Amazon EC2 インスタンスの選択指針(学習ワークロード)
CPU インスタンス
GPU インスタンス
(p3.8/16xlarge, p3dn.24xlarge
p4d.24xlarge
g5.12/24/48xlarge)
GPU インスタンス
(p3.2xlarge,
g5.xlarge ~ 16xlarge)
DL1 インスタンス
(dl1.24xlarge)
Trn1 インスタンス
(trn1.32xlarge)
Trn1 インスタンス
(trn1.2xlarge)
• 全ての機械学習ワークロードに対してベストとなるインスタンスの選択肢は存在しない
• 可⽤性向上を⽬的とした複数種類のインスタンス利⽤も視野に
© 2022, Amazon Web Services, Inc. or its affiliates.
© 2022, Amazon Web Services, Inc. or its affiliates.
AWS 専⽤チップによるコスパ最適化
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark.
AWS におけるシリコンイノベーション
re:Invent 2016 re:Invent 2017
re:Invent 2018 re:Invent 2019
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark.
AWS におけるシリコンイノベーション
re:Invent 2021
re:Invent 2020
© 2022, Amazon Web Services, Inc. or its affiliates.
AWS 独⾃設計 ML チップ搭載インスタンス
Amazon EC2 Inf1 Amazon EC2 Trn1
AWS Inferentia によるML推論の最適化
G4インスタンスと比較し最大 2.3倍のスルー
プット向上、推論処理当たり最大 70%低価格
を実現
AWS Trainium によるML学習の最適化
GPUインスタンスと比較し最大 50%低価格
を実現
2022年10⽉10⽇⼀般提供開始
© 2022, Amazon Web Services, Inc. or its affiliates.
Amazon EC2 Inf1 インスタンス
• 機械学習の推論を⾼性能かつ低価格で実⾏するための
インスタンス
• AWS が独⾃設計した機械学習推論チップ
AWS Inferentia を搭載
• クラウド上で深層学習モデルを実⾏する上で最も低価
格を実現
• GPUインスタンスと⽐較し最⼤2.3倍のスループット
向上、推論処理当たり最⼤70%低価格
• ソフトウェアは主要な機械学習フレームワーク
(TensorFlow, PyTorch, MXNet)とシームレスに統合、
最⼩限のコード変更のみですぐに利⽤開始可能
EC2 Inf1インスタンス
クラウド上で高速かつ低価格な
推論を実現
https://aws.amazon.com/ec2/instance-types/inf1/
© 2022, Amazon Web Services, Inc. or its affiliates.
Amazon EC2 Inf1 インスタンス
• 4つのインスタンスサイズから選択可能
• インスタンス毎に1~16個の Inferentia 推論チップを搭載
• 6xlarge、24xlargeでは複数の Inferentia チップを⾼速チップ間通信で接続
• 最⼤ 100Gbps のネットワークインタフェース
• 2022年10⽉現在、東京を含む23のリージョンにて利⽤可能
• 他のEC2同様、複数の⽀払いオプションを⽤意
• オンデマンド、リザーブドインスタンス、スポットインスタンス、Savings Plans
インスタンスサイズ Inferentia vCPU
メモリ
(GiB)
ストレージ
EBS帯域
(Gbps)
NW帯域
(Gbps)
オンデマンド価格
(USD/時間)
inf1.xlarge 1 4 8 EBS Only 最⼤ 3.5 最⼤ 25 0.228
inf1.2xlarge 1 8 16 EBS Only 最⼤ 3.5 最⼤ 25 0.362
inf1.6xlarge 4 24 48 EBS Only 3.5 25 1.18
inf1.24xlarge 16 96 192 EBS Only 19 100 4.721
*2022年10⽉時点の⽶国東部 (バージニア北部)の価格
© 2022, Amazon Web Services, Inc. or its affiliates.
AWS Inferentia
• AWS による独⾃設計 ML 推論チップ
• 4 Neuron コア / チップ
• Tensor エンジン︓畳み込み等、⾏列演算に最適化
• Scalar エンジン︓ReLU等の活性化関数に最適化
• Vector エンジン︓Batch Normalization や Pooling 処理に最適化
• チップ当たり最⼤128 TOPS (2,000 TOPS @24xlarge)
• 2ステージ メモリハイアラーキー
• ⼤容量オンチップ キャッシュと 8GB DRAMメモリ
• FP16, BF16, INT8 データタイプをサポート
• FP32で構築された学習モデルをBF16で実⾏可能
• NeuronLink ⾼速チップ間通信
https://aws.amazon.com/machine-learning/inferentia/
© 2022, Amazon Web Services, Inc. or its affiliates.
最新G5インスタンスと⽐較し、最⼤68%の低コストを実現
$0.000
$0.150
$0.300
$0.450
G4dn.xl G5.xl Inf1.xl
Bert-Large
$0.000
$0.300
$0.600
$0.900
G4dn.xl G5.xl Inf1.xl
Yolov5
$0.000
$0.025
$0.050
$0.075
G4dn.xl G5.xl Inf1.xl
Resnet50
$0.000
$0.100
$0.200
$0.300
G4dn.xl G5.xl Inf1.xl
Bert-Base
-64% -42%
-49%
-68%
Bert-Large Bert-Base Yolov5 Resnet50
1M
推論当たりのコスト
(USD)
*G4dn: NVIDIA T4 GPU 搭載 G5: NVIDIA A10G GPU 搭載
© 2022, Amazon Web Services, Inc. or its affiliates.
0
400
800
1200
inf1.xl G5.xl g4dn.xl
Bert-Base
⾼性能と低コストを両⽴
$0.000
$0.100
$0.200
$0.300
G4dn.xl G5.xl Inf1.xl
Bert-Base
-68%
Cost
/
Million
Inferences
G4 と⽐較し、2.74倍のスループット
G5 と⽐較し、24% ⾼いスループットを実現
Throughput
(seq/sec)
G4 と⽐較し、84% の低コスト
G5 と⽐較し、68% の低コストを実現
-24%
1M
推論当たりのコスト
(USD)
*G4dn: NVIDIA T4 GPU 搭載 G5: NVIDIA A10G GPU 搭載
スループット
(seq/sec)
© 2022, Amazon Web Services, Inc. or its affiliates.
AWS Neuron
• Inferentia上での⾼性能推論を実現するためのSDK
Neuron コンパイラ
Neuron ランタイム
プロファイリングツール
主要なフレームワークを全てサポート
各フレームワーク、Neuron SDKは
DLAMI (AWS Deep Learning AMI)に
プリインストール
https://github.com/aws-neuron/aws-neuron-samples
https://awsdocs-neuron.readthedocs-hosted.com
AWS Neuron SDK
ドキュメント
サンプルコード
© 2022, Amazon Web Services, Inc. or its affiliates.
AWS Neuron コンパイラ
• わずか数⾏のコードの変更のみで、事前学習済みモデルをInferentiaチップ向け
にコンパイル可能
© 2022, Amazon Web Services, Inc. or its affiliates.
様々なお客様でコストパフォーマンス最適化を実現
https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials
Hotpot.ai
Amazon
Rekognition
© 2022, Amazon Web Services, Inc. or its affiliates.
Amazon内での Inf1 活用事例
Amazon Alexa
実際の⼈間の会話のような⾃然な⾳声を⽣成する⾮常に複雑な⾳声合成
モデルを導⼊しており、全世界で1億台以上の Alexa デバイスをサポー
トしています。Inf1インスタンスにより、GPUインスタンスと⽐較して
運⽤コストを約30%削減し、推論レイテンシを25%改善することがで
きました
Amazon Robotics
私たちのシステムは 2022 年に 1,000 台以上の SageMaker ホストを使
⽤する予定です。AWS Inferentia は、私たちの機械学習モデルを再ト
レーニングすることなく、35% 低いコストと 20% ⾼いスループット
で、急速に増加するトラフィックに対応する機会を与えてくれます」
Amazon Prime Video
EC2 Inf1 インスタンスに画像分類機械学習モデルをデプロイしたところ、
パフォーマンスが 4 倍向上し、コストも最⼤ 40% 削減することができ
ました。
© 2022, Amazon Web Services, Inc. or its affiliates.
⽇本国内のお客様の声 Money Forward, Inc.
「当社の AI チャットボットサービスを Amazon EC2 Inf1 イン
スタンスに移⾏するのは簡単でした。2 か⽉以内に移⾏を完了し、
Amazon Elastic Container Service(ECS)を使⽤して AWS
Inf1 インスタンスで⼤規模なサービスを開始しました。Inf1 イ
ンスタンスあたり複数のモデルを提供することで、 (同等の GPU
ベースのインスタンスに⽐べて) 推論レイテンシを 97% 削減し、
推論コストを 50% 以上削減できました。」
https://aws.amazon.com/jp/builders-flash/202209/create-large-scale-inference-environment/
© 2022, Amazon Web Services, Inc. or its affiliates.
2022年10⽉10⽇ EC2 Trn1 インスタンス⼀般提供開始
© 2022, Amazon Web Services, Inc. or its affiliates.
Amazon EC2 Trn1 インスタンス
• AWSによってカスタム設計された⾼性能機械学習トレーニング
チップ AWS Trainium を搭載したインスタンス
• 最も費⽤効果の⾼いMLトレーニング性能を実現
• GPUインスタンスと⽐較し最⼤ 50%低価格を実現
• 最⼤16個の AWS Trainium アクセラレータ、512GB の⾼速
HBM2メモリ、8TB のローカル NVMe SSDを搭載
• 最⼤800Gbps の Elastic Fabric Adapter (EFA) ネットワーク帯域
• Trainium 間は超⾼速 NeuronLink で接続
• Tensorflow、PyTorchなど主要MLフレームワークをサポート
• Trn1上で学習し、デプロイ先は⾃由
インスタンスサイズ Trainium
アクセラレータ
メモリ (GB)
vCPU
メモリ
(GB)
NVMe SSD
(TB)
EBS帯域
(Gbps)
NW帯域
(Gbps)
オンデマンド価格
(USD/時間)
Trn1.2xlarge 1 32 8 32 0.5 最⼤ 20 最⼤ 12.5 1.34
Trn1.32xlarge 16 512 128 512 8 80 800 21.50
https://aws.amazon.com/jp/ec2/instance-types/trn1/ *2022年10⽉時点の⽶国東部 (バージニア北部)の価格
© 2022, Amazon Web Services, Inc. or its affiliates.
AWS Trainium
• AWS による第2世代 独⾃設計 ML トレーニングチップ
• 2 Neuronコア / チップ
• Tensor エンジン︓畳み込み等、⾏列演算に最適化
• Scalar エンジン︓RELU等の活性化関数に最適化
• Vector エンジン︓Batch Normalizationやプーリング処理に最適化
• 組込型汎⽤DSP︓カスタムオペレータに対応
• 専⽤ collective compute エンジン
• 分散学習を⾏う際に、演算と通信をオーバーラップ
• 32GB HBM2E メモリスタック
• FP32, TF32, FP16, BF16, INT8 データタイプをサポート
• Configurable FP8、 Stochastic roundingにハードウェアで
対応
https://aws.amazon.com/machine-learning/trainium/
© 2022, Amazon Web Services, Inc. or its affiliates.
対応するデータタイプと性能⽐
FP32
P R E C I S I O N
R A N G E
S
TF32
BF16
FP16
cFP8
UINT8
0
1
2
3
4
BF16/FP16 TF32 FP32
Normalized
Performance
P3dn
P4d
Trn1
デ ー タ タ イ プ ご と の 性 能 ( T F L O P S ) ⽐
NLP/DLRM
Computer
vision
>5x
>2.5x
1.4x
*P3dn: NVIDIA V100 GPU 搭載 P4d: NVIDIA A100 GPU 搭載
性
能
(
T
F
L
O
P
S
)
⽐
© 2022, Amazon Web Services, Inc. or its affiliates.
Petabits/s
throughput,
billions of
IOPS
Trn1
30K+ Trainium Chips
Trn1 Trn1 Trn1
Trn1
Trn1
Trn1
Trn1
EC2 UltraClusters
Petabit non-
blocking TOR
超⼤型モデルのための UltraCluster スケールアウト
• EC2 UltraClusterごとに3万以上のTrainiumアクセラレータを搭載
6.3 ExaFLOPS の演算性能を持つ世界最⾼⽔準の
スーパーコンピュータへのオンデマンドアクセス
© 2022, Amazon Web Services, Inc. or its affiliates.
Stochastic rounding (確率的な丸め処理)
• Round nearest even (標準的な丸め処理の⼿法)
• 端数は四捨五⼊
• 例)整数1に対して0.2を何度加えても結果は変わらない
• Stochastic rounding (確率的な丸め処理)
• 例)整数1に0.2を加える場合、80%の確率で1、20%の確率で2として丸め処理
実行例)BERT-Large pre-training
BF16 SRでは FP32
と同様の精度を維持
BF16 SRでは BF16 RNE
と同様のスピードを達成
精度 (Loss) スループット
© 2022, Amazon Web Services, Inc. or its affiliates.
AWS Neuron
• Trainium 上での⾼性能MLトレーニングを実現するためのSDK
https://github.com/aws-neuron/aws-neuron-samples
https://awsdocs-neuron.readthedocs-hosted.com
AWS Neuron SDK
ドキュメント
サンプルコード
主要なフレームワークを全てサポート
Neuron コンパイラ
Neuron ランタイム
プロファイリングツール
© 2022, Amazon Web Services, Inc. or its affiliates.
Example: BERT-Large pre-training
• Bring your own model
© 2022, Amazon Web Services, Inc. or its affiliates.
Example: BERT-Large pre-training
• Bring your own model
• JIT-compile to Trainium
© 2022, Amazon Web Services, Inc. or its affiliates.
© 2022, Amazon Web Services, Inc. or its affiliates.
Live Demo !!
© 2022, Amazon Web Services, Inc. or its affiliates.
© 2022, Amazon Web Services, Inc. or its affiliates.
参考情報
© 2022, Amazon Web Services, Inc. or its affiliates.
参考情報
https://aws.amazon.com/jp/ec2/instance-types/inf1/
https://aws.amazon.com/jp/machine-learning/inferentia/
https://aws.amazon.com/jp/ec2/instance-types/trn1/
https://aws.amazon.com/jp/machine-learning/trainium/
https://awsdocs-neuron.readthedocs-hosted.com/
© 2022, Amazon Web Services, Inc. or its affiliates.
参考情報 – AWS ブログ
https://aws.amazon.com/jp/blogs/news/aws-trainium-amazon-ec2-trn1-ml-training-part1/
https://aws.amazon.com/jp/builders-flash/202209/create-large-scale-inference-environment/
https://aws.amazon.com/jp/solutions/case-studies/amazon-robotics-case-study/
https://aws.amazon.com/jp/blogs/machine-learning/how-amazon-search-reduced-ml-inference-costs-by-85-with-aws-inferentia/
https://aws.amazon.com/jp/solutions/case-studies/finchcomputing-case-study/
https://aws.amazon.com/jp/blogs/news/inference-environment-using-aws-inferentia-and-amazon-ecs-with-aws-cdk-part1/
https://aws.amazon.com/jp/blogs/news/inference-environment-using-aws-inferentia-and-amazon-ecs-with-aws-cdk-part2/
https://medium.com/pytorch/democratizing-gpr-ground-penetrating-radar-with-deep-learning-feddd9d2286d
© 2022, Amazon Web Services, Inc. or its affiliates.
参考情報 – AWS ブログ
https://aws.amazon.com/jp/blogs/news/how-infojobs-adevinta-improves-nlp-model-prediction-performance-with-aws-inferentia-and-amazon-sagemaker/
https://aws.amazon.com/jp/blogs/startup/event-report-deep-learning-accelerator-instances/
https://aws.amazon.com/jp/blogs/news/ec2-event-nttpc-anymotion-inf1-costperformance-optimization/
https://aws.amazon.com/jp/blogs/news/choose-the-best-ai-accelerator-and-model-compilation-for-computer-vision-inference-with-amazon-sagemaker/
https://aws.amazon.com/jp/blogs/news/serve-3000-deep-learning-models-on-amazon-eks-with-aws-inferentia-for-under-50-an-hour/
https://aws.amazon.com/jp/blogs/news/scaling-ad-verification-with-machine-learning-and-aws-inferentia/
https://aws.amazon.com/jp/blogs/news/achieve-12x-higher-throughput-and-lowest-latency-for-pytorch-natural-language-processing-applications-out-of-
the-box-on-aws-inferentia/

More Related Content

PDF
SQL大量発行処理をいかにして高速化するか
PDF
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
PDF
Javaコードが速く実⾏される秘密 - JITコンパイラ⼊⾨(JJUG CCC 2020 Fall講演資料)
PDF
マルチテナント化で知っておきたいデータベースのこと
PDF
(修正)機械学習デザインパターン(ML Design Patterns)の解説
PPTX
MLflowで学ぶMLOpsことはじめ
PPTX
初心者向けMongoDBのキホン!
PDF
AWSではじめるMLOps
SQL大量発行処理をいかにして高速化するか
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
Javaコードが速く実⾏される秘密 - JITコンパイラ⼊⾨(JJUG CCC 2020 Fall講演資料)
マルチテナント化で知っておきたいデータベースのこと
(修正)機械学習デザインパターン(ML Design Patterns)の解説
MLflowで学ぶMLOpsことはじめ
初心者向けMongoDBのキホン!
AWSではじめるMLOps

What's hot (20)

PDF
Python 3.9からの新定番zoneinfoを使いこなそう
PDF
SQLアンチパターン - 開発者を待ち受ける25の落とし穴 (拡大版)
PDF
Kubernetesによる機械学習基盤への挑戦
PDF
3分でわかるAzureでのService Principal
PDF
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
PPTX
トランザクションの設計と進化
PDF
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
PDF
Microsoft Azure Storage 概要
PDF
Infrastructure as Code (IaC) 談義 2022
PPTX
本当は恐ろしい分散システムの話
PPTX
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
PDF
PGOを用いたPostgreSQL on Kubernetes入門(PostgreSQL Conference Japan 2022 発表資料)
PPTX
MLOps入門
PDF
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
PDF
Amazon SageMaker 推論エンドポイントを利用したアプリケーション開発
PDF
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
PDF
ブルックスのいう銀の弾丸とは何か?
PDF
オープンソースで構築するWebメタバース ~Mozilla Hubsで学ぶUX開発から運用コスト最小化まで #CEDEC2022
PPTX
世の中のPostgreSQLエンジニアのpsql設定(第34回PostgreSQLアンカンファレンス@オンライン 発表資料)
PDF
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)
Python 3.9からの新定番zoneinfoを使いこなそう
SQLアンチパターン - 開発者を待ち受ける25の落とし穴 (拡大版)
Kubernetesによる機械学習基盤への挑戦
3分でわかるAzureでのService Principal
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
トランザクションの設計と進化
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
Microsoft Azure Storage 概要
Infrastructure as Code (IaC) 談義 2022
本当は恐ろしい分散システムの話
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
PGOを用いたPostgreSQL on Kubernetes入門(PostgreSQL Conference Japan 2022 発表資料)
MLOps入門
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
Amazon SageMaker 推論エンドポイントを利用したアプリケーション開発
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
ブルックスのいう銀の弾丸とは何か?
オープンソースで構築するWebメタバース ~Mozilla Hubsで学ぶUX開発から運用コスト最小化まで #CEDEC2022
世の中のPostgreSQLエンジニアのpsql設定(第34回PostgreSQLアンカンファレンス@オンライン 発表資料)
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)
Ad

Similar to 【JAWS-UG AI/ML支部 第14回勉強会】Amazon EC2 Trn1 GA ! ~ AWSが提供するML向けインスタンスの豊富な品揃えと 専用チップによるコスパ最適化のご紹介 ~ (20)

PDF
20230418_JAWS-AIML-EC2-Trn1-Inf2.pdf
PDF
20201008 AWS独自設計推論チップInferentiaとInf1インスタンス
PPTX
re:Invent 2018 ML サービスアップデート
PPTX
Japan Wrap Up re:Invent2018
PPTX
Japan wrapup reinvent2018
PPTX
研究用途でのAWSの利用事例と機械学習について
PDF
Machine Learning on AWS
PDF
Amazonでのレコメンド生成における深層学習とAWS利用について
PDF
AWS re:Invent 2019 recap For Digital Native Business
PPTX
AWSとGPUインスタンスのご紹介
PPTX
20170826 Oita JAWS
PDF
20190305_AWS-Blackbelt-EC2.pdf
PDF
[AWS re:invent 2013 Report] AWS New EC2 Instance Types
PPTX
HPC on AWS 2020 Summer
PPTX
[JAWS-UG AI支部] AWS AIアップデート
PPTX
スケーラブルな Deep Leaning フレームワーク "Apache MXNet” を AWS で学ぶ
PDF
iot@Loft#14-LT4-AI /機械学習に活用できる AWSのエッジソリューションのご紹介
PDF
[CTO Night & Day 2019] ML services: MLOps #ctonight
PPTX
JAWS-UG HPC #17 - HPC on AWS @ 2019
PDF
Microsoft の深層学習への取り組み
20230418_JAWS-AIML-EC2-Trn1-Inf2.pdf
20201008 AWS独自設計推論チップInferentiaとInf1インスタンス
re:Invent 2018 ML サービスアップデート
Japan Wrap Up re:Invent2018
Japan wrapup reinvent2018
研究用途でのAWSの利用事例と機械学習について
Machine Learning on AWS
Amazonでのレコメンド生成における深層学習とAWS利用について
AWS re:Invent 2019 recap For Digital Native Business
AWSとGPUインスタンスのご紹介
20170826 Oita JAWS
20190305_AWS-Blackbelt-EC2.pdf
[AWS re:invent 2013 Report] AWS New EC2 Instance Types
HPC on AWS 2020 Summer
[JAWS-UG AI支部] AWS AIアップデート
スケーラブルな Deep Leaning フレームワーク "Apache MXNet” を AWS で学ぶ
iot@Loft#14-LT4-AI /機械学習に活用できる AWSのエッジソリューションのご紹介
[CTO Night & Day 2019] ML services: MLOps #ctonight
JAWS-UG HPC #17 - HPC on AWS @ 2019
Microsoft の深層学習への取り組み
Ad

Recently uploaded (8)

PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
PDF
データモデラー視点で語るデータマネジメント入門~組織のデータ活用を成功に導くために~
PDF
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
PDF
【QYResearch】急拡大する医療機器市場における主要企業の動向と競争環境分析
PDF
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
PDF
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
PDF
【初心者向け】生成AI SimonW/LLMとOllama・llamafile無料APIでコマンドラインをAI革命するセミナー。CPUでもGPUでも。Ne...
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
データモデラー視点で語るデータマネジメント入門~組織のデータ活用を成功に導くために~
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
【QYResearch】急拡大する医療機器市場における主要企業の動向と競争環境分析
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
【初心者向け】生成AI SimonW/LLMとOllama・llamafile無料APIでコマンドラインをAI革命するセミナー。CPUでもGPUでも。Ne...

【JAWS-UG AI/ML支部 第14回勉強会】Amazon EC2 Trn1 GA ! ~ AWSが提供するML向けインスタンスの豊富な品揃えと 専用チップによるコスパ最適化のご紹介 ~

  • 1. © 2022, Amazon Web Services, Inc. or its affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. Amazon EC2 Trn1 GA ! 〜 AWS が提供する ML 向けインスタンスの豊富な品揃えと 専⽤チップによるコスパ最適化のご紹介 〜 常世 ⼤史 (Hiroshi Tokoyo) アマゾンウェブサービスジャパン合同会社 2022年10⽉18⽇
  • 2. © 2022, Amazon Web Services, Inc. or its affiliates. 本日お話しすること • AWS が提供する ML 向けインスタンスの豊富な品揃え • AWS 専⽤チップによるコスパ最適化 § 10⽉10⽇⼀般提供開始 AWS Trainium 搭載 Trn1 インスタンス
  • 3. © 2022, Amazon Web Services, Inc. or its affiliates. ⾃⼰紹介 名前︓常世 ⼤史 (とこよ ひろし) 所属︓Annapurna labs (アンナプルナラボ) 職務︓アンナプルナラボ発信技術の拡販、技術⽀援 経歴︓外資半導体企業を経て、2013年7⽉アンナプルナラボ に参加。2015年2⽉の買収に伴い AWS の⼀員に 好きなAWSサービス︓ EC2 Inf1, Trn1, F1インスタンス 2021 AWS Summit Online Japan Keynote Annapurna labs (アンナプルナラボ) とは... AWS 内の半導体開発部⾨。 Graviton 64bit ARM プロセッサや Inferentia, Trainium 深層学習専⽤ チップを開発
  • 4. © 2022, Amazon Web Services, Inc. or its affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. AWS が提供する ML 向けインスタンスの 豊富な品揃え
  • 5. © 2022, Amazon Web Services, Inc. or its affiliates. AWS の AI/ML スタック 広 範 か つ 最 も 充 実 し た 機 械 学 習 の 機 能 群 AI サービス Code + DevOps Amazon CodeGuru Amazon DevOps Guru Business processes Amazon Personalize Amazon Forecast Amazon Fraud Detector Amazon Lookout for Metrics Search Amazon Kendra Industrial Amazon Monitron Amazon Lookout for Equipment Amazon Lookout for Vision Healthcare Amazon HealthLake Amazon Comprehend Medical Amazon Transcribe Medical SPECIALIZED Chatbots Amazon Lex Text & Documents Amazon Translate Amazon Comprehend Amazon Textract Speech Amazon Polly Amazon Transcribe Amazon Transcribe Call Analytics Vision Amazon Rekognition AWS Panorama CORE ML サービス Manage edge devices Learn ML No-code ML for business analysts Prepare data Store features Detect bias Build with notebooks Manage & monitor Train models Deploy in production Tune parameters Explain predictions CI/CD Label data SAGEMAKER CANVAS SAGEMAKER STUDIO LAB AMAZON SAGEMAKER STUDIO IDE ML フレームワーク & インフラストラクチャ TensorFlow, PyTorch, Apache MXNet, Hugging Face Amazon EC2 CPUs GPUs AWS Trainium Elastic inference AWS Inferentia FPGA Habana Gaudi Deep Learning Containers (DLC)
  • 6. © 2022, Amazon Web Services, Inc. or its affiliates. AWS の AI/ML スタック 広 範 か つ 最 も 充 実 し た 機 械 学 習 の 機 能 群 AI サービス Code + DevOps Amazon CodeGuru Amazon DevOps Guru Business processes Amazon Personalize Amazon Forecast Amazon Fraud Detector Amazon Lookout for Metrics Search Amazon Kendra Industrial Amazon Monitron Amazon Lookout for Equipment Amazon Lookout for Vision Healthcare Amazon HealthLake Amazon Comprehend Medical Amazon Transcribe Medical SPECIALIZED Chatbots Amazon Lex Text & Documents Amazon Translate Amazon Comprehend Amazon Textract Speech Amazon Polly Amazon Transcribe Amazon Transcribe Call Analytics Vision Amazon Rekognition AWS Panorama CORE ML サービス Manage edge devices Learn ML No-code ML for business analysts Prepare data Store features Detect bias Build with notebooks Manage & monitor Train models Deploy in production Tune parameters Explain predictions CI/CD Label data SAGEMAKER CANVAS SAGEMAKER STUDIO LAB AMAZON SAGEMAKER STUDIO IDE ML フレームワーク & インフラストラクチャ TensorFlow, PyTorch, Apache MXNet, Hugging Face Amazon EC2 CPUs GPUs AWS Trainium Elastic inference AWS Inferentia FPGA Habana Gaudi Deep Learning Containers (DLC) Amazon EC2 インスタンス • ⽤途に合わた 500種類にも上る選択肢 • AI サービス、ML サービスを⽀える基盤 • 機械学習の環境を⾃在に構築して利⽤
  • 7. © 2022, Amazon Web Services, Inc. or its affiliates. 機械学習向け Amazon EC2 インスタンスの選択肢 Ice Lake CPU Cascade Lake CPU Habana accelerator EPYC CPU A100, A10G, T4G GPUs Graviton CPU Inferentia Chip Trainium Chip UltraScale+ FPGA アクセラレーテッドコンピューティング C7g C6g C6i C6a M6g M6i M6a R6g R6i R6a F1 Inf1 G5g G5 P4 DL1 Trn1 Elastic Inference 従来の機械学習 推論 学習 深層学習 学習 + 推論
  • 8. © 2022, Amazon Web Services, Inc. or its affiliates. GPUインスタンスの変遷 GPGPU 機械学習 グラフィック 機械学習(推論) 2017 2016 2010 NVIDIA Tesla M2050 2013 2018 2019 NVIDIA Grid K2 NVIDIA Tesla M60 NVIDIA Tesla T4 NVIDIA Tesla V100 32GB NVIDIA Tesla V100 16GB NVIDIA Tesla K80 2020 2021 CG1 G2 NVIDIA Tesla A100 AMD Radeon Pro V520 G5 NVIDIA Tesla A10G G5g NVIDIA Tesla T4G (ARM CPU) 2022年6⽉ 東京リージョンGA 2022年5⽉ P4de GPU インスタンスのプレビューを発表
  • 9. © 2022, Amazon Web Services, Inc. or its affiliates. Trn1 Inf1 機械学習向け Amazon EC2 インスタンスの選択肢 EPYC CPU A100, A10G, T4G GPUs Graviton CPU Inferentia Chip Trainium Chip UltraScale+ FPGA C7g C6g C6i C6a M6g M6i M6a R6g R6i R6a F1 G5g G5 P4 DL1 Elastic Inference 従来の機械学習 推論 学習 深層学習 学習 + 推論 最新 Graviton3 プロセッサ搭載 bfloat16 と fp16 に対応し機械学習 ワークロードでは最大3倍高速に AWS Trainium による学習コストの最適化 AWS クラウドで最高の性能、P4dインスタ ンスと比較し最大50%低価格を実現 AWS Inferentia による推論コストの最 適化 G4インスタンスと比較し最大2.3倍の スループット向上、推論処理当たり 最大70%低価格を実現 AWS独自開発プロセッサ Graviton2 によるコスト最適化 M/C/R6gインスタンスはx86ベースの M/C/R5インスタンスと比較し最大 40%優れた価格性能を提供
  • 10. © 2022, Amazon Web Services, Inc. or its affiliates. 推論ワークロードの要件 • 軽めのMLモデル、性能要件は低め • CPUインスタンスでは性能要件を満たせないが、推論リクエストは 散発的に発⽣するためGPUインスタンスでは⾮効率 • 性能要件が⾼めのDLモデル(推論リクエストは常時発⽣ or ⼀度に まとめてバッチ処理可能) • NVIDIA CUDA, CuDNN, TensorRT、DALI等、NVIDIA社のライブ ラリを利⽤したアプリケーションの最適化を想定 • 低遅延が求められ、カスタムでの前処理、後処理のハードウェア化 が必要、IP資産を保持(or 開発リソースあり) • プロダクション時のコストとパフォーマンスの最適化が重要 • リアルタイム性能、低遅延が重要 Amazon EC2 インスタンスの選択指針(推論ワークロード) • 全ての機械学習ワークロードに対してベストとなるインスタンスの選択肢は存在しない • 可⽤性向上を⽬的とした複数種類のインスタンス利⽤も視野に CPUインスタンス CPUインスタンス +Elastic Inference GPUインスタンス F1インスタンス Inf1インスタンス
  • 11. © 2022, Amazon Web Services, Inc. or its affiliates. 学習ワークロードの要件 • ⼩規模モデルで性能要件は低め • NVIDIA社のGPU対応ライブラリ、 エコシステムを活⽤ • 開発容易性が重要 • 中⼤規模モデル • 複数GPUを利⽤ • ⼩中規模モデル • 単⼀GPUを利⽤ • コストパフォーマンス最適化が重 要 • GPUインスタンスに選択肢を追加、 プロダクション時の可⽤性を向上 • PyTorch, TensorFlowフレーム ワークを利⽤ • 中⼤規模モデル • 複数インスタンスの利⽤も 視野に • ⼩中規模モデル Amazon EC2 インスタンスの選択指針(学習ワークロード) CPU インスタンス GPU インスタンス (p3.8/16xlarge, p3dn.24xlarge p4d.24xlarge g5.12/24/48xlarge) GPU インスタンス (p3.2xlarge, g5.xlarge ~ 16xlarge) DL1 インスタンス (dl1.24xlarge) Trn1 インスタンス (trn1.32xlarge) Trn1 インスタンス (trn1.2xlarge) • 全ての機械学習ワークロードに対してベストとなるインスタンスの選択肢は存在しない • 可⽤性向上を⽬的とした複数種類のインスタンス利⽤も視野に
  • 12. © 2022, Amazon Web Services, Inc. or its affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. AWS 専⽤チップによるコスパ最適化
  • 13. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark. AWS におけるシリコンイノベーション re:Invent 2016 re:Invent 2017 re:Invent 2018 re:Invent 2019
  • 14. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark. AWS におけるシリコンイノベーション re:Invent 2021 re:Invent 2020
  • 15. © 2022, Amazon Web Services, Inc. or its affiliates. AWS 独⾃設計 ML チップ搭載インスタンス Amazon EC2 Inf1 Amazon EC2 Trn1 AWS Inferentia によるML推論の最適化 G4インスタンスと比較し最大 2.3倍のスルー プット向上、推論処理当たり最大 70%低価格 を実現 AWS Trainium によるML学習の最適化 GPUインスタンスと比較し最大 50%低価格 を実現 2022年10⽉10⽇⼀般提供開始
  • 16. © 2022, Amazon Web Services, Inc. or its affiliates. Amazon EC2 Inf1 インスタンス • 機械学習の推論を⾼性能かつ低価格で実⾏するための インスタンス • AWS が独⾃設計した機械学習推論チップ AWS Inferentia を搭載 • クラウド上で深層学習モデルを実⾏する上で最も低価 格を実現 • GPUインスタンスと⽐較し最⼤2.3倍のスループット 向上、推論処理当たり最⼤70%低価格 • ソフトウェアは主要な機械学習フレームワーク (TensorFlow, PyTorch, MXNet)とシームレスに統合、 最⼩限のコード変更のみですぐに利⽤開始可能 EC2 Inf1インスタンス クラウド上で高速かつ低価格な 推論を実現 https://aws.amazon.com/ec2/instance-types/inf1/
  • 17. © 2022, Amazon Web Services, Inc. or its affiliates. Amazon EC2 Inf1 インスタンス • 4つのインスタンスサイズから選択可能 • インスタンス毎に1~16個の Inferentia 推論チップを搭載 • 6xlarge、24xlargeでは複数の Inferentia チップを⾼速チップ間通信で接続 • 最⼤ 100Gbps のネットワークインタフェース • 2022年10⽉現在、東京を含む23のリージョンにて利⽤可能 • 他のEC2同様、複数の⽀払いオプションを⽤意 • オンデマンド、リザーブドインスタンス、スポットインスタンス、Savings Plans インスタンスサイズ Inferentia vCPU メモリ (GiB) ストレージ EBS帯域 (Gbps) NW帯域 (Gbps) オンデマンド価格 (USD/時間) inf1.xlarge 1 4 8 EBS Only 最⼤ 3.5 最⼤ 25 0.228 inf1.2xlarge 1 8 16 EBS Only 最⼤ 3.5 最⼤ 25 0.362 inf1.6xlarge 4 24 48 EBS Only 3.5 25 1.18 inf1.24xlarge 16 96 192 EBS Only 19 100 4.721 *2022年10⽉時点の⽶国東部 (バージニア北部)の価格
  • 18. © 2022, Amazon Web Services, Inc. or its affiliates. AWS Inferentia • AWS による独⾃設計 ML 推論チップ • 4 Neuron コア / チップ • Tensor エンジン︓畳み込み等、⾏列演算に最適化 • Scalar エンジン︓ReLU等の活性化関数に最適化 • Vector エンジン︓Batch Normalization や Pooling 処理に最適化 • チップ当たり最⼤128 TOPS (2,000 TOPS @24xlarge) • 2ステージ メモリハイアラーキー • ⼤容量オンチップ キャッシュと 8GB DRAMメモリ • FP16, BF16, INT8 データタイプをサポート • FP32で構築された学習モデルをBF16で実⾏可能 • NeuronLink ⾼速チップ間通信 https://aws.amazon.com/machine-learning/inferentia/
  • 19. © 2022, Amazon Web Services, Inc. or its affiliates. 最新G5インスタンスと⽐較し、最⼤68%の低コストを実現 $0.000 $0.150 $0.300 $0.450 G4dn.xl G5.xl Inf1.xl Bert-Large $0.000 $0.300 $0.600 $0.900 G4dn.xl G5.xl Inf1.xl Yolov5 $0.000 $0.025 $0.050 $0.075 G4dn.xl G5.xl Inf1.xl Resnet50 $0.000 $0.100 $0.200 $0.300 G4dn.xl G5.xl Inf1.xl Bert-Base -64% -42% -49% -68% Bert-Large Bert-Base Yolov5 Resnet50 1M 推論当たりのコスト (USD) *G4dn: NVIDIA T4 GPU 搭載 G5: NVIDIA A10G GPU 搭載
  • 20. © 2022, Amazon Web Services, Inc. or its affiliates. 0 400 800 1200 inf1.xl G5.xl g4dn.xl Bert-Base ⾼性能と低コストを両⽴ $0.000 $0.100 $0.200 $0.300 G4dn.xl G5.xl Inf1.xl Bert-Base -68% Cost / Million Inferences G4 と⽐較し、2.74倍のスループット G5 と⽐較し、24% ⾼いスループットを実現 Throughput (seq/sec) G4 と⽐較し、84% の低コスト G5 と⽐較し、68% の低コストを実現 -24% 1M 推論当たりのコスト (USD) *G4dn: NVIDIA T4 GPU 搭載 G5: NVIDIA A10G GPU 搭載 スループット (seq/sec)
  • 21. © 2022, Amazon Web Services, Inc. or its affiliates. AWS Neuron • Inferentia上での⾼性能推論を実現するためのSDK Neuron コンパイラ Neuron ランタイム プロファイリングツール 主要なフレームワークを全てサポート 各フレームワーク、Neuron SDKは DLAMI (AWS Deep Learning AMI)に プリインストール https://github.com/aws-neuron/aws-neuron-samples https://awsdocs-neuron.readthedocs-hosted.com AWS Neuron SDK ドキュメント サンプルコード
  • 22. © 2022, Amazon Web Services, Inc. or its affiliates. AWS Neuron コンパイラ • わずか数⾏のコードの変更のみで、事前学習済みモデルをInferentiaチップ向け にコンパイル可能
  • 23. © 2022, Amazon Web Services, Inc. or its affiliates. 様々なお客様でコストパフォーマンス最適化を実現 https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials Hotpot.ai Amazon Rekognition
  • 24. © 2022, Amazon Web Services, Inc. or its affiliates. Amazon内での Inf1 活用事例 Amazon Alexa 実際の⼈間の会話のような⾃然な⾳声を⽣成する⾮常に複雑な⾳声合成 モデルを導⼊しており、全世界で1億台以上の Alexa デバイスをサポー トしています。Inf1インスタンスにより、GPUインスタンスと⽐較して 運⽤コストを約30%削減し、推論レイテンシを25%改善することがで きました Amazon Robotics 私たちのシステムは 2022 年に 1,000 台以上の SageMaker ホストを使 ⽤する予定です。AWS Inferentia は、私たちの機械学習モデルを再ト レーニングすることなく、35% 低いコストと 20% ⾼いスループット で、急速に増加するトラフィックに対応する機会を与えてくれます」 Amazon Prime Video EC2 Inf1 インスタンスに画像分類機械学習モデルをデプロイしたところ、 パフォーマンスが 4 倍向上し、コストも最⼤ 40% 削減することができ ました。
  • 25. © 2022, Amazon Web Services, Inc. or its affiliates. ⽇本国内のお客様の声 Money Forward, Inc. 「当社の AI チャットボットサービスを Amazon EC2 Inf1 イン スタンスに移⾏するのは簡単でした。2 か⽉以内に移⾏を完了し、 Amazon Elastic Container Service(ECS)を使⽤して AWS Inf1 インスタンスで⼤規模なサービスを開始しました。Inf1 イ ンスタンスあたり複数のモデルを提供することで、 (同等の GPU ベースのインスタンスに⽐べて) 推論レイテンシを 97% 削減し、 推論コストを 50% 以上削減できました。」 https://aws.amazon.com/jp/builders-flash/202209/create-large-scale-inference-environment/
  • 26. © 2022, Amazon Web Services, Inc. or its affiliates. 2022年10⽉10⽇ EC2 Trn1 インスタンス⼀般提供開始
  • 27. © 2022, Amazon Web Services, Inc. or its affiliates. Amazon EC2 Trn1 インスタンス • AWSによってカスタム設計された⾼性能機械学習トレーニング チップ AWS Trainium を搭載したインスタンス • 最も費⽤効果の⾼いMLトレーニング性能を実現 • GPUインスタンスと⽐較し最⼤ 50%低価格を実現 • 最⼤16個の AWS Trainium アクセラレータ、512GB の⾼速 HBM2メモリ、8TB のローカル NVMe SSDを搭載 • 最⼤800Gbps の Elastic Fabric Adapter (EFA) ネットワーク帯域 • Trainium 間は超⾼速 NeuronLink で接続 • Tensorflow、PyTorchなど主要MLフレームワークをサポート • Trn1上で学習し、デプロイ先は⾃由 インスタンスサイズ Trainium アクセラレータ メモリ (GB) vCPU メモリ (GB) NVMe SSD (TB) EBS帯域 (Gbps) NW帯域 (Gbps) オンデマンド価格 (USD/時間) Trn1.2xlarge 1 32 8 32 0.5 最⼤ 20 最⼤ 12.5 1.34 Trn1.32xlarge 16 512 128 512 8 80 800 21.50 https://aws.amazon.com/jp/ec2/instance-types/trn1/ *2022年10⽉時点の⽶国東部 (バージニア北部)の価格
  • 28. © 2022, Amazon Web Services, Inc. or its affiliates. AWS Trainium • AWS による第2世代 独⾃設計 ML トレーニングチップ • 2 Neuronコア / チップ • Tensor エンジン︓畳み込み等、⾏列演算に最適化 • Scalar エンジン︓RELU等の活性化関数に最適化 • Vector エンジン︓Batch Normalizationやプーリング処理に最適化 • 組込型汎⽤DSP︓カスタムオペレータに対応 • 専⽤ collective compute エンジン • 分散学習を⾏う際に、演算と通信をオーバーラップ • 32GB HBM2E メモリスタック • FP32, TF32, FP16, BF16, INT8 データタイプをサポート • Configurable FP8、 Stochastic roundingにハードウェアで 対応 https://aws.amazon.com/machine-learning/trainium/
  • 29. © 2022, Amazon Web Services, Inc. or its affiliates. 対応するデータタイプと性能⽐ FP32 P R E C I S I O N R A N G E S TF32 BF16 FP16 cFP8 UINT8 0 1 2 3 4 BF16/FP16 TF32 FP32 Normalized Performance P3dn P4d Trn1 デ ー タ タ イ プ ご と の 性 能 ( T F L O P S ) ⽐ NLP/DLRM Computer vision >5x >2.5x 1.4x *P3dn: NVIDIA V100 GPU 搭載 P4d: NVIDIA A100 GPU 搭載 性 能 ( T F L O P S ) ⽐
  • 30. © 2022, Amazon Web Services, Inc. or its affiliates. Petabits/s throughput, billions of IOPS Trn1 30K+ Trainium Chips Trn1 Trn1 Trn1 Trn1 Trn1 Trn1 Trn1 EC2 UltraClusters Petabit non- blocking TOR 超⼤型モデルのための UltraCluster スケールアウト • EC2 UltraClusterごとに3万以上のTrainiumアクセラレータを搭載 6.3 ExaFLOPS の演算性能を持つ世界最⾼⽔準の スーパーコンピュータへのオンデマンドアクセス
  • 31. © 2022, Amazon Web Services, Inc. or its affiliates. Stochastic rounding (確率的な丸め処理) • Round nearest even (標準的な丸め処理の⼿法) • 端数は四捨五⼊ • 例)整数1に対して0.2を何度加えても結果は変わらない • Stochastic rounding (確率的な丸め処理) • 例)整数1に0.2を加える場合、80%の確率で1、20%の確率で2として丸め処理 実行例)BERT-Large pre-training BF16 SRでは FP32 と同様の精度を維持 BF16 SRでは BF16 RNE と同様のスピードを達成 精度 (Loss) スループット
  • 32. © 2022, Amazon Web Services, Inc. or its affiliates. AWS Neuron • Trainium 上での⾼性能MLトレーニングを実現するためのSDK https://github.com/aws-neuron/aws-neuron-samples https://awsdocs-neuron.readthedocs-hosted.com AWS Neuron SDK ドキュメント サンプルコード 主要なフレームワークを全てサポート Neuron コンパイラ Neuron ランタイム プロファイリングツール
  • 33. © 2022, Amazon Web Services, Inc. or its affiliates. Example: BERT-Large pre-training • Bring your own model
  • 34. © 2022, Amazon Web Services, Inc. or its affiliates. Example: BERT-Large pre-training • Bring your own model • JIT-compile to Trainium
  • 35. © 2022, Amazon Web Services, Inc. or its affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. Live Demo !!
  • 36. © 2022, Amazon Web Services, Inc. or its affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. 参考情報
  • 37. © 2022, Amazon Web Services, Inc. or its affiliates. 参考情報 https://aws.amazon.com/jp/ec2/instance-types/inf1/ https://aws.amazon.com/jp/machine-learning/inferentia/ https://aws.amazon.com/jp/ec2/instance-types/trn1/ https://aws.amazon.com/jp/machine-learning/trainium/ https://awsdocs-neuron.readthedocs-hosted.com/
  • 38. © 2022, Amazon Web Services, Inc. or its affiliates. 参考情報 – AWS ブログ https://aws.amazon.com/jp/blogs/news/aws-trainium-amazon-ec2-trn1-ml-training-part1/ https://aws.amazon.com/jp/builders-flash/202209/create-large-scale-inference-environment/ https://aws.amazon.com/jp/solutions/case-studies/amazon-robotics-case-study/ https://aws.amazon.com/jp/blogs/machine-learning/how-amazon-search-reduced-ml-inference-costs-by-85-with-aws-inferentia/ https://aws.amazon.com/jp/solutions/case-studies/finchcomputing-case-study/ https://aws.amazon.com/jp/blogs/news/inference-environment-using-aws-inferentia-and-amazon-ecs-with-aws-cdk-part1/ https://aws.amazon.com/jp/blogs/news/inference-environment-using-aws-inferentia-and-amazon-ecs-with-aws-cdk-part2/ https://medium.com/pytorch/democratizing-gpr-ground-penetrating-radar-with-deep-learning-feddd9d2286d
  • 39. © 2022, Amazon Web Services, Inc. or its affiliates. 参考情報 – AWS ブログ https://aws.amazon.com/jp/blogs/news/how-infojobs-adevinta-improves-nlp-model-prediction-performance-with-aws-inferentia-and-amazon-sagemaker/ https://aws.amazon.com/jp/blogs/startup/event-report-deep-learning-accelerator-instances/ https://aws.amazon.com/jp/blogs/news/ec2-event-nttpc-anymotion-inf1-costperformance-optimization/ https://aws.amazon.com/jp/blogs/news/choose-the-best-ai-accelerator-and-model-compilation-for-computer-vision-inference-with-amazon-sagemaker/ https://aws.amazon.com/jp/blogs/news/serve-3000-deep-learning-models-on-amazon-eks-with-aws-inferentia-for-under-50-an-hour/ https://aws.amazon.com/jp/blogs/news/scaling-ad-verification-with-machine-learning-and-aws-inferentia/ https://aws.amazon.com/jp/blogs/news/achieve-12x-higher-throughput-and-lowest-latency-for-pytorch-natural-language-processing-applications-out-of- the-box-on-aws-inferentia/