SlideShare a Scribd company logo
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
1
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Nova팀이 선택한
Amazon SageMaker HyperPod 활용하기
임연욱
솔루션즈 아키텍트, AWS
조소현
솔루션즈 아키텍트, AWS
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
2
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
3
대규모 모델
트레이닝
모델
양자화
모델
검증
고객
유스케이스
다양한 지식
Amazon Data
Premier Pro
Lite Micro Lite
Fine Tuning
Nova
Teacher FM
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
4
Inception
ResNet-50
ResNext-101
BERT
GPT-2
Megatron-LM
Baidu-RecSys-2T
Baidu-RecSys-10T
Turing-NGL
GPT-3
PaLM
GPT-4
Llama 3.1
Nvidia P100 (12GB)
TPUv2 (8GB)
Nvidia V100 (32GB)
TPUv3 (16GB) Nvidia A100
(40GB)
TPUv4 (32GB)
Nvidia H100 (80GB)
TRN1 (32GB)
TPUv5 (95GB)
TRN2 (96GB)
1M
100M
10B
1T
100T
2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025
PARAMETERS
Models
Accelerators
Memory
Wall
Memory Wall (https://ayarlabs.com/glossary/memory-wall/)
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
5
Memory Wall을 넘어서
개별 레이어들을
가속기들 간에 분할함
Wide layer (MLP) 또는
계산 비용이 큰 레이어
(Attention layer)
Tensor parallelism
여러 가속기에 걸쳐
레이어 그룹들을
파이프라인 방식으로 처리
심층 모델
Pipeline parallelism
모델이 단일 GPU에
탑재 가능한 상황
Single accelerator
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
6
Memory Wall을 넘어서
Replica 1 Replica 2 Replica 3 Replica 4
데이터가 분할된 다수의 모델 복제본
Data parallelism
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
7
피할 수 없는 엔트로피의 법칙
수만 개의 가속기 수천 대의
서버
3-4개월
연속 운영
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
8
수천 개의 AI 가속기에서
생성형 AI 모델 개발을 확장하고 가속화하는
최고의 선택
Amazon SageMaker
HyperPod
− 컴퓨팅 리소스 활용 극대화
− 규모에 맞게 설계됨
− 모델 학습 시간 40% 단축
− 탄력적인 환경
− 관찰 가능성 및 제어 향상
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
9
HyperPod 클러스터 구성
.py
.py
.py
.sh
.sh
.sh
Service
Lifecycle Scripts
Compute Nodes
Controller node
Login nodes
.
.
.
..
..
..
.. .. .. ..
.. .. .. ..
.. .. .. ..
..
..
..
..
Lifecycle
scripts
.
.
LCS
.
.
LCS
Instance Groups
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
10
SageMaker HyperPod 아키텍처
Customer Account
Engineers &
Researchers
FSxL
Datasets &
checkpoints
Endpoint
AWS Cloud
Service
Compute Nodes
Head
Node
jobs,
ssh
ssh
Login
Node
Admin &
Ops
AWS IAM
Identity Center
Amazon
Managed
Grafana
Amazon
Managed Service
for Prometheus
DCGM_exporter
EFA_node_exporter
awscli, AWS console
ssh via ssm
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
11
Nova팀이 HyperPod를 선택한 이유
2. 운영 관리 용이성
3. 유연하고 확장성 있는 학습 환경
1. 높은 회복 탄력성
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
12
이유 1. 높은 회복 탄력성
체크포인트
생성
복원 체크포인트
생성
노드
장애
인스턴스
복원
자동 노드 교체
트레이닝
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
13
클러스터에 문제가 생겼을 때
Compute Nodes
A A A A
A A A A
… … … …
… … … …
소프트웨어 스택이나 파라미터
문제인가요?
인스턴스에 이슈가
생긴 건가요?
프로젝트 결과물을
날리게 되나요?
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
14
직접 해결을 해야 한다면…
사용자
작업 큐
A
A
A
A
A
Training
job 제출 실행
Exit
Code
완료
성공
실패
에러
사용자
디버깅
모델
이슈
트러블슈팅
재제출,
체크포인트부터
재시작
yes
노드 이슈
조사
no
관리자
인스턴스 복원
또는 교체
수시간에서 수일 소요
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
15
작업 실패 시 자동 복구 로직
Compute Nodes
A A A A
A A A A
A
B B
B B
B
C
C C
C C
실패 원인
소프트웨어
잘못된 구성,
모델/코드 이슈
네트워크, 가속기,
인프라…
하드웨어
× 전체 작업 유실
× 유휴 자산 확보
× 시간 (디버깅, 체크포인팅, 운영)
Fix 및 할당
업데이트
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
16
이유 2. 운영 관리 용이성
동적 리소스 할당 유휴 자원 활용 작업 대기 시간 단축 실시간 작업
우선순위 조정
실시간
관측용이성
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
18
리소스 할당 관리: Task Governance 동작 방식
관리자
P4 인스턴스 50개 할당
Team 2
P5 인스턴스 100개 할당
Team 1
T1 T2
클러스터 Queue
T3 T4 T5
클러스터 Queue
공유된 HyperPod 클러스터
T7
동적 할당
유휴 컴퓨팅 사용량
선점
클러스터 정책
T6
클러스트 정책
작업 유형별
우선순위 정책
유휴 컴퓨팅 자원의
공정한 할당
보장된 컴퓨팅
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
19
리소스 할당 자동화: Training plans
Today
(12/5)
Segment 1
10 instances
7 days
Segment 2
10 instances
7 days
“12월 10일부터 14일간 ml.p5.48xlarge 10개의 인스턴스로 Training Plans을 생성”
12/10 12/16 12/20 12/26
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
20
뛰어난 관찰 가능성 (Observability)
HyperPod
cluster
Compute Nodes
Job queue
Accelerator 관찰성
클러스터 관찰성
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
21
HyperPod on EKS 관찰성
A M A Z O N C L O U D W A T C H C O N T A I N E R I N S I G H T S
SageMaker HyperPod EKS cluster node
LLM 또는 ML 모델 Pod
모델
컨테이너
Amazon
CloudWatch
Container
Insights
Fluent Bit
daemon set
CloudWatch
daemon set
CloudWatch 대시보드
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
22
이유 3. 유연하고 확장성 있는 학습 환경
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
23
최적화를 위한 유연한 선택지
FSxL
S3 EFS EFA
COMPUTE NETWORKING
STORAGE
JOB SUBMISSION
MLOPS
OBSERVABILITY DEV, TRAINING AND TUNING
Prometheus CloudWatch
Grafana
Amazon EKS Slurm
DLAMI DL Containers
DEVICE DRIVERS TOOLKITS
PREBUILT IMAGES
Lifecycle Scripts
FRAMEWORKS
Helm Charts
DeepSpeed
SMP
SMDDP
FSDP
DDP MegatronLM
DISTRIBUTED TRAINING STRATEGIES
Weights & Biases MLFlow
KubeFlow
Studio Kubeflow Notebooks
Ray Run.ai Kubectl Composer
Pytorch TensorFlow JAX
CUDA DCGM EFA Driver
NCCL Python
오케스트레이션
툴
학습 라이브러리
소프트웨어 &
드라이버
하드웨어
trn1.32xlarge p5.48xlarge p4de.24xlarge g5.48xlarge g6e.48xlarge
p5e.48xlarge
trn2.48xlarge
NEMO
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
24
구성 템플릿: Recipes
런처 및 레시피 컬렉션을 포함하는 오픈 소스
NeMo 기반 (Launcher, Configuration 구조)
다양한 구성의 30개 이상의 레시피
SageMaker optimized
models (GPU)
AWS Neuron optimized
models (Trainium)
Native NeMo models Custom models
L L M 사 전 학 습 및 파 인 튜 닝 을 위 한 최 적 화 된 구 성 템 플 릿
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
25
HyperPod Recipes 동작 방식
작 업 제 출 워 크 플 로 우
https://github.com/aws/sagemaker-hyperpod-recipes
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
27
AWS GPU에 최적화된 ML 소프트웨어 스택 구성
• DLAMI (Deep Learning AMI) 에서 기본 제공
• On-AMI 학습 작업
• 컨테이너 기반 학습 작업
성능 최적화를 위한 ML 소프트웨어 제공
유용한 Toolkits
• SageMaker Model Paralle (SMP) https://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/model-parallel-v2.html
• SageMaker Data Parallel (SMDDP) https://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/data-parallel-intro.html
• SageMaker Profiler https://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/train-use-sagemaker-profiler.html
• Nvidia Profiler https://docs.nvidia.com/cuda/profiler-users-guide/
• PyTorch profiler https://pytorch.org/tutorials/recipes/recipes/profiler_recipe.html
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
28
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
29
핵심 정리
인프라 관리에
소요되는 시간 절감
HyperPod의 장애
복원력
선택의 유연성 비용 절감
최신 하드웨어 접근성 상세 상태 점검
조직에 맞는 도구
선택의 유연성
활용도 극대화
클러스터 설정 및
확장 용이성
장애 자동 감지,
자가 복구 클러스터
커스터마이징 가능한
클러스터
분산 학습
라이브러리로 빠른
시작 가능
수천 개 가속기까지
확장 가능
운영자 개입 없이
작업 자동 재개
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS DATA & AI ROADSHOW 2025
30
Thank you!
© 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.

More Related Content

PDF
개발자들이 직접 선정한 re:Invent 2019 상위 12 신규 서비스 알아보기 - 윤석찬 (AWS 테크에반젤리스트)
PDF
AWS의 비용 효율적 고성능기계학습(ML) 플랫폼 뛰어들기 - 윤석찬 수석 테크 에반젤리스트, AWS :: AWS Innovate 2019
PDF
[금융 고객을 위한 re:Invent 2023 re:Cap Event] 04_금융사가 알아야 할 reInvent 20...
PDF
[제 3 회 | 금융 고객을 위한 re:Invent 2024 re:Cap Event] 3_성공적인 2025년을 위해 금융사가 알아야 할 r...
PDF
Amazon SageMaker 모델 빌딩 파이프라인 소개::이유동, AI/ML 스페셜리스트 솔루션즈 아키텍트, AWS::AWS AIML 스...
PDF
[AWS Innovate 온라인 컨퍼런스] 수백만 사용자 대상 기계 학습 서비스를 위한 확장 비법 - 윤석찬, AWS 테크 에반젤리스트
PDF
개발자를 위한 AWS re:Invent 신규 서비스 - 윤석찬 (AWS수석테크에반젤리스트) :: AWS Community Day 2020
PDF
[E-commerce & Retail Day] 인공지능서비스 활용방안
개발자들이 직접 선정한 re:Invent 2019 상위 12 신규 서비스 알아보기 - 윤석찬 (AWS 테크에반젤리스트)
AWS의 비용 효율적 고성능기계학습(ML) 플랫폼 뛰어들기 - 윤석찬 수석 테크 에반젤리스트, AWS :: AWS Innovate 2019
[금융 고객을 위한 re:Invent 2023 re:Cap Event] 04_금융사가 알아야 할 reInvent 20...
[제 3 회 | 금융 고객을 위한 re:Invent 2024 re:Cap Event] 3_성공적인 2025년을 위해 금융사가 알아야 할 r...
Amazon SageMaker 모델 빌딩 파이프라인 소개::이유동, AI/ML 스페셜리스트 솔루션즈 아키텍트, AWS::AWS AIML 스...
[AWS Innovate 온라인 컨퍼런스] 수백만 사용자 대상 기계 학습 서비스를 위한 확장 비법 - 윤석찬, AWS 테크 에반젤리스트
개발자를 위한 AWS re:Invent 신규 서비스 - 윤석찬 (AWS수석테크에반젤리스트) :: AWS Community Day 2020
[E-commerce & Retail Day] 인공지능서비스 활용방안

Similar to [25D2S09]_Amazon Nova팀이 선택한 Amazon SageMaker HyperPod 활용하기.pdf (20)

PDF
VUCA 시대의 디지털 네이티브 리더가 알아야할 AWS의 기술 ::: AWS ExecLeaders Korea 2023
PPTX
제조업의 AI/ML 고객 사례::남궁영환::AWS Summit Seoul 2018
PDF
Starup을 위한 AWS AI/ML 서비스 활용 방법
PDF
개발자를 위한 클라우드 기술 트렌드- 윤석찬, AWS 테크에반젤리스트 :: Hello T 개발자 컨퍼런스
PDF
AWS re:Invent 2018를 통해 본 개발자들이 원하는 4가지 클라우드 동향 :: 윤석찬 - AWS Community Day 2019
PDF
AWS re:Invent 특집(3) – Amazon 인공 지능(AI) 서비스 및 AWS 딥러닝 프레임웍 활용 (윤석찬)
PDF
판교 개발자 데이 – AWS 인공지능 서비스를 활용하여 스마트 애플리케이션 개발하기 – 박철수
PDF
딥러닝 서비스에 쓰이는 GPU 인스턴스 비용 효율을 위한 스팟(Spot) 활용기 - 손은주, 매스프레소 :: AWS DevDay 2018
PDF
아마존은 반도체를 어떻게 설계하는가? -LS 산전 HPC 적용 사례와 함께 - 이현석 사업 개발 담당 이사, AWS / 유성열 책임 연구원...
PDF
[2017 AWS Startup Day] 스타트업이 인공지능을 만날 때 : 딥러닝 활용사례와 아키텍쳐
PDF
소프트웨어 지능화를 돕는 AWS AI 서비스 소개 (남궁영환 AI/ML 솔루션즈 아키텍트) :: AWS TechShift 2018
PDF
KOR201 - A brief overview of new launches for Korean customers, Channy Yun -...
PDF
데이터 과학자를 위한 신규 인공지능 서비스 - 김대근, 이유동, AWS AI/ML 스페셜리스트 솔루션즈 아키텍트 / 소성운, 카카오스타일 ...
PDF
Amazon SageMaker 오버뷰 - 강성문, AWS AI/ML 스페셜리스트 :: AIML 특집 웨비나
PDF
AWS CLOUD 2018- Amazon DeepLens와 컴퓨터 비전 딥러닝 어플리케이션 활용 (강정희 솔루션즈 아키텍트)
PDF
[금융고객을 위한 AWS re:Invent 2022 re:Cap] 3.AWS reInvent 2022 Technical Highlights...
PDF
모두의 클라우드 딥러닝
PDF
[25D2S02]_Amazon Q Developer 로 AI기반 데이터 통합과 거버넌스 구축하기.pdf
PDF
[25D2S04]_Amazon Nova와 Bedrock을 활용한 멀티모달 에이전트 기반 비즈ᄂ...
PDF
클라우드 기술 동향과 인공 지능 서비스의 미래 - 윤석찬, AWS 테크에반젤리스트
VUCA 시대의 디지털 네이티브 리더가 알아야할 AWS의 기술 ::: AWS ExecLeaders Korea 2023
제조업의 AI/ML 고객 사례::남궁영환::AWS Summit Seoul 2018
Starup을 위한 AWS AI/ML 서비스 활용 방법
개발자를 위한 클라우드 기술 트렌드- 윤석찬, AWS 테크에반젤리스트 :: Hello T 개발자 컨퍼런스
AWS re:Invent 2018를 통해 본 개발자들이 원하는 4가지 클라우드 동향 :: 윤석찬 - AWS Community Day 2019
AWS re:Invent 특집(3) – Amazon 인공 지능(AI) 서비스 및 AWS 딥러닝 프레임웍 활용 (윤석찬)
판교 개발자 데이 – AWS 인공지능 서비스를 활용하여 스마트 애플리케이션 개발하기 – 박철수
딥러닝 서비스에 쓰이는 GPU 인스턴스 비용 효율을 위한 스팟(Spot) 활용기 - 손은주, 매스프레소 :: AWS DevDay 2018
아마존은 반도체를 어떻게 설계하는가? -LS 산전 HPC 적용 사례와 함께 - 이현석 사업 개발 담당 이사, AWS / 유성열 책임 연구원...
[2017 AWS Startup Day] 스타트업이 인공지능을 만날 때 : 딥러닝 활용사례와 아키텍쳐
소프트웨어 지능화를 돕는 AWS AI 서비스 소개 (남궁영환 AI/ML 솔루션즈 아키텍트) :: AWS TechShift 2018
KOR201 - A brief overview of new launches for Korean customers, Channy Yun -...
데이터 과학자를 위한 신규 인공지능 서비스 - 김대근, 이유동, AWS AI/ML 스페셜리스트 솔루션즈 아키텍트 / 소성운, 카카오스타일 ...
Amazon SageMaker 오버뷰 - 강성문, AWS AI/ML 스페셜리스트 :: AIML 특집 웨비나
AWS CLOUD 2018- Amazon DeepLens와 컴퓨터 비전 딥러닝 어플리케이션 활용 (강정희 솔루션즈 아키텍트)
[금융고객을 위한 AWS re:Invent 2022 re:Cap] 3.AWS reInvent 2022 Technical Highlights...
모두의 클라우드 딥러닝
[25D2S02]_Amazon Q Developer 로 AI기반 데이터 통합과 거버넌스 구축하기.pdf
[25D2S04]_Amazon Nova와 Bedrock을 활용한 멀티모달 에이전트 기반 비즈ᄂ...
클라우드 기술 동향과 인공 지능 서비스의 미래 - 윤석찬, AWS 테크에반젤리스트
Ad

More from Amazon Web Services (8)

PDF
[25D3T2S07]_What's new_MySQL 8.4의 변화.pdf
PDF
[25D2S07]_Amazon Nova를 이용해 향샹된 RAG 활용하기.pdf
PDF
[25D2S03]_Amazon Bedrock 신규 이미지·영상 생성 모델 - 개발자를 위한 ...
PDF
[25D2S05]_AGI 의 현실화 - Amazon Bedrock에서 Claude의 Computer Use 기능 타...
PDF
[25D2S08]_Amazon Bedrock과 SageMaker를 이용한 LLM 파인튜닝 및 커스터마ᄋ...
PDF
[25D2S06]_Amazon Bedrock으로 구현하는 멀티모달 데이터 자동화와 비정형 ...
PDF
[25D2S10]_생성형 AI를 가속화하기 위한 데이터 기반 구축.pdf
PDF
[D2T2S04] SageMaker를 활용한 Generative AI Foundation Model Training and Tuning
[25D3T2S07]_What's new_MySQL 8.4의 변화.pdf
[25D2S07]_Amazon Nova를 이용해 향샹된 RAG 활용하기.pdf
[25D2S03]_Amazon Bedrock 신규 이미지·영상 생성 모델 - 개발자를 위한 ...
[25D2S05]_AGI 의 현실화 - Amazon Bedrock에서 Claude의 Computer Use 기능 타...
[25D2S08]_Amazon Bedrock과 SageMaker를 이용한 LLM 파인튜닝 및 커스터마ᄋ...
[25D2S06]_Amazon Bedrock으로 구현하는 멀티모달 데이터 자동화와 비정형 ...
[25D2S10]_생성형 AI를 가속화하기 위한 데이터 기반 구축.pdf
[D2T2S04] SageMaker를 활용한 Generative AI Foundation Model Training and Tuning
Ad

[25D2S09]_Amazon Nova팀이 선택한 Amazon SageMaker HyperPod 활용하기.pdf

  • 1. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 1 © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Nova팀이 선택한 Amazon SageMaker HyperPod 활용하기 임연욱 솔루션즈 아키텍트, AWS 조소현 솔루션즈 아키텍트, AWS
  • 2. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 2
  • 3. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 3 대규모 모델 트레이닝 모델 양자화 모델 검증 고객 유스케이스 다양한 지식 Amazon Data Premier Pro Lite Micro Lite Fine Tuning Nova Teacher FM
  • 4. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 4 Inception ResNet-50 ResNext-101 BERT GPT-2 Megatron-LM Baidu-RecSys-2T Baidu-RecSys-10T Turing-NGL GPT-3 PaLM GPT-4 Llama 3.1 Nvidia P100 (12GB) TPUv2 (8GB) Nvidia V100 (32GB) TPUv3 (16GB) Nvidia A100 (40GB) TPUv4 (32GB) Nvidia H100 (80GB) TRN1 (32GB) TPUv5 (95GB) TRN2 (96GB) 1M 100M 10B 1T 100T 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 PARAMETERS Models Accelerators Memory Wall Memory Wall (https://ayarlabs.com/glossary/memory-wall/)
  • 5. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 5 Memory Wall을 넘어서 개별 레이어들을 가속기들 간에 분할함 Wide layer (MLP) 또는 계산 비용이 큰 레이어 (Attention layer) Tensor parallelism 여러 가속기에 걸쳐 레이어 그룹들을 파이프라인 방식으로 처리 심층 모델 Pipeline parallelism 모델이 단일 GPU에 탑재 가능한 상황 Single accelerator
  • 6. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 6 Memory Wall을 넘어서 Replica 1 Replica 2 Replica 3 Replica 4 데이터가 분할된 다수의 모델 복제본 Data parallelism
  • 7. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 7 피할 수 없는 엔트로피의 법칙 수만 개의 가속기 수천 대의 서버 3-4개월 연속 운영
  • 8. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 8 수천 개의 AI 가속기에서 생성형 AI 모델 개발을 확장하고 가속화하는 최고의 선택 Amazon SageMaker HyperPod − 컴퓨팅 리소스 활용 극대화 − 규모에 맞게 설계됨 − 모델 학습 시간 40% 단축 − 탄력적인 환경 − 관찰 가능성 및 제어 향상
  • 9. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 9 HyperPod 클러스터 구성 .py .py .py .sh .sh .sh Service Lifecycle Scripts Compute Nodes Controller node Login nodes . . . .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. Lifecycle scripts . . LCS . . LCS Instance Groups
  • 10. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 10 SageMaker HyperPod 아키텍처 Customer Account Engineers & Researchers FSxL Datasets & checkpoints Endpoint AWS Cloud Service Compute Nodes Head Node jobs, ssh ssh Login Node Admin & Ops AWS IAM Identity Center Amazon Managed Grafana Amazon Managed Service for Prometheus DCGM_exporter EFA_node_exporter awscli, AWS console ssh via ssm
  • 11. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 11 Nova팀이 HyperPod를 선택한 이유 2. 운영 관리 용이성 3. 유연하고 확장성 있는 학습 환경 1. 높은 회복 탄력성
  • 12. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 12 이유 1. 높은 회복 탄력성 체크포인트 생성 복원 체크포인트 생성 노드 장애 인스턴스 복원 자동 노드 교체 트레이닝
  • 13. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 13 클러스터에 문제가 생겼을 때 Compute Nodes A A A A A A A A … … … … … … … … 소프트웨어 스택이나 파라미터 문제인가요? 인스턴스에 이슈가 생긴 건가요? 프로젝트 결과물을 날리게 되나요?
  • 14. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 14 직접 해결을 해야 한다면… 사용자 작업 큐 A A A A A Training job 제출 실행 Exit Code 완료 성공 실패 에러 사용자 디버깅 모델 이슈 트러블슈팅 재제출, 체크포인트부터 재시작 yes 노드 이슈 조사 no 관리자 인스턴스 복원 또는 교체 수시간에서 수일 소요
  • 15. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 15 작업 실패 시 자동 복구 로직 Compute Nodes A A A A A A A A A B B B B B C C C C C 실패 원인 소프트웨어 잘못된 구성, 모델/코드 이슈 네트워크, 가속기, 인프라… 하드웨어 × 전체 작업 유실 × 유휴 자산 확보 × 시간 (디버깅, 체크포인팅, 운영) Fix 및 할당 업데이트
  • 16. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 16 이유 2. 운영 관리 용이성 동적 리소스 할당 유휴 자원 활용 작업 대기 시간 단축 실시간 작업 우선순위 조정 실시간 관측용이성
  • 17. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 18 리소스 할당 관리: Task Governance 동작 방식 관리자 P4 인스턴스 50개 할당 Team 2 P5 인스턴스 100개 할당 Team 1 T1 T2 클러스터 Queue T3 T4 T5 클러스터 Queue 공유된 HyperPod 클러스터 T7 동적 할당 유휴 컴퓨팅 사용량 선점 클러스터 정책 T6 클러스트 정책 작업 유형별 우선순위 정책 유휴 컴퓨팅 자원의 공정한 할당 보장된 컴퓨팅
  • 18. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 19 리소스 할당 자동화: Training plans Today (12/5) Segment 1 10 instances 7 days Segment 2 10 instances 7 days “12월 10일부터 14일간 ml.p5.48xlarge 10개의 인스턴스로 Training Plans을 생성” 12/10 12/16 12/20 12/26
  • 19. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 20 뛰어난 관찰 가능성 (Observability) HyperPod cluster Compute Nodes Job queue Accelerator 관찰성 클러스터 관찰성
  • 20. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 21 HyperPod on EKS 관찰성 A M A Z O N C L O U D W A T C H C O N T A I N E R I N S I G H T S SageMaker HyperPod EKS cluster node LLM 또는 ML 모델 Pod 모델 컨테이너 Amazon CloudWatch Container Insights Fluent Bit daemon set CloudWatch daemon set CloudWatch 대시보드
  • 21. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 22 이유 3. 유연하고 확장성 있는 학습 환경
  • 22. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 23 최적화를 위한 유연한 선택지 FSxL S3 EFS EFA COMPUTE NETWORKING STORAGE JOB SUBMISSION MLOPS OBSERVABILITY DEV, TRAINING AND TUNING Prometheus CloudWatch Grafana Amazon EKS Slurm DLAMI DL Containers DEVICE DRIVERS TOOLKITS PREBUILT IMAGES Lifecycle Scripts FRAMEWORKS Helm Charts DeepSpeed SMP SMDDP FSDP DDP MegatronLM DISTRIBUTED TRAINING STRATEGIES Weights & Biases MLFlow KubeFlow Studio Kubeflow Notebooks Ray Run.ai Kubectl Composer Pytorch TensorFlow JAX CUDA DCGM EFA Driver NCCL Python 오케스트레이션 툴 학습 라이브러리 소프트웨어 & 드라이버 하드웨어 trn1.32xlarge p5.48xlarge p4de.24xlarge g5.48xlarge g6e.48xlarge p5e.48xlarge trn2.48xlarge NEMO
  • 23. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 24 구성 템플릿: Recipes 런처 및 레시피 컬렉션을 포함하는 오픈 소스 NeMo 기반 (Launcher, Configuration 구조) 다양한 구성의 30개 이상의 레시피 SageMaker optimized models (GPU) AWS Neuron optimized models (Trainium) Native NeMo models Custom models L L M 사 전 학 습 및 파 인 튜 닝 을 위 한 최 적 화 된 구 성 템 플 릿
  • 24. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 25 HyperPod Recipes 동작 방식 작 업 제 출 워 크 플 로 우 https://github.com/aws/sagemaker-hyperpod-recipes
  • 25. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 27 AWS GPU에 최적화된 ML 소프트웨어 스택 구성 • DLAMI (Deep Learning AMI) 에서 기본 제공 • On-AMI 학습 작업 • 컨테이너 기반 학습 작업 성능 최적화를 위한 ML 소프트웨어 제공 유용한 Toolkits • SageMaker Model Paralle (SMP) https://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/model-parallel-v2.html • SageMaker Data Parallel (SMDDP) https://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/data-parallel-intro.html • SageMaker Profiler https://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/train-use-sagemaker-profiler.html • Nvidia Profiler https://docs.nvidia.com/cuda/profiler-users-guide/ • PyTorch profiler https://pytorch.org/tutorials/recipes/recipes/profiler_recipe.html
  • 26. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 28
  • 27. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 29 핵심 정리 인프라 관리에 소요되는 시간 절감 HyperPod의 장애 복원력 선택의 유연성 비용 절감 최신 하드웨어 접근성 상세 상태 점검 조직에 맞는 도구 선택의 유연성 활용도 극대화 클러스터 설정 및 확장 용이성 장애 자동 감지, 자가 복구 클러스터 커스터마이징 가능한 클러스터 분산 학습 라이브러리로 빠른 시작 가능 수천 개 가속기까지 확장 가능 운영자 개입 없이 작업 자동 재개
  • 28. © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DATA & AI ROADSHOW 2025 30 Thank you! © 2025 Amazon Web Services, Inc. or its affiliates. All rights reserved.