Amazon Nova 개발 과정에서 사용된 Amazon SageMaker HyperPod의 강력한 성능을 소개합니다. Nova 개발팀이 HyperPod의 클러스터 관리와 작업 스케줄링 시스템을 활용해 파운데이션 모델(FM) 학습의 효율성을 크게 향상시킨 실제 사례를 중심으로 살펴봅니다. 새롭게 발표된 Task Governance와 Training Plans & Recipes 기능으로 리소스 관리와 최적화된 학습 환경을 구성한 방법, EKS 통합 등, SageMaker HyperPod을 통해 1000개 이상의 AI 액셀러레이터로 40% 더 빠른 학습을 달성한 노하우를 공유합니다. 또한 Nova 개발 과정에서 활용된 HyperPod 클러스터 운영과 CloudWatch 기반 모니터링 방법을 통해 대규모 AI 워크로드를 효율적으로 관리하는 방안을 제시합니다.
발표자:
임연욱, Solutions Architect, AWS
조소현, Solutions Architect, AWS