SlideShare a Scribd company logo
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
© 2022, Amazon Web Services, Inc. or its affiliates.
워크로드 특성에 따른
안전하고 효율적인
Data Lake 운영 방안
박성훈
Account Growth Lead
AWS
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Agenda
• Data Lakes 구축의 어려움
• 확장 가능한 S3 Keyspace 설계
• 예기치 않은 사고로부터 데이터 보호
• 비용 최적화
2
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Customers want more value from their data
3
Growing
exponentially
From new
sources
Increasingly
diverse
Used by
many people
Analyzed by many
applications
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Building a Modern Data Strategy
Catalog
Governance
Data
Sources
People,
Apps, and
Devices
Analytics
Machine
Learning Databases
Data
Lakes
4
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
The benefits of scalable data lakes
5
모든 데이터를 오픈 형식으로 저장
스토리지를 컴퓨팅에서 분리
스토리지를 엑사바이트까지 비용 효율적으로 확장
분석 및 ML 엔진 선택
Catalog
Data lake
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Challenges in building data lakes
Challenge #1: Data ingestion
신뢰할 수 있는 데이터 수집
파이프라인을 구축하는 것은
복잡하다 Challenge #2: Data management
S3에 데이터를 저장하고
최적화하는데 시간이 많이 걸린다
Challenge #3: Security & governance
세분화된 권한을 관리는 것이 어렵고 오류가
발생하기 쉽다
Amazon S3 AWS Lake Formation
Data Catalog
AWS Glue ETL
Amazon Athena
Amazon EMR
Amazon Redshift
Spectrum
Amazon
SageMaker
Challenge #5: Data sharing
계정 및 조직 간에 공유하는
것은 복잡하다 6
Challenge #4: Integrations
선택한 서비스나
애플리케이션을 통합하는 것이
어렵다
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
신뢰할 수 있는 데이터 수집
파이프라인을 구축하는 것은
복잡하다
Challenges in building data lakes
Challenge #3: Security & governance
세분화된 권한을 관리는 것이 어렵고 오류가
발생하기 쉽다
Amazon S3 AWS Lake Formation
Data Catalog
AWS Glue ETL
Amazon Athena
Amazon EMR
Amazon Redshift
Spectrum
Amazon
SageMaker
Challenge #5: Data sharing
계정 및 조직 간에 공유하는
것은 번거로운 작업이다 7
Challenge #2: Data management
S3에 데이터를 저장하고
최적화하는데 시간이 많이 걸린다
Challenge #4: Integrations
선택한 서비스나
애플리케이션을 통합하는 것이
어렵다
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
© 2022, Amazon Web Services, Inc. or its affiliates.
확장 가능한
S3 Keyspace 설계
8
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Index Performance Baseline
9
Request Method All Regions
GET/HEAD 5,500
requests per second
PUT/POST/DELETE 3,500
requests per second
• 초당 요청은 인덱스 파티션 당 요청입니다.
• 접두사 수에는 제한이 없습니다.
• 503 Slow Down 오류는 요청 속도를 늦추는 주요 지표입니다.
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Request rates are allocated proportionally
10
Workload
50% PUT and 50% GET
operations in a single partition
Example 1 Total TPS
(50% * 3,500) + (50% * 5,500) =
1,750 + 2,750 =
4,500 TPS Combined
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Request rates are allocated proportionally
11
Workload
50% PUT and 50% GET
operations in a single partition
Example 1 Total TPS
(50% * 3,500) + (50% * 5,500) =
1,750 + 2,750 =
4,500 TPS Combined
Workload
30% PUT and 70% GET
operations in a single partition
Example 2 Total TPS
(30% * 3,500) + (70% * 5,500) =
1,050 + 3,850 =
4,900 TPS Combined
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
How to Increase Requests per Second
• 인덱스를 여러 파티션에 분산
• 인덱스를 분할하는 두 가지 방법
▪ Auto partitioning
➢고객의 개입 없이 S3에서 수행
➢시간이 지남에 따라 S3 워크로드가 점차 증가할 때 잘 동작
▪ Pre-partition request
➢케이스 생성을 통해 지원
➢S3 워크로드가 빠르게 증가할 때 선호
12
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Auto Partitioning At Work
13
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Optimize Partition Use
2018년 7월 이전
• 접두사 앞에 해시 추가
▪ examplebucket/232a-2013-26-05-15-00-00/cust1234234/photo001.jpg
▪ examplebucket/232b-2013-26-05-15-00-00/cust1234234/photo002.jpg
…
▪ examplebucket/292a-2013-26-05-15-00-00/cust1234234/photo099.jpg
• 접두사 앞에 해시를 추가하여 요청이 여러 인덱스 파티션으로 분산
14
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Optimize Partition Use
2018년 7월부터
• Keyspace에 자연명을 사용할 수 있습니다.버킷의 접두사 수에는
제한이 없습니다.
• Keyspace 설계 시, 모든 요청이 동일한 인덱스 파티션에 대해 요청을
수행하는 시나리오를 방지해야 합니다.
• 워크로드가 여러 인덱스 파티션에 걸쳐 잘 분산될 수 있는 높은
카디널리티 접두사를 사용하는 것이 중요합니다.
15
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Example: Autonomous vehicles
1. 많은 계측 자동차가 중앙에 위치하고 있습니다.
2. 매일 그 자동차들은 운전을 하고 많은 데이터를
수집합니다.
3. 거의 동시에 차고지로 돌아와서 수집한 데이터를
데이터 레이크에 업로드 합니다.
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Example: Autonomous vehicles
17
awsexamplebucket/daily-uploads/<date>/<car>/drive-data
객체 Key 이름
버킷 이름
접두사 객체 이름
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Example: Autonomous vehicles
18
/daily-uploads/20220710/CAR01/drive-data
/daily-uploads/20220710/CAR02/drive-data
/daily-uploads/20220710/CAR03/drive-data
/daily-uploads/20220710/CAR04/drive-data
/daily-uploads/20220710/CAR05/drive-data
요구 사항: 3,000 PUTs/sec per car – 15,000 PUTs/sec
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Example: Autonomous vehicles
19
All cars get throttled
around 3,500
PUTs/sec (total)
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Example: Autonomous vehicles
20
All cars get throttled
around 3,500
PUTs/sec (total)
New index prefixes
are created, raising
max TPS
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Example: Autonomous vehicles
21
/daily-uploads/20220710/CAR01/drive-data
/daily-uploads/20220710/CAR02/drive-data
/daily-uploads/20220710/CAR03/drive-data
/daily-uploads/20220710/CAR04/drive-data
/daily-uploads/20220710/CAR05/drive-data
5개의 인덱스 파티션이 만들어질 때 까지 Throttle이 발생합니다.
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Example: Autonomous vehicles
22
/daily-uploads/20220710/CAR01/drive-data
/daily-uploads/20220710/CAR02/drive-data
/daily-uploads/20220710/CAR03/drive-data
/daily-uploads/20220710/CAR04/drive-data
/daily-uploads/20220710/CAR05/drive-data
5개의 인덱스 파티션이 만들어질 때 까지 Throttle이 발생합니다.
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Example: Autonomous vehicles
23
/daily-uploads/20220710/CAR01/drive-data
/daily-uploads/20220710/CAR02/drive-data
/daily-uploads/20220710/CAR03/drive-data
/daily-uploads/20220710/CAR04/drive-data
/daily-uploads/20220710/CAR05/drive-data
5개의 인덱스 파티션이 만들어질 때 까지 Throttle이 발생합니다.
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Example: Autonomous vehicles
24
/daily-uploads/20220710/CAR01/drive-data
/daily-uploads/20220710/CAR02/drive-data
/daily-uploads/20220710/CAR03/drive-data
/daily-uploads/20220710/CAR04/drive-data
/daily-uploads/20220710/CAR05/drive-data
S3가 접두사를 기준으로 5개의 인덱스 파티션을 만들었습니다.
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Example: Autonomous vehicles
25
다음 날은…
/daily-uploads/20220711/CAR01/drive-data
/daily-uploads/20220711/CAR02/drive-data
/daily-uploads/20220711/CAR03/drive-data
/daily-uploads/20220711/CAR04/drive-data
/daily-uploads/20220711/CAR05/drive-data
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Example: Autonomous vehicles
26
/daily-uploads/20220710/CAR01/drive-data
/daily-uploads/20220710/CAR02/drive-data
/daily-uploads/20220710/CAR03/drive-data
/daily-uploads/20220710/CAR04/drive-data
/daily-uploads/20220710/CAR05/drive-data
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Example: Autonomous vehicles
27
/daily-uploads/20220711/CAR01/drive-data
/daily-uploads/20220711/CAR02/drive-data
/daily-uploads/20220711/CAR03/drive-data
/daily-uploads/20220711/CAR04/drive-data
/daily-uploads/20220711/CAR05/drive-data
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Example: Autonomous vehicles
28
/daily-uploads/<date>/<car>/drive-data
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Example: Autonomous vehicles
29
/daily-uploads/<car>/<date>/drive-data
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Example: Autonomous vehicles
30
/daily-uploads/CAR01/20220711/drive-data
/daily-uploads/CAR02/20220711/drive-data
/daily-uploads/CAR03/20220711/drive-data
/daily-uploads/CAR04/20220711/drive-data
/daily-uploads/CAR05/20220711/drive-data
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Example: Autonomous vehicles
31
/daily-uploads/CAR01/20220712/drive-data
/daily-uploads/CAR02/20220712/drive-data
/daily-uploads/CAR03/20220712/drive-data
/daily-uploads/CAR04/20220712/drive-data
/daily-uploads/CAR05/20220712/drive-data
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
S3 Requests
32
GET s3://mybucket/flight_info/*
mybucket Prefix : flight_info
Client
Sequential read
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
S3 Requests on Amazon EMR
33
여러 컨테이너가 동시에 단일 접두사에 읽기 요청을 보냅니다.
GET s3://mybucket/flight_info/*
mybucket Prefix : flight_info
EMR Core/Task Nodes
Read in parallel
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
S3 Requests on Amazon EMR
34
중복도가 낮은 접두사를 추가하여 요청을 여러 인덱스 파티션으로 분산
GET s3://mybucket/flight_info/*
mybucket
flight_info/US
EMR Core/Task Nodes
flight_info/EU
Read in parallel
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
How does S3 automatically scale request rates?
35
BucketName/prefix:
mybucket/flight_info/US/
mybucket/flight_info/EU/
mubucket/ …
3,500 PUT tps
5,500 GET tps
mybucket
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
How does S3 automatically scale request rates?
36
BucketName/prefix:
mybucket/flight_info/US/
mybucket/flight_info/EU/
mubucket/ …
mybucket
1st Partition
2nd Partition
3,500 PUT tps
5,500 GET tps
3,500 PUT tps
5,500 GET tps
/…
/flight_info
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
How does S3 automatically scale request rates?
37
BucketName/prefix:
mybucket/flight_info/US/
mybucket/flight_info/EU/
mubucket/ …
mybucket
1st Partition
2nd Partition
3rd Partition
3,500 PUT tps
5,500 GET tps
3,500 PUT tps
5,500 GET tps
3,500 PUT tps
5,500 GET tps
3,500 PUT tps
5,500 GET tps
/flight_info
/…
/US
/EU
/…
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
© 2022, Amazon Web Services, Inc. or its affiliates.
예기치 않은 사고로부터
데이터 보호
38
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Amazon S3 Versioning
39
Key = cat.jpg
PUT
• 버전 관리를 사용하는 버킷에 객체를
PUT할 때 비 최신 버전은 덮어쓰지
않습니다.
• 실수로 객체를 덮어쓰거나 삭제하는 것을
방지하고, 객체의 이전 버전을 검색할 수
있습니다.
• 더 이상 최신 버전이 아닌 객체를
S3 Lifecycle로 이전하거나 삭제할 수
있습니다.
Key = cat.jpg
Version ID = 2
Key = cat.jpg
Version ID = 1
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Amazon S3 Versioning
40
Key = cat.jpg
• 버전 관리를 사용하는 버킷에 객체를
PUT할 때 비 최신 버전은 덮어쓰지
않습니다.
• 실수로 객체를 덮어쓰거나 삭제하는 것을
방지하고, 객체의 이전 버전을 검색할 수
있습니다.
• 더 이상 최신 버전이 아닌 객체를
S3 Lifecycle로 이전하거나 삭제할 수
있습니다.
Key = cat.jpg
Version ID = 2
Key = cat.jpg
Version ID = 1
Key = cat.jpg
Version ID = 2
Key = cat.jpg
Version ID = 1
DELETE
Delete Marker
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Amazon S3 Versioning
41
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
S3 Replication
42
Source
Destination • 버킷 간에 객체를 복제하는 탄력적이고
저렴한 완전 관리형 기능입니다.
• 복제할 위치와 방법을 구성할 수 있는
다양한 기능을 통해 유연성을 제공합니다.
• 복제 규칙이 구성되면 원본 버킷의 객체와
메타데이터를 자동으로 복제합니다.
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
US East US East
Flexible replication
43
Same Region
동일한 AWS 리전 내에서 복제
Cross-Region
다른 AWS 리전으로 복제
Multiple destinations
여러 대상 버킷에 복제
US East US West
Account A
Cross-account
서로 다른 AWS 계정 간 복제
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
AWS Backup for S3
44
• AWS 서비스 및 하이브리드 워크로드의 데이터
보호를 중앙 집중화하고 자동화 정책을
기반으로 대규모 데이터 보호를 간편하고 비용
효율적으로 수행할 수 있는 완전 관리형
서비스입니다.
• 클릭 한 번으로 Amazon S3에 저장된
애플리케이션 데이터를 특정 시점으로 쉽게
복원할 수 있습니다.
• 데이터 보호에 대한 규정 준수 또는 비즈니스
정책을 지원하는 데 도움이 됩니다.
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
AWS Backup for S3
용어 의미
RPO(Recovery Point Objective) 복구 시점 목표
RTO(Recovery Time Objective) 복구에 걸리는 시간 목표
스냅샷(Snapshot) 특정 시점의 데이터 상태
스냅샷 백업(Snapshot Backup) 특정 시점 만을 백업하기 때문에 복원도 해당 시점으로만 가능
연속 백업(Continuous Backup)
첫 번째 전체 백업 (Full Backup) 후 지속적으로 증분 백업을
수행하므로 복원할 수 있는 시점이 광범위
PiTR(Point-in-Time-Recovery) 지정한 특정 시간으로 복구. 지속적 백업으로 가능
백업 용어 정리
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
AWS Backup for S3
46
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
AWS Backup for S3
47
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
AWS Backup for S3
48
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
S3 Lifecycle
49
Lifecycle Configuration을 사용하여
• 데이터를 보다 비용 효율적인 스토리지
클래스로 이동
• 객체 사용 기간에 따라 만료시켜 시간에
따른 스토리지 지출 관리
데이터를 보다 비용 효율적인 스토리지 클래스로 이동
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
S3 Lifecycle
50
더 이상 보존할 필요가 없는 데이터 세트의 자동 삭제
Lifecycle Configuration을 사용하여
• 각 객체의 Noncurrent Versions 삭제
• 만료된 객체의 Delete Markers 삭제
• Incomplete Multipart-Uploads 삭제
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
S3 Lifecycle
51
더 이상 보존할 필요가 없는 데이터 세트의 자동 삭제
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Amazon S3 Object Lock
52
S3 Object Lock을 사용하여 객체를 write once, read many(WORM)
모델을 사용하여 저장
거버넌스 모드 규정 준수 모드
• 특별한 권한이 없는 한 사용자는
객체 버전을 덮어쓰거나
삭제하거나 잠금 설정을 변경할
수 없음
• 필요에 따라 일부 사용자에게
보관 설정을 변경하거나 객체를
삭제할 수 있는 권한을 부여할
수 있음
• 보호된 객체 버전은 AWS
계정의 루트 사용자를 포함한
어떤 사용자도 덮어쓰거나
삭제할 수 없음
• 객체를 잠그면 보관 모드를
변경할 수 없으며 보관 기간을
줄일 수 없음
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Amazon S3 Object Lock
53
S3 Object Lock을 사용하여 객체를 write once, read many(WORM)
모델을 사용하여 저장
거버넌스 모드 규정 준수 모드
• 특별한 권한이 없는 한 사용자는
객체 버전을 덮어쓰거나
삭제하거나 잠금 설정을 변경할
수 없음
• 필요에 따라 일부 사용자에게
보관 설정을 변경하거나 객체를
삭제할 수 있는 권한을 부여할 수
있음
• 보호된 객체 버전은 AWS
계정의 루트 사용자를 포함한
어떤 사용자도 덮어쓰거나
삭제할 수 없음
• 객체를 잠그면 보관 모드를
변경할 수 없으며 보관 기간을
줄일 수 없음
Object Lock은 고정된 시간 동안 또는 무기한으로
객체의 삭제 또는 덮어쓰기를 방지하는 데 도움이 될 수
있지만 데이터 레이크 데이터 스토어로 사용되는 S3
버킷에 적용하는 것은 아주 신중히 고려해야 합니다.
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
© 2022, Amazon Web Services, Inc. or its affiliates.
비용 최적화
54
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
S3 Intelligent-Tiering Storage Class
55
• 세 가지 액세스 계층 간에 자동으로 객체 이동
• 클라우드에서 가장 낮은 스토리지 비용을
실현하기 위한 비동기식 아카이빙 옵션
• 성능 영향, 운영 오버헤드, 수명주기 비용 또는
검색 비용 없음
• 99.9% 의 가용성과 99.999999999% 의
내구성을 제공하도록 설계
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Frequent
Access tier
Infrequent
Access tier
Archive
Instant
Access tier
+30 days +60 days
S3 Intelligent-Tiering automatically optimizes cost in
three access tiers
새로 추가된 Archive Instant
Access Tier로 최대 68%
비용할인
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Use S3 Intelligent-Tiering by default for data with
unknown or changing access patterns
Milliseconds access (automatic) Minutes to hours (optional)
Frequent
Access tier
Infrequent
Access tier
Archive
Instant
Access tier
Deep
Archive
Access tier
Archive
Access tier
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Considerations for using S3 Intelligent-Tiering Storage
Class
58
• Amazon EMR에서 Hive, Spark, 그리고 Presto
와 같은 오픈 소스 프레임워크
▪ 작업 대상에 Archive Access Tier에 있는 객체가
있는 경우 작업 실패
• Amazon Athena와 Amazon Redshift Spectrum
▪ Query는 오류 없이 결과 값을 반환하지만 Archive
Access Tier에 있는 객체들은 건너뜁니다. 따라서,
예상과 다른 결과 값을 얻을 수 있으므로 Archive
Access Tier 사용 시 주의 필요
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Amazon S3 Storage Lens overview
59
• 조직 차원의 가시성
• 29개의 스토리지 사용량 및 활동 지표
• 리전, 스토리지 클래스, 버킷 및 접두사별로
드릴다운
• 비용 효율성 및 데이터 보호 모범 사례를 위한
권장 사항
• 통합된 S3 콘솔 경험
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Example Insights from S3 Storage Lens
60
S3 Storage Lens를 사용하여 계정 또는 전체 AWS 조직에서 % noncurrent
version bytes 및 % incomplete MPU bytes를 확인할 수 있습니다.
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
© 2022, Amazon Web Services, Inc. or its affiliates.
Takeaways
61
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Takeaways
62
워크로드의 I/O 패턴을
고려한 Keyspace 설계
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Takeaways
63
워크로드의 I/O 패턴을
고려한 Keyspace 설계
S3가 제공하는 기능들과
AWS Backup을 활용한
데이터 보호
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Takeaways
64
S3 스토리지 클래스와
분석 도구를 활용한 비용
최적화
워크로드의 I/O 패턴을
고려한 Keyspace 설계
S3가 제공하는 기능들과
AWS Backup을 활용한
데이터 보호
AWS DATA SPECIAL WEBINAR
© 2022, Amazon Web Services, Inc. or its affiliates.
Thank you!
© 2022, Amazon Web Services, Inc. or its affiliates.
박성훈

More Related Content

PDF
Amazon DocumentDB vs MongoDB 의 내부 아키텍쳐 와 장단점 비교
PDF
Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링
PDF
실시간 스트리밍 분석 Kinesis Data Analytics Deep Dive
PDF
AWS Backup을 이용한 데이터베이스의 백업 자동화와 편리한 복구방법
PDF
민첩하고 비용효율적인 Data Lake 구축 - 문종민 솔루션즈 아키텍트, AWS
PDF
Aws glue를 통한 손쉬운 데이터 전처리 작업하기
PDF
Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기
PDF
Amazon DynamoDB 키 디자인 패턴
Amazon DocumentDB vs MongoDB 의 내부 아키텍쳐 와 장단점 비교
Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링
실시간 스트리밍 분석 Kinesis Data Analytics Deep Dive
AWS Backup을 이용한 데이터베이스의 백업 자동화와 편리한 복구방법
민첩하고 비용효율적인 Data Lake 구축 - 문종민 솔루션즈 아키텍트, AWS
Aws glue를 통한 손쉬운 데이터 전처리 작업하기
Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기
Amazon DynamoDB 키 디자인 패턴

What's hot (20)

PDF
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...
PDF
DMS와 SCT를 활용한 Oracle에서 Open Source DB로의 전환
PDF
대용량 데이터레이크 마이그레이션 사례 공유 [카카오게임즈 - 레벨 200] - 조은희, 팀장, 카카오게임즈 ::: Games on AWS ...
PDF
롯데이커머스의 마이크로 서비스 아키텍처 진화와 비용 관점의 운영 노하우-나현길, 롯데이커머스 클라우드플랫폼 팀장::AWS 마이그레이션 A ...
PDF
Amazon DynamoDB - Use Cases and Cost Optimization - 발표자: 이혁, DynamoDB Special...
PDF
Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New feature...
PDF
데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...
PDF
EMR 플랫폼 기반의 Spark 워크로드 실행 최적화 방안 - 정세웅, AWS 솔루션즈 아키텍트:: AWS Summit Online Ko...
PDF
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
PDF
Amazon DocumentDB - Architecture 및 Best Practice (Level 200) - 발표자: 장동훈, Sr. ...
PDF
AWS Summit Seoul 2023 | AWS Graviton과 함께하는 계획문제 최적화 애플리케이션 개발
PDF
농심 그룹 메가마트 : 온프레미스 Exadata의 AWS 클라우드 환경 전환 사례 공유-김동현, NDS Cloud Innovation Ce...
PDF
AWS Summit Seoul 2023 | 실시간 CDC 데이터 처리! Modern Transactional Data Lake 구축하기
PDF
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
PDF
AWS 기반 클라우드 아키텍처 모범사례 - 삼성전자 개발자 포털/개발자 워크스페이스 - 정영준 솔루션즈 아키텍트, AWS / 유현성 수석,...
PDF
Amazon Redshift 아키텍처 및 모범사례::김민성::AWS Summit Seoul 2018
PDF
기술 지원 사례로 알아보는 마이그레이션 이슈 및 해결 방안 모음-김용기, AWS Storage Specialist SA / 한소영, AWS...
PDF
LG 이노텍 - Amazon Redshift Serverless를 활용한 데이터 분석 플랫폼 혁신 과정 - 발표자: 유재상 선임, LG이노...
PDF
SK Telecom - 망관리 프로젝트 TANGO의 오픈소스 데이터베이스 전환 여정 - 발표자 : 박승전, Project Manager, ...
PDF
Arm 기반의 AWS Graviton 프로세서로 구동되는 AWS 인스턴스 살펴보기 - 김종선, AWS솔루션즈 아키텍트:: AWS Summi...
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...
DMS와 SCT를 활용한 Oracle에서 Open Source DB로의 전환
대용량 데이터레이크 마이그레이션 사례 공유 [카카오게임즈 - 레벨 200] - 조은희, 팀장, 카카오게임즈 ::: Games on AWS ...
롯데이커머스의 마이크로 서비스 아키텍처 진화와 비용 관점의 운영 노하우-나현길, 롯데이커머스 클라우드플랫폼 팀장::AWS 마이그레이션 A ...
Amazon DynamoDB - Use Cases and Cost Optimization - 발표자: 이혁, DynamoDB Special...
Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New feature...
데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...
EMR 플랫폼 기반의 Spark 워크로드 실행 최적화 방안 - 정세웅, AWS 솔루션즈 아키텍트:: AWS Summit Online Ko...
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
Amazon DocumentDB - Architecture 및 Best Practice (Level 200) - 발표자: 장동훈, Sr. ...
AWS Summit Seoul 2023 | AWS Graviton과 함께하는 계획문제 최적화 애플리케이션 개발
농심 그룹 메가마트 : 온프레미스 Exadata의 AWS 클라우드 환경 전환 사례 공유-김동현, NDS Cloud Innovation Ce...
AWS Summit Seoul 2023 | 실시간 CDC 데이터 처리! Modern Transactional Data Lake 구축하기
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
AWS 기반 클라우드 아키텍처 모범사례 - 삼성전자 개발자 포털/개발자 워크스페이스 - 정영준 솔루션즈 아키텍트, AWS / 유현성 수석,...
Amazon Redshift 아키텍처 및 모범사례::김민성::AWS Summit Seoul 2018
기술 지원 사례로 알아보는 마이그레이션 이슈 및 해결 방안 모음-김용기, AWS Storage Specialist SA / 한소영, AWS...
LG 이노텍 - Amazon Redshift Serverless를 활용한 데이터 분석 플랫폼 혁신 과정 - 발표자: 유재상 선임, LG이노...
SK Telecom - 망관리 프로젝트 TANGO의 오픈소스 데이터베이스 전환 여정 - 발표자 : 박승전, Project Manager, ...
Arm 기반의 AWS Graviton 프로세서로 구동되는 AWS 인스턴스 살펴보기 - 김종선, AWS솔루션즈 아키텍트:: AWS Summi...
Ad

Similar to 워크로드 특성에 따른 안전하고 효율적인 Data Lake 운영 방안 (20)

PDF
AWS를 활용한 게임 데이터 분석 퀘스트 깨기::안효빈::AWS Summit Seoul 2018
PDF
Ad-Tech on AWS 세미나 | AWS와 데이터 분석
PPTX
글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)
PDF
모든 데이터를 위한 단 하나의 저장소, Amazon S3 기반 데이터 레이크::정세웅::AWS Summit Seoul 2018
PDF
30분만에 만드는 AWS 기반 빅데이터 분석 애플리케이션::안효빈::AWS Summit Seoul 2018
PDF
금융 데이터분석을 위한 효과적인 AWS 아키텍쳐::유다니엘::AWS Summit Seoul 2018
PDF
AWS 기반 지속 가능한 데이터 분석 플랫폼 구축하기 - 박윤곤, 아이스크림에듀 :: AWS Summit Seoul 2019
PDF
AWS에서 빅데이터 프로젝트 시작하기 - 이종화 솔루션즈 아키텍트, AWS
PDF
AWS Summit Seoul 2023 | 잘나가는 애플리케이션 성능? 알맞은 스토리지로부터!
PDF
Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO,...
PDF
있는 그대로 저장하고, 바로 분석 가능한, 새로운 관점의 데이터 애널리틱 플랫폼 - 정세웅 애널리틱 스페셜리스트, AWS
PDF
빅데이터를 위한 AWS 모범사례와 아키텍처 구축 패턴 :: 양승도 :: AWS Summit Seoul 2016
PDF
Amazon EMR 고급 활용 기법 - AWS Summit Seoul 2017
PDF
[금융고객을 위한 AWS re:Invent 2022 re:Cap] 3.AWS reInvent 2022 Technical Highlights...
PDF
워크로드에 적합한 최적의 클라우드 스토리지를 찾기 원하는 당신에게 - 김기현 AWS 솔루션즈 아키텍트 :: AWS Summit Seoul ...
PDF
AWS 스토리지 서비스 소개 및 실습 - 김용기, AWS 솔루션즈 아키텍트
PDF
효과적인 NoSQL (Elasticahe / DynamoDB) 디자인 및 활용 방안 (최유정 & 최홍식, AWS 솔루션즈 아키텍트) :: ...
PDF
AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나
PPTX
글로벌 고객 사례를 통하여 소개하는 혁신적인 데이터 웨어하우스 - 김형일 (AWS 솔루션즈 아키텍트)
PDF
만들자! 데이터 기반의 스마트 팩토리 - 문태양 AWS 솔루션즈 아키텍트 / 배권 팀장, OCI 정보통신 :: AWS Summit Seou...
AWS를 활용한 게임 데이터 분석 퀘스트 깨기::안효빈::AWS Summit Seoul 2018
Ad-Tech on AWS 세미나 | AWS와 데이터 분석
글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)
모든 데이터를 위한 단 하나의 저장소, Amazon S3 기반 데이터 레이크::정세웅::AWS Summit Seoul 2018
30분만에 만드는 AWS 기반 빅데이터 분석 애플리케이션::안효빈::AWS Summit Seoul 2018
금융 데이터분석을 위한 효과적인 AWS 아키텍쳐::유다니엘::AWS Summit Seoul 2018
AWS 기반 지속 가능한 데이터 분석 플랫폼 구축하기 - 박윤곤, 아이스크림에듀 :: AWS Summit Seoul 2019
AWS에서 빅데이터 프로젝트 시작하기 - 이종화 솔루션즈 아키텍트, AWS
AWS Summit Seoul 2023 | 잘나가는 애플리케이션 성능? 알맞은 스토리지로부터!
Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO,...
있는 그대로 저장하고, 바로 분석 가능한, 새로운 관점의 데이터 애널리틱 플랫폼 - 정세웅 애널리틱 스페셜리스트, AWS
빅데이터를 위한 AWS 모범사례와 아키텍처 구축 패턴 :: 양승도 :: AWS Summit Seoul 2016
Amazon EMR 고급 활용 기법 - AWS Summit Seoul 2017
[금융고객을 위한 AWS re:Invent 2022 re:Cap] 3.AWS reInvent 2022 Technical Highlights...
워크로드에 적합한 최적의 클라우드 스토리지를 찾기 원하는 당신에게 - 김기현 AWS 솔루션즈 아키텍트 :: AWS Summit Seoul ...
AWS 스토리지 서비스 소개 및 실습 - 김용기, AWS 솔루션즈 아키텍트
효과적인 NoSQL (Elasticahe / DynamoDB) 디자인 및 활용 방안 (최유정 & 최홍식, AWS 솔루션즈 아키텍트) :: ...
AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나
글로벌 고객 사례를 통하여 소개하는 혁신적인 데이터 웨어하우스 - 김형일 (AWS 솔루션즈 아키텍트)
만들자! 데이터 기반의 스마트 팩토리 - 문태양 AWS 솔루션즈 아키텍트 / 배권 팀장, OCI 정보통신 :: AWS Summit Seou...
Ad

More from Amazon Web Services Korea (20)

PDF
[D3T1S01] Gen AI를 위한 Amazon Aurora 활용 사례 방법
PDF
[D3T1S06] Neptune Analytics with Vector Similarity Search
PDF
[D3T1S03] Amazon DynamoDB design puzzlers
PDF
[D3T1S04] Aurora PostgreSQL performance monitoring and troubleshooting by use...
PDF
[D3T1S07] AWS S3 - 클라우드 환경에서 데이터베이스 보호하기
PDF
[D3T1S05] Aurora 혼합 구성 아키텍처를 사용하여 예상치 못한 트래픽 급증 대응하기
PDF
[D3T1S02] Aurora Limitless Database Introduction
PDF
[D3T2S01] Amazon Aurora MySQL 메이저 버전 업그레이드 및 Amazon B/G Deployments 실습
PDF
[D3T2S03] Data&AI Roadshow 2024 - Amazon DocumentDB 실습
PDF
AWS Modern Infra with Storage Roadshow 2023 - Day 2
PDF
AWS Modern Infra with Storage Roadshow 2023 - Day 1
PDF
사례로 알아보는 Database Migration Service : 데이터베이스 및 데이터 이관, 통합, 분리, 분석의 도구 - 발표자: ...
PDF
Amazon Elasticache - Fully managed, Redis & Memcached Compatible Service (Lev...
PDF
Internal Architecture of Amazon Aurora (Level 400) - 발표자: 정달영, APAC RDS Speci...
PDF
[Keynote] 슬기로운 AWS 데이터베이스 선택하기 - 발표자: 강민석, Korea Database SA Manager, WWSO, A...
PDF
Demystify Streaming on AWS - 발표자: 이종혁, Sr Analytics Specialist, WWSO, AWS :::...
PDF
Amazon EMR - Enhancements on Cost/Performance, Serverless - 발표자: 김기영, Sr Anal...
PDF
From Insights to Action, How to build and maintain a Data Driven Organization...
PDF
[Keynote] Accelerating Business Outcomes with AWS Data - 발표자: Saeed Gharadagh...
PDF
LG전자 - Amazon Aurora 및 RDS 블루/그린 배포를 이용한 데이터베이스 업그레이드 안정성 확보 - 발표자: 이은경 책임, L...
[D3T1S01] Gen AI를 위한 Amazon Aurora 활용 사례 방법
[D3T1S06] Neptune Analytics with Vector Similarity Search
[D3T1S03] Amazon DynamoDB design puzzlers
[D3T1S04] Aurora PostgreSQL performance monitoring and troubleshooting by use...
[D3T1S07] AWS S3 - 클라우드 환경에서 데이터베이스 보호하기
[D3T1S05] Aurora 혼합 구성 아키텍처를 사용하여 예상치 못한 트래픽 급증 대응하기
[D3T1S02] Aurora Limitless Database Introduction
[D3T2S01] Amazon Aurora MySQL 메이저 버전 업그레이드 및 Amazon B/G Deployments 실습
[D3T2S03] Data&AI Roadshow 2024 - Amazon DocumentDB 실습
AWS Modern Infra with Storage Roadshow 2023 - Day 2
AWS Modern Infra with Storage Roadshow 2023 - Day 1
사례로 알아보는 Database Migration Service : 데이터베이스 및 데이터 이관, 통합, 분리, 분석의 도구 - 발표자: ...
Amazon Elasticache - Fully managed, Redis & Memcached Compatible Service (Lev...
Internal Architecture of Amazon Aurora (Level 400) - 발표자: 정달영, APAC RDS Speci...
[Keynote] 슬기로운 AWS 데이터베이스 선택하기 - 발표자: 강민석, Korea Database SA Manager, WWSO, A...
Demystify Streaming on AWS - 발표자: 이종혁, Sr Analytics Specialist, WWSO, AWS :::...
Amazon EMR - Enhancements on Cost/Performance, Serverless - 발표자: 김기영, Sr Anal...
From Insights to Action, How to build and maintain a Data Driven Organization...
[Keynote] Accelerating Business Outcomes with AWS Data - 발표자: Saeed Gharadagh...
LG전자 - Amazon Aurora 및 RDS 블루/그린 배포를 이용한 데이터베이스 업그레이드 안정성 확보 - 발표자: 이은경 책임, L...

워크로드 특성에 따른 안전하고 효율적인 Data Lake 운영 방안

  • 1. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. 워크로드 특성에 따른 안전하고 효율적인 Data Lake 운영 방안 박성훈 Account Growth Lead AWS
  • 2. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Agenda • Data Lakes 구축의 어려움 • 확장 가능한 S3 Keyspace 설계 • 예기치 않은 사고로부터 데이터 보호 • 비용 최적화 2
  • 3. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Customers want more value from their data 3 Growing exponentially From new sources Increasingly diverse Used by many people Analyzed by many applications
  • 4. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Building a Modern Data Strategy Catalog Governance Data Sources People, Apps, and Devices Analytics Machine Learning Databases Data Lakes 4
  • 5. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. The benefits of scalable data lakes 5 모든 데이터를 오픈 형식으로 저장 스토리지를 컴퓨팅에서 분리 스토리지를 엑사바이트까지 비용 효율적으로 확장 분석 및 ML 엔진 선택 Catalog Data lake
  • 6. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Challenges in building data lakes Challenge #1: Data ingestion 신뢰할 수 있는 데이터 수집 파이프라인을 구축하는 것은 복잡하다 Challenge #2: Data management S3에 데이터를 저장하고 최적화하는데 시간이 많이 걸린다 Challenge #3: Security & governance 세분화된 권한을 관리는 것이 어렵고 오류가 발생하기 쉽다 Amazon S3 AWS Lake Formation Data Catalog AWS Glue ETL Amazon Athena Amazon EMR Amazon Redshift Spectrum Amazon SageMaker Challenge #5: Data sharing 계정 및 조직 간에 공유하는 것은 복잡하다 6 Challenge #4: Integrations 선택한 서비스나 애플리케이션을 통합하는 것이 어렵다
  • 7. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. 신뢰할 수 있는 데이터 수집 파이프라인을 구축하는 것은 복잡하다 Challenges in building data lakes Challenge #3: Security & governance 세분화된 권한을 관리는 것이 어렵고 오류가 발생하기 쉽다 Amazon S3 AWS Lake Formation Data Catalog AWS Glue ETL Amazon Athena Amazon EMR Amazon Redshift Spectrum Amazon SageMaker Challenge #5: Data sharing 계정 및 조직 간에 공유하는 것은 번거로운 작업이다 7 Challenge #2: Data management S3에 데이터를 저장하고 최적화하는데 시간이 많이 걸린다 Challenge #4: Integrations 선택한 서비스나 애플리케이션을 통합하는 것이 어렵다
  • 8. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. 확장 가능한 S3 Keyspace 설계 8
  • 9. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Index Performance Baseline 9 Request Method All Regions GET/HEAD 5,500 requests per second PUT/POST/DELETE 3,500 requests per second • 초당 요청은 인덱스 파티션 당 요청입니다. • 접두사 수에는 제한이 없습니다. • 503 Slow Down 오류는 요청 속도를 늦추는 주요 지표입니다.
  • 10. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Request rates are allocated proportionally 10 Workload 50% PUT and 50% GET operations in a single partition Example 1 Total TPS (50% * 3,500) + (50% * 5,500) = 1,750 + 2,750 = 4,500 TPS Combined
  • 11. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Request rates are allocated proportionally 11 Workload 50% PUT and 50% GET operations in a single partition Example 1 Total TPS (50% * 3,500) + (50% * 5,500) = 1,750 + 2,750 = 4,500 TPS Combined Workload 30% PUT and 70% GET operations in a single partition Example 2 Total TPS (30% * 3,500) + (70% * 5,500) = 1,050 + 3,850 = 4,900 TPS Combined
  • 12. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. How to Increase Requests per Second • 인덱스를 여러 파티션에 분산 • 인덱스를 분할하는 두 가지 방법 ▪ Auto partitioning ➢고객의 개입 없이 S3에서 수행 ➢시간이 지남에 따라 S3 워크로드가 점차 증가할 때 잘 동작 ▪ Pre-partition request ➢케이스 생성을 통해 지원 ➢S3 워크로드가 빠르게 증가할 때 선호 12
  • 13. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Auto Partitioning At Work 13
  • 14. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Optimize Partition Use 2018년 7월 이전 • 접두사 앞에 해시 추가 ▪ examplebucket/232a-2013-26-05-15-00-00/cust1234234/photo001.jpg ▪ examplebucket/232b-2013-26-05-15-00-00/cust1234234/photo002.jpg … ▪ examplebucket/292a-2013-26-05-15-00-00/cust1234234/photo099.jpg • 접두사 앞에 해시를 추가하여 요청이 여러 인덱스 파티션으로 분산 14
  • 15. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Optimize Partition Use 2018년 7월부터 • Keyspace에 자연명을 사용할 수 있습니다.버킷의 접두사 수에는 제한이 없습니다. • Keyspace 설계 시, 모든 요청이 동일한 인덱스 파티션에 대해 요청을 수행하는 시나리오를 방지해야 합니다. • 워크로드가 여러 인덱스 파티션에 걸쳐 잘 분산될 수 있는 높은 카디널리티 접두사를 사용하는 것이 중요합니다. 15
  • 16. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Example: Autonomous vehicles 1. 많은 계측 자동차가 중앙에 위치하고 있습니다. 2. 매일 그 자동차들은 운전을 하고 많은 데이터를 수집합니다. 3. 거의 동시에 차고지로 돌아와서 수집한 데이터를 데이터 레이크에 업로드 합니다.
  • 17. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Example: Autonomous vehicles 17 awsexamplebucket/daily-uploads/<date>/<car>/drive-data 객체 Key 이름 버킷 이름 접두사 객체 이름
  • 18. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Example: Autonomous vehicles 18 /daily-uploads/20220710/CAR01/drive-data /daily-uploads/20220710/CAR02/drive-data /daily-uploads/20220710/CAR03/drive-data /daily-uploads/20220710/CAR04/drive-data /daily-uploads/20220710/CAR05/drive-data 요구 사항: 3,000 PUTs/sec per car – 15,000 PUTs/sec
  • 19. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Example: Autonomous vehicles 19 All cars get throttled around 3,500 PUTs/sec (total)
  • 20. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Example: Autonomous vehicles 20 All cars get throttled around 3,500 PUTs/sec (total) New index prefixes are created, raising max TPS
  • 21. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Example: Autonomous vehicles 21 /daily-uploads/20220710/CAR01/drive-data /daily-uploads/20220710/CAR02/drive-data /daily-uploads/20220710/CAR03/drive-data /daily-uploads/20220710/CAR04/drive-data /daily-uploads/20220710/CAR05/drive-data 5개의 인덱스 파티션이 만들어질 때 까지 Throttle이 발생합니다.
  • 22. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Example: Autonomous vehicles 22 /daily-uploads/20220710/CAR01/drive-data /daily-uploads/20220710/CAR02/drive-data /daily-uploads/20220710/CAR03/drive-data /daily-uploads/20220710/CAR04/drive-data /daily-uploads/20220710/CAR05/drive-data 5개의 인덱스 파티션이 만들어질 때 까지 Throttle이 발생합니다.
  • 23. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Example: Autonomous vehicles 23 /daily-uploads/20220710/CAR01/drive-data /daily-uploads/20220710/CAR02/drive-data /daily-uploads/20220710/CAR03/drive-data /daily-uploads/20220710/CAR04/drive-data /daily-uploads/20220710/CAR05/drive-data 5개의 인덱스 파티션이 만들어질 때 까지 Throttle이 발생합니다.
  • 24. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Example: Autonomous vehicles 24 /daily-uploads/20220710/CAR01/drive-data /daily-uploads/20220710/CAR02/drive-data /daily-uploads/20220710/CAR03/drive-data /daily-uploads/20220710/CAR04/drive-data /daily-uploads/20220710/CAR05/drive-data S3가 접두사를 기준으로 5개의 인덱스 파티션을 만들었습니다.
  • 25. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Example: Autonomous vehicles 25 다음 날은… /daily-uploads/20220711/CAR01/drive-data /daily-uploads/20220711/CAR02/drive-data /daily-uploads/20220711/CAR03/drive-data /daily-uploads/20220711/CAR04/drive-data /daily-uploads/20220711/CAR05/drive-data
  • 26. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Example: Autonomous vehicles 26 /daily-uploads/20220710/CAR01/drive-data /daily-uploads/20220710/CAR02/drive-data /daily-uploads/20220710/CAR03/drive-data /daily-uploads/20220710/CAR04/drive-data /daily-uploads/20220710/CAR05/drive-data
  • 27. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Example: Autonomous vehicles 27 /daily-uploads/20220711/CAR01/drive-data /daily-uploads/20220711/CAR02/drive-data /daily-uploads/20220711/CAR03/drive-data /daily-uploads/20220711/CAR04/drive-data /daily-uploads/20220711/CAR05/drive-data
  • 28. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Example: Autonomous vehicles 28 /daily-uploads/<date>/<car>/drive-data
  • 29. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Example: Autonomous vehicles 29 /daily-uploads/<car>/<date>/drive-data
  • 30. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Example: Autonomous vehicles 30 /daily-uploads/CAR01/20220711/drive-data /daily-uploads/CAR02/20220711/drive-data /daily-uploads/CAR03/20220711/drive-data /daily-uploads/CAR04/20220711/drive-data /daily-uploads/CAR05/20220711/drive-data
  • 31. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Example: Autonomous vehicles 31 /daily-uploads/CAR01/20220712/drive-data /daily-uploads/CAR02/20220712/drive-data /daily-uploads/CAR03/20220712/drive-data /daily-uploads/CAR04/20220712/drive-data /daily-uploads/CAR05/20220712/drive-data
  • 32. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. S3 Requests 32 GET s3://mybucket/flight_info/* mybucket Prefix : flight_info Client Sequential read
  • 33. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. S3 Requests on Amazon EMR 33 여러 컨테이너가 동시에 단일 접두사에 읽기 요청을 보냅니다. GET s3://mybucket/flight_info/* mybucket Prefix : flight_info EMR Core/Task Nodes Read in parallel
  • 34. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. S3 Requests on Amazon EMR 34 중복도가 낮은 접두사를 추가하여 요청을 여러 인덱스 파티션으로 분산 GET s3://mybucket/flight_info/* mybucket flight_info/US EMR Core/Task Nodes flight_info/EU Read in parallel
  • 35. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. How does S3 automatically scale request rates? 35 BucketName/prefix: mybucket/flight_info/US/ mybucket/flight_info/EU/ mubucket/ … 3,500 PUT tps 5,500 GET tps mybucket
  • 36. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. How does S3 automatically scale request rates? 36 BucketName/prefix: mybucket/flight_info/US/ mybucket/flight_info/EU/ mubucket/ … mybucket 1st Partition 2nd Partition 3,500 PUT tps 5,500 GET tps 3,500 PUT tps 5,500 GET tps /… /flight_info
  • 37. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. How does S3 automatically scale request rates? 37 BucketName/prefix: mybucket/flight_info/US/ mybucket/flight_info/EU/ mubucket/ … mybucket 1st Partition 2nd Partition 3rd Partition 3,500 PUT tps 5,500 GET tps 3,500 PUT tps 5,500 GET tps 3,500 PUT tps 5,500 GET tps 3,500 PUT tps 5,500 GET tps /flight_info /… /US /EU /…
  • 38. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. 예기치 않은 사고로부터 데이터 보호 38
  • 39. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Amazon S3 Versioning 39 Key = cat.jpg PUT • 버전 관리를 사용하는 버킷에 객체를 PUT할 때 비 최신 버전은 덮어쓰지 않습니다. • 실수로 객체를 덮어쓰거나 삭제하는 것을 방지하고, 객체의 이전 버전을 검색할 수 있습니다. • 더 이상 최신 버전이 아닌 객체를 S3 Lifecycle로 이전하거나 삭제할 수 있습니다. Key = cat.jpg Version ID = 2 Key = cat.jpg Version ID = 1
  • 40. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Amazon S3 Versioning 40 Key = cat.jpg • 버전 관리를 사용하는 버킷에 객체를 PUT할 때 비 최신 버전은 덮어쓰지 않습니다. • 실수로 객체를 덮어쓰거나 삭제하는 것을 방지하고, 객체의 이전 버전을 검색할 수 있습니다. • 더 이상 최신 버전이 아닌 객체를 S3 Lifecycle로 이전하거나 삭제할 수 있습니다. Key = cat.jpg Version ID = 2 Key = cat.jpg Version ID = 1 Key = cat.jpg Version ID = 2 Key = cat.jpg Version ID = 1 DELETE Delete Marker
  • 41. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Amazon S3 Versioning 41
  • 42. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. S3 Replication 42 Source Destination • 버킷 간에 객체를 복제하는 탄력적이고 저렴한 완전 관리형 기능입니다. • 복제할 위치와 방법을 구성할 수 있는 다양한 기능을 통해 유연성을 제공합니다. • 복제 규칙이 구성되면 원본 버킷의 객체와 메타데이터를 자동으로 복제합니다.
  • 43. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. US East US East Flexible replication 43 Same Region 동일한 AWS 리전 내에서 복제 Cross-Region 다른 AWS 리전으로 복제 Multiple destinations 여러 대상 버킷에 복제 US East US West Account A Cross-account 서로 다른 AWS 계정 간 복제
  • 44. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. AWS Backup for S3 44 • AWS 서비스 및 하이브리드 워크로드의 데이터 보호를 중앙 집중화하고 자동화 정책을 기반으로 대규모 데이터 보호를 간편하고 비용 효율적으로 수행할 수 있는 완전 관리형 서비스입니다. • 클릭 한 번으로 Amazon S3에 저장된 애플리케이션 데이터를 특정 시점으로 쉽게 복원할 수 있습니다. • 데이터 보호에 대한 규정 준수 또는 비즈니스 정책을 지원하는 데 도움이 됩니다.
  • 45. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. AWS Backup for S3 용어 의미 RPO(Recovery Point Objective) 복구 시점 목표 RTO(Recovery Time Objective) 복구에 걸리는 시간 목표 스냅샷(Snapshot) 특정 시점의 데이터 상태 스냅샷 백업(Snapshot Backup) 특정 시점 만을 백업하기 때문에 복원도 해당 시점으로만 가능 연속 백업(Continuous Backup) 첫 번째 전체 백업 (Full Backup) 후 지속적으로 증분 백업을 수행하므로 복원할 수 있는 시점이 광범위 PiTR(Point-in-Time-Recovery) 지정한 특정 시간으로 복구. 지속적 백업으로 가능 백업 용어 정리
  • 46. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. AWS Backup for S3 46
  • 47. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. AWS Backup for S3 47
  • 48. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. AWS Backup for S3 48
  • 49. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. S3 Lifecycle 49 Lifecycle Configuration을 사용하여 • 데이터를 보다 비용 효율적인 스토리지 클래스로 이동 • 객체 사용 기간에 따라 만료시켜 시간에 따른 스토리지 지출 관리 데이터를 보다 비용 효율적인 스토리지 클래스로 이동
  • 50. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. S3 Lifecycle 50 더 이상 보존할 필요가 없는 데이터 세트의 자동 삭제 Lifecycle Configuration을 사용하여 • 각 객체의 Noncurrent Versions 삭제 • 만료된 객체의 Delete Markers 삭제 • Incomplete Multipart-Uploads 삭제
  • 51. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. S3 Lifecycle 51 더 이상 보존할 필요가 없는 데이터 세트의 자동 삭제
  • 52. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Amazon S3 Object Lock 52 S3 Object Lock을 사용하여 객체를 write once, read many(WORM) 모델을 사용하여 저장 거버넌스 모드 규정 준수 모드 • 특별한 권한이 없는 한 사용자는 객체 버전을 덮어쓰거나 삭제하거나 잠금 설정을 변경할 수 없음 • 필요에 따라 일부 사용자에게 보관 설정을 변경하거나 객체를 삭제할 수 있는 권한을 부여할 수 있음 • 보호된 객체 버전은 AWS 계정의 루트 사용자를 포함한 어떤 사용자도 덮어쓰거나 삭제할 수 없음 • 객체를 잠그면 보관 모드를 변경할 수 없으며 보관 기간을 줄일 수 없음
  • 53. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Amazon S3 Object Lock 53 S3 Object Lock을 사용하여 객체를 write once, read many(WORM) 모델을 사용하여 저장 거버넌스 모드 규정 준수 모드 • 특별한 권한이 없는 한 사용자는 객체 버전을 덮어쓰거나 삭제하거나 잠금 설정을 변경할 수 없음 • 필요에 따라 일부 사용자에게 보관 설정을 변경하거나 객체를 삭제할 수 있는 권한을 부여할 수 있음 • 보호된 객체 버전은 AWS 계정의 루트 사용자를 포함한 어떤 사용자도 덮어쓰거나 삭제할 수 없음 • 객체를 잠그면 보관 모드를 변경할 수 없으며 보관 기간을 줄일 수 없음 Object Lock은 고정된 시간 동안 또는 무기한으로 객체의 삭제 또는 덮어쓰기를 방지하는 데 도움이 될 수 있지만 데이터 레이크 데이터 스토어로 사용되는 S3 버킷에 적용하는 것은 아주 신중히 고려해야 합니다.
  • 54. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. 비용 최적화 54
  • 55. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. S3 Intelligent-Tiering Storage Class 55 • 세 가지 액세스 계층 간에 자동으로 객체 이동 • 클라우드에서 가장 낮은 스토리지 비용을 실현하기 위한 비동기식 아카이빙 옵션 • 성능 영향, 운영 오버헤드, 수명주기 비용 또는 검색 비용 없음 • 99.9% 의 가용성과 99.999999999% 의 내구성을 제공하도록 설계
  • 56. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Frequent Access tier Infrequent Access tier Archive Instant Access tier +30 days +60 days S3 Intelligent-Tiering automatically optimizes cost in three access tiers 새로 추가된 Archive Instant Access Tier로 최대 68% 비용할인
  • 57. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Use S3 Intelligent-Tiering by default for data with unknown or changing access patterns Milliseconds access (automatic) Minutes to hours (optional) Frequent Access tier Infrequent Access tier Archive Instant Access tier Deep Archive Access tier Archive Access tier
  • 58. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Considerations for using S3 Intelligent-Tiering Storage Class 58 • Amazon EMR에서 Hive, Spark, 그리고 Presto 와 같은 오픈 소스 프레임워크 ▪ 작업 대상에 Archive Access Tier에 있는 객체가 있는 경우 작업 실패 • Amazon Athena와 Amazon Redshift Spectrum ▪ Query는 오류 없이 결과 값을 반환하지만 Archive Access Tier에 있는 객체들은 건너뜁니다. 따라서, 예상과 다른 결과 값을 얻을 수 있으므로 Archive Access Tier 사용 시 주의 필요
  • 59. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Amazon S3 Storage Lens overview 59 • 조직 차원의 가시성 • 29개의 스토리지 사용량 및 활동 지표 • 리전, 스토리지 클래스, 버킷 및 접두사별로 드릴다운 • 비용 효율성 및 데이터 보호 모범 사례를 위한 권장 사항 • 통합된 S3 콘솔 경험
  • 60. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Example Insights from S3 Storage Lens 60 S3 Storage Lens를 사용하여 계정 또는 전체 AWS 조직에서 % noncurrent version bytes 및 % incomplete MPU bytes를 확인할 수 있습니다.
  • 61. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. Takeaways 61
  • 62. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Takeaways 62 워크로드의 I/O 패턴을 고려한 Keyspace 설계
  • 63. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Takeaways 63 워크로드의 I/O 패턴을 고려한 Keyspace 설계 S3가 제공하는 기능들과 AWS Backup을 활용한 데이터 보호
  • 64. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Takeaways 64 S3 스토리지 클래스와 분석 도구를 활용한 비용 최적화 워크로드의 I/O 패턴을 고려한 Keyspace 설계 S3가 제공하는 기능들과 AWS Backup을 활용한 데이터 보호
  • 65. AWS DATA SPECIAL WEBINAR © 2022, Amazon Web Services, Inc. or its affiliates. Thank you! © 2022, Amazon Web Services, Inc. or its affiliates. 박성훈