SlideShare a Scribd company logo
© 2023, Amazon Web Services, Inc. or its affiliates.
© 2023, Amazon Web Services, Inc. or its affiliates.
Demystify data
streaming on AWS
JongHyok Lee (he/him)
Sr Analytics Solutions Architect
AWS
© 2023, Amazon Web Services, Inc. or its affiliates.
데이터에서 인사이트 도출 방법은 항상 변화
데이터의
가치
대용량
파생된
인사이트
실시간
인사이트
빠른
속도
Data warehouse Data Lake Data Streams
© 2023, Amazon Web Services, Inc. or its affiliates.
실시간(Real-time)의 의미
마이크로서비스
반응분석 (웹 및 모바일 앱 알림)
milliseconds
로그수집
IoT 디바이스 관리, 변경데이터
추출 (CDC)
seconds
데이터레이크 및
데이터웨어하우스로의 스트리밍
ETL
minutes
© 2023, Amazon Web Services, Inc. or its affiliates.
실시간 스트리밍 데이터 용어들
소스
Source
저장
Sink
데이터 보존
Data
retention
생산자
Producer
소비자
Consumer
© 2023, Amazon Web Services, Inc. or its affiliates.
© 2023, Amazon Web Services, Inc. or its affiliates.
유즈케이스와
스트리밍 데이터 파이프라인
© 2023, Amazon Web Services, Inc. or its affiliates.
로그 모니터링
플랫폼 현대화
데이터 웨어하우스
활용 준실시간 분석
커넥티드 디바이스
모니터링
일반적인
유즈케이스에서
관찰되는 데이터
스트리밍 주요
요건들
© 2023, Amazon Web Services, Inc. or its affiliates.
빠른 속도로 생산되는 대량의 데이터
다양한 형태의 데이터
수많은 데이터 원천
빠른 시간 안에 처리
© 2023, Amazon Web Services, Inc. or its affiliates.
실시간 스트리밍 데이터 파이프라인
Source
원천
Devices or
applications that
produce real-time
data at high velocity
Stream ingestion
스트림 수집
Data from tens of
thousands of data sources
can be collected and
ingested in real time
Stream storage
스트림 스토리지
Data is stored in the order
received for a set time and
can be replayed indefinitely
during that time
Stream processing
스트림 처리
Records are read in the
order they’re produced,
allowing for real-time
analytics or streaming ETL
Destination
대상
Data lake
Data warehouse
Database
OpenSearch
Event driven
Applications
© 2023, Amazon Web Services, Inc. or its affiliates.
스트림 수집
• AWS IoT
• Amazon CloudWatch
• Amazon DynamoDB
• AWS Database Migration Service
• Amazon Redshift
• AWS MSK Connect, Kafka
Stream
• Kinesis Agent
• Kinesis Producer Library
• AWS SDK
Stream ingestion
Toolkits/Libraries AWS service integrations
© 2023, Amazon Web Services, Inc. or its affiliates.
AWS 상에서의 스트림 스토리지
Stream storage
• 클라우드 네이티브 서비스
• 손쉬운 사용
• 탄력적인 서버리스 서비스
• 고가용성 및 보안
• 비용 효율적
• AWS 서비스들과 긴밀한 통합
Amazon Kinesis Data Streams
• 완전관리형 Apache Kafka
• 간편한 lift and shift 마이그레이션
• 클러스터 기반 및 서버리스
• 고가용성 및 보안
• 비용 효율적
• AWS 서비스들과 긴밀한 통합
Amazon MSK
© 2023, Amazon Web Services, Inc. or its affiliates.
Amazon Kinesis Data Streams
손쉬운 관리 및 저렴한 비용
실시간 및 탄력적 성능
안전하고 내구성있는 스토리지
다수의 실시간 분석 애플리케이션에서 사용 가능
하나의 Standard consumer 당 평균 200ms의 latency
Enhanced fan-out 사용 시 통상적으로 평균 70 ms latency
Spark
Apache
Stream storage
© 2023, Amazon Web Services, Inc. or its affiliates.
Kinesis Data Streams – On demand
Stream storage
간편한 사용 – 용량 관리가 필요없어 스트리밍 데이터 처리가
간소화
유연한 확장 – 데이터 볼륨 변화에 따라 자동으로 용량 확장 가능
자동화된 고가용성 – 기본으로 제공되는 가용성 및 내결함성
비용 절감 – 데이터 쓰기, 읽기, 및 저장량에 따른 기가바이트 당
비용 지불
© 2023, Amazon Web Services, Inc. or its affiliates.
Amazon Managed
Streaming for
Apache Kafka
(Amazon MSK)
완전 관리형 고가용성 Apache
Kafka 서비스로 데이터를
안전하게 스트리밍
자동화된 프로비저닝, 설정 및 튜닝
Apache Kafka 및 Kafka Connect 클러스터의 프로비저닝, 구성,
유지보수를 포함한 운영 오버헤드 제거
오픈소스 Apache Kafka와 완벽 호환
애플리케이션 코드를 변경할 필요 없이 Apache Kafka용으로
구축된 애플리케이션과 도구를 즉시 사용
높은 보안성
기본 수준 통합을 사용하는 안전하고 프로덕션에 바로 사용
가능한 애플리케이션을 인증과 권한관리를 위해 Amazon
Virtual Private Cloud (Amazon VPC) 에 손쉽게 배포
저렴한 비용
다른 공급업체 대비 1/13의 저렴한 비용으로 제공되는 완전
관리형 Apache Kafka로 비용을 낮게 유지
Stream storage
© 2023, Amazon Web Services, Inc. or its affiliates.
Amazon MSK Serverless
간편한 사용, 고가용성, 유연한 확장 및 저렴한 비용
클러스터 용량에 대한 정확한 클러스터 사이징이나 오버프로비저닝에
대한 걱정 없이 Apache Kafka 클러스터 손쉽게 실행 가능
용량 스케일 업/다운 및 파티션을 재할당에 대한 고민 필요 없이 즉시
I/O 스케일링
처리량 기반 요금제로 스트리밍 및 저장된 데이터 량에 대한 비용 지불
매우 가변적인 워크로드에 비용 효율적
Stream storage
© 2023, Amazon Web Services, Inc. or its affiliates.
스트림 스토리지 vs 메시지 큐
Stream storage
• 작업 단위는 Event stream
• 다수 consumer가 모든 이벤트 read 가능
• 과거 이벤트 Replay / Reprocess 가능
• 이벤트 분석 및 연관관계 확인에 최적
• Exactly-once 지원
• Streaming store의 용량 관리 필요
스트림 스토리지
• 작업 단위는 개별 메시지
• 메시지는 consume 후 삭제됨
• 서비스 간 느슨한 결합 (loosely coluple)에 최적
• 간단하고 직관적인 API
• 용량 관리 불필요
• 메시지 순서 관리되지 않음
메시지 큐
© 2023, Amazon Web Services, Inc. or its affiliates.
AWS 상에서의 스트림 처리
Stream processing
• 1초 미만 지연시간을 제공하는
실시간 분석
• 오픈소스 Apache Flink 기반의 SQL,
Python 및 Scala를 사용한 스트림
처리
• Kinesis Data Analytics Studio를
통한 간단한 build-and-run 환경
• 탄력적 확장 가능한 서버리스
서비스
Amazon Kinesis Data Analytics
• 코드 작성 없이 대상에 스트리밍 데이터
전송
• 다양한 대상 지원
• 데이터 변환 기능 제공
• 탄력적 확장 가능한 서버리스 서비스
Amazon Kinesis Data Firehose
© 2023, Amazon Web Services, Inc. or its affiliates.
Amazon Kinesis Data Analytics
Amazon
OpenSearch Service
Amazon Kinesis
Data Streams
Amazon MSK
Amazon MQ
Amazon S3
Custom
connectors
Additional
streaming sources
Amazon Kinesis
Data Streams
Amazon MSK
Amazon Kinesis
Data Firehose
JDBC endpoints
Amazon S3
Amazon
OpenSearch Service
SQL, Python, Scala, Java 또는 통합 Apache Flink 애플리케이션을 사용하여 실시간으로 스트리밍과 상호 작용
KDA Studio의 애드혹 분석을 KDA for Apache Flink에 내구성 있는 상태 보존 애플리케이션으로 배포
완전 관리형의 탄력적인 스트림 처리 애플리케이션 구축
OUTPUT
Send processed data to
analytics tools so you can create
alerts and respond in real time
Kinesis Data Analytics Studio
(SQL/Python/Scala/
serverless notebooks)
Stateful stream processing
using Apache Flink
KINESIS DATA ANALYTICS
Stream processing
© 2023, Amazon Web Services, Inc. or its affiliates.
Amazon Kinesis Data Firehose
Amazon S3
Amazon Redshift /
Serverless
Amazon
OpenSearch Service
Splunk
HTTP endpoints
INPUT
Kinesis Data Firehose로
데이터 캡쳐 및 전송
OUTPUT
선호하는 BI 도구 사용하여
스트리밍 데이터 분석
제로 관리 및 원활한 탄력성
데이터 저장소에 직접 통합
서버리스 형태의 지속적 데이터 변환 서비스
준실시간
Parquet/ORC로의 데이터 포멧 변환
Datadog, Sumo Logic, New Relic 및 MongoDB에
데이터 직접 전송
Kinesis Data Firehose
선택한 대상에 지속적으로
데이터 준비 및 적재
Stream processing
© 2023, Amazon Web Services, Inc. or its affiliates.
스트림 처리
Glue Streaming
• 간단한 작업 스케줄링으로 복잡한
ETL 파이프라인 처리
• 스트리밍 데이터에 대한 정제 및
변환
• 데이터 스트림에 대한 스키마
관리 및 강제
• 스트리밍 데이터와 과거데이터를
연동한 준실시간 데이터 분석
• 데이터 웨어하우스와 관리형으로
통합된 손쉽게 사용 가능한 스트리밍
데이터 수집
Redshift Streaming Ingestion
AWS Lambda
• Kafka와 Kinesis 의 스트림을 서버리스
형태로 처리
• 자동 스케일링
• 다양한 언어 지원
Stream processing
© 2023, Amazon Web Services, Inc. or its affiliates.
기업에서의 AWS 스트리밍 데이터 서비스 활용
Stream analytics and integration
Stream sources Stream ingestion Outcome
Stream storage
Amazon Kinesis Agent
AWS IoT Core
AWS Database Migration
Service (AWS DMS)
Amazon Kinesis
Data Streams
Amazon Managed
Streaming for
Apache Kafka
(Amazon MSK)
AWS
Lambda
Amazon
EMR
[Wed Oct 11 14:32:52
2018] [error] [client
/live/ap/htdocs/test
IOT sensors
Enterprise apps
Social media
Logs
Amazon Kinesis
Data Analytics
Stream processing
Stream integration
Amazon Kinesis
Data Firehose
AWS Glue
Amazon S3
Amazon Redshift
Amazon
OpenSearch Service
Amazon MSK connect
Automatic decision
Interactive dashboard
Alerting
Real-time ML inference
AWS SDK
© 2023, Amazon Web Services, Inc. or its affiliates.
© 2023, Amazon Web Services, Inc. or its affiliates.
참조 아키텍처 및
자주 사용되는
스트리밍 데이터 아키텍처 패턴
© 2023, Amazon Web Services, Inc. or its affiliates.
스트리밍 데이터 참조 아키텍처
https://docs.aws.amazon.com/wellarchitected/latest/analytics-lens/reference-architecture-2.html
Amazon MSK
kafka
1. Data Source
2. Stream ingestion
and producers
3. Streaming
storage
4. Stream
processing and
consumers
5. Downstream
destination
© 2023, Amazon Web Services, Inc. or its affiliates.
실시간 원격 검침을 통한 애플리케이션 성능 분석
Amazon Kinesis
Data Streams
Raw metrics
Raw traces Amazon OpenSearch Service
Amazon Kinesis
Data Firehose
Aggregated metrics
Raw traces
Amazon Kinesis
Data Analytics
Amazon SNS
Amazon Kinesis
Data Streams
AWS Lambda
Alert
© 2023, Amazon Web Services, Inc. or its affiliates.
실시간 모뎀 단말 모니터링
Ingestion
application Amazon Kinesis
Data Streams
AWS Lambda Amazon DynamoDB Customer application
Current device status
Amazon Kinesis
Data Analytics
Amazon OpenSearch Service Real-time dashboard
Metrics aggregation
© 2023, Amazon Web Services, Inc. or its affiliates.
변경데이터 캡쳐 (CDC) 를 사용한 플랫폼 현대화
Amazon RDS
MSK
Connect
Amazon S3
Data lake
Amazon MSK
MSK
Connect
AWS Lambda Amazon SNS
Real-time alert
CDC
© 2023, Amazon Web Services, Inc. or its affiliates.
데이터 웨어하우스 상의 준실시간 분석
Amazon Kinesis
Data Streams
Amazon Redshift
Data sources
Capture Transformation
Amazon QuickSight
Visualisation
© 2023, Amazon Web Services, Inc. or its affiliates.
© 2023, Amazon Web Services, Inc. or its affiliates.
DEMO
© 2023, Amazon Web Services, Inc. or its affiliates.
DEMO STEP
1. KDS stream 생성
2. Data generator 에서 데이터 생성
3. KDA Studio 로 data query, aggregation, join 및 시각화
4. Stream 데이터를 Aggregation 해서 새로운 KDS Stream 으로 sink
Stream processing
Source Stream ingestion Destination
Stream storage
Data Generator
Amazon Kinesis
Data Streams
Amazon Kinesis
Data Analytics
Studio
Amazon Kinesis
Data Streams
Amazon S3
© 2023, Amazon Web Services, Inc. or its affiliates.
Thank you!
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.

More Related Content

PDF
Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO,...
PDF
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...
PDF
Amazon DynamoDB - Use Cases and Cost Optimization - 발표자: 이혁, DynamoDB Special...
PDF
Amazon EMR - Enhancements on Cost/Performance, Serverless - 발표자: 김기영, Sr Anal...
PDF
SK Telecom - 망관리 프로젝트 TANGO의 오픈소스 데이터베이스 전환 여정 - 발표자 : 박승전, Project Manager, ...
PDF
Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New feature...
PDF
LG전자 - Amazon Aurora 및 RDS 블루/그린 배포를 이용한 데이터베이스 업그레이드 안정성 확보 - 발표자: 이은경 책임, L...
PDF
사례로 알아보는 Database Migration Service : 데이터베이스 및 데이터 이관, 통합, 분리, 분석의 도구 - 발표자: ...
Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO,...
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...
Amazon DynamoDB - Use Cases and Cost Optimization - 발표자: 이혁, DynamoDB Special...
Amazon EMR - Enhancements on Cost/Performance, Serverless - 발표자: 김기영, Sr Anal...
SK Telecom - 망관리 프로젝트 TANGO의 오픈소스 데이터베이스 전환 여정 - 발표자 : 박승전, Project Manager, ...
Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New feature...
LG전자 - Amazon Aurora 및 RDS 블루/그린 배포를 이용한 데이터베이스 업그레이드 안정성 확보 - 발표자: 이은경 책임, L...
사례로 알아보는 Database Migration Service : 데이터베이스 및 데이터 이관, 통합, 분리, 분석의 도구 - 발표자: ...

What's hot (20)

PDF
[Keynote] 슬기로운 AWS 데이터베이스 선택하기 - 발표자: 강민석, Korea Database SA Manager, WWSO, A...
PDF
금융 회사를 위한 클라우드 이용 가이드 – 신은수 AWS 솔루션즈 아키텍트, 김호영 AWS 정책협력 담당:: AWS Cloud Week ...
PDF
AWS Summit Seoul 2023 | KB의 통합 음성 AI서비스의 현재와 미래 - 하이브리드 클라우드 기반의 똑똑한 AI상담원 콜봇
PDF
KB국민은행은 시작했다 -  쉽고 빠른 클라우드 거버넌스 적용 전략 - 강병억 AWS 솔루션즈 아키텍트 / 장강홍 클라우드플랫폼단 차장, ...
PDF
Internal Architecture of Amazon Aurora (Level 400) - 발표자: 정달영, APAC RDS Speci...
PDF
AWS 활용하여 핀테크 신사업 시작하기 - 피플펀드 고객 사례 :: 지성국 :: AWS Finance Seminar
PDF
AWS Summit Seoul 2023 | 실시간 CDC 데이터 처리! Modern Transactional Data Lake 구축하기
PDF
고객의 플랫폼/서비스를 개선한 국내 사례 살펴보기 – 장준성 AWS 솔루션즈 아키텍트, 강산아 NDREAM 팀장, 송영호 야놀자 매니저, ...
PDF
[2017 AWS Startup Day] AWS 비용 최대 90% 절감하기: 스팟 인스턴스 Deep-Dive
PDF
AWS 기반 클라우드 아키텍처 모범사례 - 삼성전자 개발자 포털/개발자 워크스페이스 - 정영준 솔루션즈 아키텍트, AWS / 유현성 수석,...
PDF
AWS Summit Seoul 2023 | Amazon EKS, 중요한 건 꺾이지 않는 안정성
PDF
[AWS Builders] AWS와 함께하는 클라우드 컴퓨팅
PDF
AWS Black Belt online seminar 2017 Snowball
PDF
Amazon VPC와 ELB/Direct Connect/VPN 알아보기 - 김세준, AWS 솔루션즈 아키텍트
PDF
AWS 클라우드 핵심 서비스로 클라우드 기반 아키텍처 빠르게 구성하기 - 문종민 솔루션즈 아키텍트, AWS :: AWS Summit Seo...
PDF
IAM 정책을 잘 알아야 AWS 보안도 쉬워진다. 이것은 꼭 알고 가자! - 신은수 솔루션즈 아키텍트, AWS :: AWS Summit S...
PDF
클라우드 비용, 어떻게 줄일 수 있을까? - 구본민, AWS 클라우드 파이넌셜 매니저 :: AWS Builders 100
PDF
AWS Summit Seoul 2023 |투자를 모두에게, 토스증권의 MTS 구축 사례
PDF
AWS Summit Seoul 2023 | 성공적인 AWS RDS 마이그레이션을 위한 여정과 필수 고려사항
PDF
오토스케일링 제대로 활용하기 (김일호) - AWS 웨비나 시리즈 2015
[Keynote] 슬기로운 AWS 데이터베이스 선택하기 - 발표자: 강민석, Korea Database SA Manager, WWSO, A...
금융 회사를 위한 클라우드 이용 가이드 – 신은수 AWS 솔루션즈 아키텍트, 김호영 AWS 정책협력 담당:: AWS Cloud Week ...
AWS Summit Seoul 2023 | KB의 통합 음성 AI서비스의 현재와 미래 - 하이브리드 클라우드 기반의 똑똑한 AI상담원 콜봇
KB국민은행은 시작했다 -  쉽고 빠른 클라우드 거버넌스 적용 전략 - 강병억 AWS 솔루션즈 아키텍트 / 장강홍 클라우드플랫폼단 차장, ...
Internal Architecture of Amazon Aurora (Level 400) - 발표자: 정달영, APAC RDS Speci...
AWS 활용하여 핀테크 신사업 시작하기 - 피플펀드 고객 사례 :: 지성국 :: AWS Finance Seminar
AWS Summit Seoul 2023 | 실시간 CDC 데이터 처리! Modern Transactional Data Lake 구축하기
고객의 플랫폼/서비스를 개선한 국내 사례 살펴보기 – 장준성 AWS 솔루션즈 아키텍트, 강산아 NDREAM 팀장, 송영호 야놀자 매니저, ...
[2017 AWS Startup Day] AWS 비용 최대 90% 절감하기: 스팟 인스턴스 Deep-Dive
AWS 기반 클라우드 아키텍처 모범사례 - 삼성전자 개발자 포털/개발자 워크스페이스 - 정영준 솔루션즈 아키텍트, AWS / 유현성 수석,...
AWS Summit Seoul 2023 | Amazon EKS, 중요한 건 꺾이지 않는 안정성
[AWS Builders] AWS와 함께하는 클라우드 컴퓨팅
AWS Black Belt online seminar 2017 Snowball
Amazon VPC와 ELB/Direct Connect/VPN 알아보기 - 김세준, AWS 솔루션즈 아키텍트
AWS 클라우드 핵심 서비스로 클라우드 기반 아키텍처 빠르게 구성하기 - 문종민 솔루션즈 아키텍트, AWS :: AWS Summit Seo...
IAM 정책을 잘 알아야 AWS 보안도 쉬워진다. 이것은 꼭 알고 가자! - 신은수 솔루션즈 아키텍트, AWS :: AWS Summit S...
클라우드 비용, 어떻게 줄일 수 있을까? - 구본민, AWS 클라우드 파이넌셜 매니저 :: AWS Builders 100
AWS Summit Seoul 2023 |투자를 모두에게, 토스증권의 MTS 구축 사례
AWS Summit Seoul 2023 | 성공적인 AWS RDS 마이그레이션을 위한 여정과 필수 고려사항
오토스케일링 제대로 활용하기 (김일호) - AWS 웨비나 시리즈 2015
Ad

Similar to Demystify Streaming on AWS - 발표자: 이종혁, Sr Analytics Specialist, WWSO, AWS ::: AWS Data Roadshow 2023 (20)

PDF
실시간 스트리밍 분석 Kinesis Data Analytics Deep Dive
PDF
AWS 기반의 대용량 실시간 스트리밍 데이터 분석 아키텍처 패턴::김필중::AWS Summit Seoul 2018
PDF
Amazon kinesis와 elasticsearch service로 만드는 실시간 데이터 분석 플랫폼 :: 박철수 :: AWS Summi...
PDF
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
PDF
AWS 신규 데이터 분석 서비스 - QuickSight, Kinesis Firehose 등 (양승도) :: re:Invent re:Cap ...
PDF
클라우드 기반 실시간 데이터 분석 및 예측 - 윤석찬 테크 에반젤리스트:: AWS Cloud Track 2 Advanced
PPTX
AWS Kinesis
PDF
빅데이터를 위한 AWS 모범사례와 아키텍처 구축 패턴 :: 양승도 :: AWS Summit Seoul 2016
PDF
Ad-Tech on AWS 세미나 | AWS와 데이터 분석
PDF
AWS Lambda를 기반으로한 실시간 빅테이터 처리하기
PDF
AWS 서버리스 컴퓨팅-김필중 :: 2015 리인벤트 리캡 게이밍
PDF
금융 데이터분석을 위한 효과적인 AWS 아키텍쳐::유다니엘::AWS Summit Seoul 2018
PPTX
Kinesis를 이용한 데이터 수집
PDF
AWS Summit Seoul 2023 | 서버리스, 이제는 데이터 분석에서 활용해요!
PDF
AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석
PDF
30분만에 만드는 AWS 기반 빅데이터 분석 애플리케이션::안효빈::AWS Summit Seoul 2018
PDF
AWS Summit Seoul 2023 | Confluent와 함께하는 실시간 데이터와 클라우드 여정
PDF
서버리스 기반 데이터베이스 모델링 및 운영 노하우 알아보기 - 변규현 SW 엔지니어, 당근마켓 / 김선형 CTO, 티클 :: AWS Sum...
PDF
SK planet Streaming system
PDF
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
실시간 스트리밍 분석 Kinesis Data Analytics Deep Dive
AWS 기반의 대용량 실시간 스트리밍 데이터 분석 아키텍처 패턴::김필중::AWS Summit Seoul 2018
Amazon kinesis와 elasticsearch service로 만드는 실시간 데이터 분석 플랫폼 :: 박철수 :: AWS Summi...
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
AWS 신규 데이터 분석 서비스 - QuickSight, Kinesis Firehose 등 (양승도) :: re:Invent re:Cap ...
클라우드 기반 실시간 데이터 분석 및 예측 - 윤석찬 테크 에반젤리스트:: AWS Cloud Track 2 Advanced
AWS Kinesis
빅데이터를 위한 AWS 모범사례와 아키텍처 구축 패턴 :: 양승도 :: AWS Summit Seoul 2016
Ad-Tech on AWS 세미나 | AWS와 데이터 분석
AWS Lambda를 기반으로한 실시간 빅테이터 처리하기
AWS 서버리스 컴퓨팅-김필중 :: 2015 리인벤트 리캡 게이밍
금융 데이터분석을 위한 효과적인 AWS 아키텍쳐::유다니엘::AWS Summit Seoul 2018
Kinesis를 이용한 데이터 수집
AWS Summit Seoul 2023 | 서버리스, 이제는 데이터 분석에서 활용해요!
AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석
30분만에 만드는 AWS 기반 빅데이터 분석 애플리케이션::안효빈::AWS Summit Seoul 2018
AWS Summit Seoul 2023 | Confluent와 함께하는 실시간 데이터와 클라우드 여정
서버리스 기반 데이터베이스 모델링 및 운영 노하우 알아보기 - 변규현 SW 엔지니어, 당근마켓 / 김선형 CTO, 티클 :: AWS Sum...
SK planet Streaming system
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
Ad

More from Amazon Web Services Korea (20)

PDF
[D3T1S01] Gen AI를 위한 Amazon Aurora 활용 사례 방법
PDF
[D3T1S06] Neptune Analytics with Vector Similarity Search
PDF
[D3T1S03] Amazon DynamoDB design puzzlers
PDF
[D3T1S04] Aurora PostgreSQL performance monitoring and troubleshooting by use...
PDF
[D3T1S07] AWS S3 - 클라우드 환경에서 데이터베이스 보호하기
PDF
[D3T1S05] Aurora 혼합 구성 아키텍처를 사용하여 예상치 못한 트래픽 급증 대응하기
PDF
[D3T1S02] Aurora Limitless Database Introduction
PDF
[D3T2S01] Amazon Aurora MySQL 메이저 버전 업그레이드 및 Amazon B/G Deployments 실습
PDF
[D3T2S03] Data&AI Roadshow 2024 - Amazon DocumentDB 실습
PDF
AWS Modern Infra with Storage Roadshow 2023 - Day 2
PDF
AWS Modern Infra with Storage Roadshow 2023 - Day 1
PDF
Amazon DocumentDB - Architecture 및 Best Practice (Level 200) - 발표자: 장동훈, Sr. ...
PDF
Amazon Elasticache - Fully managed, Redis & Memcached Compatible Service (Lev...
PDF
From Insights to Action, How to build and maintain a Data Driven Organization...
PDF
[Keynote] Accelerating Business Outcomes with AWS Data - 발표자: Saeed Gharadagh...
PDF
KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정 - 발표자: 박창용 과장, 데이터전략본부, AI혁신부, KB카드│강병억, Soluti...
PDF
코리안리 - 데이터 분석 플랫폼 구축 여정, 그 시작과 과제 - 발표자: 김석기 그룹장, 데이터비즈니스센터, 메가존클라우드 ::: AWS ...
PDF
LG 이노텍 - Amazon Redshift Serverless를 활용한 데이터 분석 플랫폼 혁신 과정 - 발표자: 유재상 선임, LG이노...
PDF
[Keynote] Data Driven Organizations with AWS Data - 발표자: Agnes Panosian, Head...
PDF
AWS Summit Seoul 2023 | Amazon Neptune 및 Elastic을 이용한 추천 서비스 및 검색 플랫폼 구축하기
[D3T1S01] Gen AI를 위한 Amazon Aurora 활용 사례 방법
[D3T1S06] Neptune Analytics with Vector Similarity Search
[D3T1S03] Amazon DynamoDB design puzzlers
[D3T1S04] Aurora PostgreSQL performance monitoring and troubleshooting by use...
[D3T1S07] AWS S3 - 클라우드 환경에서 데이터베이스 보호하기
[D3T1S05] Aurora 혼합 구성 아키텍처를 사용하여 예상치 못한 트래픽 급증 대응하기
[D3T1S02] Aurora Limitless Database Introduction
[D3T2S01] Amazon Aurora MySQL 메이저 버전 업그레이드 및 Amazon B/G Deployments 실습
[D3T2S03] Data&AI Roadshow 2024 - Amazon DocumentDB 실습
AWS Modern Infra with Storage Roadshow 2023 - Day 2
AWS Modern Infra with Storage Roadshow 2023 - Day 1
Amazon DocumentDB - Architecture 및 Best Practice (Level 200) - 발표자: 장동훈, Sr. ...
Amazon Elasticache - Fully managed, Redis & Memcached Compatible Service (Lev...
From Insights to Action, How to build and maintain a Data Driven Organization...
[Keynote] Accelerating Business Outcomes with AWS Data - 발표자: Saeed Gharadagh...
KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정 - 발표자: 박창용 과장, 데이터전략본부, AI혁신부, KB카드│강병억, Soluti...
코리안리 - 데이터 분석 플랫폼 구축 여정, 그 시작과 과제 - 발표자: 김석기 그룹장, 데이터비즈니스센터, 메가존클라우드 ::: AWS ...
LG 이노텍 - Amazon Redshift Serverless를 활용한 데이터 분석 플랫폼 혁신 과정 - 발표자: 유재상 선임, LG이노...
[Keynote] Data Driven Organizations with AWS Data - 발표자: Agnes Panosian, Head...
AWS Summit Seoul 2023 | Amazon Neptune 및 Elastic을 이용한 추천 서비스 및 검색 플랫폼 구축하기

Demystify Streaming on AWS - 발표자: 이종혁, Sr Analytics Specialist, WWSO, AWS ::: AWS Data Roadshow 2023

  • 1. © 2023, Amazon Web Services, Inc. or its affiliates. © 2023, Amazon Web Services, Inc. or its affiliates. Demystify data streaming on AWS JongHyok Lee (he/him) Sr Analytics Solutions Architect AWS
  • 2. © 2023, Amazon Web Services, Inc. or its affiliates. 데이터에서 인사이트 도출 방법은 항상 변화 데이터의 가치 대용량 파생된 인사이트 실시간 인사이트 빠른 속도 Data warehouse Data Lake Data Streams
  • 3. © 2023, Amazon Web Services, Inc. or its affiliates. 실시간(Real-time)의 의미 마이크로서비스 반응분석 (웹 및 모바일 앱 알림) milliseconds 로그수집 IoT 디바이스 관리, 변경데이터 추출 (CDC) seconds 데이터레이크 및 데이터웨어하우스로의 스트리밍 ETL minutes
  • 4. © 2023, Amazon Web Services, Inc. or its affiliates. 실시간 스트리밍 데이터 용어들 소스 Source 저장 Sink 데이터 보존 Data retention 생산자 Producer 소비자 Consumer
  • 5. © 2023, Amazon Web Services, Inc. or its affiliates. © 2023, Amazon Web Services, Inc. or its affiliates. 유즈케이스와 스트리밍 데이터 파이프라인
  • 6. © 2023, Amazon Web Services, Inc. or its affiliates. 로그 모니터링 플랫폼 현대화 데이터 웨어하우스 활용 준실시간 분석 커넥티드 디바이스 모니터링 일반적인 유즈케이스에서 관찰되는 데이터 스트리밍 주요 요건들
  • 7. © 2023, Amazon Web Services, Inc. or its affiliates. 빠른 속도로 생산되는 대량의 데이터 다양한 형태의 데이터 수많은 데이터 원천 빠른 시간 안에 처리
  • 8. © 2023, Amazon Web Services, Inc. or its affiliates. 실시간 스트리밍 데이터 파이프라인 Source 원천 Devices or applications that produce real-time data at high velocity Stream ingestion 스트림 수집 Data from tens of thousands of data sources can be collected and ingested in real time Stream storage 스트림 스토리지 Data is stored in the order received for a set time and can be replayed indefinitely during that time Stream processing 스트림 처리 Records are read in the order they’re produced, allowing for real-time analytics or streaming ETL Destination 대상 Data lake Data warehouse Database OpenSearch Event driven Applications
  • 9. © 2023, Amazon Web Services, Inc. or its affiliates. 스트림 수집 • AWS IoT • Amazon CloudWatch • Amazon DynamoDB • AWS Database Migration Service • Amazon Redshift • AWS MSK Connect, Kafka Stream • Kinesis Agent • Kinesis Producer Library • AWS SDK Stream ingestion Toolkits/Libraries AWS service integrations
  • 10. © 2023, Amazon Web Services, Inc. or its affiliates. AWS 상에서의 스트림 스토리지 Stream storage • 클라우드 네이티브 서비스 • 손쉬운 사용 • 탄력적인 서버리스 서비스 • 고가용성 및 보안 • 비용 효율적 • AWS 서비스들과 긴밀한 통합 Amazon Kinesis Data Streams • 완전관리형 Apache Kafka • 간편한 lift and shift 마이그레이션 • 클러스터 기반 및 서버리스 • 고가용성 및 보안 • 비용 효율적 • AWS 서비스들과 긴밀한 통합 Amazon MSK
  • 11. © 2023, Amazon Web Services, Inc. or its affiliates. Amazon Kinesis Data Streams 손쉬운 관리 및 저렴한 비용 실시간 및 탄력적 성능 안전하고 내구성있는 스토리지 다수의 실시간 분석 애플리케이션에서 사용 가능 하나의 Standard consumer 당 평균 200ms의 latency Enhanced fan-out 사용 시 통상적으로 평균 70 ms latency Spark Apache Stream storage
  • 12. © 2023, Amazon Web Services, Inc. or its affiliates. Kinesis Data Streams – On demand Stream storage 간편한 사용 – 용량 관리가 필요없어 스트리밍 데이터 처리가 간소화 유연한 확장 – 데이터 볼륨 변화에 따라 자동으로 용량 확장 가능 자동화된 고가용성 – 기본으로 제공되는 가용성 및 내결함성 비용 절감 – 데이터 쓰기, 읽기, 및 저장량에 따른 기가바이트 당 비용 지불
  • 13. © 2023, Amazon Web Services, Inc. or its affiliates. Amazon Managed Streaming for Apache Kafka (Amazon MSK) 완전 관리형 고가용성 Apache Kafka 서비스로 데이터를 안전하게 스트리밍 자동화된 프로비저닝, 설정 및 튜닝 Apache Kafka 및 Kafka Connect 클러스터의 프로비저닝, 구성, 유지보수를 포함한 운영 오버헤드 제거 오픈소스 Apache Kafka와 완벽 호환 애플리케이션 코드를 변경할 필요 없이 Apache Kafka용으로 구축된 애플리케이션과 도구를 즉시 사용 높은 보안성 기본 수준 통합을 사용하는 안전하고 프로덕션에 바로 사용 가능한 애플리케이션을 인증과 권한관리를 위해 Amazon Virtual Private Cloud (Amazon VPC) 에 손쉽게 배포 저렴한 비용 다른 공급업체 대비 1/13의 저렴한 비용으로 제공되는 완전 관리형 Apache Kafka로 비용을 낮게 유지 Stream storage
  • 14. © 2023, Amazon Web Services, Inc. or its affiliates. Amazon MSK Serverless 간편한 사용, 고가용성, 유연한 확장 및 저렴한 비용 클러스터 용량에 대한 정확한 클러스터 사이징이나 오버프로비저닝에 대한 걱정 없이 Apache Kafka 클러스터 손쉽게 실행 가능 용량 스케일 업/다운 및 파티션을 재할당에 대한 고민 필요 없이 즉시 I/O 스케일링 처리량 기반 요금제로 스트리밍 및 저장된 데이터 량에 대한 비용 지불 매우 가변적인 워크로드에 비용 효율적 Stream storage
  • 15. © 2023, Amazon Web Services, Inc. or its affiliates. 스트림 스토리지 vs 메시지 큐 Stream storage • 작업 단위는 Event stream • 다수 consumer가 모든 이벤트 read 가능 • 과거 이벤트 Replay / Reprocess 가능 • 이벤트 분석 및 연관관계 확인에 최적 • Exactly-once 지원 • Streaming store의 용량 관리 필요 스트림 스토리지 • 작업 단위는 개별 메시지 • 메시지는 consume 후 삭제됨 • 서비스 간 느슨한 결합 (loosely coluple)에 최적 • 간단하고 직관적인 API • 용량 관리 불필요 • 메시지 순서 관리되지 않음 메시지 큐
  • 16. © 2023, Amazon Web Services, Inc. or its affiliates. AWS 상에서의 스트림 처리 Stream processing • 1초 미만 지연시간을 제공하는 실시간 분석 • 오픈소스 Apache Flink 기반의 SQL, Python 및 Scala를 사용한 스트림 처리 • Kinesis Data Analytics Studio를 통한 간단한 build-and-run 환경 • 탄력적 확장 가능한 서버리스 서비스 Amazon Kinesis Data Analytics • 코드 작성 없이 대상에 스트리밍 데이터 전송 • 다양한 대상 지원 • 데이터 변환 기능 제공 • 탄력적 확장 가능한 서버리스 서비스 Amazon Kinesis Data Firehose
  • 17. © 2023, Amazon Web Services, Inc. or its affiliates. Amazon Kinesis Data Analytics Amazon OpenSearch Service Amazon Kinesis Data Streams Amazon MSK Amazon MQ Amazon S3 Custom connectors Additional streaming sources Amazon Kinesis Data Streams Amazon MSK Amazon Kinesis Data Firehose JDBC endpoints Amazon S3 Amazon OpenSearch Service SQL, Python, Scala, Java 또는 통합 Apache Flink 애플리케이션을 사용하여 실시간으로 스트리밍과 상호 작용 KDA Studio의 애드혹 분석을 KDA for Apache Flink에 내구성 있는 상태 보존 애플리케이션으로 배포 완전 관리형의 탄력적인 스트림 처리 애플리케이션 구축 OUTPUT Send processed data to analytics tools so you can create alerts and respond in real time Kinesis Data Analytics Studio (SQL/Python/Scala/ serverless notebooks) Stateful stream processing using Apache Flink KINESIS DATA ANALYTICS Stream processing
  • 18. © 2023, Amazon Web Services, Inc. or its affiliates. Amazon Kinesis Data Firehose Amazon S3 Amazon Redshift / Serverless Amazon OpenSearch Service Splunk HTTP endpoints INPUT Kinesis Data Firehose로 데이터 캡쳐 및 전송 OUTPUT 선호하는 BI 도구 사용하여 스트리밍 데이터 분석 제로 관리 및 원활한 탄력성 데이터 저장소에 직접 통합 서버리스 형태의 지속적 데이터 변환 서비스 준실시간 Parquet/ORC로의 데이터 포멧 변환 Datadog, Sumo Logic, New Relic 및 MongoDB에 데이터 직접 전송 Kinesis Data Firehose 선택한 대상에 지속적으로 데이터 준비 및 적재 Stream processing
  • 19. © 2023, Amazon Web Services, Inc. or its affiliates. 스트림 처리 Glue Streaming • 간단한 작업 스케줄링으로 복잡한 ETL 파이프라인 처리 • 스트리밍 데이터에 대한 정제 및 변환 • 데이터 스트림에 대한 스키마 관리 및 강제 • 스트리밍 데이터와 과거데이터를 연동한 준실시간 데이터 분석 • 데이터 웨어하우스와 관리형으로 통합된 손쉽게 사용 가능한 스트리밍 데이터 수집 Redshift Streaming Ingestion AWS Lambda • Kafka와 Kinesis 의 스트림을 서버리스 형태로 처리 • 자동 스케일링 • 다양한 언어 지원 Stream processing
  • 20. © 2023, Amazon Web Services, Inc. or its affiliates. 기업에서의 AWS 스트리밍 데이터 서비스 활용 Stream analytics and integration Stream sources Stream ingestion Outcome Stream storage Amazon Kinesis Agent AWS IoT Core AWS Database Migration Service (AWS DMS) Amazon Kinesis Data Streams Amazon Managed Streaming for Apache Kafka (Amazon MSK) AWS Lambda Amazon EMR [Wed Oct 11 14:32:52 2018] [error] [client /live/ap/htdocs/test IOT sensors Enterprise apps Social media Logs Amazon Kinesis Data Analytics Stream processing Stream integration Amazon Kinesis Data Firehose AWS Glue Amazon S3 Amazon Redshift Amazon OpenSearch Service Amazon MSK connect Automatic decision Interactive dashboard Alerting Real-time ML inference AWS SDK
  • 21. © 2023, Amazon Web Services, Inc. or its affiliates. © 2023, Amazon Web Services, Inc. or its affiliates. 참조 아키텍처 및 자주 사용되는 스트리밍 데이터 아키텍처 패턴
  • 22. © 2023, Amazon Web Services, Inc. or its affiliates. 스트리밍 데이터 참조 아키텍처 https://docs.aws.amazon.com/wellarchitected/latest/analytics-lens/reference-architecture-2.html Amazon MSK kafka 1. Data Source 2. Stream ingestion and producers 3. Streaming storage 4. Stream processing and consumers 5. Downstream destination
  • 23. © 2023, Amazon Web Services, Inc. or its affiliates. 실시간 원격 검침을 통한 애플리케이션 성능 분석 Amazon Kinesis Data Streams Raw metrics Raw traces Amazon OpenSearch Service Amazon Kinesis Data Firehose Aggregated metrics Raw traces Amazon Kinesis Data Analytics Amazon SNS Amazon Kinesis Data Streams AWS Lambda Alert
  • 24. © 2023, Amazon Web Services, Inc. or its affiliates. 실시간 모뎀 단말 모니터링 Ingestion application Amazon Kinesis Data Streams AWS Lambda Amazon DynamoDB Customer application Current device status Amazon Kinesis Data Analytics Amazon OpenSearch Service Real-time dashboard Metrics aggregation
  • 25. © 2023, Amazon Web Services, Inc. or its affiliates. 변경데이터 캡쳐 (CDC) 를 사용한 플랫폼 현대화 Amazon RDS MSK Connect Amazon S3 Data lake Amazon MSK MSK Connect AWS Lambda Amazon SNS Real-time alert CDC
  • 26. © 2023, Amazon Web Services, Inc. or its affiliates. 데이터 웨어하우스 상의 준실시간 분석 Amazon Kinesis Data Streams Amazon Redshift Data sources Capture Transformation Amazon QuickSight Visualisation
  • 27. © 2023, Amazon Web Services, Inc. or its affiliates. © 2023, Amazon Web Services, Inc. or its affiliates. DEMO
  • 28. © 2023, Amazon Web Services, Inc. or its affiliates. DEMO STEP 1. KDS stream 생성 2. Data generator 에서 데이터 생성 3. KDA Studio 로 data query, aggregation, join 및 시각화 4. Stream 데이터를 Aggregation 해서 새로운 KDS Stream 으로 sink Stream processing Source Stream ingestion Destination Stream storage Data Generator Amazon Kinesis Data Streams Amazon Kinesis Data Analytics Studio Amazon Kinesis Data Streams Amazon S3
  • 29. © 2023, Amazon Web Services, Inc. or its affiliates. Thank you! © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.