SlideShare a Scribd company logo
3
Most read
9
Most read
13
Most read
MS 빅데이터 서비스 및
게임사 PoC 사례 소개
This content was developed prior to the product’s release to manufacturing, and as such, we cannot guarantee that all details included herein
will be exactly as what is found in the shipping product. Because Microsoft must respond to changing market conditions, it should not be
interpreted to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information presented after the
date of publication. The information represents the product at the time this document was printed and should be used for planning purposes
only. Information subject to change at any time without prior notice.
 빅데이터란 무엇인가?
 Why?  Azure Managed 서비스 소개
 PoC 목표
 PoC 결과
 To-Be 개선 방안 제언
• 가트너의 정의 (2012년)
 “빅 데이터는 큰 용량, 빠른 속도, 그리고(또는) 높은 다양성을 갖는 정보 자산으로서 이를 통해 의사 결정 및
통찰 발견, 프로세스 최적화를 향상시키기 위해서는 새로운 형태의 처리 방식이 필요하다.”
• 빅데이터의 특징 -3 Vs of extreme scale
 Volume : The data exceeds the physical limits of vertical scalability, implying a scale out solution
 수직적 확장에 한계가 있는 대규모 데이터
 Velocity : The decision window is small compared with the data change rate
 데이터 빠른 변화로 의사 결정 시간이 매우 짧음
 Variety : Many different formats make integration difficult and expensive
 다양한 데이터 포맷으로 통합의 난이도 및 비용이 높음
빅데이터란 무엇인가?
빅데이터 유형
Big data
Log files
Data market feeds
Text/image
Click stream
Wikis/blogs
Sensors/RFID/
devices
Social sentiment
Web 2.0
빅데이타 정의와 아파치 하둡
Machine Learning
and Analytics
(예시) Big Data as part of Cortana Intelligence
Action
People
Automated
Systems
Apps
Web
Mobile
Bots
Intelligence
Dashboards &
Visualizations
Cortana
Bot
Framework
Cognitive
Services
Power BI
Information
Management
Event Hubs
Data Catalog
Data Factory
Intelligence
Stream Analytics
HDInsight
(Hadoop & Spark)
Big Data Stores
Data Lake Store
SQL Data
Warehouse
Data
Sources
Apps
Sensors
and
devices
Data
Data Lake Analytics
Machine Learning
< Apache Hadoop Ecosystem >
아파치 하둡 에코 시스템과 Azure HDInsight
Microsoft’s managed Hadoop as a Service
100% open source Apache Hadoop
Built on the latest releases across Hadoop (2.6)
 향후에도 빠르게 개선되고 있는 하둡 에코 시스템의 최신 버전 활용
 검증된 배포판
Up and running in minutes with no hardware to deploy
 필요한 시점에 바로 배포하여 사용 / Opex vs. Capex / 비용 절감
Hadoop Meets the Cloud
Why HDInsight?
HDInsight 지원 클러스터 유형 및 용도
HDInsight는 4가지 대표적인 아파치 빅데이터 플랫폼을 Managed
형태로 제공하는 MS의 빅데이터 서비스 (호튼웍스 배포판 기반)
1. Hadoop : 배치
2. HBase : NoSQL
3. Storm : 실시간 스트리밍
4. Spark : 배치 & 스트리밍 & 머신러닝
HDInsight – Spark 클러스터 구성 (예시)
< HDInsight Spark 클러스터 구성 화면 >
< HDInsight Spark 클러스터 포탈 >
MS 빅데이터 서비스 및 게임사 PoC 사례 소개
• 고객사 현황
On-Prem과 클라우드를 혼용하여 게임 로그 데이터 분석을 수행 중
Hadoop 환경에서 맵리듀스 어플리케이션 / 머신러닝 사용
고객사 로그 데이터 분석 현황
PoC 목표 (1/2)
(1) 로그 데이터 분석 인프라 운영 환경 개선
Apache Drill 및 Spark 적용으로 분석 성능 개선
 하둡 외 추가적인 분석 플랫폼 옵션 및 분석 시간 감소
분석 요건 및 데이터량에 따른 유연한 분석 인프라 환경 구축
 분석 요건에 따른 유연한 인프라 구성(scale-out/in)으로
분석 목표 시간 개선 및 비용 절감 (분당 사용량 기반 과금)
PoC 목표 (2/2)
(2) 쿼리 기반 로그 데이터 분석 환경 구축
사내 데이터 전문가들을 위한 쿼리 기반 로그 데이터 분석 환경 제공
DB 쿼리 환경에 익숙한 사내 데이터 전문가에게 로그 데이터 분석 환
경 제공하여 접근성 개선 및 이에 따른 분석 리드 타임 감소
Power BI / 엑셀 등을 활용한 현업 사용자 통계 분석 환경 제공
보고서 및 대시보드 지원 (시각화)
PoC 결과
1. 클러스터 내 데이터 노드 수 증가(스케일 아웃)에 따른 성능 개선
 저용량 데이터의 경우, 스케일 아웃에 따른 성능 효과는 없음 (HDFS small data issue)
 대용량 데이터의 경우(5번 쿼리), CPU 성능이 높아질 수록 처리 시간이 크게 개선됨
(D 시리즈 기준으로 8 Core 당 약 15% 처리 시간이 선형적으로 개선)
2. 스케일업과 스케일아웃에 따른 성능 비교
 총 Core 수가 동일한 경우, 스케일업과 스케일아웃 간의 성능 차이는 없음
(D12 v2 vs. D13 v2 vs. D14 v2 간 비교)
3. VM Type 중 A시리즈와 D시리즈와의 성능 비교
 A 시리즈와 D v2 시리즈 간의 가격 차이와 테스트 성능 결과 차이를 고려하면 D 시리즈가 비용 대비
효과적임
4. Parquet 파일 성능
 대용량 파일에 대한 쿼리 기준으로 최소 40배 (Spark) / 70배 (Drill) 이상의 성능 개선
 추가적인 ETL을 고려 필요 (PoC용 데이터 기준 31분)
성능 테스트 결과 요약
로그
DBA 및 현업 사용자 로그 분석 시나리오
현업 사용자
DBA SQL Client
Power BI
분석
엑셀 Power
Pivot 분석
SQL
Query
화면 개발
분석용
Query
1
2
3
* 향후 요건에 따라 RDBMS 적용 고려
• PoC 결과를 기초로 다음과 같은 To-Be 개선 방안을 제언 드립니다.
To-Be 개선 방안 제언 (1/2)
1. Managed 서비스 기반의 SQL on Hadoop 및 Parquet 파일 적용
 현행 로그 분석 시스템 개발 시, 간편한 SQL과 업무 로직 코드 조합을 통해 개발 생산성 향상
 분석 시간 감소 및 분단위 과금으로 비용 절감
 SQL on Hadoop 및 Partquet 파일을 활용한 데이터 분석 시간 감소
 분단위 과금 / 유연한 클러스터 운영 (Pay as you go, 스케일인/아웃, 클러스터 배포/삭제 스케쥴링)
 Managed 서비스 기반의 클러스터 운영으로 효율적인 관리 가능
 향후 업데이트된 클러스터 버전에 대한 간편한 적용
• PoC 결과를 기초로 다음과 같은 To-Be 개선 방안을 제언 드립니다.
To-Be 개선 방안 제언 (2/2)
2. 쿼리 기반 분석 환경 제공으로 로그 데이터 접근성 확대
 사내 전문가(DBA / 현업 전문가)의 로그 데이터 접근성 개선 및 이에 따른 분석 리드 타임 감소
 로그 데이터의 기본 분석 지원 부담은 감소시키고 고급 분석에 업무 집중 가능
3. 분석 결과에 대한 시각화(Visualization) 기능 강화
 보고서 및 대시보드를 활용하여 분석 결과를 편리하게 사내 공유
 외부 분석 서비스 제공 시, 효과적인 도구로 활용 가능
MS 빅데이터 서비스 및 게임사 PoC 사례 소개

More Related Content

PDF
Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링
PDF
마이크로서비스를 위한 AWS 아키텍처 패턴 및 모범 사례 - AWS Summit Seoul 2017
PDF
Little Big Data #1. 바닥부터 시작하는 데이터 인프라
PDF
AWS Summit Seoul 2023 | 롯데면세점이 고객에게 차별화된 경험을 제공하는 방법: AWS Native 서비스를 활용한 초개인...
PDF
인공지능추천시스템 airs개발기_모델링과시스템
PPTX
Actual PoC guide for Virtual Desktop Infrastructure (Korean)
PDF
마이크로서비스 기반 클라우드 아키텍처 구성 모범 사례 - 윤석찬 (AWS 테크에반젤리스트)
PDF
Data Driven Decision을 위한 데이터플랫폼구축기@kakaomobility
Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링
마이크로서비스를 위한 AWS 아키텍처 패턴 및 모범 사례 - AWS Summit Seoul 2017
Little Big Data #1. 바닥부터 시작하는 데이터 인프라
AWS Summit Seoul 2023 | 롯데면세점이 고객에게 차별화된 경험을 제공하는 방법: AWS Native 서비스를 활용한 초개인...
인공지능추천시스템 airs개발기_모델링과시스템
Actual PoC guide for Virtual Desktop Infrastructure (Korean)
마이크로서비스 기반 클라우드 아키텍처 구성 모범 사례 - 윤석찬 (AWS 테크에반젤리스트)
Data Driven Decision을 위한 데이터플랫폼구축기@kakaomobility

What's hot (20)

PDF
20190806 AWS Black Belt Online Seminar AWS Glue
PDF
AWS Summit Seoul 2023 | 성공적인 AWS RDS 마이그레이션을 위한 여정과 필수 고려사항
PDF
CJ프레시웨이 All-in 클라우드 전환 사례를 통해서 알아보는 Modernization성공 사례-오동규, 메가존 인프라 모더나이제이션 그...
PDF
데이터의 힘, 스타트업의 생존을 넘어 성장으로 - 김용대 사업개발 담당, AWS / 박재영 CTO, 크몽 :: AWS Summit Seou...
PDF
Amazon EKS로 간단한 웹 애플리케이션 구축하기 - 김주영 (AWS) :: AWS Community Day Online 2021
PDF
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
PDF
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
PDF
AWS Summit Seoul 2023 | 서버리스, 이제는 데이터 분석에서 활용해요!
PDF
VPC Reachability Analyzer 使って人生が変わった話
PPTX
서비스 모니터링 구현 사례 공유 - Realtime log monitoring platform-PMon을 ...
PDF
Amazon.com 사례와 함께하는 유통 차세대 DW 구축을 위한 Data Lake 전략::구태훈::AWS Summit Seoul 2018
PDF
금융 회사를 위한 클라우드 이용 가이드 – 신은수 AWS 솔루션즈 아키텍트, 김호영 AWS 정책협력 담당:: AWS Cloud Week ...
PDF
AWS 를 활용한 저지연 라이브 (Low Latency Live) 서비스 구현 - 류재춘 컨설턴트/에반젤리스트, GS Neot다 :: AW...
PPTX
Kafka Retry and DLQ
PDF
Amazon S3を中心とするデータ分析のベストプラクティス
PDF
Aws glue를 통한 손쉬운 데이터 전처리 작업하기
PDF
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
PDF
AWS KMS를 활용하여 안전한 AWS 환경을 구축하기 위한 전략::임기성::AWS Summit Seoul 2018
PDF
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
PDF
LLM 모델 기반 서비스 실전 가이드
20190806 AWS Black Belt Online Seminar AWS Glue
AWS Summit Seoul 2023 | 성공적인 AWS RDS 마이그레이션을 위한 여정과 필수 고려사항
CJ프레시웨이 All-in 클라우드 전환 사례를 통해서 알아보는 Modernization성공 사례-오동규, 메가존 인프라 모더나이제이션 그...
데이터의 힘, 스타트업의 생존을 넘어 성장으로 - 김용대 사업개발 담당, AWS / 박재영 CTO, 크몽 :: AWS Summit Seou...
Amazon EKS로 간단한 웹 애플리케이션 구축하기 - 김주영 (AWS) :: AWS Community Day Online 2021
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
AWS Summit Seoul 2023 | 서버리스, 이제는 데이터 분석에서 활용해요!
VPC Reachability Analyzer 使って人生が変わった話
서비스 모니터링 구현 사례 공유 - Realtime log monitoring platform-PMon을 ...
Amazon.com 사례와 함께하는 유통 차세대 DW 구축을 위한 Data Lake 전략::구태훈::AWS Summit Seoul 2018
금융 회사를 위한 클라우드 이용 가이드 – 신은수 AWS 솔루션즈 아키텍트, 김호영 AWS 정책협력 담당:: AWS Cloud Week ...
AWS 를 활용한 저지연 라이브 (Low Latency Live) 서비스 구현 - 류재춘 컨설턴트/에반젤리스트, GS Neot다 :: AW...
Kafka Retry and DLQ
Amazon S3を中心とするデータ分析のベストプラクティス
Aws glue를 통한 손쉬운 데이터 전처리 작업하기
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
AWS KMS를 활용하여 안전한 AWS 환경을 구축하기 위한 전략::임기성::AWS Summit Seoul 2018
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
LLM 모델 기반 서비스 실전 가이드
Ad

Similar to MS 빅데이터 서비스 및 게임사 PoC 사례 소개 (20)

PDF
빅데이터 기술 현황과 시장 전망(2014)
PDF
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
PDF
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
PPTX
빅데이터의 활용
PDF
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
PPTX
Big data application architecture 요약2
PPTX
[경북] I'mcloud information
PDF
Enterprise conference 2013 Microsoft BigData 사례발표자료
PDF
실시간 빅 데이터 기술 현황 및 Daum 활용 사례 소개 (2013)
PDF
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례
PDF
[코세나, kosena] 빅데이터 구축 및 제안 가이드
PDF
빅데이터플랫폼구축_개방형플랫폼중심.pdf
PPTX
[경북] I'mcloud opensight
PPTX
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
PDF
000001871277_1425351249536_0.35266743797617006
PDF
빅데이터 기술 및 시장동향
PDF
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
PDF
Cloud DW technology trends and considerations for enterprises to apply snowflake
PDF
빅데이터 개요
PPTX
빅데이터의 이해
빅데이터 기술 현황과 시장 전망(2014)
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
빅데이터의 활용
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
Big data application architecture 요약2
[경북] I'mcloud information
Enterprise conference 2013 Microsoft BigData 사례발표자료
실시간 빅 데이터 기술 현황 및 Daum 활용 사례 소개 (2013)
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례
[코세나, kosena] 빅데이터 구축 및 제안 가이드
빅데이터플랫폼구축_개방형플랫폼중심.pdf
[경북] I'mcloud opensight
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
000001871277_1425351249536_0.35266743797617006
빅데이터 기술 및 시장동향
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
Cloud DW technology trends and considerations for enterprises to apply snowflake
빅데이터 개요
빅데이터의 이해
Ad

More from I Goo Lee (20)

PDF
MySQL_Fabric_운영시유의사항
PDF
MySQL Deep dive with FusionIO
PDF
From MSSQL to MySQL
PDF
From MSSQL to MariaDB
PDF
AWS Aurora 100% 활용하기
PDF
Backup automation in KAKAO
PDF
텔레그램을 이용한 양방향 모니터링 시스템 구축
PDF
Federated Engine 실무적용사례
PDF
MySQL 상태 메시지 분석 및 활용
PDF
MySQL 5.7 NF – Optimizer Improvement
PDF
MySQL 5.7 NF – JSON Datatype 활용
PDF
Intro KaKao MRTE (MySQL Realtime Traffic Emulator)
PDF
AWS 환경에서 MySQL Infra 설계하기-2본론
PDF
AWS 환경에서 MySQL Infra 설계하기-1도입부분
PDF
AWS 환경에서 MySQL BMT
PDF
MySQL Slow Query log Monitoring using Beats & ELK
PDF
MySQL Audit using Percona audit plugin and ELK
PDF
PostgreSQL 이야기
PDF
Intro KaKao ADT (Almighty Data Transmitter)
PDF
Binlog Servers 구축사례
MySQL_Fabric_운영시유의사항
MySQL Deep dive with FusionIO
From MSSQL to MySQL
From MSSQL to MariaDB
AWS Aurora 100% 활용하기
Backup automation in KAKAO
텔레그램을 이용한 양방향 모니터링 시스템 구축
Federated Engine 실무적용사례
MySQL 상태 메시지 분석 및 활용
MySQL 5.7 NF – Optimizer Improvement
MySQL 5.7 NF – JSON Datatype 활용
Intro KaKao MRTE (MySQL Realtime Traffic Emulator)
AWS 환경에서 MySQL Infra 설계하기-2본론
AWS 환경에서 MySQL Infra 설계하기-1도입부분
AWS 환경에서 MySQL BMT
MySQL Slow Query log Monitoring using Beats & ELK
MySQL Audit using Percona audit plugin and ELK
PostgreSQL 이야기
Intro KaKao ADT (Almighty Data Transmitter)
Binlog Servers 구축사례

MS 빅데이터 서비스 및 게임사 PoC 사례 소개

  • 1. MS 빅데이터 서비스 및 게임사 PoC 사례 소개 This content was developed prior to the product’s release to manufacturing, and as such, we cannot guarantee that all details included herein will be exactly as what is found in the shipping product. Because Microsoft must respond to changing market conditions, it should not be interpreted to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information presented after the date of publication. The information represents the product at the time this document was printed and should be used for planning purposes only. Information subject to change at any time without prior notice.
  • 2.  빅데이터란 무엇인가?  Why?  Azure Managed 서비스 소개  PoC 목표  PoC 결과  To-Be 개선 방안 제언
  • 3. • 가트너의 정의 (2012년)  “빅 데이터는 큰 용량, 빠른 속도, 그리고(또는) 높은 다양성을 갖는 정보 자산으로서 이를 통해 의사 결정 및 통찰 발견, 프로세스 최적화를 향상시키기 위해서는 새로운 형태의 처리 방식이 필요하다.” • 빅데이터의 특징 -3 Vs of extreme scale  Volume : The data exceeds the physical limits of vertical scalability, implying a scale out solution  수직적 확장에 한계가 있는 대규모 데이터  Velocity : The decision window is small compared with the data change rate  데이터 빠른 변화로 의사 결정 시간이 매우 짧음  Variety : Many different formats make integration difficult and expensive  다양한 데이터 포맷으로 통합의 난이도 및 비용이 높음 빅데이터란 무엇인가?
  • 4. 빅데이터 유형 Big data Log files Data market feeds Text/image Click stream Wikis/blogs Sensors/RFID/ devices Social sentiment Web 2.0
  • 6. Machine Learning and Analytics (예시) Big Data as part of Cortana Intelligence Action People Automated Systems Apps Web Mobile Bots Intelligence Dashboards & Visualizations Cortana Bot Framework Cognitive Services Power BI Information Management Event Hubs Data Catalog Data Factory Intelligence Stream Analytics HDInsight (Hadoop & Spark) Big Data Stores Data Lake Store SQL Data Warehouse Data Sources Apps Sensors and devices Data Data Lake Analytics Machine Learning
  • 7. < Apache Hadoop Ecosystem > 아파치 하둡 에코 시스템과 Azure HDInsight Microsoft’s managed Hadoop as a Service 100% open source Apache Hadoop Built on the latest releases across Hadoop (2.6)  향후에도 빠르게 개선되고 있는 하둡 에코 시스템의 최신 버전 활용  검증된 배포판 Up and running in minutes with no hardware to deploy  필요한 시점에 바로 배포하여 사용 / Opex vs. Capex / 비용 절감 Hadoop Meets the Cloud
  • 9. HDInsight 지원 클러스터 유형 및 용도 HDInsight는 4가지 대표적인 아파치 빅데이터 플랫폼을 Managed 형태로 제공하는 MS의 빅데이터 서비스 (호튼웍스 배포판 기반) 1. Hadoop : 배치 2. HBase : NoSQL 3. Storm : 실시간 스트리밍 4. Spark : 배치 & 스트리밍 & 머신러닝
  • 10. HDInsight – Spark 클러스터 구성 (예시) < HDInsight Spark 클러스터 구성 화면 > < HDInsight Spark 클러스터 포탈 >
  • 12. • 고객사 현황 On-Prem과 클라우드를 혼용하여 게임 로그 데이터 분석을 수행 중 Hadoop 환경에서 맵리듀스 어플리케이션 / 머신러닝 사용 고객사 로그 데이터 분석 현황
  • 13. PoC 목표 (1/2) (1) 로그 데이터 분석 인프라 운영 환경 개선 Apache Drill 및 Spark 적용으로 분석 성능 개선  하둡 외 추가적인 분석 플랫폼 옵션 및 분석 시간 감소 분석 요건 및 데이터량에 따른 유연한 분석 인프라 환경 구축  분석 요건에 따른 유연한 인프라 구성(scale-out/in)으로 분석 목표 시간 개선 및 비용 절감 (분당 사용량 기반 과금)
  • 14. PoC 목표 (2/2) (2) 쿼리 기반 로그 데이터 분석 환경 구축 사내 데이터 전문가들을 위한 쿼리 기반 로그 데이터 분석 환경 제공 DB 쿼리 환경에 익숙한 사내 데이터 전문가에게 로그 데이터 분석 환 경 제공하여 접근성 개선 및 이에 따른 분석 리드 타임 감소 Power BI / 엑셀 등을 활용한 현업 사용자 통계 분석 환경 제공 보고서 및 대시보드 지원 (시각화)
  • 16. 1. 클러스터 내 데이터 노드 수 증가(스케일 아웃)에 따른 성능 개선  저용량 데이터의 경우, 스케일 아웃에 따른 성능 효과는 없음 (HDFS small data issue)  대용량 데이터의 경우(5번 쿼리), CPU 성능이 높아질 수록 처리 시간이 크게 개선됨 (D 시리즈 기준으로 8 Core 당 약 15% 처리 시간이 선형적으로 개선) 2. 스케일업과 스케일아웃에 따른 성능 비교  총 Core 수가 동일한 경우, 스케일업과 스케일아웃 간의 성능 차이는 없음 (D12 v2 vs. D13 v2 vs. D14 v2 간 비교) 3. VM Type 중 A시리즈와 D시리즈와의 성능 비교  A 시리즈와 D v2 시리즈 간의 가격 차이와 테스트 성능 결과 차이를 고려하면 D 시리즈가 비용 대비 효과적임 4. Parquet 파일 성능  대용량 파일에 대한 쿼리 기준으로 최소 40배 (Spark) / 70배 (Drill) 이상의 성능 개선  추가적인 ETL을 고려 필요 (PoC용 데이터 기준 31분) 성능 테스트 결과 요약
  • 17. 로그 DBA 및 현업 사용자 로그 분석 시나리오 현업 사용자 DBA SQL Client Power BI 분석 엑셀 Power Pivot 분석 SQL Query 화면 개발 분석용 Query 1 2 3 * 향후 요건에 따라 RDBMS 적용 고려
  • 18. • PoC 결과를 기초로 다음과 같은 To-Be 개선 방안을 제언 드립니다. To-Be 개선 방안 제언 (1/2) 1. Managed 서비스 기반의 SQL on Hadoop 및 Parquet 파일 적용  현행 로그 분석 시스템 개발 시, 간편한 SQL과 업무 로직 코드 조합을 통해 개발 생산성 향상  분석 시간 감소 및 분단위 과금으로 비용 절감  SQL on Hadoop 및 Partquet 파일을 활용한 데이터 분석 시간 감소  분단위 과금 / 유연한 클러스터 운영 (Pay as you go, 스케일인/아웃, 클러스터 배포/삭제 스케쥴링)  Managed 서비스 기반의 클러스터 운영으로 효율적인 관리 가능  향후 업데이트된 클러스터 버전에 대한 간편한 적용
  • 19. • PoC 결과를 기초로 다음과 같은 To-Be 개선 방안을 제언 드립니다. To-Be 개선 방안 제언 (2/2) 2. 쿼리 기반 분석 환경 제공으로 로그 데이터 접근성 확대  사내 전문가(DBA / 현업 전문가)의 로그 데이터 접근성 개선 및 이에 따른 분석 리드 타임 감소  로그 데이터의 기본 분석 지원 부담은 감소시키고 고급 분석에 업무 집중 가능 3. 분석 결과에 대한 시각화(Visualization) 기능 강화  보고서 및 대시보드를 활용하여 분석 결과를 편리하게 사내 공유  외부 분석 서비스 제공 시, 효과적인 도구로 활용 가능