14. FTP, SFTP, Rsync
ETL Process
SQL, PL/SQL
수집
LOG, WebPage
ETL Process
Pig & Script Lang
Data Mining(SAS) Data Mining(MH,R)
DW (R,Hive)
DW (EMC)
RDBMS (Oralce,
DB2,MSSQL)
데이터 클리닝
데이터 요약
데이터 기초통계
데이터 탐색
처리
분석 검증
모델
데이터 마이닝
텍스트 마이닝
보고서
데이터 시각화
서비스 데이터
상품추천
유사아이템
Map Reduce
No SQL
RDBMS (Oralce,
DB2,MSSQL)
데이터 연동
데이터 변환
RDBMS (Oralce,MySql)
No SQL (Mongo)
제공
22. 4
5
9
•Map과 Reduce 간 셔플의
한계
–merge sort
->hashing
->merge sort
•Job 간의 데이터 교환 오버
헤드
•관계형 데이터에 부적합
•고정된 data flow
24. * 빅데이터 추출 및 분석
- MongoDB의 Map/Reduce 기능을 이용한 빅데이터 추출
- Javascript function으로 구현
- Aggregation Framework 를 이용해서 기본적인 추출 가능
- MongoDB 와 Hadoop을 연동한 데이터 처리
30. Point of Concept
• 현재 DBMS에 자산화 되지 않은 데이터 중 의사결정에 참고하는 데이터가 있는가?
있다면 왜 자산화 하지 않고 있는가?
• 서비스 하고 있는 데이터 중 비용효율 문제로 제한된 기간에만 저장 및 서비 스 하
고 있는 업무가 있는가?
• 기존 업무 중 대량의 비정형 데이터를 대상으로 검색해야 하는 업무가 있는가?
• 내부 데이터 중에서 외부 데이터와 연계 시 추가적인 가치를 가지는 것이 있는가?
• 개별 요건들을 전사 관점에서 통합할 수 있는 항목이 존재하는가?
• 이러한 업무들이 우리 조직의 예산범위에서 기존 기술(DBMS, BI) 구현 및 개선이
가능한가? 가능하지 않다면 기술적 대안은 어떤 것이 있는가?
• 기존 In-House 기반 Hadoop 인프라 구축 시 많은 시간과 인력 소모.(누가?, 시간
은?)
• 인프라 구축은 전문 벤더가 고객은 어떤 Big Data를 가지고 어떤 Value를 창출할
지 고민 필요.