SlideShare a Scribd company logo
The World's Fastest
Time Series DBMS
for IoT and BigData
김성진 대표
㈜인피니플럭스
Table of Contents
회사 소개
시계열 빅데이터 & 문제점
제품 개요
주요 기능
성능 비교
구축 사례
1
2
3
4
5
6
Q&A7
회사 소개
회사 개요
실시간 IoT 데이터 관리 DBMS 개발 전문기업
회사명
설립일
주요이력
주요사업
임직원수
주소
㈜인피니플럭스
2013.03.21
초고속 시계열 DBMS 개발
기업부설연구소 설립 인가(2013.11)
벤처기업 확인 인정(2014.03)
중기청, 기술혁신개발사업 선정(2014.11)
서울시, 지역 고도화지원사업 선정(2014.12)
미래부, ICT 유망기술개발지원사업(2015.06)
14명(2015.11 기준)
서울특별시 구로구 디지털로 31길 19,
에이스테크노타워2차 703호
김성진 대표이사
“16년간 개발본부장, CTO, CEO 경력의 DB전문가”
- 서울대학교 경영전문대학원 MBA 석사(기술경영전공)
- 경북대학교 컴퓨터 과학과 석사(데이터베이스 전공)
- 알티베이스 창업 멤버 및 CTO, CEO 역임
- 지경부 대한민국 10대 신기술 수상 (2011)
- 정통부 신 소프트웨어 대통령상 수상 (2006)
4
회사 지식재산권
5
지식재산권명 지식재산권출원인 출원번호
암시적타임칼럼값을이용한시간기반파티셔닝시스템및방법 ㈜인피니플럭스 한국/10-2015-0149890
고속의데이터입력시스템및방법 ㈜인피니플럭스 한국/10-2015-0149891
시간기반데이터에대한백업,리스토어,및마운트를위한데이터관리시스템및
방법
㈜인피니플럭스 한국/10-2015-0149892
메모리공간을활용한시계열데이터처리성능향상방법 ㈜인피니플럭스 한국/10-2014-0017865
블록단위 파일압축을사용한검색성능향상방법 ㈜인피니플럭스 한국/10-2014-0017686
유휴컴퓨터를활용한클라우드대용량데이터분석방법 ㈜인피니플럭스 한국/10-2014-0017541
시계열 빅데이터 & 문제점
시계열 빅데이터란?
7
• 모니터링:현상및데이터추이이해
• 분석:과거이벤트확인및이해
• 방지:장애,침입탐지
• 예측:미래의비정상상황및대처가능
실시간 데이터 활용 가치
시계열 데이터
시간흐름에따라발생하는로그,이벤트정보
동일패턴,지속적으로끊임없이생성
시간 데이터
발생시간존재,시간은언제나증가
해당데이터소스의ID 및상태정보반드시포함
단순 파일 저장
대용량로그,이벤트활용방법부재원인
데이터 처리 요구사항
8
데이터 실시간 모니터링
데이터의 예측
데이터의 분석
데이터의 백업 및 빠른 복구요구
사항
데이터의실시간수집
• 다수의 원시 소스로부터
초당 수만 ~ 수십만 건 저장
데이터의실시간모니터링
• 실시간 인덱싱 및 압축
• 실시간 질의 처리
데이터의예측
• 시계열 예측 알고리즘을 통한 위험
방지
데이터의백업및빠른복구
• 시계열 기반의 빠른 백업
• 과거 데이터 실시간 확인
데이터의분석
• 수 분 ~ 수 시간의 통계 분석 및 저장
데이터 처리 문제점
9
데이터의실시간저장
실시간인덱스생성
저장공간+ I/O bandwidth
데이터의분석
데이터의백업및빠른복구문제점
• 단순 파일 적재
=> 데이터 검색 불가능, 인덱스 필요
• 저장 및 인덱스
=> 성능 하락
• 전통적 DBMS 인덱스(B+Tree)
=> 매우 느린 성능
• Fractal Index, LSM 최신 인덱스
=> 10,000 TPS 이상 힘듦
• 1K Payload, 100,000 TPS
= 8,046 TB/Day(100MB/Sec)
• HDD : 100MB/Sec
• SSD : 500MB/Sec
• 특정 시간 영역의 데이터 실시간 보관
• 특정 시간 영역의 실시간 접근, 분석 필요
• 수 천만 ~ 수 억건의 데이터 검색
• 다양한 컬럼 조건들
=> 단순 검색이 아님
=> 다수 시계열 조건의 질의문 발생
=> 대규모 읽기,쓰기 I/O 동시 발생
기존 접근 방법
10
느린 성능으로 만족하거나, 오픈 소스를 다시 찾거나…
1. 기존 DBMS를 활용
 데이터증가에따른성능저하
 대규모데이터입력불가능
 인덱스갱신지연으로실시간분석불가능
 SQL은좋은데…
 저장공간의기하급수적인증가
2. HADOOP 오픈 소스 활용
 실시간대량데이터저장느림
 실시간분석을위한질의문작성어려움.
 최소5대이상시스템필요
 많은독립적오픈소스패키지유지보수
3. 파일 시스템 활용
 대량,실시간으로저장가능
 자체인덱스구축,장애시복구문제
 실시간검색및통계처리어려움
 백업및복구데이터분석느리거나,불편하거나
4. 검색 엔진(Splunk 등) 기반 기술 활용
 데이터입력과인덱스간극의증가실시간분석어려움
 컬럼단위데이터분석어렵거나,매우복잡
 대량의데이터분석시저장관리자기술취약
 SQL활용불가능새로운언어습득필요
 고성능데이터입력불가능데이터의텍스트변환
제품 비교표
InfiniFlux 기존 DBMS BIG DATA 검색엔진기반
시계열데이터관리
◎
(시간을 기준으로
자동 파티션화)
○
(시간 데이터로
파티션화)
○
(시간을 Key로 이용)
○
(시간을 검색어로 이용)
다량데이터의
실시간추가
◎
(인메모리 아키텍쳐,
시계열 인덱스 분할)
×
(디스크 병목)
○
(데이터를 복수 노드
분산)
○
(데이터를 복수 노드
분산)
다양한방법의
분석,실시간집계
◎
(열형 스토어에 의해
I/O최적화)
ᅀ
(레코드 단위의
Read가 필요)
×
(열 데이터로의
인덱스 불가)
×
(열 데이터로의
인덱스 불가)
SQL언어지원
○
(시계열 데이터 관리에
적합)
◎
(SQL 언어 지원)
× ×
지식재활용및
관리편의성
◎
(기존 DB 관리와 동일)
◎
(기존 DB 관리와 동일)
×
(새로운 기술)
×
(새로운 기술)
11
제품 포지셔닝
Realtime
Big Data
Small
(Transaction)
Data
Batch
12
In-Memory
DBMS
Engineered
System
Ad-hoc Solutions
Search Solution
(splunk)
Disk DBMS
BI Solutions
Hadoop/NoSQL
Hive/Tajo
No DBMS,
Infiniflux here!
제품 개요
InfiniFlux 개요
14
InfiniFlux는 대량으로 발생하는 시계열 머신 로그 데이터를 실시간으로
저장 및 분석하는 혁신적인 기술의 DBMS
로그발생 기운영체제
서버
센서
보안
통신장비
분석 서버
관리시스템
대시보드
리포팅서버
로그/이벤트저장
SQL 쿼리
결과값
InfiniFlux
InfiniFlux 아키텍쳐
15
log collector
built-in
built-in
built-in
User-defined
User-defined
Client API
시계열 조회 실시간 검색 엔진
실시간 데이터 압축 저장
시간 기반 파티셔닝
초고속 입력 실시간 인덱싱
혼합형 인메모리/디스크 선택
표준 ANSI SQL, 인터페이스
RESTful
Python
JDBC
ODBC
CLI
서버
통신장비
센서
분석서버
대시보드
리포팅서버
InfiniFlux 특징
16
Write Once, Read Many
Ultra Fast Data Loading
High Concurrency
Real-Time Query Execution
Time Series Query
Real-Time Compression
Full-Text Search
Innovative Backup/Restore
More than
1M record / sec
InfiniFlux 기술
17
InfiniFlux
Disk Based
Columnar
Architecture
Full-Text
Indexing
Real-time
Compression
In-Memory
Cache
Architecture
Multi-Disk
Hyper Writing
Technology
성능 비교
성능 비교 환경
필드
로그 생성
시간
출발지
ip
출발지
port
도착지
ip
도착지
port
프로토콜
타입
로그
텍스트
상태 코드
데이터
크기
필드명 arrivaltime srcip srcport dstip dstport protocol eventlog eventcode eventsize
필드 타입 datetime ipv4 integer ipv4 integer short
varchar
(1024)
short long
19
기본적인 하드웨어 환경에서 1억건, 13GB의 데이터로
각 제품의 데이터 입력 및 분석 성능 측정
데이터의 실시간 저장
하드웨어
사양
- CentOS 6.6
- Intel(R) Core(TM) i7-4790
CPU @3.60GHz(4 core)
- 32GB memory
- SATA DISK
데이터의 실시간 저장
테스트
대상
- InfiniFlux 2.0
- MySQL 5.2
- Splunk 6.2.3
- Elasticsearch 1.5.3
- mongo 3.0.3
[DATA]
3
1
85
208
4
0 50 100 150 200 250
Elasticsearch
MySQL
splunk
mongoDB
INFINIFLUX
COMPLEX SEARCH(sec)
4337
13849
783
1832
393
0 5000 10000 15000
Elasticsearch
MySQL
splunk
mongoDB
INFINIFLUX
OVERALL RESULT(sec)
20
성능 비교 결과
4334
13848
698
1624
389
0 5000 10000 15000
Elasticsearch
MySQL
splunk
mongoDB
INFINIFLUX
DATA LOADING TIME(sec)
20.4
17.52
21.6
42.11
4.1
0 10 20 30 40 50
Elasticsearch
MySQL
splunk
mongoDB
INFINIFLUX
STORAGE SIZE(GB)
InfiniFlux mongoDB splunk MySQL Elasticsearch
during time(sec) 389( 00:06:29 ) 1624( 00:10:16 ) 698 (00:11:38 ) 13848(03:50:48) 4334 (01:12:14)
insert csv size(GB) 13G
data size(GB) 4.1G 42.1157G 8.6G 17.52G 20.4G
compress rate(%) 76.92%
Uncompressed
(223.97%)
33.95%
Uncompressed
(130.77%)
Uncompressed
(156.92%)
memory used(%) 29.22 73.75 40.78 87.59 89.82
memory used(GB) 9.0756 22.9073 12.667 27.20 27.8965
data
search
text search(260만) 2s 213s ( 00:03:33 ) 424s ( 00:07:04 ) 31s 2s
ip search(266만) 1s 212s ( 00:03:32 ) 40s 1s 3s
time search 1초미만 211s ( 00:03:31 ) 8s 1s 2s
statistic
sum 25s 217s ( 00:03:37 ) 435s ( 00:07:15 ) 35s 1s
average 25s 219s ( 00:03:39 ) 436s ( 00:07:16 ) 46s 4s
count 17s 218s ( 00:03:38 ) 382s ( 00:06:22 ) 45s 3s
complex query 4s 208s 85s 1s 3s
OVERALL RESULT 393s 1832s 783s 13849s 4337s
*테스트의 상세 내용 : http://www.infiniflux.com/performance 참조
21
성능 비교 상세
주요 기능
주요 기능 – 로그수집(log collector)
23
데이터의 실시간 저장
• Syslog
• Apache access
• Tomcat server
• Java, PHP, etc
• Application log
• InfiniFlux log
• Custom log
</>
</>
</>
TCP 송신 InfiniFluxAppend
Client
iflux
collector
주요 기능 – 입력능력(대용량 데이터의 빠른 입력/처리)
• 인덱스가 다수 존재하는 상황에서도 초당 300,000 건에서 최고 2,000,000 건 입력
• 실시간 인덱싱 (초고속 Bitmap Index 지원)
• 실시간 2단계 압축 – 데이터 패턴 기반 논리적 압축, 페이지 블록 기반 물리적 압축
초고속 데이터 입력
• 시계열 검색을 위한 효율적인 아키텍처 실시간 구성
• 초고속으로 임의의 레코드 입력 시간 검색 가능
타임 기반 데이터 파티션
• 다수의 인덱스가 있더라도 고성능 인덱스 구성 가능
• 입력과 동시의 실시간 비트맵 인덱스
• 병렬 인덱싱 파라미터 조정 가능
비트맵 인덱스
24
• ODBC, CLI, JDBC, RESTful API 지원
• Join, subquery, group by, having, order by
표준 SQL 인터페이스
• 인터넷 주소 타입 지원 : IPv4, IPv6
• 무부호 정수형 타입 : unsigned type (16, 32, 64 bit)
• LOB 지원(최대 64MB) : text, binary
다양한 데이터 타입 지원
• ESEARCH : partial ASCII 검색 ( ‘%tres%’)
• IPv4 search : ‘192.168.*.*’
• Netmask : where ipv4 contained ‘232.112.3.4/32’
확장 검색 지원
25
주요 기능 – 분석능력(실시간 검색 및 분석)
• 데이터 검색할때 시간 범위를 쉽게 지정하기 위해서 제공되는 키워드
• 현재 시각 기준 10분 전까지 데이터의 합계를 구하는 경우
SELECT SUM(traffic) FROM T1 DURATION 10 minute;
• 현재 시점에서 한시간 이전 부터 10분간 데이터의 합계를 구하는 경우
SELECT SUM(traffic) FROM T1 DURATION 10 minute BEFORE 1 hour;
DURATION 키워드 제공
• 일정 크기 이하의 데이터 유지를 위한 기능
• 지금부터 1일 동안의 데이터를 제외하고 모두 삭제하는 경우
DELETE FROM T1 EXCEPT 1 day;
• 2015년 6월 1일 이전의 데이터를 모두 삭제하는 경우
DELETE FROM T1 BEFORE TO_DATE(‘2015-06-01’, ‘YYYY-MM-DD’);
선택적 삭제 지원
26
주요 기능 – SQL(시계열 특성을 반영한 SQL 구문)
• 데이터 입력 순간 숨은 칼럼(_arrival_time)에 nano second 를 자동으로 저장함.
• 조회시 가장 최근에 입력된 데이터부터 시간의 역순으로 출력됨.
나노 세컨드 단위의 timestamp 자동 저장
• 빠른 텍스트 검색을 위해 ‘SEARCH’ 키워드 제공
• msg 필드에 Error 그리고(또는) 102를 포함하는 경우
SELECT id, ipv4 FROM T1 WHERE msg SEARCH ‘Error 102’;
SELECT id, ipv4 FROM T1 WHERE msg SEARCH ‘Error’ or msg SEARCH ‘102’;
SEARCH
• 다른 복잡한 연산 조건과 함께 검색이 가능함.
• ip 주소가 192.168.로 시작하고, msg 필드에 Error 그리고 102를 포함하는 레코드를 출력하는 경우
SELECT id,ipv4 FROM T1 WHERE msg SEARCH ‘Error 102’ AND ipv4 = ‘192.168.*.*’;
• ip 주소가 192.168.22.11/24 범위에 속하고, msg 필드에 Error 그리고 102를 포함하는 레코드 출력하는 경우
SELECT id,ipv4 FROM T1 where msg SEARCH ‘Error 102’ AND ipv4 contained ‘192.168.22.11/24’
복합 연산 조건
27
주요 기능 – 검색(Full Text Search)
• 전통적인 DBMS의 단어 검색은 인덱스를 이용할 수 없는 LIKE를 활용하여 매우 느림
SELECT * FROM T1 WHERE MSG LIKE ‘%Error%’;
LIKE
DB
Backup file
• 시간 기준으로 데이터의 저장 공간 및 복사량의 최소화
BACKUP 개념도
28
주요 기능 – 백업(보관 및 복구)
Backup image 생성
Table1 Table2 Table3 Table4 Table5
date2 date2 date2 date2 date2
날짜 기반의 Backup 대상
date3 date3 date3 date3 date3
date2 date2 date2 date2 date2
Restore 복구 data
Table1 Table2
Table3 Table4 Table5
InfiniFlux 저장장치
(local disk/NFS/Cloud)
date2 date2
date2 date2 date2
date1 date1 date1 date1 date1
• BACKUP DATABASE [FROM start_time TO end_time] INTO [DISK | IBFILE] = ‘backup_file_path'
• 지정된 시간 범위의 DB에 대하여 지정 경로에 백업을 수행
• 전체 DB에 대하여 백업이 수행
• 단일 파일로 백업 가능
BACKUP
• ifluxadmin –r ‘backup_file_path’
• Backup image와 겹치는 영역의 data를 database image로 update
• database에 해당 테이블이 존재하지 않으면 자동 생성
RESTORE
• [MOUNT | UNMOUNT] DATABASE ‘backup_file_path'
• backup image에 존재하는 table을 현재 DB에 read only view로 생성함.
• 수 초 이내 mount / unmount 명령어를 통해 백업 파일을 즉시 활용 가능함.
MOUNT
29
주요 기능 – 백업(보관 및 복구)
구축 사례
시큐아이
31
기존 방화벽 로그를 파일 형태로 저장하여 사용하였으나 대용량 로그를 처리하기 위해서
InfiniFlux를 이용하여 로그 관리와 빠른 검색 및 리포팅 지원
로그를 InfiniFlux로 저장로그를 파일 형태로 저장
시큐아이
보안 로그의 파일 보관
• 방화벽에서 발생하는 보안 로그를 파일로 저장
• 최대 초당 10만건 로그 발생
• 대용량 로그에서 필요한 내용의 검색이 어려움
• 저장된 로그를 분석하여 리포팅이 어려움
• 고객이 로그를 분석하기 위해서는 외부의 별도
분석툴을 이용하여 분석을 수행 하여야 함
로그를 DB 저장 및 검색
• 최대 초당 10만건 로그를 InfiniFlux에 저장
• 압축을 통한 디스크 저장 공간의 절약
• 질의문을 이용한 다양한 조건 검색
리포팅 강화
• 대시보드에 다양한 정보 출력
• 통계 데이터의 주기적 저장
• 리포트 작성 시 다양한 통계 정보를 활용
• 다양한 통계 정보를 바탕으로 보안 위협 분석
32
AFTERBEFORE
퓨처시스템(금융권)
전국 1,400여 개 지점
33
모니터링
Firewall
• 장비별 로그 조회
• 리포팅
InfiniFlux
통합 로그관리 시스템
Firewall
Log
일일 45억 건, 1TB의 Firewall Log를 실시간으로 처리하기 위하여 InfiniFlux 도입
InfiniFlux InfiniFlux
초당 10만 건 로그 저장 불가
• 기존 RDMS에서는 입력 속도를 향상하기 위해서
실시간 인덱스 생성 포기
• 인덱스 생성 없이도 초당 10만 건 입력 불가
• 인덱스는 배치로 생성, 실시간 분석에 어려움
• 관리 대상 장비가 증가 할수록 고성능 H/W 추가
초당 10만 건 이상 로그 저장
• 초당 10만 건 이상 로그를 인덱스 생성,저장
• 실시간 모니터링 및 분석
H/W 리소스 감소
• 기존 대비 H/W 사용률이 70% 이상 감소
• 저장 공간 50% 이상 감소
34
AFTER
Log 저장
초당 10만건 저장 불가
실시간 모니터링 불가
퓨처시스템(금융권)
RDBMS
Firewall
인덱스 배치 처리
Log 저장
초당 10만건 이상 저장
실시간 모니터링 가능
Firewall
인덱스 실시간 처리
InfiniFlux
BEFORE
Q&A
데모 시연
THANK
YOU
Website : www.infiniflux.com
Email : sales@infiniflux.com
Tel : 02-2038-4606

More Related Content

PDF
InfiniFlux vs RDBMS
PDF
InfiniFlux 성능 지표
PDF
InfiniFlux with_php
PDF
Feature perf comp_v1
PDF
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
PPTX
elasticsearch
PPTX
Fundamental of ELK Stack
PDF
Data analysis with Tajo
InfiniFlux vs RDBMS
InfiniFlux 성능 지표
InfiniFlux with_php
Feature perf comp_v1
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
elasticsearch
Fundamental of ELK Stack
Data analysis with Tajo

What's hot (20)

PDF
일래스틱 서치 ch7. 일래스틱 서치 클러스터 세부사항
PPTX
실무로 배우는 시스템 성능 최적화 Ch8
PDF
Ch1 일래스틱서치 클러스터 시작
PDF
Elasticsearch server Chapter5
PPTX
mongodb와 mysql의 CRUD 연산의 성능 비교
DOCX
Infiniflux vs influxdb 비교 테스트 결과 2016 12월-v2
PDF
Big data analysis with R and Apache Tajo (in Korean)
PPTX
Vectorized processing in_a_nutshell_DeView2014
PPTX
검색엔진이 데이터를 다루는 법 김종민
PPTX
20151022 elasticsearch 적용및활용_송준이_sds발표용
PDF
Expanding Your Data Warehouse with Tajo
PPTX
Introduction to Apache Tajo
PDF
Big query at GDG Korea Cloud meetup
PPTX
elasticsearch_적용 및 활용_정리
PDF
XECon+PHPFest2014 발표자료 - ElasticSearch를 이용한 통합검색 구축방법 - 김훈민
PDF
Elastic Search (엘라스틱서치) 입문
PDF
집단 지성 (Programming collective intelligence) 스터디: Chapter 4 - Searching & Ranking
PPTX
Logstash, ElasticSearch, Kibana
PDF
Meteor Elasticsearch 연동 Trial
PDF
[243]kaleido 노현걸
일래스틱 서치 ch7. 일래스틱 서치 클러스터 세부사항
실무로 배우는 시스템 성능 최적화 Ch8
Ch1 일래스틱서치 클러스터 시작
Elasticsearch server Chapter5
mongodb와 mysql의 CRUD 연산의 성능 비교
Infiniflux vs influxdb 비교 테스트 결과 2016 12월-v2
Big data analysis with R and Apache Tajo (in Korean)
Vectorized processing in_a_nutshell_DeView2014
검색엔진이 데이터를 다루는 법 김종민
20151022 elasticsearch 적용및활용_송준이_sds발표용
Expanding Your Data Warehouse with Tajo
Introduction to Apache Tajo
Big query at GDG Korea Cloud meetup
elasticsearch_적용 및 활용_정리
XECon+PHPFest2014 발표자료 - ElasticSearch를 이용한 통합검색 구축방법 - 김훈민
Elastic Search (엘라스틱서치) 입문
집단 지성 (Programming collective intelligence) 스터디: Chapter 4 - Searching & Ranking
Logstash, ElasticSearch, Kibana
Meteor Elasticsearch 연동 Trial
[243]kaleido 노현걸
Ad

Viewers also liked (19)

PDF
All about InfluxDB.
PDF
Custom DevOps Monitoring System in MelOn (with InfluxDB + Telegraf + Grafana)
PPTX
InfluxDb
PDF
Introduction to InfluxDB, an Open Source Distributed Time Series Database by ...
PDF
정보보호 캠페인 - 악성코드 예방
PDF
보안 위협의 상승 요인과 대응 방안 20120228
PDF
2013년 금융권 it 보안 핵심 트렌드-Dhan-kim-2013-12-20
PPTX
InfiniFlux DURATION
DOCX
예측 분석이 발견한 이상하고 놀라운 인간 행동들
PPTX
판매정보 빅데이터 분석을 통한 판매 예측 시스템
PPSX
130308 디지털컨버젼스i 2교시
PDF
보안 위협 동향과 대응 방안
PPT
빅 데이터 추진방안
PPTX
AngularJS의 개발방식에 대하여
PPTX
Data-binding AngularJS
PPTX
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
PDF
Apt(advanced persistent threat) 공격의 현재와 대응 방안
PDF
InfiniFlux IP_Type
PPSX
Security framework2
All about InfluxDB.
Custom DevOps Monitoring System in MelOn (with InfluxDB + Telegraf + Grafana)
InfluxDb
Introduction to InfluxDB, an Open Source Distributed Time Series Database by ...
정보보호 캠페인 - 악성코드 예방
보안 위협의 상승 요인과 대응 방안 20120228
2013년 금융권 it 보안 핵심 트렌드-Dhan-kim-2013-12-20
InfiniFlux DURATION
예측 분석이 발견한 이상하고 놀라운 인간 행동들
판매정보 빅데이터 분석을 통한 판매 예측 시스템
130308 디지털컨버젼스i 2교시
보안 위협 동향과 대응 방안
빅 데이터 추진방안
AngularJS의 개발방식에 대하여
Data-binding AngularJS
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
Apt(advanced persistent threat) 공격의 현재와 대응 방안
InfiniFlux IP_Type
Security framework2
Ad

Similar to Infiniflux introduction (20)

PDF
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
PPTX
[경북] I'mcloud information
PDF
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
PDF
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
PPTX
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
PDF
주니어 개발자의 서버 로그 관리 개선기
PDF
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
DOCX
MySQL_SQL_Tunning_v0.1.3.docx
PDF
Elastic Stack & Data pipeline (1장)
PDF
[215]네이버콘텐츠통계서비스소개 김기영
PDF
AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축- AWS Summit Seoul 2017
PDF
Object storage의 이해와 활용
PDF
(11th korea data_tech_seminar)using_mongo_db_4.0_and_nosql_inbum_kim(skc&amp;c)
PDF
[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4
PDF
초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기
PPTX
Elastic Search Performance Optimization - Deview 2014
PDF
빅데이터 기술 현황과 시장 전망(2014)
PDF
What’s Evolving in the Elastic Stack
PDF
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
PDF
IBM Storage for AI - NVMe & Spectrum Scale 기술을 탑재한 ESS3000
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
[경북] I'mcloud information
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
주니어 개발자의 서버 로그 관리 개선기
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
MySQL_SQL_Tunning_v0.1.3.docx
Elastic Stack & Data pipeline (1장)
[215]네이버콘텐츠통계서비스소개 김기영
AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축- AWS Summit Seoul 2017
Object storage의 이해와 활용
(11th korea data_tech_seminar)using_mongo_db_4.0_and_nosql_inbum_kim(skc&amp;c)
[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4
초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기
Elastic Search Performance Optimization - Deview 2014
빅데이터 기술 현황과 시장 전망(2014)
What’s Evolving in the Elastic Stack
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
IBM Storage for AI - NVMe & Spectrum Scale 기술을 탑재한 ESS3000

Infiniflux introduction

  • 1. The World's Fastest Time Series DBMS for IoT and BigData 김성진 대표 ㈜인피니플럭스
  • 2. Table of Contents 회사 소개 시계열 빅데이터 & 문제점 제품 개요 주요 기능 성능 비교 구축 사례 1 2 3 4 5 6 Q&A7
  • 4. 회사 개요 실시간 IoT 데이터 관리 DBMS 개발 전문기업 회사명 설립일 주요이력 주요사업 임직원수 주소 ㈜인피니플럭스 2013.03.21 초고속 시계열 DBMS 개발 기업부설연구소 설립 인가(2013.11) 벤처기업 확인 인정(2014.03) 중기청, 기술혁신개발사업 선정(2014.11) 서울시, 지역 고도화지원사업 선정(2014.12) 미래부, ICT 유망기술개발지원사업(2015.06) 14명(2015.11 기준) 서울특별시 구로구 디지털로 31길 19, 에이스테크노타워2차 703호 김성진 대표이사 “16년간 개발본부장, CTO, CEO 경력의 DB전문가” - 서울대학교 경영전문대학원 MBA 석사(기술경영전공) - 경북대학교 컴퓨터 과학과 석사(데이터베이스 전공) - 알티베이스 창업 멤버 및 CTO, CEO 역임 - 지경부 대한민국 10대 신기술 수상 (2011) - 정통부 신 소프트웨어 대통령상 수상 (2006) 4
  • 5. 회사 지식재산권 5 지식재산권명 지식재산권출원인 출원번호 암시적타임칼럼값을이용한시간기반파티셔닝시스템및방법 ㈜인피니플럭스 한국/10-2015-0149890 고속의데이터입력시스템및방법 ㈜인피니플럭스 한국/10-2015-0149891 시간기반데이터에대한백업,리스토어,및마운트를위한데이터관리시스템및 방법 ㈜인피니플럭스 한국/10-2015-0149892 메모리공간을활용한시계열데이터처리성능향상방법 ㈜인피니플럭스 한국/10-2014-0017865 블록단위 파일압축을사용한검색성능향상방법 ㈜인피니플럭스 한국/10-2014-0017686 유휴컴퓨터를활용한클라우드대용량데이터분석방법 ㈜인피니플럭스 한국/10-2014-0017541
  • 7. 시계열 빅데이터란? 7 • 모니터링:현상및데이터추이이해 • 분석:과거이벤트확인및이해 • 방지:장애,침입탐지 • 예측:미래의비정상상황및대처가능 실시간 데이터 활용 가치 시계열 데이터 시간흐름에따라발생하는로그,이벤트정보 동일패턴,지속적으로끊임없이생성 시간 데이터 발생시간존재,시간은언제나증가 해당데이터소스의ID 및상태정보반드시포함 단순 파일 저장 대용량로그,이벤트활용방법부재원인
  • 8. 데이터 처리 요구사항 8 데이터 실시간 모니터링 데이터의 예측 데이터의 분석 데이터의 백업 및 빠른 복구요구 사항 데이터의실시간수집 • 다수의 원시 소스로부터 초당 수만 ~ 수십만 건 저장 데이터의실시간모니터링 • 실시간 인덱싱 및 압축 • 실시간 질의 처리 데이터의예측 • 시계열 예측 알고리즘을 통한 위험 방지 데이터의백업및빠른복구 • 시계열 기반의 빠른 백업 • 과거 데이터 실시간 확인 데이터의분석 • 수 분 ~ 수 시간의 통계 분석 및 저장
  • 9. 데이터 처리 문제점 9 데이터의실시간저장 실시간인덱스생성 저장공간+ I/O bandwidth 데이터의분석 데이터의백업및빠른복구문제점 • 단순 파일 적재 => 데이터 검색 불가능, 인덱스 필요 • 저장 및 인덱스 => 성능 하락 • 전통적 DBMS 인덱스(B+Tree) => 매우 느린 성능 • Fractal Index, LSM 최신 인덱스 => 10,000 TPS 이상 힘듦 • 1K Payload, 100,000 TPS = 8,046 TB/Day(100MB/Sec) • HDD : 100MB/Sec • SSD : 500MB/Sec • 특정 시간 영역의 데이터 실시간 보관 • 특정 시간 영역의 실시간 접근, 분석 필요 • 수 천만 ~ 수 억건의 데이터 검색 • 다양한 컬럼 조건들 => 단순 검색이 아님 => 다수 시계열 조건의 질의문 발생 => 대규모 읽기,쓰기 I/O 동시 발생
  • 10. 기존 접근 방법 10 느린 성능으로 만족하거나, 오픈 소스를 다시 찾거나… 1. 기존 DBMS를 활용  데이터증가에따른성능저하  대규모데이터입력불가능  인덱스갱신지연으로실시간분석불가능  SQL은좋은데…  저장공간의기하급수적인증가 2. HADOOP 오픈 소스 활용  실시간대량데이터저장느림  실시간분석을위한질의문작성어려움.  최소5대이상시스템필요  많은독립적오픈소스패키지유지보수 3. 파일 시스템 활용  대량,실시간으로저장가능  자체인덱스구축,장애시복구문제  실시간검색및통계처리어려움  백업및복구데이터분석느리거나,불편하거나 4. 검색 엔진(Splunk 등) 기반 기술 활용  데이터입력과인덱스간극의증가실시간분석어려움  컬럼단위데이터분석어렵거나,매우복잡  대량의데이터분석시저장관리자기술취약  SQL활용불가능새로운언어습득필요  고성능데이터입력불가능데이터의텍스트변환
  • 11. 제품 비교표 InfiniFlux 기존 DBMS BIG DATA 검색엔진기반 시계열데이터관리 ◎ (시간을 기준으로 자동 파티션화) ○ (시간 데이터로 파티션화) ○ (시간을 Key로 이용) ○ (시간을 검색어로 이용) 다량데이터의 실시간추가 ◎ (인메모리 아키텍쳐, 시계열 인덱스 분할) × (디스크 병목) ○ (데이터를 복수 노드 분산) ○ (데이터를 복수 노드 분산) 다양한방법의 분석,실시간집계 ◎ (열형 스토어에 의해 I/O최적화) ᅀ (레코드 단위의 Read가 필요) × (열 데이터로의 인덱스 불가) × (열 데이터로의 인덱스 불가) SQL언어지원 ○ (시계열 데이터 관리에 적합) ◎ (SQL 언어 지원) × × 지식재활용및 관리편의성 ◎ (기존 DB 관리와 동일) ◎ (기존 DB 관리와 동일) × (새로운 기술) × (새로운 기술) 11
  • 12. 제품 포지셔닝 Realtime Big Data Small (Transaction) Data Batch 12 In-Memory DBMS Engineered System Ad-hoc Solutions Search Solution (splunk) Disk DBMS BI Solutions Hadoop/NoSQL Hive/Tajo No DBMS, Infiniflux here!
  • 14. InfiniFlux 개요 14 InfiniFlux는 대량으로 발생하는 시계열 머신 로그 데이터를 실시간으로 저장 및 분석하는 혁신적인 기술의 DBMS 로그발생 기운영체제 서버 센서 보안 통신장비 분석 서버 관리시스템 대시보드 리포팅서버 로그/이벤트저장 SQL 쿼리 결과값 InfiniFlux
  • 15. InfiniFlux 아키텍쳐 15 log collector built-in built-in built-in User-defined User-defined Client API 시계열 조회 실시간 검색 엔진 실시간 데이터 압축 저장 시간 기반 파티셔닝 초고속 입력 실시간 인덱싱 혼합형 인메모리/디스크 선택 표준 ANSI SQL, 인터페이스 RESTful Python JDBC ODBC CLI 서버 통신장비 센서 분석서버 대시보드 리포팅서버
  • 16. InfiniFlux 특징 16 Write Once, Read Many Ultra Fast Data Loading High Concurrency Real-Time Query Execution Time Series Query Real-Time Compression Full-Text Search Innovative Backup/Restore More than 1M record / sec
  • 19. 성능 비교 환경 필드 로그 생성 시간 출발지 ip 출발지 port 도착지 ip 도착지 port 프로토콜 타입 로그 텍스트 상태 코드 데이터 크기 필드명 arrivaltime srcip srcport dstip dstport protocol eventlog eventcode eventsize 필드 타입 datetime ipv4 integer ipv4 integer short varchar (1024) short long 19 기본적인 하드웨어 환경에서 1억건, 13GB의 데이터로 각 제품의 데이터 입력 및 분석 성능 측정 데이터의 실시간 저장 하드웨어 사양 - CentOS 6.6 - Intel(R) Core(TM) i7-4790 CPU @3.60GHz(4 core) - 32GB memory - SATA DISK 데이터의 실시간 저장 테스트 대상 - InfiniFlux 2.0 - MySQL 5.2 - Splunk 6.2.3 - Elasticsearch 1.5.3 - mongo 3.0.3 [DATA]
  • 20. 3 1 85 208 4 0 50 100 150 200 250 Elasticsearch MySQL splunk mongoDB INFINIFLUX COMPLEX SEARCH(sec) 4337 13849 783 1832 393 0 5000 10000 15000 Elasticsearch MySQL splunk mongoDB INFINIFLUX OVERALL RESULT(sec) 20 성능 비교 결과 4334 13848 698 1624 389 0 5000 10000 15000 Elasticsearch MySQL splunk mongoDB INFINIFLUX DATA LOADING TIME(sec) 20.4 17.52 21.6 42.11 4.1 0 10 20 30 40 50 Elasticsearch MySQL splunk mongoDB INFINIFLUX STORAGE SIZE(GB)
  • 21. InfiniFlux mongoDB splunk MySQL Elasticsearch during time(sec) 389( 00:06:29 ) 1624( 00:10:16 ) 698 (00:11:38 ) 13848(03:50:48) 4334 (01:12:14) insert csv size(GB) 13G data size(GB) 4.1G 42.1157G 8.6G 17.52G 20.4G compress rate(%) 76.92% Uncompressed (223.97%) 33.95% Uncompressed (130.77%) Uncompressed (156.92%) memory used(%) 29.22 73.75 40.78 87.59 89.82 memory used(GB) 9.0756 22.9073 12.667 27.20 27.8965 data search text search(260만) 2s 213s ( 00:03:33 ) 424s ( 00:07:04 ) 31s 2s ip search(266만) 1s 212s ( 00:03:32 ) 40s 1s 3s time search 1초미만 211s ( 00:03:31 ) 8s 1s 2s statistic sum 25s 217s ( 00:03:37 ) 435s ( 00:07:15 ) 35s 1s average 25s 219s ( 00:03:39 ) 436s ( 00:07:16 ) 46s 4s count 17s 218s ( 00:03:38 ) 382s ( 00:06:22 ) 45s 3s complex query 4s 208s 85s 1s 3s OVERALL RESULT 393s 1832s 783s 13849s 4337s *테스트의 상세 내용 : http://www.infiniflux.com/performance 참조 21 성능 비교 상세
  • 23. 주요 기능 – 로그수집(log collector) 23 데이터의 실시간 저장 • Syslog • Apache access • Tomcat server • Java, PHP, etc • Application log • InfiniFlux log • Custom log </> </> </> TCP 송신 InfiniFluxAppend Client iflux collector
  • 24. 주요 기능 – 입력능력(대용량 데이터의 빠른 입력/처리) • 인덱스가 다수 존재하는 상황에서도 초당 300,000 건에서 최고 2,000,000 건 입력 • 실시간 인덱싱 (초고속 Bitmap Index 지원) • 실시간 2단계 압축 – 데이터 패턴 기반 논리적 압축, 페이지 블록 기반 물리적 압축 초고속 데이터 입력 • 시계열 검색을 위한 효율적인 아키텍처 실시간 구성 • 초고속으로 임의의 레코드 입력 시간 검색 가능 타임 기반 데이터 파티션 • 다수의 인덱스가 있더라도 고성능 인덱스 구성 가능 • 입력과 동시의 실시간 비트맵 인덱스 • 병렬 인덱싱 파라미터 조정 가능 비트맵 인덱스 24
  • 25. • ODBC, CLI, JDBC, RESTful API 지원 • Join, subquery, group by, having, order by 표준 SQL 인터페이스 • 인터넷 주소 타입 지원 : IPv4, IPv6 • 무부호 정수형 타입 : unsigned type (16, 32, 64 bit) • LOB 지원(최대 64MB) : text, binary 다양한 데이터 타입 지원 • ESEARCH : partial ASCII 검색 ( ‘%tres%’) • IPv4 search : ‘192.168.*.*’ • Netmask : where ipv4 contained ‘232.112.3.4/32’ 확장 검색 지원 25 주요 기능 – 분석능력(실시간 검색 및 분석)
  • 26. • 데이터 검색할때 시간 범위를 쉽게 지정하기 위해서 제공되는 키워드 • 현재 시각 기준 10분 전까지 데이터의 합계를 구하는 경우 SELECT SUM(traffic) FROM T1 DURATION 10 minute; • 현재 시점에서 한시간 이전 부터 10분간 데이터의 합계를 구하는 경우 SELECT SUM(traffic) FROM T1 DURATION 10 minute BEFORE 1 hour; DURATION 키워드 제공 • 일정 크기 이하의 데이터 유지를 위한 기능 • 지금부터 1일 동안의 데이터를 제외하고 모두 삭제하는 경우 DELETE FROM T1 EXCEPT 1 day; • 2015년 6월 1일 이전의 데이터를 모두 삭제하는 경우 DELETE FROM T1 BEFORE TO_DATE(‘2015-06-01’, ‘YYYY-MM-DD’); 선택적 삭제 지원 26 주요 기능 – SQL(시계열 특성을 반영한 SQL 구문) • 데이터 입력 순간 숨은 칼럼(_arrival_time)에 nano second 를 자동으로 저장함. • 조회시 가장 최근에 입력된 데이터부터 시간의 역순으로 출력됨. 나노 세컨드 단위의 timestamp 자동 저장
  • 27. • 빠른 텍스트 검색을 위해 ‘SEARCH’ 키워드 제공 • msg 필드에 Error 그리고(또는) 102를 포함하는 경우 SELECT id, ipv4 FROM T1 WHERE msg SEARCH ‘Error 102’; SELECT id, ipv4 FROM T1 WHERE msg SEARCH ‘Error’ or msg SEARCH ‘102’; SEARCH • 다른 복잡한 연산 조건과 함께 검색이 가능함. • ip 주소가 192.168.로 시작하고, msg 필드에 Error 그리고 102를 포함하는 레코드를 출력하는 경우 SELECT id,ipv4 FROM T1 WHERE msg SEARCH ‘Error 102’ AND ipv4 = ‘192.168.*.*’; • ip 주소가 192.168.22.11/24 범위에 속하고, msg 필드에 Error 그리고 102를 포함하는 레코드 출력하는 경우 SELECT id,ipv4 FROM T1 where msg SEARCH ‘Error 102’ AND ipv4 contained ‘192.168.22.11/24’ 복합 연산 조건 27 주요 기능 – 검색(Full Text Search) • 전통적인 DBMS의 단어 검색은 인덱스를 이용할 수 없는 LIKE를 활용하여 매우 느림 SELECT * FROM T1 WHERE MSG LIKE ‘%Error%’; LIKE
  • 28. DB Backup file • 시간 기준으로 데이터의 저장 공간 및 복사량의 최소화 BACKUP 개념도 28 주요 기능 – 백업(보관 및 복구) Backup image 생성 Table1 Table2 Table3 Table4 Table5 date2 date2 date2 date2 date2 날짜 기반의 Backup 대상 date3 date3 date3 date3 date3 date2 date2 date2 date2 date2 Restore 복구 data Table1 Table2 Table3 Table4 Table5 InfiniFlux 저장장치 (local disk/NFS/Cloud) date2 date2 date2 date2 date2 date1 date1 date1 date1 date1
  • 29. • BACKUP DATABASE [FROM start_time TO end_time] INTO [DISK | IBFILE] = ‘backup_file_path' • 지정된 시간 범위의 DB에 대하여 지정 경로에 백업을 수행 • 전체 DB에 대하여 백업이 수행 • 단일 파일로 백업 가능 BACKUP • ifluxadmin –r ‘backup_file_path’ • Backup image와 겹치는 영역의 data를 database image로 update • database에 해당 테이블이 존재하지 않으면 자동 생성 RESTORE • [MOUNT | UNMOUNT] DATABASE ‘backup_file_path' • backup image에 존재하는 table을 현재 DB에 read only view로 생성함. • 수 초 이내 mount / unmount 명령어를 통해 백업 파일을 즉시 활용 가능함. MOUNT 29 주요 기능 – 백업(보관 및 복구)
  • 31. 시큐아이 31 기존 방화벽 로그를 파일 형태로 저장하여 사용하였으나 대용량 로그를 처리하기 위해서 InfiniFlux를 이용하여 로그 관리와 빠른 검색 및 리포팅 지원 로그를 InfiniFlux로 저장로그를 파일 형태로 저장
  • 32. 시큐아이 보안 로그의 파일 보관 • 방화벽에서 발생하는 보안 로그를 파일로 저장 • 최대 초당 10만건 로그 발생 • 대용량 로그에서 필요한 내용의 검색이 어려움 • 저장된 로그를 분석하여 리포팅이 어려움 • 고객이 로그를 분석하기 위해서는 외부의 별도 분석툴을 이용하여 분석을 수행 하여야 함 로그를 DB 저장 및 검색 • 최대 초당 10만건 로그를 InfiniFlux에 저장 • 압축을 통한 디스크 저장 공간의 절약 • 질의문을 이용한 다양한 조건 검색 리포팅 강화 • 대시보드에 다양한 정보 출력 • 통계 데이터의 주기적 저장 • 리포트 작성 시 다양한 통계 정보를 활용 • 다양한 통계 정보를 바탕으로 보안 위협 분석 32 AFTERBEFORE
  • 33. 퓨처시스템(금융권) 전국 1,400여 개 지점 33 모니터링 Firewall • 장비별 로그 조회 • 리포팅 InfiniFlux 통합 로그관리 시스템 Firewall Log 일일 45억 건, 1TB의 Firewall Log를 실시간으로 처리하기 위하여 InfiniFlux 도입 InfiniFlux InfiniFlux
  • 34. 초당 10만 건 로그 저장 불가 • 기존 RDMS에서는 입력 속도를 향상하기 위해서 실시간 인덱스 생성 포기 • 인덱스 생성 없이도 초당 10만 건 입력 불가 • 인덱스는 배치로 생성, 실시간 분석에 어려움 • 관리 대상 장비가 증가 할수록 고성능 H/W 추가 초당 10만 건 이상 로그 저장 • 초당 10만 건 이상 로그를 인덱스 생성,저장 • 실시간 모니터링 및 분석 H/W 리소스 감소 • 기존 대비 H/W 사용률이 70% 이상 감소 • 저장 공간 50% 이상 감소 34 AFTER Log 저장 초당 10만건 저장 불가 실시간 모니터링 불가 퓨처시스템(금융권) RDBMS Firewall 인덱스 배치 처리 Log 저장 초당 10만건 이상 저장 실시간 모니터링 가능 Firewall 인덱스 실시간 처리 InfiniFlux BEFORE
  • 35. Q&A
  • 37. THANK YOU Website : www.infiniflux.com Email : sales@infiniflux.com Tel : 02-2038-4606