SlideShare a Scribd company logo
제 3회 서울 Hadoop 사용자
모임
tchoi@hortonworks.com
호튼웍스 코리아 수석 컨설턴트
최종욱
공지 사항
• 서울 Hadoop 사용자 모임에 어서 오십시오!
• 식사는 첫 발표 이후 강당 밖에서
부탁드립니다.
• 샌드위치는 햄, 씨푸드, 참치 준비했습니다.
• 오후 7:00부터 시작합니다.
• 호튼웍스, SAS, ASD 테크 순서로
발표합니다.
어서 오세요!
• 서울 Hadoop 사용자 모임: 초보자부터
전문가까지 하둡 전반에 대한 이야기를
나누는 사람들의 공개 모임이다. 2014년
1월부터 매월 모여, 이제 약 100명이 모인다.
• 대강당, 마이크, 프로젝터, 캠코더 등 시설도
대폭 강화했다.
• facebook.com/groups/seoulhadoop
오늘의 발표 일정 소개
하이브 최적화 및 피닉스 소개
최종욱 수석 컨설턴트
Hadoop Data 가치 창출을 위한
SAS 분석 테크놀로지
김근태 부장
파이썬과 하둡 스트리밍의
활용
세르게이
하이브 40배 성능 향상 비결
실전 성능 향상 결과
대기업 시험 환경
• 문제: 부분 일치하는 문자열만 걸러내는
경우에 20분이나 걸린다.
• 예: SELECT * FROM customer WHERE address
LIKE “%송파구%”
• 원인: LIKE를 처리할 때, 자바 정규식 기능을
사용하는데 이를 위해 컴파일, 실행, 문자열
객체 생성 등에 굉장히 많은 CPU와 메모리
자원이 필요하다.
LIKE 최적화
• 전략: 자주 쓰이는 패턴이 나타나는
경우, byte 배열에 바로 접근하여 for
반복문으로 처리한다.
• 설계: 80%의 용례가 abc%, %abc%, %abc와
같음을 SQL 서버 개발자가 알려줬다. UTF-8
처리, 널 처리 등을 추가했다.
• 기타 최적화: 24개의 디스크, 고속
네트워크, 하이브 버전업, ORC 파일
적용했다.
• 결과: 20분이 걸리던 질의를 30초만에
처리했다. LIKE 외 질의에서 성능이 6배로
아파치 피닉스 소개
실시간 삽입, 조회, 편집, 삭제로의 초대
하이브가 통계를 내는 방식
• 군대식으로 여러
컴퓨터에 명령을
내려, 각 컴퓨터가
계산한 통계를 합치는
방식이다.
하이브(하둡)의 강점
슈퍼컴 하이브 (하둡)
• 여러 일반 컴퓨터로 처리
• 처리할 양이 늘어나면
컴퓨터 추가 및 네트워크
연결
• 확장 비용이 저렴
• 커다란 고급 컴퓨터로
처리
• 처리할 양이 늘어나면 더
큰 컴퓨터로 대체
• 확장 비용이 비쌈
하이브가 문서를 찾는 방식
• 한 문서를 찾느라 부대
전체가 수색하는
꼴이라 비효율적이다.
HBase가 문서를 찾는 방식
• 도서관 처럼 정리를
열심히 해놓아서
실시간으로
추가, 조회, 편집, 삭제
할 수 있다.
도서관 사서가 되어봅시다
1. 책 일련번호를 알 때.
2. 안내도에서 위치를 확인하여
3. 주제별 구역으로 이동하고
4. 일련번호가 낀 책장을 찾아
5. 책장 내에서 해당 일련번호의 책을 찾고
6. 본문을 복사한다.
비유를 하자면…
도서관 HBase
전체 안내도 마스터
주제별 구역 리전 서버
범위가 붙은 책장 리전
책 일련 번호 로우 키
책 본문 컬럼 패밀리
외계어의 넘사벽
• “김씨가 2002년에 발행한
책을 찾아라”
• new Scan(new byte[]{}, new
FilterList(FilterList.Operator.M
UST_PASS_ALL, Arrays.asList(
new
SingleColumnValueFilter(cf, au
thorCol, CompareOp.EQUAL, B
ytes.toBytes(“kim”)),
new
SingleColumnValueFilter(cf, ye
arCol, CompareOp.EQUAL, Byt
es.toBytes(2002))
)));
• 개발자, 관리자 모두
떡실신…
기존의 SQL on HBase 지원
• 하이브와 임팔라 등에서 HBase 통합을
지원했다.
• 실제 용례에 비해 기능과 성능이 떨어졌다.
• 실질적으로 쓰기에는 무리가 많이 있었다.
아파치 피닉스는 기본적으로
• 기존에 쓰던 JDBC, SQL
그대로 HBase를 사용.
• SELECT * FROM book
WHERE author=“kim”
AND year=2002
피닉스는 덤으로…
• 다양한 최적화 지원
– 복합키: 여러 컬럼을 조합해서 하나의
일련번호로 사용
– 솔팅: 한꺼번에 많이 쓸 때 한 컴퓨터에 쏠리는
현상 완화하여 성능을 최적으로 유지
– 스킵 스캔:
– 이차 색인: 한 문서에 여러 종류의 일련번호
부여
– 시퀀스: 기존 데이터베이스처럼 임의의
일련번호 부여
무작위로 분산된 키의 경우
연속적으로 증가하는 키의 경우
솔팅 (Salting) 최적화
• HBase는 키 기준으로 정렬하여 인접한 키
끼리는 한 컴퓨터에 모아놓는 방식이다.
• 한번에 쓸 게 많아지면, 키에 따라서 여러
컴퓨터에 나뉘어서 기록되기 때문에 문제가
없다.
• 하지만, 로그 데이터처럼 인접한 키가
많으면 한 컴퓨터에 모든 부하가 집중되어
전체가 느려진다.
• 솔팅을 적용하면 사전에 정해진 규칙에
따라 키의 순서를 뒤섞어서 부하 집중을
복합키 최적화
• ‘책을 저자 이름 순으로만 정렬해도
괜찮겠지?’
• 김태광 작가 2014년 현재 151권 이상 집필…
OTL
• 저자 이름과 책 이름 순으로
정렬하면, 찾기에 훨씬 편리
스킵 스캔
a b c d
1
2
3
4
a b c d
1
2
3
4
WHERE key1=‘a’ OR key1=‘c’
WHERE (key1=‘a’ OR key1=‘c’) AND (key2=1 OR key2=3)
8개 영역 읽음
4개 영역만 읽음
하둡 생태계의 중심으로
들어오는 중
• 이전엔 세일즈포스라는 회사에서 관리했다.
– 최근에 아파치 소프트웨어 재단으로 이관.
• 이전엔 하둡 배포판에 포함되지 않았다.
– HDP 2.1에 포함. 차후 타 배포판에도
포함될지도?
실시간 조회 성능
• 타이핑을 하는 동안
주가 그래프가
변경된다. 굉장히 빠른
반응성을 보인다.
• http://www.youtube.co
m/watch?v=YHsHdQ08t
rg
피닉스는 기회의 땅!
• 기업 사용자: 실시간
삽입/조회/편집/삭제
에도 하둡을 적용할 수
있다.
• 오픈소스 개발자: 문이
활짝 열려있는 데뷔
무대!

More Related Content

PDF
서울 하둡 사용자 모임 발표자료
PDF
Apache Hive: for business intelligence use and real-time I/O use (Korean)
PPTX
Introduction to Apache Tajo
PDF
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
PPTX
빅데이터 구축 사례
PPTX
Gruter TECHDAY 2014 MelOn BigData
PDF
실시간 빅 데이터 기술 현황 및 Daum 활용 사례 소개 (2013)
PDF
Expanding Your Data Warehouse with Tajo
서울 하둡 사용자 모임 발표자료
Apache Hive: for business intelligence use and real-time I/O use (Korean)
Introduction to Apache Tajo
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
빅데이터 구축 사례
Gruter TECHDAY 2014 MelOn BigData
실시간 빅 데이터 기술 현황 및 Daum 활용 사례 소개 (2013)
Expanding Your Data Warehouse with Tajo

What's hot (20)

PDF
Spark와 Hadoop, 완벽한 조합 (한국어)
PDF
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
PDF
Hadoop 제주대
PPTX
about hadoop yes
PDF
Big data analysis with R and Apache Tajo (in Korean)
PDF
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
PDF
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
PPT
Big Data Overview
KEY
Distributed Programming Framework, hadoop
PDF
Spark Day 2017@Seoul(Spark Bootcamp)
PPTX
Tajo and SQL-on-Hadoop in Tech Planet 2013
PDF
하둡 좋은약이지만 만병통치약은 아니다
PDF
Daum내부 Hadoop 활용 사례 | Devon 2012
PDF
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
PPTX
An introduction to hadoop
PDF
빅데이터, big data
PDF
Tajo TPC-H Benchmark Test on AWS
PDF
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
PPTX
Hadoop설명
PDF
hadoop ch1
Spark와 Hadoop, 완벽한 조합 (한국어)
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
Hadoop 제주대
about hadoop yes
Big data analysis with R and Apache Tajo (in Korean)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
Big Data Overview
Distributed Programming Framework, hadoop
Spark Day 2017@Seoul(Spark Bootcamp)
Tajo and SQL-on-Hadoop in Tech Planet 2013
하둡 좋은약이지만 만병통치약은 아니다
Daum내부 Hadoop 활용 사례 | Devon 2012
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
An introduction to hadoop
빅데이터, big data
Tajo TPC-H Benchmark Test on AWS
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
Hadoop설명
hadoop ch1
Ad

Similar to 3회 서울 Hadoop 사용자 모임 / 아파치 피닉스 (20)

PDF
Apache hbase overview (20160427)
PPTX
하둡 에코시스템 위에서 환상적인 테이크오프 - DSTS 2019
PDF
log-monitoring-architecture.pdf
PDF
20180714 하둡 스터디 종료 보고 및 연구과제 발표자료
PDF
HBase 훑어보기
PDF
Hadoop발표자료
PDF
Apache hive
PDF
Hive 입문 발표 자료
PDF
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
PDF
2013.02.02 지앤선 테크니컬 세미나 - 하둡으로 배우는 대용량 데이터 분산처리 기술(이현남)
PDF
SPARK SQL
PDF
Spark_Overview_qna
PPTX
Hybrid & Logical Data Warehouse
PPT
빅데이터 기본개념
PPTX
[211] HBase 기반 검색 데이터 저장소 (공개용)
PPTX
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
PPTX
Apache spark 소개 및 실습
PDF
빅데이터 기술 현황과 시장 전망(2014)
PDF
BigData, Hadoop과 Node.js, R2
PPTX
Big data application architecture 요약2
Apache hbase overview (20160427)
하둡 에코시스템 위에서 환상적인 테이크오프 - DSTS 2019
log-monitoring-architecture.pdf
20180714 하둡 스터디 종료 보고 및 연구과제 발표자료
HBase 훑어보기
Hadoop발표자료
Apache hive
Hive 입문 발표 자료
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
2013.02.02 지앤선 테크니컬 세미나 - 하둡으로 배우는 대용량 데이터 분산처리 기술(이현남)
SPARK SQL
Spark_Overview_qna
Hybrid & Logical Data Warehouse
빅데이터 기본개념
[211] HBase 기반 검색 데이터 저장소 (공개용)
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
Apache spark 소개 및 실습
빅데이터 기술 현황과 시장 전망(2014)
BigData, Hadoop과 Node.js, R2
Big data application architecture 요약2
Ad

3회 서울 Hadoop 사용자 모임 / 아파치 피닉스

  • 1. 제 3회 서울 Hadoop 사용자 모임 tchoi@hortonworks.com 호튼웍스 코리아 수석 컨설턴트 최종욱
  • 2. 공지 사항 • 서울 Hadoop 사용자 모임에 어서 오십시오! • 식사는 첫 발표 이후 강당 밖에서 부탁드립니다. • 샌드위치는 햄, 씨푸드, 참치 준비했습니다. • 오후 7:00부터 시작합니다. • 호튼웍스, SAS, ASD 테크 순서로 발표합니다.
  • 3. 어서 오세요! • 서울 Hadoop 사용자 모임: 초보자부터 전문가까지 하둡 전반에 대한 이야기를 나누는 사람들의 공개 모임이다. 2014년 1월부터 매월 모여, 이제 약 100명이 모인다. • 대강당, 마이크, 프로젝터, 캠코더 등 시설도 대폭 강화했다. • facebook.com/groups/seoulhadoop
  • 4. 오늘의 발표 일정 소개 하이브 최적화 및 피닉스 소개 최종욱 수석 컨설턴트 Hadoop Data 가치 창출을 위한 SAS 분석 테크놀로지 김근태 부장 파이썬과 하둡 스트리밍의 활용 세르게이
  • 5. 하이브 40배 성능 향상 비결 실전 성능 향상 결과
  • 6. 대기업 시험 환경 • 문제: 부분 일치하는 문자열만 걸러내는 경우에 20분이나 걸린다. • 예: SELECT * FROM customer WHERE address LIKE “%송파구%” • 원인: LIKE를 처리할 때, 자바 정규식 기능을 사용하는데 이를 위해 컴파일, 실행, 문자열 객체 생성 등에 굉장히 많은 CPU와 메모리 자원이 필요하다.
  • 7. LIKE 최적화 • 전략: 자주 쓰이는 패턴이 나타나는 경우, byte 배열에 바로 접근하여 for 반복문으로 처리한다. • 설계: 80%의 용례가 abc%, %abc%, %abc와 같음을 SQL 서버 개발자가 알려줬다. UTF-8 처리, 널 처리 등을 추가했다. • 기타 최적화: 24개의 디스크, 고속 네트워크, 하이브 버전업, ORC 파일 적용했다. • 결과: 20분이 걸리던 질의를 30초만에 처리했다. LIKE 외 질의에서 성능이 6배로
  • 8. 아파치 피닉스 소개 실시간 삽입, 조회, 편집, 삭제로의 초대
  • 9. 하이브가 통계를 내는 방식 • 군대식으로 여러 컴퓨터에 명령을 내려, 각 컴퓨터가 계산한 통계를 합치는 방식이다.
  • 10. 하이브(하둡)의 강점 슈퍼컴 하이브 (하둡) • 여러 일반 컴퓨터로 처리 • 처리할 양이 늘어나면 컴퓨터 추가 및 네트워크 연결 • 확장 비용이 저렴 • 커다란 고급 컴퓨터로 처리 • 처리할 양이 늘어나면 더 큰 컴퓨터로 대체 • 확장 비용이 비쌈
  • 11. 하이브가 문서를 찾는 방식 • 한 문서를 찾느라 부대 전체가 수색하는 꼴이라 비효율적이다.
  • 12. HBase가 문서를 찾는 방식 • 도서관 처럼 정리를 열심히 해놓아서 실시간으로 추가, 조회, 편집, 삭제 할 수 있다.
  • 13. 도서관 사서가 되어봅시다 1. 책 일련번호를 알 때. 2. 안내도에서 위치를 확인하여 3. 주제별 구역으로 이동하고 4. 일련번호가 낀 책장을 찾아 5. 책장 내에서 해당 일련번호의 책을 찾고 6. 본문을 복사한다.
  • 14. 비유를 하자면… 도서관 HBase 전체 안내도 마스터 주제별 구역 리전 서버 범위가 붙은 책장 리전 책 일련 번호 로우 키 책 본문 컬럼 패밀리
  • 15. 외계어의 넘사벽 • “김씨가 2002년에 발행한 책을 찾아라” • new Scan(new byte[]{}, new FilterList(FilterList.Operator.M UST_PASS_ALL, Arrays.asList( new SingleColumnValueFilter(cf, au thorCol, CompareOp.EQUAL, B ytes.toBytes(“kim”)), new SingleColumnValueFilter(cf, ye arCol, CompareOp.EQUAL, Byt es.toBytes(2002)) ))); • 개발자, 관리자 모두 떡실신…
  • 16. 기존의 SQL on HBase 지원 • 하이브와 임팔라 등에서 HBase 통합을 지원했다. • 실제 용례에 비해 기능과 성능이 떨어졌다. • 실질적으로 쓰기에는 무리가 많이 있었다.
  • 17. 아파치 피닉스는 기본적으로 • 기존에 쓰던 JDBC, SQL 그대로 HBase를 사용. • SELECT * FROM book WHERE author=“kim” AND year=2002
  • 18. 피닉스는 덤으로… • 다양한 최적화 지원 – 복합키: 여러 컬럼을 조합해서 하나의 일련번호로 사용 – 솔팅: 한꺼번에 많이 쓸 때 한 컴퓨터에 쏠리는 현상 완화하여 성능을 최적으로 유지 – 스킵 스캔: – 이차 색인: 한 문서에 여러 종류의 일련번호 부여 – 시퀀스: 기존 데이터베이스처럼 임의의 일련번호 부여
  • 21. 솔팅 (Salting) 최적화 • HBase는 키 기준으로 정렬하여 인접한 키 끼리는 한 컴퓨터에 모아놓는 방식이다. • 한번에 쓸 게 많아지면, 키에 따라서 여러 컴퓨터에 나뉘어서 기록되기 때문에 문제가 없다. • 하지만, 로그 데이터처럼 인접한 키가 많으면 한 컴퓨터에 모든 부하가 집중되어 전체가 느려진다. • 솔팅을 적용하면 사전에 정해진 규칙에 따라 키의 순서를 뒤섞어서 부하 집중을
  • 22. 복합키 최적화 • ‘책을 저자 이름 순으로만 정렬해도 괜찮겠지?’ • 김태광 작가 2014년 현재 151권 이상 집필… OTL • 저자 이름과 책 이름 순으로 정렬하면, 찾기에 훨씬 편리
  • 23. 스킵 스캔 a b c d 1 2 3 4 a b c d 1 2 3 4 WHERE key1=‘a’ OR key1=‘c’ WHERE (key1=‘a’ OR key1=‘c’) AND (key2=1 OR key2=3) 8개 영역 읽음 4개 영역만 읽음
  • 24. 하둡 생태계의 중심으로 들어오는 중 • 이전엔 세일즈포스라는 회사에서 관리했다. – 최근에 아파치 소프트웨어 재단으로 이관. • 이전엔 하둡 배포판에 포함되지 않았다. – HDP 2.1에 포함. 차후 타 배포판에도 포함될지도?
  • 25. 실시간 조회 성능 • 타이핑을 하는 동안 주가 그래프가 변경된다. 굉장히 빠른 반응성을 보인다. • http://www.youtube.co m/watch?v=YHsHdQ08t rg
  • 26. 피닉스는 기회의 땅! • 기업 사용자: 실시간 삽입/조회/편집/삭제 에도 하둡을 적용할 수 있다. • 오픈소스 개발자: 문이 활짝 열려있는 데뷔 무대!