SlideShare a Scribd company logo
빅데이터 ~ 머신(딥)러닝
실무로 배우는 빅데이터 기술
 Hive Bucket 활용
☆ 확장하기 – 7편 ☆
김강원
Hive Bucket(버켓) 은?
버켓으로 지정된 필드의 데이터들을 해싱값 기준으로
버켓팅(그룹핑)해 저장함으로써 효율적인 Hive 쿼리를 지원
※ Hive의 기본 개념과 기능들은 구글링을 통해 확인 하세요!
파일럿 프로젝트 확장 (1/2)
책 246 페이지 중에서… (개정판)
Bucket 활용
파일럿 프로젝트 확장 (2/2)
확장편 실습
Hive Bucket 활용
 Hue > Hive 에디터 접속
URL: http://server02.hadoop.com:8888
Hue Home > Query Editor > Hive
Step-1
 버켓팅할 데이터를 Hive QL로 확인
SELECT * FROM smartcar_master;
Step-2
 버켓팅할 데이터를 파일 브라우져로 확인
파일 브라우져 > /pilot-pjt/collect/car-master
Step-3
 버켓팅할 테이블 생성
set hive.enforce.bucketing = true;
CREATE TABLE smartcar_master_bucketed (
car_number String,
sex String,
age String,
marriage String,
region String,
job String,
car_capacity String,
car_year String,
car_model String )
CLUSTERED BY (car_number) SORTED BY(car_number ASC) INTO 10 BUCKETS
ROW FORMAT DELIMITED FIELDS TERMINATED BY '|';
Step-4
 버켓팅된 테이블에 데이터 생성
INSERT OVERWRITE TABLE smartcar_master_bucketed
SELECT * FROM smartcar_master;
Step-5
 버켓팅된 데이터를 파일 브라우져로 확인
파일 브라우져 > /user/hive/warehouse/smartcar_master_bucketed
Step-6
 버켓을 이용해 데이터 샘플링
SELECT * FROM smartcar_master_bucketed TABLESAMPLE (bucket 1 out of 10 on region);
Step-7
실무로 배우는 빅데이터 기술
확장하기 7편 – Hive Bucket 활용
[ 강의자료 ]
 동 영 상: 유튜브 www.youtube.com
 실습문서: 슬라이드쉐어 www.slideshare.net

More Related Content

PDF
9. Application - WebHDFS
PDF
2. Application - Sqoop Import
PDF
6. Application - NiFi
PDF
1. Application - Pig
PDF
5. Install - NiFi
PDF
17. Application - Nutch + Solr
PDF
16. Install - Nutch
PDF
4. Application - Oozie Fork
9. Application - WebHDFS
2. Application - Sqoop Import
6. Application - NiFi
1. Application - Pig
5. Install - NiFi
17. Application - Nutch + Solr
16. Install - Nutch
4. Application - Oozie Fork

What's hot (13)

PDF
18. Install - Spark Streaming Env.
PDF
19. Application - Spark Streaming 1
PDF
[온라인교육시리즈] 네이버 클라우드 플랫폼 init script 활용법 소개(정낙수 클라우드 솔루션 아키텍트)
PPTX
구글Fin
PDF
[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트
PDF
RUCK 2017 - 강병엽 - Spark와 R을 연동한 빅데이터 분석
KEY
Data URI Scheme
PPSX
CUBRIDInside_5th_CUBRID_Migration Process_DHLee
PDF
[Pgday.Seoul 2017] 1. PostGIS의 사례로 본 PostgreSQL 확장 - 장병진
PDF
하둡-맵리듀스 튜닝 방법
PPTX
좌충우돌 CLOUD 학습기(이동민)
PDF
GCP 자격증 취득 후 찾아온 기회들
PDF
Airflow introduce
18. Install - Spark Streaming Env.
19. Application - Spark Streaming 1
[온라인교육시리즈] 네이버 클라우드 플랫폼 init script 활용법 소개(정낙수 클라우드 솔루션 아키텍트)
구글Fin
[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트
RUCK 2017 - 강병엽 - Spark와 R을 연동한 빅데이터 분석
Data URI Scheme
CUBRIDInside_5th_CUBRID_Migration Process_DHLee
[Pgday.Seoul 2017] 1. PostGIS의 사례로 본 PostgreSQL 확장 - 장병진
하둡-맵리듀스 튜닝 방법
좌충우돌 CLOUD 학습기(이동민)
GCP 자격증 취득 후 찾아온 기회들
Airflow introduce
Ad

Similar to 7. Application - Hive Bucket (20)

PDF
NetApp AI Control Plane
PDF
2020년 4월 18일 개발 이야기 정리
KEY
Distributed Programming Framework, hadoop
PDF
Real-time Big Data Analytics Practice with Unstructured Data
PDF
성공적인 게임 런칭을 위한 비밀의 레시피 #3
PDF
어그로월드 Season1 - Aggro World season 1
PDF
제로부터시작하는 Git 두번째 이야기
PDF
Jco 소셜 빅데이터_20120218
PDF
[아이펀팩토리] 2018 데브데이 서버위더스 _01 HTML5/WebSocket으로 Pong 게임 만들기
PDF
서버 H/W, S/W 인벤토리 Auto Discovery 솔루션
PDF
Portfolio
PDF
Cloud-Barista 제1차 오픈세미나 - CB-Spider : 멀티 클라우드 인프라 연동 프레임워크(1st Open Seminar, ...
PPTX
Introduction to Hadoop, Big Data, Training, Use Cases
PPTX
Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1 나무기술(주) 최유석 20170912
PDF
라즈베리파이로 보일러 제어하기
PDF
Lablupconf session8 "Paving the road to AI-powered world"
PDF
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
PDF
하이퍼레저 프로젝트 개요
PDF
하이퍼레저 프로젝트 개요
PDF
[Koss Con 2016] CloudBread Tutorial PT
NetApp AI Control Plane
2020년 4월 18일 개발 이야기 정리
Distributed Programming Framework, hadoop
Real-time Big Data Analytics Practice with Unstructured Data
성공적인 게임 런칭을 위한 비밀의 레시피 #3
어그로월드 Season1 - Aggro World season 1
제로부터시작하는 Git 두번째 이야기
Jco 소셜 빅데이터_20120218
[아이펀팩토리] 2018 데브데이 서버위더스 _01 HTML5/WebSocket으로 Pong 게임 만들기
서버 H/W, S/W 인벤토리 Auto Discovery 솔루션
Portfolio
Cloud-Barista 제1차 오픈세미나 - CB-Spider : 멀티 클라우드 인프라 연동 프레임워크(1st Open Seminar, ...
Introduction to Hadoop, Big Data, Training, Use Cases
Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1 나무기술(주) 최유석 20170912
라즈베리파이로 보일러 제어하기
Lablupconf session8 "Paving the road to AI-powered world"
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
하이퍼레저 프로젝트 개요
하이퍼레저 프로젝트 개요
[Koss Con 2016] CloudBread Tutorial PT
Ad

More from merry7 (7)

PDF
15. Application - Solr Indexing & Searching
PDF
14. Install - Solr
PDF
12. Application - Python + Pandas
PDF
13. Application - Tensorflow Autoencoder
PDF
11. Application - Phoenix
PDF
10. Install - Phoenix
PDF
3. Install - Tensorflow
15. Application - Solr Indexing & Searching
14. Install - Solr
12. Application - Python + Pandas
13. Application - Tensorflow Autoencoder
11. Application - Phoenix
10. Install - Phoenix
3. Install - Tensorflow

7. Application - Hive Bucket

  • 1. 빅데이터 ~ 머신(딥)러닝 실무로 배우는 빅데이터 기술  Hive Bucket 활용 ☆ 확장하기 – 7편 ☆ 김강원
  • 2. Hive Bucket(버켓) 은? 버켓으로 지정된 필드의 데이터들을 해싱값 기준으로 버켓팅(그룹핑)해 저장함으로써 효율적인 Hive 쿼리를 지원 ※ Hive의 기본 개념과 기능들은 구글링을 통해 확인 하세요!
  • 4. 책 246 페이지 중에서… (개정판) Bucket 활용 파일럿 프로젝트 확장 (2/2)
  • 6.  Hue > Hive 에디터 접속 URL: http://server02.hadoop.com:8888 Hue Home > Query Editor > Hive Step-1  버켓팅할 데이터를 Hive QL로 확인 SELECT * FROM smartcar_master; Step-2  버켓팅할 데이터를 파일 브라우져로 확인 파일 브라우져 > /pilot-pjt/collect/car-master Step-3
  • 7.  버켓팅할 테이블 생성 set hive.enforce.bucketing = true; CREATE TABLE smartcar_master_bucketed ( car_number String, sex String, age String, marriage String, region String, job String, car_capacity String, car_year String, car_model String ) CLUSTERED BY (car_number) SORTED BY(car_number ASC) INTO 10 BUCKETS ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'; Step-4  버켓팅된 테이블에 데이터 생성 INSERT OVERWRITE TABLE smartcar_master_bucketed SELECT * FROM smartcar_master; Step-5
  • 8.  버켓팅된 데이터를 파일 브라우져로 확인 파일 브라우져 > /user/hive/warehouse/smartcar_master_bucketed Step-6  버켓을 이용해 데이터 샘플링 SELECT * FROM smartcar_master_bucketed TABLESAMPLE (bucket 1 out of 10 on region); Step-7
  • 9. 실무로 배우는 빅데이터 기술 확장하기 7편 – Hive Bucket 활용 [ 강의자료 ]  동 영 상: 유튜브 www.youtube.com  실습문서: 슬라이드쉐어 www.slideshare.net