Indexing OLAP DataIndexing OLAP Data
Sunita SarawagiSunita Sarawagi
Date
Product
Country
sum
sum
TV
VCR
PC
1Qtr 2Qtr 3Qtr 4Qtr
U.S.A
Canada
Mexico
sum
May 29, 2013 3
Dữ liệu đa chiềuDữ liệu đa chiềuProductRegion
Month
Các chiều: SP, Địa danh, Thời gian
Các đường tóm tắt phân cấp
Industry Region Year
Category Country Quarter
Product City Month Week
Office Day
May 29, 2013 4
time_key
day
day_of_the_week
month
quarter
year
time
location_key
street
city
state_or_province
country
location
Sales Fact Table
time_key
item_key
branch_key
location_key
units_sold
dollars_sold
avg_sales
Measures
item_key
item_name
brand
type
supplier_type
item
branch_key
branch_name
branch_type
branch
VÍ DỤ SƠ ĐỒ HÌNH SAO
AgendaAgenda
Requirements on Indexing methods
Existing indexing methods
Optimization of R-Tree for OLAP data
R-Tree VS Bit-mapped Index
Conclusion
1.2. Requirements on an indexing method1.2. Requirements on an indexing method
 Symmetric partial match queries
– Truy vấn điểm
– Truy vấn vùng dữ liệu liên tục
ví dụ: Thời gian từ tháng 1 đến tháng 7 năm 1994
– Truy vấn vùng dữ liệu không liên tục
ví dụ: Tháng đầu tiên của mỗi năm
 Indexing ai multiple level of aggregation
– Tính toán, thống kê trước theo nhóm
– Thiết lập index cho dữ liệu thống kê
 Multiple traversal orders
 Efficient batch update
 Handling sparse data efficiently
2. Existing methods2. Existing methods
 Multidimensional array-based methods
– Làm việc hiệu quả khi dữ liệu dày đặc
– Mô hình Essbase
Ví dụ: khối dữ liệu 4 chiều gồm sản phẩm, cửa hàng
(thưa thớt), thời gian và kịch bản (dày đặc)
– Sản phẩm và cửa hàng trong cây B
– Mảng 2 chiều: Thời gian và kịch bản
 Bit mapped index and variations
– Pros
 Dữ liệu số thấp, chỉ số hóa được cả khoảng trống
 Hỗ trợ thao tác phân theo bít
 Dữ liệu truy cập được phân cụm
 Tất cả chiều dữ liệu đối xứng
– Cons
 Tốn kém vùng truy vấn
 Dễ bị tràn dữ liệu khi lưu bít chỉ số đặc biệt dữ liệu
số cao
 Chi phí cho việc cập nhật hàng loạt rất lớn khi ánh
xạ sang index, đôi khi phải sửa thậm chí chèn 1
dòng
2. Existing methods2. Existing methods
Bit-mapped indices variants
– Compression (nén)
– Hybrid (lai – kết hợp)
– Dynamic Bit-maps (chỉ số hóa động)
2. Existing methods2. Existing methods
 Hierarchical Index
– Example: Product - Store
 Thiết lập index cho sản phẩm đầu tiên lưu trữ tổng quát dựa
vào cấp độ sản phẩm
 Mỗi giá trị sản phẩm, thiết lập index cho sản phẩm và sản
phẩm chung cho cấp độ product-store
– Pros:
 Cho phép truy cập nhanh với dữ liệu ở cấp cao hơn
 Chiều dữ liệu được thao tác đối xứng
– Cons:
 Tràn bộ nhớ cho việc lập chỉ mục
 Hiệu quả thu hồi trung bình có thế chấp nhận được vì cấu trúc
chỉ mục lớn
2. Existing methods2. Existing methods
Multidimensional index
- Thiết lập index đa chiều
- Truy vấn nhanh
- Không cho lợi ích về kinh tế
- Đòi hỏi quy mô lớn về số chiều và nhiều thuộc tính
2. Existing methods2. Existing methods
3. Optimized R-Tree of OLAP data3. Optimized R-Tree of OLAP data
Đối với miền tọa độ dày đặc, chỉ lưu trữ
những đường biên của miền (chứa nhiều hơn
số ngưỡng)
Con trỏ trỏ đến mảng. Mảng có thể tổ chức
theo hai cách, mỗi mục của mảng lưu trữ địa
chỉ một bản ghi (Tuple ID) hoặc chính nó.
Tìm miền dày dặc
– Thường xác định ở miền cấp bậc cao
– Sử dụng thuật toán phân cụm
4. R-Tree VS Bit-mapped indices4. R-Tree VS Bit-mapped indices
R-Tree Pros:
– Cho phép truy vấn theo vùng
– Tràn bộ nhớ ít hơn
– Việc cập nhật hiệu quả hơn
Bit-mapped Pros:
– Thao tác đánh chỉ số bít nhanh hơn
– Hiêu quả cho số thấp, một vài chiều dữ liệu thu
nhỏ và dư liệu thưa thớt
EFFICIENT COMPUTATION OFEFFICIENT COMPUTATION OF
ICEBERG CUBES WITHICEBERG CUBES WITH
COMPLEX MEASURESCOMPLEX MEASURES
- Chúng ta hướng đến một cách hiệu quả để truy vấn kết
hợp đa chiều trong iceberg cube và khai thác dữ liệu.
- Trong bài báo chúng ta chỉ nghiên cứu phép trung
bình trong iceberg cube.
- Mở rộng hai phương pháp nghiên cứu trước đây,
Apriori và BUC, trở thành Top-k Apriori và Top-k
BUC.
- Nâng cao hiệu quả hơn nữa bằng phương pháp Top-k
H-Cubing
Top-K Average
Top-k Apriori
Top-k BUC
Top-k H-Cubing
Performance Analysis

More Related Content

PPT
05 da tri tue
PPTX
Medical Launch Handouts in Vietnamese - Eight Kinds of Smart
PPT
6.1 query optimization overview
PPTX
De an-tttn-olap-slide
PPTX
R-Trees and Geospatial Data Structures
PPT
PPT
Best for b trees
PPT
B-tree & R-tree
05 da tri tue
Medical Launch Handouts in Vietnamese - Eight Kinds of Smart
6.1 query optimization overview
De an-tttn-olap-slide
R-Trees and Geospatial Data Structures
Best for b trees
B-tree & R-tree

Similar to Indexing olap data (20)

PPTX
Huong dan dung index_oracle
PDF
Luận văn Nghiên cứu các kỹ thuật lập chỉ mục đa chiều trên cơ sở dữ liệu quan hệ
DOCX
Tip oracle
PPTX
Management Statistics
PPTX
Training sql2
DOC
Tim hieu ve datacube
PDF
Luận văn: Phương pháp xử lý phân tích trực tuyến áp dụng trong xây dựng hệ tr...
PDF
Chuong 5 toi_uu_hoa_van_tin
PDF
03-Indexes.pdf
PPT
Bài giảng khai phá dữ liệu, data mining.ppt
PPT
Slide Hệ Quản Trị Cơ sở dữ liệu - CHƯƠNG 2
PDF
Tong quan ve phan cum data mining
PDF
Baigiangphanquery
PDF
Luận văn Nghiên cứu phương pháp phân nhóm dữ liệu động áp dụng vào truy vấn t...
DOCX
Thuc hanh access
PDF
b2-ddl-create-190213084659.pdf
PPT
02. baigiangquery
PPTX
Training sql1
PDF
Luận văn: Nghiên cứu và cài đặt một số đối tượng phân cụm, phân lớp
PPT
02. baigiangquery
Huong dan dung index_oracle
Luận văn Nghiên cứu các kỹ thuật lập chỉ mục đa chiều trên cơ sở dữ liệu quan hệ
Tip oracle
Management Statistics
Training sql2
Tim hieu ve datacube
Luận văn: Phương pháp xử lý phân tích trực tuyến áp dụng trong xây dựng hệ tr...
Chuong 5 toi_uu_hoa_van_tin
03-Indexes.pdf
Bài giảng khai phá dữ liệu, data mining.ppt
Slide Hệ Quản Trị Cơ sở dữ liệu - CHƯƠNG 2
Tong quan ve phan cum data mining
Baigiangphanquery
Luận văn Nghiên cứu phương pháp phân nhóm dữ liệu động áp dụng vào truy vấn t...
Thuc hanh access
b2-ddl-create-190213084659.pdf
02. baigiangquery
Training sql1
Luận văn: Nghiên cứu và cài đặt một số đối tượng phân cụm, phân lớp
02. baigiangquery
Ad

Indexing olap data

  • 1. Indexing OLAP DataIndexing OLAP Data Sunita SarawagiSunita Sarawagi
  • 3. May 29, 2013 3 Dữ liệu đa chiềuDữ liệu đa chiềuProductRegion Month Các chiều: SP, Địa danh, Thời gian Các đường tóm tắt phân cấp Industry Region Year Category Country Quarter Product City Month Week Office Day
  • 4. May 29, 2013 4 time_key day day_of_the_week month quarter year time location_key street city state_or_province country location Sales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_sales Measures item_key item_name brand type supplier_type item branch_key branch_name branch_type branch VÍ DỤ SƠ ĐỒ HÌNH SAO
  • 5. AgendaAgenda Requirements on Indexing methods Existing indexing methods Optimization of R-Tree for OLAP data R-Tree VS Bit-mapped Index Conclusion
  • 6. 1.2. Requirements on an indexing method1.2. Requirements on an indexing method  Symmetric partial match queries – Truy vấn điểm – Truy vấn vùng dữ liệu liên tục ví dụ: Thời gian từ tháng 1 đến tháng 7 năm 1994 – Truy vấn vùng dữ liệu không liên tục ví dụ: Tháng đầu tiên của mỗi năm  Indexing ai multiple level of aggregation – Tính toán, thống kê trước theo nhóm – Thiết lập index cho dữ liệu thống kê  Multiple traversal orders  Efficient batch update  Handling sparse data efficiently
  • 7. 2. Existing methods2. Existing methods  Multidimensional array-based methods – Làm việc hiệu quả khi dữ liệu dày đặc – Mô hình Essbase Ví dụ: khối dữ liệu 4 chiều gồm sản phẩm, cửa hàng (thưa thớt), thời gian và kịch bản (dày đặc) – Sản phẩm và cửa hàng trong cây B – Mảng 2 chiều: Thời gian và kịch bản
  • 8.  Bit mapped index and variations – Pros  Dữ liệu số thấp, chỉ số hóa được cả khoảng trống  Hỗ trợ thao tác phân theo bít  Dữ liệu truy cập được phân cụm  Tất cả chiều dữ liệu đối xứng – Cons  Tốn kém vùng truy vấn  Dễ bị tràn dữ liệu khi lưu bít chỉ số đặc biệt dữ liệu số cao  Chi phí cho việc cập nhật hàng loạt rất lớn khi ánh xạ sang index, đôi khi phải sửa thậm chí chèn 1 dòng 2. Existing methods2. Existing methods
  • 9. Bit-mapped indices variants – Compression (nén) – Hybrid (lai – kết hợp) – Dynamic Bit-maps (chỉ số hóa động) 2. Existing methods2. Existing methods
  • 10.  Hierarchical Index – Example: Product - Store  Thiết lập index cho sản phẩm đầu tiên lưu trữ tổng quát dựa vào cấp độ sản phẩm  Mỗi giá trị sản phẩm, thiết lập index cho sản phẩm và sản phẩm chung cho cấp độ product-store – Pros:  Cho phép truy cập nhanh với dữ liệu ở cấp cao hơn  Chiều dữ liệu được thao tác đối xứng – Cons:  Tràn bộ nhớ cho việc lập chỉ mục  Hiệu quả thu hồi trung bình có thế chấp nhận được vì cấu trúc chỉ mục lớn 2. Existing methods2. Existing methods
  • 11. Multidimensional index - Thiết lập index đa chiều - Truy vấn nhanh - Không cho lợi ích về kinh tế - Đòi hỏi quy mô lớn về số chiều và nhiều thuộc tính 2. Existing methods2. Existing methods
  • 12. 3. Optimized R-Tree of OLAP data3. Optimized R-Tree of OLAP data Đối với miền tọa độ dày đặc, chỉ lưu trữ những đường biên của miền (chứa nhiều hơn số ngưỡng) Con trỏ trỏ đến mảng. Mảng có thể tổ chức theo hai cách, mỗi mục của mảng lưu trữ địa chỉ một bản ghi (Tuple ID) hoặc chính nó. Tìm miền dày dặc – Thường xác định ở miền cấp bậc cao – Sử dụng thuật toán phân cụm
  • 13. 4. R-Tree VS Bit-mapped indices4. R-Tree VS Bit-mapped indices R-Tree Pros: – Cho phép truy vấn theo vùng – Tràn bộ nhớ ít hơn – Việc cập nhật hiệu quả hơn Bit-mapped Pros: – Thao tác đánh chỉ số bít nhanh hơn – Hiêu quả cho số thấp, một vài chiều dữ liệu thu nhỏ và dư liệu thưa thớt
  • 14. EFFICIENT COMPUTATION OFEFFICIENT COMPUTATION OF ICEBERG CUBES WITHICEBERG CUBES WITH COMPLEX MEASURESCOMPLEX MEASURES
  • 15. - Chúng ta hướng đến một cách hiệu quả để truy vấn kết hợp đa chiều trong iceberg cube và khai thác dữ liệu. - Trong bài báo chúng ta chỉ nghiên cứu phép trung bình trong iceberg cube. - Mở rộng hai phương pháp nghiên cứu trước đây, Apriori và BUC, trở thành Top-k Apriori và Top-k BUC. - Nâng cao hiệu quả hơn nữa bằng phương pháp Top-k H-Cubing
  • 16. Top-K Average Top-k Apriori Top-k BUC Top-k H-Cubing Performance Analysis