Đại học Bách Khoa Hà Nội
   Viện Toán ứng dụng và Tin học




  Seminar Tin ứng dụng
Web graph and Page rank




               Bùi Đức Hiệu
             Phạm Anh Tuấn
             Nguyễn Văn Vũ
Giới thiệu




Ảnh chụp của đồ thị Internet
   (Nguồn: Wikipedia)
                               Seminar 2012
Nội dung

Giới thiệu

Đồ thị Web

Thuật toán PageRank

Cải tiến thuật toán PageRank

Thuật toán HITS

Cài đặt các thuật toán

                                Seminar 2012
Giới thiệu

 Trong 2 thập kỷ qua, mạng internet phát triển rất mạnh mẽ.
  Trang web đầu tiên trên thế giới là info.cern.ch (Tim Berners-
  Lee), đến năm 2008 chúng ta đã có 162 triệu trang web




                                                         Seminar 2012
Giới thiệu




             Seminar 2012
Giới thiệu

Vấn đề đặt ra:
         làm sao để khai thác
         tối đa những thông
         tin mà người sử
         dụng cần ???



Giải pháp:
       Tạo sự liên kết giữa các trang web với nhau


                                                     Seminar 2012
Giới thiệu




             Seminar 2012
Đồ thị

Đồ thị: là một tập các đối tượng gọi là đỉnh nối với nhau bởi
  các cạnh.




                                                         Seminar 2012
Đồ thị

Một số khái niệm liên quan đến đồ thị:
 Đồ thị vô hướng




                                          Seminar 2012
Đồ thị

 Đồ thị có hướng




                             Seminar 2012
Ma trận






                                     1
        A   B   C   D            A       B
    A   0   1   2   3                3
                             2           6
    B       0
    C           0   3            C   3   D
    D               0



                                             Seminar 2012
Ma trận






              Seminar 2012
Ma trận






              Seminar 2012
Nội dung

Giới thiệu

Đồ thị Web

Thuật toán PageRank

Cải tiến thuật toán PageRank

Thuật toán HITS

Cài đặt các thuật toán

                                Seminar 2012
Đồ thị web

Định nghĩa

Các tính chất của đồ thị web

Cấu trúc vi mô

Luật tăng trưởng

Mô hình



                                   Seminar 2012
Đồ thị web

Định nghĩa:
        Các trang web ngoài các đặc trưng về sự hiển thị trên trình
duyệt qua ngôn ngữ HTML, CSS mà chúng còn có sự liên kết,
kết nối đến nhau. Chính những liên kết này tạo nên đồ thị web.




                                                            Seminar 2012
Đồ thị web




             Seminar 2012
Đồ thị web




             Seminar 2012
Đồ thị web

Đồ thị và ma trận biểu diễn sự liên kết giữa các trang




                       1   2    3   4
                   1            1
                   2        0   0   0
                   3            0
                   4            0   0
                                                  Seminar 2012
Đồ thị web

Tính chất của đồ thị web
   Các trang web được xem như là các nút của đồ thị
   Các siêu liên kết được xem như là các cạnh của đồ thị


                                                      Nút



                                                      Cạnh




                                                        Seminar 2012
Đồ thị web

Các thuật toán phân hạng web hiện nay:
   PageRank

   Topic Sensitive PageRank

   Adaptive PageRank

   Timed PageRank

   HITS




                                          Seminar 2012
Cấu trúc đồ thị web

Có 4 thành phần:
   SCC(strongly connected component)

   IN

   OUT

   TENDRILS




                                        Seminar 2012
Cấu trúc đồ thị web




                      Seminar 2012
Ý nghĩa của đồ thị web


Liên kết được nhiều trang web với nhau

Mạng lưới của những liên kết này là nguồn phong
 phú của các thông tin tiềm ẩn.




                                           Seminar 2012
Luật tăng trưởng






                       Seminar 2012
Luật tăng trưởng






                       Seminar 2012
Mô hình trong đồ thị web

Các thuộc tính trong mô hình đồ thị web
   On-line property

   Power law degree distribution

   Small world property




                                           Seminar 2012
Mô hình đồ thị web






                         Seminar 2012
Mô hình trong đồ thị web

Một số mô hình trong đồ thị web:
   Mô hình tập tin đính kèm ưu đãi ( preferential attachment
    models)
   Mô hình LCD PA (The LCD PA model)
   Mô hình sao chép (The copying model)
   Mô hình growth-deletion ( growth – deletion models)
   Mô hình hình học (geometric model)
   Mô hình off – line (off – line model)




                                                         Seminar 2012
Nội dung

Giới thiệu

Đồ thị Web

Thuật toán PageRank

Cải tiến thuật toán PageRank

Thuật toán HITS

Cài đặt các thuật toán

                                Seminar 2012
Thuật toán PageRank

Vấn đề:




                                 Seminar 2012
Thuật toán PageRank

Vấn đề
  Số lượng lớn
  Thay đổi liên tục
  Thông tin rác
  Độ phân tán
            CẦN MỘT PHƯƠNG PHÁP
            KHAI THÁC THÔNG TIN

                                   Seminar 2012
Thuật toán PageRank


           Nhanh




CẦN GÌ     Dễ dàng cài đặt



           Chính xác

                               Seminar 2012
Thuật toán PageRank

Tổng quan




                                   Seminar 2012
Thuật toán PageRank

Kết quả thừa nhận

  Trang A được trỏ bởi càng
   nhiều link thì càng quan
   trọng.

  “A => B thì độ quan trọng
   của trang A cũng ảnh
   hưởng đến độ quan trọng
   của trang B”.
                                   Seminar 2012
Thuật toán PageRank

Ý tưởng.
   Sử dụng:




                                     Seminar 2012
Thuật toán PageRank

Xây dựng mô hình bài toán.
   Xây dựng đồ thị có hướng G=(V,E):
     • V={Vi : Vi đại diện cho 1 web, i = 1..n }
     • E={(i,j): có liên kết từ i tới j; i,j=1..n}

   Mọi tính toán hạng trang thực hiện trên đồ thị
    này.


                                                 Seminar 2012
Thuật toán PageRank




                      Seminar 2012
Thuật toán PageRank

Thuật toán
   Đầu vào:
    • Đồ thị web.
    • Các trang web đã có page rank mặc định
   Đầu ra:
    • Các trang được xếp hạng theo page rank thực




                                               Seminar 2012
Thuật toán PageRank






                          Seminar 2012
Thuật toán PageRank

Vấn đề:
   Số lượng thông tin rất lớn.

           Cần phương pháp để tính toán


Giải quyết:
   Thử đưa về mô hình toán học, áp dụng các
    thuật toán tính toán nhanh

                                               Seminar 2012
Thuật toán PageRank






                          Seminar 2012
Thuật toán PageRank






                          Seminar 2012
Thuật toán PageRank

Thuật toán – Cải tiến
   Vì sao phải cải tiến?
   Liệu có trang web nào có page rank bằng 0?




                                            Seminar 2012
Thuật toán PageRank






                          Seminar 2012
Thuật toán PageRank

Lưu ý.
  Thuật toán sử dụng lặp để tính toán liên tiếp, tác
   giả đã khẳng định sau khoảng 50 vòng lặp sẽ nhận
   kết quả với sai số chấp nhận được
Đánh giá.




                                                Seminar 2012
Nội dung

Giới thiệu

Đồ thị Web

Thuật toán PageRank

Cải tiến thuật toán PageRank

Thuật toán HITS

Cài đặt các thuật toán

                                Seminar 2012
Topic Sensitive PageRank




                           Seminar 2012
Topic Sensitive PageRank





                               Seminar 2012
Adaptive PageRank




                    Seminar 2012
Adaptive PageRank

Sepandar D. Kamvar và cộng sự, 2003
Tận dụng những trang hội tụ sớm và kết quả độ quan
 trọng của các trang đã hội tụ có thể không cần tính
 tiếp




                                               Seminar 2012
Timed PageRank




                 Seminar 2012
Timed PageRank






                     Seminar 2012
Nội dung

Giới thiệu

Đồ thị Web

Thuật toán PageRank

Cải tiến thuật toán PageRank

Thuật toán HITS

Cài đặt các thuật toán

                                Seminar 2012
HITS

 HITS - Hypertext Induced Topic Selection
 Jon M. Kleinberg đề xuất, 1998 - 1999
 Không giống như PageRank - một thuật toán xếp hạng tĩnh,
  HITS phụ thuộc vào truy vấn tìm kiếm.




                                                       Seminar 2012
Authority

Authority pages: là những trang được xem là phù hợp
 nhất đối với mỗi câu truy vấn cụ thể nào đó.




                     Auth




                                               Seminar 2012
Hub

Hub pages: là những trang không cần có đặc tính
 “authority” nhưng lại trỏ tới nhiều trang có đặc tính
 “authority”.



                        Hub




                                                  Seminar 2012
Hub và Authority




                   Seminar 2012
Ý tưởng của HITS

Trang có hub tốt là trang có nhiều liên kết ra.

Trang có authority tốt là trang có nhiều liên kết tới.

Trang trỏ tới trang có authority cao thì trọng số hub
  càng cao, trang nào được nhiều trang có hub cao trỏ
  tới thì trọng số authority càng cao.




                                                    Seminar 2012
HITS - 1

Xác định tập hợp cơ sở S
Cho phép thiết lập các dữ liệu trả về bởi một công cụ
 tìm kiếm tiêu chuẩn được gọi là các root set (thiết lập
 gốc) R
Khởi tạo S cho R




                                                   Seminar 2012
HITS - 2






               Seminar 2012
HITS - 3






               Seminar 2012
HITS - 4






               Seminar 2012
HITS - 5






               Seminar 2012
Giả mã của HITS






                      Seminar 2012
Ví dụ




 Root Set R {1,2,3,4}
 Mở rộng nó để tạo thành Base Set S



                                       Seminar 2012
Kết quả của ví dụ


     Authority
     Hub




1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

                                      Seminar 2012
PageRank - HITS

HITS nhấn mạnh tăng cường lẫn nhau giữa các trang
 authority và hub, trong khi PageRank thì không.
 PageRank xếp hạng trang chỉ bởi các trang authority.
HITS được áp dụng cho các vùng lân cận của các
 trang xung quanh kết quả của một truy vấn trong khi
 PageRank được áp dụng cho toàn bộ trang web
HITS là truy vấn phụ thuộc nhưng PageRank là truy
 vấn độc lập



                                                Seminar 2012
PageRank - HITS

Cả HITS và PageRank đều tính toán trên ma trận.
Đều không ổn định: thay đổi một số liên kết có thể
 dẫn đến bảng xếp hạng khác nhau.
PageRank không quản lý các trang không có cạnh
 ngoài rất tốt, vì nó giảm PageRank tổng thể




                                                 Seminar 2012
Kết luận

Khai phá dữ liệu Web(Web mining) có ý nghĩa quan
 trọng trong cuộc sống và công nghệ.
 PageRank hay HITS là các thuật toán cơ bản để xây
 dựng các Search Engine.
Tuy nhiên, các search engine nổi tiếng như Google,
 Yahoo hay Bing đều có những cải tiến và các thuật
 toán khác không được công bố!




                                               Seminar 2012
Nội dung

 Giới thiệu

 Đồ thị Web

 Thuật toán PageRank

 Cải tiến thuật toán PageRank

 Thuật toán HITS

 Cài đặt các thuật toán



                                      Seminar 2012
Q&A




      Seminar 2012
Web graph and Page rank

More Related Content

PPTX
Datadogoverview.pptx
PDF
Introduction to CICD
PPTX
Google Tag Manager | Google Tag Manager Tutorial 2019 | Google Tag Manager Se...
PDF
Digital Analytics with the Google Tag Manager (GTM)
PDF
Google Analytics 4 - OMT
PPTX
Google Tag Manager Training
PPTX
Google Tag Manager for beginners
PDF
Monitoring Kubernetes with Prometheus (Kubernetes Ireland, 2016)
Datadogoverview.pptx
Introduction to CICD
Google Tag Manager | Google Tag Manager Tutorial 2019 | Google Tag Manager Se...
Digital Analytics with the Google Tag Manager (GTM)
Google Analytics 4 - OMT
Google Tag Manager Training
Google Tag Manager for beginners
Monitoring Kubernetes with Prometheus (Kubernetes Ireland, 2016)

What's hot (20)

PDF
Architecting an Enterprise API Management Strategy
PDF
Platform Engineering
PDF
Introduction to Google Cloud Platform and APIs
PDF
Designing APIs with OpenAPI Spec
PDF
GitOps and ArgoCD
PDF
A Checklist for Every API Call
PPTX
Zuul @ Netflix SpringOne Platform
PDF
CamundaCon 2018: Using Zeebe with Spring Boot and Apache Camel (Holisticon)
PPTX
Browser Automation with Playwright – for integration, RPA, UI testing and mor...
PDF
Building Data Products with BigQuery for PPC and SEO (SMX 2022)
PDF
[Notes] Customer 360 Analytics with LEO CDP
PPTX
Google algorithms
PPTX
KONG-APIGateway.pptx
PPTX
Deep-Dive: Secure API Management
PPTX
SEO proposal
PDF
SEO Services Proposal PowerPoint Presentation Slides
PDF
How Secure Are Your APIs?
PDF
Prometheus + Grafana = Awesome Monitoring
PDF
A Visual Introduction to Event Sourcing and CQRS by Lorenzo Nicora
PDF
DevOps Implementation Roadmap
Architecting an Enterprise API Management Strategy
Platform Engineering
Introduction to Google Cloud Platform and APIs
Designing APIs with OpenAPI Spec
GitOps and ArgoCD
A Checklist for Every API Call
Zuul @ Netflix SpringOne Platform
CamundaCon 2018: Using Zeebe with Spring Boot and Apache Camel (Holisticon)
Browser Automation with Playwright – for integration, RPA, UI testing and mor...
Building Data Products with BigQuery for PPC and SEO (SMX 2022)
[Notes] Customer 360 Analytics with LEO CDP
Google algorithms
KONG-APIGateway.pptx
Deep-Dive: Secure API Management
SEO proposal
SEO Services Proposal PowerPoint Presentation Slides
How Secure Are Your APIs?
Prometheus + Grafana = Awesome Monitoring
A Visual Introduction to Event Sourcing and CQRS by Lorenzo Nicora
DevOps Implementation Roadmap
Ad

Similar to Web graph and Page rank (20)

PPTX
Page rank
PDF
Luận văn Nghiên cứu và xây dựng hệ thống tìm kiếm công thức khoa học
PDF
Luận văn Xây dựng web ngữ nghĩa trợ giúp khai thác hiệu quả nguồn tài nguyên ...
PDF
Semantic web
PPTX
Webmining[final]
PPTX
BÀI 22: MỘ SỐ DỊCH VỤ CƠ BẢN CỦA INTERNET
PDF
Luận văn Ứng dụng Semantic Web - Xây dựng hệ thống tra cứu thông tin tại thư ...
PDF
Web và thiết kế web ứng dụng trong dạy học
PDF
1_Gioi thieu mon hoc công nghệ web ngữ nghĩa.pdf
PPT
Chuong 1 tongquanve web&htm-lcanban
PPT
Chuong 1 tongquanve web&htm-lcanban
PDF
Đồ án thực tập cơ sở các kĩ thuật tấn công SQL injection và cách phòng chống
PDF
Luận văn Nghiên cứu kỹ thuật phân tích và trích rút thuộc tính tài liệu phục ...
PDF
00 udpt introduction - th2010
DOCX
bai giảng PTTKHT - chsdÁDÁDASDASDuong 4.docx
PDF
Luận văn Ứng dụng kỹ thuật tìm kiếm thông tin vào hệ thống tra cứu tài liệu t...
DOCX
Một vài khái niệm tin hoc
PPTX
Bai22 tiet1
PPTX
Bai 22 ga tiet 1
Page rank
Luận văn Nghiên cứu và xây dựng hệ thống tìm kiếm công thức khoa học
Luận văn Xây dựng web ngữ nghĩa trợ giúp khai thác hiệu quả nguồn tài nguyên ...
Semantic web
Webmining[final]
BÀI 22: MỘ SỐ DỊCH VỤ CƠ BẢN CỦA INTERNET
Luận văn Ứng dụng Semantic Web - Xây dựng hệ thống tra cứu thông tin tại thư ...
Web và thiết kế web ứng dụng trong dạy học
1_Gioi thieu mon hoc công nghệ web ngữ nghĩa.pdf
Chuong 1 tongquanve web&htm-lcanban
Chuong 1 tongquanve web&htm-lcanban
Đồ án thực tập cơ sở các kĩ thuật tấn công SQL injection và cách phòng chống
Luận văn Nghiên cứu kỹ thuật phân tích và trích rút thuộc tính tài liệu phục ...
00 udpt introduction - th2010
bai giảng PTTKHT - chsdÁDÁDASDASDuong 4.docx
Luận văn Ứng dụng kỹ thuật tìm kiếm thông tin vào hệ thống tra cứu tài liệu t...
Một vài khái niệm tin hoc
Bai22 tiet1
Bai 22 ga tiet 1
Ad

Recently uploaded (7)

DOCX
Truyền Giá Trị Và Tham Chiếu trong Java | Các Cách Truyền Dữ Liệu vào Phương ...
DOCX
Đánh giá độ tin cậy lưới điện Khu II Trường Đại học Cần Thơ
PDF
Bài giảng - Phat Trien UD Tren Linux_Final_14092023.pdf
DOCX
GIẢI PHÁP BẢO MẬT THÔNG TIN LOGISTICS CHO DOANH NGHIỆP VIETTEL POST TRONG KỶ ...
PPTX
bài thuyết trình thi công cầu elearning 3.pptx
PPTX
thi công cầu thuyết trình elearning 2.pptx
DOCX
Đệ Quy (Recursion) trong Java | Giải thích và Ứng dụng
Truyền Giá Trị Và Tham Chiếu trong Java | Các Cách Truyền Dữ Liệu vào Phương ...
Đánh giá độ tin cậy lưới điện Khu II Trường Đại học Cần Thơ
Bài giảng - Phat Trien UD Tren Linux_Final_14092023.pdf
GIẢI PHÁP BẢO MẬT THÔNG TIN LOGISTICS CHO DOANH NGHIỆP VIETTEL POST TRONG KỶ ...
bài thuyết trình thi công cầu elearning 3.pptx
thi công cầu thuyết trình elearning 2.pptx
Đệ Quy (Recursion) trong Java | Giải thích và Ứng dụng

Web graph and Page rank

  • 1. Đại học Bách Khoa Hà Nội Viện Toán ứng dụng và Tin học Seminar Tin ứng dụng Web graph and Page rank Bùi Đức Hiệu Phạm Anh Tuấn Nguyễn Văn Vũ
  • 2. Giới thiệu Ảnh chụp của đồ thị Internet (Nguồn: Wikipedia) Seminar 2012
  • 3. Nội dung Giới thiệu Đồ thị Web Thuật toán PageRank Cải tiến thuật toán PageRank Thuật toán HITS Cài đặt các thuật toán Seminar 2012
  • 4. Giới thiệu  Trong 2 thập kỷ qua, mạng internet phát triển rất mạnh mẽ. Trang web đầu tiên trên thế giới là info.cern.ch (Tim Berners- Lee), đến năm 2008 chúng ta đã có 162 triệu trang web Seminar 2012
  • 5. Giới thiệu Seminar 2012
  • 6. Giới thiệu Vấn đề đặt ra: làm sao để khai thác tối đa những thông tin mà người sử dụng cần ??? Giải pháp: Tạo sự liên kết giữa các trang web với nhau Seminar 2012
  • 7. Giới thiệu Seminar 2012
  • 8. Đồ thị Đồ thị: là một tập các đối tượng gọi là đỉnh nối với nhau bởi các cạnh. Seminar 2012
  • 9. Đồ thị Một số khái niệm liên quan đến đồ thị:  Đồ thị vô hướng Seminar 2012
  • 10. Đồ thị  Đồ thị có hướng Seminar 2012
  • 11. Ma trận  1 A B C D A B A 0 1 2 3 3 2 6 B 0 C 0 3 C 3 D D 0 Seminar 2012
  • 12. Ma trận  Seminar 2012
  • 13. Ma trận  Seminar 2012
  • 14. Nội dung Giới thiệu Đồ thị Web Thuật toán PageRank Cải tiến thuật toán PageRank Thuật toán HITS Cài đặt các thuật toán Seminar 2012
  • 15. Đồ thị web Định nghĩa Các tính chất của đồ thị web Cấu trúc vi mô Luật tăng trưởng Mô hình Seminar 2012
  • 16. Đồ thị web Định nghĩa: Các trang web ngoài các đặc trưng về sự hiển thị trên trình duyệt qua ngôn ngữ HTML, CSS mà chúng còn có sự liên kết, kết nối đến nhau. Chính những liên kết này tạo nên đồ thị web. Seminar 2012
  • 17. Đồ thị web Seminar 2012
  • 18. Đồ thị web Seminar 2012
  • 19. Đồ thị web Đồ thị và ma trận biểu diễn sự liên kết giữa các trang 1 2 3 4 1 1 2 0 0 0 3 0 4 0 0 Seminar 2012
  • 20. Đồ thị web Tính chất của đồ thị web  Các trang web được xem như là các nút của đồ thị  Các siêu liên kết được xem như là các cạnh của đồ thị Nút Cạnh Seminar 2012
  • 21. Đồ thị web Các thuật toán phân hạng web hiện nay:  PageRank  Topic Sensitive PageRank  Adaptive PageRank  Timed PageRank  HITS Seminar 2012
  • 22. Cấu trúc đồ thị web Có 4 thành phần:  SCC(strongly connected component)  IN  OUT  TENDRILS Seminar 2012
  • 23. Cấu trúc đồ thị web Seminar 2012
  • 24. Ý nghĩa của đồ thị web Liên kết được nhiều trang web với nhau Mạng lưới của những liên kết này là nguồn phong phú của các thông tin tiềm ẩn. Seminar 2012
  • 27. Mô hình trong đồ thị web Các thuộc tính trong mô hình đồ thị web  On-line property  Power law degree distribution  Small world property Seminar 2012
  • 28. Mô hình đồ thị web  Seminar 2012
  • 29. Mô hình trong đồ thị web Một số mô hình trong đồ thị web:  Mô hình tập tin đính kèm ưu đãi ( preferential attachment models)  Mô hình LCD PA (The LCD PA model)  Mô hình sao chép (The copying model)  Mô hình growth-deletion ( growth – deletion models)  Mô hình hình học (geometric model)  Mô hình off – line (off – line model) Seminar 2012
  • 30. Nội dung Giới thiệu Đồ thị Web Thuật toán PageRank Cải tiến thuật toán PageRank Thuật toán HITS Cài đặt các thuật toán Seminar 2012
  • 31. Thuật toán PageRank Vấn đề: Seminar 2012
  • 32. Thuật toán PageRank Vấn đề  Số lượng lớn  Thay đổi liên tục  Thông tin rác  Độ phân tán CẦN MỘT PHƯƠNG PHÁP KHAI THÁC THÔNG TIN Seminar 2012
  • 33. Thuật toán PageRank Nhanh CẦN GÌ Dễ dàng cài đặt Chính xác Seminar 2012
  • 34. Thuật toán PageRank Tổng quan Seminar 2012
  • 35. Thuật toán PageRank Kết quả thừa nhận Trang A được trỏ bởi càng nhiều link thì càng quan trọng. “A => B thì độ quan trọng của trang A cũng ảnh hưởng đến độ quan trọng của trang B”. Seminar 2012
  • 36. Thuật toán PageRank Ý tưởng.  Sử dụng: Seminar 2012
  • 37. Thuật toán PageRank Xây dựng mô hình bài toán.  Xây dựng đồ thị có hướng G=(V,E): • V={Vi : Vi đại diện cho 1 web, i = 1..n } • E={(i,j): có liên kết từ i tới j; i,j=1..n}  Mọi tính toán hạng trang thực hiện trên đồ thị này. Seminar 2012
  • 38. Thuật toán PageRank Seminar 2012
  • 39. Thuật toán PageRank Thuật toán  Đầu vào: • Đồ thị web. • Các trang web đã có page rank mặc định  Đầu ra: • Các trang được xếp hạng theo page rank thực Seminar 2012
  • 41. Thuật toán PageRank Vấn đề:  Số lượng thông tin rất lớn. Cần phương pháp để tính toán Giải quyết:  Thử đưa về mô hình toán học, áp dụng các thuật toán tính toán nhanh Seminar 2012
  • 44. Thuật toán PageRank Thuật toán – Cải tiến  Vì sao phải cải tiến?  Liệu có trang web nào có page rank bằng 0? Seminar 2012
  • 46. Thuật toán PageRank Lưu ý.  Thuật toán sử dụng lặp để tính toán liên tiếp, tác giả đã khẳng định sau khoảng 50 vòng lặp sẽ nhận kết quả với sai số chấp nhận được Đánh giá. Seminar 2012
  • 47. Nội dung Giới thiệu Đồ thị Web Thuật toán PageRank Cải tiến thuật toán PageRank Thuật toán HITS Cài đặt các thuật toán Seminar 2012
  • 48. Topic Sensitive PageRank Seminar 2012
  • 50. Adaptive PageRank Seminar 2012
  • 51. Adaptive PageRank Sepandar D. Kamvar và cộng sự, 2003 Tận dụng những trang hội tụ sớm và kết quả độ quan trọng của các trang đã hội tụ có thể không cần tính tiếp Seminar 2012
  • 52. Timed PageRank Seminar 2012
  • 53. Timed PageRank  Seminar 2012
  • 54. Nội dung Giới thiệu Đồ thị Web Thuật toán PageRank Cải tiến thuật toán PageRank Thuật toán HITS Cài đặt các thuật toán Seminar 2012
  • 55. HITS  HITS - Hypertext Induced Topic Selection  Jon M. Kleinberg đề xuất, 1998 - 1999  Không giống như PageRank - một thuật toán xếp hạng tĩnh, HITS phụ thuộc vào truy vấn tìm kiếm. Seminar 2012
  • 56. Authority Authority pages: là những trang được xem là phù hợp nhất đối với mỗi câu truy vấn cụ thể nào đó. Auth Seminar 2012
  • 57. Hub Hub pages: là những trang không cần có đặc tính “authority” nhưng lại trỏ tới nhiều trang có đặc tính “authority”. Hub Seminar 2012
  • 58. Hub và Authority Seminar 2012
  • 59. Ý tưởng của HITS Trang có hub tốt là trang có nhiều liên kết ra. Trang có authority tốt là trang có nhiều liên kết tới. Trang trỏ tới trang có authority cao thì trọng số hub càng cao, trang nào được nhiều trang có hub cao trỏ tới thì trọng số authority càng cao. Seminar 2012
  • 60. HITS - 1 Xác định tập hợp cơ sở S Cho phép thiết lập các dữ liệu trả về bởi một công cụ tìm kiếm tiêu chuẩn được gọi là các root set (thiết lập gốc) R Khởi tạo S cho R Seminar 2012
  • 61. HITS - 2  Seminar 2012
  • 62. HITS - 3  Seminar 2012
  • 63. HITS - 4  Seminar 2012
  • 64. HITS - 5  Seminar 2012
  • 65. Giả mã của HITS  Seminar 2012
  • 66. Ví dụ  Root Set R {1,2,3,4}  Mở rộng nó để tạo thành Base Set S Seminar 2012
  • 67. Kết quả của ví dụ Authority Hub 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Seminar 2012
  • 68. PageRank - HITS HITS nhấn mạnh tăng cường lẫn nhau giữa các trang authority và hub, trong khi PageRank thì không. PageRank xếp hạng trang chỉ bởi các trang authority. HITS được áp dụng cho các vùng lân cận của các trang xung quanh kết quả của một truy vấn trong khi PageRank được áp dụng cho toàn bộ trang web HITS là truy vấn phụ thuộc nhưng PageRank là truy vấn độc lập Seminar 2012
  • 69. PageRank - HITS Cả HITS và PageRank đều tính toán trên ma trận. Đều không ổn định: thay đổi một số liên kết có thể dẫn đến bảng xếp hạng khác nhau. PageRank không quản lý các trang không có cạnh ngoài rất tốt, vì nó giảm PageRank tổng thể Seminar 2012
  • 70. Kết luận Khai phá dữ liệu Web(Web mining) có ý nghĩa quan trọng trong cuộc sống và công nghệ.  PageRank hay HITS là các thuật toán cơ bản để xây dựng các Search Engine. Tuy nhiên, các search engine nổi tiếng như Google, Yahoo hay Bing đều có những cải tiến và các thuật toán khác không được công bố! Seminar 2012
  • 71. Nội dung  Giới thiệu  Đồ thị Web  Thuật toán PageRank  Cải tiến thuật toán PageRank  Thuật toán HITS  Cài đặt các thuật toán Seminar 2012
  • 72. Q&A Seminar 2012

Editor's Notes

  • #6: Theo khảosátcủadịchvụPingdongcủaviệngiámsátThụyĐiển
  • #50: Quan tâm đến nội dung trang Web. Hơn nữa, nếu khai thác được mối quan tâm của người dùng đối với trang Web trong quá trình tính độ phù hợp của trang Web với câu hỏi người dùng, thì rất có ý nghĩa.Miền quan tâm của người dùng gọi là “phạm vi ngữ cảnh”B1: Phân các trang Web thành các lớp chủ đề, mỗi lớp tương tứng với 1 vector PageRank, mà thành phân của nó là giá trị PageRank của mỗi trang trong lớp.B2: Được thực hiện trong thời gian hỏi đáp:Truy vấn thường thì chính truy vấn là phạm vi ngữ cảnh (tức là miền quan tâm của người dùng)Phức tạp hơn thì dùng thuật toán phân lớp Bayes
  • #51: PageRank đánh giá hạng trang thông qua liên kết giữa các Website bằng cách tính vector riêng của ma trận kề biểu diễn các trang WebNhưng kích thước WWW là khổng lồ, cần rất nhiều thời gian tính toánViệc tính toán nhanh vector riêng sẽ giảm thời gian chết của việc chờ đưa kết quả sang các thành phần khác của máy tìm kiếm
  • #52: Giải pháp: Adaptive PageRank, sau khi cài đặt và chạy chương trình, độ quan trọng của các trang Web hội tụ nhanh hoặc chậm. Ta sẽ tận dụng những trang hội tụ sớm và kết quả độ quan trọng của các trang đã hội tụ có thể không cần tính tiếp giảm tính toán dư thừa, tăng hiệu suất tính toán của hệ thống !
  • #53: Đã bao giờ, bạn tìm kiếm trên Google thấy một bài viết rất hay nhưng click vào thì kết quả trả về lại là lỗi 404 not found!Nguyên nhân thì có thể có nhiều, nhưng có thể bài viết đó đã quá lâu, và bị trang web đó xóa đi rồi, nhưng Google vẫn lưu trữ chúngViệc xếp hạng trang web cần được cập nhật thêm trường thời gian
  • #54: Xét đến tính đúng lúc của kết quả tìm kiếm (các trang web đã chất lượng chưa chắc đã có chất lượng so với hiện tại hay tương lai)Vấn đề: những trang cũ có lượng inbound link(liên kết gửi đến) lớn, nhưng những trang mới thì có rất ít (hoặc không có)Giải quyết: nếu là trang cũ thì f(t) sẽ nhỏ và 1-f(t) lớn  xác suất nhảy đến trang khác sẽ lớn. Ngược lại, nếu trang mới thì xác suất nhảy đến trang khác là nhỏ !Xin Li, Bing Liu, và Philip S. Yu. Time Sensitive Ranking with Application to Publication Search. Conference on Data Mining 2008
  • #56: -Phương pháp này được đưa ra đầu tiên bởi Jon M.Kleinberg. Không như phương pháp PageRank chỉ tính một giá trị xếp hạng đơn cho mỗi trang Web, phương pháp này tính toán hai chỉ số khác nhau cho mỗi trang Web, đó là chỉ số “authority” và “hub”.Hub và authority là hai chỉ số của một đỉnh thể hiện giá trị xếp hạng đồ thị dùng trong phương pháp HITS. Ở đây, authority là giá trị thể hiện khi các đỉnh khác liên kết đến đỉnh đang xét và hub là giá trị thể hiện khi đỉnh đang xét trỏ đến các đỉnh khác. Đương nhiên chúng không phải là số lượng các cạnh, mà đây chỉ là chỉ số thể hiện tính chất của một đỉnh, tính chất của một đỉnh có thể là authority hay hub.Khi người sử dụng thực hiện một truy vấn tìm kiếm: + HITS đầu tiên mở rộng danh sách các trang có liên quan được trả về bởi một công cụ tìm kiếm + Vàsau đó tạo ra hai bảng xếp hạng của các thiết lập mở rộng của các trang, xếp hạng authority và xếp hạng hub.
  • #57: - Authority pages: Là những trang được xem là phù hợp nhất đối với mỗi câu truy vấn cụthểnào đó. Ví dụ, trang chủcủa Yahoo chính là trang “authority” của câu truy vấn “yahoo”.
  • #58: Hub pages:Là những trang không cần có đặc tính “authority” nhưng lại trỏtới nhiều trang có đặc tính “authority”. Ví dụnhưtrang “Searchenginewatch.com” là một trang “hub” vì nó liên kết tới nhiều trang chủcủa máy tìm kiếm. Trang “hub” có ý nghĩa khá quan trọng, thứnhất bởi vì nó có những thông tin có thể được sửdụng trong việc tìm kiếm những thông tin hữu ích, thứhai bởi vì nó được sửdụng trong thuật toán HIST đểtính toán “authority”. Vì trang “hub” mang ý nghĩa là trang trỏtới nhiều trang “authority” nên nếu một trang “authority” tốt có thểđược coi là trang có nhiều “hub” chỉtới.
  • #60: Độ quan trọng của một trang web được xác định dựa trên hai trọng số authority và hub. Trang có hub tốt là trang có nhiều liên kết ra. Trang có authority tốt là trang có nhiều liên kết tới. Hai trọng số này có quan hệ qua lại với nhau: trang trỏ tới trang có authority cao thì trọng số hub càng cao, trang nào được nhiều trang có hubcao trỏ tới thì trọng số authority càng cao.