§7 Web搜索引擎
课程总结与复习
(Course Review)
徐悦甡(Yueshen Xu)
ysxu@xidian.edu.cn / xuyueshen@163.com
知识与数据工程研究中心
本科:Web信息搜索
软件工程系2017/6/9
本节提纲
课程总结与复习
 Web信息搜索概述
 GFS + MapReduce + BigTable
 全文检索 + 网页排序
 多媒体检索
 文本聚类
 文本分类
 推荐系统
 语义网
 知识图谱
复习、重述
重要知识点
软件工程系2017/6/9
整体课程安排
查询
(Query)
建模
(Modeling)
排序
(Ranking)
信息检索引擎
为了用户
/数据
为了系统
/智能
索引
倒排
查询
爬虫
分布式
…
聚类
分类
推荐
相似性
语义网
知识图谱
软件工程系2017/6/9
信息检索概述
4
信息检索 != 搜索引擎 != Web检索
一部分信息检索不需要涉及Web访问
软件工程系2017/6/9
搜索引擎
5
软件工程系2017/6/9
术语总结
 Web搜索
 WWW(World Wide Web)为典型代表的网络上检索、过滤和推荐信
息的的方法与技术
 检索
 由用户提出查询请求,系统根据此查询请求对所存储信息进行查询
并给出查询结果
 过滤(聚类/分类)
 系统根据预先设定的条件,对与该条件相符的信息进行提取、隔离
或封堵
 推荐
 系统将用户需要的重要信息从大量的一般信息中提取出来,并主动
推荐给用户
6
软件工程系2017/6/9
工具课
网络文件系统
分布式文件系统
MapReduce
HDFS
Lucene
7
软件工程系2017/6/9
网络文件系统
8
软件工程系2017/6/9
分布式文件系统
9
软件工程系2017/6/9
分布式计算平台
 MapReduce
10
split0 map
sort
reduce part0
merge
split0 map
sort
split0 map
sort reduce part1
merge
Map Reduce
软件工程系2017/6/9
词频统计的例子
11
软件工程系2017/6/9
HDFS
12
软件工程系2017/6/9
Lucene
13
软件工程系2017/6/9
全文检索
14
Term:
清华大学
倒排
索引
doc1
doc2
doc3
…
docN
Doc list A
…
…
…
…
Doc list B
…… 归并
候选
集
Term:
邮编
倒排
索引
倒排索引
软件工程系2017/6/9
全文检索
15
索引表
软件工程系2017/6/9
网页排序
16
PageRank
软件工程系2017/6/9
网页排序
17
Page A
1.490
Page C
1.577
Page B
0.783
Page D
0.15
PageRank
软件工程系2017/6/9
网页排序
HITS算法
 Hyperlink-Induced Topic Search
 对每一个页面应该将其内容权威度(Authority)和链接权威度
(Hub)分开考虑,在对网页内容权威度做出评价的基础上
再对页面链接权威度进行评价,然后给出该页面的综合评价
 链接权威度(Hub)
➢ 页面上所有导出链接指向页面的内容权威值之和。
 内容权威度(authority)
➢ 所有导入链接所在页面的链接权威度之和
18
软件工程系2017/6/9
网页排序
HITS算法
 对于一个给定的查询,每个页面都被赋予了一个特定的链接
权威度(hub)和内容权威度(authority)
 结果就是高权威度的页面
 基本假设
➢ 1. 一个好的“Authority”页面会被很多好的“Hub”页面指向;
➢ 2. 一个好的“Hub”页面会指向很多好的“Authority”页面
19
软件工程系2017/6/9
多媒体检索
基于文本的图像检索
 Text-based Image Retrieval
基于标签的图像检索
 Tag-based Image Retrieval
基于内容的图像检索
 Content-based Image Retrieval
20
软件工程系2017/6/9
文本聚类、文本分类与推荐
21
机器学习
(数据有无
label)
有监督学习  分类(离散);回归(连续)等
半监督学习  部分数据有label
无监督学习  聚类、话题建模等
iijjij idftfDdtidftf  ),,(
)
|}:{|1
log(
dtDd
N
idf
i
i


TF-IDF
软件工程系2017/6/9
文本聚类
22
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
K=2;任意选择
K个对象作为初
始聚类中心
将每个
对象赋
给最相
似的中
心
更新簇
的平均
值
更新簇
的平均
值
重新划分
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
重新划分
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
K-Means
软件工程系2017/6/9
文本聚类
23
K-Medoid
C2
C3d4
d1
C1
当前聚类中
心(3类)
C2
C3
d1
C1(d4)
迭代一次后的
聚类中心
其它聚类方法,以及聚类方法效果的评估
软件工程系2017/6/9
文本分类
24
d
C1
C2
C3
K = 6
d
C1
C2
C3
K近邻
(KNN)
软件工程系2017/6/9
推荐系统
25
对推荐系统依赖性较强的场景
电子商务网站 在线社交网络 在线内容站点
在线社区网络 在线综合类网络
软件工程系2017/6/9
推荐系统
26
推荐系统
推荐系统中包含的要素
 核心三个
人/用户 物/商品
反馈/评价
关联 内容
上下文/情境:时间,地点,情绪等
 非核心三个
软件工程系2017/6/9
推荐系统
基于内容的推荐方法
基于标签的推荐方法
基于网络的推荐方法
基于上下文的推荐方法
27
软件工程系2017/6/9
推荐系统
基于内容的推荐方法
 用户内容
 物品内容
基于标签的推荐方法
 标签来源
 基于图的推荐方法
基于网络的推荐方法
 网络的类型
 基于图的推荐方法
28
软件工程系2017/6/9
推荐系统
基于上下文的推荐方法
 时间上下文、地点上下文、情绪上下文
推荐效果的评估
 大规模随机双盲对照实验
29
软件工程系2017/6/9
语义网
语义网(Semantic Web)
 语义网提出的背景
 语义网概念与体系结构
 XML与RDF格式
➢ 标记语言
➢ 可扩展标记语言(XML)
 本体
 语义网应用
30
软件工程系2017/6/9
语义网
31
软件工程系2017/6/9
知识图谱
知识图谱的背景
知识图谱的应用
知识库的构建
RDF格式
32
软件工程系2017/6/9 33
课件地址
课程邮箱:xdseirclass@163.com
个人邮箱:xuyueshen@163.com
软件工程系2017/6/9 34
请大家按时交齐作业
感谢大家本学期的配合
祝大家期末考试顺利

More Related Content

PDF
Context aware service recommendation
PDF
Semantic web 本科课件
PDF
Recommender system slides for undergraduate
PDF
推荐系统 本科课件
PDF
Text classification 本科课件
PDF
Thinking in clustering yueshen xu
PDF
Text clustering (information retrieval, in chinese)
PDF
(Hierarchical) Topic Modeling_Yueshen Xu
Context aware service recommendation
Semantic web 本科课件
Recommender system slides for undergraduate
推荐系统 本科课件
Text classification 本科课件
Thinking in clustering yueshen xu
Text clustering (information retrieval, in chinese)
(Hierarchical) Topic Modeling_Yueshen Xu

More from Yueshen Xu (19)

PPTX
(Hierarchical) topic modeling
PDF
Non parametric bayesian learning in discrete data
PDF
聚类 (Clustering)
PDF
Yueshen xu cv
PDF
徐悦甡简历
PDF
Learning to recommend with user generated content
PDF
Social recommender system
PPT
Summary on the Conference of WISE 2013
PDF
Topic model an introduction
PPTX
Acoustic modeling using deep belief networks
PPT
Summarization for dragon star program
PPT
Aggregation computation over distributed data streams(the final version)
PPT
Aggregation computation over distributed data streams
PPT
Analysis on tcp ip protocol stack
PPT
Simple conclusion for sap tech ed 2011
PPT
Stream data mining & CluStream framework
PPT
Hidden markov chain and bayes belief networks doctor consortium
PPT
Hidden markov chain and bayes belief networks doctor consortium
PPT
The Conclusion for sigir 2011
(Hierarchical) topic modeling
Non parametric bayesian learning in discrete data
聚类 (Clustering)
Yueshen xu cv
徐悦甡简历
Learning to recommend with user generated content
Social recommender system
Summary on the Conference of WISE 2013
Topic model an introduction
Acoustic modeling using deep belief networks
Summarization for dragon star program
Aggregation computation over distributed data streams(the final version)
Aggregation computation over distributed data streams
Analysis on tcp ip protocol stack
Simple conclusion for sap tech ed 2011
Stream data mining & CluStream framework
Hidden markov chain and bayes belief networks doctor consortium
Hidden markov chain and bayes belief networks doctor consortium
The Conclusion for sigir 2011
Ad

Course review for ir class 本科课件