Recommendation survey and summary

Recommendation Survey and Summary

Chen Ting Zhao

05/22/12

Agenda
• Motivation

• Recommendation Techniques
– Overview
– Techniques, Advantages & Problem
– Recommendation Scenario
• Domain Specific:
– E-Commerce: Amazon
– Music: Pandora
• Recommendation as a service:
– Choice Stream
– Current Problems and Issues
05/22/12 2

Motivation
• 随着 Web2.0 的发展，如今已经进入了一个数据爆炸的时代。同时，
人们想要找到自己需要的信息也越来越难。
– 因此有了 Search ，在用户对自己需求相对明确的时候，用 Search 能很快
的找到自己需要的数据
– 但很多情况下，用户其实并不明确自己的需要，或者他们需要更加符合
他们个人口味和喜好的结果，因此出现了 Recommendation
– 这是个从数据的搜索到发现的转变

• Recommendation 已经在 E-commerce 和基于 social 的社会化站点
(music ， movie and bookmark...) 取得很大的成功。

• 由于 Recommendation 的技术要求高，如今有很多 Recommendation
As a Service 的服务为 E-commerce 系统提供专业的推荐引擎支持。
– 但由于推荐所基于的数据在不同 domain 应用差别相对比较大，所以还没
有找到特别 general 的解决方案。

05/22/12 3

Recommendation Techiques - Overview
• The techniques used by recommendation engines can be classified based on the information
sources they use.

• The available sources are:
– user features (demographics) : age, gender, profession, income, location...
– item features: keyword, genres...
– user-item ratings: gathered through questionarures, explict ratings, transaction data

Model

05/22/12 4

Demographic Recommendation
• 用 User feature 将用户进行分类，找到他的相似用户，让相似用户喜爱的
item 推荐给他。
–基于用户的基本信息计算用户的相似度

• Advantages
–因为不使用 user-item preferences 数据，所以对于新用户来讲没有 cold start 的问
题
–方法不依赖于 item 的数据，所以这个方法是 domain-independent.

• Problems
–基于用户的基本信息对用户进行分类过于粗糙，尤其是对 taste 要求较高的
domain ，比如 book ， movie 和 music 等
–对 feature 与其他用户不同的不能得到很好的推荐（ gray sheep problem ）
–抓取和建模用户的 preference 后，很难修改或者根据用户的使用演变（不够灵
活）
05/22/12 5

Content-based Recommendation
• 用 Item feature 作为 item 的 model ，根据用户对不同 Item 的评分建立用户
taste 的 profile ，然后基于用户的 profile 和 item feature 计算用户可能喜欢
的 item 。

• Advantages
–能很好的 model 用户的 taste ，能提供更加精确的推荐
• Problems
–需要对 item 进行分析和建模，推荐的质量依赖于 item 模型的完整和全面
程度。
–item 相似度的分析仅仅依赖于 item feature
–对于新用户有 cold start 的问题
–抓取和建模用户的 preference 后，很难修改或者根据用户的使用演变（不
够灵活）
• 成功的应用在一些 movie ， music ， book 的 website ，他们请专业
的人员对 item 进行基因编码（每首歌可能有超过 100 个元数据）。
05/22/12 6

Collaborative Filtering
• 使用 user-item preferences 的 user behavior 数据计算 item 相似
度， user 的相似度，从而计算推荐。可以分为一下 3 个子类：
– user-based ，通过计算 user 的相似度，找到邻居，推荐邻居喜爱的 item
– item-based ，通过计算 item 的相似度，基于用户历史的 preference ，推
荐相似的 item
– model-based ，基于样本的 preference 信息和 feature 信息，建立一个推
荐 model ，然后根据实时的用户 preference 的信息进行预测，计算推荐
• Advantages
– 不需要对 item 进行建模，而且不要求 item 的描述是 machine-readable
的，所以这种方法也是 domain-independent
– 推荐是开放的，共用他人的经验，很好的支持用户发现潜在的兴趣偏好
• Problems
– 基于历史数据，所以对新 item 和新 user 都有 cold start 的问题
– 推荐的效果依赖于 preference 数据的多少和准确性
– user-item preference 是稀疏存储和计算，影响推荐的效果
– 对于特殊 taste 的用户不能给予很好的推荐（ gray sheep problem ）
– 抓取和建模用户的 preference 后，很难修改或者根据用户的使用演变
（不够灵活）

05/22/12 7

Rule-based Recommendation
• 利用 user-item preference 的数据，发现购买商品的
潜在关联关系，从而在用户已有的 preference 的基
础上，为他推荐其他的相关的 item

• Advantages
– 这种方法可以将用户动态的兴趣变化反映出来
– 发现的关联关系可能是一些领域的知识，能有更好的
推荐效果，并且对用户拓展自己的兴趣有很好的帮助

• Problems
– 不同的应用 domain ，发现关联关系的方法可能很不同
，不便提取通用的方法和模型

05/22/12 8

Hybrid Approaches
• 将上述的方法组合在一起
– Weighted Hybirdization: 用 linear formula 将不同的
recommendation 按照一定 weight combine 起来
– Switching Hybridization ：对于不同的情况（系统运行状况，用户
和 item 的数目等）选择合适的方式
– Mixed Hybridization ：将不同的推荐结果分不同的 section 显示给
用户
– Feature Combination ：从不同的知识来源得到的 feature 组合在一
起，然后使用某种 recommendation 算法计算
– Feature Auggmentation: 用不同的推荐方法修正 feature ，得到更
好的推荐结果
– Cascaded Hybridization: 给不同的 recommendation 方法设置严格
的 priority ， low-priority 的结果在 high-priority 计算结果相同的时
候给出辅助信息。
– Meta-Level Hybridization: 将一个 recommendation 方法的 model 作
为另一个的输入

05/22/12 9

Personalized vs. Non-Personalized
• Non-personalized recommendations
– 对于每个用户都给出同样的推荐，这些推荐可以是
静态的由 admin 人工设定的，或者基于系统所有用
户的反馈统计计算出的 popular items.

• Personalized recommendations
– 对于不同的用户，根据他们的口味和喜好给出更加
精确的推荐
• 系统需要了解需推荐内容和用户的特质
• 基于社会化网络，通过找到与当前用户相同喜好的用户
，实现推荐
05/22/12 10

E-commerce Domain - Amazon
• Amazon 是做 recommendation 的鼻祖，它已经将 recommend 的思想
渗透在 website 的各个角落。
– Amazon 通过数据挖掘算法和比较用户的消费偏好于其他用户进行对比，
借以预测用户可能感兴趣的商品
• Amazon 利用可以 trace 的所有用户在 website 上的行为，根据不同数
据的特点对它们进行处理，并分成不同 section 为用户推送
recommendation
– 用户的历史数据
– 新产品的推荐（ Content-based 的推荐）
– 相关商品（ collaborative 的 Item based 推荐）
– 别人购买 / 浏览的商品（ collaborative 的 User based 推荐）
– 并且， Amazon 利用它大量数据的优势，量化推荐原因：基于 social 的推
荐， Amazon 会给你事实的数据，让用户信服；基于 item 的推荐，也会列出推荐
的理由。

• Amazon 提供了让用户自主管理自己 profile 的功能，从而更明确的告
诉推荐引擎他的 taste 和意图

05/22/12 11

Music Domain - Pandora
• Pandora 将 music 解析成最基本的基因，基于这个基因计算音乐的相似性。

• 这种方法是从 item 本身入手，描述 item 的基本属性，在用户使用或者浏览一个 item 时，根
据基因的匹配或者传递规则给用户推荐更多的 items 。这种方式能给用户即刻的满足感，不
需要用户的历史数据和偏好设置。

• 基因描述区别于其他的 content-based 方法在于他更多的关注于外在表现的本质属性。

• 基因描述的好处：
– item 本身的基因显性遗传，即属性可以传递
– user 购买行为的基因遗传，这种属性的传递往往是 item 的“隐性“传递
的属性（很有趣）
• 例如有研究发现，超市里购买婴儿尿布的男性顾客，往往都会购买啤酒，从基
因角度可以看出，婴儿尿布和啤酒有一些共性的”隐性“属性，有孩子的成年
男性。
• 这种遗传与显性遗传的区别，必须考虑用户行为的影响：先买啤酒的人一般不
会买尿布，所以单单用相似就很难解释，所以从基因的角度可以解释为：购买
尿布的行为激活了”有孩子的成年男性“购买者的属性，从而传递到啤酒的相
应属性上。

05/22/12 12

Recommendation as a service : ChoiceStream
• ChoiceStream is a personalisation company that offers their recommendation
technology “Real Relevance Recommendations” as a fully-hosted service for e-
commerce vendors.
• ChoiceStream is using a hybrid system based on a variety of techniques that
are chosen and combined depending on the concrete recommendation use
case on hand.

05/22/12 13

Problem and Issues
• Data Collection ：数据的来源分为 explict 和 implict 两个部分
– explict: demographic data, preference info, search terms explicit rating, comments...
– implict: tracking user's behavior click sequences, reading time, transaction data...
• Cold Start
– 在系统初始状态时，对于 preference 数据很少的 item 或者 user ，推荐的
效果不好
– 其原因在于，推荐没有从数据本身入手，而是更多的采用 social data
• Stability vs Plasticity
– 在推荐中过多的考虑 history data 的作用，从而对于长时间使用的用户，
他们的 taste 和习惯的 model 很难改变，或者说不能提供很好的基于实时
需求的推荐
– 目前的解决方法就是：将历史的 rating 进行衰减，但是却有可能导致长期
interest 信息的 loose
• Sparsity
– user-item rating 矩阵的稀疏会导致 recommendation 的效果不好，或者使
部分用户的错误 / 片面的 rating 误导了推荐的效果。

05/22/12 14

Problem and Issues - cont.
• Performance & Scalablity
– Demographic 和 content-based ， item-based ， model-based 方法
可以采用 offline 的方法计算，但基于 social 的要做到 real-time 就
不得不进行实时的大量的计算
– 而且即便是 offline 的，在大数据量的 item 和 user 的情况下，计算
量还是很大的
• User Input Consistency
– user 可以分为三类：
• white sheep ：和大部分人口味相同的人
• black sheep ：和大部分人口味相反的人
• gray sheep ：在不同的 item 上的 opinion 不同或者有很独特口味的人
– 对于 gray sheep 的推荐效果一般都不是很好
• Privary
– 因为要挖掘用户的个人喜好和使用习惯

05/22/12 15

Recommendation survey and summary

More Related Content

Similar to Recommendation survey and summary (20)

Recommendation survey and summary