2. Agenda
• Motivation
• Recommendation Techniques
– Overview
– Techniques, Advantages & Problem
– Recommendation Scenario
• Domain Specific:
– E-Commerce: Amazon
– Music: Pandora
• Recommendation as a service:
– Choice Stream
– Current Problems and Issues
05/22/12 2
3. Motivation
• 随着 Web2.0 的发展,如今已经进入了一个数据爆炸的时代。同时,
人们想要找到自己需要的信息也越来越难。
– 因此有了 Search ,在用户对自己需求相对明确的时候,用 Search 能很快
的找到自己需要的数据
– 但很多情况下,用户其实并不明确自己的需要,或者他们需要更加符合
他们个人口味和喜好的结果,因此出现了 Recommendation
– 这是个从数据的搜索到发现的转变
• Recommendation 已经在 E-commerce 和基于 social 的社会化站点
(music , movie and bookmark...) 取得很大的成功。
• 由于 Recommendation 的技术要求高,如今有很多 Recommendation
As a Service 的服务为 E-commerce 系统提供专业的推荐引擎支持。
– 但由于推荐所基于的数据在不同 domain 应用差别相对比较大,所以还没
有找到特别 general 的解决方案。
05/22/12 3
4. Recommendation Techiques - Overview
• The techniques used by recommendation engines can be classified based on the information
sources they use.
• The available sources are:
– user features (demographics) : age, gender, profession, income, location...
– item features: keyword, genres...
– user-item ratings: gathered through questionarures, explict ratings, transaction data
Model
05/22/12 4
13. Recommendation as a service : ChoiceStream
• ChoiceStream is a personalisation company that offers their recommendation
technology “Real Relevance Recommendations” as a fully-hosted service for e-
commerce vendors.
• ChoiceStream is using a hybrid system based on a variety of techniques that
are chosen and combined depending on the concrete recommendation use
case on hand.
05/22/12 13
14. Problem and Issues
• Data Collection :数据的来源分为 explict 和 implict 两个部分
– explict: demographic data, preference info, search terms explicit rating, comments...
– implict: tracking user's behavior click sequences, reading time, transaction data...
• Cold Start
– 在系统初始状态时,对于 preference 数据很少的 item 或者 user ,推荐的
效果不好
– 其原因在于,推荐没有从数据本身入手,而是更多的采用 social data
• Stability vs Plasticity
– 在推荐中过多的考虑 history data 的作用,从而对于长时间使用的用户,
他们的 taste 和习惯的 model 很难改变,或者说不能提供很好的基于实时
需求的推荐
– 目前的解决方法就是:将历史的 rating 进行衰减,但是却有可能导致长期
interest 信息的 loose
• Sparsity
– user-item rating 矩阵的稀疏会导致 recommendation 的效果不好,或者使
部分用户的错误 / 片面的 rating 误导了推荐的效果。
05/22/12 14
15. Problem and Issues - cont.
• Performance & Scalablity
– Demographic 和 content-based , item-based , model-based 方法
可以采用 offline 的方法计算,但基于 social 的要做到 real-time 就
不得不进行实时的大量的计算
– 而且即便是 offline 的,在大数据量的 item 和 user 的情况下,计算
量还是很大的
• User Input Consistency
– user 可以分为三类:
• white sheep :和大部分人口味相同的人
• black sheep :和大部分人口味相反的人
• gray sheep :在不同的 item 上的 opinion 不同或者有很独特口味的人
– 对于 gray sheep 的推荐效果一般都不是很好
• Privary
– 因为要挖掘用户的个人喜好和使用习惯
05/22/12 15