Recommendation Survey and Summary




            Chen Ting Zhao




05/22/12
Agenda
 • Motivation

 • Recommendation Techniques
       – Overview
       – Techniques, Advantages & Problem
       – Recommendation Scenario
           • Domain Specific:
               – E-Commerce: Amazon
               – Music: Pandora
           • Recommendation as a service:
               – Choice Stream
       – Current Problems and Issues
05/22/12                                    2
Motivation
•   随着 Web2.0 的发展,如今已经进入了一个数据爆炸的时代。同时,
    人们想要找到自己需要的信息也越来越难。
      – 因此有了 Search ,在用户对自己需求相对明确的时候,用 Search 能很快
        的找到自己需要的数据
      – 但很多情况下,用户其实并不明确自己的需要,或者他们需要更加符合
        他们个人口味和喜好的结果,因此出现了 Recommendation
      – 这是个从数据的搜索到发现的转变

•   Recommendation 已经在 E-commerce 和基于 social 的社会化站点
    (music , movie and bookmark...) 取得很大的成功。

•   由于 Recommendation 的技术要求高,如今有很多 Recommendation
    As a Service 的服务为 E-commerce 系统提供专业的推荐引擎支持。
      – 但由于推荐所基于的数据在不同 domain 应用差别相对比较大,所以还没
        有找到特别 general 的解决方案。



05/22/12                                              3
Recommendation Techiques - Overview
•   The techniques used by recommendation engines can be classified based on the information
    sources they use.

•   The available sources are:
    – user features (demographics) : age, gender, profession, income, location...
    – item features: keyword, genres...
    – user-item ratings: gathered through questionarures, explict ratings, transaction data

                Model




    05/22/12                                                                                   4
Demographic Recommendation
•   用 User feature 将用户进行分类,找到他的相似用户,让相似用户喜爱的
    item 推荐给他。
    –基于用户的基本信息计算用户的相似度




•   Advantages
    –因为不使用 user-item preferences 数据,所以对于新用户来讲没有 cold start 的问
     题
    –方法不依赖于 item 的数据,所以这个方法是 domain-independent.

•   Problems
    –基于用户的基本信息对用户进行分类过于粗糙,尤其是对 taste 要求较高的
     domain ,比如 book , movie 和 music 等
    –对 feature 与其他用户不同的不能得到很好的推荐( gray sheep problem )
    –抓取和建模用户的 preference 后,很难修改或者根据用户的使用演变(不够灵
     活)
    05/22/12                                               5
Content-based Recommendation
•   用 Item feature 作为 item 的 model ,根据用户对不同 Item 的评分建立用户
    taste 的 profile ,然后基于用户的 profile 和 item feature 计算用户可能喜欢
    的 item 。




• Advantages
    –能很好的 model 用户的 taste ,能提供更加精确的推荐
• Problems
    –需要对 item 进行分析和建模,推荐的质量依赖于 item 模型的完整和全面
     程度。
    –item 相似度的分析仅仅依赖于 item feature
    –对于新用户有 cold start 的问题
    –抓取和建模用户的 preference 后,很难修改或者根据用户的使用演变(不
     够灵活)
• 成功的应用在一些 movie , music , book 的 website ,他们请专业
  的人员对 item 进行基因编码(每首歌可能有超过 100 个元数据)。
    05/22/12                                              6
Collaborative Filtering
• 使用 user-item preferences 的 user behavior 数据计算 item 相似
  度, user 的相似度,从而计算推荐。可以分为一下 3 个子类:
    – user-based ,通过计算 user 的相似度,找到邻居,推荐邻居喜爱的 item
    – item-based ,通过计算 item 的相似度,基于用户历史的 preference ,推
      荐相似的 item
    – model-based ,基于样本的 preference 信息和 feature 信息,建立一个推
      荐 model ,然后根据实时的用户 preference 的信息进行预测,计算推荐
• Advantages
    – 不需要对 item 进行建模,而且不要求 item 的描述是 machine-readable
      的,所以这种方法也是 domain-independent
    – 推荐是开放的,共用他人的经验,很好的支持用户发现潜在的兴趣偏好
• Problems
    –   基于历史数据,所以对新 item 和新 user 都有 cold start 的问题
    –   推荐的效果依赖于 preference 数据的多少和准确性
    –   user-item preference 是稀疏存储和计算,影响推荐的效果
    –   对于特殊 taste 的用户不能给予很好的推荐( gray sheep problem )
    –   抓取和建模用户的 preference 后,很难修改或者根据用户的使用演变
        (不够灵活)

  05/22/12                                                7
Rule-based Recommendation
• 利用 user-item preference 的数据,发现购买商品的
  潜在关联关系,从而在用户已有的 preference 的基
  础上,为他推荐其他的相关的 item

• Advantages
      – 这种方法可以将用户动态的兴趣变化反映出来
      – 发现的关联关系可能是一些领域的知识,能有更好的
        推荐效果,并且对用户拓展自己的兴趣有很好的帮助

• Problems
      – 不同的应用 domain ,发现关联关系的方法可能很不同
        ,不便提取通用的方法和模型

05/22/12                                8
Hybrid Approaches
• 将上述的方法组合在一起
      – Weighted Hybirdization: 用 linear formula 将不同的
        recommendation 按照一定 weight combine 起来
      – Switching Hybridization :对于不同的情况(系统运行状况,用户
        和 item 的数目等)选择合适的方式
      – Mixed Hybridization :将不同的推荐结果分不同的 section 显示给
        用户
      – Feature Combination :从不同的知识来源得到的 feature 组合在一
        起,然后使用某种 recommendation 算法计算
      – Feature Auggmentation: 用不同的推荐方法修正 feature ,得到更
        好的推荐结果
      – Cascaded Hybridization: 给不同的 recommendation 方法设置严格
        的 priority , low-priority 的结果在 high-priority 计算结果相同的时
        候给出辅助信息。
      – Meta-Level Hybridization: 将一个 recommendation 方法的 model 作
        为另一个的输入

05/22/12                                                       9
Personalized vs. Non-Personalized
• Non-personalized recommendations
   – 对于每个用户都给出同样的推荐,这些推荐可以是
     静态的由 admin 人工设定的,或者基于系统所有用
     户的反馈统计计算出的 popular items.

• Personalized recommendations
   – 对于不同的用户,根据他们的口味和喜好给出更加
     精确的推荐
            • 系统需要了解需推荐内容和用户的特质
            • 基于社会化网络,通过找到与当前用户相同喜好的用户
              ,实现推荐
 05/22/12                            10
E-commerce Domain - Amazon
•   Amazon 是做 recommendation 的鼻祖,它已经将 recommend 的思想
    渗透在 website 的各个角落。
      – Amazon 通过数据挖掘算法和比较用户的消费偏好于其他用户进行对比,
        借以预测用户可能感兴趣的商品
•   Amazon 利用可以 trace 的所有用户在 website 上的行为,根据不同数
    据的特点对它们进行处理,并分成不同 section 为用户推送
    recommendation
      –    用户的历史数据
      –    新产品的推荐 ( Content-based 的推荐)
      –    相关商品( collaborative 的 Item based 推荐)
      –    别人购买 / 浏览的商品( collaborative 的 User based 推荐)
      –    并且, Amazon 利用它大量数据的优势,量化推荐原因:基于 social 的推
           荐, Amazon 会给你事实的数据,让用户信服;基于 item 的推荐,也会列出推荐
           的理由。

•   Amazon 提供了让用户自主管理自己 profile 的功能,从而更明确的告
    诉推荐引擎他的 taste 和意图

05/22/12                                                  11
Music Domain - Pandora
•   Pandora 将 music 解析成最基本的基因,基于这个基因计算音乐的相似性。

•   这种方法是从 item 本身入手,描述 item 的基本属性,在用户使用或者浏览一个 item 时,根
    据基因的匹配或者传递规则给用户推荐更多的 items 。这种方式能给用户即刻的满足感,不
    需要用户的历史数据和偏好设置。

•   基因描述区别于其他的 content-based 方法在于他更多的关注于外在表现的本质属性。

•   基因描述的好处:
      – item 本身的基因显性遗传,即属性可以传递
      – user 购买行为的基因遗传,这种属性的传递往往是 item 的“隐性“传递
        的属性(很有趣)
           • 例如有研究发现,超市里购买婴儿尿布的男性顾客,往往都会购买啤酒,从基
             因角度可以看出,婴儿尿布和啤酒有一些共性的”隐性“属性,有孩子的成年
             男性。
           • 这种遗传与显性遗传的区别,必须考虑用户行为的影响:先买啤酒的人一般不
             会买尿布,所以单单用相似就很难解释,所以从基因的角度可以解释为:购买
             尿布的行为激活了”有孩子的成年男性“购买者的属性,从而传递到啤酒的相
             应属性上。



05/22/12                                              12
Recommendation as a service : ChoiceStream
•   ChoiceStream is a personalisation company that offers their recommendation
    technology “Real Relevance Recommendations” as a fully-hosted service for e-
    commerce vendors.
•   ChoiceStream is using a hybrid system based on a variety of techniques that
    are chosen and combined depending on the concrete recommendation use
    case on hand.




    05/22/12                                                                 13
Problem and Issues
•   Data Collection :数据的来源分为 explict 和 implict 两个部分
      – explict: demographic data, preference info, search terms explicit rating, comments...
      – implict: tracking user's behavior click sequences, reading time, transaction data...
•   Cold Start
     – 在系统初始状态时,对于 preference 数据很少的 item 或者 user ,推荐的
        效果不好
     – 其原因在于,推荐没有从数据本身入手,而是更多的采用 social data
•   Stability vs Plasticity
     – 在推荐中过多的考虑 history data 的作用,从而对于长时间使用的用户,
        他们的 taste 和习惯的 model 很难改变,或者说不能提供很好的基于实时
        需求的推荐
     – 目前的解决方法就是:将历史的 rating 进行衰减,但是却有可能导致长期
        interest 信息的 loose
•   Sparsity
     – user-item rating 矩阵的稀疏会导致 recommendation 的效果不好,或者使
        部分用户的错误 / 片面的 rating 误导了推荐的效果。


05/22/12                                                                                        14
Problem and Issues - cont.
• Performance & Scalablity
      – Demographic 和 content-based , item-based , model-based 方法
        可以采用 offline 的方法计算,但基于 social 的要做到 real-time 就
        不得不进行实时的大量的计算
      – 而且即便是 offline 的,在大数据量的 item 和 user 的情况下,计算
        量还是很大的
• User Input Consistency
      – user 可以分为三类:
           • white sheep :和大部分人口味相同的人
           • black sheep :和大部分人口味相反的人
           • gray sheep :在不同的 item 上的 opinion 不同或者有很独特口味的人
      – 对于 gray sheep 的推荐效果一般都不是很好
• Privary
      – 因为要挖掘用户的个人喜好和使用习惯


05/22/12                                                       15

More Related Content

PDF
空望 推荐系统@淘宝
PPTX
Google key technologies
PPT
Social network analysis
PDF
Palantir, Quid, RecordedFuture: Augmented Intelligence Frontier
PDF
推荐系统规划
PPTX
数据和算法驱动的本地生活推荐
PDF
当当网:从搜索到发现
PPTX
主搜垂直化调研报告-手机.pptx
空望 推荐系统@淘宝
Google key technologies
Social network analysis
Palantir, Quid, RecordedFuture: Augmented Intelligence Frontier
推荐系统规划
数据和算法驱动的本地生活推荐
当当网:从搜索到发现
主搜垂直化调研报告-手机.pptx

Similar to Recommendation survey and summary (20)

PPTX
《Web Analytcs 2.0》第12章書摘-成為分析專家的進階指南
PPT
About face ch 5
PDF
活用您的 Big Data,實現線上服務行銷的精準推薦
PPT
Recommender Systems in E-Commerce V2.0
PPT
「沙中撈金術」﹣談開放原始碼的推薦系統
PDF
優化宅的日常-數據分析篇
PPT
陈世欣 高转化率网站的推荐和劝导
PDF
产品经理的情报收集与分析
PDF
PM skills
PDF
網路2.0時代網路行銷術 菜鳥顧問的行銷力
PPTX
Recommendation system
PDF
如何做好推荐系统——冯沁原
PPTX
张月 社交类网站的产品设计和运营策略
PPT
[.产品设计与用户体验(马化腾)
PPTX
动态推荐系统关键技术研究
PDF
使用者行為分析
PPTX
_信息布局_与_评论___推推用户研究报告系列.pptx
PPT
用户体验的 要素 很好的资料
PDF
Semp活动 敏捷之用户故事研讨会(一)
PPTX
20160623 UI / UX Night - Data Virtualization
《Web Analytcs 2.0》第12章書摘-成為分析專家的進階指南
About face ch 5
活用您的 Big Data,實現線上服務行銷的精準推薦
Recommender Systems in E-Commerce V2.0
「沙中撈金術」﹣談開放原始碼的推薦系統
優化宅的日常-數據分析篇
陈世欣 高转化率网站的推荐和劝导
产品经理的情报收集与分析
PM skills
網路2.0時代網路行銷術 菜鳥顧問的行銷力
Recommendation system
如何做好推荐系统——冯沁原
张月 社交类网站的产品设计和运营策略
[.产品设计与用户体验(马化腾)
动态推荐系统关键技术研究
使用者行為分析
_信息布局_与_评论___推推用户研究报告系列.pptx
用户体验的 要素 很好的资料
Semp活动 敏捷之用户故事研讨会(一)
20160623 UI / UX Night - Data Virtualization
Ad

Recommendation survey and summary

  • 1. Recommendation Survey and Summary Chen Ting Zhao 05/22/12
  • 2. Agenda • Motivation • Recommendation Techniques – Overview – Techniques, Advantages & Problem – Recommendation Scenario • Domain Specific: – E-Commerce: Amazon – Music: Pandora • Recommendation as a service: – Choice Stream – Current Problems and Issues 05/22/12 2
  • 3. Motivation • 随着 Web2.0 的发展,如今已经进入了一个数据爆炸的时代。同时, 人们想要找到自己需要的信息也越来越难。 – 因此有了 Search ,在用户对自己需求相对明确的时候,用 Search 能很快 的找到自己需要的数据 – 但很多情况下,用户其实并不明确自己的需要,或者他们需要更加符合 他们个人口味和喜好的结果,因此出现了 Recommendation – 这是个从数据的搜索到发现的转变 • Recommendation 已经在 E-commerce 和基于 social 的社会化站点 (music , movie and bookmark...) 取得很大的成功。 • 由于 Recommendation 的技术要求高,如今有很多 Recommendation As a Service 的服务为 E-commerce 系统提供专业的推荐引擎支持。 – 但由于推荐所基于的数据在不同 domain 应用差别相对比较大,所以还没 有找到特别 general 的解决方案。 05/22/12 3
  • 4. Recommendation Techiques - Overview • The techniques used by recommendation engines can be classified based on the information sources they use. • The available sources are: – user features (demographics) : age, gender, profession, income, location... – item features: keyword, genres... – user-item ratings: gathered through questionarures, explict ratings, transaction data Model 05/22/12 4
  • 5. Demographic Recommendation • 用 User feature 将用户进行分类,找到他的相似用户,让相似用户喜爱的 item 推荐给他。 –基于用户的基本信息计算用户的相似度 • Advantages –因为不使用 user-item preferences 数据,所以对于新用户来讲没有 cold start 的问 题 –方法不依赖于 item 的数据,所以这个方法是 domain-independent. • Problems –基于用户的基本信息对用户进行分类过于粗糙,尤其是对 taste 要求较高的 domain ,比如 book , movie 和 music 等 –对 feature 与其他用户不同的不能得到很好的推荐( gray sheep problem ) –抓取和建模用户的 preference 后,很难修改或者根据用户的使用演变(不够灵 活) 05/22/12 5
  • 6. Content-based Recommendation • 用 Item feature 作为 item 的 model ,根据用户对不同 Item 的评分建立用户 taste 的 profile ,然后基于用户的 profile 和 item feature 计算用户可能喜欢 的 item 。 • Advantages –能很好的 model 用户的 taste ,能提供更加精确的推荐 • Problems –需要对 item 进行分析和建模,推荐的质量依赖于 item 模型的完整和全面 程度。 –item 相似度的分析仅仅依赖于 item feature –对于新用户有 cold start 的问题 –抓取和建模用户的 preference 后,很难修改或者根据用户的使用演变(不 够灵活) • 成功的应用在一些 movie , music , book 的 website ,他们请专业 的人员对 item 进行基因编码(每首歌可能有超过 100 个元数据)。 05/22/12 6
  • 7. Collaborative Filtering • 使用 user-item preferences 的 user behavior 数据计算 item 相似 度, user 的相似度,从而计算推荐。可以分为一下 3 个子类: – user-based ,通过计算 user 的相似度,找到邻居,推荐邻居喜爱的 item – item-based ,通过计算 item 的相似度,基于用户历史的 preference ,推 荐相似的 item – model-based ,基于样本的 preference 信息和 feature 信息,建立一个推 荐 model ,然后根据实时的用户 preference 的信息进行预测,计算推荐 • Advantages – 不需要对 item 进行建模,而且不要求 item 的描述是 machine-readable 的,所以这种方法也是 domain-independent – 推荐是开放的,共用他人的经验,很好的支持用户发现潜在的兴趣偏好 • Problems – 基于历史数据,所以对新 item 和新 user 都有 cold start 的问题 – 推荐的效果依赖于 preference 数据的多少和准确性 – user-item preference 是稀疏存储和计算,影响推荐的效果 – 对于特殊 taste 的用户不能给予很好的推荐( gray sheep problem ) – 抓取和建模用户的 preference 后,很难修改或者根据用户的使用演变 (不够灵活) 05/22/12 7
  • 8. Rule-based Recommendation • 利用 user-item preference 的数据,发现购买商品的 潜在关联关系,从而在用户已有的 preference 的基 础上,为他推荐其他的相关的 item • Advantages – 这种方法可以将用户动态的兴趣变化反映出来 – 发现的关联关系可能是一些领域的知识,能有更好的 推荐效果,并且对用户拓展自己的兴趣有很好的帮助 • Problems – 不同的应用 domain ,发现关联关系的方法可能很不同 ,不便提取通用的方法和模型 05/22/12 8
  • 9. Hybrid Approaches • 将上述的方法组合在一起 – Weighted Hybirdization: 用 linear formula 将不同的 recommendation 按照一定 weight combine 起来 – Switching Hybridization :对于不同的情况(系统运行状况,用户 和 item 的数目等)选择合适的方式 – Mixed Hybridization :将不同的推荐结果分不同的 section 显示给 用户 – Feature Combination :从不同的知识来源得到的 feature 组合在一 起,然后使用某种 recommendation 算法计算 – Feature Auggmentation: 用不同的推荐方法修正 feature ,得到更 好的推荐结果 – Cascaded Hybridization: 给不同的 recommendation 方法设置严格 的 priority , low-priority 的结果在 high-priority 计算结果相同的时 候给出辅助信息。 – Meta-Level Hybridization: 将一个 recommendation 方法的 model 作 为另一个的输入 05/22/12 9
  • 10. Personalized vs. Non-Personalized • Non-personalized recommendations – 对于每个用户都给出同样的推荐,这些推荐可以是 静态的由 admin 人工设定的,或者基于系统所有用 户的反馈统计计算出的 popular items. • Personalized recommendations – 对于不同的用户,根据他们的口味和喜好给出更加 精确的推荐 • 系统需要了解需推荐内容和用户的特质 • 基于社会化网络,通过找到与当前用户相同喜好的用户 ,实现推荐 05/22/12 10
  • 11. E-commerce Domain - Amazon • Amazon 是做 recommendation 的鼻祖,它已经将 recommend 的思想 渗透在 website 的各个角落。 – Amazon 通过数据挖掘算法和比较用户的消费偏好于其他用户进行对比, 借以预测用户可能感兴趣的商品 • Amazon 利用可以 trace 的所有用户在 website 上的行为,根据不同数 据的特点对它们进行处理,并分成不同 section 为用户推送 recommendation – 用户的历史数据 – 新产品的推荐 ( Content-based 的推荐) – 相关商品( collaborative 的 Item based 推荐) – 别人购买 / 浏览的商品( collaborative 的 User based 推荐) – 并且, Amazon 利用它大量数据的优势,量化推荐原因:基于 social 的推 荐, Amazon 会给你事实的数据,让用户信服;基于 item 的推荐,也会列出推荐 的理由。 • Amazon 提供了让用户自主管理自己 profile 的功能,从而更明确的告 诉推荐引擎他的 taste 和意图 05/22/12 11
  • 12. Music Domain - Pandora • Pandora 将 music 解析成最基本的基因,基于这个基因计算音乐的相似性。 • 这种方法是从 item 本身入手,描述 item 的基本属性,在用户使用或者浏览一个 item 时,根 据基因的匹配或者传递规则给用户推荐更多的 items 。这种方式能给用户即刻的满足感,不 需要用户的历史数据和偏好设置。 • 基因描述区别于其他的 content-based 方法在于他更多的关注于外在表现的本质属性。 • 基因描述的好处: – item 本身的基因显性遗传,即属性可以传递 – user 购买行为的基因遗传,这种属性的传递往往是 item 的“隐性“传递 的属性(很有趣) • 例如有研究发现,超市里购买婴儿尿布的男性顾客,往往都会购买啤酒,从基 因角度可以看出,婴儿尿布和啤酒有一些共性的”隐性“属性,有孩子的成年 男性。 • 这种遗传与显性遗传的区别,必须考虑用户行为的影响:先买啤酒的人一般不 会买尿布,所以单单用相似就很难解释,所以从基因的角度可以解释为:购买 尿布的行为激活了”有孩子的成年男性“购买者的属性,从而传递到啤酒的相 应属性上。 05/22/12 12
  • 13. Recommendation as a service : ChoiceStream • ChoiceStream is a personalisation company that offers their recommendation technology “Real Relevance Recommendations” as a fully-hosted service for e- commerce vendors. • ChoiceStream is using a hybrid system based on a variety of techniques that are chosen and combined depending on the concrete recommendation use case on hand. 05/22/12 13
  • 14. Problem and Issues • Data Collection :数据的来源分为 explict 和 implict 两个部分 – explict: demographic data, preference info, search terms explicit rating, comments... – implict: tracking user's behavior click sequences, reading time, transaction data... • Cold Start – 在系统初始状态时,对于 preference 数据很少的 item 或者 user ,推荐的 效果不好 – 其原因在于,推荐没有从数据本身入手,而是更多的采用 social data • Stability vs Plasticity – 在推荐中过多的考虑 history data 的作用,从而对于长时间使用的用户, 他们的 taste 和习惯的 model 很难改变,或者说不能提供很好的基于实时 需求的推荐 – 目前的解决方法就是:将历史的 rating 进行衰减,但是却有可能导致长期 interest 信息的 loose • Sparsity – user-item rating 矩阵的稀疏会导致 recommendation 的效果不好,或者使 部分用户的错误 / 片面的 rating 误导了推荐的效果。 05/22/12 14
  • 15. Problem and Issues - cont. • Performance & Scalablity – Demographic 和 content-based , item-based , model-based 方法 可以采用 offline 的方法计算,但基于 social 的要做到 real-time 就 不得不进行实时的大量的计算 – 而且即便是 offline 的,在大数据量的 item 和 user 的情况下,计算 量还是很大的 • User Input Consistency – user 可以分为三类: • white sheep :和大部分人口味相同的人 • black sheep :和大部分人口味相反的人 • gray sheep :在不同的 item 上的 opinion 不同或者有很独特口味的人 – 对于 gray sheep 的推荐效果一般都不是很好 • Privary – 因为要挖掘用户的个人喜好和使用习惯 05/22/12 15