ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

如何一步一步构建推荐系统(上)

2021-03-20 17:01:33  阅读:161  来源: 互联网

标签:Me 一步 推荐 系统 用户 3.5 构建 3.0


图片


21CTO社区导读:


今天我们来讨论关于一个非常有意义的话题,这就是推荐系统。我们讨论如何使用Python来构建推荐系统,我们将焦点和一些详细深度着重在如何让推荐系统干活。


在这篇手册中,我们将讨论以下两个主题:


1、为什么需要推荐系统

2、怎样构建推荐系统


本文篇幅较长,敬请耐心阅读,选择咖啡还是啤酒,需要有一点耐心。我将一步步的介绍推荐系统工作,辅以实战,希望我们都有自己的推荐系统。

我们核心的目标是从基础(零起点)开始,用Python构建推荐引擎,未来的你也可以有能力用python实现自己的推荐系统。


我会把Git仓库链接发出来,里面有全部的Python文件,请尽管拿去。

下面,我们再将两个主要题目分成若干个小主题,如下:


1)什么是推荐引擎与实例

2)收集过滤器与基于内容的方法

3)一步一步构建推荐系统

  (1)余弦相似性

  (2)个性化相关

4)小结


1 推荐引擎与实例


首先,我们思考一下你在Youtube上最后一次看的歌曲。你或许知道,Youtube最近更新了UI,并且增加了自动播放按钮。


假设你正在学习计算机科学技术,你可能不记得最后关闭的标签,或者最后一次考试通过的页面是什么。但是你喜欢的歌放完后,系统会继续播放你喜欢或这首歌类似的歌曲或讲座。


这个魔法肯定不是自动播放按钮在起作用。而是Youtube的系统在后台计算一些公式后,提供最合适的内容匹配,对我们来说最好的歌曲。这样的系统被称为推荐系统或推荐引擎。


1.1 推荐系统类型


推荐系统有不同的类型,包括如下:


  • 电影推荐引擎

  • 商品推荐引擎

  • 机器学习推荐引擎

  • 使用商品推荐算法的个性化商品推荐引擎

  • 预测引擎

  • 音乐推荐引擎


这些推荐系统均基于机器学习,输入数据需要一些由个人或其它离散的系统收集,根据个人行为,推荐新的内容。


有不少新手工程师会混淆这两种类型的输入集合。我们来看一些例子:


个人用户数据输入:


  • 喜欢/不喜欢

  • 赞/贬

  • 评论

  • 分享等


从其它离散系统的输入


1 从用户互动行为中实时收集数据


  • Youtube: 在较短时间内有大量的同样的短语(关键词)搜索

  • Google: 用户打开大量类似的网站

  • Twitter/Facebook:一些公众号(商业,市场,娱乐...)被大量关注(订阅)


2 通过询问兴趣来收集数据(用户注册或提供兴趣资料后)


  • Tumblr

  • StumbleUpon

  • Flickr


2 协同过滤


想要了解如何构建推荐系统,需要了解协同过滤(Collaborative Filtering)的一些基础知识。


Google一下“Collaborative Filtering”,我们会在Wikipedia得到如下定义:


In the newer, narrower sense, collaborative filtering is a method of making automatic predictions (filtering) about the interests of a user by collecting preferences or taste information from many users (collaborating).


译文:


在较新的狭义定义下,协同过滤通过收集来自大量用户的偏好和品味信息(协作)来对用户兴趣进行自动预测(过滤)的方法。


如前所述,要理解如何构建推荐系统,要有两个数据输入选项。我们需求有一个反馈功能系统,比如像喜欢/不喜欢或任何其它表单订阅和用户互动。很明显,我们没有办法从用户那提取到任何关于他个性化兴趣的信息。


但是我们知道谁连接了我们的系统或网站,给他们提供了什么,是全部服务还是部分服务。但是我们没法检测与用户兴趣类似的其它任何内容,因为没有反馈,没有评论,没有赞等功能,只能拿到小部分数据。


为解决此问题,我们采用协同过滤方法,这种方法是基于机器学习算法和人工智能,暂时稍后讨论。


WordPress.com,Google,Youtube等经常使用协同过滤方法,它给用户提供非常好的建议,包括推荐和内容输出。但是它们怎么工作的?


那么,我们暂时不在人工智能上讨论更多细节,而是使用一些例子来掌握基础知识。


2.1 实例 - 谷歌


谷歌有一支个性化的广告系统,用来展示自身网站或合作伙伴上的广告。同时,它也会从用户浏览器中收集数据,包括浏览器名称,网络服务商,搜索关键字,用户观看过的视频等。


这个数据对于系统来说意义重大,但对个人来说甲是垃圾,对另一个人则是黄金。Google通过这些信息,对关键字相关性,页面相似性,页面权限等进行实时计算。


通过大量的预测和分析,为用户提供个性化的广告,在大多数的情况下,你会看到感兴趣的广告内容。就像微信朋友圈中大家点赞的广告,是同样的道理。


图片


内容推荐系统


“如何构建一个推荐系统”,包含一个或多种类型的算法,这被称为“基于内容的方法/算法”。


在一个基于内容的推荐系统里,使用关键字来描述项目,并且构建用户画像,用以描述该用户喜欢的项目类型。换句话说,这些算法尝试推荐用户喜欢的项目(或正在进行的测试)—— Wikipedia


基于内容的方法是基于用户交互(UI),这意味着用户能够提供关于内容的反馈。这些反馈包括多种方式获得:喜欢/不喜欢,评分,分享等。


这种方法通常用于电子商务或视频网站。


系统从用户交互中提取数据,把这些数据保存在数据。当同一个用户再次访问网站时,就可以访问到自己喜欢的内容。与此同时,系统根据协同过滤算法,决定用户应该获得到哪些内容。综合以上例子,就可以看到其中的差异。


3.1 实例 - YouTube


Youtube的推荐和Google不一样(虽然YouTube是Google子公司)。用户画像是通过视频阅读的用户交互(UI)获得的。我们可以喜欢或不喜欢某个视频,分享到社交网站或者发表评论。


每次我们给视频点一个赞/喜欢,都是告诉系统我们对什么样的视频(喜剧,教育、记录片)等感兴趣。这些信息是在Youtube顺序排列的,之后它会根据算法公式,为你所观看的视频提供更精确的内容服务。如果我们对某个产品不满意,它会从你的兴趣列表中删除。


我们看到的两类系统是非常复杂的,这一切都基于人工智能,但是用基本的推荐系统并不那么复杂,不需要任何AI方面的知识。


4 一步一步构建推荐系统


在学习前,比较容易构建的基于内容的推荐器系统。在继续之前,我们可以看一张与此相关的图。


图片

如何构建推荐系统 协同过滤与基于内容的方法的差异


第一步,我们需要一些基础工具和环境来设置。需要如下:


  • Python环境和IDE(推荐使用Pytharm)

  • 一些学习的数据

  • 一些测试数据


学习数据:


 UserRatings={
   'Lisa Rose':{
      'Catch Me If You Can':3.0,
      'Snakes on a Plane':3.5,
      'Superman Returns':3.5,
      'You, Me and Dupree':2.5,
      'The Night Listener':3.0,
      'Snitch':3.0
   },
   'Gene Seymour':{
      'Lady in the Water':3.0,
      'Snakes on a Plane':3.5,
      'Just My Luck':1.5,
      'The Night Listener':3.0,
      'You, Me and Dupree':3.5
   },
   'Michael Phillips':{
      'Catch Me If You Can':2.5,
      'Lady in the Water':2.5,
      'Superman Returns':3.5,
      'The Night Listener':4.0,
      'Snitch':2.0
   },
   'Claudia Puig':{
      'Snakes on a Plane':3.5,
      'Just My Luck':3.0,
      'The Night Listener':4.5,
      'Superman Returns':4.0,
      'You, Me and Dupree':2.5
   },
   'Mick LaSalle':{  
      'Lady in the Water':3.0,
      'Snakes on a Plane':4.0,
      'Just My Luck':2.0,
      'Superman Returns':3.0,
      'You, Me and Dupree':2.0
   },
   'Jack Matthews':{
      'Catch Me If You Can':4.5,
      'Lady in the Water':3.0,
      'Snakes on a Plane':4.0,
      'The Night Listener':3.0,
      'Superman Returns':5.0,
      'You, Me and Dupree':3.5,
      'Snitch':4.5
   },
   'Toby':{
      'Snakes on a Plane':4.5,
      'Snitch':5.0
   },
   'Michelle Nichols':{
      'Just My Luck':1.0,
      'The Night Listener':4.5,
      'You, Me and Dupree':3.5,
      'Catch Me If You Can':2.5,
      'Snakes on a Plane':3.0
   },
   'Gary Coleman':{
      'Lady in the Water':1.0,
      'Catch Me If You Can':1.5,
      'Superman Returns':1.5,
      'You, Me and Dupree':2.0
   },
   'Larry':{
      'Lady in the Water':3.0,
      'Just My Luck':3.5,
      'Snitch':1.5,
      'The Night Listener':3.5
   }
}

如果你不知道上面的代码是什么,我会继续解释的。如果你懂,可以跳过这一部分。


这里“UserRatings”是一个Python数据集(JSON)。 在此集合中,我们保留用户名,并为每个用户名保留电影的评分。 例如:


'Lisa Rose':{
      'Catch Me If You Can':3.0,
      'Snakes on a Plane':3.5,
      'Superman Returns':3.5,
      'You, Me and Dupree':2.5,
      'The Night Listener':3.0,
      'Snitch':3.0
   }

该用户名是Lisa Rose,Lisa给电影做了一些适当的评分:


  • movie: Catch Me If You Can / Snakes on a Plane

  • rating: 3.0 / 3.5


这是这位用户对电影的评分。重要的我们需要知道相关电影的变化 ,因为并不是所有电影这个用户都会参与评分。例如;


'Lisa Rose':{
      'Catch Me If You Can':3.0,
      'Snakes on a Plane':3.5,
      'Superman Returns':3.5,
      'You, Me and Dupree':2.5,
      'The Night Listener':3.0,
      'Snitch':3.0
   }
 'Michelle Nichols':{
      'Just My Luck':1.0,
      'The Night Listener':4.5,
      'You, Me and Dupree':3.5,
      'Catch Me If You Can':2.5,
      'Snakes on a Plane':3.0
   }

两个相关电影数据:You,Me and Dupree,Catch Me if You Can与Snakes on a Plane。没有评分的有:Just My Luck,Superen Returns,Snitch。


You, Me and Dupree':{
      'Lisa Rose':3.5,
      'Michelle Nichols':3.5,
   }

需要进行转换,我们需要定义自己的函数,命名为transform()。


MovieRates={} #Declaring empty set for our new transformed data

def transform(): #Transformation Set
    for person in UserRatings:
        for movie in User[person]:
            if movie not in MovieRates:
                MovieRates[movie]={}
            MovieRates[movie][person]=UserRatings[person][movie]

该程序执行后的返回结果如下:


 {     'The Night Listener':{      'Michelle Nichols':4.5,      'Jack Matthews':3.0,      'Lisa Rose':3.0,      'Michael Phillips':4.0,      'Gene Seymour':3.0,      'Larry':3.5,      'Claudia Puig':4.5   },   'Snitch':{      'Toby':5.0,      'Larry':1.5,      'Jack Matthews':4.5,      'Lisa Rose':3.0,      'Michael Phillips':2.0   },   'Superman Returns':{      'Jack Matthews':5.0,      'Lisa Rose':3.5,      'Michael Phillips':3.5,      'Mick LaSalle':3.0,      'Gary Coleman':1.5,      'Claudia Puig':4.0   },   'Just My Luck':{      'Michelle Nichols':1.0,      'Gene Seymour':1.5,      'Claudia Puig':3.0,      'Mick LaSalle':2.0,      'Larry':3.5   },   'You, Me and Dupree':{      'Michelle Nichols':3.5,      'Jack Matthews':3.5,      'Lisa Rose':2.5,      'Mick LaSalle':2.0,      'Gene Seymour':3.5,      'Gary Coleman':2.0,      'Claudia Puig':2.5   },   'Snakes on a Plane':{      'Toby':4.5,      'Michelle Nichols':3.0,      'Jack Matthews':4.0,      'Lisa Rose':3.5,      'Gene Seymour':3.5,      'Mick LaSalle':4.0,      'Claudia Puig':3.5   },   'Catch Me If You Can':{      'Michelle Nichols':2.5,      'Michael Phillips':2.5,      'Jack Matthews':4.5,      'Lisa Rose':3.0,      'Gary Coleman':1.5   },   'Lady in the Water':{      'Mick LaSalle':3.0,      'Jack Matthews':3.0,      'Larry':3.0,      'Gene Seymour':3.0,      'Michael Phillips':2.5,      'Gary Coleman':1.0   }}

限于篇幅限制,下篇继续。


标签:Me,一步,推荐,系统,用户,3.5,构建,3.0
来源: https://blog.51cto.com/15127566/2666758

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有