ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

推荐系统

2019-12-07 11:02:28  阅读:158  来源: 互联网

标签:基于 推荐 系统 用户 文档 物品 向量


2

2.1简介

协同过滤的方法可以分为两类:基于领域的方法和基于模型的方法。在基于领域的协同过滤方法中,系统中用户对物品的历史评分数据可以用来预测用户对新物品的评分。基于领域的方法包括两种著名的推荐方法:基于用户的推荐和基于物品的推荐。在基于用户的推荐系统中,如GroupLens、Bellcore video和Ringo,目标用户对某一物品的感兴趣程度是利用对该物品的已评过分、并且和目标用户有相似评分模式的其他用户来估计的。这里目标用户的近邻是指与目标用户评分模式类似的用户。基于物品的推荐系统,是根据某一用户对相似于目标物品的评分来预测该用户对目标物品的评分。
与基于领域的推荐方法不同的是,基于模型的方法使用评分信息来学习预测模型。主要思想是使用属性构建用户和物品之间的联系,其属性代表在系统中用户和物品的潜在特征,如用户喜爱类别和物品所属的类别。具体的模型包括贝叶斯聚类,潜在语义分析,潜在迪利克雷分布,最大熵模型,SVD,SVM,玻尔兹曼机等。

2.1.1基于领域方法的优势

基于模型的方法在刻画用户爱好的潜在因素方面有突出优势。
基于领域的方法的潜在优势有:

  • 简单性
  • 合理性
  • 高效性
  • 稳定性

2.1.2目标和概要

本章目标:首先,基于领域推荐系统的实现指南;其次,一些存在问题的具体解决办法,如数据稀疏。

2.2问题定义和符号

评分预测和最优N项是推荐系统中最重要的两个问题。
评分预测可以形式化为一个回归或者分类问题,其目标是用学习函数来预测用户对于新物品(用户未评过分的物品)i的评分。
这类方法的效果可通过准确率和召回率进行评估:
\[ Precision(L)=\frac{1}{|\mu|}\sum_{u\in\mu}|L(u) \cap T(u)|/|L(u)| \]
\[ Recall(L)=\frac{1}{|\mu|}\sum_{u\in\mu}|L(u) \cap T(u)|/|T(u)| \]

4基于内容的语义感知推荐系统

4.1简介

基于内容的推荐系统依赖物品和用户的描述内容来构建其特征表示,然后基于这些特征表示来推荐与目标用户曾明确表达过喜好的物品相类似的物品。该类推荐系统的基本过程是对目标用户属性(偏好和兴趣)与物品属性进行匹配,并返回目标用户在物品上的喜好程度。通常,物品属性使用物品的元数据(metadata)或从描述中获取特征。
语义技术可以分为自上而下和自下而上的两类。

  • 自上而下的方法依赖于外部知识的集成来表示用户和物品特征,外部信息包括机器可读词典、分类(或IS-A层次)、叙词表或本体(有或没有价值限制和逻辑约束)。
  • 自下而上的方法主要动机是向推荐系统提供语言知识、常识知识,以及人类能够理解和推理的自然语言文档的文化背景;另一方面自下而上方法利用所谓的意义的几何隐喻来表示高维向量空间中单词之间的复杂的语法和范式关系、

4.2基于内容的推荐系统概述

推荐的过程有三个阶段,每一阶段都由独立的部件控制:

  • 内容分析器 对于无结构信息,需要进行预处理来抽取相关的结构化信息。内容分析器的主要功能就是将物品的内容(如文档、网页、新闻、产品描述等)表示成恰当的格式,以便于下一阶段的处理。通过特征抽取技术,可以将物品的的内容表示从原有信息空间转换到目标空间中(如将网页表示成关键词向量)。这种目标空间内的物品内容将作为信息学习器和过滤组件的输入
  • 信息学习器 这个模块收集用户的偏好数据,并试图去泛化这些数据,从而构建用户特征。泛化策略通常通过机器学习技术实现,它可以从用户过去喜欢的或不喜欢的物品中推断出一个用户的兴趣模型。
  • 过滤组件 这个模块通过匹配用户特征和待推荐的物品完成推荐。这个组件的结果是一个二元或者连续的相关性推断(使用某种相似度来计算),其中连续的情况下,能够生成一个潜在的感兴趣物品的排名清单。

基于内容的推荐算法大多数为基于TF-IDF权重的向量空间模型。向量空间模型是一个文本文档的空间表示方法。在该模型中,每个文档被表示成一个n维向量空间中的向量,每一维对应给定文档集合词汇表中的一个词。
形式上,每篇文档被表示成为词权重的向量,其中权重表示这篇文档和该词的关联度。D={,,...,}表示一个文档集合或语料库,T={,,...,}表示词典,即语料库中词的集合。词典T从使用自然语言处理手段对文档进行处理后得到。每篇文档表示n维向量空间中的一个向量,从而={,,...,},其中是文档中词的权重。
在向量空间模型中需要解决的有两个问题:为单词赋予权重和度量特征向量的相似度。常用的加权模式有基于文本实验观察结果的TF-IDF(词频-逆文档频率)。

其中,N表示语料库中文档的个数,表示含有词单词出现至少一次的文档集合的数量。

其中,最大值是出现在文档中的所有单词的词频上计算的。
为了使权重落在[0,1]的区间,且文档能够用等长向量表示,常利用余弦归一化方式来进行归一化。

最终需要利用相似度度量来确定两个文档的接近程度。

标签:基于,推荐,系统,用户,文档,物品,向量
来源: https://www.cnblogs.com/zhouyu0-0/p/11997316.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有