ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

基于Spark的电影推荐系统总述

2019-09-01 16:07:59  阅读:361  来源: 互联网

标签:总述 离线 推荐 系统 电影 模块 Spark 个性化


基于Spark的电影推荐系统总述

推荐系统介绍

推荐系统是利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。
随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。
为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。(百度百科)
而电影推荐系统同样也是推荐系统里的一大巨头。

电影推荐系统

随着近些年来人们生活的物质水平越来越好,于是电影成为了人们不可或缺的精神粮食,可是对于海量的电影里如何找到自己喜欢的合适的电影就成了一大问题,于是电影推荐系统应运而生,电影推荐系统本质上与电商的推荐系统没太大区别,都是基于大量数据然后进行数据挖掘之后得到有价值的数据。

项目基本介绍

首先一个完整的spark推荐系统需要有这么一个流程:
业务系统——>日志——>flume——>kafka——>Spark-Streaming——>入库
在这里,我不考虑业务系统,因为那是前端和后端的工作,只考虑大数据处理部分。
众所周知,推荐系统的核心都是数据挖掘也就是机器学习的算法,而这些算法都是需要大量的数据进行支撑,所以我们一个项目在进行大数据处理时,前提是有大量的数据,不然会有冷启动问题,所以我们就得对旧有的数据进行处理,这就引出了离线部分的处理,这个项目离线的模块有:
1.离线统计推荐模块(基于离线数据的一些简单统计进行推荐)
2.离线个性化推荐模块(使用LFM模型的ALS算法进行数据挖掘后推荐)
3.基于内容的推荐模块(使用TF-IDF模型,Item-CF)
以及实时推荐的模块:
实时个性化推荐模块(基于离线个性化推荐模块的数据,使用推荐优先度算法)

在有了海量数据处理的结果上,进行实时的推荐计算。

然后我的数据存在hbase和hive上,总的框架是
flume+kafka+hive+spark+hbase

话不多说,开始正文吧。
基于spark的电影推荐系统——模块(1)离线统计推荐

标签:总述,离线,推荐,系统,电影,模块,Spark,个性化
来源: https://blog.csdn.net/weixin_44138287/article/details/100183671

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有