1.主题式网络爬虫名称
爬取猫眼电影top100的榜单信息
2.主题式网络爬虫爬取的内容与数据特征分析
①爬取内容:排名,电影名,主演,上映时间,影评分数,电影主页链接,封面图片链接
②数据特征分析:统计各地区电影数量(柱状图)各年份电影的评分分布情况(散点图)
3.主题式网络爬虫设计
get_one_page(url)函数:用requests库获取url页面原码
parse_one_page(html)函数:用BeauifulSoup库解析源码,并用find_all方法提取相关数据
write_to_csv(item)函数:将提取的数据保存成CSV文件,以便后续做数据分析
main(offset):主函数,定义网址,用offset参数遍历网页页码,并调用get_one_page(url)函数获取源码,parse_one_page(html)解析源码提取数据,write_to_csv(item)写入文件保存数据。
技术难点:
网页爬取需要加入headers
将数据写入CSV文件时,因为数据是一页一页提取的,所以文件打开模式需要设置为‘a’
1.主题页面的结构特征
每页10部电影,页面中包括评分主演上映时间
2.Htmls页面解析,每部电影的数据都存放在一个<dd>的标签中
1.数据爬取与采集
保存的csv文件结果图:
2.对数据进行清洗和处理
数据清洗
3.数据分析与可视化
(例如:数据柱形图、直方图、散点图、盒图、分布图、数据回归分析等)
数据可视化:
电影评分占比情况
各年影评分布
4.数据持久化
完整代码
4.结论
1.根据数据分析可得人们对于老电影经典电影更为热衷。
2.大部分经典电影来自美国和香港。
3.经典电影影评分高。
1此次爬取用到requests,BeautifulSoup,re几个库的基本使用,知道了有些网站需要添加请求头地址才能爬取。
更让我进一步感受到python的有趣及功能的强大。
标签:经典电影,电影,爬取,猫眼,数据,page,页面 来源: https://www.cnblogs.com/322ab/p/13737301.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。