标签:网页 Python 爬虫 python http Requests 源代码
写爬虫, 首先需要了解爬虫是什么?网络爬虫,是自动从网络下载自己需要的网页,进行处理并保存的工具.Python从零开始写爬虫将从零开始写爬虫,最终该爬虫能够从笔趣阁(http://www.biquger.com/)爬取小说.
竟然爬虫是自动下载自己需要的网页, 那么Python如何获取网页呢?Python通过发送http请求到网页服务器,从而获得网页的源码.python使用http请求主要有4种方式:
urllib
- Requests
- Octopus
- HTTPie
其中Request是目前最受欢迎的的http请求库. 本教程也将使用该库来进行http请求. Reustests不是Python自带的库, 所以需要通过pip进行安装, python 3 以及pip的安装请自行百度安装:
pip install requests
安装成功后:
这个时候, 就可以在python中使用Requests了.
首先导入Requests库
import requests
导入之后, 就可以使用其来发送http请求了.这里以获取Python的Api文档https://docs.python.org/zh-cn/3/library/index.html为例
r = requests.get('https://docs.python.org/zh-cn/3/library/index.html')
之后就可以输入获取到的网页了.
print(r.text)
输出之后,会发现出现许多乱码.
做过网页开发的人应该都知道这是应为编码的问题,获取Requests使用的网络编码:
print(r.encoding)
发现Requests使用的是ISO-8859-1编码, 而通过查看网页源码发现,该网页使用的是UTF-8编码.这应该就是造成乱码的原因,设置Request的编码:
r.encoding='utf-8'
之后在输出网页, 发现乱码消失了.
Python从零开始写爬虫第一步, 使用http请求后的网页源码就已经完成了.
标签:网页,Python,爬虫,python,http,Requests,源代码 来源: https://www.cnblogs.com/blogcyh/p/12270835.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。