使用爬虫IP代理的一些认知及误区

2021-11-09 16:00:10 阅读：129 来源： 互联网

很多朋友陷入了一个这样的误区，他们认为，使用了代理IP就能愉快的爬取网站了，然而，当他们遇到了困难时，他们的第一反应就是：代理IP质量有问题，不可否认，这是很有可能的原因，但不仅限于此，还有一些其他原因也是需要考虑的，下面就此列举了一些常见的限制方式。
在这里插入图片描述

Basic Auth

一般会有用户授权的限制，会在headers的Autheration字段里要求加入；

Referer

通常是在访问链接时，必须要带上Referer字段，服务器会进行验证，例如抓取京东的评论；

User-Agent

会要求真是的设备，如果不加会用编程语言包里自有User-Agent，可以被辨别出来；

一般在用户登录或者某些操作后，服务端会在返回包中包含Cookie信息要求浏览器设置Cookie，没有Cookie会很容易被辨别出来是伪造请求；

也有本地通过JS，根据服务端返回的某个信息进行处理生成的加密信息，设置在Cookie里面；

Gzip

请求headers里面带了gzip，返回有时候会是gzip压缩，需要解压；

JavaScript加密操作

一般都是在请求的数据包内容里面会包含一些被javascript进行加密限制的信息，例如新浪微博会进行SHA1和RSA加密，之前是两次SHA1加密，然后发送的密码和用户名都会被加密；

其他字段

因为http的headers可以自定义地段，所以第三方可能会加入了一些自定义的字段名称或者字段值，这也是需要注意的。

真实的请求过程中，其实不止上面某一种限制，可能是几种限制组合在一次，比如如果是类似RSA加密的话，可能先请求服务器得到Cookie，然后再带着Cookie去请求服务器拿到公钥，然后再用js进行加密，再发送数据到服务器。所以弄清楚这其中的原理，并且耐心分析很重要。

标签：加密,请求,IP,认知,爬虫,headers,Cookie,服务器
来源： https://blog.csdn.net/tuziip88/article/details/121229987

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

使用爬虫IP代理的一些认知及误区