标签:请求 登录 python IP 验证码 session cookie 识别
验证码识别
反爬机制:验证码 识别验证码图片中的数据用于模拟登录相关之间真的操作
识别验证码的操作:
- 人工肉眼的识别
- 第三方自动识别
- 云打码
模拟登录:
- 爬取基于某些基于用户的用户信息.
需求:对人人网进行模拟登录
- 点击登录按钮之后会发起一个post请求
- post请求中会携带登陆之前录入的相关的登录信息(用户名,密码,验证码......)
- 验证码:每次请求都会变化
需求:
爬取当前用户的相关用户信息(个人主页中相关的用户信息)
http/https协议特征:无状态
没有请求到对应数据的原因:
发起的第二次基于个人
cookie:用来让服务器端记录客户端的相关状态
- 手动处理:通过抓包工具获取cookie值,将该值封装到headers中。(不建议)
- 自动处理:
- cookie值的来源是哪里?
- 模拟登录post请求后,由服务器端创建.
- session会话对象:
- 作用:
- 可以进行请求的发送。
- 如果请求过程中产生了cookie,则该cookie会被自动存储/携带在该session对象中。
- 创建一个session对象,session= requests.Session()
- 使用session对象进行模拟登录post请求的发送(cookie就会被存储在session中)
- session对象对个人主页对应的get请求进行发送(携带了cookie)
代理:
破解封IP这种反爬机制
什么是代理:
- 代理服务器
代理的作用:
- 可以突破自身IP访问的限制
- 可以隐藏自身IP被攻击、真实IP
代理相关的网站:
- 快代理
- 西祠代理
- www.goubanja.com
标签:请求,登录,python,IP,验证码,session,cookie,识别 来源: https://www.cnblogs.com/gerenboke/p/13389060.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。