ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

【Python从零到壹】学习Python爬虫前,你需要先掌握这些内容

2021-04-07 14:55:25  阅读:166  来源: 互联网

标签:http 请求 Python 常见 爬虫 零到 cookie 服务器 post



文章目录

    • 常见的协议
    • 常见的请求方式
    • 常见的请求头参数:
    • 常见的相应状态码
    • HTTP的请求相应过程
    • 使用浏览器进行网站分析
    • session 与cookie


常见的协议

http和https
http协议:
超文本传输协议,是一个发布和接受HTML页面的方法,端口是80

https 协议:http协议的加密版本,在HTTP下加上了ssl层,端口是443

下面访问的是美团的官网:
可以看到端口是443

在这里插入图片描述

URL和RUI

常见的请求方式

http协议规定了浏览器与服务器进行数据交互过程中必须要选择一种交互方式
在http协议中定义了8中请求方式,常见的是get和post请求

get请求: 一般只从服务器获取数据下来,并不会对服务器资源产生任何的影响。

在这里插入图片描述
请求的时候关注:

  • url
  • 请求方式
  • 请求头

post请求: 向服务器发送数据(登陆),上传文件等,会对服务器资源产生影响的时候,会使用post请求。

不过有些网站做了反爬虫机制,你去查看信息,也是使用post请求,所以我们写爬虫的时候,一定要分析网站。

常见的请求头参数:

http协议中,向服务器发送一个请求,数据分为三部分:

  • 把数据放在url中
  • 数据放在body中,(post请求)
  • 数据放在head中

常见的请求头参数:

  • user-agent :浏览器名称
  • referer: 当前这个请求从哪个url过来的
  • cookie:http 协议是无状态的,也就是一个人发送了两次请求,服务器没有能力知道这两个请求是否来自同一个人。

在这里插入图片描述

常见的相应状态码

  • 200 请求正常,服务器正常返回数据
  • 301 永久重定向
  • 404 请求的url在服务器上找不到
  • 418 发送请求遇到服务器端的反爬虫,服务器拒绝相应数据
  • 500 服务器内部错误,可能是服务器出现了bug

HTTP的请求相应过程

在这里插入图片描述

使用浏览器进行网站分析

我们要分析的网站为: movie.douban.com
在这里插入图片描述

  • Elements: 用于分析网站的结构
    在页面上的呈现的内容,在Elements都会有相应的元素。

在这里插入图片描述

  • Console: 这里会打印招聘信息,警告等等。

在这里插入图片描述

  • Sources
  • Network : 在显示页面的时候,产生的所有请求
    headers 头部信息

session 与cookie

session代表的是服务器和浏览器的一次会话过程
session 是一种服务器端的机制,用来存储特定用户的会话所需要的信息,保存在内存,缓存,或者数据库中。

cookie
cooke是由服务器端生成后发送给客户端,cookie是保存在客户端的

cookie原理:
1) 创建cookie
2) 设置存储cookie
3) 发送cookie
4) 读取cookie

标签:http,请求,Python,常见,爬虫,零到,cookie,服务器,post
来源: https://blog.51cto.com/xinsz08/2690221

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有