ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

Python简单爬虫

2021-08-04 13:34:43  阅读:178  来源: 互联网

标签:douban Python text resp 爬虫 url 简单 print requests


本博客主要用来记录一下学习过程中所使用的代码:
我们以豆瓣电影网为例子,来爬取上面的数据:
链接:豆瓣电影

import requests
url="https://movie.douban.com/"
resp=requests.get(url)
resp.encoding="utf-8"
#print(resp.text)
f=open("douban.html","w")
f.write(resp.text)
print("over")

以上是一个非常基本并且简单的爬取网页源代码的爬虫。
但是我们可以发现爬取下来在douban.html中是没有任何东西的,所以这个时候我们大概率是被监测到不是人工在进行网页的访问,而是自动化程序,这个时候就需要我们进行伪装一下,最基础的伪装就是User Agent的伪装,查看我们自己的UA需要使用浏览器自带的抓包工具,按下F12,然后在Network选项中重新刷新网页,在抓获的包中,我们就能够获得我们想要的UA信息

import requests
url="https://movie.douban.com/"
#反爬可以在这里加一个头
dic={# 这里dic代表的时请求头,是一个字典变量
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36 Edg/92.0.902.62"
}
#然后下面的请求改一下就可以了
resp=requests.get(url,headers=dic)
#resp=requests.get(url)
resp.encoding="utf-8"# windows系统必须加这个否则读取中文的时候可能会出现乱码的情况
#print(resp.text)
f=open("douban.html","w",encoding="utf-8")#windows系统一定要写encoding="utf-8"
f.write(resp.text)
print("over")

这个时候我们加入了这些以后,可以发现我们可以正常爬取东西了。

标签:douban,Python,text,resp,爬虫,url,简单,print,requests
来源: https://www.cnblogs.com/mudrobot/p/15098419.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有