标签:网页 python 标签 爬虫 ---- 豆瓣 源代码 我们
知道了用requests去请求网页,这是爬取的第一步,当然了既然能够请求成功,自然我们可以知道了要进入网页去抓我们想要的数据。
要知道我们是从网页源代码当中找寻数据,而并非像一般的复制粘贴一样从浏览器表面获得。网页的构成无非是HTML、CSS、JavaScript三种语言构成,HTML 负责为网页添加内容,CSS 负责美化网页,JavaScript 负责让网页动起来。当然我们爬虫不需要将三大语言全部弄会,只需要知道几个特殊的标识符即可,所以爬虫是一个全方位的领域。
这是豆瓣网站的部分源代码:
<!DOCTYPE html>
<html lang="zh-cmn-Hans" class="ua-mac ua-webkit book-new-nav">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>豆瓣图书 Top 250</title>
</head>
<body>
<div class="global-nav-items">
<a href="https://www.douban.com">豆瓣</a>
<a href="https://book.douban.com">读书</a>
<a href="https://movie.douban.com">电影</a>
<a href="https://music.douban.com">音乐</a>
<a href="https://www.douban.com/location">同城</a>
<a href="https://www.douban.com/group">小组</a>
<a href="https://read.douban.com">阅读</a>
</div>
</body>
</html>
可以看到很多夹在尖括号 <> 中间的字母,它们叫做 标签。
一般来说标签都是成对出现的,所以标签又分为 开始标签(比如 <title>)和 结束标签(比如 </title>)。开始标签、结束标签加上标签中间的内容就构成了 元素。
h1 | 一级标题 | <h1>......</h1> |
h2 | 二级标题 | <h2>......</h2> |
p | 段落区域 | <p>........</p> |
a | 超链接 | <a href="www...">链接</a> |
img | 图片区域 | <img str='...' /> |
div | 定义文档的块区域 | <div>.......</div> |
一般的网页基本上都是以这几个主要的标签为主导,可以通过按F12或者是右键查看源代码对照着看,大致就能弄懂整个网页的数据究竟隐藏在哪里,而爬虫就是要从源代码中爬到我们想要的数据。
黑科技
你知道吗网页上面的数据可以随意更改的!!!
通过F12打开开发者工具,点击左上角的小按键,再点击“2021书影音报告
我们就能看到开发者工具当中出现了对应的代码和字段。我们双击字段然后就可以随意改动,比我改成“导演”,然后点击任意地方我们就能发现浏览器上面的字段被我们改变了,即便关了开发
者工具依旧是导演。
不过网页刷新过后依旧恢复成原样子。
SO!!
不要轻易相信网页上的截图,修改的成本比PS还要低。
标签:网页,python,标签,爬虫,----,豆瓣,源代码,我们 来源: https://blog.csdn.net/weixin_47278699/article/details/122342486
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。