ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

20190221 beautiful soup 入门

2019-02-21 20:00:10  阅读:221  来源: 互联网

标签:beautiful 标签 节点 soup tag 参数 20190221 find


beautiful soup 入门

Beautiful Soup 是 python 的一个库,最主要的功能是从网页抓取数据。

Beautiful Soup 自动将输入文档转换为 Unicode 编码,输出文档转换为 utf-8 编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup 就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

创建 Beautiful Soup 对象

首先必须要导入 bs4 库

from bs4 import BeautifulSoup  

 

创建 beautifulsoup 对象

soup = BeautifulSoup(html)  


print soup.prettify()
这个方法格式化输出html格式

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

  • Tag
  • NavigableString
  • BeautifulSoup
  • Comment

 

(1)Tag

 标签

标签加上里面包括的内容就是 Tag

 

soup加标签名轻松地获取这些标签的内容 例如:soup.标签名 就可以找到第一个标签名匹配的标签里的所有内容

 

Tag有两个重要属性   name和 attrs

 

soup 对象本身比较特殊,它的 name 即为 [document],对于其他内部标签,输出的值便为标签本身的名称。

 

soup.标签名.attrs 得到的是一个字典,[属性名:values,...]

当然可以通过索引的方式去查询 soup.标签名.[属性名]

可以对它进行修改

 

(2)NavigableString

soup.tag_name.string即可得到标签里的文字

它的类型是一个 NavigableString (可遍历的字符串)

 

(3)BeautifulSoup

BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象,是一个特殊的 Tag

 

(4)Comment

Comment 对象是一个特殊类型的 NavigableString 对象,其实输出的内容仍然不包括注释符号

 

.contents

tag 的 .contents 属性可以将tag的子节点以列表的方式输出,可索引

 

.descendants 属性可以对所有tag的子孙节点进行递归循环,和 children类似,我们也需要遍历获取其中的内容。

for x in soup.tag.descendants 

 

如果一个标签里面没有标签了,那么 .string 就会返回标签里面的内容。如果标签里面只有唯一的一个标签了,那么 .string 也会返回最里面的内容。

如果tag包含了多个子节点,tag就无法确定,string 方法应该调用哪个子节点的内容, .string 的输出结果是 None

 

.strings

获取多个内容,不过需要遍历获取

 

.stripped_strings 

输出的字符串中可能包含了很多空格或空行,使用 .stripped_strings 可以去除多余空白内容

 

 

搜索文档树

(1)find_all( name , attrs , recursive , text , **kwargs )

find_all() 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件

 

1)name 参数

name 参数可以查找所有名字为 name 的tag,字符串对象会被自动忽略掉

可以穿字符串,正则表达式,列表(与列表任意元素匹配的都会返回在列表里),True(返回所有),传方法(返回True表示找到,参数是Tag)

 

2)keyword 参数

通过参数去筛选标签,可以同时有多个参数

可以通过 find_all() 方法的 attrs 参数定义一个字典参数来搜索包含特殊属性的tag

 

3)text 参数

通过 text 参数可以搜搜文档中的字符串内容.与 name 参数的可选值一样, text 参数接受 字符串 , 正则表达式 , 列表, True

 

4)limit 参数

find_all() 方法返回全部的搜索结构,如果文档树很大那么搜索会很慢.如果我们不需要全部结果,可以使用 limit 参数限制返回结果的数量.效果与SQL中的limit关键字类似,当搜索到的结果数量达到 limit 的限制时,就停止搜索返回结果.

 

5)recursive 参数 (这个词的意思是递归)

调用tag的 find_all() 方法时,Beautiful Soup会检索当前tag的所有子孙节点,如果只想搜索tag的直接子节点,可以使用参数 recursive=False .

 

(2)find( name , attrs , recursive , text , **kwargs )

它与 find_all() 方法唯一的区别是 find_all() 方法的返回结果是值包含一个元素的列表,而 find() 方法直接返回结果

 

(3)find_parents()  find_parent()

find_all() 和 find() 只搜索当前节点的所有子节点,孙子节点等. find_parents() 和 find_parent() 用来搜索当前节点的父辈节点,搜索方法与普通tag的搜索方法相同,搜索文档搜索文档包含的内容

 

标签:beautiful,标签,节点,soup,tag,参数,20190221,find
来源: https://www.cnblogs.com/DSKer/p/10414916.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有