首页 > 编程语言> 文章详细

Python Beautiful Soup 4 模块

2019-06-08 21:47:49 阅读：221 来源： 互联网

标签：Beautiful Soup Python 标签 content soup tag attrs find

BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库

通过beautifulsoup4预防XSS攻击

借助beautifulsoup4将用户输入内容进行过滤
步骤：

实例化对象，对页面进行解析
查找目标标签
将非法标签进行清空
获取处理后字符串

直接操作标签

示例：

content = '''
<div id="i1">
    <img src="" id="img">
</div>
<div id="i2"></div>
<script>alert('Hi!')</script>
'''
soup = BeautifulSoup(content, 'html.parser')    # <class 'bs4.BeautifulSoup'>
script_tag = soup.find('script')   # <class 'bs4.element.Tag'>
script_tag.clear()
script_tag.hidden = True
content = soup.decode()  # 将对象转换为一个字符串
print(content)

输出结果：

<div id="i1">
    <img src="" id="img">
</div>
<div id="i2"></div>

操作属性

通过.attrs获取属性字典，在字典中进行操作
示例：

content = '''
<div id="i1">
    <img src="" id="img">
</div>
<div id="i2"></div>
<script>alert('Hi!')</script>
'''
soup = BeautifulSoup(content, 'html.parser')
img_tag = soup.find('img')
del img_tag.attrs['id']
content = soup.decode()
print(content)

输出结果：

<div id="i1">
    <img src="">
</div>
<div id="i2"></div>
<script>alert('Hi!')</script>

设置白名单

示例：

from bs4 import BeautifulSoup

content = '''
<div id="i1">
<img src="" id="img">
</div>
<div id="i2" class="c1"></div>
<script>alert('Hi!')</script>
'''
tag_p = {
    # 允许使用的标签和允许的属性
    'div': ['class', ],
    'img': ['src', ],
}
soup = BeautifulSoup(content, 'html.parser')    # <class 'bs4.BeautifulSoup'>
# 开始过滤
for tag in soup.find_all():
    if tag.name in tag_p:
        pass
    else:   # 不在白名单中的标签进行清除
        tag.hidden = True
        tag.clear()
        continue

    for k in list(tag.attrs.keys()):    # 注意要先将dict.keys转换成列表
        if k in tag_p[tag.name]:
            pass
        else:
            del tag.attrs[k]

content = soup.decode()
print(content)

输出结果：

<div>
<img src=""/>
</div>
<div class="c1"></div>

方法

findChildren = findAll = find_all
findChild = find = find_all[0]
tag.clear 将选定标签中内容清空（标签还在）
tag.hidden = True 将标签去掉（内容还在）
tag.attrs 获取一个字典，key: value

标签：Beautiful,Soup,Python,标签,content,soup,tag,attrs,find
来源： https://www.cnblogs.com/dbf-/p/10991848.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

Python Beautiful Soup 4 模块

通过beautifulsoup4预防XSS攻击

直接操作标签

操作属性

设置白名单

方法