首页 > 其他分享> 文章详细

信息提取的一般方法

2022-05-10 11:03:36 阅读：137 来源： 互联网

标签：提取标记 demo 一般信息信息提取标签解析方法

方法一

完整解析信息的标记形式，再提取关键信息
需要标记解析器（bs4库的标签树遍历）
优点：信息解析准确
缺点：提取过程繁琐，速度慢

方法二

无视标记形式，直接搜索关键信息
对信息的文本查找函数即可
优点：提取过程简洁，速度较快
缺点：提取结果准确性与信息内容相关

融合方法

结合形式解析与搜索方法，提取关键信息
需要标记解析器及文本查找函数

实例

提取HTML中所有URL链接

思路：1.搜索到所有的标签
2.解析a标签格式，提取href后的链接内容

#获取demo源代码
import requests
r=requests.get("页面链接")
r.text
demo=r.text
from bs4 import BeautifulSoup
soup=BeautifulSoup(demo,"html.parser")
#获取页面所有url
for link in soup.find_all('a'):
    print(link.get('href'))

标签：提取,标记,demo,一般,信息,信息提取,标签,解析,方法
来源： https://www.cnblogs.com/flyall/p/16252563.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

信息提取的一般方法

方法一

方法二

融合方法

实例

提取HTML中所有URL链接