标签:解析器 lxml python markup BeautifulSoup html install 解析
安装:
apt install python-bs4
pip install beautifulsoup4
下载源码:https://pypi.python.org/pypi/beautifulsoup4/ 之后使用python setup.py install安装
apt install python-lxml
easy_install lxml
pip install lxml
apt install python-html5lib
easy_install html5lib
pip install html5lib
解析器比较
解析器 | 使用方法 | 优势 | 劣势 |
---|---|---|---|
python标准库 | BeautifulSoup(markup,"html.parser") | python的内置标准库 执行速度适中 文档容错能力强 | python2.7.3或者3.2.2之前的版本文档容错能力差 |
lxml html解析器 | BeautifulSoup(markup,"lxml") | 速度快 文档容错能力强 | 需要安装C语言库 |
lxml html解析器 | BeautifulSoup(markup,["lxml","xml"]) BeautifulSoup(markup,"xml") | 速度快 唯一支持xml的解析器 | 需要安装C语言库 |
html5lib | BeautifulSoup(markup,"html5lib") | 最好的容错性 以浏览器的方式解析文档 生成html5格式文档 | 速度慢 不依赖外部扩展 |
来源:python爬虫开发与项目实战
标签:解析器,lxml,python,markup,BeautifulSoup,html,install,解析 来源: https://blog.csdn.net/linuxvfast/article/details/117623423
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。