python – 解析lxml中的html主体片段

2019-08-25 18:56:37 阅读：351 来源： 互联网

我正在尝试解析html的片段：

<body><h1>title</h1><img src=""></body>

我使用lxml.html.fromstring.它让我疯狂,因为它不断剥离< body>我的片段的标签：

 > lxml.html.fromstring('<html><h1>a</h1></html>').tag
 'html'
 > lxml.html.fromstring('<div><h1>a</h1></div>').tag
 'div'
 > lxml.html.fromstring('<body><h1>a</h1></body>').tag
 'h1'

我也试过了document_fromstring,fragment_fromstring,clean_html和page_structure = False等……没什么用.

我需要使用lxml,因为我将html片段传递给PyQuery.

我只是希望lxml不要弄乱我的html片段.有可能吗？

解决方法:

.fragment_fromstring()删除< html>标签也是;基本上,每当你没有HTML文档(带有< html>顶级元素和/或doctype)时,.fromstring()会回退到.fragment_fromstring(),并且该方法会同时删除< html>和< body>标签,永远.

解决方法是告诉.fragment_fromstring()给你一个< body>父标签：

>>> lxml.html.fragment_fromstring('<body><h1>a</h1></body>', create_parent='body')
<Element body at 0x10d06fbf0>

这不保留原始< body>上的任何属性.标签.

另一种解决方法是使用.document_fromstring()方法,该方法将文档包装在< html>中.标签,然后您可以再次删除：

>>> lxml.html.document_fromstring('<body><h1>a</h1></body>')[0]
<Element body at 0x10d06fcb0>

这确实保留了< body>的属性：

>>> lxml.html.document_fromstring('<body class="foo"><h1>a</h1></body>')[0].attrib
{'class': 'foo'}

在第一个示例中使用.document_fromstring()函数可以得到：

>>> body = lxml.html.document_fromstring('<body><h1>title</h1><img src=""></body>')[0]
>>> lxml.html.tostring(body)
'<body><h1>title</h1><img src=""></body>'

如果您只想在没有HTML标记的情况下执行此操作,请执行lxml.html.fromstring()所做的操作并测试完整文档：

htmltest = lxml.html._looks_like_full_html_bytes if isinstance(inputtext, str) else lxml.html._looks_like_full_html_unicode
if htmltest(inputtext):
    tree = lxml.html.fromstring(inputtext)
else:
    tree = lxml.html.document_fromstring(inputtext)[0]

标签：python,lxml,lxml-html,pyquery
来源： https://codeday.me/bug/20190825/1721999.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

python – 解析lxml中的html主体片段