如何使用Python提取在HTML页面javascript块中定义的JSON对象？

2019-09-26 22:56:58 阅读：396 来源： 互联网

标签：python beautifulsoup html-parsing headless-browser

我正在下载以下列方式定义数据的HTML页面：

... <script type= "text/javascript">    window.blog.data = {"activity":{"type":"read"}}; </script> ...

我想提取’window.blog.data’中定义的JSON对象.
有没有比手动解析更简单的方法？ (我正在寻找美丽的肥皂,但似乎无法找到一个方法,将返回确切的对象而不解析)

谢谢

编辑：
使用python无头浏览器(例如,Ghost.py)执行此操作是否可行且更正确？

解决方法:

BeautifulSoup是一个HTML解析器;你还需要一个javascript解析器.顺便说一句,一些javascript对象文字是无效的json(虽然在你的例子中,文字也是一个有效的json对象).

在简单的情况下,您可以：

>使用html解析器提取< script>的文本
>假设window.blog …是单行或没有’;’在对象内部并使用简单的字符串操作或正则表达式提取javascript对象文字
>假设该字符串是有效的json并使用json模块解析它

例：

#!/usr/bin/env python
html = """<!doctype html>
<title>extract javascript object as json</title>
<script>
// ..
window.blog.data = {"activity":{"type":"read"}};
// ..
</script>
<p>some other html here
"""
import json
import re
from bs4 import BeautifulSoup  # $pip install beautifulsoup4
soup = BeautifulSoup(html)
script = soup.find('script', text=re.compile('window\.blog\.data'))
json_text = re.search(r'^\s*window\.blog\.data\s*=\s*({.*?})\s*;\s*$',
                      script.string, flags=re.DOTALL | re.MULTILINE).group(1)
data = json.loads(json_text)
assert data['activity']['type'] == 'read'

如果假设不正确则代码失败.

为了放宽第二个假设,可以使用javascript解析器而不是正则表达式,例如slimit(suggested by @approximatenumber)：

from slimit import ast  # $pip install slimit
from slimit.parser import Parser as JavascriptParser
from slimit.visitors import nodevisitor

soup = BeautifulSoup(html, 'html.parser')
tree = JavascriptParser().parse(soup.script.string)
obj = next(node.right for node in nodevisitor.visit(tree)
           if (isinstance(node, ast.Assign) and
               node.left.to_ecma() == 'window.blog.data'))
# HACK: easy way to parse the javascript object literal
data = json.loads(obj.to_ecma())  # NOTE: json format may be slightly different
assert data['activity']['type'] == 'read'

不需要将对象文字(obj)视为json对象.为了获得必要的信息,可以像其他ast节点一样递归地访问obj.它将允许支持任意javascript代码(可以通过slimit解析).

标签：python,beautifulsoup,html-parsing,headless-browser
来源： https://codeday.me/bug/20190926/1822042.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

如何使用Python提取在HTML页面javascript块中定义的JSON对象？