html-parsing

如何使用Python提取在HTML页面javascript块中定义的JSON对象？2019-09-26 22:56:58

我正在下载以下列方式定义数据的HTML页面： ... <script type= "text/javascript"> window.blog.data = {"activity":{"type":"read"}}; </script> ... 我想提取’window.blog.data’中定义的JSON对象. 有没有比手动解析更简单的方法？ (我正在寻找美丽的肥皂,但似乎无法找到一个
你如何在PHP中解析和处理HTML / XML？2019-09-11 00:35:38

如何解析HTML / XML并从中提取信息？解决方法:原生XML扩展我更喜欢使用native XML extensions中的一个,因为它们与PHP捆绑在一起,通常比所有第三方库更快,并且在标记上给我所需的所有控制权. DOM The DOM extension allows you to operate on XML documents through the DOM API w
加载时间：用PHP的DOMDocument或正则表达式解析HTML是否更快？2019-09-03 03:29:57

我正在将我的Flickr帐户中的图像拖到我的网站上,并且我使用了大约九行代码来创建一个可以拉动图像的preg_match_all函数. 我已多次阅读过,通过DOM解析HTML会更好. 就个人而言,我发现通过DOM解析HTML更加复杂.我编写了一个类似的函数来使用PHP的DOMDocument来提取图像,它大约有22行
c – 正则表达式以获取HTML表格内容2019-09-03 02:06:10

我在这里偶然发现了一些挑战：如何在正则表达式的帮助下获取HTML表格的内容.让我们说这是我们的表： <table someprop=2 id="the_table" otherprop="val"> <tr> <td>First row, first cell</td> <td>Second cell</td> </tr> &
如何在PHP中提取标记的内容？2019-09-01 12:31:22

我是正则表达式的新手.我想问一下这个html标签的正确组合是什么： <tr class="calendar_row" data-eventid="39654"> <td class="alt1 eventDate smallfont" align="center"/></td> <td class="alt1 smallfont" a
使用php从html页面中提取图像URL2019-08-31 20:31:45

如何使用php从此链接中提取帖子图像？我读到我不能用正则表达式做到这一点. http://www.huffingtonpost.it/2013/07/03/stupri-piazza-tahrir-durante-proteste-anti-morsi_n_3538921.html?utm_hp_ref=italy 非常感谢.解决方法: $content=file_get_contents($url); if (preg_match("
python – 使用Beautifulsoup和Mechanize从元素中解析href属性值2019-08-31 09:55:22

任何人都可以帮助我用美丽的汤穿越一棵html树吗？我正在尝试通过html输出解析并在收集每个值之后插入到名为Tld的表中,使用python / django <div class="rc" data-hveid="53"> <h3 class="r"> <a href="https://billing.anapp.com/" onmousedown="return rwt(this,
python – 使用Beautiful Soup刮：为什么get_text方法不会返回此元素的文本？2019-08-30 21:55:56

最近我一直在研究python中的一个项目,涉及为某些代理抓取一些网站.我遇到的问题是,当我试图刮掉一个众所周知的代理站点时,当我要求它找到代理表中IP的位置时,Beautiful Soup并不能达到我的预期.我将尝试为每个代理的IP代替,当我在相应的元素上使用Beautiful Soup的.get_text()方法
python – 可以将美丽的汤输出发送到浏览器吗？2019-08-30 13:58:33

我最近刚刚介绍了python的新手,但我拥有大部分的php经验.使用HTML时(不出意外),php支持的一件事是echo语句将HTML输出到浏览器.这使您可以使用内置的浏览器开发工具,如firebug.有没有办法在使用美丽的汤等工具时将输出python / django从命令行重新路由到浏览器？理想情况下,每次运行
使用Python进行维基百科数据搜索2019-08-30 07:58:52

我试图从以下wikipedia page中检索3列(NFL团队,玩家名称,大学团队).我是python的新手并且一直在尝试使用beautifulsoup来完成这项工作.我只需要属于QB的列,但我甚至无法获得所有列的位置.这是我到目前为止所没有输出的东西,我不完全确定原因.我相信这是由于标签,但我不知道要改变什
java – JSoup – 格式化元素2019-08-28 23:10:43

假设我有这个HTML： <html> <head> </head> <body> <form method="post"> <select name="books"> <option value="111">111</option>
用于HTML的PHP SAX解析器？2019-08-27 11:30:56

我需要PHP的HTML SAX(不是DOM！)解析器才能处理甚至无效的HTML代码. 我需要它的原因是过滤用户输入的HTML(删除所有属性和标签除了允许的内容)并将HTML内容截断为指定的长度. 有任何想法吗？解决方法:SAX用于处理有效的XML并在无效标记上失败.处理无效的HTML标记需要保持比SAX解析器通
java – 解析字符串并收集具有不同id的HTML元素2019-08-27 02:04:08

我已将HTML内容传递给字符串“Html_content”.我需要解析字符串“Html_content”并使用ID来选择几个DIV标签,例如“fullHeader”是DIV的id,我需要选择“fullHeader”div标签内的内容并将其存储为字符串. 我尝试了JSOUP,但是我需要在Document中保存收集的div标签,但是我需要将它保存
在JavaScript中严格的HTML解析2019-08-26 14:34:36

在Google Chrome(Canary)上,似乎没有字符串可以使DOM解析器失败.我正在尝试解析一些HTML,但如果HTML不完全,100％,有效,我希望它显示错误.我试过了明显的事： var newElement = document.createElement('div'); newElement.innerHTML = someMarkup; // Might fail on IE, never on Chr
c – 从IHTMLDocument2 *获取页面上的可见文本2019-08-26 12:08:09

我试图获取Internet Explorer Web浏览器窗口的文本内容. 我遵循以下步骤： >获取指向IHTMLDocument2的指针 >从IHTMLDocument2我获取身体作为IHTMLElement 3.在身体上我调用get_innerText 编辑 >我获得了身体的所有孩子,并尝试对所有IHTMLElements进行递归调用>如果我得到任何不可见
javascript – 如何在livefyre上获得评论？2019-08-25 23:29:46

我想得到livefyre 我自己的数据库中的注释计数,以便我可以按注释计数对我的文章进行排序. 每次在我的网站上阅读页面时,我都想问Livefyre有多少条评论,然后用该计数更新数据库. 我试图获取页面的来源,但它似乎没有帮助. 有什么建议？解决方法:Atish的答案是正确的,因为页面上的JavaSc
python – 将标记字符串附加到BeautifulSoup中的标记2019-08-24 22:56:13

是否可以将标记设置为标记内容(类似于在JavaScript中设置innerHtml)？为了举例,假设我想添加10< a>元素到< div>,但用逗号分隔： soup = BeautifulSoup(<<some document here>>) a_tags = ["<a>1</a>", "<a>2</a>", ...] # list of strings div
使用python解析相对链接和绝对链接2019-08-24 22:00:53

它是一个下载图像,音频,视频等项目. 但在某些网站上,我发现没有完整的链接.只是相对路径.所以我不知道如何获得这些相关链接. 我的完整项目是： https://github.com/MuneebKalathil/MaD 这是我的示例链接,我想从此链接下载所有图像.有缩略图,但我不想要那些图像.如果单击缩略图,它
javascript – 如何从Beautiful Soup获取URL？2019-08-24 05:09:18

我是Python的新手,试图编写一个爬行程序;我想使用Beautiful Soup从BBC新闻中抓取一些数据. 但是当我使用Firebug检查元素时,我发现此页面中的HTML没有URL链接. <li class=""> <a class="navigation-wide-list__link navigation-arrow--open" data-panel-id="js-navigation-panel-W
Python：使用html解析器提取特定数据2019-08-23 05:59:03

我开始在Python中使用HTMLParser从网站中提取数据. 除了两个HTML标签中的文本外,我得到了我想要的一切.以下是HTML标记的示例： <a href="http://wold.livingsources.org/vocabulary/1" title="Swahili" class="Vocabulary">Swahili</a> 还有其他标签.他们有其他属性和值,因此我不
python – 使用HTMLParser从页面中提取绝对链接2019-07-30 01:55:27

我正在使用以下代码段使用HTMLParser提取页面上的所有链接.我得到了不少相对网址.如何将这些转换为域的绝对网址,例如www.exmaple.com import htmllib, formatter import urllib, htmllib, formatter class LinksExtractor(htmllib.HTMLParser): def __init__(self, formatte
解析HTML并获取所有h3之后的h2之前的下一个h2使用PHP2019-07-28 23:31:55

我期待在文章中找到第一个h2.一旦找到,找到所有h3,直到找到下一个h2.冲洗并重复,直到找到所有标题和副标题. 在您立即将此问题标记或关闭为重复解析问题之前,请注意问题标题,因为这与基本节点检索无关.我已经把那部分搞定了. 我使用DOMDocument来解析使用DOMDocument::loadHTML(),D
java – 防止Jsoup.parse删除结束标记2019-07-27 11:02:43

我正在使用Jsoup.parse解析一段html. 其他一切都很棒,但我应该稍后在pdf转换器中解析这个HTML. 由于某种原因,Jsoup.parse删除了结束标记,而pdf-parser抛出了关于缺少关闭img标记的异常. Can't load the XML resource (using TRaX transformer). org.xml.sax.SAXParseException;
python – 使用lxml和xpath解析Html2019-07-25 21:55:57

我正在尝试使用python的lxml,因为在阅读并做谷歌推荐是使用lxml而不是其他解析包.我有以下dom结构,我管理写正确的xpath我仔细检查xpath检查我的xpath以确认它的有效性. Xpath在Xpath Checker上运行正常但是当我在python中使用lxml时,我没有得到结果infract我得到的是对象而不是实
如何使用Jsoup从html元素中删除所有内联样式和其他属性？2019-07-25 11:01:06

如何使用Jsoup从html元素中删除所有内联样式和其他属性(class,onclick)？样本输入： <div style="padding-top:25px;" onclick="javascript:alert('hi');"> This is a sample div <span class='sampleclass'> This is a sample span </span>

首页 < 1 2 3 4 5 > 尾页

ICode9

如何使用Python提取在HTML页面javascript块中定义的JSON对象？2019-09-26 22:56:58

你如何在PHP中解析和处理HTML / XML？2019-09-11 00:35:38

加载时间：用PHP的DOMDocument或正则表达式解析HTML是否更快？2019-09-03 03:29:57

c – 正则表达式以获取HTML表格内容2019-09-03 02:06:10

如何在PHP中提取标记的内容？2019-09-01 12:31:22

使用php从html页面中提取图像URL2019-08-31 20:31:45

python – 使用Beautifulsoup和Mechanize从元素中解析href属性值2019-08-31 09:55:22

python – 使用Beautiful Soup刮：为什么get_text方法不会返回此元素的文本？2019-08-30 21:55:56

python – 可以将美丽的汤输出发送到浏览器吗？2019-08-30 13:58:33

使用Python进行维基百科数据搜索2019-08-30 07:58:52

java – JSoup – 格式化元素2019-08-28 23:10:43

用于HTML的PHP​​ SAX解析器？2019-08-27 11:30:56

java – 解析字符串并收集具有不同id的HTML元素2019-08-27 02:04:08

在JavaScript中严格的HTML解析2019-08-26 14:34:36

c – 从IHTMLDocument2 *获取页面上的可见文本2019-08-26 12:08:09

javascript – 如何在livefyre上获得评论？2019-08-25 23:29:46

python – 将标记字符串附加到BeautifulSoup中的标记2019-08-24 22:56:13

使用python解析相对链接和绝对链接2019-08-24 22:00:53

javascript – 如何从Beautiful Soup获取URL？2019-08-24 05:09:18

Python：使用html解析器提取特定数据2019-08-23 05:59:03

python – 使用HTMLParser从页面中提取绝对链接2019-07-30 01:55:27

解析HTML并获取所有h3之后的h2之前的下一个h2使用PHP2019-07-28 23:31:55

java – 防止Jsoup.parse删除结束标记2019-07-27 11:02:43

python – 使用lxml和xpath解析Html2019-07-25 21:55:57

如何使用Jsoup从html元素中删除所有内联样式和其他属性？2019-07-25 11:01:06

用于HTML的PHP SAX解析器？2019-08-27 11:30:56