html-parsing

PHP简单的html dom解析器div id与变量2019-06-24 18:16:37

我是PHP的新手,我有一点问题. 如何使用简单的html dom解析器搜索变量？我的id是“ti”,并且有几个相同的命名div.我只需要第一个.如果我把ti而不是$variable添加到代码中,代码就可以工作. 谢谢！ <?php $variable = "ti" include_once 'simple_html_dom.php'; $html = file_get_html
python – BeautifulSoup抓取嵌套表2019-06-23 20:45:57

我一直试图从使用大量表格的网站中删除数据.我一直在研究beautifulsoup文档以及stackoverflow,但我仍然迷失了. 这是表格： <form action="/rr/" class="form"> <table border="0" width="100%" cellpadding="2" cellspacing="0" a
php – HTML中链接标记的正则表达式2019-06-22 03:19:04

我需要正则表达式的帮助.我正在寻找的是一个正则表达式,寻找像这样的链接标签： <link rel="stylesheet" href="style.css" type="text/css"> 无论href =“”的位置如何,我都希望在link-tag中查找它,并在style.css前面添加一个名为$url的变量,其中包含/ following.如果它在style.cs
php – HTML Purifier：转换为2019-06-21 23:18:24

前提我想使用HTML Purifier转换< body>标签为< div>标签,以保持< body>上的内联样式元素,例如< body style =“background：color#000000;”>您好.< / body>将转向< div style =“background：color#000000;”>您好.< / div>.我正在研究custom tag和TagTransform类的组合. 当前设置在
Java – 打印HTML元素的任何细节2019-06-21 07:46:50

我对Java很新,至少在与网络交互方面.无论如何,我正在制作一个必须从网页中抓取HTML并解析它的应用程序. 通过解析我的意思是找出元素在’class =“”’属性中或在元素中可用的任何属性中有什么.还要找出元素内部的内容.这是我到目前为止搜索的地方：http://www.java2s.com/Code/Java/
php – 解析html错误问题的HTML代码2019-06-14 04:15:29

我想解析链接：http://dizli.com/dizli/db.html使用PHP. 但是当我写代码时, $url = "http://dizli.com/dizli/db.html"; $dom = new DOMDocument(); $html = $dom->loadHTMLFile($url); $dom->preserveWhiteSpace = false; $tables = $dom->getElementsByTagName('ta
java – 如何使用JSoup解析HTML文档以获取链接列表？2019-06-14 00:47:49

我试图解析http://www.craigslist.org/about/sites以构建一组文本/链接,以使用此信息动态加载程序.到目前为止,我已经这样做了： Document doc = Jsoup.connect("http://www.craigslist.org/about/sites").get(); Elements elms = doc.select("div.colmask"); // gets 7 countries
使用java代码获取完整的网页2019-06-13 15:23:17

我想实现一个java方法,它将URL作为输入并存储整个网页,包括css,images,js(所有相关资源)在我的磁盘上.我使用Jsoup html解析器来获取html页面.现在我想要实现的唯一选择是使用jsoup获取页面,现在解析html内容并将相对路径转换为绝对路径,然后再生成javascript,图像等的get请求并将
c# – AngleSharp解析2019-06-11 17:55:42

当您没有要使用的类名或ID时,找不到使用AngleSharp进行解析的许多示例. HTML <span><a href="google.com" title="Google"><span class="icon icon_none"></span></a></span> <span><a href="bing.com" title=&q
什么是Python中最宽容的HTML解析器？2019-06-10 06:43:03

我有一些随机HTML,我使用BeautifulSoup来解析它,但在大多数情况下(> 70％),它会窒息.我尝试使用Beautiful soup 3.0.8和3.2.0(3.1.0向上有一些问题),但结果几乎相同. 我可以从脑海中回忆起Python中可用的几个HTML解析器选项： > BeautifulSoup > lxml> pyquery 我打算测试所有这些,但我
java – Jsoup：select()在不应该返回时返回空2019-06-10 04:51:29

我试图在维基百科的Google入门页面上选择信息框：http://en.m.wikipedia.org/wiki/Google 所以,我打电话给： contentDiv = document.select("div[id=content]").first(); 哪个按预期工作,然后我做： Elements infoboxes = contentDiv.select("table[class=infobox]"); 然后我检查了i
如何使用php在html中的特定元素后插入新元素？2019-06-08 16:18:20

我真的很想弄清楚DOMDocument解析. 我正在尝试解决以下问题.给出以下HTML <h1>Title</h1> <p>Some Content</p> <p>Some More Content</p> <p>Other Content</p> <p>Last Bit of Content</p> 我想在第二段标记之后添加一个带有其他内容的div.基本上结果需要如下所示 &l
哪个HTML Parser(最好是PHP)支持在输入字符串中获取当前节点的偏移量？2019-05-29 19:18:20

我正在寻找一个HTML或XML解析器,让人们可以访问输入字符串或文件中当前元素的偏移/位置. 例如,如果遍历此字符串： <div> <p>Lorem ipsum dolor sit amet, consectetur adipisicing elit</p> <p>sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.</p> </
python – 使用beautifulsoup删除p标签内的脚本标签2019-05-28 18:42:37

我编写了一个代码,以便从段落中提取内容 from bs4 import BeautifulSoup from bs4 import BeautifulSoup, NavigableString import re soup = BeautifulSoup(open('MUFC.html')) a_tag = soup.find_all('p') #print(a_tag) for x in a_tag: print(x.get_text()) 但是p
如何通过css选择器匹配特定的标签,其中class属性包含空格？2019-05-28 09:43:12

我想选择一个具有class属性值的表标记： drug-table data-table table table-condensed table-bordered 所以我尝试了下面的代码： for i in soup.select('table[class="drug-table data-table table table-condensed table-bordered"]'): print(i) 但它没有奏效： ValueError:
php – HTML Purifier：根据属性有条件地删除元素2019-05-27 00:17:42

根据the HTML Purifier smoketest,偶尔会丢弃“格式错误”的URI以留下无属性的锚标记,例如, < a href =“javascript：document.location ='http：//www.google.com/'”> XSS< / a>成为< a> XSS< / a> …以及偶尔被剥离到协议,例如 < a href =“http：// 1113982867 /”> XSS< / a&
python – 在按复合类名搜索时,BeautifulSoup返回空列表2019-05-19 15:46:51

使用正则表达式按复合类名称搜索时,BeautifulSoup返回空列表. 例： import re from bs4 import BeautifulSoup bs = """ <a class="name-single name692" href="www.example.com"">Example Text</a> """ bsObj =
php – 在它下面找到h3和h4标签2019-05-18 21:22:27

这是我的HTML： <h3>test 1</h3> <p>blah</p> <h4>subheading 1</h4> <p>blah</p> <h4>subheading 2</h4> <h3>test 2</h3> <h4>subheading 3</h4> <p>blah</p> <h3>test
使用PHP Simple HTML DOM Parser查找表格单元格并获取下一个兄弟的内容2019-05-17 18:20:14

我正在尝试使用PHP Simple HTML DOM Parser来获取外部文件的HTML.该文件包含一个表,目标是找到具有特定数据内容的能力单元格,然后获取下一个兄弟单元格的数据.这些数据需要放在PHP变量中. 基于How to parse and process HTML/XML with PHP?,Grabbing the href attribute of an A e

首页 < 3 4 5

ICode9

PHP简单的html dom解析器div id与变量2019-06-24 18:16:37

python – BeautifulSoup抓取嵌套表2019-06-23 20:45:57

php – HTML中链接标记的正则表达式2019-06-22 03:19:04

php – HTML Purifier：转换为2019-06-21 23:18:24

Java – 打印HTML元素的任何细节2019-06-21 07:46:50

php – 解析html错误问题的HTML代码2019-06-14 04:15:29

java – 如何使用JSoup解析HTML文档以获取链接列表？2019-06-14 00:47:49

使用java代码获取完整的网页2019-06-13 15:23:17

c# – AngleSharp解析2019-06-11 17:55:42

什么是Python中最宽容的HTML解析器？2019-06-10 06:43:03

java – Jsoup：select()在不应该返回时返回空2019-06-10 04:51:29

如何使用php在html中的特定元素后插入新元素？2019-06-08 16:18:20

哪个HTML Parser(最好是PHP)支持在输入字符串中获取当前节点的偏移量？2019-05-29 19:18:20

python – 使用beautifulsoup删除p标签内的脚本标签2019-05-28 18:42:37

如何通过css选择器匹配特定的标签,其中class属性包含空格？2019-05-28 09:43:12

php – HTML Purifier：根据属性有条件地删除元素2019-05-27 00:17:42

python – 在按复合类名搜索时,BeautifulSoup返回空列表2019-05-19 15:46:51

php – 在它下面找到h3和h4标签2019-05-18 21:22:27

使用PHP Simple HTML DOM Parser查找表格单元格并获取下一个兄弟的内容2019-05-17 18:20:14