html-parsing

使用Python解析HTML2019-07-23 12:57:30

我需要解析一个网页并从中提取一些值.所以我创建了一个python解析器,如下所示： from HTMLParser import HTMLParser class MyHTMLParser(HTMLParser): def handle_data(self, data): print "Data :", data f=open("result.html","r") s=f.read() parser = MyH
java – 在jsoup中的td标记内提取href值2019-07-23 10:12:29

我有 <table class="table" > <tr> <td><a href="url">text1</a></td> <td>text2</td> </tr> <tr> <td><a href="url2">text</a></td>
正则表达式PHP,匹配具有特定文本的所有链接2019-07-22 03:41:02

我在PHP中寻找一个正则表达式,它将锚点与其上的特定文本相匹配.例如,我想获得带有文本mylink的锚： <a href="blabla" ... >mylink</a> 所以它应该匹配所有锚点,但只有它们包含特定文本所以它应匹配这些字符串： <a href="blabla" ... >mylink</a> <a href="blabla" ... >blabla my
python – 如何在BeautifulSoup中获取所有父标签的列表？2019-07-22 00:56:51

假设我有这样的结构： <folder name="folder1"> <folder name="folder2"> <bookmark href="link.html"> </folder> </folder> 如果我指向书签,那么只提取所有文件夹行的命令是什么？例如, bookmarks = soup.findAll('bo
解析HTML：Python中的lxml错误2019-07-21 23:56:32

我正在编写一个简单的脚本来从here获取大灰色表. 我的代码如下： import urllib2 from lxml import etree html = urllib2.urlopen("http://www.afi.com/100years/movies10.aspx").read() root = etree.XML(html) 但是我在最后一个声明中收到错误. Traceback (most recent call
python – Beautifulsoup获取span内容2019-07-18 00:58:38

我已经解析了html页面：使用beautifulsoup user_page = urllib2.urlopen(user_url) souping_page = bs(user_page) badges = souping_page.body.find('div', attrs={'class': 'badges'}) 在此之后我的徽章对象看起来像这样： <span><span title="9 gold ba
python – HTML代码处理2019-07-15 22:56:33

我想处理一些HTML代码并删除标签,如示例中所示： “< p>< b>这< / b>是一个非常有趣的段落.< / p>”结果“这是一个非常有趣的段落.” 我使用Python作为技术;你知道我可以用来删除HTML标签的任何框架吗？谢谢！解决方法:这个问题可以帮到你：Strip HTML from strings in Python 无论你选择
php – 如何找到第一个h3标签的内容？2019-07-15 22:31:29

我正在寻找一个正则表达式来找到第一个< h3>的内容.标签.我可以在那里使用什么？解决方法:你应该使用php的DOM解析器而不是正则表达式.你正在寻找这样的东西(未经测试的代码警告)： $domd = new DOMDocument(); libxml_use_internal_errors(true); $domd->loadHTML($html_content); li
在Android上使用TextView和Html.ImageGetter异步显示图像？2019-07-12 00:23:07

我想用SpannableString设置一个TextView,它来自下面的方法： Html.fromHtml(String source, Html.ImageGetter imageGetter, Html.TagHandler tagHandler) 但是ImageGetter需要覆盖以下方法： public abstract Drawable getDrawable(String source) 因为我需要从互联网上获取可
python – 从某些文本中删除损坏的标签和格式不佳的html2019-07-10 07:58:02

我有一个庞大的数据库,其中包含我正在插入网站的论坛帖子.然而,很多人试图在他们的论坛帖子中使用html,而且往往做错了.因此,总会出现迷路< strike> &LT b取代; &LT /击&GT &LT / DIV&GT &LT / B个帖子中的标签,当我添加15个论坛帖子时,最终会弄乱网页格式. 现在我刚刚将所有可能的
下载包含java资源(如图像)的完整网页2019-07-10 06:03:54

有没有办法下载(HTML)网页及其所有资源(例如：图像,CSS). 我知道如何使用html解析器,通过浏览所有相关标签,但是不是一个简单的方法吗？解决方法:这是简单的方法. 困难的方法是编写自己的网络库,HTML解析器等…
java – 使用iText的PDF格式的HTML表格2019-07-10 01:03:01

我正在使用Java中的HTMLWorker解析一些HTML代码,然后使用iText将其插入PDF.我通过调用新文档创建文档(PageSize.A4,40,40,40,40);这应该在所有方面指定边距40px,但是当我插入包含比页面更宽的表格的解析的html代码时,右边距不起作用并且表格到达页面的右边界…除了正确的边缘之外所
c# – XMLWorker异常：未将对象引用设置为对象的实例2019-07-09 15:04:30

我想将html导出为pdf var document = new Document(); PdfWriter pdfWriter = PdfWriter.GetInstance(document, new FileStream("/my.pdf", FileMode.Create)); pdfWriter.SetFullCompression(); pdfWriter.StrictImageSequ
android – 用于创建GTFS格式数据的HTML解析器2019-07-06 16:27:46

有一个运输机构,他不提供GTFS格式的运输计划数据.我想制作一个可以在其中搜索的android应用程序,因此这种格式非常有用. 公交计划数据有一个网站,但似乎很难分开有用的东西. <td class="b stopPoint p0" background="nline.gif"><a href="line.cgi?id=1&dir=back&zero=15901&city=
php – 如何从网页获取内部链接？2019-07-04 10:17:28

我使用XPath来解析HTML网页以获取所有内部链接. DOMXPath将返回href中提供的所有链接.如何将内部外部链接分开？我介绍了一系列字符串检查来删除外部链接;但问题是有不同的方式来链接内部页面,如 page.html /page.html http://domain.com/page.html http://subdoma
php – 抓取工具如何解析网页上的文字？2019-07-04 10:17:02

像DOM这样的标准方法可以有选择地解析html页面,但我想知道爬虫(从小到大)如何检测要分析的主要文本在哪里？主要文本将被分析用于捕获其关键字,与菜单,侧边栏,页脚等混合使用.爬虫如何知道从菜单和侧面部分跳过关键字？我正在开发一个小型PHP项目来捕获各种HTML页面中的关键字,我不知
c# – 确定主要文章图像 – HTML Agility Pack2019-07-03 19:52:58

我想使用HTML Agility Pack来确定主文章正文,然后从中提取主文章图像. 我注意到大多数站点网站管理员都有他们的主要内容容器包含H1标签,但这不是每次的规则,所以我不能将我的假设作为基础. 下面的2个印刷品来自这两个地点. http://www.24matins.fr/the-walking-dead-saison-4-le-d
php – 如何解析LinkedIn页面2019-07-01 22:17:44

可能有人帮助我如何通过卷曲解析这个链接？ https://www.linkedin.com/in/williamhgates/ 这是我的代码：只需运行它并查看结果： $url = "https://www.linkedin.com/in/williamhgates/"; $ch = curl_init($url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); curl_setopt($ch, CU
mysql – 解析网站HTML的最快/最简单的方法？2019-06-30 14:01:22

我需要解析this网站的内容并将其存储在MySQL数据库中.我正在创建一个竞争者网站,因为创建者从未完全完成他的,但他有比我更新的游戏数据而且不会发布它,所以我需要手动收集它. Here是我需要解析的特定类型页面的示例. 我之前使用PHP和正则表达式进行了HTML解析,但这很麻烦,我宁愿不
在python中使用lxml打印html实体2019-06-28 20:43:33

我正在尝试使用html实体从下面的字符串中创建一个div元素.由于我的字符串包含html实体,& html实体中的保留字符被转义为& amp;在输出中.因此,html实体显示为纯文本.我怎样才能避免这种情况,以便正确呈现html实体？ s = 'Actress Adamari López And Amgen Launch Spanish-Langua
使用Python进行复杂的HTML解析2019-06-27 00:43:14

我已经知道使用BeautifulSoup,htmllib等在Python中基于标记的HTML解析. 但是,我想要一个强大的引擎,可以执行复杂的任务,如读取html表,列表等,并在代码中使用这些简单易用的对象. python有这么强大的库吗？解决方法:BeautifulSoup是一个很好的库,提供了一种解析HTML的好方法,可以通过
PHP简单的HTML DOM解析器不处理无效的HTML – 在第一次试验中陷入困境2019-06-26 22:19:42

我试图选择一个类或一个id使用 PHP简单的HTML DOM解析器绝对没有运气. 我的例子很简单,似乎符合手册中给出的例子(simplehtmldom.sourceforge AT net / manual.htm)但它不会工作,它把我推到了墙上.使用简单dom给出的其他示例脚本工作正常. 请参见示例：link text这是我发现的最简单的
python – BeautifulSoup：如何删除空表,同时保留部分为空或非空的表2019-06-26 08:42:43

我有一个最初在MS Frontpage中创建的旧网站,我正试图解决这个问题.我编写了一个BeautifulSoup脚本来完成大部分工作.剩下的就是删除空表,例如没有文本内容的表或任何td标签中的数据. 我坚持的问题是,如果至少有一个td标签不包含任何数据,我到目前为止所尝试的内容将删除该表,即使其
c# – 在每个块内部进行持久更改2019-06-25 13:54:11

我一直在尝试这个奇妙的CsQuery库,它基本上是jQuery的.NET端口,允许使用os CSS选择器和大多数jQuery的功能. 我用它来解析和编辑一批HTML文件(特别是编辑不同DOM元素的一些属性). 以下C#片段显示了我正在做的事情,注释中包含JavaScript / jQuery等效代码. FileStream doc = File.O
python – lxml – 忽略html中的标记2019-06-25 11:43:16

我使用lxml在Python中编写了一个小的html-parser.这非常有用,但我有一个问题. 我有以下代码： tags = doc.xpath('//table//tr/td[@align="right"]/b') for tag in tags: print(x.text.strip()) 它工作正常.但如果有一个< br> < b>内的标记元素,像这样： <b> first-half <br>

首页 < 2 3 4 5 > 尾页

ICode9

使用Python解析HTML2019-07-23 12:57:30

java – 在jsoup中的td标记内提取href值2019-07-23 10:12:29

正则表达式PHP,匹配具有特定文本的所有链接2019-07-22 03:41:02

python – 如何在BeautifulSoup中获取所有父标签的列表？2019-07-22 00:56:51

解析HTML：Python中的lxml错误2019-07-21 23:56:32

python – Beautifulsoup获取span内容2019-07-18 00:58:38

python – HTML代码处理2019-07-15 22:56:33

php – 如何找到第一个h3标签的内容？2019-07-15 22:31:29

在Android上使用TextView和Html.ImageGetter异步显示图像？2019-07-12 00:23:07

python – 从某些文本中删除损坏的标签和格式不佳的html2019-07-10 07:58:02

下载包含java资源(如图像)的完整网页2019-07-10 06:03:54

java – 使用iText的PDF格式的HTML表格2019-07-10 01:03:01

c# – XMLWorker异常：未将对象引用设置为对象的实例2019-07-09 15:04:30

android – 用于创建GTFS格式数据的HTML解析器2019-07-06 16:27:46

php – 如何从网页获取内部链接？2019-07-04 10:17:28

php – 抓取工具如何解析网页上的文字？2019-07-04 10:17:02

c# – 确定主要文章图像 – HTML Agility Pack2019-07-03 19:52:58

php – 如何解析LinkedIn页面2019-07-01 22:17:44

mysql – 解析网站HTML的最快/最简单的方法？2019-06-30 14:01:22

在python中使用lxml打印html实体2019-06-28 20:43:33

使用Python进行复杂的HTML解析2019-06-27 00:43:14

PHP简单的HTML DOM解析器不处理无效的HTML – 在第一次试验中陷入困境2019-06-26 22:19:42

python – BeautifulSoup：如何删除空表,同时保留部分为空或非空的表2019-06-26 08:42:43

c# – 在每个块内部进行持久更改2019-06-25 13:54:11

python – lxml – 忽略html中的标记2019-06-25 11:43:16