ICode9

精准搜索请尝试: 精确搜索
  • 使用Python解析HTML2019-07-23 12:57:30

    我需要解析一个网页并从中提取一些值.所以我创建了一个python解析器,如下所示: from HTMLParser import HTMLParser class MyHTMLParser(HTMLParser): def handle_data(self, data): print "Data :", data f=open("result.html","r") s=f.read() parser = MyH

  • java – 在jsoup中的td标记内提取href值2019-07-23 10:12:29

    我有 <table class="table" > <tr> <td><a href="url">text1</a></td> <td>text2</td> </tr> <tr> <td><a href="url2">text</a></td>

  • 正则表达式PHP,匹配具有特定文本的所有链接2019-07-22 03:41:02

    我在PHP中寻找一个正则表达式,它将锚点与其上的特定文本相匹配.例如,我想获得带有文本mylink的锚: <a href="blabla" ... >mylink</a> 所以它应该匹配所有锚点,但只有它们包含特定文本所以它应匹配这些字符串: <a href="blabla" ... >mylink</a> <a href="blabla" ... >blabla my

  • python – 如何在BeautifulSoup中获取所有父标签的列表?2019-07-22 00:56:51

    假设我有这样的结构: <folder name="folder1"> <folder name="folder2"> <bookmark href="link.html"> </folder> </folder> 如果我指向书签,那么只提取所有文件夹行的命令是什么? 例如, bookmarks = soup.findAll('bo

  • 解析HTML:Python中的lxml错误2019-07-21 23:56:32

    我正在编写一个简单的脚本来从here获取大灰色表. 我的代码如下: import urllib2 from lxml import etree html = urllib2.urlopen("http://www.afi.com/100years/movies10.aspx").read() root = etree.XML(html) 但是我在最后一个声明中收到错误. Traceback (most recent call

  • python – Beautifulsoup获取span内容2019-07-18 00:58:38

    我已经解析了html页面:使用beautifulsoup user_page = urllib2.urlopen(user_url) souping_page = bs(user_page) badges = souping_page.body.find('div', attrs={'class': 'badges'}) 在此之后我的徽章对象看起来像这样: <span><span title="9 gold ba

  • python – HTML代码处理2019-07-15 22:56:33

    我想处理一些HTML代码并删除标签,如示例中所示: “< p>< b>这< / b>是一个非常有趣的段落.< / p>”结果“这是一个非常有趣的段落.” 我使用Python作为技术;你知道我可以用来删除HTML标签的任何框架吗? 谢谢!解决方法:这个问题可以帮到你:Strip HTML from strings in Python 无论你选择

  • php – 如何找到第一个h3标签的内容?2019-07-15 22:31:29

    我正在寻找一个正则表达式来找到第一个< h3>的内容.标签.我可以在那里使用什么?解决方法:你应该使用php的DOM解析器而不是正则表达式.你正在寻找这样的东西(未经测试的代码警告): $domd = new DOMDocument(); libxml_use_internal_errors(true); $domd->loadHTML($html_content); li

  • 在Android上使用TextView和Html.ImageGetter异步显示图像?2019-07-12 00:23:07

    我想用SpannableString设置一个TextView,它来自下面的方法: Html.fromHtml(String source, Html.ImageGetter imageGetter, Html.TagHandler tagHandler) 但是ImageGetter需要覆盖以下方法: public abstract Drawable getDrawable(String source) 因为我需要从互联网上获取可

  • python – 从某些文本中删除损坏的标签和格式不佳的html2019-07-10 07:58:02

    我有一个庞大的数据库,其中包含我正在插入网站的论坛帖子.然而,很多人试图在他们的论坛帖子中使用html,而且往往做错了.因此,总会出现迷路< strike> &LT b取代; &LT /击&GT &LT / DIV&GT &LT / B个帖子中的标签,当我添加15个论坛帖子时,最终会弄乱网页格式. 现在我刚刚将所有可能的

  • 下载包含java资源(如图像)的完整网页2019-07-10 06:03:54

    有没有办法下载(HTML)网页及其所有资源(例如:图像,CSS). 我知道如何使用html解析器,通过浏览所有相关标签,但是不是一个简单的方法吗?解决方法:这是简单的方法. 困难的方法是编写自己的网络库,HTML解析器等…

  • java – 使用iText的PDF格式的HTML表格2019-07-10 01:03:01

    我正在使用Java中的HTMLWorker解析一些HTML代码,然后使用iText将其插入PDF.我通过调用新文档创建文档(PageSize.A4,40,40,40,40);这应该在所有方面指定边距40px,但是当我插入包含比页面更宽的表格的解析的html代码时,右边距不起作用并且表格到达页面的右边界…除了正确的边缘之外所

  • c# – XMLWorker异常:未将对象引用设置为对象的实例2019-07-09 15:04:30

    我想将html导出为pdf var document = new Document(); PdfWriter pdfWriter = PdfWriter.GetInstance(document, new FileStream("/my.pdf", FileMode.Create)); pdfWriter.SetFullCompression(); pdfWriter.StrictImageSequ

  • android – 用于创建GTFS格式数据的HTML解析器2019-07-06 16:27:46

    有一个运输机构,他不提供GTFS格式的运输计划数据.我想制作一个可以在其中搜索的android应用程序,因此这种格式非常有用. 公交计划数据有一个网站,但似乎很难分开有用的东西. <td class="b stopPoint p0" background="nline.gif"><a href="line.cgi?id=1&dir=back&zero=15901&city=

  • php – 如何从网页获取内部链接?2019-07-04 10:17:28

    我使用XPath来解析HTML网页以获取所有内部链接. DOMXPath将返回href中提供的所有链接.如何将内部外部链接分开? 我介绍了一系列字符串检查来删除外部链接;但问题是有不同的方式来链接内部页面,如 page.html /page.html http://domain.com/page.html http://subdoma

  • php – 抓取工具如何解析网页上的文字?2019-07-04 10:17:02

    像DOM这样的标准方法可以有选择地解析html页面,但我想知道爬虫(从小到大)如何检测要分析的主要文本在哪里? 主要文本将被分析用于捕获其关键字,与菜单,侧边栏,页脚等混合使用.爬虫如何知道从菜单和侧面部分跳过关键字? 我正在开发一个小型PHP项目来捕获各种HTML页面中的关键字,我不知

  • c# – 确定主要文章图像 – HTML Agility Pack2019-07-03 19:52:58

    我想使用HTML Agility Pack来确定主文章正文,然后从中提取主文章图像. 我注意到大多数站点网站管理员都有他们的主要内容容器包含H1标签,但这不是每次的规则,所以我不能将我的假设作为基础. 下面的2个印刷品来自这两个地点. http://www.24matins.fr/the-walking-dead-saison-4-le-d

  • php – 如何解析LinkedIn页面2019-07-01 22:17:44

    可能有人帮助我如何通过卷曲解析这个链接? https://www.linkedin.com/in/williamhgates/ 这是我的代码: 只需运行它并查看结果: $url = "https://www.linkedin.com/in/williamhgates/"; $ch = curl_init($url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); curl_setopt($ch, CU

  • mysql – 解析网站HTML的最快/最简单的方法?2019-06-30 14:01:22

    我需要解析this网站的内容并将其存储在MySQL数据库中.我正在创建一个竞争者网站,因为创建者从未完全完成他的,但他有比我更新的游戏数据而且不会发布它,所以我需要手动收集它. Here是我需要解析的特定类型页面的示例. 我之前使用PHP和正则表达式进行了HTML解析,但这很麻烦,我宁愿不

  • 在python中使用lxml打印html实体2019-06-28 20:43:33

    我正在尝试使用html实体从下面的字符串中创建一个div元素.由于我的字符串包含html实体,& html实体中的保留字符被转义为& amp;在输出中.因此,html实体显示为纯文本.我怎样才能避免这种情况,以便正确呈现html实体? s = 'Actress Adamari L&#243;pez And Amgen Launch Spanish-Langua

  • 使用Python进行复杂的HTML解析2019-06-27 00:43:14

    我已经知道使用BeautifulSoup,htmllib等在Python中基于标记的HTML解析. 但是,我想要一个强大的引擎,可以执行复杂的任务,如读取html表,列表等,并在代码中使用这些简单易用的对象. python有这么强大的库吗?解决方法:BeautifulSoup是一个很好的库,提供了一种解析HTML的好方法,可以通过

  • PHP简单的HTML DOM解析器不处理无效的HTML – 在第一次试验中陷入困境2019-06-26 22:19:42

    我试图选择一个类或一个id使用 PHP简单的HTML DOM解析器绝对没有运气. 我的例子很简单,似乎符合手册中给出的例子(simplehtmldom.sourceforge AT net / manual.htm)但它不会工作,它把我推到了墙上.使用简单dom给出的其他示例脚本工作正常. 请参见示例:link text这是我发现的最简单的

  • python – BeautifulSoup:如何删除空表,同时保留部分为空或非空的表2019-06-26 08:42:43

    我有一个最初在MS Frontpage中创建的旧网站,我正试图解决这个问题.我编写了一个BeautifulSoup脚本来完成大部分工作.剩下的就是删除空表,例如没有文本内容的表或任何td标签中的数据. 我坚持的问题是,如果至少有一个td标签不包含任何数据,我到目前为止所尝试的内容将删除该表,即使其

  • c# – 在每个块内部进行持久更改2019-06-25 13:54:11

    我一直在尝试这个奇妙的CsQuery库,它基本上是jQuery的.NET端口,允许使用os CSS选择器和大多数jQuery的功能. 我用它来解析和编辑一批HTML文件(特别是编辑不同DOM元素的一些属性). 以下C#片段显示了我正在做的事情,注释中包含JavaScript / jQuery等效代码. FileStream doc = File.O

  • python – lxml – 忽略html中的标记2019-06-25 11:43:16

    我使用lxml在Python中编写了一个小的html-parser.这非常有用,但我有一个问题. 我有以下代码: tags = doc.xpath('//table//tr/td[@align="right"]/b') for tag in tags: print(x.text.strip()) 它工作正常.但如果有一个< br> < b>内的标记元素,像这样: <b> first-half <br>

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有