html-parsing

php-使用正则表达式从网站的HTML源中提取内容2019-10-31 17:29:29

这个问题已经在这里有了答案： > How do you parse and process HTML/XML in PHP? 30个我正在尝试修复以下代码. 编码： $pageData = file_get_contents('11
Android：无法在WebView中加载具有javascript文件的简单html数据？2019-10-31 14:24:23

WebView web_view = (WebView) findViewById(R.id.webView1); web_view.getSettings().setJavaScriptEnabled(true); web_view.getSettings().setPluginsEnabled(true); web_view.getSettings().setAllowFileAccess(true); String data;
使用PHP解析html并遍历表行和列？2019-10-31 12:33:02

我正在尝试从loadHTML解析HTML,但是遇到了麻烦,我设法遍历了文档中的所有< tr&gt ;,但是我不知道如何遍历< td>每行. 这是我到目前为止所做的： $DOM->loadHTML($url); $rows= $DOM->getElementsByTagName('tr'); for ($i = 0; $i < $rows->length; $i++) { // loop through rows
使用python bs4从onclick属性获取值2019-10-30 12:56:41

我无法解析onclick属性以仅获取选定的值.这是onclick属性 onclick="try{appendPropertyPosition(this,'B10331465','9941951739','','Dealer','Murugan.N');jsb9onUnloadTracking();jsevt.stopBubble(event);}catch(e){};" 如何仅从此o
python-使用beautifulsoup从Wikipedia表中获取列2019-10-29 01:58:43

source_code = requests.get('http://en.wikipedia.org/wiki/Taylor_Swift_discography') soup = BeautifulSoup(source_code.text) tables = soup.find_all("table") 我正在尝试从Taylor Swift’s discography的“单身名单”表中获取歌曲名称的列表该表没有唯一的类或ID.我唯一
Python Beautiful Soup在div标签本身中提取数据2019-10-28 06:06:09

我正在尝试使用Pythons beautifulSoup从HTML文件中提取数据. HTML的以下行是我感兴趣的那一行. <div class="myself" title="Name@email.com [11:07:27 AM]"> <nobr>Name</nobr></div> 我想提取标题(带有电子邮件和时间戳).我可以通过…访问课程 find('div', attrs={&
c#-使用HTML Agility Pack从HTML字符串中的“样式”属性中删除特定样式2019-10-28 05:05:57

我有一串HTML,其中包含各种HTML,但其中包含 <span style="display:block;position:fixed;width:100%;height:2000px;background-color:rgba(0,0,0,0);z-index:9999!important;top:0;left:0;cursor:default;"></span> 这看起来很奇怪,但是我只想删除style属性中的特定项(对于所有H
Python BeautifulSoup从表中获取列-IndexError列表索引超出范围2019-10-13 18:55:23

Python新手在这里. Python 2.7和beautifulsoup 4. 我正在尝试使用BeautifulSoup解析网页以获得列.该网页在表格内部有表格；但是表4是我想要的表,它没有任何标题或th标签.我想将数据放入列中. from bs4 import BeautifulSoup import urllib2 url = 'http://finance.yahoo.com/q/op?
python-html标签中的正则表达式2019-10-13 09:07:07

我想从以下HTML片段中解析高清价格.我只有html代码的片段,因此不能为此使用HTML解析器. <div id="left-stack"> <span>View In iTunes</span></a> <span class="price">£19.99</span> <ul class="list"> <li>H
php-暂时从字符串中删除HTML以用于Google Translate API以降低成本2019-10-12 17:34:05

我必须使用我们要付费的Google API来翻译一些细节.详细信息包含HTML,Google对每个字符收费.我不想发送完整的内容,而只发送英文文本,而删除了HTML.我可以使用PHP函数删除HTML标记和实体,但是我必须在翻译后将英语内容重新放置在HTML标记中才能正确显示.它还将包括CSS. 例： <strong>
如何使用jsoup解析简单的html代码？安卓2019-10-12 10:25:18

这是我的html代码的一部分 <div class="entry themeform"> <h3>dr James – opiekun naukowy</h3> <p><a href="http://www.page.com/picture.jpg"><img class="
javascript-DomParser parseFromString删除节点2019-10-12 00:37:31

使用DomParser时,我遇到了一些奇怪的行为.似乎如果第一个元素是TEMPLATE,则将其忽略. 请参阅以下输出： printTags('<template></template><h1></h1>', 'text/html'); document.write('<hr>') printTags('<h1></h1><template>
python-用漂亮的汤添加父标签2019-10-11 23:58:47

我有许多HTML页面,这些页面的各个部分包含以下代码片段： <div class="footnote" id="footnote-1"> <h3>Reference:</h3> <table cellpadding="0" cellspacing="0" class="floater" style="margin-bottom:0;" widt
PHP获取网页内容2019-10-10 00:39:40

因此,我正在使用PHP Simple HTML DOM Parser来获取网页的内容.在我知道自己所做的事情是对的之后,我仍然得到一个错误,那就是找不到任何东西. 因此,这就是我用来查看是否确实有任何东西被捕获的原因： <?php include_once('simple_html_dom.php'); error_reporting(E_ALL); ini_set
python-美丽的汤：访问>没有ID的元素2019-10-09 22:00:33

我正在努力刮擦这个Wikipedia page岁生日的人这是现有的代码： hdr = {'User-Agent': 'Mozilla/5.0'} site = "http://en.wikipedia.org/wiki/"+"january"+"_"+"1" req = urllib2.Request(site,headers=hdr) page = urllib2.urlo
python-从difflib获取更细粒度的diff(或对diff进行后处理以实现相同效果的方法)2019-10-09 09:57:50

下载this页并对其进行较小的编辑,将本段中的前65更改为68：然后,我使用BeauifulSoup解析这两个源,并使用difflib对其进行比较. url = 'https://secure.ssa.gov/apps10/reference.nsf/links/02092016062645AM' response = urllib2.urlopen(url) content = response.read() # get r
java – 使用JSoup从Google搜索结果的所有页面检索所有链接2019-10-08 20:05:52

我有以下代码用于使用JSoup在java中解析HTML. Document linksDoc = null; linksDoc = Jsoup.connect("http://www.google.com/search?q=jbutton").userAgent("Mozilla").get(); Elements titles = linksDoc.select("h3.r > a"); for(Element e: titles)
如何从lxml获取原始XML？2019-10-08 02:55:00

我正在使用以下代码来定位div： parser = etree.HTMLParser() tree = etree.parse(StringIO(page), parser) div = tree.xpath("//div[@class='content']")[0] 我唯一的问题是,在执行此操作后,我不想依赖lxml来提取所述div的内容：我只想获取div包含的原始XML.这是可行的还是我必须
从php中使用preg_match_all的html表中获取数据2019-10-06 05:32:05

我有一个像这样的html表： <table ... > <tbody ... > <tr ... > <td ...> string... </td> <td ...> string... </td>
java – 使用JSoup进行Html解析2019-10-05 16:03:40

我试图解析以下URL的html： http://ocw.mit.edu/courses/aeronautics-and-astronautics/16-050-thermal-energy-fall-2002/ 获得“< p>”的文本包含教师姓名的标签.所需信息位于“< p>”内标签,但我无法使用JSoup检索标签.我不知道我做错了什么,因为当我将标签保存在Element对象中时,
javascript – 如何在不使用XmlService的情况下解析Google Apps脚本中的HTML字符串？2019-10-04 16:37:07

我想使用Google Spreadsheets和Google Apps脚本创建一个刮刀.我知道这是可能的,我已经看过一些关于它的教程和线程. 主要想法是使用： var html = UrlFetchApp.fetch('http://en.wikipedia.org/wiki/Document_Object_Model').getContentText(); var doc = XmlService.parse(html
php – 在preg_replace中忽略img标签2019-10-03 00:30:54

我想替换HTML字符串中的单词,但是如果单词属于’img’元素的属性,我想排除替换. 例： $word = 'google'; $html = 'I like google and here is its logo <img src="images/google.png" alt="Image of google logo" />'; $replacement = '<a href="
java – Jsoup：从锚标记中提取innertext2019-10-02 17:01:35

这是我的问题.我有一个HTML内容：的innerText 我需要提取“innerText”.在Jsoup中尝试这个时,我发现当由Jsoup解析时,innertext会在anchor标记之外. 这是我的代码 Document doc=Jsoup.parse("<div> <a href="#">
php – 如何使用简单的html dom打印表格的单元格2019-09-29 04:30:07

我有这个HTML代码.我使用Simple HTML Dom将数据解析为我自己的php脚本. <table> <tr> <td class="header">Name</td> <td class="header">City</td> </tr> <tr> <td class="tex
php – CodeIgniter：一个帮助从网页获取元标记的类/库？2019-09-27 16:30:03

我正在使用codeigniter.我想我使用哪个php框架并不重要. 但是在我编写自己的类之前,还有另一个已经编写过的内容,它允许用户获取任何坐标的页面标题和元标记(关键字,描述)……如果有的话. 任何类型的PHP类都可以做到这一点. 谢谢大家解决方法:你应该看看这个类：PHP Simple HTML DOM

首页 < 1 2 3 4 5 > 尾页

ICode9

php-使用正则表达式从网站的HTML源中提取内容2019-10-31 17:29:29

Android：无法在WebView中加载具有javascript文件的简单html数据？2019-10-31 14:24:23

使用PHP解析html并遍历表行和列？2019-10-31 12:33:02

使用python bs4从onclick属性获取值2019-10-30 12:56:41

python-使用beautifulsoup从Wikipedia表中获取列2019-10-29 01:58:43

Python Beautiful Soup在div标签本身中提取数据2019-10-28 06:06:09

c#-使用HTML Agility Pack从HTML字符串中的“样式”属性中删除特定样式2019-10-28 05:05:57

Python BeautifulSoup从表中获取列-IndexError列表索引超出范围2019-10-13 18:55:23

python-html标签中的正则表达式2019-10-13 09:07:07

php-暂时从字符串中删除HTML以用于Google Translate API以降低成本2019-10-12 17:34:05

如何使用jsoup解析简单的html代码？安卓2019-10-12 10:25:18

javascript-DomParser parseFromString删除节点2019-10-12 00:37:31

python-用漂亮的汤添加父标签2019-10-11 23:58:47

PHP获取网页内容2019-10-10 00:39:40

python-美丽的汤：访问>没有ID的元素2019-10-09 22:00:33

python-从difflib获取更细粒度的diff(或对diff进行后处理以实现相同效果的方法)2019-10-09 09:57:50

java – 使用JSoup从Google搜索结果的所有页面检索所有链接2019-10-08 20:05:52

如何从lxml获取原始XML？2019-10-08 02:55:00

从php中使用preg_match_all的html表中获取数据2019-10-06 05:32:05

java – 使用JSoup进行Html解析2019-10-05 16:03:40

javascript – 如何在不使用XmlService的情况下解析Google Apps脚本中的HTML字符串？2019-10-04 16:37:07

php – 在preg_replace中忽略img标签2019-10-03 00:30:54

java – Jsoup：从锚标记中提取innertext2019-10-02 17:01:35

php – 如何使用简单的html dom打印表格的单元格2019-09-29 04:30:07

php – CodeIgniter：一个帮助从网页获取元标记的类/库？2019-09-27 16:30:03