php-使用正则表达式从网站的HTML源中提取内容

2019-10-31 17:29:29 阅读：378 来源： 互联网

这个问题已经在这里有了答案： > How do you parse and process HTML/XML in PHP? 30个
我正在尝试修复以下代码.

编码：

$pageData = file_get_contents('111234-2.html');
if(preg_match_all('/<a\s+onclick=["\']([^"\']+)["\']/i', $pageData, $links, PREG_PATTERN_ORDER))
     print_r(array_unique($links[1]));
return false;

我希望从中获取一些示例HTML：

    <a onclick="doShowCHys=1;ShowWindowN(0,'http://www.example.com/home/Player.aspx?lpk4=116031&amp;playChapter=False',960,540,111234);return false;" href="javascript:void(0);">
<span class="vt">Welcome

        </span>
        <span class="dur">1m 10s</span>
        <span class="" id="bkmimgview-116031">&nbsp;</span>
        <br class="clear">
    </a>

我得到的输出：

Array ( [0] => doShowCHys=1;ShowWindowN(0, )

我希望的输出：

Array ( [0] => doShowCHys=1;ShowWindowN(0,'http://www.example.com/home/Player.aspx?lpk4=116031&amp;playChapter=False',960,540,111234);return false;)

我该如何实现？

解决方法:

您可以使用反向引用来改进此功能,但是如果嵌套引号的级别更高,您将注定要失败.

'/<a\s+onclick=(["\'])((?:(?!\1).)+)\1/i'

反向引用使您可以引用已捕获的组.因此,如果您在第一个捕获中捕获了一个“,”则想找到一个非“字符串”,同样,如果您在第一个捕获中捕获了一个“,”则想找到一个非“ ,并且两种方式都以相同的引号“或”结尾.

编辑：

@vladr提供了更好的选择：

'/<a\s+onclick=(["\'])(.*?)\1/i'

相同的想法,但非贪婪的量词使得不必测试每个字符的非引用性.更新的Rubular链接：http://rubular.com/r/VXR1nQ4zf5.

标签：html-parsing,php,regex
来源： https://codeday.me/bug/20191031/1977403.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

php-使用正则表达式从网站的HTML源中提取内容