标签:php dom html-parsing web-crawler
像DOM这样的标准方法可以有选择地解析html页面,但我想知道爬虫(从小到大)如何检测要分析的主要文本在哪里?
主要文本将被分析用于捕获其关键字,与菜单,侧边栏,页脚等混合使用.爬虫如何知道从菜单和侧面部分跳过关键字?
我正在开发一个小型PHP项目来捕获各种HTML页面中的关键字,我不知道如何避免从侧面内容中捕获关键字.任何人都可以描述或至少给我一个提示如何区分HTML页面中的其他主要内容?
解决方法:
侧栏,菜单和页脚通常在整个站点的每个页面上重复.实际内容通常对每个页面都是唯一的.您可以将其用作区分实际内容的指南.
爬虫还使用复杂的算法来分析页面上的文本,以确定其作为内容的权重,并且他们倾向于不分享他们的秘密.
没有快捷简便的方法,爬虫开发人员必须提出他们自己的创新方法,并共同使用这些方法来获得页面内容的整体情况.
标签:php,dom,html-parsing,web-crawler 来源: https://codeday.me/bug/20190704/1375996.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。