python – 使用Beautiful Soup刮：为什么get_text方法不会返回此元素的文本？

2019-08-30 21:55:56 阅读：188 来源： 互联网

标签：html python beautifulsoup web-scraping html-parsing

最近我一直在研究python中的一个项目,涉及为某些代理抓取一些网站.我遇到的问题是,当我试图刮掉一个众所周知的代理站点时,当我要求它找到代理表中IP的位置时,Beautiful Soup并不能达到我的预期.我将尝试为每个代理的IP代替,当我在相应的元素上使用Beautiful Soup的.get_text()方法时,我会得到这样的输出.

...

.UbZT{display:none}
.f5fa{display:inline}
.Glj2{display:none}
.cUce{display:inline}
.zjUZ{display:none}
.GzLS{display:inline}
98120169.117.186373161218218.83839393101138154165203242 

...

这是我要解析的元素(包含IP的td标记)：

<td><span><style>
.lLXJ{display:none}
.qRCB{display:inline}
.qC69{display:none}
.V0zO{display:inline}
</style><span style="display: inline">190</span><span class="V0zO">.</span><span 
style="display:none">2</span><div style="display:none">20</div><span 
style="display:none">51</span><span style="display:none">56</span><div 
style="display:none">56</div><span style="display:none">61</span><span 
class="lLXJ">61</span><div style="display:none">61</div><span 
class="qC69">110</span><div 
style="display:none">110</div><span style="display:none">135</span><div 
style="display:none">135</div><span class="V0zO">221</span><span 
style="display:none">234</span><div style="display:none">234</div><span class="147">.
</span><span style="display: inline">29</span><div style="display:none">44</div><span 
style="display:none">228</span><span></span><span class="qC69">248</span>.<span 
style="display:none">7</span><span></span><span style="display:none">44</span><span 
class="qC69">44</span><span class="qC69">80</span><span></span><span 
style="display:none">85</span><span class="lLXJ">85</span><div 
style="display:none">85</div><span class="qC69">100</span><div 
style="display:none">100</div><span></span><span class="qC69">130</span><div 
style="display:none">130</div><div style="display:none">168</div>212<span 
style="display:none">230</span><span class="qC69">230</span><div 
style="display:none">230</div></span></td>

该元素的实际文本只是代理的IP.

这是我的代码片段：

# Hide My Ass
pages = ['https://www.hidemyass.com/proxy-list']

for page in pages:
    hidemyass = Soup(requests.get(page).text)
    rows = hidemyass.find_all(lambda tag:tag.name=='tr' and tag.has_attr('class'))
    for row in rows:
        fields = row.find_all('td')
        # get ip, port, and protocol for proxy
        ip = fields[1].get_text()            # <-- Here's the above td element
        port = fields[2].get_text()
        protocol = fields[6].get_text().lower()
        # store proxy in database
        db.add_proxy({'ip':ip,'port':port,'protocol':protocol})
        num_found += 1

是否有正确的方法来解析此元素,以便输出不会像这样混乱？看起来直观的是,Beautiful Soup的.get_text()方法会准确返回网站上可见的文本,但我认为这不是真的.感谢您的帮助或建议.

解决方法:

BeautifulSoup无法区分HTML标记中的可见文本与其他文本.这个特定的网站非常好地混淆了标记,并使网页的抓取更加复杂.您可以尝试了解哪些文本是可见的,但这并不容易,因为插入了许多不相关的元素,可以通过样式或类直接使其不可见.一些IP部分处于跨度中,其中一些不是任何标记的一部分.

一种解决方法是使用Selenium,它只能从元素中获取可见文本.例如,此代码将打印特定表中的所有IP：

from selenium.webdriver.firefox import webdriver

browser = webdriver.WebDriver()
browser.get('https://www.hidemyass.com/proxy-list')

rows = browser.find_elements_by_xpath('//table[@id="listtable"]//tr')
for row in rows[1:]:
    cells = row.find_elements_by_tag_name('td')
    print cells[1].text

browser.close()

也可以看看：

> BeautifulSoup Grab Visible Webpage Text

希望有所帮助.

标签：html,python,beautifulsoup,web-scraping,html-parsing
来源： https://codeday.me/bug/20190830/1771034.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

python – 使用Beautiful Soup刮：为什么get_text方法不会返回此元素的文本？