ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

python bs4在没有硒的弹出窗口中获取元素

2019-11-09 01:55:30  阅读:7  来源: 互联网

标签:beautifulsoup python



我想在此页面的弹出窗口后面收集数据. https://www.commonsense.org/education/game/garrys-mod

我正在尝试在弹出的“主题&技能.
我知道我可以使用硒,但是如果它没有用,我宁愿不使用.

我尝试收集的数据在其中:

subjectSkills = gameSoup.find('div',class_='popper popper-popover subjects-skills')

但是,它返回None,因为它位于如下所示的弹出窗口后面:

<a href="#" id="subjects-skills" class="body-color" data-toggle="popover" data-content=".subjects-skills" data-arrow="false" target="_self">Subjects &amp; skills</a>

单击箭头按钮后,数据箭头的值更改为true,这可能是一种解决方案,但是我不确定如何/是否可以更改此值.

谢谢

解决方法:

如果您正在从我使用的主题中寻找弹出窗口

res = soup.findAll("div", {"class": "subjects-skills__item"})

返回的是:

<div class="subjects-skills__item">
<h5 class="subjects-skills__label">Subjects</h5>
<ul>
<li>Science</li>
</ul>
</div>,
 <div class="subjects-skills__item">
<h5 class="subjects-skills__label">Skills</h5>
<ul>
<li>Creativity</li>
<li>Critical Thinking</li>
</ul>
</div>

我通过单击弹出窗口来获得它.突出显示文本,然后右键单击并去检查以找到该类.

from bs4 import BeautifulSoup as bs4
import requests

def get_data():

    url = 'https://www.commonsense.org/education/game/garrys-mod'
    r = requests.get(url, headers={"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.103 Safari/537.36"})
    html_bytes = r.text
    soup = bs4(html_bytes, 'lxml')

    res = soup.findAll("div", {"class": "subjects-skills__item"})

    return res

test1 = get_data()

如果您只想要文字.

# For just the Text
for i in test1:
    print(i.text)

退货

Subjects
Science

Skills
Creativity
Critical Thinking


标签:beautifulsoup,python

专注分享技术,共同学习,共同进步。侵权联系[admin#icode9.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有