Python爬虫通过Seleium来获取验证码弹窗刷新即出现的网站数据

import source #个人资源
from selenium import webdriver #selenium引入
from time import sleep #时间停留
from lxml import etree #解析数据

bro=webdriver.Chrome(executable_path="./chromedriver.exe") #实例化浏览器对象

seleium跳到对应的url,此时该网站弹出需要验证的验证码，我们通过url是否跳转来判断是否需要进行数据采集，未跳转则证明验证码还未得到识别，此时我们可以输入对应的验证码，验证码验证通过时会发生跳转，进程检测到跳转以后知道该获取数据了，通过反复输入验证码，完成较多数量的页面数据采集。

seleium检测页面是否跳转，方法如下：

url=source.BASE_URL+"sec.html?categoryNum=001001&pageIndex={}".format(i)
bro.get(url=url) #打开对应页面
sleep(1)

currentUrl=bro.current_url #得到当前浏览器的url
while currentUrl==url: #比对url是否改变
    sleep(1) #每间隔1秒检测一次
    currentUrl=bro.current_url

3、seleium配合etree获取当前页面数据并解析

#获取数据
sleep(1)
newPage=bro.window_handles #window_handles获取到浏览器窗口的url的列表
bro.switch_to.window(newPage[0]) #找到对应的url对应的页面，这里即表示当前页面
pageData=bro.page_source #获取当前页面源码数据
tree=etree.HTML(pageData) #实例化etree对象
#解析etree对象即可
li_list=tree.xpath("//ul[@id='infocontent']/li") 
for li in li_list:
    title=li.xpath("./a")[0].text
    date=li.xpath("./span")[0].text
    print(title,date)

标签：tesseract,Python,Seleium,验证码,bro,url,seleium,识别,弹窗
来源： https://blog.csdn.net/qq_50909707/article/details/122152167

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

Python爬虫通过Seleium来获取验证码弹窗刷新即出现的网站数据

目录

ICode9

Python爬虫 通过Seleium来获取验证码弹窗刷新即出现的网站数据

目录

Python爬虫通过Seleium来获取验证码弹窗刷新即出现的网站数据