标签:info xpath python text 爬虫 li 爬取 ul div
本篇仅在于交流学习
网站名称为:
https://manhua.dmzj.com/
1.首先将相应的库导入:
import requests from lxml import etree
2.确定漫画更新页面上限:
第一页
第二页
可以确定页面转换是通过修改数字改变网页的
3.使用for循环遍历页面:
for page in range(1,11): url = 'https://manhua.dmzj.com/update_%s.shtml' % (page * 1) print(url)
得到漫画更新全网页链接
4.截取网站信息进行分析:
heads = {} heads['User-Agent'] = '用自己的网页头部' html = requests.get(url=url, headers=heads).text list = etree.HTML(html)
5.截取信息:
分析网页内容:
l = list.xpath("//div[@class='boxdiv1']") for info in l: title = info.xpath('div/ul/li/a/@title')[0] # 作品名 doc = info.xpath('div/ul/li/text()')[1] # '作者:' name = info.xpath('div/ul/li/span/text()')[0] # 作者名·- type = info.xpath('div/ul/li/text()')[2] # 类型 link = info.xpath('div/ul/li/a/@href')[0] # 作品链接 link = 'https://manhua.dmzj.com/' + link newlink = info.xpath('div/ul/li/a/@href')[1] # 最新作品链接 newlink = 'https://manhua.dmzj.com/' + newlink buff = info.xpath('div/ul/li/text()')[5] # 作品状态 print(title + " " + doc + name + " " + type + " " + link + " " + buff + " " + newlink + " ")x
效果:
6.完整代码:
import requests from lxml import etree for page in range(1,11): url = 'https://manhua.dmzj.com/update_%s.shtml' % (page * 1) print(url) heads = {} heads['User-Agent'] = '用自己的头部' html = requests.get(url=url, headers=heads).text list = etree.HTML(html) l = list.xpath("//div[@class='boxdiv1']") for info in l: title = info.xpath('div/ul/li/a/@title')[0] # 作品名 doc = info.xpath('div/ul/li/text()')[1] # '作者:' name = info.xpath('div/ul/li/span/text()')[0] # 作者名·- type = info.xpath('div/ul/li/text()')[2] # 类型 link = info.xpath('div/ul/li/a/@href')[0] # 作品链接 link = 'https://manhua.dmzj.com/' + link newlink = info.xpath('div/ul/li/a/@href')[1] # 最新作品链接 newlink = 'https://manhua.dmzj.com/' + newlink buff = info.xpath('div/ul/li/text()')[5] # 作品状态 print(title + " " + doc + name + " " + type + " " + link + " " + buff + " " + newlink + " ")
标签:info,xpath,python,text,爬虫,li,爬取,ul,div 来源: https://www.cnblogs.com/pythonYJL/p/16379712.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。