ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

【python】使用爬虫爬取动漫之家漫画全部更新信息

2022-06-15 20:31:36  阅读:213  来源: 互联网

标签:info xpath python text 爬虫 li 爬取 ul div


本篇仅在于交流学习

网站名称为:

https://manhua.dmzj.com/

1.首先将相应的库导入:

import requests
from lxml import etree

2.确定漫画更新页面上限:

 

 第一页

 

第二页

 

可以确定页面转换是通过修改数字改变网页的

3.使用for循环遍历页面:

for page in range(1,11):
    url = 'https://manhua.dmzj.com/update_%s.shtml' % (page * 1)
    print(url)

得到漫画更新全网页链接

4.截取网站信息进行分析:

 

heads = {}
    heads['User-Agent'] = '用自己的网页头部'
    html = requests.get(url=url, headers=heads).text
    list = etree.HTML(html)

5.截取信息:

分析网页内容:

 

 

 

l = list.xpath("//div[@class='boxdiv1']")
    for info in l:
        title = info.xpath('div/ul/li/a/@title')[0]  # 作品名
 
        doc = info.xpath('div/ul/li/text()')[1]  # '作者:'
 
        name = info.xpath('div/ul/li/span/text()')[0]  # 作者名·-
 
        type = info.xpath('div/ul/li/text()')[2]  # 类型
 
        link = info.xpath('div/ul/li/a/@href')[0]  # 作品链接
        link = 'https://manhua.dmzj.com/' + link
 
        newlink = info.xpath('div/ul/li/a/@href')[1]  # 最新作品链接
        newlink = 'https://manhua.dmzj.com/' + newlink
 
        buff = info.xpath('div/ul/li/text()')[5]  # 作品状态
 
        print(title + "   " + doc + name + "   " + type + "   " + link + "   " + buff + "   " + newlink + "   ")x

 效果:

 

 6.完整代码:

import requests
from lxml import etree
 
for page in range(1,11):
    url = 'https://manhua.dmzj.com/update_%s.shtml' % (page * 1)
    print(url)
    heads = {}
    heads['User-Agent'] = '用自己的头部'
    html = requests.get(url=url, headers=heads).text
    list = etree.HTML(html)
    l = list.xpath("//div[@class='boxdiv1']")
    for info in l:
        title = info.xpath('div/ul/li/a/@title')[0]  # 作品名
 
        doc = info.xpath('div/ul/li/text()')[1]  # '作者:'
 
        name = info.xpath('div/ul/li/span/text()')[0]  # 作者名·-
 
        type = info.xpath('div/ul/li/text()')[2]  # 类型
 
        link = info.xpath('div/ul/li/a/@href')[0]  # 作品链接
        link = 'https://manhua.dmzj.com/' + link
 
        newlink = info.xpath('div/ul/li/a/@href')[1]  # 最新作品链接
        newlink = 'https://manhua.dmzj.com/' + newlink
 
        buff = info.xpath('div/ul/li/text()')[5]  # 作品状态
 
        print(title + "   " + doc + name + "   " + type + "   " + link + "   " + buff + "   " + newlink + "   ")

 

标签:info,xpath,python,text,爬虫,li,爬取,ul,div
来源: https://www.cnblogs.com/pythonYJL/p/16379712.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有