ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

投递简历总是石沉大海?HR表现的机会都不给你?【Python爬虫实战:简历模板采集】

2021-09-20 16:04:45  阅读:255  来源: 互联网

标签:xpath 简历 resume HR html Python href url etree


简历模板下载

 

工具准备

数据来源: 站长素材
开发环境:win10、python3.7
开发工具:pycharm、Chrome

在这里插入图片描述

项目思路解析

找到进入详情页面的超链接地址,以及对应简历的名字
提取出参数信息
在这里插入图片描述
使用xpath语法的时候需要注意网页源代码跟浏览器页面渲染的页面会有出入,提取数据需要根据网页源代码来提取

    html_data = etree.HTML(page) 
    a_list = html_data.xpath("//div[@class='box col3 ws_block']/a")  
    for a in a_list:
        resume_href = 'https:' + a.xpath('./@href')[0]  
        resume_name = a.xpath('./img/@alt')[0]  

进入详情页面
找到对应的详情页面的地址
提取对应rar的下载地址
在这里插入图片描述

        resume_tree = etree.HTML(resume_page)  
        resume_link = resume_tree.xpath('//ul[@class="clearfix"]/a/@href')[0]

简易源码分享

import requests  
from lxml import etree 


headers = {
    'User-Agent':
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:86.0) Gecko/20100101 Firefox/86.0',
}

for i in range(2, 10):
    url = f'https://sc.chinaz.com/jianli/free_{str(i)}.html'  # 设置相应的路由i

    response = requests.get(url=url, headers=headers)
    html_data = etree.HTML(response.text)
    a_list = html_data.xpath("//div[@class='box col3 ws_block']/a")
    for a in a_list:
        new_url = 'https:' + a.xpath('./@href')[0]
        name = a.xpath('./img/@alt')[0]
        res = requests.get(url=new_url)  # 进入简历模板详情页面
        resume_tree = etree.HTML(res.text)
        resume_url = resume_tree.xpath('//ul[@class="clearfix"]/a/@href')[0]
        result = requests.get(url=resume_url, headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:86.0) Gecko/20100101 Firefox/86.0'}).content  # 获取二进制数据
        path = './moban/' + name + '.rar'  
        with open(path, 'wb') as fp:  
            fp.write(result)  # 保存文件

标签:xpath,简历,resume,HR,html,Python,href,url,etree
来源: https://www.cnblogs.com/ai19970205/p/15314414.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有