ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

你要偷偷的学Python,然后惊呆所有人(第十四天)

2020-11-24 17:03:03  阅读:210  来源: 互联网

标签:xpath Python li 第十四天 html result 惊呆 data 节点


 

标题无意冒犯,就是觉得这个广告挺好玩的

文章目录

  • 前言
  • 欢迎来到我们的圈子
  • Xpath
  • Xpath基本语法截取
  • 路径表达式
  • 路径表达式栗子
  • 选取节点后面的下标
  • 选取未知节点,通配符
  • 实例
  • 选取若干路径
  • 学习案例:抓取百度贴吧->王者荣耀吧的评论
  • Xpath常用函数及用例
  • 标签补全
  • 获取所有节点
  • 根据属性获取
  • 获取父节点
  • 获取文本信息
  • 属性多值匹配
  • 根据顺序选择
  • XPath 轴

前言

前期回顾:你要偷偷学Python(第十三天)

今天我们来看别人口中“永远滴神” – Xpath

我也不知道为什么被称作永远滴神,但是我知道肯定不是因为它难。


插播一条推送:(如果是小白的话,可以看一下下面这一段)

欢迎来到我们的圈子

 我建了一个Python学习答疑群,有兴趣的朋友可以了解一下:如果大家在学习中遇到困难,想找一个python学习交流环境,可以加入我们的python圈,裙号1160381299,可领取python学习资料,会节约很多时间,减少很多遇到的难题。


本系列文默认各位有一定的C或C++基础,因为我是学了点C++的皮毛之后入手的Python。

本系列文默认各位会百度,学习‘模块’这个模块的话,还是建议大家有自己的编辑器和编译器的,上一篇已经给大家做了推荐啦?

然后呢,本系列的目录嘛,说实话我个人比较倾向于那两本 Primer Plus,所以就跟着它们的目录结构吧。

本系列也会着重培养各位的自主动手能力,毕竟我不可能把所有知识点都给你讲到,所以自己解决需求的能力就尤为重要,所以我在文中埋得坑请不要把它们看成坑,那是我留给你们的锻炼机会,请各显神通,自行解决。

Xpath

我们刚开始接触Xpath是什么时候?对,selenium的时候,那时候我们抓不下标签,就转方向从Xpath入手。

那么这个Xpath到底是个什么东西竟然如此的神通广大?

XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。

也不多哔哔,就知道Xpath是网页内容的导航就好。

Xpath基本语法截取

以下内容部分出自百度百科,截取适用于爬虫的部分。
毕竟人家都整理好了,咱也难出其右。

路径表达式

选取节点 XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。 [1]
下面列出了最有用的路径表达式:

 

路径表达式栗子

 

选取节点后面的下标

 

选取未知节点,通配符

 

实例

 

选取若干路径

 

学习案例:抓取百度贴吧->王者荣耀吧的评论

找的时候是一篇伪代码,我做了微调,加了点注释。
也可以自己去调试一遍,自己动手的话印象会比较深刻。

# element tree: 文档树对象

import requests

from lxml import etree

# 爬取百度贴吧数据

class Tieba(object):

def __init__(self,key):

self.url = "https://tieba.baidu.com/"+key #动态url,理论上可以获取任一贴吧的网页

#print(self.url)

self.headers = {

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"

}

# 获取数据

def get_data(self, url):

response = requests.get(url, headers=self.headers)

return response.content #以二进制形式返回(大可以用text去试一下,返回文本形式)

# 数据提取

def parse_data(self, data):

# 解码,并删除源代码中的注释

data = data.decode().replace("<!--", "").replace("-->", "")

# 创建element对象

html = etree.HTML(data)

# 根据xpath语法提取每页标题对象的贴吧标题xpath对象

# 关于这个xpath是如何确定的,代码后面会放上一张图,自己悟一下

el_list = html.xpath("//li[@class=' j_thread_list clearfix']/div/div[2]/div[1]/div[1]/a")

print(el_list)

# 遍历每页的贴吧标题xpath对象

data_list = []

for el in el_list:

# 根据每个xpath对象获取每个标题的titile属性和link属性

temp = {}

temp["title"] = el.xpath("./text()")[0] #取第一个文本

temp["link"] = "http://tieba.baidu.com" + el.xpath("./@href")[0] #同

# 将每个标题属性字典添加到列表中

data_list.append(temp)

# 获取下一页url

try:

next_url = "https:" + html.xpath('//a[contains(text(),"下一页>")]/@href')[0] #contains()函数,后面讲

except:

next_url = None

# 返回每页的标题属性字典和下一页的url

return data_list, next_url

# 保存 伪代码

def save_data(self, data_list):

for data in data_list:

print(data)

# 运行

def run(self):

# 第一次的url是self.url

next_url = self.url

# 实现翻页 直到next_url == None 结束翻页

while True:

# 发送请求,获取响应

data = self.get_data(next_url)

# 从响应中提取数据(数据和翻页用的url)

data_list, next_url = self.parse_data(data)

self.save_data(data_list)

print(next_url)

# 判断是否结束

if next_url == None:

break

if __name__ == '__main__':

tieba = Tieba("f?kw=王者荣耀")

tieba.run() #函数入口

 

Xpath常用函数及用例

以下皆为伪代码,测试文件木有,留着当工具书使用

标签补全

from lxml import etree

text = '''

<div>

<ul>

<li class="item-0"><a href="www.baidu.com">baidu</a>

<li class="item-1"><a href="https://blog.csdn.net/qq_25343557">myblog</a>

<li class="item-2"><a href="https://www.csdn.net/">csdn</a>

<li class="item-3"><a href="https://hao.360.cn/?a1004">hao123</a>

'''

html = etree.HTML(text)

result = etree.tostring(html)

print(result.decode('UTF-8'))

获取所有节点

html = etree.parse('./test.html',etree.HTMLParser())

result = html.xpath('//*')#'//'表示获取当前节点子孙节点,'*'表示所有节点,'//*'表示获取当前节点下所有节点

for item in result:

print(item)

result = html.xpath('//li')#将*改为li,表示只获取名称为li的子孙节点

#返回一个列表

for item in result:

print(item)

result = html.xpath('//li/a')#//li选择所有的li节点,/a选择li节点下的直接子节点a

for item in result:

print(item)

我们也可以使用//ul//a首先选择所有的ul节点,再获取ul节点下的的所有a节点,最后结果也是一样的。但是使用//ul/a就不行了,首先选择所有的ul节点,再获取ul节点下的直接子节点a,然而ul节点下没有直接子节点a,当然获取不到。需要深刻理解//和/的不同之处。/用于获取直接子节点,//用于获取子孙节点。

根据属性获取

根据XPath常用规则可以通过@匹配指定的属性。我们通过class属性找最后一个li节点。

result = html.xpath('//li[@class="item-3"]')#最后一个li的class属性值为item-3,返回列表形式

print(result)

获取父节点

根据XPath常用规则可以通过…获取当前节点的父节点。现在我要获取最后一个a节点的父节点下的class属性。

result = html.xpath('//a[@href="https://hao.360.cn/?a1004"]/../@class')

#a[@href="https://hao.360.cn/?a1004"]:选择href属性为https://hao.360.cn/?a1004的a节点

#..:选取父节点

#@class:选取class属性,获取属性值

print(result)

获取文本信息

很多时候我们找到指定的节点都是要获取节点内的文本信息。我们使用text()方法获取节点中的文本。现在获取所有a标签的文本信息。

result = html.xpath('//ul//a/text()')

print(result)

属性多值匹配

在上面的例子中所有的属性值都只有一个,如果属性值有多个还能匹配的上吗?(上面代码里面翻页看不懂的注意了啊)

遇到属性值有多个的情况我们需要使用contains()函数了,contains()匹配一个属性值中包含的字符串 。包含的字符串,而不是某个值。

from lxml import etree

text = '''

<div>

<ul>

<li class="item-0"><a href="www.baidu.com">baidu</a>

<li class="spitem-1"><a href="https://blog.csdn.net/qq_25343557">myblog</a>

<li class="item-2"><a href="https://www.csdn.net/">csdn</a>

<li class="item-3"><a href="https://hao.360.cn/?a1004">hao123</a>

'''

html = etree.HTML(text)

result = html.xpath('//li[contains(@class,"item-0") and @name="one"]/a/text()')#使用and操作符将两个条件相连。

print(result)

也许你会说这个直接使用name的属性值就可以得到了,然而,这里只是作为演示。

根据顺序选择

在上面的操作中我多次找第2个li节点或找最后一个li节点,使用属性值进行匹配。其实何必呢!我们可以根据顺序进行选择。

result = html.xpath('//li[2]/a/text()')#选择第二个li节点,获取a节点的文本

result = html.xpath('//li[last()]/a/text()')#选择最后一个li节点,获取a节点的文本

result = html.xpath('//li[last()-1]/a/text()')#选择倒数第2个li节点,获取a节点的文本

result = html.xpath('//li[position()<=3]/a/text()')#选择前三个li节点,获取a节点的文本

函数太多了,感觉我这里的函数满足不了你的话可以移步:https://www.w3school.com.cn/xpath/index.asp

XPath 轴

我们可以通过XPath获取祖先节点,属性值,兄弟节点等等,这就是XPath的节点轴。轴可定义相对于当前节点的节点集。

result = html.xpath('//li[1]/ancestor::*')

#ancestor表示选取当前节点祖先节点,*表示所有节点。合:选择当前节点的所有祖先节点。

result = html.xpath('//li[1]/ancestor::div')

#ancestor表示选取当前节点祖先节点,div表示div节点。合:选择当前节点的div祖先节点。

result = html.xpath('//li[1]/ancestor-or-self::*')

#ancestor-or-self表示选取当前节点及祖先节点,*表示所有节点。合:选择当前节点的所有祖先节点及本及本身。

result = html.xpath('//li[1]/attribute::*')

#attribute表示选取当前节点的所有属性,*表示所有节点。合:选择当前节点的所有属性。

result = html.xpath('//li[1]/attribute::name')

#attribute表示选取当前节点的所有属性,name表示name属性。合:选择当前节点的name属性值。

result = html.xpath('//ul/child::*')

#child表示选取当前节点的所有直接子元素,*表示所有节点。合:选择ul节点的所有直接子节点。

result = html.xpath('//ul/child::li[@name="two"]')

#child表示选取当前节点的所有直接子元素,li[@name="two"]表示name属性值为two的li节点。合:选择ul节点的所有name属性值为two的li节点。

result = html.xpath('//ul/descendant::*')

#descendant表示选取当前节点的所有后代元素(子、孙等),*表示所有节点。合:选择ul节点的所有子节点。

result = html.xpath('//ul/descendant::a/text()')

#descendant表示选取当前节点的所有后代元素(子、孙等),a/test()表示a节点的文本内容。合:选择ul节点的所有a节点的文本内容。

result = html.xpath('//li[1]/following::*')

#following表示选取文档中当前节点的结束标签之后的所有节点。,*表示所有节点。合:选择第一个li节点后的所有节点。

result = html.xpath('//li[1]/following-sibling::*')

#following-sibling表示选取当前节点之后的所有同级节点。,*表示所有节点。合:选择第一个li节点后的所有同级节点。

result = html.xpath('//li[1]/parent::*')

#选取当前节点的父节点。父节点只有一个,祖先节点可能多个。

result = html.xpath('//li[3]/preceding::*')

#preceding表示选取文档中当前节点的开始标签之前的所有同级节点及同级节点下的节点。,*表示所有节点。合:选择第三个li节点前的所有同级节点及同级节点下的子节点。

result = html.xpath('//li[3]/preceding-sibling::*')

#preceding-sibling表示选取当前节点之前的所有同级节点。,*表示所有节点。合:选择第三个li节点前的所有同级节点。

result = html.xpath('//li[3]/self::*')

#选取当前节点。

弄完这个,接下来就试试看能不能用Xpath将腾讯校园招聘网的数据抓取下来整理起来咯。

 

最后多说一句,想学习Python可联系小编,这里有我自己整理的整套python学习资料和路线,想要这些资料的都可以进q裙1160381299领取。

本文章素材来源于网络,如有侵权请联系删除。

标签:xpath,Python,li,第十四天,html,result,惊呆,data,节点
来源: https://www.cnblogs.com/python-miao/p/14028703.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有