标签:Web 提取 ngchina Python url urls 解析 def 页面
本文章介绍python实例解析——Web页面元素提取
提取网页:http://ngchina.com.cn/
# encoding=utf-8
# 步骤一:读取保存在本地的html文件
# 步骤二:解析并提取其中的图片链接
# 步骤三:输出并提取结果到屏幕
# 步骤四:保存提取结果为文件
# 1读取文件内容,结果转换为分行列表
def getHTMLLines(htmlpath):
f=open(htmlpath,"r",encoding='utf-8')
ls=f.readlines()
f.close()
return ls
# 2解析文件提取URL
def extractImagesUrls(htmllist):
urls=[]
for line in htmllist:
if 'img' in line:
url=line.split('src=')[-1].split('"')[1]
if 'http' in url:
urls.append(url)
return urls
# 3获取的链接输出到屏幕上
def showResults(urls):
count=0
for url in urls:
print('第{:2}个URL:{}'.format(count,url))
count+=1
# 4保存到结果到文件
def saveResults(filepath,urls):
f=open(filepath,"w")
for url in urls:
f.write(url+"\n")
f.close()
# 主函数
def main():
inputfile='ngchina.html'
outputfile='ngchina.txt'
htmlLines=getHTMLLines(inputfile)
imagesUrls=extractImagesUrls(htmlLines)
showResults(imagesUrls)
saveResults(outputfile,imagesUrls)
# 执行
main()
该实例完成了简单的HTML解析和提取功能
对于更加复杂的建议使用HTML解析库
比如beautifulsoup4第三方库
标签:Web,提取,ngchina,Python,url,urls,解析,def,页面 来源: https://blog.csdn.net/weixin_42148729/article/details/114984294
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。