标签:layout 读取 Python parser file pdf PDF document
经常爬虫的小伙伴,或遇到一些PDF文件的处理,可能我们要下载这个文件,并要识别里面的文本内容,今天小汪就在这里给大家分享一下怎么识别pdf文件里面的文字;话不多说,直接上代码
from pdfminer.converter import PDFPageAggregator
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
def parser_pdf_file(pdf_file_path):
read_pdf = open(pdf_file_path, 'rb') # 打开PDF文件。
parser_pdf = PDFParser(read_pdf) # 用文件对象创建一个PDF文档分析器。
pdf_document = PDFDocument(parser_pdf) # 创建一个PDF文档。
parser_pdf.set_document(pdf_document)
pdf_document.set_parser(parser_pdf) # 连接分析器 与文档对象。
pdf_document.initialize() # 如果没有密码,就创建一个空的字符串。
if not pdf_document.is_extractable: # 检测文档是否提供txt转换,不提供就忽略。
raise PDFTextExtractionNotAllowed
else:
pdf_manager = PDFResourceManager() # 创建PDF资源管理器 来管理共享资源。
pdf_laparams = LAParams() # 创建一个PDF参数分析器。
pdf_device = PDFPageAggregator(pdf_manager, laparams=pdf_laparams) # 创建一个聚合器
pdf_interpreter = PDFPageInterpreter(pdf_manager, pdf_device) # 创建一个PDF页面解释器对象
# 循环遍历列表,每次处理一页的内容,pdf_document.get_pages()获取page列表
for each_page in pdf_document.get_pages():
pdf_interpreter.process_page(each_page) # 使用页面解释器来读取
layout = pdf_device.get_result() # 这里layout是一个LTPage对象 里面存放着这个page解析出的各种对象 一般包括LTTexBox,LTFigure,LTImage,
# LTTexBoxHorizontal等等 想要获取文本就获得对象的text属性。
# print(layout)
for each_info in layout:
if isinstance(each_info, LTTextBoxHorizontal):
results = each_info.get_text()
print(results)
if __name__ == '__main__':
# pdf_file_path = get_pdf_file()
parser_pdf_file(r'D:\6.pdf')
具体每个代表什么意思,有什么不懂的地方可以留言评论,我看到后会第一时间给大家回复的。
标签:layout,读取,Python,parser,file,pdf,PDF,document 来源: https://blog.csdn.net/caohailan666/article/details/114322372
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。