微调LayoutLM v3进行票据数据的处理和内容识别

2022-07-24 11:33:26 阅读：131 来源： 互联网

文档理解是文档处理和提取中最重要的步骤。这是从非结构化或半结构化文档中提取信息并将其转换为结构化形式的过程。提取后的结构化表示可以支持各种下游任务，例如信息检索，汇总，分类等。有许多不同的方法可以理解文档，但它们都有一个共同的目标:创建文档内容的结构化表示，以便用于进一步的处理。

对于半结构化文档，例如发票，收款或合同，Microsoft的Layoutlm模型可以良好的进行工作。

在本文中，我们将在微软的最新Layoutlm V3上进行微调，并将其性能与Layoutlm V2模型进行比较。

LayoutLM v3

LayoutLM v3相对于其前两个版本的主要优势是多模态transformer 架构，它以统一的方式将文本和图像嵌入结合起来。文档图像不依赖CNN进行处理，而是将图像补丁块表示为线性投影，然后线性嵌入与文本标记对齐，如下图所示。这种方法的主要优点是减少了所需的参数和整体计算量。

论文的作者表示，“LayoutLMv3不仅在以文本为中心的任务(包括表单理解、票据理解和文档视觉问题回答)中实现了最先进的性能，而且还在以图像为中心的任务(如文档图像分类和文档布局分析)中实现了最先进的性能。”

微调LayoutLM v3

我们将使用相同的220个带注释的发票数据集来微调layoutLM v3模型。为了进行标注，我使用了UBIAI文本注释工具，因为它支持OCR解析，原生PDF/图像注释，并可以用LayoutLM模型兼容的格式导出，这样就可以节省后期处理的工作。

从UBIAI导出注释文件后，我们将使用谷歌colab进行模型训练和推理。

完整文章：

https://avoid.overfit.cn/post/be399d8f17f542929155b8b2481ecaaa

标签：结构化,Layoutlm,微调,v3,文档,图像,LayoutLM
来源： https://www.cnblogs.com/deephub/p/16514168.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

微调LayoutLM v3进行票据数据的处理和内容识别

LayoutLM v3

微调LayoutLM v3