标签:训练 Image token 文档 版式 Embedding LayoutLM
概述
LayoutLM是一个基于Bert,结合了文本和版式信息的文档预训练模型,在多个下游任务中都达到了当时SOTA的结果。
模型
模型的总体结构如图1所示:
需要注意的是,Image Embedding是在微调阶段加入的,而不是预训练阶段,这也是LayoutLM与LayoutLMv2有明显区别的地方。
预训练阶段
预训练阶段有两个目标:Masked Visual-Language Model和Multi-label Document Classification。
Masked Visual-Language Model
和Bert的MLM类似,不过是2D版本的,随机遮蔽一些token但保留2D Position Embedding,然后预测遮蔽的token,通过这个方式能够将视觉和语言两个模态结合起来。
Multi-label Document Classification
为了更好地适应文档理解任务,需要高层次的文档表示,因此在预训练时添加了这个多分类任务。论文中还提到这个是可选的,并且在以后不会使用这个任务预训练更大的模型(实际上从LayoutLMv2开始就没有使用这个目标函数了)。
微调阶段
论文对三类下游任务做了微调,分布是:表单理解、票据理解和文档图像分类。对于前两个任务,LayoutLM对每个token预测{B,I,E,S,O}以及实体的类别。对于最后一个任务,LayoutLM使用“[CLS]”预测文档的类别。
实验
表单理解的实验结果如图2所示(数据集是FUNSD):
票据理解的实验结果如图3所示(数据集是SROIE):
文档分类的实验结果如图4所示(数据集是RVL-CDIP)
最后是不同初始化方法对模型性能的影响,如图5所示:
总结
LayoutLM是首次结合文本和版式信息的预训练模型,在当时达到了SOTA的性能。不过没有把图像信息加到预训练阶段中,这也是模型需要改进的地方。另外MDC对于某些下游任务并不好用,需要替换或者改进。
标签:训练,Image,token,文档,版式,Embedding,LayoutLM 来源: https://www.cnblogs.com/SpicyWonton/p/16664252.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。