首页 > 其他分享> 文章详细

0917 文献略读

2021-09-17 10:02:31 阅读：178 来源： 互联网

标签：模态框架训练 0917 文档略读视觉文献我们

Read Data: 0917

Publication: CVPR 2021

Title: SelfDoc: Self-Supervised Document Representation Learning

Aim:

由于文档是多模态的，并用于顺序读取，因此我们的框架利用文档中每个语义上有意义的元素的位置、文本和视觉信息，并为每个内容块之间的上下文化建模。

Research Question:

1、防止过度上下文化的过度细粒度

2、如何充分利用来自未标记文档的多模式信息

Method:

我们提出了SelfDoc，一个任务无关的文档图像理解预训练框架。与现有的文档预训练模型不同，我们的模型是粗粒度的，而不是将单个单词作为输入，因此避免了过度上下文化的过度细粒度。除此之外，我们在模型前训练阶段引入了跨模式学习，以充分利用来自未标记文档的多模式信息。对于后续应用，我们提出了一种新的模态-自适应注意机制，通过自适应强调语言和视觉信号来进行多模态特征融合。

Results:

我们的框架得益于对文档的自我监督预训练，无需通过特征掩蔽训练策略进行注释。与之前的工作相比，它在训练前阶段使用的文档图像更少，在多个下游任务上取得了卓越的性能

Discussion:

Conclusion:

我们提出了一个任务无关的框架，用于文档图像的表示学习和预训练。我们的框架是在语义组件级别(而不是单词)定义的，充分考虑了文档数据的呈现属性，并包括语言、视觉和结构布局信息。我们在序列建议的基础上采用情境化学习，并通过提出的跨模态编码器鼓励跨语言和视觉的跨模态学习。我们使用模态自适应注意强调语言和视觉的特征，进行多模态融合。在训练前的数据少得多的情况下，我们在多个任务上取得了出色的表现。

Further:

Ref:

以语义组件为输入的粗粒度模型，文档中加入图像跨模态学习。

属于共同学习-融合。无代码

标签：模态,框架,训练,0917,文档,略读,视觉,文献,我们
来源： https://www.cnblogs.com/xmy-0904-lfx/p/15303381.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

0917 文献略读