论文阅读：Learning to Compose Dynamic Tree Structure for Visual Context(CVPR2019)

2021-11-18 21:34:19 阅读：151 来源： 互联网

标签：编码结点 Compose 特征 Dynamic 物体论文 Tree 上下文

因为我的方向是场景图，所以仅介绍这篇论文中有关场景图的内容，不涉及VQA。
在这里插入图片描述
(a)Feature Extraction
先对输入图像进行目标检测，每个proposal的视觉特征x包括以下特征：
ROIAlign feature(2048维)，空间feature(8维)，论文这里说视觉特征不局限于bbox，实例分割特征和全景特征也可以。

(b)构建可学习的对称矩阵S
（1）S的计算方法如下：
在这里插入图片描述
f(xi,xj)称为对象相关性，g(·)称为依赖特定任务的特征
（q是任务特征，在VQA中是用GRU编码的问题特征）
对于SGG，g(xi,xj,q)取1，因为对于场景图，在没有“question”提供先验信息的情况下，每对物体的贡献都是平等的。

（2）由矩阵S构造VCTree
下图的Tree部分是已经构建好的，Pool中的n4,n5,n6是还没有加入到树结构中的。从S矩阵中选取最大的值，找到它对应的结点，加入到Tree中。直到Pool中没有结点。这样就得到了一棵结果树（resultant tree）
在这里插入图片描述
结果树如下图左所示，然后保留结果树的最左结点，把非最左结点当做最左结点的兄弟结点，构造出如下图右所示的二叉树，这个就是VCTree了。

（c)使用双向TreeLSTM编码上下文
（1）物体级别上下文编码
zi = [xi; W1c1]，xi是物体的视觉特征，c1由目标检测网络得到的物体预测概率分布，通过W1进行维度调整。

下图第一个式子是正向的隐藏态，第二个式子是反向的隐藏态。hp是当前结点的父结点的隐藏态，hl和hr是当前结点的左右兄弟结点的隐藏态。

物体级别的上下文编码如下图所示：

（2）关系级别上下文编码
使用另外一个TreeLSTM对d^o₁,…d^o_n进行编码，得到物体级别的上下文编码。

(d)解码上下文
（1）物体类别预测
当前proposal的物体级别上下文和它在VCTree中的父结点的类别共同决定了它的类别。cp是当前结点父结点的预测概率分布，最终把hi（前向）输入分类器中，得到当前物体的类别概率分布。

（2）谓语类别预测
把gij送入分类器进行分类得到谓语的预测概率分布

dij：物体i和物体j的关系级别上下文特征

vij：物体i和物体j的union box的ROIAlign特征
bij：物体i和物体j的空间特征

由于S的计算不是完全可导的，因此采用混合学习：整个混合学习将在监督式学习和强化学习之间交替进行，我们首先利用最终任务进行有监督的预训练；然后固定最终任务，以此作为奖励函数来学习强化策略网络；然后用新的强化网络监督学习最终的任务。后两个阶段在我们的模型中交替运行2次。

------------------------一些碎碎念---------------------
昨天和朋友出去吃饭才知道隔壁实验室已经有人发出去小论文了。而且是9月份就在准备发了。
大吃一惊。
星期一有个论文分享，有个大佬也要准备发论文了。
好家伙我直接好家伙。
我还在读论文，人家已经发论文了。
而且又听说实验室5个还是4个博士名额9个人抢。
我tm直接emo。

标签：编码,结点,Compose,特征,Dynamic,物体,论文,Tree,上下文
来源： https://blog.csdn.net/qq_40349484/article/details/121409207

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

论文阅读：Learning to Compose Dynamic Tree Structure for Visual Context(CVPR2019)