ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

《Action Recognition》-Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset(I3D)

2021-11-11 15:03:25  阅读:190  来源: 互联网

标签:视频 Kinetics 维度 Action 3D Recognition I3D


《Action Recognition》-I3D

目录

Contributions

  • 在新的数据集Kinetics上对当时的SOTA模型进行了实验,并分析了在Kinetics预训练后模型的提升。Kinetics数据集包含了400种动作,每个动作有超过400个片段的视频。
  • 提出了一种新的模型Two Stream Inflated 3D ConvNet(I3D),在HMDB-51和UCF-101数据集上分别达到了80.9%和98.0%的准确率。

Experiment

作者对下图的几个网络进行了测试:
在这里插入图片描述

  • Convnet+LSTM

  • 3D Convnets
    与原C3D不同之处在于这里在每个卷积层后使用了BN层,并将第一层池化时序上的步长由1改成2,减小内存使用,以获得更大batch的训练。

  • Two-Stream Networks

  • Two-stream and the 3D fused version

  • Two-Stream Inflated 3D ConvNets
    1). 对于3D来说,时间维度不能缩减地过快或过慢。如果时间维度的感受野尺寸比空间维度的大,将会合并不同物体的边缘信息。反之,将捕捉不到动态场景。因此改进了BN-Inception的网络结构。在前两个池化层上将时间维度的步长设为了1,空间还是22。最后的池化层是27*7。训练的时候将每一条视频采样64帧作为一个样本,测试时将全部的视频帧放进去最后average_score。除最后一个卷积层之外,在每一个卷积后面都加上BN和relu。
    在这里插入图片描述

2). **I3D结构扩展方式:**如果2D的滤波器为NN的,那么3D的则为NN*N的。具体做法是沿着时间维度重复2D滤波器权重N次,并且通过除以N进行归一化。

3).**从预先训练的ImageNet模型中引导参数来初始化I3D:**作者将图像重复复制到视频序列中将图像转换为(boring)视频。然后,在ImageNet上对3D模型进行隐式预训练,满足我们所谓的无聊视频固定点((boring)视频上的池化激活应与原始单个图像输入上的池化激活相同),这可以实现通过在时间维度上重复2D滤波器的权重N次,并且通过除以N来重新缩放它们,这确保了卷积滤波器响应是相同的。

Result

  • 不同结构网络的对比
    在这里插入图片描述
  • 在Kinetics数据集上测试,有无经过Imagnet进行预训练
    在这里插入图片描述
  • 在Kinetics数据集上预训练
    在这里插入图片描述
  • 与其他模型对比
    在这里插入图片描述
    参考:https://blog.csdn.net/weixin_44402973/article/details/94396298

标签:视频,Kinetics,维度,Action,3D,Recognition,I3D
来源: https://blog.csdn.net/qq_43786852/article/details/121267033

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有