首页 > 其他分享> 文章详细

视频理解领域小样本学习调研报告

2021-03-21 22:30:16 阅读：359 来源： 互联网

标签：视频 Shot 样本 Few Action shot Recognition 调研

视频理解领域小样本学习调研报告

标签（空格分隔）：学习笔记

文章目录

视频理解领域小样本学习调研报告

0 前言

本篇调研了小样本学习在动作识别领域的进展，旨在快速掌握最新研究进展，方便评估小样本学习是否能够有效应用到行为识别领域。
术语解释
- N-way K-shot：在测试时，从测试集中随机选出N个类，从N个类中任意选取K+X个样本，其中K个样本N类（共KN个样本）组成Support Set, X个样本N类（共XN个样本）组成Query Set。支撑集Support Set中的视频为Query Set提供参考信息。
参考资料
- 这是一个复旦CV博士的总结：小样本视频动作识别论文整理 few-shot video action recognition
其他
- 能用的数据集
- 别人已经实现的demo
- 开源代码
- 如果要用在摔倒上要怎么做
- 方法原理上可行否？比如是否适用于目前的问题：有一些样本很多，有一些类别样本很少。方向很重要！发现不行及时止损。
- 工业上有什么应用？

1. 分类

Action Genome(li Feifei2019)提出的分类：

1. 用样本较多的类别数据学习一个分类器，然后用该分类器去鉴别少样本类别。4.2论文属于第一种。
2、通过学习不变性或者分解来实现少样本分类。CMN\TARN、ProtoGAN都属于第二类方法。

ProtoGAN提出的分类

1.元学习：
在训练阶段模仿小样本推理过程。CMN
2.表征学习：
尝试学习新样本与已知小样本间的相似性。OTAM
3.生成模型：
通过生成模型合成数据来增强新类别的样本量。ProtoGAN

2. 常用数据集总结

数据集	动作类别数	总视频数	train:val:test 或train:test	SOTA
UCF101	101	13320	51:50	95.5%(by AMeFu-Net)
HMDB51	51	6766	26:25	75.5% (by AMeFu-Net)
Olympic-Sports	16	783	8:8	86.3%(by ProtoGAN)
miniMIT	200	200*550	120:40:40	56.7%(by ARN)
小样本版Kinetics	100	100*100	64:12:24	86.8%（by AMeFu-Net）
小样本版Something-Something V2	100	100*100	64:12:24	52.3%(by OTAM)

结论

需要准备多少数据：每类准备50-100个视频片段

3. 开源代码

TRX

重点查看：CVPR2021-Temporal-Relational CrossTransformers for Few-Shot Action Recognition
- Github-trx
- 基于以下文章和repo：
  - CNAPS: 图像分类任务的小样本学习
  - GitHub
  - NIPS2019-Fast and Flexible Multi-Task Classification Using Conditional Neural Adaptive Processes
  - ICML2020-TASKNORM: Rethinking Batch Normalization for Meta-Learning
  - google-research/meta-dataset：谷歌repo, 数据集，Github

Few-shot-action-recognition

4. 论文简述

4.1 ProtoGAN: Towards Few Shot Learning for Action Recognition

相关资料：
- Github
论文基本信息：
- 领域：小样本学习
- 作者单位：印度理工学院 & 奔驰印度研发
- 发表期刊和时间：ICCV2019
- 谷歌引用量：13
一句话总结：
- 提出ProtoGAN结构，**在UCF101（80.2%）, HMDB51（54%）和 Olympic-Sports（86.3%）**达到SOTA效果。
简述
- 思想：通过ProtoGAN生成制定新类别的视频特征解决小样本视频识别问题。且首次提出Generalized Few-Shot Learning(G-FSL) 设置Benchmark.
- G-FSL：与FSL不同之处在于，FSL只考虑新类别(Novel Classes)的识别效果，G-FSL将在训练中拥有足够样本量的类别也考虑进去了（Seen Classes）。
- 效果：
  - 在FSL设置下对比效果

4.2 A Generative Approach to Zero-Shot and Few-Shot Action Recognition

相关资料：
- Github
论文基本信息：
- 领域：小样本学习
- 作者单位：印度理工学院马德拉斯分校
- 发表期刊和时间：2018WACV
- 谷歌引用量：56
一句话总结：

4.3 TARN: Temporal Attentive Relation Network for Few-Shot and Zero-Shot Action Recognition

相关资料：
- Github
论文基本信息：
- 领域：小样本学习
- 作者单位：伦敦玛丽女王大学
- 发表期刊和时间：BMVC2019
- 谷歌引用量： 15
一句话总结：
- 提出TARN结构，小样本版Kenetics数据集上精度达80.66%。

4.4 CMN: Compound memory networks for few-shot video classification.

相关资料：
- Github
论文基本信息：
- 领域：小样本学习
- 作者单位：悉尼科技大学
- 发表期刊和时间： ECCV2018
- 谷歌引用量：47
一句话总结：
- 提出Compound Memory Network(CMN)结构，在小样本版Kinetics数据集上精度达78.9%。
补充
- 数据集制作：在Kinetics数据集上随机挑选100类，每类100个样本视频作为小样本数据集。其中64类为训练集，12类为验证集，24类为测试集。

4.5 OTAM: Few-shot video classification via temporal alignment

相关资料：
- Github
论文基本信息：
- 领域：小样本学习
- 作者单位：斯坦福
- 发表期刊和时间：CVPR2020
- 谷歌引用量：24
一句话总结：
- 提出OTAM结构，小样本版Kinetics精度达85.8%。

4.6 ARN: Few-shot Action Recognition with Permutation-invariant Attention

相关资料：
- Github
论文基本信息：
- 领域：小样本学习
- 作者单位：牛津&澳大利亚国立&香港大学
- 发表期刊和时间：CVPR2020
- 谷歌引用量：11
一句话总结：
- 提出 Action Relation Network(ARN) 结构，在 HMDB51, UCF101, miniMIT 三个数据集上达到SOTA，UCF101数据集精度为84.8%

4.7 AMeFu-Net：Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition

相关资料：
- Github
论文基本信息：
- 领域：小样本学习
- 作者单位：复旦&牛津
- 发表期刊和时间：ACM2020
- 谷歌引用量：–
一句话总结：
- 提出AMeFu-Net，小样本版Kinetics精度达86.8%.

标签：视频,Shot,样本,Few,Action,shot,Recognition,调研
来源： https://blog.csdn.net/qq_39213580/article/details/115057697

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

视频理解领域小样本学习调研报告

视频理解领域小样本学习调研报告

文章目录

0 前言

1. 分类

Action Genome(li Feifei2019)提出的分类：

ProtoGAN提出的分类

2. 常用数据集总结

结论

3. 开源代码

TRX

Few-shot-action-recognition

4. 论文简述

4.1 ProtoGAN: Towards Few Shot Learning for Action Recognition

4.2 A Generative Approach to Zero-Shot and Few-Shot Action Recognition

一句话总结：

4.3 TARN: Temporal Attentive Relation Network for Few-Shot and Zero-Shot Action Recognition

4.4 CMN: Compound memory networks for few-shot video classification.

4.5 OTAM: Few-shot video classification via temporal alignment

4.6 ARN: Few-shot Action Recognition with Permutation-invariant Attention

4.7 AMeFu-Net：Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition