Z. Lan, et al. Deep local video feature for action recognition. CVPR'17.
由于不是视频中每帧都包含有用信息,Lan等人首先用TSN提取局部特征,之后再进行聚合。
R. Girdhar, et al. ActionVLAD: Learning spatio-temporal aggregation for action recognition. CVPR'17.
类似于NetVLAD,Girdhar等人用two-stream提取特征,之后用VLAD得到视频的表示。实验中发现,图像和光流两个分支单独处理效果最好。
C. Feichtenhofer, et al. Spatio-temporal multiplier networks for video action recognition. CVPR'17.
Feichtenhofer等人发现,two-stream网络在外观分支容易过拟合。Feichtenhofer等人加入了两个分支之间的信息交互,并发现乘性的信息交互效果最好。
G. A. Sigurdsson, et al. Asynchronous temporal fields for action recognition. CVPR'17.
Sigurdsson等人利用全连接时序CRF对视频的时序关系进行推断。