此外,为了加速训练,由于目标通常位于图像中心,Karpathy等人使用了一个两分支网络:一个分支输入空间大小下采样减半的图像,另一个分支输入原图中心裁剪后的图像。这样,总体的输入图像维数只有原图的一半。这两个分支的深度卷积特征拼接(concatenate)起来给全连接层进行分类。
实验发现,3D卷积的融合效果最好,而不考虑运动信息的single frame策略已经是十分强的baseline。Early fusion策略效果最差的原因可能是直接从输入图像上捕获运动信息难度太大。
J. Y.-H. Ng, et al. Beyond short snippets: Deep networks for video classification. CVPR'15.
Ng等人先提取每一帧的深度卷积特征,再设计特征融合方法得到最终输出。其中,紫色代表沿时间方向进行最大汇合(max-pooling),黄色代表全连接层,绿色代表3*3*10,stride 5的3D卷积,红色代表softmax输出。相比Karpathy等人,Ng等人的输入视频片段的长度更长(每秒采样1帧,一个片段由120帧构成),包含了更多的时序信息。实践中发现(a)的效果最好。
B. Fernando and S. Gould. Learning end-to-end video classification with rank-pooling. ICML'16.
在得到每帧图像的深度卷积特征vt之后,Fernando和Gould通过解如下的优化问题来对特征进行排序汇合(rank-pooling)。其动机是靠前的帧
要小一些,而靠后的帧大一些。