时,non-local操作退化为全连接层;当
时,non-local操作
退化为self-attention。实验中发现non-local block加在底层比加在高层效果要好,加多个non-local blocks会有效果提升但不是很明显。
这类方法的弊端是只能考虑比较短的时间片段的运动信息,参数量?
Two-streamK. Simonyan and A. Zisserman. Two-stream convolutional networks for action recognition in videos. NIPS'14.