上图为CenterNet的检测结果。由于CenterNet去除了大量错误的目标框,因此即使在目标框的confidence较低的情况下,依然能保证较好的检测结果,上图展示了confidence在0.5以上的目标框分布情况。
Table4为消除实验。第一行为CornerNet结果。中心点的加入 (CRE) 使得网络提升了2.3% (37.6% vs 39.9%)。对于中心点的检测,本实验使用传统的卷积操作进行。
其中小尺度目标提升的最多,提升了4.6% (18.5% vs 23.1%), 而大尺度目标几乎没有发生变化。这说明小尺度的错误目标框被去除的最多,这是因为从概率上讲,小尺度目标框由于面积小更容易确定其中心点,因此那些错误的小目标框不在中心点附近的概率更大,因此去除的最多。
Center pooling (CTP) 的加入使网络进一步提升了0.9%。值得注意的是,大尺度目标提升了1.4% (52.2% vs 53.6%),小目标和中等目标也得到了一定的提升,这表明center pooling能够使中心点获得更易于区分于其他类别的语义信息。Cascade corner pooling (CCP) 使得使网络性能进一步提升。
第二行的试验中,科研人员将CornerNet的corner pooling替换成了cascade corner pooling,性能提升了0.7% (37.6% vs 38.3%)。可以观察到大目标的AP没有发生变化,AR却提升了1.8% (74.0% vs 75.8%),这说明cascade corner pooling通过加入了物体内部信息能够感知更多的物体。
但是由于大目标由于面积过大,使其容易获得较明显的内部特征而干扰了边缘特征,因此使得预测出的目标框位置不精确。当结合了CRE后,由于CRE能够有效去除错误目标框,因此使大目标框的AP得到了提升 (53.6% vs 55.8%).
Table3为错误目标框的去除实验的对比。实验结果表明CenterNet去除了大量的错误目标框,尤其是小尺度的错误目标框,这也是为什么小尺度目标的AP提升最多的原因。
Table5为错误实验分析。科研人员将检测的中心点用真实的中心点代替,实验结果表明中心点的检测准确度还有很大的提升空间。同时该结果还表明要想更进一步的提升检测精度,需要进一步提升角点的检测精度。
总结
前文提到 one-stage 方法都无法感知物体内部信息,这是由于 one-stage 直接对 anchor 进行回归和分类,这个过程并没有像 two-stage 方法一样利用到了物体内部特征,因此无法感知物体内部信息。
本工作主要研究了基于关键点的 one-stage 方法,在接下来的工作中,研究人员将扩展到更广义的 one-stage 方法,如 SSD[5] 等方法,以及更多的 backbone,例如VGG-16,resnet101等。
参考文献:
[1]. H. Law and J. Deng. Cornernet: Detecting objects as paired keypoints. In Proceedings of the European conference on computer vision, pages 734–750, 2018.
[2]. T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Doll´ar, and C. L. Zitnick. Microsoft coco: Common objects in context. In European conference on computer vision, pages 740–755. Springer, 2014.
[3]. B. Singh and L. S. Davis. An analysis of scale invariance in object detection snip. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3578–3587, 2018.
[4]. S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia. Path aggregation network for instance segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 8759–8768, 2018.
[5]. W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.Y. Fu, and A. C. Berg. Ssd: Single shot multibox detector. In European conference on computer vision, pages 21–37. Springer, 2016.
论文链接:https://arxiv.org/abs/1904.08189
代码链接:https://github.com/Duankaiwen/CenterNet