对角55.8厘米是多少寸（对角1.8米是多少寸）

摘要

在对象检测中，基于关键点的方法经常遭受大量不正确的对象边界框，可以说是由于缺少对裁剪区域的额外观察。本文提出了一种有效的解决方案，以最小的成本探索每个裁剪区域内的视觉模式。我们在一个名为CornerNet的代表性基于关键点的代表检测器上构建我们的框架。我们的方法名为CenterNet，将每个对象检测为三元组而不是一对关键点，从而提高精度和召回率。因此，我们设计了两个名为级联角池和中心池的定制模块，它们分别丰富了左上角和右下角收集的信息，并在中心区域提供了更多可识别的信息。在MS-COCO数据集上，CenterNet实现了47.0％的AP，其性能优于所有现有的单级探测器至少4.9％。同时，通过更快的推理速度，CenterNet展示了与顶级两级探测器相当的性能。代码可在https://github.com/Duankaiwen/CenterNet获得。

1、简介

借助深度学习，尤其是卷积神经网络[11]（CNNs），物体检测得到了显着的改进和提升。

在当前时代，最流行的流程图之一是基于锚节点，它放置了一组具有预定义大小的矩形，并在帮助下找到真实物体的位置。这些方法通常需要大量锚点以确保与地面实况对象具有足够高的IoU（交联结合）速率，并且每个锚箱的尺寸和纵横比需要手动设计。另外，锚点通常不与真实物体框对齐，这不利于边界框分类任务。

为了克服基于锚点的方法的缺点，提出了一种名为CornerNet的基于关键点检测对象的提议。它通过一对角点关键点表示每个对象，这样就不需要锚盒，并且达到了最高的物体检测精度。尽管如此，CornerNet的表现仍然受到其引用对象全局信息的能力相对较弱的限制。也就是说，由于每个对象都是由一对角构成的，因此算法对于检测对象的边界很敏感，同时不知道应该将哪些关键点对分组到对象中。因此，如图1所示，它经常产生一些不正确的边界框，其中大部分可以用补充信息（例如纵横比）容易地滤除。

对角55.8厘米是多少寸,对角1.8米是多少寸(1)

图1：在第一行中，我们可视化CornerNet的前100个边界框（根据MS-COCO数据集标准）。真实情况和预测对象分别用蓝色和红色标记。在第二行中，我们显示可以通过检查中心部分来确定正确的预测。

为了解决这个问题，我们为CornerNet提供了感知每个建议区域内的视觉模式的能力，以便它可以自己识别每个边界框的正确性。在本文中，我们提出了一个名为CenterNet的低成本但有效的解决方案，它探索了中心区域的一部分，即靠近几何中心的区域，有一个额外的关键点。我们直观感觉是这样的，如果预测的边界框与真实物体框具有高IoU，那么其中心区域中的中心关键点被预测为相同类的概率很高，反之亦然。因此，在推理期间，在生成方案之后，作为一对角点关键点，我们通过检查是否存在属于其中心区域的同一类的中心关键点来确定方案是否确实是对象。如图1所示，这个想法是使用三元组而不是一对关键点来表示每个对象。于是，为了更好地检测中心关键点和角落信息，我们提出了两种策略来分别充实中心和角落信息。第一个策略称为中心池，在分支中用于预测中心关键点。中心池有助于中心关键点在对象内获得更多可识别的视觉模式，这使得更容易感知到中心方案。我们通过获得最大总和来实现这一目标，在特征图上的中心关键点的水平和垂直方向上的反应，来预测中心关键点。第二种策略被命名为级联角落池，它使原始角落池模块具有感知内部信息的能力。我们通过在特征图上物体的边界和内部方向上取出最大总和的响应预测角点来实现这一点。根据经验，我们验证这种双向汇集方法更稳定，即对特征级噪声更稳健，这有助于提高精度和召回率。

我们在MS-COCO数据集上评估提出的CenterNet，这是大规模物体检测最受欢迎的基准之一。CenterNet，包含中心池和级联角池，在测试集 AP得分为47：0％，大大优于所有现有的单级探测器。使用52层CenterNet的平均预测时间为270毫秒一帧，每个图像使用104层CenterNet的平均预测时间为340毫秒一帧，CenterNet非常高效，但与其他两个检测器的最先进性能非常匹配。本文的其余部分安排如下。第2节简要回顾了相关工作，第3节详细介绍了拟议的CenterNet。实验结果在第4节中给出，然后在第5节中得出结论

2、相关工作

物体检测涉及定位和分类对象。在深度学习时代，由深度卷积神经网络驱动，物体检测方法可大致分为两种主要类型的流水线，即两层方法和一层方法。两阶段方法将对象检测任务划分为两个阶段：提取RoI，然后对RoI进行分类和回归。R-CNN使用选择性搜索方法来定位输入图像中的RoI，并使用基于DCN的区域分类器来独立地对RoI进行分类。SPPNet和Fast-RCNN通过从特征图中提取RoI来改进R-CNN。通过引入RPN（区域提议网络），允许更快地对RCNN进行端到端的训练。 RPN可以通过回归锚框来生成RoI。后来，锚箱广泛用于物体检测任务。 Mask-RCNN在Faster-RCNN上添加了一个隐藏的预测分支，可以检测物体并同时预测它们的分类。R-FCN用位置敏感的得分图替换完全连接的层，以便更好地检测物体。级联R-CNN通过训练具有增加的IoU阈值的一系列检测器来解决训练中的过度拟合和推断时的质量不匹配的问题。提出了基于关键点的物体检测方法，以避免使用锚框和边界框回归的缺点。其他有意义的作品针对物体检测中的不同问题提出，例如，[47,21]专注于建筑设计，[1,9,36,44]注重语境关系，[22,3]侧重于多尺度统一。

一阶段方法移除RoI提取过程并直接对候选锚箱进行分类和回归。YOLO [31]使用较少的锚箱（划分输入图像变成S×S网格）做回归和分类。 YOLOv2 [32]通过使用多锚框和新的边界框回归的方法来提高性能。SSD [27]将锚箱密集地放置在输入图像上，并使用来自不同卷积层的特征来对锚箱进行回归和分类。 DSSD [8]在SSD中引入了解卷积模块，以结合低级和高级功能。而R-SSD [17]在不同的要素层中使用合并和反卷积操作来组合低级和高级功能。 RON[19]在有效提取多尺度特征之前，提出反向连接和对象性。 RefineDet [45]精炼锚箱的位置和大小两次，它继承了一层和两层的优点。 CornerNet [20]是另一种基于关键点的方法，它使用一对角直接检测物体。虽然CornerNet实现了高性能，但它还有更大的提升空间。

3. 我们的途径3.1. 基线与动机

本文使用CornerNet [20]作为基线。为了检测角落，CornerNet产生两个热图：左上角的热图和右下角的热图。热图表示不同类别的关键点的位置，并为每个关键点分配置信度分数。此外，它还预测每个角落的嵌入和一组偏移。嵌入用来识别两个角是否来自同一对象。

偏移学习从热图到输入图像重新映射角图。为了生成对象边界框，分别根据它们的分数从热图中选择前k个左上角和右下角。然后，计算一对角的嵌入矢量的距离以确定成对的角是否属于同一对象。如果距离小于阈值，则生成对象边界框。为边界框分配置信度分数，该分数等于角对的平均分数。

在表1中，我们提供了对CornerNet的更深入分析。我们计算CornerNet的FD1（错误发现）率MS-COCO验证数据集，定义为不正确边界框的比例。定量结果表明，即使在低IoU阈值下，不正确的边界框也占很大比例，例如，CornerNet在IoU = 0:05时获得32：7％的FD率。这意味着平均而言，每100个对象边界框中有32：7的IoU低于0:05，具有真实性。

小的不正确的边界框甚至更多，这实现了60：3％的FD率。其中一个可能的原因在于CornerNet无法查看边界框内的区域。为了使CornerNet [20]能够感知边界框中的视觉模式，一种可能的解决方案是将CornerNet调整为两阶段探测器，该探测器使用RoI池[10]来查看边界框中的视觉模式。然而，众所周知，这种范例在计算上是昂贵的。在本文中，我们提出了一种高效的替代方案称为CenterNet，探索每个边界框内部的视觉模式。为了检测物体，我们的方法使用三元组而不是一对关键点。通过这样做，我们的方法仍然是一个阶段的检测器，但部分继承了RoI池的功能。我们的方法只关注中心信息，我们的方法成本很低。同时，我们通过使用中心池和级联角池，进一步将对象内的视觉模式引入关键点检测过程。

对角55.8厘米是多少寸,对角1.8米是多少寸(2)

表1：CornerNet的错误发现率（％）。错误发现率反映了错误边界的分布框。结果表明不正确的边界框占很大比例

3.2. 物体检测作为关键点三元组

对角55.8厘米是多少寸,对角1.8米是多少寸(3)

图2

整个网络架构如图2所示。我们通过中心关键点和一对角来表示每个物体。具体来说，我们在CornerNet的基础上为中心关键点嵌入了热图，并预测了中心关键点的偏移。然后，我们使用CornerNet [20]中提出的方法生成top-k边界框。但是，为了有效地过滤掉不正确的边界框，我们利用检测到的中心关键点并采用以下程序：（1）根据得分选择top-k中心关键点; （2）使用相应的偏移量将这些中心关键点重新映射到输入图像; （3）为每个边界框定义一个中心区域并检查是否存在中心区域包含中心关键点。请注意，已检查中心关键点的类标签应与边界框的类标签相同; （4）如果点在中部地区检测到中心关键，我们将保留边界框。边界框的分数将由三个点的平均分数代替，即左上角，右下角和中心关键点。如果在其中心区域中未检测到中心关键点，则将删除边界框。

边界框中的中心区域的大小会影响检测结果。例如，较小的中心区域导致小边界框的召回率较低，而较大的中心区域导致较大的边界框的精度较低。因此，我们提出了一种尺度感知的中心区域，以自适应地适应边界框的大小。尺度感知的中心区域倾向于为小的边界框生成相对大的中心区域，而对于大的边界框则生成相对小的中心区域。假设我们想确定是否需要一个边界框保存。设tlx和tly表示i和brx的topleft角的坐标，bry表示i的右下角的坐标。定义中心区域j。设ctlx和ctly表示j和cbrx的左上角的坐标，cbry表示j的右下角的坐标。那么tlx，tly，brx，bry，ctlx，ctly，cbrx和cbry应该满足以下关系：

对角55.8厘米是多少寸,对角1.8米是多少寸(4)