
无需加好友免费技术支持
选自arXiv
作者:Daan de Geus等
编译机器之心
参与:高璇、张倩
全景分割是图像分割的子领域,是语义分割和实例分割的结合。在本文中,荷兰埃因霍芬理工大学的研究人员提出了一个端到端网络,用于快速全景分割——FPSNet。该网络不需要计算高成本的实例代码预测或集成启发算法,比现有的全景分割方法更快,分割质量也具有一定的竞争力。
用 FPSNet 全景分割结果实现在不同的分辨率图像上。
论文链接:
研究人员在论文中介绍了这个名字 FPSNet 全景分割网络。它不需要计算高成本的实例代码预测或集成启发算法,而是通过将全景任务转换为自定义的像素级密集分类任务,将类别标签或实例 ID 分配给每个像素。他们在 Cityscapes 和 Pascal VOC 评估了数据集 FPSNet,发现 FPSNet 比现有的全景分割方法更快,同时可以实现类似甚至更好的全景分割性能。
在 Cityscapes 在验证集上,分辨率为 1024x2048 的图像,FPSNet 预测时间为 114 毫秒(所有方法中最快),全景质量分为 55.1%(所有方法的最佳得分是 60.2%)。对于 Cityscapes 数据集和 Pascal VOC 低分辨率图像的数据集,FPSNet 分别以每秒 22 和 35 帧速运行。
目前全景分割有什么问题?
全景分割的目标是预测图像中每个像素的标签和实例 ID,在 thing(图像中有固定形状、可数物体,如人、车)和 stuff(图像中没有固定的形状和无数物体,如天空和草原。对于具有可数对象的 thing,实例 ID 用于区分不同的对象。而所有 stuff 类都有相同的例子 ID,因为图像的这些部分通常是无数的。
全景分割与语义分割和实例分割的任务密切相关。目前的全景分割方法利用了这两个任务之间的关系。
在这项工作中,研究人员提出了端到端深度神经网络架构,用于快速全景分割,可以实现实时分割任务。
图 1. Cityscapes 验证各种方法的预测时间和全景质量。
虽然现有的全景分割方法已经达到了最高的全景分割质量,但在速度和计算要求方面仍存在一些不足。首先,集成启发算法通常是 CPU 上述执行,需要遍历所有预测,计算成本巨大。
其次,这些启发式算法需要实例掩码,实例分割预测通常比边界框目标检测更昂贵、更耗时。
全景分割方案方案
埃因霍芬理工大学的研究人员提出了快速全景分割网络,以弥补这些不足(FPSNet),这是一种端到端的网络架构,可以学习解决类与实例之间的冲突。它不需要计算成本巨大的实例掩码或集成操作。FPSNet 架构与任何能够生成单一特征图并进行全图像密集分割的目标检测主网络兼容。
图 2. 在 Cityscapes 不同输入分辨率图像的验证集 FPSNet 预测。每种颜色表示不同的颜色 thing 实例或 stuff 类别。
他们提出的快速全景分割架构 FPSNet 具有以下特性:
端到端全景分割采用新的架构,无需实例掩码预测或集成启发算法。比现有方法快,全景分割质量相似或更好。
网络快速全景分割
研究人员的目标是省略以下步骤:
实例分割预测;合并或拆分预测的后处理步骤。它们通过引入新的卷积神经网络模块(panoptic head)为了实现这个目标。该模块有两个输入:1)可以在其上执行密集分割的特征图,2)表示 thing 从传统边界框目标检测器中获得实例存在的注意力掩码和与这些实例对应的类别。
因此,模型被训练为:1)对 stuff 类执行语义分割;2)将注意力掩码转化为 thing 实例的完整像素级实例掩码;3)在单个特征图中输出 stuff 类和 thing 在实例预测中,我们可以对其进行像素级分类。该模块在单个网络中与所需的特征提取器和边界框目标检测器一起进行端到端培训。
图 3. FPSNet 架构概述。尺寸表示输入图像上的空间步长(如 1/8)和特征深度(如 128)。⊕表示逐元素加法。训练过程中只强调两个区域(detection head 和 panoptic head)增加损失。虚线表示在训练过程中没有梯度流动。
在用于快速全景分割的新型全景模块中,假设有来自普通目标探测器的边界框目标检测和应用密集图像分割的单个特征图。边界框用于生成注意力掩码,以显示图像中物体的位置,并确定输出时物体的顺序。
首先改变注意力掩码,然后连接到特征图,最后应用于全卷积网络,即 panoptic head。panoptic head 的架构如图 5 所示。
图 5.panoptic head 架构。
实验
为验证 FPSNet 研究人员对其性能进行了评估:
因为 FPSNet 它是为速度和精度而设计的,因此研究人员通过不同分辨率的图像进行评估,并将其与现有方法进行比较。在实验中使用 Cityscapes 数据集 [25]。
控制变量研究:研究人员进行了控制变量实验,展示了各种设计选择的效果,即变换注意力掩码、使用强注意力掩码和调整 Natt 和 Catt。研究者也在 Cityscapes 评估了数据集。
在 Pascal VOC 性能:证明 FPSNet 研究人员的普遍适用性 Pascal VOC 评估了数据集 [26]。
在下表 I 他们列出了 FPSNet 现有方法 PQ 得分和预测时间。所有分数和预测时间与每篇论文一致,除非另有说明。 I 可以看出,FPSNet 它比现有的全景分割方法快得多,在全景质量方面仍具有竞争力。
在下表 II 中,他们将 FPSNet 与目前最好的全景分割方法进行了比较。他们还比较了使用 ImageNet 初始化和类似于主网络的方法。由此可见,虽然重点是快速全景分割,但 FPSNet 全景分割质量仍具有一定的竞争力。
研究者还在 Cityscapes 在验证集中进行了一系列控制变量实验。它们使用从检测分支输出中收集的原始注意力掩码 ground-truth 评估边界框生成的注意力掩码。
他们在 Pascal VOC 2012 并在上评估结果 PQ 总预测时间和表 V 比较其他方法。
图 7. FPSNet 在 Pascal VOC 2012 验证集中的示例预测。每种颜色表示不同 thing 实例。