视频语义分割基准数据集与评估方法

本贴最后更新于 1481 天前,其中的信息可能已经水流花落

概述

本文来源于《A Benchmark Dataset and Evaluation Methodology for Video Object Segmentation》,论文主要介绍了一种作者团队提供的针对视频语义分割算法进行评估的基准数据并提供了三种指标用于评估算法效果的优劣。本文主要是个人在阅读该论文的的一些所得,但由于论文内容所致,本文阅读起来更像一篇说明文档,提供与此,仅供参考。

DAVIS 由 50 个高质量,全高清的视频序列组,包含有多个视频目标分割挑战,如遮挡,运动模糊和外观变化。每一个视频都是稠密标注,像素级别的精度和逐帧的真值分割(将前景对象与背景区域精确像素分离)。同时提出了三种互补的度量标准(区域相似性、轮廓准确性以及时间连贯性)来对当时几种最新的的分割方法进行综合分析。

数据集说明

根据以往的数据集经验,整个数据集重点关注四个关键方面,来创建一个平衡全面的数据集。

1. 数据的数量和质量

首先,一个好的数据集要有足量的数据,这是确保内容的多样性并提供一组均匀分布的挑战的前提。并且拥有足量的数据对于避免过度拟合和延迟性能起到至关重要的作用,同时这在一定程度上也保证数据集具有更长的使用寿命。

另一方面,数据的质量也非常重要, 数据集的质量需能反映现有技术的水平

基于上边两个因素,构建了 DAVIS数据集,DAVIS 构成包括 50 个序列共 3455 标注帧视频帧率为 24fps,分辨率为 1080p。

同时由于当前计算复杂度是视频处理的一个重要瓶颈。因此,为了减少计算的复杂程度,DAVIS 中的视频序列采用较短的时间长度(2-4 秒),但是它涵盖了大部分在长视频序列中找到的挑战。

2. 实验验证

对于视频中的每一帧,提供了像素级别的精度,以二进制掩码的方式手工创建分割结果

每个 DAVIS 数据集细分成分成训练集和测试集两个部分。但在评估的时候,不使用分区,而是考虑整个数据集,因为大多数的评估方法不需要训练,并且由于计算复杂度,网格搜索最优参数的估计是不可行的。

3. 对象存在

每个序列都应包含至少一个要与背景区域分开的目标前景对象。

选择不使用多个具有明显运动的不同对象,以便能够公平地将对单个对象进行操作的分段方法与对多个对象进行联合分段的方法进行比较。
此外,每个序列只有一个对象,这将消除通过全自动方法执行的检测的歧义(因为检测的目标只有一个)。

4. 无约束视频挑战

为了能够对算法的性能进行更深入的分析和理解,识别可能影响算法性能的关键因素和环境是至关重要的。因此定义一个扩展的视频属性集合,用于代表特殊情况,如快速运动,遮挡和杂乱背景这些典型的视频分割挑战。

具体属性及其含义如下表所示:

ID Description 描述
BC Background Clutter. The back- and foreground regions around the object boundaries have similar colors (\chi ^2over histograms). 复杂的背景。在目标边界附近的背景前景区域有相似的颜色。
DEF Deformation. Object undergoes complex, non-rigid deformations. 形变。目标存在复杂的非刚性的形变。
MB Motion Blur. Object has fuzzy boundaries due to fast motion. 运动模糊。由于快速的运动,目标边界模糊。
FM Fast-Motion. The average, per-frame object motion, computed as centroids Euclidean distance, is larger than\tau_{fm} = 20 pixels. 快速运动。目标平均的帧间运动距离大于 20 像素,距离定义为质心的欧几里得距离。
LR Low Resolution. The ratio between the average object bounding-box area and the image area is smaller than tlr = 0.1. 低分辨率(小目标)。平均目标边框区域与图像区域的比值小于 tlr = 0.1。
OCC Occlusion. Object becomes partially or fully occluded. 遮挡。目标部分或全部被遮挡。
OV Out-of-view. Object is partially clipped by the image boundaries. 视野之外。目标被图像边框裁剪了部分,即只有部分目标处于视野中。
SV Scale-Variation. The area ratio among any pair of boundingboxes enclosing the target object is smaller than\tau_{sv} = 0.5. 尺度变化。存在一对包围目标对象的边界框(两帧),他们的面积比小于 0.5。
AC Appearance Change. Noticeable appearance variation, due to illumination changes and relative camera-object rotation. 外观变化。由光照变化和相对的相机-目标旋转导致的显著外观变化。
EA Edge Ambiguity. Unreliable edge detection. The average groundtruth edge probability (using [11]) is smaller than\tau _{e}= 0.5. 边沿模糊。不可靠的边沿检测。平均真值边界的概率小于 0.5.
CS Camera-Shake. Footage displays non-negligible vibrations. 相机抖动。画面显示不可忽略的振动。
HO Heterogeneus Object. Object regions have distinct colors. 颜色不均匀的目标。目标区域有不同的颜色。
IO Interacting Objects. The target object is an ensemble of multiple, spatially-connected objects (e.g. mother with stroller). 交互的对象。目标对象是多个空间连接的对象(例如母亲和婴儿车)的集合。
DB Dynamic Background. Background regions move or deform. 动态背景。背景区域移动或者形变。
SC Shape Complexity. The object has complex boundaries such as thin parts and holes. 复杂形状。目标有复杂的边界,比如很细的部分或者洞。

这些属性并不具备排他性,因此一个视频序列可以被标注多个属性。他们在数据集中的分布展示在下图左中,图右显示他们两两之间的依赖关系。

image-20201029151003915

实验验证

在有监督的评估框架中,给定一个特定帧上的标记数据 G 和一个输出的分割结果 M,所有的评估指标都是主要为了解决一个问题:即 G 和 M 之间的拟合程度或者说是相似的程度。

因此论文中给了三种评价指标,区域相似性、轮廓准确性以及时间连贯性

1. 区域相似度(Region Similarity \mathcal{J}

为了测量基于区域的分割相似度,即识别错误像素的数量,此处使用使用 Jaccard 索引!\mathcal{J}

Jaccard 索引定义如下:

\mathcal{J} = \frac{M\cap G}{M\cup G}

其中M输出的分割结果G真值掩膜(也就是图像的标记结果)。

2. 轮廓准确性(Contour Accuracy \mathcal{F} ))

从基于轮廓的角度来看,可以将 M 解释为一组限定掩模空间范围的闭合轮廓 c(M)。因此可说出通过一个二分匹配来比较 c(M)和 c(G)边缘点的精确度 Pc 和召回率 Rc。进而定义了一个F-score来衡量轮廓的整体准确性,其具体定义如下:

\mathcal{F} = \frac{2P_{c}R_{e}}{P_{c}+R_e}

3. 时间稳定性(Temporal stability \mathcal{T}

结果的时域稳定性是视频对象分割中的一个相关重要的方面,由于对象形状的演化是识别和抖动的一个重要线索,不稳定的边界在视频编辑应用中是不可接受的。

因此,论文引入了一种时间稳定性测量方法来惩罚这种不期望的效果。关键的问题是区分物体的可接受的运动和不需要的不稳定性和抖动。

因此估计了在一帧掩码转换到下一帧所需的变形。简单来说,如果转换是平滑和精确的,结果可以认为是稳定的。

在形式上,我们将帧 t 的掩膜\mathcal{T}转换为代表其轮廓的多边形。 \mathcal{T} 然后,我们使用形状上下文描(SCD)[3]述符描述每个点\mathcal{T}。接下来,我们将匹配设置为动态时间扭曲(DTW)[39]问题,是我们寻找和 \mathcal{T} \mathcal{T}之间的匹配,它最小化了匹配点之间的 SCD 距离,同时保持了点在形状中出现的顺序。

每匹配点的平均成本作为时间稳定性\mathcal{T}的度量。直观上,匹配将补偿运动和小的变形,但它不会补偿曲线的振荡和误差,这是我们想要测量的。遮挡和非常强的变形会被误解为轮廓不稳定,因此在没有这种影响的情况下计算序列子集的测量值。

指标相关性

结果统计图如下:

20201029155209

从结果统计图中可以看出\mathcal{T}\mathcal{J} 之间有明显的线性相关。\mathcal{F} \mathcal{T} 之间则没有。

指标差异性

在左边,结果受到 J 的惩罚,因为就像素数量而言,未成功识别的区域头和脚很大,而对于边界度量 F,漏掉的百分比更低。在右侧,整个车身都被识别出来了,因此 IoU 是比较大的,但是对应的边界高度不准,因而F比较小。

20201029155415

简单来说,左图结果\mathcal{T}低但\mathcal{J} 高,右图\mathcal{J} 高但低\mathcal{F}

结论

运行时间效率和内存要求是几种视频分割算法的可用性的主要瓶颈。在我们的实验中,我们观察到花费大量时间对图像进行预处理以提取边界保留区域,对象建议和运动估计。鼓励未来的研究仔细考虑那些可能会损害其工作实用性的组件。高效的算法将能够利用此数据集提供的全高清视频和精确的分割蒙版。利用高分辨率可能无法在区域相似性方面产生更好的结果,但是改善复杂物体轮廓和微小物体区域的分割至关重要。

  • 语义分割
    7 引用 • 3 回帖
  • 深度学习

    深度学习(Deep Learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。

    53 引用 • 40 回帖 • 2 关注
  • 论文
    8 引用 • 38 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...