已阅读5页,还剩12页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
利用图像轮廓对poselet活化的校准进行对象分割作者:Thomas Brox,Lubomir Bourdev,Subhransu Maji,Jitendra Malik德国弗莱堡大学,加州大学伯克利分校摘要:这篇论文中,我们提出一种技术去利用两种互补的自底向上的特征,图像的边缘和纹理块,以期使自顶向下的对象分割达到更高的精度。我们的工作建立在基于局部的poselet检测器上,它可以预测一个物体的很多部分的masks.为了这个目标,我们将poselet种类(除人以外)额外增加了19种。我们非严格地匹配这些“部分检测结果”和图像中潜在的物体轮廓,增加了预测对象的mask的精度,并且分出了误报(错误的正信息)。我们在空间上聚集对象信息通过一个变量化的平滑技术,确保物体区域不会重叠。最后,我们意图去改善定义在小图像块上的基于自相似度的分割。我们获得了具有竞争性的结果,在具有难度的pascal voc 标准检查程序上。在四个类上我们获得了目前为止最好的结果。1.介绍随着对象分割技术的成熟,人们有着越来越大的兴趣对于超出边界框的精确的对象定位。对象分割提供了这方面的方法。尽管在一般的静态图片中从对象层次上进行自底向上分割是一个病态问题,不过在结合了对象检测器之后成为一个可解问题。在这篇论文中,我们在对怎么样结合自底向上的线索(就像传统的图像分割上的应用一样)和自顶向下的信息(从同时期的对象探测器中获得)方面做出了贡献。这方面的早期的工作见【4,13】。我们认为拥有丰富局部结构(信息)的对象探测器,比如最近的基于poselet的探测器【5】,为自顶向下的分割提供了一个非常好的基础。特别的,poselets可以很好地处理遮挡并且适用于多重,部分封闭的物体的复杂分割(不需要明确的深度推理)。检测器信息需要与自底向上线索结合使用。对象检测器可以粗略地标记出在什么地方某个类的一个对象可能会出现,但它们缺少准确地定位物体的能力。这主要是因为检测器需要概括对象实例,这将导致精确的图像信息的丢失。这些丢失的在探测的物体实例上的,精确的形状信息,必须被恢复,通过图像本身。在此文中,我们提出两种互补的方法在测试图像中采集信息:图像边缘和自相似。为什么由探测器得到的形状预测是不精确的,这里有两个主要的原因:(1)因为扫描窗口方法的效率原因,同一时期的探测器在一个二次抽样的网格上工作。因此,每个探测可能与实际的物体位置有几个像素的偏移。(2)由于在多对象实例和关节中平均,这个检测器只能模拟一个粗略的形状,不能预测即将到来的对象实例的特定形状。非参数形状模型没有这样的一个缺陷,但是太贵了,目前不使用。因此,形状的变形和很小的细节不能被预测。在此文中,我们建议通过非严格地匹配每个poselet激活和图像中相应的边缘结构来解决平移和变形问题。这扩展了【5】中的调整策略,在【5】中整个对象被调整到图像中。通过独立地调整每个活化,我们可以允许更大的局部变形并且更好地处理遮挡和清晰度。由于这种调整只会使轮廓发生平移和变形,它不能再生对象区域的洞或明显的凹面。如在图1中的马腿。为了恢复这种图形细节,我们提出一个过程,可以翻转superpixels的标记, 基于图像块的相似度。图1.左边:Pascal VOC中的图片右边:多对象语义分割,一个人(轻粉红色)和一匹马(品红色)最后,在多类分割中,我们不得不处理多种对象为占有一个像素的竞争。我们提出了从人的poselets检测延伸到其他类别的检测,还有一个过程建立在检测分数上。这分数是poselet 激活和他们在图像区域的空间分布。这个过程决定出哪个对象部分在前景中,它也整理出许多假阳性检测。我们展示出可观的结果,在具有难度的Pascal VOC 2010标准检测程序上,这表现在数量上和外表上的良好的分割效果。2 相关的研究形状先验在图像分割领域已经变得流行,他们基于Leventon et al. 15和Cremers et al. 8, 9.的研究工作。特别是Cremers et al. 在形状的丰富的统计建模上付出了很多努力。然而这些方法中的统计形状模型都非常复杂,他们假定物体的类别和粗略的姿势,和它的存在一样都是已知的。这是个很强假定条件,除了特定的医学应用,实践中很难满足这一要求。在Leibe 和Schiele14,特定物体的块的探测表明一个对象类别的局部存在,并且他的形状是来源于聚集这些块的掩模。形状的变化完全由块的聚集来模型化的。从测试图像得到的证据只用于探测不用于分割。 自动检测 汉-英 汉-日 汉-韩 汉-法 英-汉 日-汉 韩-汉 法-汉大多数与我们的工作相关的研究见19.建立在Felzenszwalb et al10的强基于块的探测器上,他们通过使用颜色和关于对象的深度排序的推理,进而改进了探测器的形状预测,另一个相关的工作是基于纹理的语义分割,在其中,一个纹理分类器与CRF模型相结合来分配像素标记给数目受限的类18, 17。尽管这些方法在背景类别上表现的很好,比如说天空,水,建筑物,树等,但它们对实际对象的表现就通常很差了,(表2中Oxford Brookes)。当和图像分类结合起来时,这个方法就很成功了11。最后,【16】采用了一种策略,它会产生非常大的数目的对象区域的假定。在这些利用了一套颜色、纹理和形状特征的分割的基础上,接着去做分类。12中的方法在主旨上与此相似,但注意集中在一个复杂的图形化模型,更多的使用context。16 在帕斯卡VOC的基准程序上执行的很好,对我们的方法是一种补充,因为检测假设是用图像分割工具产生,并且一个分类器是应用于这些分割的特征。而在我们的方法里,假设的检测和评分是用一个扫描窗口方式,并且分割是遵循这些检测的基础上的。3.一个基于poselets的基线分割31 人范围以外的poselet我们在【6】中有对poselet概念的介绍,其中类别和姿势特别部分检测器是通过额外的关键点注释来训练得到。特别的,我们使用在5中的框架并扩展它到超过人的其他类别。为此我们必须定义特定类别的关键节点。这对于动物种类是简单的,但是其他一些种类就会变得复杂多了。比如说,椅子、船、飞机等,他们在结构上都有很大的可变化性。有四个腿的椅子或者一个杆和一个宽基座的椅子,而军用飞机和商用飞机看起来有很大不同。我们把这样的类别分裂成几个常见子类型,并提供每个子类型的独立的关键点。这样就可以训练各种独立的poselet,军用飞机的尖状的头,民用航机的圆状的机头,还有螺旋桨飞机的螺旋叶片。一些类别,比如说瓶子,没有一个原则上的方向,使得在对象的参考框架上分配关键点很难。举例说,一个桌子的左前腿是哪个。我们的解决办法是引进依赖于视角的关键点。比如说,我们有瓶子的一个左下角的关键点,那么我们定义桌子的左前腿,基于现有的照片视图。在【5】中,我们表明即使在2D空间下,关键点也是有效的。这能很大程度上帮助处理其他视觉类型(这种情况下没有简单的方法去注释一个关键点的深度),但是有时会引入歧义。举例说,在2D配置空间下,一个自行车的前视图和后视图几乎一样的,唯一的区别是左和右把手关键点,可能不是在所有的例子里都可以看见,是应该被交换的。这可能导致混合正面和反面的视角到同一个poselet,而它们在视觉上是非常不同的。为了防止这种情况,我们使用帕斯卡类别的视角注释前方,左方,右方,后方。特别地,我们不接受这样的poselet的训练例子,它与种子中的视角相反。图二:注释物体的外部界面的用户接口 (a) 用户看到这个在Amazon MechanicalTurk 环境里面 (b)用户部分注释(c)用户闭合这个注释线所构成的多边形并且如果需要的话编辑边界,而后点击上交按钮最后,在纵横比上,视觉类别有很大的可变性,使用固定的像素大小和长宽比的poselet是不太好的。我们将框架扩展,以支持可变的特定类纵横比的poselet,并且为每一类训练不同数量的poselets.3.2 用AMT注释我们为所有在Amazon Mechanical Turk1上的帕斯卡VOC的训练和验证图像收集了2 D关键点注释和图/背景掩模。对于关键点注释,5个独立用户被显示放大的一个种类的物体的图像连同一组预定义的关键点。这些用户被要求放置这些关键点在物体的正确的位置上,如果由于遮挡,截断等原因导致它们看不见,那就不标记。我们假定一个关键点是可以看见的,如果至少有两个注释者标记出了它的位置。图/背景标记用一个相似的方法来收集。我们要求注释者用在图2中展示的polygon-like工具去标记物体的外边界。这个简单的接口可以快速标出对象的外边界。我们又为每个对象集中5个独立的注释者。3.3 mask总和图/背景注释使我们可以为每个poselet产生一个软掩模m 0,1,通过平均化所有例子块的二值分割注释,这些块用来训练各自的poselet分类器。(图3)在测试时间, 每个poselet激活i分配给一个特定的对象假设j,伴随着一个软掩模mij : R2 0,1表明在被探测位置的某一像素是否是对象j的一部分的概率。我们可以建立一个非常简单的基本分割,通过对所有分配到一个对象j的软掩模mij求和: (1) 图三 每一行展示了一些特定的poselet的训练实例,还有产生的平均掩模。并且将掩模值小于阈值m的所有点都设为0.因为我们的目标是一个不连续的分割,也就是说每个像素只能被分配到一个对象,我们简单地选择拥有最大分值的物体:在这里我们忽视所有的分数少于阈值c的物体假设j,去避免考虑分割中的假的正性检测。在表一中,我们把这个基线比作我们在下面三个部分的改进。图4:在校准之前的poselet轮廓(蓝色)和校准之后的poselet轮廓(红色)图5:校准之后poselet轮廓的合计。多亏了校准,几乎所有的轮廓符合并且导致了一个对物体轮廓的好的预测。4 .校准因为软掩模m已经被获得,通过平均在训练数据中的多对象实例和关节,这些软掩模只粗略地符合测试图形中特定对象实例的实际形状。对象轮廓的精确位置的信息已经被丢失了,在这个平均过程中。我们目的要恢复这个信息,通过校准这个poselet轮廓到测试图像的边缘映射。这假定:(1)真正的图形轮廓是边缘映射图中的轮廓的子集(允许有一些例外),(2)真正的对象轮廓接近于poselet预测的轮廓。我们采用0.5级设置的mij去获得poselet轮廓gij:R2 0,1就像图4中的分类器预测的一样。对于图像边缘集f: R2 0,1 我们用【3】中的超度量轮廓映射(UCM)图,它是表现最好的轮廓探测器。我们接着评估非严格的变形域 图6:在对8个物体进行20种对象假设校准后的总计的poselet的掩模。为了形象化,值已经被归一到0,255的范围。只有在左上角的两个假设可以在环节5的竞赛中存活下来。(u,v)局部地校准预测的轮廓g到边缘映射f。这通过最小化下式得到:= 100 这是通过一个变量的从粗略到细化的最小化技术,在变量最优评估【7】中用到的。这校准服从于已校准的轮廓预测。而且,域(u,v)也可以用于校准软掩模mij。图4显示了两个poselet轮廓,在校准前和校准后的。再次校准软掩模可以合计产生对整个对象的一个预测。因为与3.3部分的基线对照,掩模在合计之前已经被校准,他们大多符合一个共同的轮廓。通过被校准的轮廓gij 的综合,这个可以很清楚的看到,如图5示。5. 有竞争的平滑在校准和合计掩模之后,我们面临着三个挑战:1 我们要探测并且移除错误的激活,通过已校准的poselet的掩模的一致性2 一副图像中可能有多个,部分重叠的物体。在此情况下,我们不得不决定,哪一个探测占据某一像素。3对象标记应该是空间一致的,因此,我们必须平滑这些掩模,在这个平滑过程中,我们想维持在校准过程中建立的精确边界位置。通过预处理这些已调整的掩模,我们目的在于前两个目标去获得好的初始化的掩模,为变化的平滑方法,这一方法主要处理空间聚集,同时保存预先已建立的特性。 图7:左边:在竞赛和阻尼之后留下的掩模预测Mj 中间:空间上聚合后的掩模uj 右边:覆盖在图像上令Mj表示物体j的总计的掩模,首先我们在每个像素上独立地运行一个赢者通吃的比赛。设置如下:(4)如果两个物体j是相同的类别,并且他们中的一个在像素x.y上获得更高分,我们将失败者的分数加到胜利者上。这确保了我们不会因为一个错误的poselet聚类而丢失物体证据。在一些典型的混乱情况下,如公共汽车和汽车或牛和羊,我们偏置对获胜者的决定,通过一个特定对的值乘以Mj,去归一化两个类别的poselet的相对优势。除了这个赢者决定,Mj不受这个偏见的影响。对于每个对象掩模我们计算累积的正质量在竞争之前及之后。至少丢失一般质量的物体j将被移除。他们的正mass将重新分配给获胜的物体。这将确保一个移除的物体不会留下一个洞,因为他在竞争区域的mass已经给了最佳竞争者。如同在基本方法中,我们只考虑探测分值大于c的物体。这种对候选对象的快速选择,也通过考虑总计的软掩模Mj来补充。一个高检测分数可能已获得,通过几个宽扩散poselet激活,他们对同一轮廓不能很好的一致。我们可以检测这些状况,通过考虑Mj,它们趋向于变小,对所有的x,y.我们建立一个归一化的软掩模。是一个阻尼系数,这归一化所有的软掩模并且确保最大的Mj接近1,在大的置信度的地方。Mj处处小于1/2的对象被移除。除了去除更多的错误激活,这个过程也可以处理错误的poslet激活,它们已被错误地分配给对象。由于它们的软掩模与其他的激活不相符合,在这些区域,阻尼使Mj接近于0,这使得这些区域可能被平滑掉。最后,我们判决掩模Mj的平滑的版本uj,用一个变化的方法最小化 满足条件 。这种能量模型包含一个证据项,考虑到掩模预测Mj, 和一个光滑项(它从更大的区域上聚集信息,去符合一个特定类的标签)。能量寻求接近预测的面具的最终的标签,产生了紧凑的区域,它和预测轮廓Cj符合的很好。Cj代表一个物体的归一化到范围【0,255】的轮廓gij的总概。在掩模预测不确定的区域,我们想让平滑过程有更多的影响,比那些掩模标签已经很好的预测的区域。这通过称量带有掩模度的证据项得到。如果没有证据证明这个像素属于或者不属于这个物体,那么证据项就是0.除确保不相交区域的额外的约束,这是一个凸的最优化问题,即,我们可以用变分技术计算无约束问题的全局最优结果。以下为欧拉-拉格朗日方程:产生一个非线性方程组,这个问题我们用固定点方案解决,用到了过度宽松的高斯-赛德尔求解程序。通过在每个固定点迭代上投射回约束集,建立约束条件。图8: 前行:提纯前的分割。下行:细化后的分割。通过物体的自相似性,许多细节得到了校正。左侧第二个例子显示,我们还可以区分同一类别的多个实例。这个更具挑战性的问题是不包括在目前的基准内的。图7示出了掩模预测Mj和聚合后的相应的掩模U j。因为考虑了对齐的轮廓C j,我们获得了清晰的对象边界。平滑项中的L1支持这个效果,通过密封Cj的空隙 。与此相反,l2将导致泄漏。U j的积极部分产生二进制对象掩模。不被对象占用的区域产生背景掩模。6、 建立在自相似性基础上的细化虽然前面的对齐过程已经提高了预测的形状和图像边界的一致性,但其形状仍然缺乏大部分的凹部,例如,马的腿。到目前为止,我们只是间接地利用了颜色和纹理,通过考虑颜色和纹理的不连续性。我们建议对形状进一步的细化,通过对象的自相似性。这种细化可以翻转像素的标签,如果根据颜色和纹理,他们更好的符合另一个对象的话。我们从目前为止所获得的对象掩模开始,并为每个对象和背景建立一个无参数的外观模型。对于外观,我们考虑7*7的图像块,在Clielab颜色空间中。我们用系数0.1乘以L通道以减轻它在图像块距离上的权重。我们不在灰度图像上进行细化。不是对单个像素的反转,我们考虑UCM所提供的像素集,我们已经用它们来校准。如果物体的边界与UCM边界不重合,我们添加这样的边缘并相应地分裂UCM区域。这将确保,自顶向下的形状知识仍然能够产生幻觉边界,那种边界在图像中是不可见的或者被UCM错过了。对于在superpixel内的像素,我们找到了图像中的100个最近邻,用一种近似的最近邻法。这100个最近的邻居上的标签投票,给superpixel的标签。从形式上看,我们可以用最邻近的核心写一个近似的密度估计。其中,F(X,Y)表示关心的像素上的块,K=1,100列出了最近的临近像素。Nj表示对象j的大小。决定Superpixel R的标签是根据最大后验原则:我们使用统一的先验函数P(j),除了自行车以外,它是很凹的对象,往往在最初的对象掩模上表现出很多背景。这个可以从图8(1)中的第四个例子中看到。我们对训练集上的这个类确定出最佳的先验概率。为了避免只是由于类似的颜色和纹理,反转superpixel远离了实际的对象,我们仅允许superpixel获得距superpixel为10像素之内的标签。这个过程的迭代确保标签仍然可以传播很长的距离,只要对象是连续的。如果在标签上没有进一步的变化,我们就停止迭代。图8示出了细化之前和之后的一些结果。在大多数情况下,我们可以获得更精确的分割,并且我们可以避免标签不受控制地蔓延到背景。(1)我们的AMT注解没有包括车轮上的孔和帧。表1:合并后的Pascal VOC 2007训练、验证和测试集(632副图)上的分割结果。表2中。我们在2010年帕斯卡VOC测试集上的分割结果是该挑战领域中表现最好的之一。更多方法的最新的结果可以从【2】中查找。7、 实验评价我们在Pascal VOC问题上评估检测和分割的方法。Poselet分类器已经在这一挑战的训练和验证集上进行了训练(2007年的图像除外)。我们也使用这些数据集去优化我们方法的参数(例如)。为了显示我们的技术的不同部分的影响,我们一个接一个地删除,直到我们以第三节中所描述的基本方法而结束。我们在合并的VOC 2007训练、验证、和测试集上比较这些不同版本。2007图片没有被用于训练分类器和参数优化(2)。(2)为了训练马的poselets,用到了2007训练和验证数据集表1表示出了比较的结果。显然,模型的每个部分都提高了整体的性能。相比较基本模型,我们得到了15%的改善。Poselets的校准仅仅有一个较小的效果,因为它只影响到了相对较小的区域。此外,这种校准对电视监视器具有负面影响,因为屏幕的更强的边界优先于显示器的正确的外边界。尽管如此,校准对我们的模型是非常重要的,因为它有助于聚集,而聚集产生了最大的提升。为了与其他的对象分割技术比较,我们也在VOC 2010的测试集上运行了完整的方法。表2显示了我们的研究成果相近于这一挑战中最顶尖的方法。我们的方法在平均分上居第三位,在其中的四种类别中显示出了最好的结果,其中包括重要的“人”的类别。尽管和表2中的其他方法不同,我们已经将所有的训练图像进行了分割注释,但是这些分割是相当粗糙的。和像素精确的VOC分割不同的是,他们可以容易地使用【1】来获得。图9给出了一些分割的例子。我们获得了与真正的对象边界符合的很好的分割,因此看起来非常具有吸引力。仅从视觉印象来说,这还需要更好的定量的数据。然而,因为整体分割的数目仍然相对较弱(即使是最好的方法也产生更多的错误激活和错误的非激活,相较于正确的激活来说),正确地检测数据集中的一个大一点的对象比检测边界(由一些像素构成的更精确的)有更大的定量效应。这也是为什么在表一中,我们通过具有竞争力的平滑得到了最大提升的原因.图9:在Pascal VOC 2010探测集上的结果通常是像素级精确的,如果对象很好的检测出来了。失败的例子,就像在最后的一行显示的那样,主要是探测器的问题。对象完成需要一个足够的同质对象或背景。8、 结论在一个结合了图像边缘和自相似性暗示的丰富的“基于部分”检测器的基础上,我们提出了一个面向对象分割的方法,我们发现在具有挑战性的Pascal VOC的检测基准上,这种方法非常有竞争力,我们可以在四个种类上得到最佳结果。更引人注目的是我们的结果的视觉质量,这归功于我们对预测轮廓到实际图像边缘的精确对准。另一个有趣的观察结果是,我们获得了更好的分割结果,比那些构建在10中的探测器上的方法,比如19或者表2中的芝加哥进入,尽管poselets在探测任务上的整体表现比10中的差。参考文献:1 Amazon Mechanical Turk. . 3, 72 The PASCAL Visual Object Classes Challenge 2010 (VOC2010) Results. pascallin.ecs.soton.ac.uk/challenges/VOC/voc2010/results. 73 P. Arbelaez, M. Maire, C. Fowlkes, and J. Malik. From contours to regions: an empirical evaluation. CVPR, 2009. 44 E. Borenstein and S. Ullman. Class-specific, top-down segmentation.ECCV, 2002. 15 L. Bourdev, S. Maji, T. Brox, and J. Malik. Detecting peopleusing mutually consistent poselet activations. ECCV, 2010.1, 26 L. Bourdev and J. Malik. Poselets: body part detectors training using 3D human pose annotations. ICCV, 2009. 27 T. Brox, A. Bruhn, N. Papenberg, and J. Weickert. High accuracyoptical flow estimation based on a theory for warping. ECCV, 2004. 48 D. Cremers, T. Kohlberger, and C. Schnorr. Nonlinear shapestatistics in MumfordShah based segmentation. ECCV, 2002. 29 D. Cremers, S. Osher, and S. Soatto. Kernel density estimationand intrinsic alignment for shape priors in level setsegmentation. International Journal of Computer Vision, 69(3):335351, 2006. 210 P. Felzenszwalb, R. Girshick, D. McAllester, and D. Ramanan.Object detection with discriminatively trained partbasedmodels. IEEE Transactions on Pattern Analysis andMachine Intelligence, 32(9
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 上海海洋大学《安全法规》2025-2026学年第一学期期末试卷(A卷)
- 上海海关学院《阿拉伯语会话》2025-2026学年第一学期期末试卷(A卷)
- 职校数学期末考试及答案
- 装修监理协议
- 护理移动护理培训
- 护理风险持续改进
- Solidworks 基础及其教程- 4
- 术后监护室护理职业发展
- 新冠肺炎疫情期间的护理安全管理
- 2026年中西医执业医师第二单元真题
- 曲拉西利全系骨髓保护临床应用指导原则
- 2026年四川省成都市高新区中考数学二诊试卷(含答案)
- 北京市丰台区2026年高三二模英语试卷(含答案)
- 船舶租赁市场数字化转型与竞争格局研究
- 2026新疆投资发展(集团)有限责任公司及所属公司社会招聘107人备考题库含答案详解(夺分金卷)
- 小学二年级数学下册(苏教版)隔位退位减教学设计
- 医疗器械检验与检测指南
- 水稻管理培训课件
- GB/T 2910.11-2024纺织品定量化学分析第11部分:某些纤维素纤维与某些其他纤维的混合物(硫酸法)
- 2023年连云港职业技术学院招聘考试真题
- QCT 291-2023 汽车机械式分动器总成性能要求和台架试验方法 (正式版)
评论
0/150
提交评论