基于特征袋_自然场景分类的空间金字塔匹配.docx_第1页
基于特征袋_自然场景分类的空间金字塔匹配.docx_第2页
基于特征袋_自然场景分类的空间金字塔匹配.docx_第3页
基于特征袋_自然场景分类的空间金字塔匹配.docx_第4页
基于特征袋_自然场景分类的空间金字塔匹配.docx_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于特征袋_用于自然场景分类的空间金字塔匹配Svetlana Lazebnik1 Cordelia Schmid2 Jean Ponce1,32006年摘要本文提出了一种基于近似全局几何对应关系的识别场景类别的方法。这种方法将图像逐渐细分并计算每个子区域内的局部特征的直方图。由此产生的“空间金字塔”是一种简单、计算高效的对无序特征袋进行扩展的图像表示方法,并且它在对具有挑战性的场景分类任务中显示出了提高的性能。具体来说,我们所提出的方法超过了在Caltech-101数据库上目前的水平,在包含十五种自然场景类别得大型数据库上达到了较高的准确性。空间金字塔框架也为最近提出的一些图像描述符提供了见解,包括Torralba的GIST描述符和Lowe的SIFT描述符。1.引言在本文中,我们考虑识别图像的语义类别这一问题。例如,我们可能要把一张照片归类为描述一个场景(森林,街道,办公室等)或包含某个感兴趣的对象。对整个图像的分类任务,特征袋方法将图像表示为局部特征的无序集合最近表现出令人印象深刻的性能水平7,22,23,25。不过,因为这些方法都忽略了关于特征的空间布局的所有信息,它们的描述能力受到严重限制。尤其是,它们无法从其背景中捕捉对象的形状或分割图像。不幸的是,克服这些限制并建立有效的结构性对象描述符已经证明是相当具有挑战性的,尤其是当识别系统必须在强杂波,闭塞或大视角变化的存在下进行工作。基于生成模型3,5和几何对应搜索1,11的方法在计算费用方面实现了鲁棒性。一个更有效的方法是用相邻的局部特征之间的对偶关系来增加基本的特征袋表示,但这个想法现有的实现11,17得到了不确定的结果。提高几何形变鲁棒性的另一种策略是提高局部特征不变性的水平(例如,通过使用仿射不变检测器),但最近的一次大规模评估表明,这一策略通常不能取得成功。尽管我们仍然赞成发展结构性对象表示的鲁棒性和几何不变性的目标,但在本文中,我们提出在固定区域局部特征的汇总统计基础上重新审视“全局”非恒定表示。我们介绍一个基于核的识别方法通过使用改编自Grauman和Darrell7金字塔匹配方案的高效近似方法在全局范围内计算粗略的几何关系。我们的方法涉及在不断精细的分辨率上重复细分图像并计算局部特征的直方图。正如在第5节实验中所示,这个简单的操作足以在基本特征袋表示的基础上显著提高性能,甚至超过了基于详细的几何对应关系的方法。先前的研究已经表明,所有方法里不分析其构成对象的统计特性产生关于语义范畴的大量线索13。我们自己的实验证实全局表示不仅对识别整体场景,对包含特定对象的分类图像也是惊人的有效,甚至当这些对象被嵌入在重型杂波和不同的姿势和外观时。也就是说,我们不提倡对象识别中全局方法的直接应用(除非图像的种类极其有限时)。相反,我们设想此方法的次要作用。它可以被用来捕捉图像的gist21,并预示特定对象(例如,如果基于全局描述的图像很可能是一条公路,我们很可能找到一辆汽车而不是一个烤面包机)随后的搜索。此外,我们的方法的简单性和高效性,结合它在具有挑战性的数据上产生预料不到的高识别率的趋势,可能为其“校准”新的数据集和评估更复杂的识别方法奠定很好的基础。2. 先前的工作在计算机视觉中,直方图作为一种图像描述方法有着悠久的历史(见16,19)。Koenderink和Van Doorn10推广了局部无序图像的直方图,或直方图值尺度空间(即对于给定位置和尺度的每个高斯孔径,局部无序图像返回在给定位置和尺度下聚集在该孔径的图像特征的直方图)。我们的空间金字塔方法可以被认为是局部无序图像的一种替代构想,取代孔径的高斯尺度空间,我们定义了一个矩形窗口的固定层次结构。Koenderink和Van Doorn坚信局部无序图像在视觉感知中发挥着重要作用。我们的检索实验(图4)确信空间金字塔可以捕获感知的显著特征,并表明“局部无序匹配”可能对图像之间的整体感知相似度估计来说是一个强大的机制。将我们所提出的方法与多分辨率直方图8涉及对一个图像进行重复采样并在每个新级别(level)计算像素值的局部直方图进行对比是重要的。换句话说,多分辨率直方图使分辨率变化,并计算此时的特征(强度值),但直方图分辨率(强度等级)保持固定。我们采取相反的方法,即固定分辨率,并计算此时的特征,但使用不同的的空间分辨率。这导致保留更多信息的更高维表示(例如,由黑白相间的条纹组成的图像将在空间金字塔的每一个层次保留2个模式,而它会变得不是从一个均匀灰度图像,而是从多分辨率直方图的最精细水平中不可区分)。最后,不像多分辨率直方图,当配备适当的内核时,空间金字塔可用于近似几何匹配。“细分和无序”运算即将图像分成子块,并在子块中计算局部特征的直方图(或直方图统计,如均值)已经在全局图像描述6,18,20,21和兴趣区域的局部描述12的计算机视觉中被练习了许多次。因此,虽然此运算本身似乎是基础,但先前的方法并未解决什么是正确的细分方案(尽管4*4网格似乎是最流行的实施选择),及什么是细分和无序之间正确的均衡等问题。空间金字塔框架提出了解决这个问题的一种可能的方式:即当多分辨率以有原则的方式结合在一起时会达到最好的结果。它也表明,“细分和无序”技术成功的原因是它们真的实现了近似几何匹配。3.空间金字塔匹配我们首先描述空间金字塔匹配7的原始公式,然后介绍将这个框架用于创建空间金字塔图像表示这一应用。注:核方法的主要思想是基于这样一个假设:“在低维空间中不能线性分割的点集,通过转化为高维空间中的点集时,很有可能变为线性可分的”。3.1 金字塔匹配核设X和Y(图像X和Y)是d维特征空间里的两个向量组。Rrauman和Darrell7提出了金字塔匹配以找到这两个集合之间的近似对应关系。通俗地说,金字塔匹配的工作原理是在特征空间中设置越来越粗的网格并求出现在每个分辨率水平上的匹配数量的加权总和。在任何固定分辨率水平,如果两个点落入相同的网格内那么就说它们匹配;在更精细的分辨率下找到的匹配比粗糙分辨率下找到的匹配权重更高。更具体地说,我们在分辨率0,.,L水平上创建一个网格序列,这样沿着每个维度第l层有2l个单元格(cell),总共有个单元格。令和分别表示在该分辨率等级下X和Y的直方图,因此是落入网格中第i个单元格里的来自X和Y的点的个数。第l层的匹配的数量由直方图交叉函数(histogram intersection function)给出:下面,我们将缩写为注意在第l层的匹配个数也包括第l+1层的所有匹配个数。因此,对l=0,.,L-1,在第l层出现的新的匹配个数为。第l层的权重设置为,这与该层的单元格宽度成反比。直观地说,我们想降低在更大单元格中发现的匹配的权重因为它们涉及越来越不同的特征。将所有的块放在一起,我们得到了下面的金字塔匹配核的定义:直方图交叉核和金字塔匹配核都是Mercer核。注:直方图交叉核是对每一层来说的,金字塔匹配核是对一个图像所有层的加总来说。3.2 空间匹配模式 如在 7 中介绍的,一个金字塔匹配核用无序图像表示。它允许高维外形空间中两个特征集合的精确匹配,但却丢弃了所有空间信息。本文提出了一种“正交”的方法:在二维图像空间中执行金字塔匹配,并在特征空间使用传统聚类方法。明确地说,我们将所有特征向量量化为M个离散类型(即图1中由圆形,菱形和加号表示的特征类型),并作了简化的假设即只有相同类型的特征才可以互相匹配。每个channel m给我们两个二维向量,代表在各个图像中发现的类型m的特征坐标。最后的内核是单独的channel内核的总和:该方法具有用流行的“视觉词汇”保持连续性的优点 事实上,当L=0时它简化为标准的特征袋。因为金字塔匹配核(3)是直方图相交的简单加权和,并且因为对每个正数来说c min(a,b)=min(ca,cb),我们可以执行作为通过串联所有分辨率下的所有channel的合适的加权直方图形成的“长”向量的单一直方图相交(如图1)。对于L层和M个channel,结果向量的维度为。据第5节的实验显示用M=400,L=3,会有34000维的直方图交叉。然而这些运算是有效的,因为直方图向量是非常稀疏的(事实上,正如在 7 中,内核的计算复杂度与特征数量是线性关系。还必须指出,除了M= 200和L= 2我们没有观察到任何显著的增长,此时串联直方图只有4200维。最终的实现问题是标准化。为了获得最大的计算效率,我们通过图像中所有特征的总的加权和标准化所有的特征直方图,实际上是使所有图像中的特征总和相等。因为我们使用的是密集特征表示(见第4节),因此不必担心来自混乱(clutter)的伪造的特征检测器,这种做法足以应对可变图像尺寸的影响。图1.创建3级金字塔的例子。该图像有三个特征类型,由圆形,菱形和加号表示。首先,我们在3个不同的分辨率水平细分图像。接着,对每个分辨率级别和每个channel,我们统计落在每个空间bin里的特征数量。最后,我们根据式(3)将每个空间直方图进行加权。4.特征提取本节简要介绍在第5节实验中使用的两种特征。首先,我们所谓的“弱特征”是面向边缘点的,即点在给定方向的梯度幅值超过最小阈值。我们在两个尺度和八个方位提取边缘点,总共M= 16 channels.我们设计了这些特征,以获得类似于“GIST”21的表示或图像的全局SIFT描述符12。为了更好的辨别力,我们还利用高维“强特征”,就是SIFT描述符16*16像素的patch和8个像素间距的网格。我们用密集的规则网格来代替兴趣点的决定是基于李飞飞和Perona的对比评价4,他们已经表明密集的特征在场景分类效果更好。直观地说,密集的图像描述对捕捉均匀区域如天空,平静的水,或路面(为了处理低对比度区域,当块的所有梯度幅度太弱时我们跳过通常的SIFT标准化过程)来说是必要的。我们在取自训练集的块的随机子集中执行K均值聚类以形成一个视觉词典。我们的实验的典型词典大小是M = 200和M = 400。5.实验 在本节中,我们报告在三种不同数据集上的结果:15个场景种类4,Caltech-1013,和Graz14。我们在灰度级上进行所有的处理,即使在彩色图像都可用时。所有实验在随机选择的不同训练图像和测试图像上重复十次,每次运行都记录下每类的平均识别率。最后的结果是独立运行结果的平均值和标准偏差。多分类在用一对多规则训练的支持向量机(SVM)实现:一个分类器从rest中分离出每个类,测试图像被分配为具有最高响应的分类标签。图2.取自场景类别数据库的图像例子。带星花的类别来自Olive和Torralba。表1.场景类别数据集的分类结果。每个特征的最高结果用加粗来显示。5.1 场景分类识别 我们的第一个数据集(图2)有15个场景种类:13种是由李飞飞和Perona4提供(其中的8种最初是由Olive和Torralba13收集),2种(industrial and store)是我们自己收集的。每个类别都有200到400个图像,平均图像大小为300250像素。数据集中的图片的主要来源包括COREL收集,个人照片,和谷歌图片搜索。这是迄今在文献中使用的最完整的场景类别的数据集之一。表1显示了每类使用100张图像作为训练集其余作为测试集(与4设置一样)的详细的分类实验结果。首先,让我们测试L=0,M=200时的强特征的性能,对应一个标准的特征袋。我们的分类率是72.2%(取自李飞飞和Perona的13类的分类率是74.7%),比他们65.2%的最佳效果更高,用无序的方法和可与我们媲美的特征集合达到的。我们猜想,李飞飞和佩罗娜的方法对隐含狄利克雷分布(LDA)2的依赖是不利的,它本质上是一种无监督的降维技术,因此,并不一定有利于实现最高的分类准确率。为了验证这一点,我们已经用概率潜在语义分析(pLSA)9来实验,它试图解释图像中的特征分布为几个“场景主题”或“aspects”的混合物并在实际中执行起来类似于LDA17。继Quelhas等人的方案15,我们在无监督的环境来运行pLSA用训练图像的一半来学习一个60-aspect的模型。接下来,我们将这个模型应用到训练集的另一半以获得给定的各图像(因而将特征空间的维数200降低到60)的主题的概率。最后,我们在这些减少的特征上训练SVM,并用它们对测试集进行分类。在这种设置中,我们的平均分类率从原来的72.2下降到63.3。取自李飞飞和Perona的13个类别从74.7下降到65.9,这和他们的结果是非常相似的。因此,我们可以看到,潜在因素分析技术对分类性能产生不利影响,这也与Quelhas等的结果是一致15。接下来,让我们看看空间金字塔匹配的表现。为了完整起见,表1列出了仅使用金字塔最高层(单一层)的性能,以及使用多层(“金字塔”列)的完全匹配方案的性能。对于所有这三种特征,当我们将L = 0到多层设置时,结果显著提高。尽管金字塔最高层的匹配似乎可以解释大部分的提高,但是使用所有层显示了更好的性能。对于强特征来说,当L=2到L=3时,单层的性能实际上是下降的。这意味着,L = 3金字塔的最高层细分的太精确,每个bin有太少的匹配。尽管最高层的辨别力有所降低,但整个L = 3金字塔的性能仍然和2级金字塔基本相同。那么,空间金字塔表示的主要优点:因为它以有原则的方式结合了多种分辨率,对单个层的失败是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论