




已阅读5页,还剩7页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于图像场景分类的新的主题特征摘要:我们提出了基于图像场景分类的新的主题特征。这个特征是由主题构建的图像表示的。即LDA的潜变量(潜伏狄利克雷分配)及其学习算法。与其它相关文献不同的是,在文章中所定义的特性共享不同类别下的主题,甚至在分类之前不需要类标签,以至于就可以避免特征和标签之间的耦合特性。为了表示一个新的图象,我们直接提取主题特征变量通过码字线性映射的方法,而不是潜变量的推理。我们将我们的方法与其他三个主题模型在类似的实验条件下进行比较,同时合并这些方法应用于15个场景数据集对象。结果表明,我们的方法可以很精确的分类场景类并且精度高于其他主题模型而且不使用空间信息。我们发现性能改善是由于被推荐的特性以及我们的算法,而不是其他因素,如额外低层图像特征和更强的预处理。 关键词:图像场景分类、主题特征、LDA模型、吉布斯采样器前言:图像场景分类是在计算机视觉和机器学习一个非常重要的问题。自动的获取图像语义信息变得不可或缺,并且已经广泛应用于许多实际的信息系统。然而,场景分类面临着许多挑战,列如可变性,歧义性,广泛的照明范围1。目前,三个典型的方法可以在图像场景分类的任务中被找到。第一个方法考虑图像作为单独对象可以直接将他们通过如颜色、纹理和功率谱等低级特征进行分类,。这种方法通常用于一小部分场景类别2。第二个方法采用图像的高级特征,这个方法认为图像是图像点的集合这个方法和基于这一策略的很多方法具有优良性能(3 - 5)。最后一个方法采用由潜在的变量所构造的主题模型,它根据中间语义分类图像。这种方法被应用于包含更多场景类别的情况。它认为一个图像不仅是图像点的集合6、7,同时也是一个更复杂的结构(8、9),它包含丰富的图像信息和接近人类看图像的方式,因此这种方法得到了越来越多研究团体的关注。典型的主题模型是概率潜在语义分析(PLSA)10和潜在狄利克雷分配(LDA)11。虽然主题模型最初产生于文本处理,近年来它已广泛应用于计算机视觉领域。例如,在6提出的图像分类方法可以训练一个适用于每个类别的LDA模型和使用贝叶斯决策识别图像标签。此外,在7中提出了基于sLDA(监督式LDA)的图像分类和标注的联合模型。这些方法可以分配图像的标签通过推理图像的中间变量,因此通常不需要额外的分类器。与前面的一些方法不同的是,主题模型与监督分类器相结合,然而,这些监督模型6、7不能利用一些现有的在图像分类方面方法,譬如普遍的监督式分类和特征处理。特别的是,很难从这些模型中提取特征向量,所以不能轻易把主题信息与其他功能结合起来,就像在12所提到的。另一方面,那些早期的方法分类精确度低于这些新的,因为它们对于图像的表现是不适当的。因此,本文的目标不仅只是考虑到后者的优点而且也是为了获得更高的分类精度。 在本文中,我们提出一个新颖的关于图像场景分类的主题功能,这个主体功能是基于对boW的假设。我们首先用LDA建立一个图像主题模型,然后提取主题功能,这些主体功能基于进行进一步分类的主题模型。不同于那些在(6,1)的方法,我们的方法不需要分别对每个场景类建立一个主题模型。相反,它描述了在相同的潜在主题空间中所有的场景图像(类似于7)。因此,我们的方法可以完全忽略场景类别信息在主题功能输入到监督分类器之前。与其他主题模型方法相比,我们的方法在特征提取过程中不需要推理,所以它可以降低主题模型的计算复杂性。此外,它有更少的计算量与池方法相比,因为我们的方法需要较小量的码字,避免了大量对于SIFT算子和码字的计算。同时,该方法可以提高图像场景分类的精准度。 论文的主要工作包括:提出一个图像主题描述,它允许主题特征可以快速被提取通过码本的线性映射。定义了表示的图像的主题特征,该特征表示了图像的场景环境信息(通过其尺寸可以灵活调整的特征向量),这使得图像可以根据场景进行现成的监督分类被提出的主题功能在特征提取上具有非常低的计算复杂度,这样很容易于场景分类的其他功能进行结合 ,在第2部分中,我们介绍我们的模型和算法。在第三部分中,我们描述了相关的工作。数据集,实验和研究的结果在第四节中被介绍。在第5部分中,我们讨论我们的结果和总结研究结果。最后我们在第六节总结本文。2 算法和模型 我们的算法是图1所示。我们将图像看做是一系列的码元,码元聚集在一起生成了码字,码字是是由码元聚类而成。一个完整的码字的集合形成了码本。每张图片表示为一系列码字。在训练集中,LDA模型通过码本建立,然后生成主题特征空间。在主题特征空间中每张图片的码字可以由我们提出的线性特征空间映射方法转化为特征向量 ,图像的标记特征向量用于训练监督式的分类器 。在测试集中,图像首先使用相同的码书来表示,然后相关的特征向量在特征空间中也是类似的。最后,测试集中的图像根据他们的特征向量通过训练的分类器进行分类。在本节中,我们将简单明了的介绍我们提出的线性映射方法,我们讨论所有其他步骤在2.1节、2.3节。2.1 特征和码书大多数对自然场景分类的非概率性模型主要集中在使用总体特征,列如,频率分布,边缘方向和颜色直方图2。在使用概率主题模型处理分类任务时,它将考虑图像本地区域的表现形式,局部特征被认为是对于遮蔽区域和空间变了=量具有更强的鲁棒性。四种不同提取局部特征的方法在6中被测试,这证明了这个128 -维的区域算子有更多有用的信息和更好的鲁棒性。这些局部特征已经广泛应用于场景分类。为了与其他模型进行对比,我们采用128 -维的区域算子在灰度强度内进行实验。在3、15中用的SIFT算子。与通常的SIFT算子的不同之处在于,它使用一个密集的正规的网格忽略SIFT算子标准化规程,当路径的整体梯度太弱的时候。为了计算每个码元区域算子,通过滑动网格的方式,一个图像首先分为重叠的码元。然后K均值聚类算法用于SIFT区域算子,(建立在滑动网格区域的SIFT算子被视为一个样本)和码字被定义为集群中心,所有这些形成码书。这个过程类似于用于(6、7、1)的过程,所采用码字的格式也都是相同的。2.2 模型结构总共只有K个,对于每一个topic,有一个 ,这些参数是独立于文档的,也就是对于整个corpus只sample一次。不像 那样每一个都对应一个文档,每个文档都不同, 对于所有文档都相同,是一个K*V的矩阵(K个topic,每个topic一个V维从topic产生词的概率分布)。Wmn和Zmn分别代表第n个密语及在第m个图像上他的对象。参数和是狄利克雷分布参数。在论文中,图4(a)表示生成和学习过程,16中,它基本上与在图711,中改进过的LDA模型相同,原k现在表示为k。注意,基于LDA的文本处理技术应用于图像处理,以及这两个术语之间的类比可以定义如下:码字w是一个图像的基本单位,被定义为一个从字典编码词索引的密码字典的成员;第V个密语由一个v矢量w表示。如果,那么不等于t。在图2中,w是一个隐含变量,一个码字相当于在文本处理中的一个单词。表示图像中的第n个码元,在文本处理过程中图像的等价物是一个“文档”。表示图像数据集。在文本处理,这是相当于“语料库”。现在我们可以写下通过LDA模型产生一个图像的过程1. 对对象和参数进行抽样;2. 对于数据集W中的图像 , 抽样对象概率分布m以及参数3. 对于在图像的第n个密语,(a) 选择潜在对象多项式(m)(b) 组成密语多项式m和k服从狄利克雷分布,这是多项分布的共轭优先分布。分布函数定义如下:2.3。参数估计:吉布斯采样器LDA模型的参数估计方法中:拉普拉斯近似17,变分推理18和马尔可夫链蒙特卡罗(采样)19。吉布斯抽样是MCMC中一个特殊的例子。当联合分布的维度较高时,吉布斯抽样可以产生相对简单的算子。每种评估方法都有其优点和缺点许多因素如效率、复杂性、准确性,为了选择一种恰当的推理算法所必须考虑概念的简单性。吉布斯采样器容易描述和实现,我们使用吉布斯采样器参数估计。我们的目标是评估后验分布,这个分布不能直接计算,因为在分母包含很多项不能被分解。然而,我们可以用吉布斯抽样解决这个问题,吉布斯采样每次只能采样一个潜在变量。更具体地说,这个模型样本的吉布斯采样器在码字w 的主题z避免估算实际参数m和k。一旦确定码字的对象,m和k可以从频率统计信息计算。最后的抽样公式如下16:2.4 带有主题特征的图像显示正如上面提到的,图像被视为一系列码字集成,图像场景分类任务是由使用一个类似的自然语言主题模型来实现。将LDA应用于自然语言处理的情况下,很容易获得在主题空间中新图像的展示。鉴于图片码字和一个被训练模型Mod,在码字上的一个潜在主题,可以通过下面的公式表示:图3表示图像M和的关系,图像的表示包含两部分,图像的码字和图像数据集的统计信息,需要指出的是:在新的图像上提取该特征是一个基于码字的线性映射过程,该过程需要很少的计算量。:3。相关工作当人们看到一幅图时首先考虑的是图像的内容而不是图像的低级特征。使用图像的语义信息进行场景分类更符合人的习惯。目前,有很多涉及使用图像特征的主题模型的文献 在使用BOW模型的一些案例中(没有空间信息),其中一些使用主题模型来描述图像,通过分类器进行分类。现有监督分类器1,22和14和基于推理和区别的新方法67用于分类。虽然我们的想法很大程度上是受这些文献的启发,它的优点是功能,主题和分类器是相互独立的,因此我们可以灵活应用的每个部分来提高算法的整体性能22。此外,它可以区分图像场景类别没有任何额外的分类器。如果我们只从分类的角度来看场景区分任务,这些方法有一个共同的特点:在图像标签在输入分类器之前已使用,无论是每个分类中产生主题区别6,1和14还是通过主体信息来培训隐藏的多样性7。 与方法6和1相比我们的方法不同的是图像分类过程中图像统计信息的收集是不明显的。这表示从一个监督分类的角度由不同的特性和标签。这样的大多数技术监督分类和功能是可以使用的。现有的方法不论为每个类建立一个LDA模块,建立诊断的话题,或者,使用更贴近我们的方法,使用视图的新形象的特征分类。应该指出的是,我们被称为字典方法本与他们通过简化新形象的表示(p(2.4节)z | w)是不同的。因此码字是线性和直接映射映射出局部特性,并且代表新形象的过程(9)和(10)可以省略。4实验和结果4.1数据集我们评估通过三个真实的数据集评估我们的方法:1。LabelMe数据集由奥利瓦和Torralba提供25;2。UIUC-Sport数据集由Li-jia Li和Li Fei-Fei提供12;3。15个场景数据集的由研究人员提供25,6和3。图4通过每个数据集显示了一些示例图像,通过内容进行总结:LabelMe:这是一个数据集关于八个自然场景分类,和包括2688个具有相同的大小为256256的彩色图像。包含360海岸,328个森林260高速公路、308个内部城市,374个山脉,410 开放城市,292条街,356 高建筑。我们在每个类使用100张图片用于培训其他用于测试。UIUC-Sport:这个数据集包括8复杂事件类别,包含1579个有不同的尺寸彩色图像。有194,个攀岩194,200个羽毛球类别图片,137个地掷球图片、236槌球图片等。我们把图片标准化为256256。我们的实验条件跟他们的实验条件一样15个场景:该数据集包含4485图像,其中8类和LabelMe数据集一样,其余7类由216个卧室类图片、210个厨房,241个郊区等图片组成。每个图像的平均大小大约是300250像素。我们正常大小为256256。用的方法和3和15一样,我们在每类中使用100张图片做训练其他做测试。4.2。LabelMe和UIUC-Sport为了和使用主题模型的方法比较我们评估我们的方法在LabelMe和UIUC-Sport数据集上进行试验,。我们使用SIFT矢量和码字以便于比较。在特征水平,我们使用一个类似于6和7网格抽样技术。在我们的实验中,SIFT算子是从1616像素码元中抽取出来的。128维SIFT向量中被用来代表每个码元。我们在每一个训练集上创建了一个视觉词典和主题模型,并获得具有240码元的字典。通过LDA模型生成的定义特征,在这个模型上实现无人监督的训练。,然后这些特性被标记,用于训练一个SAM分类器。图片通过码元本和p(z | w)映射到主题空间。算法的性能混乱表所描述的测试集通过在测试集的模糊表表示出来。通过我们的方法和文献方法的比较1.这是一个基于6提出的LDA方法,这个LDA可以用于学习每个类别的主体特征,而且可以通过使用贝叶斯方法分类图像。2.1中描述的方法通过在每个类别上应用PLSA学习主体特征。3.两种监督主题模型,多类SLDA和带标签的多类SLDA,对每一类构建主题模型并通过贴标签的先验概率估计对图像进行分类在场景分类的任务中(图5),我们的方法达到最高的平均分类精度(LabelMe数据集)。与7chong-wang相比错误至少减少4%,甚至更多我们的方法证明是很有效的。因为6采用LDA方法没有我们简单。同时在事件区分任务中达到了相对高的精度(UIUC-Sport数据集),高于chong wang6约4%,远比其他两种方法更好。图6显示了实验结果模糊表。模糊表中行代表模型的类别分类场景,列表示实际类别的分类场景。场景环境主导的方法展现了一个很好的分类结果,对于森林场景图片来说,精度达到95%。相反,更有趣的是,在开放性海岸这系统倾向于模糊,图片往往有着类似的场景环境。这是符合我们的直觉。应该指出的是,这些容易出错的类显示相对糟糕的结果。其他文献中6,7和1,其准确性是低于我们的方法。 为了解释这一现象在UIUC-Sport数据集中,在场景分类中场景环境至关重要;实际在文献【12】中描述的大多数例子中场景和对象的组合可以达到很好的性能。现场环境在事件类中占据主导地位是一个很明显的现象,如攀岩,,帆船和滑雪,我们的算法是有效的。无论现场环境是否占据主导地位,我们提出的方法取得了相对更好的结果。主题特征的数量对分类精度有着重要的影响。一般来说,一定范围内分类精度随着主题特征的增多而增加,然后开始减少。精度下降的现象被认为是。在过度拟合开始的值越大,这个模型可以处理的潜在特征就越多,图7强调了精确度和在LabelMe数据集上的主体特征数量的关系。随着主体特征的数量增加,我们的方法并不会在实验范围内出现过度拟合。然而1和6方法大约40个主题特征的时候就出现过度拟合。在7中大约100的主体特征时也开始出现。这表明我们的方法结合了生成和区别分类的方面我们的方法可以处理更多的潜在特征。4.3 15个场景在15个场景数据集上我们还尝试我们的方法。对于SIFT的向量的设置和4.2中是一致的。被应用在512个码字是为了表示更多的类别。 在实验中,我们将我们的方法与基本的BOW、sum-pooling、max-pooling基本的LDA方法、PCA方法以及空间金字塔匹配(SPM)方法相比较。1. 池的方法。在一个区域内把每个码字相加起来叫做和池,这个区域内最大码数值叫做最大和池,我们采用的是文献【26】中的方法,把每个整个图像看做一个区,映射成一个池。2. 带有吉布斯采样的LDA方法,这种方法主要采用的是论文【20】里的文本分析方法。它可以看成是不使用我们方法的LDA方法。而不是使用论文【20】里面说的判断相关特征的方法。为了和我们的方法相比较特征用矢量表示。在测试特征参数时我们使用逻辑回归的方法。3空间金字塔匹配(SPM)3。该方法把图像分割成一个逐步增长的子区域并用直方图计算它的特征,已发现每个子区域的特征。在论文里,测试特征参数我们用的是逻辑回归的方法而不是论文【3】里的空间匹配核加上SUV分类器。 4.主成分分析(PCA)。这是个技术广泛应用于图像分类。我们采用了99%的 PCA密语直方图作为特征。通过LDA的特征,我们需要评估特征的有效性,而不是SIFT特征提取的有效性。同样的方法的性能可能会改变当码字和元的设置不相同。例如,带SIFT算法的空间金字塔方法取得了81.4%的分类精度。但是,【15】的设置只获得了76.73%的精度,而且,在不同尺寸的码书上,我们建立池方法和最大池方法,这个性能也是不同的。因此,在实验中,通过相同的空间金字塔matalab代码,我们计算SIFT算子和码字。通过相同的主题建模工具箱和带有相同参数的LDA,我们建立LDA模型。这个实验设置了4种不同码元值,我们采用相同的逻辑回归模型去测试这些特征,在一个相似的特征维度上,为了和其它方法进行比较,我们设置了512主题特征。3. 表1显示了我们的实验的详细结果。我们的方法的性能优于所有那些没有空间信息的方法。尽管带有逻辑回归分类器的空间金字塔方法法实现精度低于带有支持向量机分类器的方法,它仍然比那些没有空间信息的方法表现的更好。因此,除了本文的高级特征,空间信息的图像场景分类也很重要。图8显示了实验结果模糊表。类似于LabelMe UIUC-sports数据集,场景环境占据主导地位的场景分类的分类表现更好5.讨论我们的实验结果表明,在分类精度上,我们提出的方法获取了一个明显的改善,与此同时,为了与其它模型做对比,我们限制我们的SIFT灰度特征。需要强调的是分类精度的改善是来源于我们的方法,而不是其它因素如特征定义图像的其它方面,和更强的分类器。通过与Bow和其它关于图像场景分类的方法相比,这些因素包括空间对象,用于改善图像场景分类的性能,这些方法可以和BOW模型结合起来。相反的是,没有主题模型,直接使用高级特征的方法也可以取得很好的效果。尽管Lazebnik声明高级特征和主题模型有相同的地位,一些新的特征被用来形成直方图。在这些因素方面,我们和chong wang 持有相同的观点。考虑这些因素也许可以大幅度提高分类精度,但是,他不能提供模型之间的精准比较。当我们考虑这些因素时,我们的方法也可以取得一个好的性能标准。相对于以上的优点有些方面还是需要改善的,在我们的方法中,我们使用的是灰度的SIFT算子作为图像信息的唯一来源,并且在数据处理过程中,标准化不同的场景特征概率。因此这个方法主要是为了提高自然场景特征性能。场景环境可以被准确表示为码元。同时,对象明
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 乡村舞蹈队管理办法
- 陕西采购管理办法
- 高校年薪管理办法
- 义乌低风险管理办法
- 石油库安全管理办法
- 高速路况管理办法
- 温岭市丧葬管理办法
- 专业分包管理办法
- 鸽笼粪便管理办法
- 鱼类检疫管理办法
- 2025中国临床肿瘤学会CSCO肿瘤厌食-恶病质综合征诊疗指南解读课件
- 中国平安钻石俱乐部课件
- 质量改进活动管理制度
- 现代农业技术专业教学标准(高等职业教育专科)2025修订
- 2025年广东省高考物理真题(含答案)
- 驾驶考试试题及答案
- GB/T 33523.700-2025产品几何技术规范(GPS)表面结构:区域法第700部分:区域形貌测量仪器的校准、调整和验证
- 2025年陕西高考语文试题及答案
- 人教版小螺号说课课件
- DZ/T 0179-1997地质图用色标准及用色原则(1∶50 000)
- 智能心理辅导系统-洞察阐释
评论
0/150
提交评论