一种通过离散余弦变换实现快速场景分类的方法

上传人：1*** IP属地：湖北上传时间：2022-03-02 格式：DOCX 页数：10 大小：854.38KB 积分：30 举报 版权申诉

已阅读5页，还剩5页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、2014年第七届国际图像与信号处理一种通过离散余弦变换实现快速场景分类的方法Ce Li1,2, Ming Li1, Meili Xiao1 Zhijia Hu1, Xiuxun Miao1, Zhengrong Pan11电气与信息工程学院 2工智能与机器人研究所兰州理工大学西安交通大学兰州730050，中国西安710049，中国摘要场景分类是计算机视觉中一个热点问题。在本文中，提出了一种基于离散余弦变换（DCT）域的新的快速场景分类方法。首先，我们将整个图像无重复地分割成同样大小的几个区域，在分成的B * B的每个子图像区域进行DCT变换。其次，通过三种方法扫描每个DCT块上的AC系数

2、。在DCT块中提取的特征向量，基于AC系数的相关性建模。最后，用之前得到的特征向量，使用一对支持向量机的训练分类器。实验结果表明，所提出的方法是有效的图像分类。索引词汇场景分类；离散余弦变换；方向性；多分辨率；压缩域。I.引言面对巨大的图像数据量，用传统的方法，如人工分类和标签变得不切实际。如何使计算机自动在不同的场景使用图像分类和标签，在计算机视觉领域中是一个非常重要的研究课题。场景分类的目的是试图建立低层次的特征描述和高层知识之间的关系，识别和解释场景的语义范畴。场景分类的方法主要包括两大类别。一种是直接提取低级别的特征，是利用底层特征到高层信息映射过程。根据特征值的不同来源，这种分类方法

3、可以分为全局特征和局部特征提取。全局特征主要包括vailaya的 1 的层次分类方法。是基于局部特征提取的分类方法第一次提出了szununer 2 ，它没有独立的图像子块分类，使用多数表决分类器获得最终的结果，将图像分为室内和室外场景。另一种方法是基于中间模型的特点，这是建立低、中、高级分别对场景图像的语义表示。这种方法也可以分为两类。一种是基于在视觉词汇包 3 ， 4 。评价要点图像中的第一个，然后定量局部描述表在关键点获得的视觉码表，统计图像视觉单词（直方图）的发生频率，最终建立图像的状态包。第二方法是基于中间语义。奥利瓦等人。 5 使报表的场景的内容结合全局和局部图像场景的属

4、性。描述从一组几个滤波器的输出能量的计算机。过滤Gabor滤波器调谐到8个在4个不同的尺度。滤波器对输出每个4 4网格进行平均，。最后使用一种基于这些场景图像神经网络分类状态。现有的图像分类方法都是针对未压缩图像。然而，大多数互联网上的图像通常存储在压缩域如JPEG。由于JPEG图像可以减少存储空间和大大提高下载速度，被广泛应用于网络图像。因此，建立一个可以应用到压缩域场景分类模型是非常必要的。为了提高分类系统的速度，我们提出了一种基于离散余弦变换（DCT）场景分类方法，它具有以下新的内容：1）可以大大的提高提取其高速的分类系统DCT系数其性能作为场景分类的特征向量。II）可用于在不完全解码的

5、DCT编码图像数据的DCT压缩域。，图像从压缩域特征向量可以得到直接。本文的其余部分组织如下。在第二部分所展现的是场景分类方法的细节描述。第三部分中给出了实验结果。最后的一部分是论文的结论。II.场景分类模型“Z”型扫描建立的子图像块I建立的子图像块IISVM分类器微分向量特征向量DCT变换原始图像水平扫描微分向量垂直扫描微分向量图1：流程框架在本文中，提出的场景分类方法实施过程主要分为以下四步骤：i）将整个图像划分为无重复的同样大小的几个区域，用公式B * B（B = i * 8 ，i = 1,2······）在每个单独的子图像区域

6、上做DCT变换；II）通过“Z”型、水平和垂直三种方式扫描每个DCT块的AC系数，基于DCT块和AC系数之间的相关性建模；III）通过第二步从DCT系数中提取特征向量；IV）用得到的特征向量，使用一个对多训练支持向量机分类器得到最终的分类结果。该场景的框架分类模型如图1所示。A. 二维DCT变换相应的二维逆DCT变换定义为：此处：F(u,v)表示的是DCT变换后的矩阵系数，f(i,j)表示的是DCT变换前的系数，(u,v)，(i,j)是坐标矩阵系数。B. 基于DCT系数的特征提取图2：在8X8的DCT块中DC，MF，HF的分布在现有的工程 7 ， 8 表明，DCT系数具有多分辨特性。DCT系数

7、的分布如图2所示。在图2从左上角到右下角不同地区的颜色对应的低频（LF），中频（MF），高频（HF）的DCT系数分别为 9 ， 10 。在88块的63个DCT系数，由一个直流系数和交流系数组成。前几个低频系数包括大部分的能量，它们表示背景，图像轮廓。在DCT系数量化的过程中高频系数被忽略，因为他们几乎接近于零。在本文中，场景分类的特征向量是通过DCT块矢量中的AC系数差异获得的，目的是计算出矢量差获得11, 12的相关系数。场景分类模型所提出的方法的特征提取过程可以概括为：a）全局图像块：将整个图像分为M*M个大小相同且不重复的块，其中M=2i , i=1,2,3如图3中所示；图3：构建全局

8、图像块的例子。b）局部图像块的DCT变换：在B*B区域内的每个子图像块做DCT变换第一步除以B,B=i*8,i=1,2,3得到的DCT系数矩阵，具体过程如图4所示；c）提取DCT系数：在每个DCT块中通过“Z”型 13，水平，垂直三种方式扫描AC系数，如图5所示（88的DCT块为例，箭头的方向表示扫描序列）。分别提取第一个20AC系数，得到三个一维向量Vz，Vh和Vv（下标分别代表“Z”型扫描，水平扫描和垂直扫描）；d）计算的有限差分向量：三个一维向量Vk，k=z，h，v，第一步分别按照公式（3）计算有限差分向量，得到三个一维有限差分向量Dk，k=z，h，v，𝐷𝑘

9、; (𝑖) = 𝑉𝑘 (𝑖) 𝑉𝑘 (𝑖 + 1) (3)这里i = 0,1.n-1，n是所选择的低中频AC系数，.是积分算子，| . |是绝对值算子； d）计算在DCT块中在同一个子图像块中的有限差分向量：在所有DCT块中，在一个子图像块中的除以第一步，计算平均有限差分向量，k=z，h，v相应的三种扫描方式。把三个平均有限差分矢量扫描方式在一个子图像块的级联，得到有限差分向量B的子图像块b=cat（）k=z，h，v； f）获得特征向量：把所有一系列的子图像块的差分向量为featur

10、evector=cat（bn），n=1,2.M*M（M*M是整个图像的子图像块的数量），整个系统可以获取图像的M*M * 3 * 20维特征向量。图4：例如在局部图像块的DCT变换（a）原始图像；（b）MM个子图像块；（c）在一个BB的大小子图像块的DCT系数块的数量。图5：扫描DCT系数块的三种方式。（一）“Z”型扫描；（b）局部的水平扫描；（c）局部垂直扫描。III实验结果在本文中，实验使用场景图像数据库是奥利瓦和托拉尔瓦 5 提出的图像数据库，包含2688个真实场景图像。1472自然场景，它们分别是：海滩（360），林（328），山（374），开放

11、的国家（410），另外1216的合成场景图像，城市（308），公路（260），街道（292），（356）高层建筑。图6（a）和（b）图给出的是自然场景的一个例子，分别合成场景图像。此数据库中的所有图像的大小为256256色图像。实验结果环境是在Matlab7.0，CPU是英特尔酷睿i5 3.30GHz，RAM是4.00GB。图6：在数据库中的样本图像。（a）自然场景图像；（b）合成场景图像。A. 场景分类及相关参数的探讨图7：在不同的核和训练样本中的分类精度。与先前得到的特征向量，使用一对训练支持向量机分类器。无论是影响全局规模的变化和局部的粒度计算，在全局规模= 4的特征向量，局部

12、的粒度= 8。支持向量机的正则化核函数是通过交叉验证调整。分别选择50，70，60，80，100，90，每一类随机图像作为训练样本，数据库中的所有其他图像作为测试样本。从五次随机训练和测试的平均分类精度评价结果。如图所示，在图中，我们可以看到，在每个训练样本的增加从50到100的图像的数量，提高了所有核的平均精度，使直方图交叉核具有最高的分类精度。因此，我们在100个固定的训练样本数中选择直方图交叉核函数。紧接着，讨论特征向量的影响在不同尺度和粒度对场景分类。我们提取特征向量在四尺度和四尺度。在我们的实验中，我们选择M = 1 2 4 8 和

13、B = 8 16 32 64。表一显示分类实验的详细结果，最好的分类结果为M = 4，B = 8。因此M = 4，B = 8是最好的选择。表一：不同规模、不同粒度下的分类结果图8：在基于DCT系数的功能类别混乱的模式。被组织为场景如下： 1海滩，2森林，3公路，4市，5山，6开放的国家，7街，8高层建筑。选择M = 4，B = 8，使用多个分类混淆矩阵方法的性能评价，这是许多语义类的分类性能，表的X轴代表预测场景类，而Y轴代表真实的场景分类。从图中，我们可以看到各种场景类之间的分类错误率保持在一

14、个较低的水平。其中，高层建筑现场取得了最高的分类精度，而最低的是户外场景。高层建筑现场主要包括垂直结构决定了其显著的方向特性，因此这类场景类中的小的变化；森林场景主要包括质地致密结构（叶），向上生长的树木，也实现了较高的分类精度以及高层建筑场景；相反，开放的国家有山，河，在场景树等，容易与数据库中的其他自然场景的困惑。此外，公路场景，户外场景和海岸的场景主要包括天空、道路，天空和草地，从上面的天空和大海的底部分别，他们对整个布局结构都是相似的，具有显着的水平能量和相同的观察大体尺寸，因此公路，开放的国家，海岸风光，有一定的错误分类，如图8所示，野外现场制作的最大误差率的海滩，他们分别是15.7

15、7%和14.84%。此外，城市中含有大量的场景中的建筑物，容易混淆的高层建筑的场景。为了进一步提高分类精度，B = 8的条件下，级联在M = 1 2 4 8 14 矢量。分类结果如表二。我们可以从表二看出，级联后分类精度提高1%左右。表二：特征向量级联分类结果B. 与其他方法相比利用所提出的方法的性能与奥利瓦和托拉尔瓦的空间包络 5 和Itti模型依据模型 15 在分类精度和分类速度比较。比较结果如表三所示。表三：在OT场景数据库中比较性能以及空间分类的依据，表层，DCT变换，多尺度DCT变换如数据表III所示，所提出的方法取得了较好的分类结果。我们的分类方法速度显著高于其它两种方法。它大大提

16、高了分类速度。所提出的方法的分类精度略低于空间包络的方法，但它比ittis依据分类方法明显。 IV结论基于DCT系数的多分辨率特性，本文提出了一种DCT域中的快速的场景分类方法。这种方法首先进行分块DCT变换的场景图像，然后提取低频交流系数可以反映出图像的特征作为特征向量，最后使用SVM分类器做场景分类的特征向量。通过实验结果，我们可以看出，所提出的方法是有效的。本文所提出的方法具有很强的大多数户外场景特征描述能力。特别是，海岸场景主要包括天空，海洋和海滩地区，开放的国家有大面积的草地，山，天空、河流，它们都属于户外场景，它在每个子区域，子块的反映了场景的整体布局的良好关系。我们的方法既不需

17、要的场景预分割，但也削弱了识别任务的具体目标。同时，我们的方法反映了人们获取场景主旨迅速有效的能力，这是非常重要的。有很多场景，包括各种各样的局部细节，像城市场景中包含许多复杂的局部结构，如各种建筑物，街道，车辆交织在一起，具有很大的类内的变化。这些场景，我们的方法的特征的描述能力略显不足。此外，该方法还可以用于压缩域。实验结果表明，在DCT块的大小88是最好的精度。因此，与部分译码（只需要熵解码）离散余弦变换编码的图像数据，该图像的特征向量可以直接提取压缩域无DCT变换。换句话说，这种方法可以减少场景分类的时间。它提高了分类系统的性能有很大的。与现有的场景分类模型在压缩域实现相比，该模型将图

18、像数据库的动态管理非常方便，特别是基于互联网的图像分类。这种方法是针对灰度图像不包含颜色信息。由于颜色特征的场景分类是非常重要的，为本文的下一步，我们将添加颜色信息的特征向量，进一步提高分类精度。致谢本文部分是由中国国家重点基础研究项目（973计划）资助，批准号no.2010cb327902，中国国家自然科学基金（61365003，61302116），中国博士后科学基金（2014m550494），中国自然科学基金甘肃省和甘肃省基础研究项目部财政补助批准号no.1308rjza274（2013.116）。参考文献 1 . A. Vailaya, and M. Figueiredo. 内容基于空间

19、图像分类的层次。IEEE多媒体计算与系统和IEEE国际会议。第1卷，pp. 518-523，1999年7月。 2 M. szummer和R. W. PicLtrd。室内外的图像分类。IEEE国际研讨会上的基于内容的图像和视频数据库访问程序，结合ICCV，pp. 42-51，1998。 3 C. Dance, and J. Willamowski.大量视觉分类的关键点。ECCV国际计算机视觉研讨会的统计学习，布拉格，2004。 4 J. Y. Liu和Y. Z. Huang. 分层特征编码的图像分类。神经计算。/10.1016/j.neucom. 2014. 04. 022. 5 A. Oliva.场景的形状建模：空间包络的整体表现。国际视觉计算机，Vol. 42，pp. 145-175， 2001年5月。 6 G. K. Wallace.JPEG静止图像压缩标准。通信。ACM，卷34，页4号，数量，四月1991。 7 X. L. Huang 和 S. L. Sun.基于DCT压缩域的图像检索。电子学报，Vol. 30，pp. 1786-1789， 2002年12月。 8 X. L. Huang

人人文库> 全部分类> 教育资料 > 备课教案

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

一种通过离散余弦变换实现快速场景分类的方法

文档简介

温馨提示

最新文档

评论

一种通过离散余弦变换实现快速场景分类的方法

文档简介

温馨提示

最新文档

评论

相关文档