




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 ,MATLAB程序设计(论文) 基于MATLAB实现语音信号的去噪 院(系)名称电子与信息工程学院 专业班级 学号 学生姓名 任课教师 论 文 任 务给定一段带噪语音(mp3文件格式) 1将带噪语音abc.mp3读入MATLAB内存2画出时域波形图,3画出频谱图4. 分析该段语音文件的频谱图5. 设计语音信号去噪方案6编写代码实现语音信号去噪7. 将纯净语音重新合成mp3文件8. 总结设计方案,分析实验结果,撰写论文基于MATLAB实现语音信号的去噪马 力(辽宁工业大学 电子与信息工程学院)摘 要:提出了一种图像型垃圾邮件的过滤方法,该方法不依赖于附属图像的文字信息,而是直接提取图像本身的视
2、觉特征,包括梯度直方图、颜色直方图和LBP特征。分析了支持向量机(SVM)算法,基于该算法实现了图像型垃圾邮件的过滤,实验结果表明,LBP特征的识别效果好于梯度直方图和颜色直方图特征。关键词:图像型垃圾邮件;特征提取;支持向量机 0 引 言 (论 文) 进入21世纪以来,随着计算机网络技术快速发展,电子邮件的应用也越来越普遍。将垃圾信息嵌入图像文件,并以附件或正文的形式发送的垃圾邮件被称为图像型垃圾邮件。图1是正常邮件图像和垃圾邮件图像的示意图。图像型垃圾邮件占用了大量的网络带宽资源,给邮件用户带来很多骚扰和麻烦。这些垃圾信息主要包括商品广告、欺诈信息和反动言论等,其恶意投送将侵占收件人信箱空
3、间,甚至造成邮件服务器拥塞。现有的垃圾邮件检测方法,能够过滤掉大多数图像型垃圾邮件,国内外的学者取得了大量的研究成果1。文献2利用文本定位的方法对图像垃圾邮件中文本区域的特征进行表示,进而通过SVM 算法进行分类。文献3利用图像的边缘角点信息与颜色特征识别垃圾邮件,基于SVM算法训练过滤器。文献4中利用梯度和颜色作为特征,来比较和验证SVM算法和 LS-SVM 算法的有效性。垃圾邮件制造者刻意对图像做各种变化增加了邮件监管的难度。 (a) 正常图像 (b) 垃圾图像图1 正常邮件图像和垃圾邮件图像垃圾邮件过滤系统的设计通常包括图像特征提取和分类器设计2大步骤。本文提出了一种图像型垃圾邮件分类方
4、法,图2 描述了该方法的框架。分类器模型训练样本待识别的邮件图像分类器学习特征提取判断为垃圾图像图2 图像型垃圾邮件过滤框架图1 图像特征分析 图像本身的内容是丰富和千差万别的,只有用一种简单模式描述图像的本质内容,才有可能完成图像的分类、过滤或识别任务。这种简单的模式被称为图像特征,可分为全局特征和局部特征,其提取过程通常包括2个步骤:其一是确定图像特征的位置或区域;其二是确定该特征的描述算子,经常用数学中的向量来表示。正常的邮件图像与垃圾图像是存在某些差异的,表示两类图像的特征模式也应有明显的区分。下面分别对梯度特征、颜色特征及LBP特征进行分析和说明。1.1 梯度特征一般可利用Sobel
5、算子来计算图像的梯度。图像f(x, y)在(x, y)点处的梯度可表示为: (1) 梯度向量的模值定义为 (2)为了提高图像特征的提取速度,可以简化近似为 (3)或 (4) 将归一化的直方图作为图像的特征向量,图3给出了图1(a)和(b)的梯度直方图。可以看出,正常邮件图像的梯度直方图分布较均匀,灰度变化缓慢,而垃圾邮件图像的灰度变化剧烈,而且分布较单一且比较集中。 (a)正常邮件图像的梯度直方图(b)正常邮件图像的梯度直方图图3正常邮件图像和垃圾邮件图像的梯度直方图1.2 颜色特征垃圾邮件图像由于嵌入了某些信息,通常其颜色分布较单一。利用这一特点可以将部分垃圾图像和正常图像区分开来。图4分别
6、给出了图1(a)和(b)的颜色直方图。通过对比看出,正常图像的颜色分布较为均匀且丰富,相反垃圾邮件图像的颜色直方图仅仅分布在其中的几种颜色上,变化剧烈。(a) 正常图像的颜色直方图(b) 垃圾图像的颜色直方图图4 正常邮件图像和垃圾邮件图像的颜色直方图对比1.3 LBP特征局部二值模式LBP (local binary pattern)是表示图像局部纹理特征的一种算子5,它计算复杂度相对较低并且效果比较好,因此常常将它用于图像的分类和识别6。1.3.1 LBP的定义起初LBP算子的定义是在邻域窗口内,通常选择3×3的窗口,将窗口中心像素的灰度值作为基准,分别与其邻域的8个像素的灰度值
7、进行比较。如果中心像素的灰度值大于邻域,那么此时邻域像素点的位置记为0,否则记为1,依次比较后可以得到一个8位二进制数,再将此转化为十进制数,用这个值来反映该区域的纹理信息。图5给出了一个具体的例子。原始的LBP特征被提出来以后,很多学者对其做了深入研究和改进。 图5 LBP描述算子的生成过程1.3.2 LBP的改进圆形LBP 算子。由于原始的 LBP 算子只能表示一个固定范围内的小区域的纹理特征,不能满足图像的灰度和旋转不变性,为了弥补这些缺点,提出了一种圆形LBP算子。其改进方法是用圆形邻域来代替正方形邻域,也就是将 3×3 邻域
8、扩展到半径为任意大小的圆形邻域,圆心为中心像素点,并比较圆心像素与其邻域点的灰度值。通常用符号为LBPP,R表示改进后的算子,即在半径为 R的圆形邻域内有P个像素点。图6示意了3种不同形式。图6 圆形LBP的3种形式LBP旋转不变模式(rotation invariant patterns)。由LBP的定义及图5 可以看出,原始的LBP 算子具有平移不变性和亮度不变性,但不具备旋转不变性。因此在圆形算子的基础上提出改进,方法为将圆形算子按顺时针(或逆时针)依次旋转,得到一系列初始定义的 LBP十进制数,将其中的最小值作为该圆形邻域最后的 LBP
9、 值。LBP等价类模式(uniform paterns)。定义一个半径为r的圆形区域,如果在圆内有P个采样点,以此计算的LBP算子则会产生2P种模式。因此随着采样点数的增加,二进制模式的个数将以指数形式递增,产生过多的模式种类,进而影响图像的纹理特征。当某个LBP所对应的循环二进制数(将最后一位和第一位连接起来)从0到1或从1到0的跳变次数不超过2次时,此二进制模式称为一个 “等价类模式”7。例如00000000跳变1次,10000111跳变2次。通常用符号表示等价类模式,rui2表示跳变次数不超过2。当LBP所对应的循环二进制数的跳变次数大于2次时,统一用P+1表示其十进制模式,称
10、为“混合类模式”。这样,模式种类的数量大大减少,可以有效地减少高频噪声的干扰。实验表明,在纹理图像中提取特征时,等价类模式占总模式的90%左右8。(a)正常邮件图像的LBP的统计直方图(b)正常邮件图像的LBP统计直方图图7 正常图像和垃圾图像的LBP统计直方图特征实际应用中通常采用LBP特征的直方图作为特征描述算子。图7给出了LBP特征的统计直方图的例子(对应的图像参见图1)。可以看出,正常邮件图像和垃圾邮件图像的LBP统计直方图的区别还是比较明显的,因此可以采用LBP表示图像的模式类。为了增加对图像位置信息的描述,通常的做法是将图像分成若干个小区域,然后分别提取每个小区域的LBP直方图,对
11、其做归一化处理后,将每一个小区域的LBP直方图连接成一个矢量,即为描述整幅图像的LBP特征。2 SVM 分类算法 支持向量机(support vector machine,SVM)是基于统计学习理论的机器学习方法,它由Boser、 Guyon和Vapnik在COLT-92上首次提出。SVM有完善的数学理论基础,并在处理非线性及高维模式识别中有突出的表现9,已广泛地应用到文本分类、图像识别和金融风险评估等领域10。下面以两维数据为例,图8中实心点和空心点分别代表两类样本,H为分类线,延伸到高维空间,分类线就变成分类面,如图8所示,H1、H2为两条平行于H的直线,并且H1,H2分别通过距离分类线最
12、近的两类样本点(空心、实心点),并将H1、图8 两维数据线性可分情况下的最优分类面H2上的点称为支持向量。H1与H2分别到H的垂线段之和即称为分类间隔(margin)。如果H1和H2之间的距离最大,并且可以将两类样本正确区分,那么此时的分类线H即为最优分类线。由图8可得,分类线(高维为面)方程为,对它进行归一化,使得对线性可分的样本集,满足条件1。还可以推导出: (5)和 (6)延伸到高维空间,求最优分类线的问题就转换为求最优超平面,最终归结为二次最优化求解问题。而分类间隔等于,使间隔最大等价于使最小,位于H1、H2上的训练样本点是最难分类的,被称为支持向量。目标函数为: (7)满足约束条件:
13、 (8)只要求得该问题的最优解、,从而构造最优超平面,进而求出分类函数。理论上可以证明,若训练集线性可分,那么用最大间隔法求出的最优分类超平面存在且唯一11。在样本数目n特别大的时候,可以将二次规划问题转化为其对偶问题: (9)需要满足的约束条件为: (10)分类函数为:(11)式中为每个样本对应的拉格朗日算子,其中优化函数(9)和分类函数(11)都是求训练样本之间的内积运算。如果核函数满足Mercer条件,它就对应一种内积运算。因此,在求解最优分类面时,只要选择适当的核函数,就可以通过非线性变换实现线性分类。由于确定核函数的已知数据未必能真正代表所有样本,考虑到推广性,引入了松弛项以及惩罚系
14、数,来加以校正,则公式(7)中的目标函数为: (12)约束条件为: (13)其中体现了训练集被错分的情况,作为一种度量来描述错分的程度,体现了经验风险; 则体现了此算法的表达能力;惩罚参数c则是在经验风险和表达能力匹配二者之间寻求一个折衷。3 实验结果实验采用的样本数据来自 SpamArchive 数据集12。随机选取70%作为训练样本,30%作为测试样本。SVM算法的实现采用了台湾大学开发的软件包LIBSVM13。核函数的类型和惩罚参数c的取值通过交叉验证方法得到。表1给出了提取3种不同图像特征时的识别结果,在表1中精确率(Precision)的计算公式定义为 (14)式中:TP是被判定为正
15、常图像,实际也是正常图像的数量;FN是被判定为垃圾图像,实际是正常图像的数量;TN是被判定为垃圾图像,实际也是垃圾图像的数量;FP是被判定为正常图像,实际是垃圾图像的数量。由表1的对比结果可知,LBP特征的识别效果较好。表1 提取三种不同特征的识别结果 图像特征核函数类型惩罚参数c精确率/%梯度直方图RBF核函数2.076.13颜色直方图RBF核函数2.078.34LBP特征RBF核函数2.092.05 由于惩罚参数c的取值直接影响分类器的性能。因此在假定核函数类型和确定选取图像特征的基础上,通过大量实验来确定惩罚参数c的取值。表2给出了不同的惩罚参数c的取值,所对应不同的识别结果的精确率。通
16、过对比结果可知,c取2.8时,识别效果较好。表2 选取不同的惩罚参数c的识别结果惩罚参数c核函数类型图像特征精确率/%2.0RBF核函数LBP特征92.052.2RBF核函数LBP特征92.502.4RBF核函数LBP特征92.732.6RBF核函数LBP特征92.732.8RBF核函数LBP特征92.953.0RBF核函数LBP特征92.953.2RBF核函数LBP特征92.50表3给出了选取不同的核函数及其所对应的精确率。通过对比结果可知,选取RBF核函数时,识别效果较好。表3 核函数类型 核函数类型图像特征惩罚参数c精确率/%线性核函数LBP特征2.892.05 多项式核函数LBP特征2
17、.852.50RBF核函数LBP特征2.892.95Sigmoid函数LBP特征2.890.45图9 为ROC性能曲线(Receiver Operating Characteristic),分类准确率达94.26%,误报率为9.95%,且此时ROC 性能曲线下的面积达 92.15%,分类效果较好。图9 ROC性能曲线在ROC性能曲线中准确率(True Positive Rate, TPR)和误报率(False Positeve Rate, FPR)的计算公式为: (14)TPR是指把正常邮件判定为正常邮件的概率,FPR是指把垃圾邮件判定为正常邮件的概率。4 结论随着垃圾邮件图像的迅速增长,相关
18、部门的监管力度也在不断加大,有必要深入研究图像型垃圾邮件过滤技术。本文对比了图像的梯度、颜色和LBP特征在图像型邮件过滤技术中的应用,实验结果表明,LBP特征更适合图像型垃圾邮件过滤任务。采用SVM算法实现分类器的分类功能,进而利用某种核函数将原始空间的非线性问题有效地转化为高维空间的线性问题,将复杂问题简单化,不失为一种好的方法。参考文献:1 Battista Biggio, Giorgio Fumera, Ignazio PillaiA survey and experimental evaluation of image spam filtering techniquesJPattern
19、 Recognition Letters, 2011, 32(10): 1436-14662 耿技, 万明成, 程红蓉基于文本区域特征的图像型垃圾邮件过滤算法J计算机应用,2008,28(8):1904-19063 刘峤,秦志光,程红蓉等基于颜色和边缘特征直方图的图像型垃圾邮件分类模型J计算机应用,2010,27(7):2608-26164 刘芬,帅建梅基于梯度和颜色特征的图像垃圾邮件过滤J人工智能及识别技术,2010,36(16):157-160.5 Ojala T, Pietikäinen M, Harwood D. A Comparative Study of Texture Measures with Classification Based on Feature DistributionsJ. Pattern Recognition, 1996, 29(3): 5l-596 赵建民,朱信忠,江小辉基于改进型LBP特征的人脸识别方法研究J2009,36(8):276-2807 Ojala T, Pietikainen M, Maenpaa TMultiresolution gray-scal
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国机械打浆机市场调查研究报告
- 2025年中国机动车动力系统市场调查研究报告
- 2025至2031年中国脱硫醇活化剂行业投资前景及策略咨询研究报告
- 5.客运值班员项目三运输生产管理车站基础运作34课件
- 2025届河北省金太阳-邢襄联盟高三上学期开学考(25-05C)-历史试题(含答案)
- 2025年中国数显钟控全波段收音机数据监测报告
- 新疆机电职业技术学院《细胞遗传生物学技术》2023-2024学年第二学期期末试卷
- 襄阳汽车职业技术学院《大学生健康适能》2023-2024学年第一学期期末试卷
- 医药工业数智化转型实施方案(2025-2030年)
- 新疆体育职业技术学院《铁路旅客运输组织》2023-2024学年第二学期期末试卷
- 海上CANTITRAVEL平台桩基施工关键技术应用v7
- 2024年4月自考08229计算机统计分析方法试题
- 有色金属冶金概论课程教案
- 华为MA5800配置及调试手册
- 中国生产安全行业市场运行动态及投资发展潜力分析报告
- 【真题】2023年镇江市中考化学试卷(含答案解析)
- 2023-2024年电子物证专业考试复习题库(含答案)
- 安全生产培训课件:机器设备安全操作规程
- 针刺伤预防与措施
- 血液净化中心信息化管理系统
- 【海信电器公司员工激励机制问题和完善对策分析(附问卷)】13000字
评论
0/150
提交评论