




文档简介
山东轻工业学院 硕士学位论文 基于小波分析的基因芯片数据的特征提取 姓名:刘玉杰 申请学位级别:硕士 专业:计算机应用技术 指导教师:刘毅慧 2011-06-10 山东轻工业学院毕业论文 i 摘摘 要要 基因芯片技术是基因组信息学研究的基础,在基因水平上研究癌症提供了支持。基 因芯片是一种有广泛应用前景的分子生物学技术。 在基因芯片的应用过程中会产生大量 数据,通过处理、分析、提取等步骤,可以得到基因芯片中有价值的生物学信息。特征 是保持基因芯片数据真实性的量度,并且只含尽可能少的冗余信息。基因芯片数据的高 维性和小样本问题也需要进行降维和特征提取。基因芯片数据的模式分类问题,通过特 征提取可以提高正确分类率。 本文分别提取小波分解的低频系数和高频系数表征基因芯 片数据的特征,用 k-fold 交叉验证的方法划分基因芯片数据训练样本集和测试样本集, 评估不同小波函数多尺度分解以后的分类效果。 特征提取和分类是模式识别中的关键问题, 本文着重研究基因芯片数据的特征提取 和分类问题。本文结合小波分析理论和支持向量机理论,构造分类器模型,将前列腺癌 基因芯片数据分成癌症和正常两种。 本文提取小波低频系数表征原始数据并送入支持向量机分类器分类,实验证明:提 取 db2 小波 3 层分解下的低频系数, 5-折交叉验证, 分类器分类后正确分类率是 92.46%。 haar 小波的正确率是 92.88%。可见提取不同小波低频系数,分类效果相差不大。 本文提取小波高频系数表征原始数据的特征, 并通过实验对比小波高频系数和低频 系数特征提取对分类器性能的影响。其中 db4 小波 4 层分解提取高频系数,送入分类器 分类后, 5 折交叉验证, 得到的正确分类率为 92.39%。 haar 小波 4 层分解提取低频系数, 送入分类器分类后,5 折交叉验证,得到的正确分类率为 92.94%。小波低频系数特征提 取分类效果总体上好于高频系数,分类器性能稳定。 关键词关键词:小波分析;支持向量机;前列腺癌基因芯片数据;低频系数;高频系数 山东轻工业学院毕业论文 i abstract microarray technology is the basis of the genomic informatics research, provide the support for cancer researches at the level of genomes. microarray technology is one kind of molecular biology technology, which has wide application prospects. microarray will generate a lot of data through the processing of dealing, analysis and extraction methods. we can get the valuable biology information in the process of application. the characteristic is to keep microarray data authenticity and contains redundant information as little as possible. the high dimensionality and small sample size challenge the pattern recognition methods. to the pattern classification of microarray data, feature extraction can improve the correct classification rate. we get the wavelet low-frequency and high-frequency coefficients for feature extraction as the characteristic of the prostate cancer microarray data, k-fold cross-validation is used to divide the overall data into training and testing subset, assess the classification performance using different wavelet function of different decomposition levels. feature extraction and classification are the key issues in the pattern recognition field, which is the aim for the thesis of the microarray data. in the paper, we use the wavelet analysis theory and the support vector machine theory to build a classifier which can distinguish cancer tissue from prostate cancer gene microarray data. we extract the wavelet low-frequency coefficients to characterize the features of prostate cancer gene microarray data, then feed the coefficients to the classifier. in these experiments, we extract db2 wavelet low-frequency coefficients at level 3 and the correct classification rate is 92.46%. the correct classification rate of the haar wave is 92.28%. both of the two waves use 5-fold cross-validation. there is little difference using different wavelets. we extract the wavelet high-frequency coefficients to characterize the features of prostate cancer gene microarray data in contrast to the low coefficients. we extract db4 wavelet high-frequency coefficients at level 4 and feed the high-frequency coefficients to the classification. the correct classification rate is 92.39%. we extract haar wavelet low-frequency coefficients at level 4 and feed the low-frequency coefficients to the classification. the correct classification rate is 92.94%. both of the two waves use 5-fold cross-validation. the wavelet low-frequency coefficients for feature extraction are better than high-frequency coefficients. the classification modle is very stable. key words: wavelet analysis; support vector machine; microarray data; low-frequency coefficients; high-frequency coefficient 学位论文独创性声明 本人声明,所呈交的学位论文系在导师指导下本人独立完成的研究成果。文中引用 他人的成果,均已做出明确标注或得到许可。论文内容未包含法律意义上已属于他人的 任何形式的研究成果,也不包含本人已用于其他学位申请的论文或成果,与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 论文作者签名: 日期: 年 月 日 学位论文知识产权权属声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归属山东轻工业学 院。 山东轻工业学院享有以任何方式发表、 复制、 公开阅览、 借阅以及申请专利等权利, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,本人离校后发表 或使用学位论文或与该论文直接相关的学术论文或成果时, 署名单位仍然为山东轻工业 学院。 论文作者签名: 日期: 年 月 日 导 师 签 名: 日期: 年 月 日 山东轻工业学院毕业论文 1 第 1 章 绪论 1.1 研究的背景 随着人均寿命的不断延长和人们生活水平的提高, 癌的发生率在全球范围内呈显著 增长趋势,癌症是一种可以快速产生异常细胞的恶性肿瘤或赘生物,这些异常的细胞可 以扩散并侵袭身体的其他器官。通过转移导致癌症致死。美国每年有 30 万以上人口死 于肺癌、乳腺癌、结肠癌、前列腺疾病。我国癌症患者近几年呈现上升趋势,癌症患者 数量增加,癌症成为人类致死的第一位或者第二位原因1。预防和治疗癌症迫在眉睫。 癌症是先天遗传和后天因素导致的,如:基因突变导致的染色体缺失、增加。先天 的基因缺陷加上后天的环境诱因, 引起细胞不稳定性和异常性的积累, 最终导致了癌症。 从本质上讲癌症是基因病,各种致癌因素引起 dna 序列发生异常。癌症的临床表现与 潜在的基因表达异常有关联,某种特定癌疾病患者背后潜藏着共同的病理特征,识别癌 症相关基因可以预测临床表现。 前列腺癌属于泌尿系统癌症,是男性生殖系统最常见的恶性肿瘤,前列腺癌的病因 尚未查明,可能与遗传、基因突变、生活习惯、环境、性激素等有关,主要发生于老年 人,年龄越大发病率越高,青年人几乎不发病。基因表达异常是前列腺癌疾病的主要原 因。从基因的角度分析、预测前列腺癌给患者带来了福音,从基因的角度分析前列腺癌 也是一条全新的途径,减轻了患者前列腺手术的痛苦。目前国际上使用微阵列技术来研 究恶性、初期、晚期、雄激素依赖性等前列腺癌基因表达图谱的差异。 基因微阵列技术(芯片技术)运用含基因探针的芯片来测定正常和患病样本中特定 基因的表达水平,实现对基因的准确、快速、大信息量的检测,然后通过特征提取和分 类操作区分正常和癌症类型,临床医生根据检测的结果选择合理的治疗方案,提高人口 素质和健康水平。基因芯片上的海量数据通常具有高维度的性质,需要进行降维处理。 小波分析是一门新兴学科,当初是在应用数学的基础上发展起来的。小波分析是时 频分析工具,小波分析的研究在国际上比较热门。小波分析在计算机应用、图形分析、 信号处理以及工程技术、ct 成像、量子理论、机械故障等方面有广泛的应用,小波分 析可以应用于基因芯片数据的分析, 本文主要应用小波分析多尺度分解处理前列腺癌基 因芯片数据2。 支持向量机算法是统计学习理论的 vc 维理论和结构风险最小化的具体实现,支持 向量机学习能力很强大,支持向量机集优化、核、最佳推广能力等特点于一身,在国内 外学术界受到广泛重视。支持向量机(svm)应用广泛,已经应用到不同的领域中,例 如:在手写体数字识别、人脸识别、身份及指纹验证、故障诊断、分类聚类、生物信息 学中的蛋白质分析、时间序列预测、金融、波谱分析、生物医学、目标识别、数据挖掘 第 1 章 绪论 2 、文本挖掘、文本分类、自适应信号处理、人机对话、岩爆预测方面均有应用。 支持向量机解决线性数据和非线性数据的分类问题。引入核函数有两种方法,要不 是将样本映射到高维空间中,在高维空间中求内积。要不就是采用某种方法,不是显式 的将样本映射到高维空间,而是隐式的将样本映射到新的高维空间,在输入空间中直接 计算出内积。支持向量机核函数选择指的是第二种情况,将高维空间的内积计算转变成 在低维输入空间的内积计算,减少了高维数灾难。 本文正是在上述大背景下,运用小波分析的特征提取和支持向量分类机的技术,研究生 物信息学基因芯片在临床医学诊断中的应用。 1.2 国内外研究现状及课题意义 随着人类基因组计划的完成,基因芯片技术越来越成熟,癌症的研究随之步入新时代。 基因芯片技术的研究具有划时代意义。基因芯片能够检测基因的表达,具体方法是在属性阵 列上对每一条基因进行定量表示3。在基因组水平上进行癌症研究,受到国内外生物信息学 和医学研究领域研究学者的广泛重视。 癌症具有隐蔽性和复发性,临床诊断与分类成功率较低。dna 基因芯片中有海量数据, 特征属性通常有 5 00015 000 维,此外还含有噪声数据。从这些海量数据中进行有效的特 征提取和选择,可以增强癌症治疗的成功率。1999 年 golub 等人在白血病基因芯片数据上 成功识别基因并进行诊断与分类。基因表达异常是癌症疾病发生的主要原因4。目前的基因 芯片数据分析方法分为有监督学习和无监督学习。 有监督学习预先知道类别标签信息学习 有用的模式结构,在训练集中选择关键基因,在测试集上验证分类率。无监督学习能够发现 未知的结构模式,具有无偏性学习。 癌症基因芯片的数据分析要求能够识别差异、 变异表达基因并进行筛选、 诊断和分类5。 目前,国内外研究和探讨基于基因芯片数据的特征提取和选择分析技术较多。khan 等人用 人工神经网络技术进行 srbct 癌症的诊断与分类6。dudoit 等人系统比较了五种常用分类 器,认为对角线线性分类器和最近邻分类器拥有最好的分类效果7。statnikov 等人对各种分 类器模型进行评价,认为支持向量分类机有最高的分类精度。 癌症基因芯片具有海量高维数据,实际诊断与分类应用中还面临着样本数目小的问题, 高维度属性值与高噪音高变异问题又导致癌症基因芯片数据诊断分类精度不高。目前特征提 取的方法主要有信噪比法8、最小二乘法9、相关系数法10、t-test 法11、独立分量分析法12、 小波分析法13等。其中:最小二乘方法能够降低基因维数,让癌症类别信息参与新变量的产 生过程,有效利用了样本的类别信息,但是最小二乘方法存在收敛问题。其中:用小波分析 理论对前列腺癌基因芯片数据进行分解、降维处理,在小波低频系数矩阵或者小波高频系数 矩阵进行特征定位和特征提取,可以近似逼近表示原始数据。golub 等在 1999 年第一次基于 t 统计量的分析方法建立分类器对白血 山东轻工业学院毕业论文 3 病样本进行分类识别8。t-test 方法是独立样本的一种假设检验方法,判断两个平均值 在设定的条件下,是否存在满足条件的差异,并研究两个平均值之间的变化大小,观 察是否有显著区别。小波分析法是运用小波多尺度时频分析方法,将原始数据分解为 不同层次上的低频和高频信息,而且小波多尺度时频分析在时频两阈都具有表征信号 局部特征的能力14。提取某一分解层次上的系数作为表征原始数据的特征属性,多尺 度小波分解为高维信息的处理注入了新的活力。 本文运用小波对基因芯片数据多尺度分析并提取特征属性表征原始信号, 送入支持 向量分类机进行分类,得出正确诊断分类结果,用来作为临床诊断的依据13。从实验的 结果来看,基于小波分析和支持向量分类机的前列腺癌基因芯片数据的特征提取和分 类,具有重大的医学诊断价值和现实意义。 1.3 课题研究创新之处以及论文结构 前列腺癌症的成功治疗取决于前列腺癌基因芯片数据的特征属性的准确提取及分 类器模型的正确选取,为此本文运用小波分析和支持向量机理论,构造分类器,总结小 波低频系数特征提取与高频系数特征提取对分类器正确分类率的影响, 以及不同小波进 行不同尺度分解对分类效果的影响。 本文的主要研究内容和工作如下: (1)运用一种特征提取方法小波多尺度分析特征提取方法。前列腺癌基因芯片 数据特征属性的维度很高,有 12 600 个。针对前列腺癌基因芯片数据的高维特点,采 用小波多尺度分解技术。 (2)将小波多尺度分解技术运用于前列腺癌基因芯片数据分析中。对前列腺癌基因 芯片数据进行尺度为 1-4 层的时-频分解,得到 1-4 层的低频系数和高频系数,并提取 某一层次的分解系数作为特征属性。 (3)运用支持向量机理论,构造分类器模型。运用 k-fold cross-validation 交叉验证 将数据分成 k 组,每组轮流当测试样本及训练样本,取 1 份做验证样本集,剩下的 k-1 份作为训练样本集,执行 k 次直到所有 k 份数据全部被选择一遍作验证样本集为止,得 到 k 组分类正确率,取平均值作为该方法的性能指标。 本文的创新之处是: 用小波分析理论对前列腺癌基因芯片数据进行低频系数和高频 系数的特征提取, 分别用小波低频分解系数和小波高频分解系数来逼近表征原始信号特 征。将含有高品质特征属性的样本用支持向量分类机进行模式分类,得到癌症和非癌症 两种类别。用相同小波、不同小波、相同分解层次、不同分解层次、不同交叉验证、增 加实验次数等方式,分别进行实验比对,比较小波低频和高频两种特征提取方式对分类 器性能的影响并进行分析、归纳、总结。 山东轻工业学院毕业论文 本文主要围绕以下结构展开: 4 第一章:介绍论文研究的背景、现状、课题意义及论文创新点。 第二章:介绍基因芯片技术、特征提取选择技术、模式分类技术。 第三章:该章节对小波多尺度分解、小波低频系数和高频系数特征提取技术、以及 几种常见小波进行综述。 第四章:介绍支持向量机的研究现状、基本算法、核函数的选取问题,最后设计支 持向量机分类器。 第五章:介绍前列腺癌基因芯片数据,设计对比实验,进行实验结果分析,并总结 得出实验结论。 第六章:对全文进行总结并指出需要进一步研究的问题。 山东轻工业学院毕业论文 5 第 2 章 基于小波分析的支持向量分类机模型 前列腺是疾病的好发器官,前列腺疾病是男性生殖泌尿系统的常见病。前列腺癌属 于泌尿系统癌症,是男性生殖系统最常见的恶性肿瘤,最常见的病变有前列腺癌、前列 腺增生、前列腺炎等。主要发生于老年人,年龄越大发病率越高,青年人几乎不发病。 随着生活水平的提高、人类寿命和人口老龄化的增长,前列腺癌发病率逐渐提高。美国 前列腺癌发病率位居男性恶性肿瘤的第一位。 我国前列腺癌发病率近年来呈逐年不断上 升趋势。 前列腺癌的病因尚未查明,可能与遗传、基因突变、生活习惯、环境、性激素、嗜 烟酒多、不良性生活、男性更年期等有关,同时前列腺癌发病隐匿,病因学不明确,组 织病理学变化较多,与内分泌因子关系复杂、术后易复发,综上因素不利于前列腺癌的 早期检测与临床治疗。 癌症是先天遗传和后天因素导致的,如:基因突变导致的染色体缺失、增加。先天 的基因缺陷加上后天的环境诱因, 引起细胞不稳定性和异常性的积累, 最终导致了癌症。 从本质上讲癌症是基因病,各种致癌因素引起 dna 序列发生异常。癌症的临床表现与 潜在的基因表达异常有关联,某种特定癌疾病患者背后潜藏着共同的病理特征,识别癌 症相关基因可以预测临床表现。 前列腺癌症初期没有明显症状, 不易早发现。 其中前列腺偶发癌临床上不能查出来。 在临床上,前列腺癌症的检测方法有前列腺组织活检、x 线、ct 检测等。前列腺疾病 的治疗方法有中药、西药、手术、化疗、放疗等方法。如果前列腺癌疾病能够早期发现 并治疗可以得到很好的治疗效果。 基因表达异常是前列腺癌疾病的主要原因。从基因的角度分析、预测前列腺癌给 患者带来了福音,从基因的角度分析前列腺癌也是一条全新的途径,减轻了患者前列腺 手术的痛苦。目前国际上使用微阵列技术(芯片技术)来研究恶性、晚期、初期、雄激 素依赖性等前列腺癌基因表达图谱的差异。 2.1 基因芯片技术 癌症是源于基因表达谱改变的一种基因疾病, 癌的发展是通过基因表达差异的改变 进行的。 通过基因芯片技术研究代表癌症的基因表达差异将会使人们更好的了解癌症的 形成和发展过程。 基因微阵列技术(芯片技术)运用含基因探针的芯片来测定正常和患病样品中特定 第 2 章 基于小波分析的支持向量分类机模型 6 通过特征提取和分类操作区分正常和癌症两种类型,临床医生根据检测的结果选择最 佳、最合理、最科学的治疗方案,提高人口素质和健康水平,基因芯片技术的潜力巨大 和前景诱人。 目前,为了解决上述问题采用 dna 微阵列技术即基因芯片技术。以基因序列为分 析对象的“微阵列(microarray)”,也称为基因芯片(gene chip)dna 芯片(dna chip)。 基因芯片技术具有巨大的理论意义和应用价值。 基因芯片技术的应用领域很广泛, 其中, 在疾病诊断方面革新了医学诊断和治疗,做出了重大贡献。 本文实验运用到前列腺癌基因芯片数据高品质特征属性进行特征提取和分类。 用于 诊断分类的前列腺数据是 13612 600 维的矩阵,即总共包含了 136 个样本数据,每个 数据样本中包含了 12 600 个特征属性。 这 12 600 个特征中的某些特征的相关性比较强, 在模式分类中组成的训练矩阵不是正定的,并且维数也比较高,于是本文在模式分类之 前必须进行特征选择。 2.2 特征选择基本概念 特征是保持基因芯片数据真实性的量度,有时含有一定的冗余信息。特征选择的目 的是从原始特征集中选择保持基因芯片数据真实性量度最大的特征子集,所以特征选择 是一个最优化问题。从基因芯片采集数据完毕后下一环节是特征提取,提取的最优特征 子集的好坏会影响到后面的模式分类环节的分类效果。采用适当的特征选择方法可以选 择最佳特征特征,提高分类率,避免维数灾难等问题。 有两种广义的特征选择方法15,一种为特征选择,具体来说就是在度量空间中的 特征选择;另一种为特征提取,即在转换空间中的特征选择。特征选择的目的是从原始 特征集中选择一个最优组合的特征子集。 特征提取的目的是找到一个从原始高维特征空 间到低维空间的一个最优变换。 两者都是为了选择出对分类最有利的特征组合方法或者 特征(变换)方法。 特征选择在生物信息学中的应用可以用来减少基因微阵列数据中的基因数。 因为每 个样本含有数百甚至数千个基因,并且由于成本原因每个基因表达数据集的样本数很 小。因此就需要特征选择技术选择特征基因以降低基因微阵列的维数。 本文用到的特征选择方法属于第二类, 用小波理论对前列腺癌基因芯片数据进行分 解、 降维处理, 在小波低频系数矩阵或者高频系数矩阵上进行特征定位, 完成特征提取, 然后送入分类器求得正确分类率。 2.3 模式分类基本概念 模式识别(pattern recognition)是一门以应用为基础的,目标是将对象分类,也叫 模式分类(pattern classification)16。它是将目标(object)归为属于具有共同属性值 基因的表达水平,从而实现对基因的准确、快速、大信息量的检测,然后 山东轻工业学院毕业论文 7 (propertyvalues)的类别(class)的过程。可以将图像、信号波形或者需要分类的象进 行分类。被用于各种科学工程领域,例如遥感监测领域、人脸识别及虹膜检测等安全领 域、基于生物特征的文字笔迹鉴定、智能医学疾病检测系统、指纹识别、生物信息学等 领域。 模式识别根据经验数据导出问题域系统的模型,对系统的未来输入做出响应预测。 根据问题域不同获取经验属性数据。属性的取值范围或集合叫做属性域(property domain) 。属性域中的值叫做属性值,它有很多数据形式,可能含有二值数据(0-1) 、 类属数据(枚举、字符等) 、实数型数据等。经验属性数据可以用矩阵表示。 根据模式分类算法对未知样本进行类属划分,目前模式分类技术很多,有监督方法 有:多重判别分析法、贝叶斯方法、近邻法、二次分类器、费歇尔方法、遗传算法、神 经网络自适应分类器、支持向量机、模拟退火等。无监督聚类方法有:主分量分析法、 迭代聚类、非线性分量分析法、层次聚类等。 为了将前列腺基因芯片数据分为两种不同类型,即正常前列腺和前列腺癌,并且 找出对分类有意义的特征属性。本文对136个前列腺基因芯片样本进行实验,观察实验 结果。本文构造一个基于小波分析的支持向量机分类器,对数据样本集进行有效特征提 取和模式分类,将原始样本集分类为前列腺癌和非前列腺癌正常两类。 2.4 基于小波分析的支持向量分类机模型 如图2.1所示,本文进行特征选择和模式分类的模型共有四个步骤。 (1)对前列腺癌症基因芯片数据进行小波变换。得到不同分解层次的小波分解低 频系数数组和小波分解高频系数数组。 (2)将小波分解图上低频小波系数或者高频小波系数视为有效特征信号,提取低 频小波系数或者高频小波系数作为特征属性。 (3)运用支持向量机理论,构造支持向量机分类器。 (4)用k-fold交叉验证方法把特征提取后的前列腺癌基因芯片数据分成训练集和测 试集,训练集训练支持向量机模式分类器,测试集输入分类器来测试分类器的识别率等 分类性能,从而达到评价特征选择方法的目的。 其中特征属性分成k组,每组轮流当训练样本及测试样本,每次取k-1份作为训练数 据集, 剩下的1份做测试数据集, 执行k次直到所有k份数据全部被选择一遍为止。 用k-fold 交叉验证方法划分的训练集对分类器进行训练, 用测试集测试训练集训练过的分类器模 型,为了得到公平的结果,增加分类器的数目,例如:k-fold交叉验证和分类重复执行 100次后,这样最终得到100组分类器性能指标,取个性能指标的平均值作为评价分类器 模型的性能指标。这样得到的分类器的性能指标具有较好的可信度。 特征提取和分类的流程图如下图所示: 第 2 章 基于小波分析的支持向量分类机模型 8 图 2.1 特征提取和分类的流程图 数据 分成k份 小波函数 2i尺度分解 前列腺 基因数据 can cdn cd1 ca1 归一化 标准化 交叉验证 提第 i 层 低频系数 k 个分类器 取平均 第 1 份做测试集 余下 k-1 份做训练集 第 k 份做测试集 余下 k-1 份做训练集 子模块 svm 分类器 子模块 svm 分类器 分类器 性能评价 山东轻工业学院毕业论文 9 第 3 章 前列腺癌基因芯片数据的特征提取 小波分析是一门新兴学科,是在应用数学基础上发展的,是一种时频分析工具。小 波分析在图形分析、工程应用、计算机应用、信号处理等领域有广泛应用。小波变换是 信号的时间空间频率的局部化分析方法,具有多尺度分析的特点。它通过伸缩平移运 算对信号或函数逐步进行多尺度细化,达到高频处时间细分,低频处频率细分,并能自 动适应时频信号分析的要求。小波变换在时频两个域中都具有表征信号局部特征的能 力。小波分析是一种窗口大小不变,形状可变的局部分析方法。 本章首先介绍小波分析的基本原理,连续小波变换、离散小波变换、多尺度分析等 基本原理。然后介绍小波分析特征提取,基于小波低频系数的前列腺癌基因芯片数据的 特征提取过程、基于小波高频系数的前列腺癌基因芯片数据的特征提取过程。最后介绍 一下常见小波,haar小波、(dbn)daubechies小波系、nd)al(biornr.biorthogon小波系、 l)motlet(mor小波、mexicanhat(mexh)小波等常用小波的性质和应用。 3.1 小波分析理论概述 信号承载着信息,通常是函数。信号有时域形式和频域形式两种。时域以时间为自 变量刻画信号。频域以频率刻画信号。小波分析兼有时间分析和频率分析的特性,是对 以往的傅里叶变换的改进,是多尺度的信号分析方法。小波信号顾名思义就是指信号有 正、有负的振荡波形。 小波的功能很强大,小波变换理论和现实应用很广泛。小波发展的历史可以追溯到 20世纪。小波分析是在20世纪80年代后期发展起来,是一门新兴数学技术。小波理 论涉及到的领域很多,是诸多学科领域的研究者共同努力的结果,比如物理、地质、数 学等多个学科领域。小波变换的数学基础是19世纪的傅里叶变换。小波分析中的规范 正交基最早是haar在1910年提出并构造的。1946年,gabor提出了窗口fourier变换。 小波变换系统框架是由j.morlet、y.meyer、grossman三个人构成的,他们三人分别是 物理学家、 数学家、 理论数学家,grossman对morlet的方法进行了改进。1984年morlet 分析地震波时, 提出了小波分析概念并把小波分析用在了信号处理中。 在工程应用领域, 法国学者esi.daubechi将小波变换应用在信号处理领域,在引入小波变换过程中morlet 做出了贡献。1988年,esi.daubechi构造了紧支撑的正交小波基17,daubechies小波应 用非常广泛。1991年goodman重新改进了尺度函数和小波函数,lee也认为尺度函数 和小波可以由多个函数构成,tang在多小波函数的提出中有重要的贡献。cohen在1992 年给出了双正交小波的构造方法,daubechies给出了双正交小波的性质,feauveau 第三章 前列腺癌基因芯片数据的特征提取 10 认为双正交小波有紧支撑等性质。 小波应用发展很迅猛,广泛应用在信号处理、图像处理、地震勘探、地震波分析、 ct成像、故障检修中。小波分析有伸缩平移运算,信号经过运算以后,在高频处进行 时间分析, 低频处进行频率分析, 小波变换在时域和频域内都含有信号的局部性质特征。 小波分析在低频分解子带上有较高的频率分辨率, 在低频分解子带上有较低的时间分辨 率。小波分析在高频分解子带上有较低的频率分辨率,在小波分解在高频子带上有较高 的时间分辨率。 以往的信号操作分析处理基本上用的是fourier变换也称(傅里叶) ,fourier属于全 局变换,要不完全在时域上,要不完全在频域上,不能同时兼表达信号的时频局域的性 质。小波分析的优点是局部细化,通过运算对信号进行多尺度分析。但由于分析非平稳 信号的时候,不能只在时域或者频域上分析,而是需要将时域性质和频域性质联合来进 行分析,于是在处理非平稳信号的时候,人们对fourier变换进行了改进,提出了一些 新的信号分析理论,其中就包括短时fourier变换和小波变换。小波变换是处理非平稳、 含噪音、瞬态类型信号,最值得推荐的工具。 小波变换对原始信号进行局部时间和频率分析, 在时间和频率两个空间中都具有原 始信号的属性特征。小波的时间窗和频率窗可改变。小波窗口可以变化的是形状,面积 不变。小波分析很适合探测夹带噪音或者反常现象的正常信号,小波分析可以分析处理 其噪音成分。可以通过分解、重构的方法达到去噪、提取高品质属性基因的目的。小波 又很适合探测夹带的瞬态变化激烈的信号, 小波分析可以处理并展示其成分。 除了这些, 小波分析已经有很多规范正交基和快速算法mallat可以直接使用, 满足不同领域的不同 需求。小波分析被称为分析信号的显微镜,小波分析的功能与“显微镜”类似,它给我 们分析解决问题提供了好的研究方法。小波分析好比用镜头观察需要分析的信号,小波 基函数(滤波或卷积)相当于显微镜的镜头,而位移相当于镜头对准目标物平行移动, 不同的尺度相当于镜头向目标向前推进或向后远离。 小波本身是有正、 有负的震荡波形, 经过小波的多尺度分解,小波能度量信号变化的尺度化子带波形,通过改变尺度参数、 变焦过程对信号结构提供强有力的刻画。 小波变换的特点如下: (1)实现多尺度分解、处理信号。在分解的尺度系数中提取有用的特征属性数据。 用不同的小波函数进行不同尺度的分解、 处理信号, 得到多级分解以后的不同子带信号, 进行特征提取的结果也会有差异。 (2)小波分析用一组滤波器对信号进行滤波。该滤波器组具有品质因数恒定,即 相对带宽恒定的特点。 随着小波变换的尺度减少, 滤波器的中心频率向高频移动的同时, 其通带宽度也随之增加。 (3)适当地选择小波基函数,可以使小波变换在时、频两域都具有表征信号局部 特征的能力。既有频率的性质,也有时间的特征。 山东轻工业学院毕业论文 11 (4)从泛函分析的角度来看,小波分析是把信号分解,“投影”到由小波函数构成 的函数空间上,在“投影”过程中,与小波函数相似的信号将取得较大的投影值。 小波变换按照时间变量的取值形式不同分为离散小波变换和连续小波变换。 3.1.1 连续小波变换cwt 给出一个小波函数以后,连续信号变换过程把信号变换到时域和频域上。小波变换 是一种积分变换,将任意(r)l2空间的函数)(xf在小波基下进行展开,给定一个基本函 数)(x,有运算表达式: )( 1 )( , a bx a x ba = (3.1) 上式(3.1)中,参数a、b均为实数,且0a, )( , x ba 是基本函数)(x先作移位再作伸缩 以后得到的,a、b不断变化,可以得到一族函数)( , x ba 。给定一个可积的信号)(xf, )(xf的小波变换(waveletwt)transform,定义为: =c称为惩罚系数,控制对错分样本惩罚的程度。c越大,对训练集上的识别错 误数越敏感,错误数越少,调节c在泛化能力与训练误差之间平衡。上式折衷考虑最少 错分样本和最大分类间隔,从而得到广义最优分类面。 原问题的lagrange函数: = += n i n i iiiiii n i i bxyacabl 11 1 2 1)( 2 1 ),( (4.23) 式中和是lagrange乘子,根据kkt定理,最优解应满足: 0= ii i c l (4.24) 01=+ iiii bxy (4.25) iiii , 0, (4.26) iii = , 0, (4.27) 第四章 支持向量机理论 37 式中0 i ,相应的 i x为支持向量,如果c i c时,称它为非齐次多项式核;当0=c时,称 它为齐次多项式核。所得到的是d阶多项式分类器,线性核函数可以看成是多项式核函 数的特例。 (3)高斯径向基核函数(radicalbasisfunction) (rbf) 42 高斯径向基核函数向量形式表达式是: ) 2 exp(),( 2 2 xx xxk = (4.33) 式中为参数, 2 能控制函数的形状。 (4) sigmoid核函数43,44 )(tanh(),( cxxsxxk+= (4.34) 式中s,c为参数。这个函数不是正定核。 4.5.2 核参数选择 支持向量机的工作过程是将原始小型数据样本集映射到一个高维度特征空间, 在高 维空间中,构造出一个最优的分类超平面,对训练数据实现超平面分割。构造的这个超 平面,能够将原始小型数据样本集分为癌症和非癌症两类类型,并且能够保证错分误差 最小,同时尽可能将同类的样本分到同一类的区域并且区分两类的距离部分尽可能大。 核函数的选择有两种方法, 要不是将样本映射到高维空间中, 在高维空间中求内积。 要不就是采用某种方法,不是显式的将样本映射到高维空间,而是隐式的将样本映射到 新的高维空间,在输入空间中直接计算出内积。支持向量机核函数选择指的是第二种情 况,将高维空间的内积计算转变成在低维输入空间的内积计算,这样减少了维数灾难。 本文的支持向量机采用的是线性核函数(linear kernel),线性核函数没有可变的参数。 svm通过核函数将输入空间隐式的转换到高维的特征空间,这个过程是非线性的,然 后在输入空间中计算内积,求解问题,高维空间的线性算法与高维空间的维数无关。 交叉验证目的是为了提高分类器的正确分类率,在选取核函数的参数的时候,交叉 验证选取最优的核参数, 本文的支持向量机分类机核函数的选择由交叉验证的方法进行 确定,选取最简单的线性核函数,无需设定任何变化参数。 4.6 本文支持向量分类机的设计 第四章 支持向量机理论 39 图 4.5 本文实验流程图 由图4.5可以看出支持向量机的工作过程, 将原始小型数据样本集映射到一个高维 度特征空间。在高维空间中,构造出一个最优的分类超平面,对训练数据实现超平面分 割。构造的这个超平面,能够将原始小型数据样本集分为癌症和非癌症两类类型,并且 能够保证错分误差最小, 同时也尽可能将同类的样本分到同一类的区域并且区分两类的 距离部分尽可能大。 支持向量机分类器是基于固定算法函数的, 对于输入样本空间, 需要将输入样本空 间的原始数据样本集进行划分,要划分成训练集和测试集两种。训练集是让分类器的算 法进行学习的过程,测试集是为了检验分类器学习的效果如何。因为本文是小型数据样 本集实验, 所以在选择训练集和测试集的时候, 不用事先区分好训练集和测试集。 同时, 对于大型数据样本集来说,划分训练集和测试集的比例也要合理掌握。对于小型样本数 据集我们采用交叉验证的方法划分训练集和测试集,由交叉验证规定好的划分机制,将 原始数据样本集中的一部分划分做为训练集,余下的样本集做测试集。 交叉验证方法将原始数据分成两部分,一部分是训练集、余下部分是验证集,用训 练集对分类器训练,让分类器学习,然后用验证集测试经过学习以后的分类器的学习效 果。交叉验证方法很多,比较常用的有:k折交叉验证方法、留一法、保留法。k折交 叉验证:原始数据样本集有n个,随机地被分成k个不相交并且大小相等的子集,按照 划分顺序每次选出一个子集当测试样本集,余下的各组合起来做训练样本集。取k次正 确分类率的平均值做最后的正确分类率。 本文的前列腺癌基因芯片数据, 是选取有效的136个前列腺癌组织样本制作基因芯 数据 分成k份 小波函数 2i尺度分解 前列腺 基因数据 can cdn cd1 ca1 归一化 标准化 交叉验证 提第 i 层 低频系数 第 1 份做测试集 余下 k-1 份做训练集 第 k 份做测试集 余下 k-1 份做训练集 k 个分类器 取平均 子模块 svm 分类器 子模块 svm 分类器 分类器 性能评价 山东轻工业学院毕业论文 40 片, 根据基因表达方式的不同分为77个前列腺癌基因芯片和59个非前列腺癌基因芯片。 将136个样本打乱顺序,随即组合成136个样本集,选择k折交叉验证方法,划分训练 集和测试集。在k折交叉验证中,按照特定的划分机制,将其分成训练集和测试集。例 如k=10,将数据集分成十份,轮流将其中9份作为训练数据集,1份作为测试数据集, 对分类器进行10次训练和测试。 每次试验都会得出相应的正确分类率。 取10 次正确分 类率结果的平均值,作为对分类器性能的估计。 本文一次实验流程,用到k次svm分类器,每一次分类器的训练集和测试集的数 据都不尽相同。分类器共接受学习、测验k次。每次分类器经过学习、测试,需要通过 核函数的选择(非线性映射) ,将输入向量映射到一个高维度特征空间。在高维空间中, 构造出一个最优的分类超平面,对训练数据实现超平面分割,将样本空间中的训练样本 分为前列腺癌症和非前列腺癌症两类。 核函数的选择有两种方法, 要不是将样本映射到高维空间中, 在高维空间中求内积。 要不就是采用某种方法,不是显式的将样本映射到高维空间,而是隐式的将样本映射到 新的高维空间,在输入空间中直接计算出内积。支持向量机核函数选择指的是第二种情 况,将高维空间的内积计算转变成在低维输入空间的内积计算,这样减少了维数灾难。 本文的支持向量机采用的是线性核函数(linear kernel),线性核函数没有可变的参数。 svm通过核函数将输入空间隐式的转换到高维的特征空间,这个过程是非线性的,然 后在输入空间中计算内积,求解问题,高维空间的线性算法与高维空间的维数无关。 本文的支持向量机不是显式的将样本映射到高维空间, 而是隐式的将样本映射到新 的高维空间,在输入空间中直接计算出内积。将样本空间非线性的打到高维空间中,将 高维空间的内积计算转变成在低维输入空间的内积计算,这样减少了维数灾难。 支持向量机采用的是线性核函数)kernellinear (,交叉验证方法选择线性核函数,线 性核函数是最简单的而且没有可变参数的函数。svm通过核函数将输入空间隐式的转 换到高维的特征空间,这个过程是非线性的,然后在输入空间中计算内积,求解问题, 高维空间的线性算法与高维空间的维数无关。 山东轻工业学院毕业论文 41 第 5 章 实验结果与分析 5.1 数据集 前列腺癌症组织样本来自做过前列腺手术的235例患者, 是由美国成人肿瘤科的专 家dinesh singh和美国麻省理工学院基因组研究中心的phillip. g . febbo等人收集的 46, 选取其中有效的136个样本制作基因芯片,根据基因表达方式的不同分为77个前列腺 癌基因芯片和59个非前列腺癌基因芯片。可以从基因芯片上提取有效特征属性基因数 据,进行分类、聚类等分析操作50。 基因芯片技术已经比较成熟了, 基因芯片技术在疾病基因组研究领域取得了较大进 展。原理是在基因芯片的海量数据中提取有效的高品质属性基因,从而将有内在差异基 因表达的样本进行分离。本文用到的前列腺癌基因芯片数据,1个样本中包含12 600个 特征属性,共有样本136个,属于小样本的分类问题。实验证明,基因芯片技术在前列 腺癌疾病的诊断中,有非常好的应用效果和非常广阔的应用前景。基因芯片的微量化分 析,将可以从海量数据中挖掘有效用的信息。 5.2 小波特征提取和支持向量分类机分类 信号经过小波分析的伸缩平移运算以后,在高频处进行时间分析,低频处进行频率 分析, 小波变换在时域和频域内都含有信号的局部性质特征48,49。 一维多尺度小波分析, 选择一个小波并确定一个小波分解的层次, 然后对信号进行n层小波分解52。 用不同的 小波函数进行不同尺度的分解,得到多级分解以后的不同子带信号,进行特征提取的结 果也会有差异。 本文的支持向量机的工作过程是将前列腺癌基因芯片原始小型数据样本集映射到 一个高维度特征空间,在高维空间中,构造
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025广东江门市台山市公有资产管理委员会办公室招聘编外人员1人备考考试题库附答案解析
- 外包工程质量管理协议
- 2025浙江宁波开投私募基金管理有限公司招聘4人备考考试题库附答案解析
- 2025年营口市老边区城管协勤人员招聘备考考试题库附答案解析
- 2025泉州银行福建厦门分行招聘备考练习试题及答案解析
- 2025黑龙江鸡西市对外交流服务中心招聘事业单位工作人员4人备考考试题库附答案解析
- 2025四川虹信软件股份有限公司招聘实施顾问等岗位9人备考考试题库附答案解析
- 2025年甘肃酒泉瓜州县人民法院聘用制工作人员招聘备考考试题库附答案解析
- 2026中远海运船员管理有限公司招聘备考考试题库附答案解析
- 创新生态协同机制-洞察及研究
- 公共安全危机应对的新模式探索
- 园区消防测试题及答案
- 员工社保补贴合同协议
- 爱永在 二部合唱简谱
- 培训课件 -面相识人 -识人秘籍内部资料
- 髋关节置换术后护理讲课
- 医务人员职业道德培训教育课件
- 山东医专综评试题及答案
- 2025年贵安新区产业发展控股集团有限公司招聘笔试参考题库附带答案详解
- 电子装修合同范文
- 高速公路改扩建工程监理投标方案(技术方案)
评论
0/150
提交评论