




已阅读5页,还剩66页未读, 继续免费阅读
(分析化学专业论文)蛋白质分类预测中的新方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 i i ii i i1 1 1 1i ii iiiii y 17 4 6 615 摘要 蛋白质结构与功能预测是蛋白质组学中一个发展已久且极具挑战性的研究 热点,已成为后基因组时代生命科学中的重大研究课题之一。随着现代生物科 学与技术的迅速发展,大量蛋白质序列数据不断涌现,深入研究这些序列数据 进而达到对蛋白质化学和生物意义的深入理解,是现代生物信息学研究的主要 任务。尽管蛋白质的结构和功能可以通过实验方法来确定,但采用实验方法具 有耗时和费用昂贵等不足。因此,发展仅仅基于蛋白质氨基酸序列就能自动可 靠地对蛋白质结构与功能进行预测的方法具有十分重要的理论意义和实用价 值。基于蛋白质结构与功能的研究现状,本文创新性地提出将支持向量机与小 波变换有机结合,构建了一小波支持向量机新模型,用于蛋白质结构与功能的 分类预测,取得的主要成果如下: 1 将小波支持向量机模型用于g 蛋白质偶联受体家族的预测。预测模型主 要包括三个步骤:首先利用氨基酸物理化学性质将蛋白质氨基酸序列转换为数 字信号,再利用离散小波变换对氨基酸序列进行分解,提取g 蛋白质偶联受体 家族的特征向量,同时对小波基和分解层次优化选择,最后将所获得的特征向 量输入到支持向量机进行分类预测。预测分为三个层次进行:首先分类识别g 蛋白偶联受体三个家族,再进一步确认a 家族类视紫红质受体蛋白的三个亚家 族,最后确认g 蛋白偶联受体的亚亚家族。小波支持向量机对g 蛋白偶联受体 三个层次的蛋白质家族预测准确率分别为9 9 7 2 、9 7 6 4 和9 9 2 0 ,与文献结 果相比,本方法具有预测简单、直观和预测准确率高等优点。 2 将所构建的小波支持向量机模型用于酶家族和氧化还原酶亚家族的分类 识别。酶蛋白分为六类家族,其中氧化还原酶含有1 6 类亚家族,为了解决多类 分类难题,本文分别采用一对一和一对多的分类策略对酶家族数据集c 1 2 0 0 和 c 2 6 4 0 进行j a c k k n i f e 检验,预测准确率分别为9 1 9 0 和9 9 17 ,明显优于文献 报道方法。同时,本文还对小波分解尺度、小波函数、支持向量机核函数以及 氨基酸物理化学性质等参数进行了探讨和优化。结果表明,离散小波能有效地 解析氨基酸序列信号,并有效地从小波分解系数中提取出酶蛋白的结构特征, 从而获得了极高的预测准确率。 3 将小波支持向量机模型与多类氨基酸物理化学性质相融合,利用小波变 摘要 换多分辨原理对氨基酸序列进行特征提取,进而将筛选的特征向量输入到支持 向量机中用来识别蛋白质二级结构。采用文献常用的蛋白质数据集对模型进行 j a c k k n i f e 检验,结果令人满意。同时,还深入研究了低同源性蛋白质序列对预测 准确率的影响,即分别采用w 118 9 ( 同源性低于4 0 ) 和2 5 p d b ( 同源性低于 2 5 ) 进行了测试,预测结果分别为7 6 4 7 和8 5 7 2 1 :l 文献方法提高1 7 和 2 3 。上述结果表明,本方法有效地克服了低同源性对理论预测方法的影响,满 足生物信息学对蛋白质结构预测的要求。 以上基于小波支持向量机模型的各类蛋白质分类预测技术都已编写了较完 整的自动运行程序,可共享使用。本文获得了国家自然科学基金和江西省自然 科学基金的资助。 关键词:离散小波变换;支持向量机;蛋白质家族;氨基酸物理化学性质; 分类预测 一 i l a b s t r a g t a b s t r a c t w i t ht h ea p p r o a c ho fp o s t g e n o m ee r a , p r o t e o m i c si sb e c o m i n ga n r e s e a r c hd o m a i ni nt h el i f es c i e n c e w i t ht h er a p i dd e v e l o p m e n to fm o d e m s c i e n c ea n dt e c h n o l o g y ,p r o t e i ns e q u e n c ed a t aa l ee m e r g i n ga ta l le x p l o a n a l y s i so ft h e s ed a t at oe x t r a c tt h eu s e f u li n f o r m a t i o ni st h eh o tt o p i ci nm o d e m b i o i n f o r m a t i c s a l t h o u g ht h es t r u c t u r e sa n df u n c t i o n so fa l lt h e s ep r o t e i n sc a nb e d e t e r m i n e db ye x p e r i m e n t a lm e t h o d s , m e ya r et i m e c o n s u m i n ga n de x p e n s i v e a c c o r d i n g l y ,i ti sh i g h l yd e s i r a b l et od e v e l o pa u t o m a t e da n dr e l i a b l ep r e d i c t i v e m e t h o d sf r o mt h ep r i m a r yp r o t e i ns e q u e n c e a c c o r d i n gt ot h er e s e a r c ha c t u a l i t yo f b i o i n f o r m a t i c s ,an e wm e t h o dt h a tc o u p l e sd i s c r e t ew a v e l e tt r a n s f o r m ( d w t ) 嘶t h s u p p o r t v e c t o rm a c h i n e ( s v m ) w a sp r o p o s e dt op r e d i c tp r o t e i ns t r u c t u r ea n df u n c t i o n m e r e l yb a s e d o nt h ei n f o r m a t i o no fp r o t e i np r i m a r ys e q u e n c e ,i n c l u d i n gt h e p h y s i c o c h e m i c a lp r o p e r t i e so fi t sc o m p r i s e da m i n oa c i d s t h em a i nc o n t e n t sa r el i s t e d a sf o l l o w s : ( 1 ) an o v e lp r e d i c t o ri sd e v e l o p e df o ri d e n t i f i c a t i o na n dp r e d i c t i n go fg - p r o t e i n c o u p l e dr e c e p t o r s ( g p c r s ) b yc o u p l i n gd w t w i t hs v m t h em e t h o di n c l u d e st h r e e s t e p s ,i nt h ef i r s ts t e p ,t h ep r o t e i ns e q u e n c e sw e r et r a n s f o r m e di n t on u m e r i c a ls i g n a l s b yt h e a m i n oa c i d p h y s i c o c h e m i c a lp r o p e r t i e s ,a n dt h e nt h ed i s c r e t e w a v e l e t t r a n s f o r m ( d w t ) w a se m p l o y e dt oe x t r a c tf r e q u e n c y b a n df e a t u r e s ;f i n a l l y , t h e s u p p o r tv e c t o rm a c h i n ea l g o r i t h mw a su s e dt om o d e l 、) i ,i 廿lt h e s ef e a t u r ev e c t o r s t h e c r o s s v a l i d a t i o nr e s u l t sd e m o n s t r a t et h a tg p c r sc o u l db ec o r r e c t l yi d e n t i f i e d 、析t l la n a c c u r a c yo f9 9 7 2 ,9 7 6 4 ,a n d9 9 2 0 a tf a m i l yl e v e l ,s u b f a m i l yl e v e l ,a n d s u b s u b f a m i l yl e v e l ,r e s p e c t i v e l y t h ep r e d i c t i o np e r f o r m a n c e sw e r ea l lb e t t e rt h a n p r e v i o u sm e t h o d s i nc o m p a r e dw i t l lm o s tr e c e n tp r e d i c t i o nm e t h o d s t h em e t h o di n t h i sp a p e rs h o w e das i g n i f i c a n ti n c r e a s ei n p r e d i c t i o np e r f o r m a n c e a l lt h er e s u l t s i n d i c a t et h a tt h em e t h o di nt h i sp a p e ri sp o w e r f u lf o rg p c r sp r e d i c t i o n ( 2 ) an o v e lm e t h o df o rt h ep r e d i c t i o no fe n z y m ef a m i l yc l a s s e si sd e v e l o p e db y c o u p l i n gd w tw i ms v m t h ee n z y m ep r o t e i n sc a nb ec l a s s i f i e di n t os i xf a m i l y c l a s s e s ,a n dt h eo x i d o r e d u c t a s ec o n t a i n s16s u b f a m i l i e s t h eo n e v e r s e o n ea n d a b s t r a c t o n e v e r s e o t h e r st r a i n i n gs t r a t e g yw a sa d o p t e dt od e c o m p o s em u l t i - c l a s si n t oas e r i e s o fb i n a r ys v m st os o l v em u l t i c l a s s e sp r o b l e m ,r e s p e c t i v e l y b e s i d e s ,a p p r o p r i a t e d i l a t i o n s ,w a v e l e tf u n c t i o n s ,v a r i o u sa m i n oa c i dp h y s i c o c h e m i c a lp r o p e r t i e sa n d k e r n e lf u n c t i o n sw e r ed i s c u s s e di nd e t a i l t h ej a c k k n i f et e s tw a sp e r f o r m e do nt h e d a t a s e tc12 0 0a n dc 2 6 4 0 t h eo v e r a l la c c u r a c i e st h u so b t a i n e dw e r e91 9 a n d 9 9 17 ,w h i c hw e r em u c hh i g h e rt h a no t h e rm e t h o d s c o m p a r e d 诵t 1 1m o r er e c e n t p r e d i c t i o nm e t h o d st h a ta r ei ng e n e r a lm o r ec o m p l e xa n dr e q u i r em o d e la s s u m p t i o n s , o u rm e t h o dm a n i p u l a t e ss i m p l e ,v i s u a la n dp e r f o r m sr e a s o n a b l yw e l l ( 3 ) p r e d i c t i o no fl o w l yh o m o l o g i c a lp r o t e i ns e c o n d a r ys t r u c t u r ei ss t i l lad i f f i c u l t p r o b l e mu pt on o w b a s e do nt h ea m i n oa c i dp h y s i c a la n dc h e m i c a lp r o p e r t i e s ,a p r o m i s i n gp r e d i c t i v em e t h o dh a sb e e np r o p o s e dt od e t e r m i n et h ep r o t e i ns e c o n d a r y s t r u c t u r e a sas h o w c a s e ,f o u rs t a n d a r dd a t a s e t si n c l u d i n gc 2 0 4 ,c 3 5 9 ,w 118 9a n d 2 5 p d bw e r eu s e dt oa c c e s st h ep e r f o r m a n c eo ft h ec u r r e n tm e t h o d i ti m p l i e st h a t b a s e do nm u l t i p l ef e a t u r e sc a nm a k eb e t t e ra d v a n t a g eo ft h es e q u e n c ei n f o r m a t i o no f ap r o t e i nt h a ni n d i v i d u a lf e a t u r e t h ec u r r e n ta p p r o a c hm a ys e r v ea sap o w e r f u l c o m p l e m e n t a r yt o o lt oo t h e re x i s t i n gm e t h o d si nt h i sa r e a a l lt h ea b o v et e c h n i q u e sh a v ec o m p l e t ep r o c e s s i n gp r o g r a m s t h e yc a l lb eu s e d a n ds p r e a de a s i l y t h i ss t u d yw a ss u p p o r t e db yt h en a t i o n a ln a t u r a ls c i e n c ef o u n d a t i o no fc h i n a a n dn a t u r a lf o u n d a t i o no f j i a n g x ip r o v i n c e k e y w o r d s :d i s c r e t ew a v e l e tt r a n s f o r m ;s u p p o r tv e c t o rm a c h i n e s ;p r o t e i nf a m i l y ; p h y s i c o c h e m i c a lp r o p e r t i e s ;c l a s s i f i c a t i o n i v 目录 目录 第一章绪论1 1 1 引言。1 1 2 蛋白质结构预测1 1 2 1 蛋白质结构预测研究的意义1 1 2 2 蛋白质分子的组成和结构分类2 1 2 3 蛋白质结构预测的困难与挑战3 1 3 小波分析5 1 4 支持向量机7 1 4 1 两类问题8 1 4 2 多类分类问题10 1 4 3 评价指标。1 1 1 5 本文主要研究内容:1 1 参考文献13 第二章g 蛋白偶联受体识别及其家族分类18 2 1 引言18 2 1 1g 蛋白偶联受体l9 2 1 2g p c r 家族分类2 0 2 1 3 国内外研究现状2 0 2 2 材料与方法原理j 2 2 2 2 1 数据集2 2 2 2 2 氨基酸疏水值:。2 2 2 2 3 离散小波变换原理。2 3 2 2 4 支持向量机原理2 6 2 3 结果与讨论2 7 2 3 1 小波基的选择2 7 2 3 2 疏水值的选择一2 8 v 目录 2 3 3 核函数的选择2 9 2 3 4 与其他方法的比较2 9 2 4 结论3 0 参考文献3l 第三章小波支持向量机对酶蛋白家族分类预测3 4 3 1 引言3 4 3 2 材料与方法原理3 6 3 2 1 数据集3 6 3 2 2 氨基酸疏水值3 6 3 2 3 离散小波变换原理3 6 3 2 4 蛋白酶特征向量的构建。:3 7 3 2 5 支持向量机3 8 3 3 结果与讨论3 9 3 3 1 预测酶家族的小波函数和分解尺度选择3 9 3 3 2 预测酶家族的核函数选择4 0 3 3 3 与文献方法的比较4 1 3 3 4 讨论4 1 3 3 5 预测氧化还原酶子集的分解小波基和分解层数优化4 2 3 3 6 预测氧化还原酶子集的核函数优化4 4 3 3 7 与文献方法比较一4 4 3 4 结论4 6 参考文献4 7 第四章蛋白质二级结构分类预测5 0 4 1 引言5 0 4 2 材料与方法原理5 2 4 2 1 数据库5 2 4 2 2 离散小波变换原理:一5 3 4 2 3 蛋白酶特征向量的构建5 3 4 2 4 支持向量机5 3 目录 4 3 结果与讨论5 3 4 3 1 多特征融合技术对实验的改进。5 3 4 3 2 预测结果5 4 4 3 3 与其他方法的比较5 5 4 4 结论5 7 参考文献5 8 致谢6 1 攻读学位期间的研究成果6 2 v i i 第一章绪论 第一章绪论 1 1 引言 生物信息学是- 1 3 利用多学科知识研究生物和生物相关系统中信息内容与 信息流向的综合系统学科【1 】。通过生物信息学的计算与处理,人们才能从众多零 散、看似无规则的生物学观测数据中获得对生命运行机制的系统理解。从工具 的角度来讲,生物信息学是今后所有生物科学、生物技术研究开发必需的工具。 通过生物信息学对大量数据资料进行分析,人们才能判断该领域正确的研发方 向f l j 。生物信息学研究不仅具有重大的科学意义,而且它也具有巨大的经济效益。 许多研究成果可以较快地产业化,进而生产出价值极高的产品。因此,在进入 新世纪以后许多的研究人员和研究机构都把注意力集中到基因组、蛋白质组、 蛋白质结构以及与此密切相关的学科研究上【2 4 1 。 近些年来,随着结构生物学实验检测技术和分析技术的发展,已经有相当 数量的蛋白质以及一些核糖核酸、多糖类物质的三维结构获得了精确的测定【4 ,引。 通过生物大分子的结构,有针对性地设计药物成为目前研究的热点【5 一。科学工 作者利用生物信息学这个工具不仅可以用于积累大量生物信息数据,而且还能 对这些数据进行详细地解释并从中发现结构与功能之间的密切关系,比如通过 对表面电荷分布、能级、分子轨道的相互作用等信息的解析【7 - 9 。对于蛋白质结 构与功能的分类预测问题作为蛋白质组学研究的一个重要组成部分,近几年来 受到了研究者们越来越多的关注【7 以2 1 ,对其研究也越来越深入。 1 2 蛋白质结构预测 1 2 1 蛋白质结构预测研究的意义 经研究表明,蛋白质的结构和功能之间的关系是完全统一的,任何一个特 定的蛋白质之所以能行使它特定的生物功能,这是由其特定的空间结构决定的, 清楚蛋白质的结构对真正理解其作用机理所不可或缺的1 1 3 】。通过蛋白质三维空 间立体结构的研究可以有效解析蛋白质的功能。目前,用于测定蛋白质三维空 间结构的实验方法主要有两种:一是多维核磁共振方法( n m r ) ;二是x r a y 晶 第一章绪论 体衍射方法。n m r 方法能够测定溶液中蛋白质分子结构,但是对样品的需求量 较大,且样本蛋白质分子量也受到一定限制【1 3 】;x r a y 晶体衍射方法需要先对蛋 白质进行纯化、结晶,虽然最终能得到高分辨率的蛋白质晶体结构,但不能测 定溶液中蛋白质分子的三维结构。这两种方法各有局限性:n m r 方法的主要缺 点是精度较差,且对蛋白质体积的大小有所要求( 只能测定较小的蛋白质) ;而 x r a y 晶体衍射方法对蛋白质晶体制备要求苛刻,并且有些蛋白质很难获得晶体 结构【1 3 , 1 4 。此外,两种方法都具有周期长、成本高、技术难度大等缺点。 尽管实验技术不断得到改进,但通过实验确定的蛋白质结构和已知序列之 间的差距仍在不断增大【1 5 】。显然,所有蛋白质的空间结构都通过实验来测定是 不现实的,蛋白质三维空间结构测定的速度远远不能满足研究与应用的需求。 因此,利用生物信息学知识,发展一种可靠的蛋白质结构预测方法已成为一项 迫切的任务f l s , j6 】。 1 2 2 蛋白质分子的组成和结构分类 从最简单的单细胞生物到最高等的人类,他们最基本、最重要的组成物质 都是蛋白质和核酸。核酸是生物体遗传信息的携带者,所有生物体的世代相传, 就是依靠核酸分子具有的精确复制的性质【 】。人体蛋白质的含量约占人体固体 成分的4 5 。它的分布很广,几乎所有的器官组织都含有蛋白质,蛋白质是生 命活动的主要承担者,所有的生物活动,甚至感知、思维和学习,都是依靠蛋 白质来完成的【l7 】。 1 2 2 1 蛋白质分子的结构 蛋白质是一种具有生命活性的高分子有机化合物,通常由一条或多条不同 性质的高分子肽链经过有序的组织而成【1 3 】。所有组成蛋白质的基本单位都是氨 基酸( a m i n oa c i d ) ,自然界中的天然氨基酸总共有2 0 种,它们都是l 型a 碳原 子【r 丌。如图1 1 所示,都是以一个碳原子为中心,四周都分别连接一个羧基、一 个氨基、一个氢原子以及一个侧链基团。各种氨基酸的不同之处就在于侧链基 团r 的不同,也正是这种差异造成了各种氨基酸的形态、性质、功能等特征有 着巨大差异。考虑到侧链的极性及带电性的差异,这些氨基酸可以被分为以下 四类: 疏水氨基酸:a l a , m e t ,l e u ,l i e ,p h e ,p r o 和v a l 带电氨基酸:a s p ,g i n , a r g 和l y s 2- 第一章绪论 极性氨基酸:a s n ,z h r 9c y s ,s e r , g i n , h i s ,t y r 和t r p 苷氨酸:g l y r i n h 2 上c o o h l h 图1 1 氨基酸基本结构 1 2 2 2 蛋白质问的相互作用力 蛋白质多肽链不仅可以通过单键的旋转来形成稳定的二级结构和三级结 构,还涉及到多肽链上残基侧链之间的相互作用,以及侧链与所处环境的溶剂 之间的相互作用【1 8 】。残基侧链之间的相互作用也是化学中常见的一些分子和基 团间的化学键和相互作用,通常包括疏水作用、静电相互作用( 离子键) 、氢键 和范德华力,有时还有二硫键和配位键等,这些作用力共同起到稳定蛋白质结 构的作用【1 9 1 。 1 2 3 蛋白质结构预测的困难与挑战 一 蛋白质结构预测发展至今,仍面临着如下的困难: 1 预测准确率难以提高:在上世纪6 0 年代到9 0 年代间,蛋白质二级结构 的预测准确率只能达到6 0 左右。直到1 9 9 3 年经过r o s t 和s a n d e r 的共同研究 才有了重大的突破,预测准确率达到了7 0 以上【2 0 】。他们之所以能够在预测准 确率上有所突破,除了结合大量的数据以及更好的算法之外,主要是因为他们 在预测方法中,加入了生物进化方面的信息。这些信息的引入,使得蛋白质二 级结构的预测准确率提高了将近7 t 2 0 1 。在这之后的研究中,再进一步提高几个 百分点的预测准确率往往都是十分困难的,目前的研究中,最好的结构预测准 确率也只能达到7 6 左右【2 1 。8 】。因此,在对生物信息学的研究中,如何从海量 的数据中,提取出更多有益分类的信息,往往对发展更准确的算法有极大帮助。 影响预测准确率的因素有很多种,首先则是由于对蛋白质构象形成的复杂机制 和其空间结构尚未完全认识清楚【2 4 1 ,以至于还不能建立最佳的预测模型;其次, 与未知结构的数据相比,已知结构的数据量太少,这也限制了从已知结构数据 中挖掘预测分类信息知识的潜力f 2 6 】;第三,模型结构选择的失当,也会导致模 型性能,从而不能达到最佳的结果,例如,在机器学习类方法中,由于先验知 3 第一章绪论 识的缺少和学习算法的限制,自由参数很难被精细地调整为最佳水平 3 2 】。 2 难以从预测模型中提取领域相关的知识:在蛋白质二级结构预测中,能 否从模型中提取与研究对象相关的知识也是研究人员非常关心的重要问题【3 3 】。 以往所使用的预测方法,如神经网络方法,多层感知方法,大多数都是属于黑 箱( b l a c k b o x ) 方法1 3 4 - 3 7 ,这种方法能够真正给预测者带来的信息其实很少, 预测者得到的往往只是一个预测的结果,而并不知道该预测方法的内部机制。 举例来说,预测者通常很难理解神经网络模型中每个权重所代表的生物学含义, 更不用说如何可以利用这些权重来做更进一步的分析 2 8 】。 3 无同源信息的蛋白质预测困难:到目前为止大多数二级结构的预测方法都 是基于己知的家族蛋白质进行的,但是还有很多的未知蛋白可能不属于任何已 知的蛋白质家族1 3 引。对于这些低同源和无同源蛋白质的靶蛋白,利用传统的同 源预测法进行二级结构预测是非常困难的。 蛋白质二级结构预测的最终目标是为了能更好地进行三级结构和功能预 测。如果二级结构的预测准确率如果达到8 0 的话,我们就可以基本准确地预测 蛋白质分子的三维空间结构【3 9 】。因此,进一步提高蛋白质二级结构预测的精度 是当务之急。但在上个世纪6 0 年代到9 0 年代间,蛋白质二级结构的预测只能达 至u 6 0 左右。一直至u19 9 3 年在算法和模型上进行改进【2 0 1 ,将蛋白质二级结构的预 测准确率提高了将近7 ,终于使蛋白质二级结构的预测准确率突破7 0 。然而 到目前为止的研究中,预测准确率一直在7 5 左右,无法取得进一步突破1 7 ,柏】。 影响预测准确率提高的因素有多种,首先是蛋白质结构的形成机理,人类对蛋 白质中机制尚未完全认识清楚,以至于不能建立最佳的预测模型1 3 6 】;其次,尽 管已知蛋白质结构的数据量在不断增加,但同未知结构的蛋白质相比较,仍然 是沧海一粟,这样我们所获得的信息无法表达所有蛋白质的通性,也使机器学 习具有了偏向性1 3 9 j 。如何从海量数据中,提取出更多有益分类的信息,往往对 发展更准确的算法有极大帮助。 针对这些困难与挑战,本文在分析现有预测方法的基础上,研究并提出了 一些新的分类预测模型小波支持向量机方法,用于蛋白质的分类预测,解决了 低同源条件下蛋白质结构预测的困难,同时积极探索了准确率难以提高的原因。 4 第一章绪论 1 3 小波分析 从信号的角度去处理蛋白质氨基酸序列是这几年才发展起来的新方法。研 究表明,信号处理技术对生物数据也有着良好的处理能力,为生物信息的提取 开辟了新的思路【4 卜5 1 1 。c o s i c 的研究指出蛋白质的功能可能会通过某种周期性的 能量分布表现出来,而信号处理技术在探测隐含在信号中的这种周期性特征有 其特有的优势【5 2 】。小波变换作为一种优秀的信号处理工具,在分析化学中,特 别是在色谱、近红外、核磁共振、电化学等信号的滤噪、压缩与光谱可视化研 究中获得了快速的发展1 5 ”6 1 。 从1 8 0 7 年,f o u r i e r 提出傅立叶分析至今,傅立叶分析一直是信号处理中的 重要工具。但是f o u r i o r 变换反映的是信号或函数的整体特征,而在实际问题中 有时却恰恰关心信号在局部范围中的特征,如函数在给定点附近的性质,非平 稳信号分析和奇形方程求解【5 5 1 。小波变换正是在这一需求背景下产生的。小波 是一个有限的、均值为零的振荡波形。小波分析的雏形形成于2 0 世纪5 0 年代 的纯数学领域,此后一直没有引起人们的注意。小波变换的概念是在1 9 8 4 年由 法国从事石油信号处理的工程师m o r l e t 首先提出的,但是当时未能得到数学家 的认可【5 6 】。1 9 8 6 年著名的数学家m e y e r 偶然构造出一个真正的小波基,并在1 9 8 9 年与s m m l m t 5 7 】合作建立了构造小波基的多尺度分析,并创造性地提出快速小波 算法之后,小波分析才开始蓬勃发展起来的。 o 小波分析与傅立叶分析有着许多相似之处,其基本数学思想都源于经典的 调和分析。与傅立叶分析相比,小波变换是时间和频率的局域变换,能更加有 效地提取信号和分析局部信号【5 蹦。小波分析通过伸缩和平移等运算功能对函 数或信号进行多尺度分析( m u l t i s c a l ea n a l y s i s ) ,解决了f o u r i e r 变换不能解决的 许多困难,因此小波变换被誉为“数学显微镜”,它是调和分析发展史上里程碑式 的进展【刚。 小波变换的基本思想是通过基小波母函数( m o t h e rw a v e l e t ) 的伸缩与平移 从而可以得到一系列分辨率不同的正交投影空间即其对应的基,这是小波变换 不同于傅立叶变换之所在【5 刀。因此,小波变换就不再要求信号是平稳性的。在 小波分析中,人们以不同的“标度”或“分辨率”来观察信号:即在低频部分具有较 高的频率分辨率和较低的时间分辨率,而在高频部分具有较高的时间分辨率和 较低的频率分辨率【5 7 1 。这种多分辨率或多尺度的观点是小波变换的基本点。 和傅立叶变换一样,小波变换也存在以下三种类型:连续小波变换 5 第一章绪论 ( c o n t i n u o u sw a v e l e tt r a n s f o r m ,c w t ) 、小波级数展开和离散小波变换( d i s c r e t e w a v e l e tt r a n s f o r m ,d w t ) 。不过小波变换要复杂一些,因为小波基函数可以是正 交归一的,也可以不是正交归一的。所谓小波,即存在于一个较小区域的波。 小波函数的数学定义是:设畎力为一平方可积函数,若其傅里叶变换妖) 满足 条件: fl 咄 0 ,b er ( 1 2 ) 其中因子口和b 分别为叭f ) 函数的伸缩因子和平移因子【5 7 1 。由于口和b 均是连续 变化的数值,因此又被称为连续小波基函数,它们是由同一母函数似f ) 经伸缩和 平移变换后得到的一组函数系列。连续小波定义为: ( 咖) = ( 加咖) = | 口r 2 眇( 等) 衍口,b e r , a 0 ( 1 3 ) 在数值计算中,如果对小波变换的尺度因子、位移因子都进行离散化,即 为离散小波变换5 7 1 。在离散化时通常对尺度按幂级数进行离散化,通常采用如 下的离散化方式5 刀:令尺度因子口= “m ,b = n a o b 0 ( 其中a l ,b g o ,m 和刀为整 数) ,得到的小波基函数为: m ,6 ) = 忑1i ,砌砷( 孚) d n ( 1 4 ) 如选a o = 2 ,b o = 1 ,这样就可以得到二进制伸缩因子2 ”和二进制平移因子 n 2 册;这样式( 1 4 ) 变成 甲m ,刀:一形( 2 一肘x 一刀)(152 2 w ) 甲,竹,刀= 7 ( 2 一肘x 一刀) () 式中,m = 1 , 2 ,刀= 0 ,1 ,2 ,。信号x 例的小波系数可由式( 1 6 ) 获得: 第一章绪论 t ( a ,6 ) = ( x ( 刀) 州a ( x ) ) =l :,x ( 刀( 2 一x 一聆)(16),b 2 - 2 根据该思想,对于任意函数俐f ,俐r 俐,离散小波变换将信号分 解为近似信号和细节信号两部分【5 7 】,近似部分反映了信号的趋势和走向,细节 部分反映了信号在细节上的差异。每进行一次离散小波变换,信号就被分解为 长度相等的两部分,称为半分解过程。根据m a l l a t 快速算法【5 7 】,离散小波变换 可以看作是将信号通过一系列的高通的和低通的滤波器。每通过一次滤波器, 信号就被分解为高频部分( 细节系数) 和低频部分( 近似系数) 。因此多分辨分 析在实际应用时便转成了滤波器组的设计和分析。由多尺度分析可以推导: q ,女= h ( m 一2 k ) c 一,。 乃,女= g ( m 一2 k ) c j 。1 ( 1 7 ) 其中办内,g 例被称为滤波器组系数。这就是由小波分解的快速算法得到的一系 列系数【5 7 】。通过尺度系数和滤波器组系数相作用就可以进一步得到下一尺度下 的尺度系数和小波系数,重复该分解过程,就可以将原信号分解为时频局部化 了的各基元信号,从而达到对原信号进行分析的目的。对于任一函数f ( o v o ( f ( t ) r 倒,以数字的形式表示如下: 。 c = 钟,c ,c 2 ;: d = 斜n ,d 黔,。d m o ) ( 1 8 ) c 称之为低频系数,d 称为高频系数,对低频系数c 不断重复分解操作,可得 到预定j 层的系数c f 圳,d a ) 。 1 4 支持向量机 支持向量机是由a t & tb e l l 实验室的v a p n i k | 6 2 】等基于统计学习理论而提 出并发展起来的一种创造性机器学习分类器,它是一种新颖的具有巨大潜力的 分类技术。s v m 可以替代多层感知器( m u l t i l a y e rp e r c e p t r o n ,m l p ) 、径向基 函数( r a d i a lb a s i sf u n c t i o n ,r b f ) 、神经网络( n e u r a ln e t w o r k s ,n n ) 和多项 式( p o l y n o m i a l ) 神经网络等已有的学习算法【6 2 1 ,并开辟了向高维空间数据学 - 3 的新天地。自1 9 9 5 年诞生以来,其发展势头相当迅猛。s v m 的理论体系不断得 到发展和完善,已被广泛地应用于文本分类【6 3 】、汉字识别及手写体数字 6 4 6 5 】、 语音识7 男j | 6 6 、水文预报【6 7 1 、地球空间物理和高能物理实验数据分析与处理1 6 8 】等 领域。从上个世纪末,支持向量机方法开始广泛应用于生物信息学研究中。在 7 第一章绪论 对剪切位点识别1 6 9 1 ,蛋白质同源性检测【7 0 】,蛋白水溶性分析预测7 1 1 ,蛋白质分 类识别【7 2 1 ,蛋白质结构预测【3 5 】,磷酸化位点的预测分析,蛋白蛋白问相互作用 的分类预测,以及对s i r n a 在功能上的分类预测,0 蛋白偶联受体预测等方面, 支持向量机都得到充分的应用,并且得到了良好的结果- 7 2 。 支持向量机的基本思想是:对于在输入空间( i n p u ts p a c e ) 线性不可分的两 类样本,可以通过核函数矽( k e r n e lf u n c t i o n ) 将样本映射至某个未知的高维特征 空间( f e a t u r es p a c e ) ,并且在这个空间中寻找一个具有最大间隔( m a r g i n ) 的 最优超平面( o p t i m a ls e p a r a t i n gh y p e r - p l a n e ,o s h ) 使其线性可分,其中距离最 优超平面的最近的点被称为支持向量( s u p p o r tv e c t o r ,s v ) 。 1 4 i 两类问题 设三为线性可分训练样本集 f ,m ,i = l ,2 ,厶x i 砖y ;e + 1 ,一1 ) ,为为输 入空间的雠特征向量,y i 为类别标记。当一1 时,x ,属于第一类;当y , - - - 1 时,劫 属于第二类。则存在分类超平面凰 w x + b = o( 1 9 ) 使得所有的样本满足: ( w 薯) + b 1 ,( f = 1 , 2 9 0 0 9 上) ( 1 1 0 ) 样瓠,到分类超平面础距离为: 烈嵋b , x j ) _ 寄 每类距离超平面最近的样本到超平面的距离之和称为分类间隔。分类间隔可表 示为: 珧扛俪 “j 2 根据统计学理论f 6 2 1 ,所谓最优分类超平面就是要求不但能将两类样本正确分开, 而且要使分类间隔最大。要使式( 1 1 2 ) 中的丽2 最大,就等价于使掣最小。 因此,寻找最优分类超平面的问题就转化为在式( 1 1 2 ) 约束条件
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025四川医疗卫生服务辅助岗项目第二轮志愿者招募29人考试参考题库及答案解析
- 房地产销售合同条款讲解及案例分析
- 学校学生宿舍入住协议
- 工业材料采购与供应协议条款细节说明
- 低碳排放技术评估与应用-洞察及研究
- 战略合作协议安排及细节说明文档
- 农业种植保险产品定制服务协议
- 农业资源流转利用及土地经营协议
- 工业设备租赁与维修合同
- 2025年半导体致冷晶棒行业研究报告及未来行业发展趋势预测
- 蓄热式焚烧装置(RTO)
- 2024-2034年中国女式情趣内衣市场发展现状及战略咨询报告
- FZT 51005-2011 纤维级聚对苯二甲酸丁二醇酯(PBT)切片
- 配电网自动化终端典型缺陷处理
- 五星级酒店总投资估算表及其投资占比
- 兼职市场总监合同
- 全国初中数学优质课一等奖《黄金分割》教学设计
- 湘教版小学信息技术三年级上册教案(打印)
- 小学生演讲与口才社团
- 财务决策实训课件
- 个人能力展示
评论
0/150
提交评论