(计算机应用技术专业论文)基于数据挖掘的非编码RNA预测模型设计与实现.pdf_第1页
(计算机应用技术专业论文)基于数据挖掘的非编码RNA预测模型设计与实现.pdf_第2页
(计算机应用技术专业论文)基于数据挖掘的非编码RNA预测模型设计与实现.pdf_第3页
(计算机应用技术专业论文)基于数据挖掘的非编码RNA预测模型设计与实现.pdf_第4页
(计算机应用技术专业论文)基于数据挖掘的非编码RNA预测模型设计与实现.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(计算机应用技术专业论文)基于数据挖掘的非编码RNA预测模型设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

- l - 州永业人芦坝i j 睑迎 中文摘要 摘要 生物计算是计算机科学在生命科学中形成的一个研究领域,通过用计算机科学的知识和相关 的算法对生物学领域内的数据进行加上、存储、检索与分析。随着生物数据的快速增长,如何运 川高效的算法来处理这些数据,已经得到了越来越多的关注。 本论文进行了生物计算的研究,主要是为了解决非编码核糖核酸( n o n c o d i n g r i b o n u c l e i ca c i d , n c r n a ) 的预测问题。研究方法采用数据挖掘的理论和技术,目的是为了找出能够区分n c r 3 q a 的计算方法,同时编写预测软伺供用户使用。 论文的重点是运用数据挖掘方法中的主成分分析和人工神经网络l m ( l e v e n b e r g - m a r q u a r d t ) 算法实现了n c r n a 的预测。首先利用生物学实验数据总结出n c r n a 的特征,作为数据挖掘方法 的输入:然后在m a t l a b 环境f 用统计工具箱利神经网络工具箱对输入的特征进行主成分分析 和神经网络训| 练,用训练好的网络去预测n c r n a :最后,为了实现通用性,运用m a t c o m 接口 与v c 实现w i n d o w s 下供刚户实际使用的预测释序。 研究的难点在丁n c r n a 特征的提取和选用恰当的数据挖掘方法。论文运用生物学知识提取 了相关特征并h _ i 于主成分分析和神经网络的训练中。实际的测试结果表明特征的选择比较恰当, 洲练结果可以心作n c r n a 的预测。 论文主要创新点如下:提出了一种n c r n a 预测方法,并且设计出了进行预测的软件: 数据运用人工神经网络快速l m 算法训练,使训练和预测结果更为准确;实现了m a t l a b 与 v c 的棍合编程,充分利用了两者的优点。 关键词:生物计算,数据挖掘人f :神经网络,土成分分析 - | l 水业凡产顺1 论t英义摘些 a b s t r a c t b i o c o m p u t i n g0 1 - b i o i n f o r m a t i c s i san e wr e s e a r c hf i e l dt h a tu s e sk n o w l e d g ea n da l g o r i t h m so f c o m p u t e rs c i e n c et op r o c e s sa n da n a l y s i sd a t ao fb i o l o g yd a t af r o mb i o a p p l i c a t i o n s w i t ht h er a p i d i n c r e a s eo f b i o l o g yd a t a ,m o r ea t t e n t i o n sh a v eb e e np u to nh o w t ou s ee f f i c i e n tc o m p u t e r a l g o r i f l u n st o d e a lw i t ht h e s ed a t a t h i st h e s i ss t u d i e so i lb i o c o m p u t i n gf i e l d ,w h i c hs p e c i f i c a l l yf o c u s e so np r e d i c t i o no f n o n c o d i n g r n a ( n c r n a ) t h e o r ya n dt e c l m i q u eo fd a t am i n i n gw e r ei n t r o d u c e dt os e tu pac o m p u t a t i o n a l f r a m e w o r kt h a ti sa b l et od i s t i n g u i s hn c r n af r o mo t h e rk i n d so f s e q u e n c e s ,a n dp r e d i c t i o ns o f t w a r e v a sd e s i g n e dt op r o v i d en o n p r o f e s s i o n a lu s e r sw i t ha r le a s y p r e d i c t i o nt 0 0 1 t h i st h e s i sl a y sas t r o n ge m p h a s i so n p r i n c i p a lc o m p o n e n t sa n a l y s i s ( p c a ) a n dl ma l g o r i t h mi n a t x i f i c i a ln e u r a ln e t w o r k st oc o n l p l e t et h ep r e d i c t i o no f n c r n a ,w h i c hi sb a s e do nd a t am i n i n g f i r s t , f e a t u r e so fn c r n aw e r es u n l l l l e du pt os e r v ea s i n p u tf o rd a t am i n i n gp r o c e d u r e sl a t e ro n s e c o n d , s t a t i s t i c st o o l b o xa n da r t i f i c i a ln e u r a ln e t w o r k st o o l b o xo fm a t l a bw e r eu s e dt oc a r r yo u tp r i n c i p a l c o m p o n e n t sa n a l y s i sa n da r t i f i c i a l n e u r a ln e t w o r kt r a i n i n g f i n a l l y , u s e rp r e d i c t i o nw a sd e s i g n e di n v i s u a lc + + w h i l em a t c o ms e r v e da si n t e r f a c eb e t w e e nm a t l a ba n dv ct o c o m p l e t et h eu s e r p r e d i c t i o np r o g r m n d l 甑c u l t i e so ft h i st h e s i sa r ee x t r a c t i o no fn c r n af e a t u r e sa n dt h es e l e c t i o na m o n gd a t am i n i n g t e c h n i q u e s d o m a i nk u o w l e d g ei nb i o l o g yw a su s e d r e l i e do nf o rd a t am i n i n go nt h i s s p e c i f i cp u r p o s e p r e d i c t i o nr e s u l t so b t a i n e da tt h i ss t a g e t od i s t i n g u i s he f f e c t i v en c r n af e a t u r e st h a tc a nb e t h em e t h o da d o p t e dh e r ei s p r o v e de f f e c t i v eb y t i l en e wi d e a si nt h i sp a p e ra r ea sf o l l o w i n g :1an e wp r e d i c t i o nm e t h o dw a si m p l e m e n t e do n c l a s s i f i c a t i o nf o rn c r n a s e q u e n c e sa n ds o f t w a r ew a sd e s i g n e dt oh e l pu s e rp r e d i c t i o n ;2l m a l g o r i t h m i na r t i f i c i a ln e u r a ln e t w o r k sw a si n t r o d u c e dt oa c h i e v ef a s t e rc o n v e r g e n c ei nt r a i n i n g ;3as t r a t e g yt h a t c o l n b i n e sm a t l a bw i t hv cw a si m p l e m e n t e dt os u i tu s e r sf r o md i v e r s e b a c k g r o u n d s k e yw o r d s :b i o c o m p u t i n g ,d a t am i n i n g ,a r t i f i c i a ln e u r a ln e t w o r k s ,p r i n c i p a lc o m p o n e n t sa n a l y s i s 独创性声明 本人声螭所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得中国农业大学或其它教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的既明并表示了谢意。 研究生签名m i - i 回:伽f - 年毛目日 关于论文使用授权的说明 本人完全了解中国农业大学有关保留、使用学位论文的规定,即:学校有权保留 送交论文的复印件和磁盘,允许论文被查阅和借阅,可以采用影印、缩印或扫描等复 制手段保存、汇编学位论文。同意中国农业大学可以用不同方式在不同媒体上发表、 传播学位论文的全部或部分内容。 f 保密的学位论文在解密后应遵守此协议) 研究生签名: 导师签名:多钢锄确 一一i - v 时间:1 舯年年月,占日 时间:弼( f 年月,日 。i - 阳农、人学蝌 卜沦殳第一幸绪论 1 1 研究目的和意义 1 1 1 生物计算简介与背景 第一章绪论 生物计算( b i o c o m p u t i n g ) ,又称生物信息( b i o i n f o r m a t i c s ) 口1 是计算机科学与生命科学以 及应用数学等学科相互交义而形成的一个研究领域。它位于计算机科学和生命科学的交叉点上, 通过用计算机科学的知识和相关的算法对生物学领域内的数据进行加工、存储、检索与分析,进 而达到揭示数据所蕴含的生物学意义。它包括基因组学的生物计算和蛋白质组学的生物计算两个 火的方面。 近2 0 年来生命科学的发展日新月异,新的进展层出不穷,特别是近年来被誉为生命科学“阿 波罗登月计划”,耗资数十亿美元的人类基因组计划( h u m a n g e n o m ep r o j e c t ,h g p ) 等大型国际 合作研究项目的实施,使人类在生命科学领域尤其是核酸和蛋白质等生物大分子的序列、结构与 功能等方面迅速积累了大量数据和信息。与此同时以计算机技术和网络技术为代表的信息科学也 住近2 0 年得到了迅猛的发展。信息科学和生命科学作为世纪之交的两大领头学科,已经相互渗 透并与其他学科交叉而派生出很多新的研究领域。其中由信息科学和生命科学等学科相结合特别 是由计算机信息处理技术与分子生物学紧密结合而形成的生物计算这个研究领域应运而生,并人 人推动了相关研究的发展。在今后相当氏的时期内,特别是在完成基因组测序以后的“后基因组 日_ _ | 代”,生物计算将在基因组研究、蚩白质组研究等方面发挥更大的作用。 1 1 2 生物计算中的数据挖掘 所谓数据挖掘,就是从数据中抽取隐含的、以前未知的、具有潜在应用价值的信息的过程。 数据挖掘是知识发现( k n o w l e d g ed i s c o v e r y i nd a t a b a s e ,k d d ) 最核心的部分。数据挖掘与传统 分析r 具不同的是数据挖掘使用的是基丁发现的方法,运用模式匹配和其他算法决定数据之间的 重要联系。 数据挖捌与传统的数据分析( 如有啕、报表、联机应用分析) 的本质区别是数据挖掘是在没 有明确假设的前提r 去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知,有效和可实用 三个特征。 随着人类基因组计划等大规模测序工作的完成,海量的数据成了计算机学家的一个大的难 题。如何处理和识别这些数据成了计算机学家的一个重要的任务。生物计算的一个重要任务就是 发现揭示这些数据中所蕴涵的生物学规律。如何运用已有的生物学知识,运用计算的方法,从这 些数据中抽取对我们有用的知识,从而给生物学家提供有益的指导,是当前计算机科学与生物科 学交义的一个热点问题。数据挖掘算法对丁生物学领域如基因组数据的识别,基因芯片数据的处 理等具有非常重要的理论意义和实际意义。 i i3 生物计算中数据挖掘的意义 生物计算是当今生命利学的重要领域之一也将是2 】世纪给自然科学带来革命性变革的热 i 、领域之一。分子生物学在2 0 世纪后、即| 发展迅速,生物学的技术发展和研究手段高度自动化 使得众多物种从细菌到人类的基因平蛋白质数据正在以科学史上从未有过的高速度增长。目前已 测定出多种细菌,以及比细菌更高等的一些物种完全基因组,人类全基因组序列3 0 亿碱基也在 2 0 0 1 年初提前完全测定。现在,核酸和蛋白质序列数据的总量每1 4 个月翻一番。超过了莫尔定 律的计算机处理速度的增l 受。近年来g e n b a n k 数据库中的d n a 碱基数目呈指数增加,到1 9 9 9 年1 2 月其数目已达3 0 亿,2 0 0 0 年4 月d n a 碱基数目是6 0 亿。2 0 0 1 年初这一数目达到了1 1 0 亿。如何利_ l = i 平使川这些庞大的数据,发现其中的生物学规律,不但对于生物学家,更重要的是 对计算机学家提出了严峻的挑战而数据挖掘正好可以在这个方面发挥作用。生物计算的成果不 仅对相关基础! 学科起到巨人的推动作用,而且还将对医药、卫生、食品、农林牧业等产生巨大的 影响,引发新的产业革命。 1 2 国内外的研究现状 随着人类基冈组计划的实施,各国都投入巨资支持相关的科研,人类基因组计划就是要测出 人类基因组的全部脱氧核糖核苷酸序列在这个基础上进而弄清楚其中所有功能单位的组织结构 形式以及调节机制,最终达到从整体系统水平上认识人体构造与功能并帮助制定有效治疗策略和 开发有效治疗药物的目的。 人类基因组计划带来了大量的生物数据,而且数据量也在以科学史上前所未有的高速度增长 着。生物学已不再是仅仅基于实验观察的科学,仅靠传统的研究手段是无济于事的,理论和计算 将越米越发挥巨大作州,数学、物理、计算机科学将日益渗透到生物学研究中来。海量的数据必 颁通过生物计算的手段进行收集、分析和整理后,才能成为有用的信息和知识,才能再加以传播 应心,为进行生物学分析做好准备。分子生物学结合计算机技术产生了生物计算这一崭新领域, 数据挖铡因其在大规模数据处理方面的卓越能力而在其中占据越来越重要的地位。 121 国外生物计算研究现状 国外一直1 f 常重视生物计算的发展,各种专业研究机构和公司如雨后春笋般涌现出来,生物 科技公司和制药工业内部的生物计算部门的数量也与日俱增。尤其是最近两、三年来,美国一些 毋著名的大学,如哈佛大学、普林斯顿大学,斯坦福大学、加州大学伯克利等都投资几千万到一 亿多美元成立了生物学、物理学、数学等学科交叉的新中心。 近来,英国鉴于国内对生物计算专业人才目益迫切的需求,所有主要的研究资助机构如医学 研究委员会( m e d i c a lr e s e a r c hc o u n c i l ,m r c ) 、j 二程学和物理科学研究委员会( e n g i n e e n n ga n d p h y s i c a ls c i e n c e sr e s e a r c hc o u n c i l ,e p s r c ) 、粒子物理和天文学研究委员会( p a r t i c l ea n d a s t r o n o m y r e s e a r c hc o u n c i l ,p p a r c ) 都已经达成共识,认为应该高度优先地满足对生物计算技 术拜勺需求,而且己经实现了对生物计算人才培养的大力资助。 川| d 牝业人平坝ii _ 仑疋第一章缔跑 为- j 满足,l 物计算的研究需篮,i b m 集中了1 ;同领域的5 0 名研究员,专门从事计算机应川丁 e 物科技领域的研究,投入1 亿火元开发出了_ h = 界排名第一、有1 0 0 万个c p u 、每秒运算速度高达 千万亿次的超级计算机监色基冈( b l u e g e n e ) ,专为生物科学研究服务。i b m 至今在生物科技领域 已经投资2 亿美元。 事实上,欧美等发达国家在生物信息方面已有较长时闻的积累。早在6 0 年代,美国就建立了 手:f 搜集数据的蛋白质数据库;美国洛斯阿拉莫斯国家实验室1 9 7 9 年就已经建立起g e n b a n k 数据 库,欧洲分子生物学实验宝e m b l l 9 8 2 年就己经提供核酸序列数据库的服务:日本也于1 9 8 4 年着 手建立国家级的梭酸序列数据库d d b j 并于1 9 8 7 年开始提供服务;美国于1 9 8 8 年在国会的支持下 成立了国家生物技术信息中心( n c b i ) p j ,其目的是进行计算分子生物学的基础研究;欧洲于1 9 9 3 年3 月就着手建立欧洲生物信息研究所( e b i ) 【4 】:日本也于1 9 9 5 年4 月组建了自己的生物信息中 一t l 、( c i b ) 。 在算法方面,早在1 9 6 2 年,a l c k e r k a n d l 和p l m 2 就将序列变异分析与其演化关系联系起来, 从而开辟了分子演化的崭新研究领域h 】;1 9 6 4 年d a v i e s 开创了蛋白质结构预测的研究【6 】;1 9 7 0 年,n e e d l e m a n l i w u n s c h 发表了受重视的两序列比较算法f j ; 1 9 7 5 年,p i p a s 和m c m a h o n 首先 提山运朋计算机技术预测r n a 二级结构口】;随着1 9 7 6 年之后大量生物学数据分析技术的涌现, s c i e n c e 二1 9 8 0 年第2 0 9 卷发表了关丁计算分子生物学的综述。正如我们现在所看到的那样,在八 九十年代,生物学数据分析技术在国外更是获得了突飞猛进的发展。 目前,绝大部分的核酸和蛋白质数据库由美国、欧洲和日本的3 家数据库系统产生;他们共 同组成了g e r , b a n k e m b l d d b j 国际核酸序列数据库,每天交换数据,同步更新。其他一些国家, 如德国、法国、意大利、瑞士、澳大利亚、丹麦和以色列等,在分享网络共享资源的同时,也分 别建有臼己的生物计算机构、二级或更高级的具有箨自特色的专业数据库以及自己的分析技术, 服务丁本国生物( 医学) 研究和j 开发,有些服务也开放于全世界。 122 数据挖掘的研究现状以及与生物计算的结合 k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 一词首次出现在1 9 8 9 年举行的第十一届国际联合 人r 凹能学术会议上。到目前为止,由美国人工智能协会主办的k d d 国际研讨会已经召开了8 次规模由原来的专题讨论会发展到国际学术火会,研究重点也逐渐从发现方法转向系统应用, 注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。1 9 9 9 年,亚太地区在北京召开 的第三屑p a k d d 会议收到1 5 8 篇论文,空前热烈。疋e e 的k n o w l e d g ea n dd a t ae n g i n e e r i n g 会 刊率先在1 9 9 3 年出版了k d d 技术专刊。并行计算、计算机网络和信息工程等其他领域的国际学 会、学刊也把数据挖掘和知识发现列为专题和专刊讨论。就目前来看,现在的几个热点包括网站 的数据挖掘、生物计算( 生物信息) 的数据挖掘和文本的数据挖掘。其中,生物计算的数据挖掘 将会是今后的热点研究方向,k d d 国际研讨会在2 0 0 1 年的主题就是“生物信息中的数据挖掘”。 数据挖掘技术在生物计算的应用可以分为基因组数据的数据挖掘、蛋白质组数据的数据挖掘 祠l 基冈芯片的数据挖掘。这些方面研究所j 【 j 的数据挖掘的方法非常多,常用的数据挖掘方法基本 i :都能得到利刖,有时还需要多种方法的结合,即所谓的混合模型。在基因组和蛋白质组数据中, 数据本身是什么是术知的,机器学爿算法、人i :神经网络、概率方法等模型得到了广泛的应用: z i 二撼冈芯片数据中,我们更火心每个基冈表达的相互作川,在这个领域中,微分方样、概率分析 和贝叶斯网络是比较好的方法。 1 2 3 我国生物计算和数据挖掘的现状 国内对生物计算领域也越来越重视,在一些著名院士和教授的带领下,在各自领域取得了一 定成绩,有的在国际上还i i 有一席之地。如中国科学院北京基因组研究所华大基因中心承担了人 类基冈组计划( h o p ) 测序的部分工作,并且测定了水稻基因组,这个工作的论文在美国权威 * 2 i s c i e n c e 上发表:北京大学丁1 9 9 7 年3 月成立了生物信息中心,中科院上海生命科学研究院也 于2 0 0 0 年3 n 成立了生物信息学中心,分别维护着国内两个专业水平相对较高的生物信息学网站; 我围的井行计算机研究也已达剑世界先进水平,由国家并行计算机工程技术研究中心牵头研制成 功的“神威”高性能计算机己投入运行。第二台“神威”高性能计算机系统将在上海超级计算中 心投入运行这为海量的生物数据处理奠定了基础。 国内对k d d 的研究稍晚,没有形成整体力量。1 9 9 3 年国家自然科学基金首次支持对该领域的 研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究, 单位包括清华大学、北京大学、中科院计算技术研究所研究非结构化数据的知识发现猷及w e b 数 据挖掘。 但从全国总体上来看,生物计算与国际水平差距很大。尤其是有关k d d 在生物方面的力量比 较薄弱,研究能力明显不足。方面,国内生物( 医药) 科学研究与开发对生物计算研究和服务 的需求市场非常j 阔,另一方面,真正开展生物计算具体研究和服务的机构或公司却相对较少, 仅有的儿家科研机构主要开展生物计算理论研究,提供生物计算服务的公司所提供的服务也仅局 限于简单的计算机辅助分子生物学实验设计,而且服务体系并不完善。目前国内互联网上已经有 了儿家生物计算网站,但大部分偏于所有生物( 医) 学领域的新闻报道,生物计算专业技术服务 的含量太少( 这其实也是国内生物计算研究力量薄弱的必然体现) ,尤其是精通生物与计算机的 人才较少,生物学家对于计算机的了解明显低于其它学科的a 对于计算机的了解,而计算机学家 义对 i 生物这个领域的不熟悉造成了两者沟通的困难在这种局面下,生物计算研究中多学科人 才相互融合,相互协作在国内尚未形成,这也与国外有较大差距。 1 3 论文的主要研究内容和组织 王| 己们知道,现阶段已经测出了一些物种的基因组序列,但是,仅仅测出是没有任何意义的。 这里要说明的是基因组数据的复杂性。所谓某种生物的基因组就是指该生物所有遗传物质的总 和。生物的遗传物质是d n a 大分子它是由4 种核苷酸串接起来组成的通常用字符a 、t 、g 、 c 代表,遗传密码就是这4 个字符连接起来的线状k :链。比如人的遗传密码就含有3 2 亿个字符,这 些字符包含了人体的结构平功能以及生命活动过程的大量信息,却仅仅由4 个字符组成,既无词 法x 无句法,还没有标点符号,如何凄情它是个极大的难题。基因组生物计算研究最终是要把 生物学问题转化成对数字符号的处理问题。要解决这样的问题就必须发展新的分析理论、方法、 技术弄r 具就必须依赖计算机的信息处理。 - 4 f i 水_ i ,人。产f j 论史鹕一茚绪论 基田组序列从人的方面可以分为编码区嗣i 肝编码区,编码区就是所谓的编码蛋白质的r 域, 我们平时说的基冈即位丁这些区域。编码区的功能已经研究的比较透彻它遵循中心法! j ! i j ,即 d n a m r n a 一蛋白质。而竹编 i - q l k 的功能目前不清楚。在细菌这样的微生物中,非编码蛋自质的 区域i o r 整个基冈组序列的1 0 2 0 。随着生物的进化,非编码区越来越多,在高等生物和人的 基因绢中1 i 编码区已占到基因组序列的绝大部分。这表明:这些菲编码区必定具有重要的生物功 能。普遍的认识是,它们与基因的表达调控有关。对人类基因组来说,迄今为止,人们真正掌握 规律的只有d n a 上的编码蛋白质的区域( 基因) ,而这部分序列只占基因组的1 1 。其余近9 9 是功能不清的1 f 编码区。田此运川生物计算与数据挖掘技术寻找这些区域的编码特征、信息调节 与表达规律是未来相当长时间| = i = 的热点,本课题研究的问题就是非编码区中的一种r n a 。 r n a ( r i b o n u c l e i ca c i d ,核糖核酸) 是一类生物大分子,在生物体内行使许多重要的生理生 化功能。在细菌利高等细胞中包含着一类r n a ,这类r n a 分子执行一定的功能而不是翻译蛋白质。 这类r n a 通常称j , j n o n ,c o d i n g r n a ( n c r n a ) 。现在发现n c r n a 的数量非常多,功能各异。大多 数n c r n a 执行一定的功能,作用机制有多种,比如r n a r n a 配对、r n a 一蛋白质相互作用、1 l n a 有的行为。它们还调控不同的细胞行为,包括r n a 加工、m r n a 稳定性和翻译、蛋白质稳定性 和分泌。 这两年不论是在相同的物种里域是不同的物种间,科学家都新发现了不少新的n c r n a ,遗憾 的是,这类r n a 往往无法h ; 实验的方法去有目的大规模地寻找,好多r n a 往往是在研究其他方 面的实验中被偶然地发现的。从现阶段的文献来看,这类r n a 是非常重要的。因此,运用计算 的方法对基因缉序列进行分析去寻找这些n c r n a ,成为当前研究菲编码区的一个方向。本论文运 j _ j 生物计算中的数据挖掘方法分析基因组序列,去寻找这类n c r n a 。 本论文重点是利用这两年通过实验发现的一部分数据,首先从生物学的功能出发,总结出 n c r n a 的不依赖与本身的一些特征:然后运用数据挖掘方法的主成分分析和人工神经网络中改进 的b p 算法l m ( l e v e n b e r g m a r q u a r d t ) 算法,用训练集的特征训练网络,用测试集测试训练 女r 的网络,实际的运算表明,网络的训练非常成功:最后实现w i n d o w s 下供用户实际使用的预测 程序。 实际的实现环境是:运_ j 书m a t l a b 6 5 环境下的统计工具箱和神经网络工具箱设计并实现了 n c r n a 的训练与预测。由 丁m a t l a b 编写的程序代码少,省去了复杂的统计和神经网络实现和 i ¥序的编写,从而可以把精力集中于特征的提段和网络结果的选取。但是,由于m a t l a b 的局 限性即实际的预测不能脱离m a t l a b ,从而限制了预测程序的应用。为了使预测能够脱离 m a t l a b ,从而方便用户使用,采用了在m a t l a b 中进行网络训练并且保存训练好的网络而 刚v i s u a lc + + 6 0 设计用户预测程序,在v c 中调用m a t l a b 训练好的网络,利用m a t c o m 作 为m a t l a b 与v c 的接口。从而用v c 实现w i n d o w s 下供用户实际使用的预测程序。实际的使 川表明:这样既充分利用m a t l a b 的优点,又能和v c 结合克服它的缺点。 论文的组织如下:第二章对数据挖掘的基本原理作简单的介绍,同时介绍和n c r n a 相关的 生物学背景与研究进展,并且对论文将要用到的数据挖掘方法一主成分分析和人工神经网络的 原理进行详细的讨论。第二章是模型的具体实现,首先对实验数据得到的n c r n a 运用生物学背 景知识进行特征提取:然后川这些数据在m a t l a b 环境中设计与实现n c r n a 的预测;针对 m a t l a b 的局限性,延刚m a t c o m 与v c 实现w i n d o w s 下供用户实际使用的预测系统。最斤 章到研究1 作作山结论,同州列后续的l 竹? 作一个展望。 1 4 论文的主要创新 论文的创新处主要体现在以f 几个方面。 1 关于非编码区的研究将是解开生命调控机制的重要一环,而n c r n a 是这一机制的重要组成 部分。目前,国内目前没有类似的研究,论文提出了一种n c r n a 预测方法,并且设计出了使削 户能够实际进行预测的软件,从而促进了该领域的发展。 2 运用改进的人工神经网络进行建模。首先用主成分分析对输入特征进行分析,使各个特祉 之间线性无关:同时针对经她b p 的缺点,使用了快速训练算法_ i m ( l e v e n b e r g m a r q u a r d t ) 算法,使b p 网络的次数减少,收敛速度加快,从而使预测更为准确。 3 运刚m a t c o m 作为接口,实现了m a t l a b 与v c 的混合编程,从而充分利用了m a t l a b 神经网络 :具箱的强大功能嗣iv c + + 编泽语言的运行速度,这样既保持了m a t l a b 的优良算法, 义提高了执行效率。 ! :_ :釜些尘:| :! :i :竺生兰 釜:= :主茎芝丝塑尘星:垒坚型竺:兰 第二章数据挖掘应用于n c r n a 预测的理论 生物计算中的数据挖掘是数据挖掘中1 i 常重要的一个领域。本章首先对数据挖掘的基本原理 作简单的介纠,同时介纠n c r n a 相关的生物学背景与研究进展,最后对论文将要用到的数据挖 拥f 方法主成分分析和人一j :神经网络的原理进行详细的讨论。 2 1 数据挖掘的概念及常用方法 2 11 数据挖掘的概念 所谓数据挖掘p j 【j ,就是从数据中抽取隐含的、以前未知的、具有潜在应用价值信息的过程。 数据挖掘是知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s ek d d ) 1 最核心的部分,是人们长期对 数据库技术进行研究雨开发的结果。起初备种商业数据是存储在计算机的数据库中的,然后发展 到可对数据库进行查询 l i 访问,进而发展纠对数据库的即时遍历。数据挖掘使数据库技术进入了 一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在 联系,从而促进信息的传递。 数据挖掘的历史渊源流比最主要的数据挖掘技术利用了人工智能和统计分析两大学科的一 些方法,另外数据库的原理也运用于数据挖掘中。数据挖掘技术来源于很多领域,比如遗传算法 和人 _ 神经网络来源于对大脑处理过程的模拟;连接分析来源于图论。数据挖掘和统计技术是非 常相关的,甚至在方法学上有相当大的重叠。统计可用于对数据的分析,如回归分析。也可用于 对数据的收集。著名的例子有:孟德尔的豌豆实验,通过对大量数据的手工分析,最终发现了基 冈的存在。统计学和数据挖掘这两种方法都有各自的优势:统计的优势在于有大量的可用人员、 有不少可用的软件、技术相对成熟、有时候效果和数握挖掘一样好;面数据挖掘的优势是统计要 抽样,可能会丢失有用信息,而且对丁大数据量的话,数据挖掘可以给出相对比较精确的结果。 但是,数据挖掘不是为了替代传统的统计分析技术,相反,它是统计分析方法学的延伸和扩展。 人多数的统计分析技术都基于完善的数学理论,预测的准确度还是令人满意的,但对使用者的要 求很高。而随着计算机计算能力的不断增强,有可能利用计算机强大的计算能力只通过相对简单 和州定的方法完成同样的功能。一些新* 的技术同样在数据挖掘领域取得了很好的效果,如神经 网络和决策树,在足够多的数据和计算能力下,只要设计好参数就能自动完成,从而提供许多有 价值的东西。 数据挖掘就是利用了统计分析、人工智能技术和数据库技术的应用程序,把这些复杂的技术 封装成一个整体,以软件包的形式提供给用户使人们不用自己掌握这些技术也能完成同样的功 能,并且更专注丁- 自己所要解决的问题。 - r 目牝, j k 人学f l ! ) ! l 。学位论史第二章数据挖掘应用十n c r n a 预测的媸论 2 1 2 数据挖掘的目的和结果 图2 - 1 数据挖掘组成结构图 数据挖掘的最终目的是从原始的数据中总结山有用的信恳。从具体形式上来说,数据挖掘的 最后结果有以下儿个类型。 1 古计数值:这种处理的最终结果是给用户一个值的输出,通常是用于一个连续的函数,比 较典型的是在统计处理中的经验公式就是利用很多参数来建立一个方程,利用建立的方程输入参 数,就可以得到结果。在数据挖掘中会经常遇到这类问题,当然由于数据的复杂性,很多方程 的参数不是很明显,甚至无法建立一个显性方程。估值问题的关键在于参数的选择和方程的形式。 2 分类:首先从数据中通过分析已知分类信息的数据总结出个预测模型,这里用于建立模 j 弘的数据称为训练集,通常是已经掌握的历史数据。在该训练集上运用数据挖掘分类的技术,建 立分类模型,对于没有分类的数据进行分类。需要注意的是类的个数是预先定义好的,是确定的。 住数据挖掘中,这是相当重要的一类方法,比如人工神经网络就是一种解决分类的常见方法,建 立好的模型可以用于对未知类别的模式识别。 3 聚类:聚类是把已知的数据分成不同的类。它的最终结果是要类与类之间差别很明显,而 同一个类之间的数据尽量相似。与分类最大的不同是在开始聚类之前不知道要把数据分成儿类组 平如何去分。也就是说这样的结果是盲目性的,仅仅和特定的数据相关,囡此在聚类之后每一类 意义必须利相关的领域结合起来去分析实际的结果。很多情况下的聚类结果并不十分令人满意, 常常需要删除或增加变量重新聚类,经过几次反复之后才能最终得到一个理想的结果。聚类算法 是个比较成熟的算法,算法的种类也可以根据不同的研究日的去选择,一个好的数据挖掘聚类 结果可以给用户一个清晰的认识。 4 ,相关性分析和关联规则:这种方法的数据挖握结果是给出自变量之阃的关系,两上面的儿 种结果给出的是田变量的结果。在通常的情况下,自变量的关系也是非常重要的,通过相关性分 析,可以给山白变餐之间的关系,这对于用户是1 | = 常重要的,比较著名的一个例子是从一家超市 的数据仓库分析中发现的一条典j 芙联规则是”页面包和黄油的顾客十有八九也买牛奶”和”买食 8 c f ,i t 农业人学坝i 。学艇睑史第二章数据挖掘胞用十n c r n a 顺测的型论 r 内顾客儿乎都川信川p ,这种规对1 i 商家开发羊| | 实施客户化的销售计划和策略是1 r 常有川 的。 5 统计描述平可视化结果:建立空的模型应该给客户一个最直接的认识。常用的结果是计算 再种统计变耸( 平均值、方差等) 和数据的分布情况。按照数据的种类分为连续的或离散的。同 时,目形和可视化结果也是非常重要,这样能快速直观的查看数据分析结果。 通常的数据挖掘结果可能是以多种上述所述的形式出现的,这样做的好处是能提供给用户更 多的信息同时充分地利用了各种方法的长处,弥补单一方法分析的不足。 21 3 数据挖掘的常用方法 数据挖掘主要是利用了人1 二智能和统计学领域的方法,大多数数据挖掘方法使用的算法都是 在计算机科学或统计数学杂志上发表过的成熟算法,所不同的只是算法的实现和对性能的优化。 儿乎所有的数据挖掘技术都可称为是数据驱动的,而不是用户驱动的,也就是说用户在使用这些 算法时,只要给山数据不用告诉算法程序怎么做和期待得到什么结果,一切都是算法自身从给 定的数据中白己找出来。常削的数据挖掘方法可以分为以下几种。 1 统计方法:统汁方法是一种非常起作用的数据挖掘方法,基本上常用的统计方法在数据挖 掘中都可以借州,比较常用的有回归分析( 如多元回归分析、自回归分析等) 、判别分析( 如贝 叶斯判别、费歇尔判别、非参数判别等) 、聚类分析( 如系统聚类、动态聚类等) 、探索性分析( 如 主成分分析法、相关分析法等) 、以及模糊集、粗糙集、支持向量机等。 2 机器学习方法:这是人上智能领域内的方法,常见的有归纳学习方法( 如决策树、规则归 纳等) 、遗传算法、贝叶斯网络。人一l 神经网络( 如b p 神经网络、自组织神经网络等) 。 3 数据库方法:数据库方法主要是基于可视化的多维数据分析,另外还有面向属性的归纳方 法等。 4 萁他:还有一些方法不是太常用比如基于概率论和随机过程的隐性马尔可夫模型和时间 序列分析等,另外微分方程在某些时候也可作为一种解决办法。 需要注意的是,大部分方法都不是专为解决某个问题而特制的,各个方法之间也并不互相排 斥。不能说一个问题一定要采用某种方法。一般来说并不存在所谓的最好的方法,在最终决定选 取哪种方法之前,最好把可能各种方法和模型都试一下然后再选取一个较好的,满足研究所要 求准确度的方法。 2 1 4 数据挖提的过程 了解数据挖掘过程对于分析和解决问题是非常重要的,一般的来说,数据挖掘遵循着一定的 过棵,过程并不是线性的,要取得好的结果就要不断反复重复这些步骤。可能采用不同的数据集: 也有可能要往里面添加一些新的数据。 基本数据挖掘包括六个过程:定义所要解决的问题_建立数据挖掘模型+ 准备和 分析数据+ 建立模型+ 评价模型实施模型 1 定义所要解决的阀题:在开始数据挖掘之前最先的同时也是最重要的要求就是了解的所要 。j _ | | i i 】牝、i k 人学州! j 学位沦殳 第二章数j :罾挖掘应用十n c r n a 颅;删的垲论 m f 伙的问题 r i , t 目必的背景钏识。如粜缺少了这些背景知识就没办法明确定义要解决的问题,不能 为挖j : 准备数据,也很难止确的解释得剑的结果。要想充分发挥数据挖捌的价值,必须要对目标 有一个清晰明确的定义,即决定到底想千什么,想得出什么结果,这是前提,对于背景知识了解 的越多,就越能减少后续的。作难度。 2 建立数据挖掘模型:这是从总体上进行设计的一个步骤。类似于软件工程的总体设计,其 中有两个大的方面:数据挖掘方法的设计和所用数据库的设计。方法的设计可能只是一个初步的 思想,有可能要根据后面的结果做动态的修改数据库的设计对于大型数据库的挖掘来说尤为重 要,正确的数据库设计可以减少时问,得到理想的结果。 3 准备平| j 分析数据:准备数据和分析数据是建立模型之前的最后一步数据准备工作。数据的 好坏对丁结果是非常重要的,也是最费时间的一个部分,应根据研究目的选择合适的数据。理想 情况f 可以选择所有的全部能够得剑的数据用到数据挖掘中,让工具选择哪些是最好的。实际上 这样做并不是很好,一方面是由t - 随着数据个数的增加,模型的建立时问也随之上升;另一方面 盲目的把所有的数据都加进去会导致建立错误的模型。在原理上说,一些数据挖掘算法自动忽略 不相关的变耸、自动计算相关的变鼙,这为问题的解决提供了参考。但是在实际应用中不能完全 依赖这些:r 贝,应当利用已有的领域知识,做出正确的选择。分析数据的过程就是利用上述的方 法对数据做出初步的分析,这个过撑和f 面的步骤有部分重叠。 4 建立模型:这是数据挖掘最重要的一个过程,对建立模型来是个反复的过程。需要仔细 考察不同的模型,反复地进行修改。选择什么样的模型决定了需对数据做哪些预处理工作。如神 经网络需要作数据转换,有些数据挖掘可能对输入数据有特定的限制等。一旦决定了预测的类型 之后,就需要为这个预测选择模型的类型和特定的方法。一旦所有的数据准备好之后,就可以开 始训练模型了。 5 评价模型:为了保证得到的模型具有较好的精确度和健壮性,需要一个定义完善的训练一 评价协议。有时也称此坊议为带指导冉勺学习。主要思想就是先用部分数据建立模型,然后再削 刺r 的数据来测试这个得到的模型,有时还有第三个数据集,称为验证集,因为测试集可能受模 慢的特性的影响,这时需要一个独立的数据集来评价模型的准确性。 6 实簏模型:数据挖掘完成后,就可以进行实际的实施了,在实麓的过程中,有可能还会发 现不完善的地方,这样,模型可能还要进行修改。 一川农业人学呲卜浮垃跑文第_ _ 二章数制挖掘应用于n c r n a 颅删的耻论 2 n ds e l e c t i o n t h epr 1 。s b t l e s m t a g t e ha lw l i i b et h eo b j e do fs t u d y + 3 r ds t a g ep r e p a r a t i o no fd a t a 图2 - 2 数据挖掘的过程和阶段 i - f f f r l # e e d e dd le a l ;hsq a e l en f d o l a 埘l n ;n g 图2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论