




已阅读5页,还剩5页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
用判别分析的方法判定dna序列的类别数学建模论文用判别分析的方法判定dna序列的类别摘 要判别分析法是多元统计分析中的重要内容之一。近年来,人们用判别分析的方法解决了不少在生产科研和日常生活中的实际问题。本文用fisher判别的思想,从变量检验入手,给出了对dna序列进行不同分类的理论依据,并探讨错判概率与判别效率之间的关系。通过对检验样本的回报情况分析可知,本文所建立的模型分辨率高(95%),错判率低(1%),简单而易于运行,适合于各种长度的dna序列的分类,因此实用性强,有较高的理论价值,为多元统计分析方法在生物信息学领域中应用的又一典型实例。关键词:dna序列、fisher判别法、判别函数、错判率。一、问题提出1背景人类基因组计划中的dna全序列图是一本记录着人类自生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符a、c、g、t按一定的顺序排成的长约30亿的序列,其中没有断句,也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的内容知之甚少,难以读懂 ,破译这部世界上最巨量信息的“天书”是二十世纪最重要的任务之一。在这个目标中,研究dna全序列具有什么结构,由这4个字符排成看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学最重要的课题之一。对dna序列的逐步认识让人们相信dna序列中存在着局部的和全局的结构,充分发掘序列的结构对理解dna全序列是十分有意义的。2问题有20个已知类别的人工序列:a类,b类。 1. 从中提取特征,构造模型,找出合适的分类方法,并用该法对另20个给出的未知类别的人工序列进行分类,要求详述方法及给出计算程序。2.对另给出的182个自然序列进行分类。二问题的分析本题重在从已知类别的dna序列中提取某些特征,构造分类方法,提取的某些特征应满足以下条件:1) 来源于已知样本。2) 具有给予未知类别的dna序列分类的功能。3) 能较好的接受检验样本的检验。全部地考虑各种因素(如碱基的排列组合,碱基间的键强及键长等等),无法得到分类方法。忽略以上特征,突出a、c、g、t在dna序列中出现的频数,对这个特征利用多元统计分析方法可以达到要求。判别分析法对分类问题有着较强的适合性,而在fisher判别法,bayes判别法,距离判别法等方法中,fisher判别法条件更宽、更通用。三、符号与假设1、 主要假设(1) 分析dna序列时,不考虑a、c、t、g出现的顺序。(2) 忽略碱基间间键的强弱、长短。(3) 假设文中较小容量的子样能体现母体的一些统计特性。(4) 认为dna序列中a、c、g、t的出现是独立的。(5) dna序列中a、c、g、t对dna序列的影响是平等的。(6) 将a类误判为b类与将b类误判为a类的损失是相等的。2、 符号的说明vi(i=1、2): 协差矩阵 di(i=1、2): 判别区域(u): 判别效率w(y)、u(y): 判别函数1、2: 随机向量母体ei( i=1、2): 随机向量的均值 (u),(u): 分别为标准正态分布的分布函数与分布密度v-1:矩阵的逆u:向量u的转置四、模型的建立1 模型的提出(fisher判别准则)fisher判别准则是借助于方差分析的思想来导出判别函数,此判别函数可以是线性的,也可以是一般的borel函数。设有两个母体1、2,相应的均值、协差阵分别为e1、e2 与v1、v2;任取一样本个体y(n维向量),考虑其线性函数u(y)=uy(其中u为已知的n维向量),则在y来自i条件下均值与方差分别为ei =e(u(y)i)=uei i=1、2 v i2=v(u(y)i)=uvi u i=1、2令b0= e0=fisher准则是适当选择u,使得 (u) =b0/e0达到最大,此(u)称为判别效率。一般地,我们有引理1 若v1+v2的逆存在,则fisher准则下的线性判别函数与判别效率分别为 u(y)=y(v1+v2)-1(e1-e2) (u)=1/2(e1-e2)(v1+v2)-1(e1-e2)故 u=(v1+v2)-1(e1-e2)证明:见多元统计分析引论(方开泰,第四章定理3、1的系)fisher准则的理论意义之一在于将制定判别规则转为讨论一维随机变量而对u(y)(一维随机变量)的讨论包含在距离判别法中。引理二 设有两个母体 1、2 , 它们的均值、协差矩阵分别为 e1、e2 和v1、v2 ,令di=y: d2(y, i)min d2(y, j) ,ji i=1、2则距离判别规则为yi , 若y落在di内, i=1、2引理3 在引理1、2的前提与假设下,若v1=v2=v,则有d1=y: (y-(e1+e2)/2)v-1 (e1-e2)0, d2=rn-d1;其中 n为随机向量变维数,w(y)= (y-(e1+e2)/2)v-1(e1-e2)为判别函数。 由引理1,引理2,引理3很容易推得定理1 在引理3的前提与假设下,对1、2 有相应的判别区域 d1=y: u(y-e)0 d2=y: u(y-e)=0 y2,若 w(y)=0, d2=y | w(y)0,r1+r2=1,r1=0,r2=0),w(y)=(y-e)(s1r1+s2r2 )/9-1(e1-e2)-logc,c、r1、r2的取值有上述模型对检验样本的检验估算出。取c=18、r1=5/6、r2=1/6得新的判别函数w(y)=(y-e)(s15/6+s21/6 )/9 -1 (e1-e2)-log18,此时判别规则为: y1, 若 w(y)=0 y2,若 w(y)=0, d2=y | w(y)= 0如图:误判概率为图中阴影部分面积如果1、2靠得很近,则无论用何种方法误判概率均很大,此时用判别分析意义不大。因此只有当母体的均值有着显著的差异才可作判别分析。而附加信息的检验说明了将1、2分开是有道理的。(2)、误(错)判概率的计算引理:当12 1 时,p(w(y)-4(u)/4(u) u|1=(u)+1/n(u) 2(m-1)/4(u) -(m+1/4)u -u3/4+o(n-2)此为向量的维数,(u)为判别效率,n=n1+n2-2(u)为标准正态分布密度,(u)为标准正态分布函数 证明见参考文献1。从引理4可以看到(u)是极限分布,第二大项为修正项,误判概率有如下性质:u1时,它随(u)增大-而减小; 0时,它随增大而增大。这些理论结果与实际非常吻合。在本题中 m=4, (u)=(e1-e2)(s1+s2)/18)-1(e1-e2),令u= -4(u) 则: p1(d)=pw(y)=0 2均很小(0、q20(q1+q2=1)犯第1、2类错误的损失分别为c1和c2,则对于给定的判别d,由误判引起的平均损失(风险)即为c1q1p1(d)+c2q2p(d)特别当c1=c2=1时其数值即为平均误判概率。 注:上述参数c=q2c1/q1c2; 对于c1c2情形,读者可参考文献1。 六、模型的评价与改进方向1) 通过检验样本的回报情况来很看,判错的情况很少,因此说明将样本在这样的判别函数与规则下归类是合理的。2) 通过对假设h0的似然比统计量的计算来论证数字特征的提取与dna序列分类的合理性。3) 对于一个新的dna序列,通过上文给出的判别函数与判别规则计算它将落入哪一个总体,从而决定此dna序列的其它特性,这为人类提供了又一种基因及其特征检验识别的方法。4) 通过本文对错判概率的分析可以认为文中给出的判别分析法在某种程度上具有很高的分辨率。5) 对dna序列有效判别是多元统计分析方法在生物学中的又一重大应用。6) 通过错判率与实际误判率的比较,说明理论与实际还是有一定的差距的。这根源于本容量(10个)较小,若将检验样本容量增大(=50个),结果将更加合理。7) 由于时间限制,本文没有论证抽取4个数字特征与抽取更少的数字特征(3或者2),孰优孰劣,但文中利用似然比统计量来论证假设的合理性这种方法可以做到这一点。8) 本文在假设中忽略各种碱基之间键长及其键强对分类的影响,也忽略dna序列中碱
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医院的改扩建项目后勤一体化管理效能提升实践
- 淘宝售后小二培训课件
- 2025年商品房售后维修基金委托管理服务合同(第六次修订)
- 2025年KTV智能化升级与装修监理服务合同
- 2025年度互联网企业合同管理及电子合同审核实务培训协议
- 2025年度草原生态保护与休闲旅游项目承包权合作协议范本
- 2025年学校建设项目安全监管与应急管理体系签订协议
- 2025年新型草花品种独家代理合作协议
- 2025年公共卫生机构消毒消毒设备租赁与维护服务协议
- 2025年度城市道路养护与交通事故责任管理合同
- 2025至2030中国PE微粉蜡市场需求量预测及前景动态研究报告
- 近视推拿培训课件
- 2025年国企运维岗笔试题目及答案
- 2025年职业卫生培训试题及答案
- 2025年江苏省建筑施工企业主要负责人安全员A证考核题库含答案
- 2025年洛阳理工学院招聘硕士研究生学历专任教师考试笔试试题(含答案)
- 中华人民共和国治安管理处罚法2025修订版测试题及答案
- 广西柳州市2024-2025学年七年级下学期期末历史试题 (含答案)
- 2025年湖北高考历史试题(含答案解析)
- 无人机应用技术专业认识
- 备考2025年湖北省宜昌市辅警协警笔试笔试预测试题(含答案)
评论
0/150
提交评论