论文DNA的信息存储与表达与电脑算法的关系_第1页
论文DNA的信息存储与表达与电脑算法的关系_第2页
论文DNA的信息存储与表达与电脑算法的关系_第3页
论文DNA的信息存储与表达与电脑算法的关系_第4页
论文DNA的信息存储与表达与电脑算法的关系_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机模拟基因行为的可能性讨论及初步研究与猜想论文撰写人:景璟 电话Email: 学校:华南理工大学 电子技术与信息工程1班 标题:计算机模拟基因行为(储存、表达、变化、定位)的可能性讨论及初步研究与猜想摘要: 本文主要研究如何用计算机来模拟生物基因的种种行为,从而为涉及到大规模数据处理,如基因定位等实际问题,提出新的提高效率的解决方法。 通过常规的文献、案例分析与创新的数学分析方法,本文给出了一些计算机模拟的算法流程图、基因信息在计算机内存中的存储方法等。另外,对决定性状的基因在DNA上的定位的研究,本文给出了一套“匹配图图谱”的方法,可以以辅助定位基因的研究。关键词:基因、模拟、算法、基因表达、储存、变异、基因定位一、前言从*年开始,当*提出了人工生命,则开启了用计算机算法来模拟生命科学的各种方面的大门。通过对生物行为的模拟,动物学家得以借助计算机的力量. 进化算法“evolutionary algorithms” (EA),遗传算法“genetic algorithms” (GA), 遗传编程“genetic programming” ), agent-based models和细胞自动机cellular automata (CA).而在生物信息学诞生。二、研究方法和材料2.1本论文运用数学分析方法与文献、案例分析方法相结合的研究方法1、观察事实、现象材料源于对以下领域的文章的阅读,课程的学习及实践:人工生命、人工智能、达尔文进化论、遗传分子学、微机原理与应用、C语言编程、生物技术2、确定研究对象及对象之间的关系使用材料:维基百科全书、基础生命科学3、通过文献、案例阅读归纳基本概念、基本量,将研究问题据此类比进行数学抽象使用材料:盲眼钟表匠、自私的基因、人工生命:探索新的生命形式4、运用基本概念进行合理的数学迭代(Iteration)和递归(Recursion)总结出假说使用材料:高等数学、汇编语言5、根据假说引申出可能的现象,进行预测2.2前提和申明1、若没有特殊说明,本文研究的基因都为等位基因,生物均为真核细胞构成的生物,DNA严格遵循半保留复制。2、本文仅在细胞及其以下的微观世界进行研究,对动物的繁殖,进化一般不作讨论。3、本文的撰写者是非生物专业,在此文中会尽量使用专业的生物词汇,但是若有实用不当或概念混淆,恳请提出宝贵意见。三、研究分析与猜想3.1基本概念说明指令:语句:“生物ASCII码表”:基因转换表:基因表达式:性状转换表:性状表达式:1、关于算法算法是指完成一个任务所需要的具体步骤和方法。首先,算法不仅可以用计算机程序来实现,也可以在人工神经网络、电路或者机械设备上实现。由于计算机具有模拟速度快,算法实现即编程相对容易,具有二进制的运算方法与基因行为的类似度较高,本文选择使用基于计算机程序可实现的算法,后文简称算法。其次,虽然一般的算法具有确定性,也就是确定了输入输出后在经过有限的实际执行可以获得预测中的结果。这里需要明确的是虽然我们可以预测每一步可能发生的结果,在本文提到算法是开放式(open-ended)和可以循环的,所以在进行了若干次算法的执行后,获得的结果不一定是可以简单预测到的。2、关于基因基因在染色体上具有一定的距离的顺序,呈直线排列。基因是指携带有遗传信息的DNA序列,是控制性状的基本遗传单位。为了简化起见,我们只研究等位基因。基因的储存是指基因储存指导蛋白质合成的信息的方法。基因的表达在此文中会简化讨论基因、mRNA、核糖体、tRNA协同的过程,而着重解释信息的传达和在上述过程发生后得到的最终结果。基因的变化包括自然发生的由繁殖过程引起的母代父代基因的组合和突变与非自然发生的由外部环境引起突变。3、关于模拟与可能性的大小模拟是指对真实事物或者过程的虚拟。当算法得到合理输入时能自动推演得到被模拟者真实过程的关键特性及部分其它特性时,我们称之模拟者可能通过算法模拟被模拟者的某些关键特性。影响可能性大小的主要因素有模拟结果与被模拟量的近似度,模拟过程中可能产生误差,是否可以通过计算机实现等。在本文中可能性的大小约等于通过算法的模拟结果与真实量相比重现度的数值。3.2通过算法模拟基因的储存3.2.1信息储存码制的相似性1、构成基因的核苷酸有四种,我们可以分别用“0”、“1”、“2”、“3”来表示胸腺嘧啶(T)、胞嘧啶(C)、腺嘌呤(A)、鸟嘌呤(G)。确定何种核苷酸对应何种数字主要依据的是:使密码子的码表上相同氨基酸对应的四进制数字的差最小,这样在模拟的过程中可以使运算简化。于是我们可以看到,由核苷酸组成的携带信息的基因是4进制的。得到密码子-氨基酸转换表:密码子四进制氨基酸密码子四进制氨基酸密码子四进制氨基酸密码子四进制氨基酸UUU000PheCUU100LeuAUU200IleGUU300ValUUC001PheCUC101LeuAUC201IleGUC301ValUUA002LeuCUA102LeuAUA202IleGUA302ValUUG003LeuCUG103LeuAUG203Met&STARTGUG303ValUCU010SerCCU110ProACU210ThrGCU310AlaUCC011SerCCC111ProACC211ThrGCC311AlaUCA012SerCCA112ProACA212ThrGCA312AlaUCG013SerCCG113ProACG213ThrGCG313AlaUAU020TyrCAU120HisAAU220AsnGAU320AspUAC021TyrCAC121HisAAC221AsnGAC321AspUAA022ENDCAA122GlnAAA222LysGAA322GluUAG023ENDCAG123GlnAAG223LysGAG323GluUGU030CysCGU130ArgAGU230SerGGU330GlyUGC031CysCGC131ArgAGC231SerGGC331GlyUGA032ENDCGA132ArgAGA232ArgGGA332GlyUGG033TrpCGG133ArgAGG233ArgGGG333Gly2、对于计算机而言,逻辑电路通常只有两个状态,开关的接通与断开,这两种状态正好可以用“1”和“0”表示。若我们把高电位用1代表;低电位用0代表,很容易知道计算机是2进制的。这里取ASCII码表的部分来与上面密码子码表进行对照:3、分析通过对比可以看出我在上文所绘制出的密码子码表和ASCII码表本质是一样的。对于细胞而言,表达的是氨基酸;对于计算机而言,表达的是显示在屏幕上的字符。可以容易得将四进制转换为二进制和十六进制从而得到了“生物ASCII码表”:四进制二进制氨基酸四进制二进制氨基酸000000000Phe200100000Ile001000001Phe201100001Ile002000010Leu202100010Ile003000011Leu203100011Met&START010000100Ser210100100Thr011000101Ser211100101Thr012000110Ser212100110Thr013000111Ser213100111Thr020001000Tyr220101000Asn注:此处截取部分表格来进行说明,全表见附件一4、结论:1)基因的密码子是四进制的,可以用二进制来表示。2)由于ASCII码表本身就是计算机要进行何种操作的一种指令表,“生物ASCII码表”也就是计算机要模拟基因行为的基本指令表。3.2.2计算机模拟基因信息的储存1、基因转换表:基因是按照一定顺序排列的核苷酸,并且可以指导蛋白质的合成。等位基因是有目的的获取某种蛋白质的按一定顺序排列的核苷酸的集合。通过生物ASCII码,我们可以将这种集合通过基因转换表来表现。2、性状转换表:对于生物来讲,没有自然的基因写入的过程(突变是非自然的)。我们取没有发生过突变的精子和卵子让他们发生受精,基因自由组合,但从本质上来讲并没有加入新的制作蛋白质的方法即新的基因,所以性状数据库的容量没有发生变化,只是选取何种性状的条件发生了变化。这种性状数据库与选取条件可以用性状转换表或性状转换图来表现。例如:Mendel实验中,紫花(Aa)与紫花(Aa)产出白花(aa)首先将产生基因控制的颜色性状所需要某种特别蛋白质用最小单位表示,即氨基酸表示,也即用“生物ASCII码”表示产生性状A的某种蛋白质分子=生物ASCII码中某种氨基酸的排列,用四进制数转换为二进制表示产生性状a的某种蛋白质分子=生物ASCII码中另一种氨基酸的排列,用四进制数转换为二进制表示豌豆花颜色基因转换表:氨基酸输出YStartPheAsnCysEndA203000+001220+221020+031022+023+032StartProTrpCysEnda203110+111+112+113033020+031022+023+032注:此列表内容仅作示意用,不代表真实的效果从某种意义上来讲,以上所表示的假设的蛋白质分子的氨基酸排列也就是对应密码子的排列也就是在DNA上控制该蛋白的基因排列。因此我们得到基因表达式:A=203*(000+001)*(220+221)*(020+031)*(022+023+032)a=203*(110+111+112+113)*033*(020+031)*(022+023+032)其次我们令0代表性状隐性性状,也代表开白花,1代表性状代表显性性状,也代表开紫花。若所求得性状多于二种,就相应增加Y的位数。豌豆花颜色性状转换表:基因数码性状输出A1A2Yaa00白花 0aA01紫花1Aa10紫花1AA11紫花1其性状表达式:Y=Aa+aA+AA Y非=aa3、我们还可以类比数字电子技术中的状态转化表,将输入看为产生某性状的“条件”,输出看为基因的表达“性状”,从而根据研究需要增加或减少条件和性状。4、结论:1)所有的可以归纳的性状均可以用逻辑函数式抽象并用计算机模拟2)我们把用“生物ASCII码表”编写出的基因表达式称为指令,基因表达式的集合称为指令数据库。性状表达式是规定指令如何执行的语句,其集合称为性状语句库。性状语句库的语句一般对应相应的指令,但是相同的指令可以对应不同的语句。根据语句规则来执行指令。5、指令数据库存放的规则:1、每2条对应的等位基因指令存放在相邻的4个字节当中(起始为偶地址,终止为下一个遇到的偶地址)显性基因存在偶地址,隐形基因存在奇地址。2、其存放规则示意图如下若为等位基因均为隐性:从四个字节的第一个奇地址存起若为等位基因均为显性:从四个字节的第一个偶地址存起若为等位基因均为显性隐性混合:从四个字节的第一个偶地址与第一个奇地址存起6、某一物种基因库建立算法图:7、猜想:人体细胞只用了将近1%的遗传信息,但是有98%的遗传信息被证明在基因表达中没有发挥作用,相当于计算机中的系统垃圾或者乱码。在自私的基因一书中,阐述这98%的无用基因无非是寄生基因。但是本人由无用基因的表现内含子只出现在较高等的真核细胞中,而低等的原核细胞的基因几乎全部都是有用的片断,没有内含子。设想,内含子的出现可能与生物进化有关,正是内含子的出现加大了生物变异的方向,增强了变异的程度,具有了更多的可以选择的进化方向生物成为了高等的真核生物。3.3通过算法模拟基因的表达1、动植物都从受精卵开始到生命的终结,孜孜不倦的在调用从父母两方继承来的基因库中的信息。这个基因库在生物一生之中都没有发生巨大变化(除非发生非自然的情况)。而决定这个生物形态的是基因的表达。用上面提到的话来说,选择适当的语句,调用相应的指令。2、某一物种中某一性状表达的算法图:3、猜想:在发育的过程,有另一种物质或(不是诱导发育)甚至和DNA并行的类DNA高分子上储存着对全体细胞进行宏观调控的信息,它扮演着程序的角色。它是所有语句和指令的集合,告诉了细胞在何种情况之下应该启动何种语句,或中断何种进程。假设它为X,决定X变量可能与细胞空间位置有关,例如细胞受力(处于上部或者下部)、细胞分裂次数(处于内核或者表面)、周围细胞发出的信息(处于同一功能细胞团的内部或者边缘)。X控制各细胞基因表达的速度快慢(胚胎分节),选择细胞要表达的基因片段(细胞分化),负责细胞凋亡程序的启动(手的形成)。这可以解释一个没有思想的胚胎是如何使其各细胞分别表达不同而最终形成一个生物体的。3.4计算机算法模拟基因信息的变化基因信息的变化包括两类:自然状态下的基因自由组合、非自然状态下的基因突变生物的遗传遵循三个定律:1、分离规律基因作为遗传单位在体细胞中是成双的,它在遗传上具有高度的独立性,因此,在减数分裂的配子形成过程中,成对的基因在杂种细胞中能够彼此互不干扰,独立分离,通过基因重组在子代继续表现各自的作用。2、自由组合(独立分配规律)一对染色体上的等位基因与另一对染色体上的等位基因的分离或组合是彼此间互不干扰的,各自独立地分配到配子中去。3、连锁遗传规律就是原来为同一亲本所具有的两个性状,在F2中常常有连系在一起遗传的倾向。3.4.1自然状态下1、基因分离的计算机模拟算法在计算机的数据库中,每一个数据都有其对应的地址。在存放指令的时候,规定显性基因的指令存放在单数地址开始的地方,而隐性基因的指令存放在双数地址开始的地方。算法如下:2、基因自由组合与不完全连锁遗传的计算机模拟算法设父方新产生的基因数据库为A设母方新产生的基因数据库为B算法如下:3、基因完全连锁遗传的计算机模拟算法在基因分离的计算机模拟算法的随机产生0、1处添加如下算法:判断是否为完全连锁基因,若是,在直接将连锁的基因存入新的数据库3.4.2非自然情况下非自然情况下可以通过改动基因指令来研究进化的突变,获得某种预期的效果等。这里不做具体阐述,但是这里有两种情况如下:1、人为改动数据库中的基因指令2、随机改动数据库中的基因指令3.5基因片段在DNA上位置的检测3.5.1基本判断:1、等位基因在DNA上的长度相等,位置相对。并且长度较长的基因决定等位基因的总长度。2、当性状表现为显性时,为表现此性状转录的基因必是显性的,必然位于显性基因所在的DNA链上。当性状表现为隐性时,为表现此性状转录的基因只可能是隐性的,可以位于任何一条DNA链上。3、细胞将要转录翻译对应基因片段的信息,通过氨基酸的不同组合得到不同的蛋白质来控制,表达性状。同理,分析得到影响某性状形成的蛋白质的氨基酸排列可以得到对应的基因片段信息。4、猜想:基因片段开启转录的功能,会因为整个基因片段的显隐性而强度不同。显性基因的开启转录功能较强,当有隐性基因存在时,mRNA还是会选择显性基因来转录。3.5.2检测的方法流程示意图:注意,此处及以下讨论的都是以上文的电脑算法为基础,应用计算机强大得到计算能力,把转换为二进制表示的各种数据进行处理。转换的算法详见“3.2通过算法模拟基因的储存”3.5.3匹配图图谱的绘制:规则:1、横轴为DNA的start密码子在DNA上位置的编号:从DNA5端向3端看到的第一个start密码子编码为START1,之后按顺序编号。2、纵轴为所研究对象基因片段(以START密码子开始)外显子片断的编号:从基因片段5端向3端看到的第一段外显子编码为外显子1,之后按顺序编号。3、当将基因片段与DNA上START密码子后的基因片段相对比,若外显子内的基因排列有95%(此数据须经过实验待定)以上相同,则为相匹配。以DNA编码轴上此START密码子对应的横坐标与基因片段此外显子对应的纵坐标为坐标在匹配图图谱上绘一点。4、若DNA上两个开始密码子之间的距离小于待测得基因片段的长度,自动忽略此密码子,而跳跃到下一个开始密码子处进行匹配。5、得到匹配点图之后将在同一纵坐标下的相邻的点连接。6、在不同纵坐标下未连接的点和纵坐标不同但横坐标相同的连接后长度相同的连线后得到匹配图图谱。7、优先级别设置(详见下例),可得到待实验验证的优先级别最高到最低的有可能的位置。例如:上图为基因片段,下图为DNA链。红色标注的位置为DNA上某一个开始密码子的位置。假定前开始密码子为从基因片段5端向3端看到的第1个开始密码子。后开始密码子为第2个开始密码子。第一步:模拟计算机内部匹配对比的过程先匹配START1位置,记录匹配的外显子:注:此图仅做示意图用,没有真实的准确性,并且用密码子的表示代替了实际的二进制码再匹配START2位置,如此往复:第二步:纪录外显子在DNA上不同位置的匹配情况。下图为匹配的情况:第三步绘制匹配图:规则:以DNA编码轴上此START密码子对应的横坐标与基因片段此外显子对应的纵坐标为坐标在匹配图图谱上绘一点。若DNA上两个开始密码子之间的距离小于待测得基因片段的长度,自动忽略此密码子,而跳跃到下一个开始密码子处进行匹配。得到匹配点图之后将在同一纵坐标下的相邻的点连接。在不同纵坐标下未连接的点和纵坐标不同但横坐标相同的连接后长度相同的连线后得到匹配图图谱。当进行了N次之后,我们可能得到这样的匹配图图谱:优先级别设置的规则:1、见x=1:完全没有相邻的匹配时1)若在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论