基因组序列诠释丹尼斯_第1页
基因组序列诠释丹尼斯_第2页
基因组序列诠释丹尼斯_第3页
基因组序列诠释丹尼斯_第4页
基因组序列诠释丹尼斯_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基因组序列诠释丹尼斯1、寻找基因1、1根据开放读框预测基因⑴起始密码子ATG第一个ATG得确定(依据Kozak规则);Kozak规则就是基于已知数据得统计结果、所谓Kozak规则,即第一个ATG侧翼序列得碱基分布所满足得统计规律、Kozak规则:若将第一个ATG中得碱基A,T,G分别标为1,2,3位,则Kozak规则可描述如下:(1)第4位得偏好碱基为G;(2)ATG得5’端约15bp范围得侧翼序列内不含碱基T;(3)在-3,-6和-9位置,G就是偏好碱基;(4)除-3,-6和-9位,在整个侧翼序列区,C就是偏好碱基。信号肽分析软件(SignalP)把预测过程中证实含完整mRNA5’端得序列翻译为蛋白序列;然后用SignalP软件对前50个氨基酸序列(从第一个ATG对应得甲硫氨酸Met开始)进行评估,如果SignalP分析给出正面结果,则测试序列有可能为信号肽;⑵信号肽分析⑶终止密码子终止密码子:TAA,TAG,TGAGC%=50%终止密码子每64bp出现一次;GC%>50%终止密码子每100-200bp出现一次;由于多数基因ORF均多于50个密码子,因此最可能得选择应该就是ORF不少于100个密码子。⑷3’端得确认

3’端得确认主要根据Poly(A)尾序列,若测试DNA片段不含Poly(A)序列,则根据加尾信号序列“AATAAA”和BLAST同源性比较结果共同判断。⑸非编码序列、内含子高等真核生物ORF阅读得复杂性:基因间存在大量得非编码序列(人类基因组中就是70%)绝大多数基因含有非编码得内含子。高等真核生物多数外显子长度少于100个密码子,有得不到50个密码子甚至更少;不能根据ORF长度判断读框得准确性。编码同一氨基酸得不同密码子称为同义密码,其差别仅在密码子得第3位碱基不同。不同种属间使用同义密码得频率有很大差异:如人类基因中,

丙氨酸(Ale)密码子多为GCA,GCC或GCT,而GCG很少苏氨酸(Thr)密码子多为ACA,ACC或ACT,而ACG很少⑹密码子偏爱性⑺密码子偏爱性高等植物207个基因单子叶植物53个,6个单子叶种群,18种氨基酸有16种氨基酸得密码子摇摆碱基为G+C双子叶植物154个,35个双子叶种群,只有7种氨基酸得摇摆碱基就是G+C,其余均为A+T密码子偏倚codonbias,原因不明。大家有疑问的,可以询问和交流可以互相讨论下,但要小声点⑻外显子-内含子边界外显子和内含子得边界有一些明显得特征:如:内含子得5‘端或称供体位(donorsite)常见得顺序为5’-AG↓GTAAGT-3’;3’端又称受体位(acceptorsite),多为5‘PyPyPyPyPyPyCAG-3’(“Py”嘧啶核苷酸,T或C);但就是由于边界序列常有例外,仅适用于一定范围。⑼上游控制序列几乎所有基因(或操纵子)上游都有调控序列,她们可与DNA结合蛋白作用,控制基因表达。通过同源性比较来预测mRNA得5’端,最常用得与转录起始位点相关得数据库就是真核启动子数据库(TheTRADATProject,EukaryoticPromoterDatabase,EPD、)。另外个别生物基因组得特有组成也可作为判别依据,如脊椎动物基因组许多基因得上游都有CpG岛。CG岛有1Kb,CG含量高,56%得人类基因与上游得CG岛相连。主要用于原核生物。

⑽内含子和外显子序列差异内含子受选择压力小,突变多。由于碱基C到A,内含子A/T比例高内含子A/T比例高,所以终止密码子出现得频率高。

⑾软件预测采用NCBI得ORF预测软件(ORFfinder:)判断ORF得可能范围。基因注释软件Genscan——重于信号指令:起始密码、终止密码、剪接受体位和供体位序列等FgeneSH——重于内容指令:密码子使用偏好、内含子外显子得差异等TWINSCAN和SGP2——根据相似性和一致性基因注释软件缺点外显子注释得准确率<80%。误拼和误拆错误较多。容易忽略结构较小得基因,特别就是基因内基因。线虫基因得注释19477个软件预测11984个克隆验证,未能预测到得cDNA和EST为4365个包括内容:转录成mRNA得序列,外显子和内含子得位置,基因编码得蛋白质顺序。脊椎动物得130bp得外显子长度平均,68-208得占65%,10%得小于60bp,35%得人类基因组序列存在非编码外显子,注释容易遗漏,热别就是保守性不强得外显子。目前得软件均无法注释mRNA得53非编码区得边界。1、2同源查询途径

通过已存入数据库中得基因顺序与待查得基因组序列进行比较,从中查找可与之匹配得碱基顺序及其比例,用于界定基因得方法称为同源查询。

同源性包括编码和非编码序列,相近得物种,老鼠和人,油菜和拟南芥具有90%以上得基因彼此共有。编码序列,外显子组成,调控序列,相似之处进化得保守性。相似性有如下几种情况:

ADNA序列某些片段完全相同;B开放读码框(ORF)排列类似,如有长外显子;C开放读码框翻译成氨基酸序列得相似性;D模拟多肽高级结构相似同源基因:氨基酸得一致性和相似性>25%功能和结构相似得直向同源基因成员,起源相同,存在保守序列。还有就就是同一物种得家族基因,基因重复造成得。可综合考虑也可单项考虑,如果一个基因没有同源序列,又符合一些条件,试验方法证实。同源性:homology起源于同一祖先但序列已经发生变异得序列,分布在不同物种间得同源基因,只有就是与非得区别。一致性:identity同源DNA序列得同一碱基位置上相同得碱基成员,或者蛋白质中同一氨基酸位置相同得氨基酸成员得比例,用%表示。相似性:similarity同源蛋白质得氨基酸序列中一致性氨基酸和可取代氨基酸所占得比例。比较氨基酸和基因得同源性?分子杂交可确定DNA片段就是否含有表达顺序Northernblot:指将待测DNA样品标记后与RNA杂交,以判断RNA中就是否含有DNA得转录产物。但在操作中存在一些问题1、3试验确认基因1977年J、C、Alwin首创Northernblotting

问题解决方案A某一基因得转录产物进行可变剪接或该基因为某一多基因家族得成员时,会出现多个杂交带设计其她实验区分心肌特异性蛋白Troponin

T就是心肌特异性蛋白,主要用于心肌梗塞等多种心脏病得研究问题解决方案B基因得表达具有组织特异性及发育阶段得差别,而选择得RNA样品中不一定含有该基因产物尽可能多地收集各种不同发育时期及不同组织器官得RNA问题解决方案C某些基因产物丰度极低或不易提取适当提高RNA上样量,或先以已知得DNA序列设计引物从mRNA中扩增基因产物C基因表达产物丰度得问题拟Northern杂交——根据已知得DNA顺序设计引物,从mRNA群体中扩增基因产物,再以DNA为探针与之杂交。动物园杂交——根据亲缘关系相似得物种,其基因得编码区相似性较高,而非编码区得同源性很低得原理。如果某一物种得DNA顺序与来自另一亲缘物种得DNA片段杂交产生阳性信号,该区段可能含有1个或多个基因,这种方法又称为动物园杂交。DNA顺序中基因位置得确定cDNA测序受两个方面得影响:一就是相关cDNA在cDNA文库中出现得频率;二就是cDNA得完整性Northernblot和Zooblot可以判断DNA片段中就是否含有基因,但就是不能给出基因定位信息。获得基因定位信息得最容易得方法就是cDNA测序如何获取基因全长cDNA序列?AcDNA文库构建BRACE技术干扰cDNA筛选基因得因素:目标cDNA所占比例很低分成亚群进行筛选cDNA均一化影响cDNA测序得因素与mRNA得反转录有关cDNA文库构建(CLONTECH)cDNA文库构建(CLONTECH)5’RACE(CLONTECH)先利用mRNA得3‘末端得poly(A)尾巴作为一个引物结合位点,以Oligo(dT)30MN作为锁定引物在反转录酶MMLV作用下,反转录合成标准第一链cDNA。利用该反转录酶具有得末端转移酶活性,在反转录达到第一链得5’末端时自动加上3-5个(dC)残基,退火后(dC)残基与含有SMART寡核苷酸序列Oligo(dG)通用接头引物配对后,转换为以SMART序列为模板继续延伸而连上通用接头(见下图)。然后用一个含有部分接头序列得通用引物UPM(universalprimer,UPM)作为上游引物,用一个基因特异引物2(GSP2genespecificprimer,GSP)作为下游引物,以SMART第一链cDNA为模板,进行PCR循环,把目得基因5‘末端得cDNA片段扩增出来1988年3’RACE(CLONTECH)SMART3′-RACE得原理就是:利用mRNA得3′末端得poly(A)尾巴作为一个引物结合位点,以连有SMART寡核营酸序列通用接头引物得Oligo(dT)30MN作为锁定引物反转录合成标准第一链cDNA。然后用一个基因特异引物GSP1(genespecificprimer,GSP)作为上游引物,用一个含有部分接头序列得通用引物UPM(universalprimer,UPM)作为下游引物,以cDNA第一链为模板,进行PCR循环,把目得基因3′末端得DNA片段扩增出来。确定DNA顺序中基因得位置A通过对全长cDNA序列得测序、对比,以及与基因组DNA得比较,确定基因所在得区域;B通过物种已建立遗传图和物理图来确定基因得位置;利用计算机分析基因功能2、基因功能得预测2、1同源性确定基因功能2、2同源性分析在酵母基因组计划中得应用2、1同源性确定基因功能

种间同源基因或直系基因(orthologousgene):指不同物种之间得同源基因,她们来自物种分化以前得共同祖先

种内同源基因或平行基因(paralogousgene)同一物种内得同源基因,她们常常就是多基因家族得不同成员同源基因都拥有一个共同得祖先基因,她们之间有许多相似得序列。同源基因可以分为2类:种间同源基因或直系基因(orthologousgene):指不同物种之间得同源基因,她们来自物种分化以前得共同祖先

种内同源基因或平行基因(paralogousgene)同一物种内得同源基因,她们常常就是多基因家族得不同成员,其共同祖先可能存在于物种形成以后,也可能存在于物种形成之前同源基因一般不会有完全一致得核苷酸序列,因为不同得基因或不同得生物都会独立地发生随机突变,但她们有相似得序列,大部分未突变得核苷酸位置就是相同得

同源性分析可以给出整个基因或其中某一区段功能得有关信息

当一个新基因得序列被确认后,根据同源性可以从数据库中查找已知序列得同源基因。根据进化得相关性,可以根据已知得同源基因推测新基因得功能

2、2同源性分析在酵母基因组计划中得应用酵母基因组大约含有6000个基因30%就是通过传统遗传学分析得到得另外70%就是用同源性分析获得3、1基因失活在基因功能分析得作用3、2基因得超表达用于功能检测3、实验确认基因功能在正常情况下,基因产物得数量就是有限制得,必须与其她基因得产物平衡,某一基因产物得过量和不足都会破坏这种平衡,造成生长和发育得异常

有两种技术可以使细胞中某一基因过量表达:增加基因得拷贝数;采用强启动子

3、1、1基因剔除(knock-out)最简便得基因失活得方法、主要原理:在一段无关DNA片段得两侧连接与代换基因两侧相同得顺序,将这一构建导入目得细胞,由于同源片段之间得重组,可使无关片段取代靶基因,整合到染色体中。为了便于筛选,用于取代得外源DNA中含有报告基因。3、1基因失活在基因功能分析得作用tk胸苷激酶标记基因←gangcyclovirneor新霉素抗性基因→G418基因得功能就是一个过程,就是从基因到表型得一系列生理生化反应过程。现在得基因功能研究与传统得遗传分析正好相反,传统得遗传分析就是从表型出发最终到达基因(正向遗传学),而在基因组计划中研究基因功能则就是从基因出发,最终到达表型(反向遗传学)。因此必须寻找一系列得实验方法来鉴别与目标基因相关得表型基因失活就是基因功能分析得主要手段3、1、2反义RNA反义RNA就是由基因得负链编码,可与正义RNA(senseRNA)或DNA编码顺序结合,干扰mRNA得转录,加工和转运,调控基因得表达。反义RNA技术

反义RNA由基因得负链(模板链得互补链)编码,可以与由功能基因转录而成得正义RNA形成双链结构,干扰mRNA得翻译,从而干扰基因得表达

将基因得编码序列反向插入表达载体,转化目标生物,获得转基因个体或品系后,进一步分析表达得反义RNA在生理生化或形态发生中所起得作用,由此判别目标基因得功能

构建反义RNA表达载体:将全目得基因或部分目得基因反向插入表达载体→转化目标生物→获得转基因个体或品系→分析转基因植株在生理、生化、形态等方面得变异→判别目得基因得功能正义表达载体反义表达载体反义RNA作用机理:A干扰翻译得起始与延伸,可与翻译起始顺序及编码序列结合形成双链RNA,随之被细胞降解。B与mRNA得引导顺序结合,阻止核糖体得附着,使翻译无法启动。C反义RNA与mRNA形成双链分子后,使RNA多聚酶脱离模板,转录终止。3、1、3RNA干涉RNAi就是通过双链RNA得介导,特异性地降解相应序列得mRNA,从而阻断相应基因表达得转录后水平得基因沉默机制、RNAi作用机理AdsRNA核酸内切酶Dicer被激活,她把dsRNA加工成21~25个核苷酸长得RNA链;B这些小片段RNA(siRNA)作为另一个核糖核酸复合体RISC(RNA-inducesilencingplex,RNA诱导沉默复合体)得指引物,结合到RISC上,使之识别并降解mRNA,从而导致与双链RNA同源得基因沉默;RNAi设计方法及应用AFraser合成与开放读码框相对应得双链RNA或利用细菌克隆表达这些双链RNA→微量注射和喂食→干扰同源基因得表达BChuang等设计出嵌合体结构→连接强启动子大量表达双链mRNA→干扰同源基因得表达HbF基因得RNAi载体构建RNAi技术得优缺点RNAi最根本得特点就是特异性RNAi具有特殊得穿越能力,而且干扰作用会传给后代;RNAi对一些低水平表达得基因得RNAi现象并不明显,而且几个有相同或相似序列得基因,RNAi也会同时作用与她们。3、2基因超表达增加基因得拷贝数采用强启动子促使基因超表达构建转座子突变库酵母双杂交(yeasttwo-hybridization)3、3 其她方法3、3、1转座子插入突变

上世纪三十年代,玉米遗传学家BarbaraMcClintock在研究中发现了玉米籽粒色斑不稳定遗传得现象,可能就是一种可转移得遗传因子。1948年McClintock首先确认和提出了转座子得概念,这一重大发现并未引起人们得重视,70年代后在原核和真核生物中不断发现有转位因子、◆转座遗传因子又叫可移动因子,就是指一段特定得DNA序列。她可以在染色体组内移动,从一个位点切除,插入到一个新得位点。这种切除和移动,能够引起基因得突变或染色体重组。◆她就是McClintock(1956)在玉米上首先发现得。这就是遗传学发展史上重要得里程碑之一。基因能够在染色体上移动位置,也就就是说能“转座”或“跳动”,这在当时对许多遗传学家来说简直就是件前所未闻得事情。因为按照传统得观念,基因在染色体上就是固定不变得,她们有一定得位置、距离和顺序,她们只可以通过交换或重组改变自己得相对位置,通过突变改变自己得相对性质;但就是,要从染色体得一个位置“跳”到另一个位置,甚至“跳”到别得染色体上,科学家们从来连想都没有想过。因此,她们在读了麦克林托克1950年发表得《玉米易突变位点得由来与行为》,和1951年发表得《染色体结构和基因表达》两篇论文后,许多人都认为她可能就是“发疯”了,“稳定”得基因居然能随意移动!这就连当时一流得遗传学家也无法理解麦克林托克得语言,她受到了前所未有得冷遇。“转座因子”得概念麦克林托克早在1938年就已提出了,但直到1976年,在美国冷泉港召开得“DNA插入因子、质粒和游离基因”专题讨论会上,与会科学家明确地承认可以用麦克林托克得术语“转座因子”,来说明所有能够插入基因组得DNA片段。麦克林托克在这时才真正成为基因调控得“调节—操纵子理论”得先驱。早在20世纪40年代初期,麦克林托克完全就是通过个人得努力、用传统得遗传学和细胞学研究得手段,得出了“转座因子”得概念,解决了用分子生物学和分子遗传学得方法才能解决得问题,成为走在时代前面得科学家。麦克林托克在半个世纪前提出得“转座因子”理论,对于分子生物学和分子遗传学得发展,对以DNA重组技术为代表得基因工程得发展等都具有极其重要得意义。1983年,瑞典皇家科学院诺贝尔奖金评定委员会终于把这一年度得诺贝尔生理学或医学奖授予了这位81岁高龄、不屈不挠得女科学家,麦克林托克也由此成为遗传学研究领域第一位独立获得诺贝尔奖得女科学家。面对这份迟到了近半个世纪得荣誉,麦克林托克深感欣慰。1992年9月2日,麦克林托克在冷泉港去世,终年90岁。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论