版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于计算生物学的环形RNA筛选系统与碱基编辑器开发的深度探究一、引言1.1研究背景与意义1.1.1环形RNA研究背景环形RNA(circRNA)是一类具有闭合环状结构的RNA分子,其不具备5'末端帽子和3'末端poly(A)尾巴,通过共价键形成环形结构。circRNA的发现可追溯到1976年,当时在电子显微镜下观测到真核细胞的细胞质中存在此类分子,然而,在后续长达30多年的时间里,circRNA一直被视作mRNA剪接过程中产生的无功能副产物而未受到重视。直到2013年,《Nature》期刊同期发表的两篇研究论文指出,circRNA是一类具有调控作用的非编码RNA,可作为miRNA的海绵来调控其他基因表达,这一发现使得circRNA迅速成为生物学研究的焦点,相关研究也开始呈爆发式增长。circRNA在基因表达调控中发挥着关键作用。从转录水平来看,部分circRNA的生成与线性RNA剪切密切相关,其表达量的变化会对转录过程产生影响。在转录后水平,circRNA主要通过作为miRNA海绵来发挥调控作用。例如,第一个被揭示具有调控功能的circRNA——ciRS7,它含有miR7的470个保守结合位点,能够通过抑制miR7活性来增加miR7靶基因的表达水平,而miR7直接靶向多种致癌基因,在多种人类癌症的发生发展过程中发挥重要作用。此外,circRNA还具有一些独特的性质,使其在生物学研究中备受关注。circRNA呈闭合环状结构,不易被核酸外切酶降解,比线性RNA更加稳定;其表达水平具有种属、组织、时间特异性,且具有一定序列保守性;绝大多数circRNA是非编码的,但也有少数可以翻译为多肽。随着高通量测序技术的不断发展以及生物信息学分析方法的广泛应用,越来越多的circRNA被发现并鉴定,然而,目前对于circRNA的功能研究仍处于起步阶段,仅有少数circRNA的功能被深入解析,大部分circRNA的功能尚不清楚。因此,建立高效的环形RNA筛选系统,深入研究circRNA的功能及作用机制,对于揭示生命过程的奥秘、探索疾病的发病机制以及开发新型治疗方法具有重要意义。1.1.2碱基编辑器开发背景基因编辑技术的发展为生命科学研究和疾病治疗带来了革命性的变化。基于规律成簇间隔短回文重复序列(clusteredregularlyinterspacedshortpalindromicrepeat,CRISPR)及其相关蛋白(CRISPR-associated,Cas)开发出的单碱基编辑器(baseeditor,BE),是一类不依赖于DNA双链断裂便可以实现高效单碱基替换的新一代基因编辑工具,在基因编辑领域具有重要地位。碱基编辑器的发展经历了多个阶段。2016年,DavidLiu实验室开发出第一个胞嘧啶碱基编辑器(CBE),它通过将胞嘧啶脱氨酶与失活的dCas9偶联,在不切断DNA的情况下将胞嘧啶转化为尿嘧啶,尿嘧啶随后通过DNA复制或修复转化为胸腺嘧啶,这一技术的出现为单碱基编辑提供了新的手段。之后,该实验室又开发出腺嘌呤碱基编辑器(ABE),能够使A变成G(互补链上的T变成C),进一步丰富了碱基编辑的类型。随着研究的不断深入,科研人员对碱基编辑器进行了一系列优化和改进,旨在扩大靶向范围、提高编辑效率、降低脱靶效应。通过尝试不同的脱氨酶、开发Cas9的变体以及优化融合蛋白的结构等方式,使得碱基编辑器的性能得到了显著提升。尽管碱基编辑器在基因编辑领域取得了巨大的进展,但目前仍然面临一些挑战。例如,编辑窗口的限制,大多数碱基编辑器只能编辑特定范围内的碱基,这限制了其应用范围;脱靶效应也是一个亟待解决的问题,即使经过优化,碱基编辑器仍然可能在非目标位点产生编辑,从而带来潜在的风险;此外,碱基编辑器在不同细胞类型和生物体中的编辑效率和特异性也存在差异,需要进一步研究和优化。因此,持续开发性能更优的碱基编辑器,解决当前面临的技术难题,对于推动基因编辑技术的发展和应用具有重要的现实意义。1.1.3计算生物学在其中的关键作用计算生物学作为一门交叉学科,融合了数学、统计学、计算机科学和生物学等多学科知识,在环形RNA筛选和碱基编辑器开发中发挥着不可或缺的关键作用。在环形RNA筛选方面,计算生物学提供了强大的数据分析和处理能力。高通量测序技术的发展使得大量的RNA测序数据得以产生,通过生物信息学算法和工具,可以从这些海量数据中准确地识别和预测circRNA。利用转录组数据挖掘和差异表达分析方法,能够探究circRNA的表达模式和调控机制,挖掘出与特定生物学过程或疾病相关的circRNA。通过计算分析可以预测circRNA与miRNA之间的相互作用关系,为研究circRNA的功能提供重要线索。在碱基编辑器开发中,计算生物学同样发挥着重要作用。基于蛋白质结构和功能的计算分析,可以对碱基编辑器的融合蛋白结构进行优化设计,提高其编辑效率和特异性。通过分子动力学模拟等方法,可以深入研究碱基编辑器与DNA或RNA底物之间的相互作用机制,为改进碱基编辑器提供理论依据。计算生物学还可以用于评估碱基编辑器的脱靶效应,通过建立预测模型,预测潜在的脱靶位点,从而指导实验设计,降低脱靶风险。计算生物学在环形RNA筛选和碱基编辑器开发中提供了从数据处理、功能预测到结构优化和风险评估等全方位的技术支持和理论依据,极大地推动了这两个领域的研究进展。1.2研究目标与创新点1.2.1研究目标本研究旨在利用计算生物学方法,开发高效的环形RNA筛选系统,优化碱基编辑器的性能,为环形RNA功能研究和基因编辑技术的发展提供新的工具和方法。具体研究目标如下:构建精准的环形RNA筛选系统:通过整合多种生物信息学算法和机器学习模型,构建一套能够从高通量测序数据中精准识别和筛选具有潜在功能的环形RNA的系统。利用该系统对不同组织和疾病状态下的转录组数据进行分析,挖掘与特定生物学过程或疾病相关的环形RNA,并对其进行功能预测和验证。优化碱基编辑器的性能:基于蛋白质结构和功能的计算分析,对碱基编辑器的融合蛋白结构进行优化设计,提高其编辑效率和特异性。通过分子动力学模拟等方法,深入研究碱基编辑器与DNA或RNA底物之间的相互作用机制,为改进碱基编辑器提供理论依据。利用计算生物学方法评估碱基编辑器的脱靶效应,建立预测模型,预测潜在的脱靶位点,指导实验设计,降低脱靶风险。探索环形RNA与碱基编辑器的联合应用:研究环形RNA作为碱基编辑器载体或调控元件的可行性,探索环形RNA与碱基编辑器的联合应用策略。通过实验验证,评估联合应用在基因治疗、疾病模型构建等领域的应用效果,为相关研究提供新的思路和方法。1.2.2创新点与前人研究相比,本研究在环形RNA筛选系统优化和碱基编辑器开发方面具有以下创新之处:采用新算法和模型进行环形RNA筛选:在环形RNA筛选过程中,本研究创新性地将深度学习算法与传统生物信息学方法相结合,构建了一种新型的环形RNA识别模型。该模型能够充分挖掘高通量测序数据中的特征信息,提高环形RNA的识别准确率和筛选效率。引入了基于图神经网络的方法来分析环形RNA与其他分子(如miRNA、蛋白质等)之间的相互作用关系,为深入研究环形RNA的功能提供了新的视角和方法。基于结构导向的碱基编辑器优化策略:在碱基编辑器优化方面,本研究首次采用基于蛋白质结构导向的策略,通过对碱基编辑器融合蛋白的三维结构进行分析和模拟,有针对性地对关键氨基酸残基进行突变和优化,从而提高碱基编辑器的编辑效率和特异性。利用分子动力学模拟和自由能计算等方法,深入研究碱基编辑器与DNA或RNA底物结合过程中的动态变化和能量变化,为优化碱基编辑器的性能提供了更为精确的理论指导。提出环形RNA与碱基编辑器联合应用的新策略:本研究首次提出将环形RNA作为碱基编辑器的载体或调控元件,实现对特定基因的精准编辑和调控。通过设计和构建具有特定功能的环形RNA,将其与碱基编辑器相结合,形成一种新型的基因编辑工具,有望克服传统碱基编辑器在应用过程中存在的一些局限性,为基因治疗和疾病研究提供新的技术手段。二、环形RNA筛选系统的计算生物学基础2.1环形RNA的生物信息学特征2.1.1结构特点与形成机制环形RNA最为显著的结构特点是其呈闭环状,不具备线性RNA所拥有的5'末端帽子结构和3'末端poly(A)尾巴。这种独特的闭环结构赋予了环形RNA诸多特殊性质,例如,其对核酸外切酶具有较强的抗性,稳定性远高于线性RNA,这使得环形RNA能够在细胞内长时间稳定存在。环形RNA主要通过反向剪接机制形成。在反向剪接过程中,下游外显子的5'剪接供体位点与上游外显子的3'剪接受体位点以反向的方式连接,从而形成共价闭合的环状结构。这一过程与传统的线性RNA剪接方式截然不同,传统线性RNA剪接是将相邻外显子按照顺序依次连接,而反向剪接则打破了这种常规的连接顺序。反向剪接的发生并非随机,受到多种因素的调控。顺式作用元件,如内含子互补序列(ICS)在反向剪接中起着关键作用。ICS能够通过碱基互补配对形成双链结构,使上下游外显子在空间上相互靠近,进而促进反向剪接的发生。当基因转录过程中,内含子区域转录出的ICS序列相互配对,就会引导下游外显子的5'端与上游外显子的3'端靠近并发生反向剪接。反式作用因子,如RNA结合蛋白(RBPs)也参与调控反向剪接。某些RBPs能够与特定的RNA序列结合,改变RNA的二级结构或与剪接体的相互作用,从而影响反向剪接的效率。例如,Quaking蛋白能够结合到特定的RNA序列上,促进环形RNA的形成。环形RNA的结构特点对其功能和筛选均具有重要影响。其稳定性高的特点使得环形RNA在细胞内能够持续发挥作用,参与多种生物学过程的调控。一些环形RNA作为miRNA海绵,通过吸附miRNA来调控基因表达,由于其稳定性好,能够长时间稳定地吸附miRNA,从而对基因表达产生持续的调控作用。在筛选方面,环形RNA的闭环结构以及独特的反向剪接位点使其在测序数据中具有独特的特征,这些特征成为了筛选环形RNA的重要依据。通过识别测序数据中反向剪接位点的特征序列,可以从海量的测序数据中准确地筛选出环形RNA。。2.1.2与线性RNA的区别和联系环形RNA与线性RNA在序列、结构和功能上存在明显差异。在序列方面,虽然环形RNA与部分线性RNA可能源自相同的基因转录本,但环形RNA通过反向剪接形成了独特的序列结构,其序列排列顺序与线性RNA不同。从结构上看,线性RNA具有典型的线性结构,拥有5'末端帽子和3'末端poly(A)尾巴,而环形RNA则是闭环结构,没有明显的末端。这种结构上的差异导致两者在稳定性上表现出显著不同,环形RNA的闭环结构使其不易被核酸外切酶降解,稳定性更高;而线性RNA相对更容易受到核酸外切酶的作用而降解。在功能方面,线性RNA主要作为信使RNA(mRNA)参与蛋白质的翻译过程,将遗传信息从DNA传递到蛋白质;转运RNA(tRNA)参与氨基酸的转运,在蛋白质合成中发挥关键作用。环形RNA的功能则更为多样化,大部分环形RNA作为非编码RNA,不直接参与蛋白质的翻译,但在基因表达调控中发挥重要作用。它们可以作为miRNA海绵,吸附miRNA,解除miRNA对靶基因的抑制作用,从而调控基因表达;一些环形RNA还能够与蛋白质相互作用,调节蛋白质的功能,或者参与转录调控等过程。尽管环形RNA与线性RNA存在诸多差异,但它们在基因表达调控中也存在紧密的相互关系。部分环形RNA的生成与线性RNA的剪接过程相互竞争。在基因转录过程中,外显子既可以按照线性方式进行剪接形成线性RNA,也可以通过反向剪接形成环形RNA。当反向剪接效率较高时,会导致线性RNA的生成减少;反之,线性剪接效率高则会抑制环形RNA的产生。一些环形RNA可以通过与线性RNA相互作用来调控基因表达。某些环形RNA能够与线性RNA结合形成RNA-RNA复合物,影响线性RNA的稳定性、翻译效率或与其他分子的相互作用,进而对基因表达产生调控作用。线性RNA和环形RNA在基因表达调控网络中相互协作、相互影响,共同维持细胞的正常生理功能。2.1.3在不同物种中的分布与保守性随着高通量测序技术的广泛应用,大量研究对环形RNA在不同物种中的分布情况进行了深入探究。在哺乳动物中,环形RNA广泛存在于各种组织和细胞中。例如,在人类细胞中,通过对多种组织的转录组测序分析发现,环形RNA的表达具有组织特异性,不同组织中环形RNA的表达谱存在明显差异。在脑组织中,环形RNA的表达丰富,且一些环形RNA在神经发育和神经功能中发挥重要作用;在肿瘤组织中,也检测到大量特异性表达的环形RNA,这些环形RNA与肿瘤的发生、发展密切相关。在植物中,环形RNA同样广泛分布。对拟南芥、水稻等植物的研究表明,环形RNA参与了植物的生长发育、逆境响应等生物学过程。在拟南芥中,一些环形RNA在干旱、高温等逆境条件下表达量发生显著变化,可能参与了植物对逆境的适应机制。在果蝇等昆虫中,环形RNA也被发现参与了发育调控等重要生物学过程。环形RNA在不同物种中具有一定的保守性。通过对多个物种的环形RNA序列进行比对分析发现,部分环形RNA在进化过程中具有保守的序列和结构特征。例如,一些在哺乳动物中保守的环形RNA,其反向剪接位点和序列在不同物种间具有较高的相似性。这种保守性暗示了环形RNA在进化过程中可能承担着重要的生物学功能,并且这些功能在不同物种中得到了保留和传承。保守的环形RNA可能参与了一些基本的生物学过程,如细胞增殖、分化等,这些过程对于维持生物体的正常生理功能至关重要。环形RNA的保守性也为研究其功能提供了重要线索。通过对保守环形RNA的研究,可以揭示其在不同物种中的共性功能,为深入理解环形RNA的生物学作用机制提供有力支持。同时,对于保守性较低的环形RNA,其可能在特定物种或特定生物学过程中发挥独特的功能,进一步研究这些环形RNA有助于拓展对物种特异性生物学现象的认识。2.2现有环形RNA筛选技术概述2.2.1基于高通量测序的筛选方法高通量测序技术,也被称为下一代测序(NextGenerationSequencing,NGS)技术,凭借其能同时对数百万个DNA或RNA分子进行测序的强大能力,为环形RNA的筛选和研究开辟了全新的道路。在环形RNA筛选中,高通量测序技术主要应用于转录组测序(RNA-seq)。通过对细胞或组织中的全部RNA进行测序,可以获得大量的RNA序列信息,其中包含了环形RNA的序列。在基于高通量测序的环形RNA筛选过程中,数据处理流程至关重要。测序得到的原始数据通常是大量的短序列reads,首先需要进行质量控制,去除低质量的reads以及接头序列等杂质,以保证数据的可靠性。随后,将经过质量控制的数据与参考基因组进行比对。由于环形RNA具有特殊的反向剪接位点,常规的线性比对算法无法准确识别,因此需要使用专门的生物信息学工具和算法来识别反向剪接位点,从而鉴定出环形RNA。例如,CIRI(CircularRNAIdentifier)是一种常用的环形RNA识别工具,它通过对测序reads进行独特的拆分和比对策略,能够有效地识别出环形RNA的反向剪接位点。此外,还有一些其他工具如find_circ、CIRCexplorer等也在环形RNA识别中发挥着重要作用。在识别出环形RNA后,还需要对其进行定量分析,以确定不同样本中环形RNA的表达水平。常用的定量方法包括计算比对到环形RNA反向剪接位点的reads数,并进行归一化处理,如使用每百万映射reads中来自某环形RNA的反向剪接reads数(readspermillionmappedreads,RPM)等指标来衡量环形RNA的表达丰度。尽管高通量测序技术在环形RNA筛选中取得了显著成果,但也存在一些问题。测序成本仍然较高,这在一定程度上限制了大规模样本的研究。对于低表达水平的环形RNA,由于测序深度的限制,可能无法被准确检测到,容易造成漏检。此外,从海量的测序数据中准确识别和分析环形RNA,对生物信息学算法和计算资源提出了较高要求。目前的算法在识别环形RNA时,仍然存在一定的假阳性和假阴性率,如何进一步优化算法,提高环形RNA识别的准确性和可靠性,是亟待解决的问题。2.2.2CRISPR-Cas13技术在筛选中的应用CRISPR-Cas13系统是一种新型的基因编辑技术,其作用原理基于CRISPR(规律成簇间隔短回文重复序列)和Cas13蛋白。Cas13蛋白是一类RNA靶向的核酸酶,能够在向导RNA(gRNA)的引导下,特异性地识别并切割靶标RNA。在环形RNA筛选中,CRISPR-Cas13技术展现出独特的优势。以陈玲玲研究组等建立的CRISPR-RfxCas13d/BSJ-gRNA系统为例,该系统利用RfxCas13d蛋白和靶向环形RNA反向剪接位点(BSJ)的gRNA,实现对环形RNA的特异性敲低。其原理是,gRNA与环形RNA的反向剪接位点互补配对,引导RfxCas13d蛋白结合到环形RNA上,然后RfxCas13d蛋白发挥核酸酶活性,对环形RNA进行切割,从而降低环形RNA的表达水平。通过这种方式,可以有效地将环形RNA与同源线性RNA区分开来,研究环形RNA的功能。CRISPR-Cas13技术在环形RNA筛选中具有诸多优势。该技术具有高度的特异性,能够精确地靶向环形RNA的反向剪接位点,而不影响其同源线性RNA的表达,这为研究环形RNA的独立功能提供了有力的工具。相较于传统的RNA干扰等技术,CRISPR-Cas13技术的敲低效率更高,能够更有效地降低环形RNA的表达水平,从而更准确地研究其功能。CRISPR-Cas13技术还可以用于构建gRNA文库,实现对环形RNA的大规模功能筛选,有助于快速发现具有重要功能的环形RNA。然而,CRISPR-Cas13技术在应用中也存在一定的局限性。gRNA的设计和筛选较为复杂,需要考虑gRNA与靶标序列的互补性、特异性以及脱靶效应等因素,设计不当可能导致敲低效率低下或产生脱靶效应。Cas13蛋白在细胞内的表达和活性可能受到多种因素的影响,如细胞类型、转染效率等,这可能会影响技术的应用效果。CRISPR-Cas13技术目前主要应用于细胞水平的研究,在体内动物模型中的应用还存在一定的挑战,如何将该技术有效地应用于体内研究,是未来需要解决的问题。2.2.3其他筛选技术的简要介绍除了基于高通量测序和CRISPR-Cas13技术的筛选方法外,还有一些其他技术在环形RNA研究中也有应用,其中RNA干扰(RNAinterference,RNAi)技术是较为常用的一种。RNAi技术的原理是利用双链RNA(dsRNA)介导的同源mRNA降解,从而实现对特定基因表达的抑制。在环形RNA筛选中,通过设计针对环形RNA特异性序列(如反向剪接位点附近序列)的小干扰RNA(siRNA)或短发夹RNA(shRNA),可以实现对环形RNA表达的敲低。RNAi技术的优点是操作相对简单,成本较低,在一些实验室中易于实施。由于环形RNA与同源线性RNA序列高度相似,很难设计出只针对环形RNA而不影响线性RNA的RNAi分子,这限制了其在环形RNA功能研究中的应用。免疫沉淀技术也可用于环形RNA的筛选。该技术利用特异性抗体与目标RNA结合,然后通过免疫沉淀的方法将与抗体结合的RNA复合物沉淀下来,从而富集目标RNA。对于环形RNA,可以使用针对环形RNA结合蛋白的抗体,通过免疫沉淀来富集与这些蛋白结合的环形RNA。免疫沉淀技术能够获得与特定蛋白相互作用的环形RNA,有助于研究环形RNA在蛋白质-RNA相互作用网络中的功能。该技术依赖于高质量的抗体,抗体的特异性和亲和力会影响实验结果,且实验过程较为繁琐,需要优化多个实验条件。不同筛选技术在环形RNA研究中各有优劣。高通量测序技术能够全面地检测环形RNA,但存在成本高、数据分析复杂等问题;CRISPR-Cas13技术特异性强、敲低效率高,但gRNA设计和体内应用存在挑战;RNAi技术操作简单、成本低,但难以区分环形RNA和线性RNA;免疫沉淀技术有助于研究环形RNA的相互作用,但依赖抗体且实验繁琐。在实际研究中,需要根据研究目的和实验条件,选择合适的筛选技术,或者结合多种技术,以更有效地筛选和研究环形RNA。2.3计算生物学方法在筛选系统中的应用2.3.1筛选算法的设计与优化针对环形RNA筛选,设计高效准确的算法是关键环节。在识别反向剪接位点的算法设计中,通常会利用环形RNA独特的反向剪接特征。例如,基于剪接位点的序列保守性和侧翼序列特征来构建算法模型。通过对大量已知环形RNA的反向剪接位点进行分析,提取其共有序列模式,如经典的GU-AG剪接信号在反向剪接中的特定排列方式。结合机器学习算法,如支持向量机(SVM),将剪接位点的序列特征、侧翼序列的长度、碱基组成等作为特征向量输入模型进行训练,构建出能够准确识别反向剪接位点的分类器。为了进一步提高算法的准确性,还可以引入位置权重矩阵(PWM)来描述剪接位点的序列保守性。PWM通过统计每个位置上不同碱基出现的频率,为每个碱基分配一个权重,从而更精确地衡量序列与已知剪接位点模式的匹配程度。在优化算法时,考虑多方面因素以提高筛选准确性。在数据预处理阶段,采用更严格的质量控制策略,去除低质量的测序数据和可能的测序错误,减少噪声对算法的干扰。对于算法中的参数进行优化调整,通过交叉验证等方法确定最优参数组合,以提高算法的性能。利用深度学习算法对环形RNA筛选算法进行优化也是当前的研究热点。例如,采用卷积神经网络(CNN)模型,其能够自动学习数据中的复杂特征,对环形RNA的测序数据进行特征提取和分类。CNN通过卷积层、池化层和全连接层的组合,能够有效地捕捉到反向剪接位点周围的局部特征和全局特征,从而提高识别的准确性。与传统算法相比,深度学习算法在处理大规模数据时具有更强的适应性和泛化能力,能够更好地应对环形RNA筛选中数据多样性和复杂性的挑战。2.3.2数据分析与挖掘策略在环形RNA筛选过程中,会产生大量的测序数据,对这些数据进行有效的分析和挖掘至关重要。差异表达分析是常用的数据分析方法之一,通过比较不同样本(如正常组织与疾病组织、不同发育阶段的组织等)中环形RNA的表达水平,筛选出表达差异显著的环形RNA。在差异表达分析中,通常会使用统计检验方法,如DESeq2软件包,该软件基于负二项分布模型,能够对测序数据中的计数进行标准化处理,并准确计算出不同样本间环形RNA表达的差异倍数和显著性水平。通过设定适当的阈值,如差异倍数大于2且调整后的P值小于0.05,筛选出在不同样本中具有显著表达差异的环形RNA,这些环形RNA可能与特定的生物学过程或疾病状态相关。功能富集分析也是挖掘环形RNA潜在功能的重要策略。由于大部分环形RNA通过与miRNA相互作用来调控基因表达,因此可以利用生物信息学工具预测环形RNA可能结合的miRNA,并进一步预测这些miRNA的靶基因。通过对靶基因进行功能富集分析,如基因本体(GO)富集分析和京都基因与基因组百科全书(KEGG)通路富集分析,可以了解环形RNA可能参与的生物学过程和信号通路。在GO富集分析中,将靶基因映射到GO数据库中的生物学过程、分子功能和细胞组成等类别,计算每个类别中基因的富集程度,从而确定环形RNA可能参与的生物学过程。在KEGG通路富集分析中,将靶基因映射到KEGG数据库中的各种信号通路,分析哪些通路在靶基因中显著富集,揭示环形RNA可能参与的信号传导和代谢途径。还可以结合蛋白质-蛋白质相互作用网络分析,研究环形RNA通过调控miRNA和靶基因,在蛋白质相互作用网络中发挥的作用,进一步深入挖掘环形RNA的生物学功能。2.3.3预测模型的构建与验证构建预测环形RNA功能和表达的模型,有助于深入理解环形RNA的生物学特性和作用机制。在构建预测模型时,可以整合多种数据信息,如环形RNA的序列特征、表达谱数据、与miRNA的相互作用信息以及蛋白质-RNA相互作用数据等。利用机器学习算法,如随机森林(RandomForest)算法,将这些数据作为特征输入模型进行训练。随机森林通过构建多个决策树,并对决策树的预测结果进行综合投票,能够有效地处理高维度数据和减少过拟合问题。在训练过程中,模型会学习到不同特征与环形RNA功能和表达之间的关系,从而建立起预测模型。为了验证预测模型的准确性和可靠性,需要使用实验数据进行验证。收集已有的实验数据,包括环形RNA的功能验证实验数据和表达定量实验数据,将模型的预测结果与实验数据进行对比分析。可以采用多种评估指标,如准确率(Accuracy)、召回率(Recall)、F1值等,来评估模型的性能。如果模型的预测结果与实验数据具有较高的一致性,即准确率、召回率和F1值等指标较高,说明模型具有较好的准确性和可靠性;反之,则需要对模型进行进一步的优化和改进。还可以通过独立的实验验证,如对新的样本进行环形RNA功能和表达的检测,并用模型进行预测,将预测结果与实际实验结果进行对比,进一步验证模型的泛化能力和可靠性。通过不断地优化模型和验证实验,提高预测模型的性能,为环形RNA的功能研究和应用提供有力的支持。三、环形RNA筛选系统案例分析3.1案例一:基于CRISPR-Cas13技术的环形RNA功能筛选3.1.1实验设计与实施陈玲玲、杨力、李劲松团队合作开展了一项具有开创性的研究,旨在开发一种基于CRISPR-Cas13技术的筛选工具,以快速筛选和发现功能性环形RNA。该研究的实验设计紧密围绕CRISPR-Cas13系统的作用机制,通过巧妙的gRNA文库设计和细胞系构建,实现了对环形RNA的特异性敲除和功能筛选。在gRNA文库设计方面,研究团队聚焦于环形RNA的反向剪接位点(BSJ)。他们精心挑选并合成了靶向人类高表达circRNA反向剪接位点序列的寡核苷酸片段,这些片段经过一系列的酶切、连接等操作,被构建到慢病毒载体中,从而形成了靶向环形RNA反向剪接位点的gRNA文库。该文库涵盖了众多环形RNA的反向剪接位点,为后续的功能筛选提供了丰富的靶点资源。为了实现对环形RNA的有效敲除,研究团队构建了RfxCas13d稳定表达细胞系。他们将编码RfxCas13d蛋白的基因导入细胞中,并通过筛选和鉴定,获得了能够稳定表达RfxCas13d蛋白的细胞系。在构建过程中,研究人员充分考虑了细胞系的稳定性、表达效率以及对后续实验的影响等因素,通过优化转染条件、筛选合适的细胞株等措施,确保了RfxCas13d稳定表达细胞系的高质量。在筛选实验中,研究团队将构建好的gRNA文库通过慢病毒感染的方式导入RfxCas13d稳定表达细胞系中。gRNA文库中的每个gRNA都能够特异性地引导RfxCas13d蛋白结合到相应环形RNA的反向剪接位点上,随后RfxCas13d蛋白发挥核酸酶活性,对环形RNA进行切割,从而实现对环形RNA的特异性敲除。通过这种方式,研究团队在细胞水平上对环形RNA进行了大规模的功能筛选,观察敲除环形RNA后细胞的表型变化,从而筛选出对细胞生长、发育等过程具有重要作用的功能性环形RNA。3.1.2筛选结果与数据分析通过基于CRISPR-Cas13技术的筛选实验,研究团队成功获得了大量与细胞增殖相关的环形RNA分子数据。在数据分析阶段,研究人员首先对筛选得到的环形RNA进行了表达水平的定量分析。他们通过计算比对到环形RNA反向剪接位点的reads数,并进行归一化处理,精确地确定了每个环形RNA在不同样本中的表达水平。通过比较实验组(敲除环形RNA的细胞)和对照组(未敲除环形RNA的细胞)中环形RNA的表达水平,筛选出了表达差异显著的环形RNA。进一步对这些表达差异显著的环形RNA进行功能注释和富集分析。利用生物信息学工具,研究人员预测了环形RNA可能结合的miRNA,并进一步预测了这些miRNA的靶基因。通过对靶基因进行基因本体(GO)富集分析和京都基因与基因组百科全书(KEGG)通路富集分析,发现一些环形RNA通过调控miRNA和靶基因,参与了细胞周期调控、DNA复制、细胞增殖相关信号通路等重要生物学过程。某些环形RNA通过吸附特定的miRNA,解除了miRNA对靶基因的抑制作用,从而促进了细胞周期相关基因的表达,进而影响细胞增殖。研究人员还对环形RNA与细胞增殖之间的关系进行了深入分析。通过构建细胞增殖模型,将筛选得到的环形RNA分别过表达或敲低,观察细胞增殖能力的变化。实验结果表明,部分环形RNA的过表达能够显著促进细胞增殖,而敲低这些环形RNA则会抑制细胞增殖;相反,另一些环形RNA的过表达会抑制细胞增殖,敲低后细胞增殖能力增强。这些结果表明,环形RNA在细胞增殖过程中发挥着重要的调控作用,且不同的环形RNA对细胞增殖的调控作用具有差异性。3.1.3对环形RNA功能研究的贡献该案例在环形RNA功能研究领域具有重要的贡献,从多个方面推动了该领域的发展。在发现环形RNA新功能方面,研究团队通过大规模的功能筛选,鉴定出了一组对细胞生长、胚胎发育等有重要作用的功能性circRNA。这些新发现的环形RNA功能,为深入理解细胞生理过程和疾病发生机制提供了新的视角。例如,发现某些环形RNA在胚胎发育过程中特异性表达,并且对胚胎的正常发育至关重要,这揭示了环形RNA在发育生物学中的潜在作用。在建立研究范式方面,该研究为环形RNA功能研究提供了一种高效、可靠的方法。基于CRISPR-Cas13技术的筛选系统,能够特异性地敲除环形RNA,而不影响其同源线性RNA的表达,有效地解决了环形RNA功能研究中难以将其与同源线性RNA功能区分开来的难题。这种方法为后续的环形RNA功能研究提供了重要的技术参考,使得研究人员能够更加准确地研究环形RNA的功能和作用机制。该案例的研究成果还为环形RNA在疾病诊断和治疗中的应用提供了理论基础。通过揭示环形RNA与细胞增殖、疾病发生等过程的关系,为开发基于环形RNA的疾病诊断标志物和治疗靶点提供了可能。某些与肿瘤细胞增殖密切相关的环形RNA,有可能成为肿瘤诊断的新型标志物,或者作为肿瘤治疗的潜在靶点,为肿瘤的精准诊断和治疗开辟新的途径。3.2案例二:基于计算分析的环形RNA新分子鉴定3.2.1计算分析流程的应用杨力团队在环形RNA研究中开展了一项极具创新性的工作,通过精妙的计算分析流程,成功鉴定出一类包含特异外显子的环形RNA新分子。该团队首先从RNA测序数据入手,运用先进的生物信息学工具和算法对数据进行深度挖掘。他们利用CIRI、CIRCexplorer等环形RNA识别工具,从海量的测序数据中精准地识别出环形RNA的反向剪接位点。通过严格的筛选标准,去除可能的假阳性结果,确保鉴定出的环形RNA具有较高的可信度。在鉴定过程中,团队着重关注环形RNA的序列特征,尤其是外显子组成。他们发现,一些环形RNA包含了在对应线性RNA中并不存在的特异外显子。为了深入分析这些特异外显子的功能和作用,团队利用多种生物信息学数据库和分析工具,对特异外显子的序列进行了全面的分析。通过与已知的基因序列进行比对,预测特异外显子可能编码的蛋白质结构域或功能模块;运用功能富集分析工具,探究特异外显子可能参与的生物学过程和信号通路。为了验证计算分析结果的准确性,团队还进行了多方面的验证工作。他们将鉴定出的环形RNA与已有的数据库进行比对,确保新发现的环形RNA确实是未曾报道过的新分子。通过实验验证,如RT-qPCR实验,对计算分析预测的环形RNA表达水平进行检测,进一步证实了计算分析结果的可靠性。3.2.2新分子的验证与功能研究为了验证新分子的存在,研究团队进行了严谨的实验验证。首先,采用逆转录-定量聚合酶链反应(RT-qPCR)技术,针对预测得到的环形RNA新分子设计特异性引物,以细胞或组织的RNA为模板进行逆转录和扩增。通过与内参基因的比较,准确地检测出环形RNA新分子的表达水平,从分子层面证实了其存在。为了进一步确认环形RNA的结构特征,团队采用了核酸酶消化实验。用RNaseR处理RNA样本,RNaseR是一种能够特异性降解线性RNA的核酸酶,而环形RNA由于其闭环结构对RNaseR具有抗性。经过RNaseR处理后,通过凝胶电泳或测序分析,发现预测的环形RNA新分子依然存在,而线性RNA被降解,这进一步证明了其环形结构。在功能研究方面,研究团队运用细胞生物学实验方法,探究新分子对细胞生长等功能的影响。通过构建过表达和敲低细胞模型,将环形RNA新分子的表达水平进行上调或下调。在过表达实验中,将编码环形RNA新分子的基因构建到表达载体中,通过转染等方法导入细胞,使细胞中环形RNA新分子的表达水平显著升高。在敲低实验中,利用RNA干扰技术,设计针对环形RNA新分子的小干扰RNA(siRNA)或短发夹RNA(shRNA),转染细胞后降低环形RNA新分子的表达。通过检测细胞增殖、凋亡、迁移等指标,分析环形RNA新分子表达水平变化对细胞功能的影响。实验结果表明,过表达环形RNA新分子能够显著促进细胞增殖,而敲低该分子则会抑制细胞增殖,说明该环形RNA新分子在细胞生长过程中发挥着重要的调控作用。3.2.3研究成果的创新性与意义该案例在环形RNA研究领域具有显著的创新性和重要意义。在发现新型环形RNA分子方面,团队通过独特的计算分析流程,成功鉴定出包含特异外显子的环形RNA新分子,这是对环形RNA家族的重要补充。以往的研究虽然发现了大量的环形RNA,但对于包含特异外显子的环形RNA关注较少,该研究拓展了人们对环形RNA多样性的认识。在拓展对环形RNA认识方面,研究成果为深入理解环形RNA的功能和作用机制提供了新的视角。特异外显子的发现,使得人们对环形RNA的功能有了新的思考方向。这些特异外显子可能赋予环形RNA独特的功能,如参与特定的信号传导通路、调控基因表达等。通过对新分子功能的研究,揭示了环形RNA在细胞生长调控中的重要作用,进一步丰富了人们对环形RNA生物学功能的认识。该研究成果还为后续的环形RNA研究提供了重要的方法和思路。其采用的计算分析与实验验证相结合的研究策略,为环形RNA的鉴定和功能研究提供了可借鉴的模式,有助于推动环形RNA研究领域的进一步发展。四、碱基编辑器开发的计算生物学策略4.1碱基编辑器的作用机制与分类4.1.1作用机制解析碱基编辑器作为一类新型基因编辑工具,其核心优势在于能够在不引发DNA双链断裂的前提下实现单碱基替换,这一特性与传统基因编辑技术有着显著区别。传统的基因编辑技术,如基于CRISPR-Cas9系统的基因编辑,通常依赖于Cas9核酸酶对DNA双链进行切割,产生双链断裂(DSB),然后细胞通过非同源末端连接(NHEJ)或同源重组(HR)等修复机制对断裂的DNA进行修复。在这个过程中,NHEJ修复往往会引入随机的插入或缺失突变,HR修复虽然能够实现精确的基因编辑,但需要提供外源的同源模板,且效率较低。而碱基编辑器则另辟蹊径,巧妙地利用了脱氨酶的作用,直接对DNA或RNA上的碱基进行化学修饰,从而实现单碱基的精准替换。以胞嘧啶碱基编辑器(CBE)为例,其作用机制主要涉及胞嘧啶脱氨酶、失活的Cas9(dCas9)或Cas9切口酶(nCas9)以及尿嘧啶糖基化酶抑制剂(UGI)等关键组件。当CBE被导入细胞后,dCas9或nCas9在向导RNA(gRNA)的引导下,精准地识别并结合到目标DNA序列上。gRNA与目标DNA序列通过碱基互补配对的方式相互作用,确保了CBE能够特异性地靶向目标位点。此时,胞嘧啶脱氨酶发挥关键作用,它能够催化目标DNA链上的胞嘧啶(C)发生脱氨反应,将其转化为尿嘧啶(U)。在DNA复制过程中,DNA聚合酶会将U识别为胸腺嘧啶(T),从而实现C到T的碱基替换。为了防止细胞内的尿嘧啶DNA糖基化酶(UNG)将U切除,导致碱基编辑失败,CBE中通常会融合UGI,UGI能够抑制UNG的活性,稳定U的存在,保证碱基编辑的顺利进行。腺嘌呤碱基编辑器(ABE)的作用机制与之类似,但涉及的关键酶和碱基转换类型有所不同。ABE主要由腺嘌呤脱氨酶、dCas9或nCas9以及其他辅助组件构成。在gRNA的引导下,dCas9或nCas9结合到目标DNA位点后,腺嘌呤脱氨酶将目标DNA链上的腺嘌呤(A)脱氨转化为肌苷(I)。由于I在DNA复制过程中会被DNA聚合酶识别为鸟嘌呤(G),从而实现A到G的碱基替换。ABE在作用过程中不需要像CBE那样依赖UGI来稳定中间产物,这是因为细胞内没有能够高效切除I中次黄嘌呤碱基的酶,使得A脱氨形成的I能够直接被当作G读取,进而获得较高纯度的A到G编辑。碱基编辑器的作用机制是一个高度精准且复杂的过程,涉及多种分子组件的协同作用。这种不依赖DNA双链断裂的单碱基替换方式,不仅提高了基因编辑的精准性,还降低了因双链断裂引发的染色体异常等风险,为基因治疗和基础生物学研究提供了一种强大而安全的工具。4.1.2主要类型介绍碱基编辑器主要包括胞嘧啶碱基编辑器(CBE)和腺嘌呤碱基编辑器(ABE),它们在基因编辑领域发挥着重要作用,且各自具有独特的编辑功能和特点。胞嘧啶碱基编辑器(CBE)最早由DavidLiu实验室于2016年开发成功。CBE能够在不切断DNA双链的情况下,将靶位点的胞嘧啶(C)转化为尿嘧啶(U),经过DNA复制或修复过程,最终实现C到T的碱基替换。CBE主要由胞嘧啶脱氨酶、失活的Cas9(dCas9)或Cas9切口酶(nCas9)以及尿嘧啶糖基化酶抑制剂(UGI)组成。常用的胞嘧啶脱氨酶包括大鼠载脂蛋白BmRNA编辑酶催化多肽1(rAPOBEC1)、人激活诱导的胞嘧啶脱氨酶(hAID)等。这些脱氨酶能够特异性地对单链DNA上的胞嘧啶进行脱氨作用。dCas9或nCas9在gRNA的引导下,将脱氨酶带到目标DNA位点,实现精准的碱基编辑。UGI则能够抑制细胞内尿嘧啶DNA糖基化酶(UNG)的活性,防止U被切除,从而提高碱基编辑的效率和纯度。CBE的优势在于能够高效地实现C到T的转换,在纠正由C到T突变引起的遗传疾病方面具有巨大潜力。在一些单基因遗传病中,如镰状细胞贫血,其致病原因是β-珠蛋白基因中的一个C到T突变,CBE有望通过将突变的T转换回C,实现对疾病基因的修复。CBE的编辑窗口相对较窄,通常在gRNA靶向序列的特定位置范围内起作用,这在一定程度上限制了其应用范围。腺嘌呤碱基编辑器(ABE)是在CBE之后开发的另一类重要碱基编辑器。2017年,DavidLiu实验室成功开发出ABE,它能够将腺嘌呤(A)转化为肌苷(I),在DNA复制过程中,I被识别为鸟嘌呤(G),从而实现A到G的碱基替换。ABE主要由腺嘌呤脱氨酶TadA、dCas9或nCas9组成。TadA最初是在大肠杆菌中发现的一种天然腺嘌呤脱氨酶,经过改造和进化,被应用于ABE中。与CBE不同,ABE在作用过程中不需要UGI,因为细胞内没有能够高效切除I中次黄嘌呤碱基的酶,使得A脱氨形成的I能够稳定存在并被正确识别。ABE的出现极大地拓展了碱基编辑的范围,对于那些由A到G突变引起的遗传疾病,ABE提供了潜在的治疗手段。在某些遗传性耳聋疾病中,由于相关基因的A到G突变导致疾病发生,ABE可以通过将突变的G转换回A,为疾病治疗带来希望。ABE在靠近原间隔序列邻近基序(PAM)区的编辑活性相对较低,且编辑窗口也存在一定的局限性。除了CBE和ABE这两种主要类型外,科研人员还在不断开发新的碱基编辑器,如糖基化酶碱基编辑器(GBE),它能够实现C到G和C到A的碱基颠换,进一步丰富了碱基编辑的类型和功能。不同类型的碱基编辑器在编辑功能和特点上各有优劣,为基因编辑研究和应用提供了多样化的选择。4.1.3现有碱基编辑器的局限性尽管碱基编辑器在基因编辑领域取得了显著进展,为基因治疗和基础研究提供了强大的工具,但目前的碱基编辑器仍然存在一些局限性,这些问题限制了其更广泛的应用和进一步的发展。在靶向范围方面,现有碱基编辑器受到PAM序列的限制。PAM序列是Cas9蛋白识别并结合DNA的关键元件,不同的Cas9蛋白变体具有不同的PAM序列要求。常用的SpCas9蛋白的PAM序列为NGG,这意味着碱基编辑器只能对紧邻NGG序列的碱基进行编辑。这极大地限制了碱基编辑器的靶向范围,许多潜在的编辑位点由于不满足PAM序列要求而无法被编辑。对于一些重要的基因位点,如果其周围不存在合适的PAM序列,就无法利用现有的碱基编辑器进行精准编辑。虽然科研人员开发了一些具有不同PAM特异性的Cas9变体,如SpCas9-NGA、xCas9等,能够识别不同的PAM序列,但这些变体在编辑效率和特异性等方面往往存在一定的权衡,且仍然无法完全覆盖所有可能的编辑位点。编辑效率也是现有碱基编辑器面临的一个重要问题。在实际应用中,碱基编辑器的编辑效率在不同细胞类型和基因组位点之间存在较大差异。在某些细胞类型中,碱基编辑器的编辑效率可能较低,无法满足实验或治疗的需求。对于一些难以转染的细胞,如原代细胞,碱基编辑器的导入效率较低,从而导致编辑效率低下。不同基因组位点的染色质结构、DNA甲基化状态等因素也会影响碱基编辑器的编辑效率。在染色质紧密缠绕、甲基化程度高的区域,碱基编辑器难以接近目标DNA序列,编辑效率会显著降低。脱靶效应是碱基编辑器应用中最受关注的问题之一。尽管碱基编辑器相比于传统的CRISPR-Cas9系统在一定程度上降低了脱靶风险,但仍然存在脱靶编辑的可能性。脱靶效应可能导致在非目标位点发生不必要的碱基替换,从而引发潜在的安全风险。碱基编辑器可能会在与目标序列相似的非目标位点进行编辑,这种脱靶编辑可能会影响正常基因的功能,导致细胞生理功能异常,甚至引发疾病。目前,虽然已经开发了一些预测脱靶位点的方法和工具,如通过生物信息学算法预测潜在的脱靶序列,并利用高通量测序技术检测脱靶编辑情况,但这些方法仍然存在一定的局限性,无法完全准确地预测和避免脱靶效应。4.2计算生物学在碱基编辑器设计中的应用4.2.1蛋白质结构预测与分析中国科学院遗传与发育生物学研究所科研团队在碱基编辑工具开发领域取得了创新性突破,他们开创性地运用AI辅助的大规模蛋白结构预测技术,建立起基于三级结构的蛋白聚类方法,为新型碱基编辑工具的开发奠定了坚实基础。在蛋白质结构预测方面,团队借助先进的蛋白质结构预测模型AlphaFold2,对具有代表性的脱氨功能序列进行了批量三维结构预测。AlphaFold2是一款基于深度学习的蛋白质结构预测工具,它能够根据蛋白质的氨基酸序列准确预测其三维结构,为蛋白质结构研究提供了强大的技术支持。通过AlphaFold2,团队获得了大量脱氨酶的三维结构信息,这些信息为后续的结构分析和功能研究提供了关键数据。在结构分析过程中,团队创新性地开展了基于三维结构的蛋白质多重比对与聚类。传统的蛋白质聚类方法主要基于氨基酸一级序列的相似性,然而这种方法在面对序列同源性较低且功能多样的蛋白集合时,往往难以准确揭示蛋白质之间的功能关系。而团队采用的基于三维结构的聚类方法,能够直接从蛋白质的三维空间结构出发,更准确地反映蛋白质的功能特征。通过这种方法,团队成功将潜在的脱氨酶划分为20个不同的分支。除了已报道的APOBEC/AID胞嘧啶脱氨酶外,还检测到5个结构、序列全新的具有活性的胞嘧啶脱氨酶分支。对具有类DddA(Double-strandedDNAdeaminasetoxinA-like)脱氨结构域的蛋白进行进一步结构聚类和功能验证时,发现该分支不仅包含以前推测的具有双链DNA脱氨活性的蛋白,还包含了大量只具有单链DNA脱氨活性的蛋白,这一发现颠覆了之前对该类蛋白功能的认知。基于上述聚类和分析结果,团队全新鉴定到45个单链胞嘧啶脱氨酶(Sdd)和13个双链胞嘧啶脱氨酶(Ddd)。这些脱氨酶全部来自原核生物(细菌),与现有APOBEC/AID脱氨酶家族成员(主要来自真核生物,如人、哺乳动物或鱼类)截然不同。团队基于这些新鉴定的脱氨酶开发了一系列新型碱基编辑系统,并在动、植物细胞中进行了测试。结果表明,新开发的基于Ddd1和Ddd9脱氨酶的双链碱基编辑系统克服了常规编辑器对GC序列编辑效率明显降低的缺陷;基于Sdd7和Sdd3的单链碱基编辑系统展现出了非常高的编辑活性,在GC序列同样具有可观的碱基编辑能力;基于Sdd6的单链碱基编辑系统则展现出了极高的特异性,几乎检测不到脱靶事件。通过蛋白理性设计和功能验证,团队开发了新型的可被单个腺相关病毒(AAV)包被的Sdd6-CBE碱基编辑器,在小鼠细胞系中获得高达43.1%的编辑效率,解决了常规碱基编辑器过大而无法被腺病毒颗包被递送的难题。针对大豆中长期存在碱基编辑效率低下的问题,该团队新开发了Sdd7-CBE系统,在154株大豆阳性苗中获得了34株稳定编辑的植株,编辑效率高达22.1%。该研究通过AI辅助的蛋白质结构预测与分析,成功开发出一系列具有我国自主知识产权的新型碱基编辑工具,为碱基编辑技术的发展提供了新的策略和工具,展现出新型碱基编辑系统在医学和农业方面广泛的应用前景。4.2.2脱氨酶的筛选与改造脱氨酶作为碱基编辑器的核心元件,其性能直接影响着碱基编辑器的编辑效率和特异性。通过计算分析来筛选和改造脱氨酶,是优化碱基编辑器性能的关键策略之一。在筛选脱氨酶时,计算分析能够从大量的潜在脱氨酶中快速、准确地识别出具有优良特性的脱氨酶。科研人员会利用生物信息学工具,对不同来源的脱氨酶进行序列分析和结构预测。通过分析脱氨酶的氨基酸序列,研究人员可以了解其进化关系、保守结构域等信息。通过蛋白质结构预测工具,如AlphaFold2等,预测脱氨酶的三维结构,进而分析其活性位点、底物结合口袋等结构特征。这些信息有助于评估脱氨酶的潜在功能和性能。研究人员可以通过计算分析预测脱氨酶对不同底物的亲和力,筛选出对目标碱基具有高亲和力的脱氨酶。对脱氨酶与DNA或RNA底物结合时的自由能变化进行计算,自由能变化越小,表明脱氨酶与底物的结合越稳定,越有利于碱基编辑反应的进行。通过这种方式,可以筛选出能够高效催化目标碱基编辑的脱氨酶。对筛选出的脱氨酶进行改造,能够进一步优化碱基编辑器的性能。基于结构导向的设计策略是常用的改造方法之一。研究人员会根据脱氨酶的三维结构,分析其活性位点和关键氨基酸残基。通过定点突变等技术,对关键氨基酸残基进行替换或修饰,改变脱氨酶的活性和特异性。如果发现某个氨基酸残基在底物结合过程中起到关键作用,通过突变该氨基酸残基,可能会增强脱氨酶与底物的结合能力,从而提高编辑效率。可以通过改变脱氨酶的底物特异性来拓展碱基编辑器的编辑范围。例如,通过对腺嘌呤脱氨酶的改造,使其能够识别并编辑除腺嘌呤以外的其他碱基,从而实现更多类型的碱基编辑。机器学习算法在脱氨酶改造中也发挥着重要作用。通过构建机器学习模型,输入脱氨酶的序列、结构和功能数据,模型可以学习到这些数据之间的关系,并预测不同突变对脱氨酶性能的影响。研究人员可以利用这些预测结果,有针对性地设计突变方案,减少实验的盲目性,提高脱氨酶改造的效率。通过机器学习算法预测某个突变可能会提高脱氨酶的热稳定性,研究人员可以在实验中验证这一预测,并进一步优化突变方案。脱氨酶的筛选与改造是一个复杂而精细的过程,计算分析为这一过程提供了强大的技术支持。通过合理运用计算分析方法,可以筛选出性能优良的脱氨酶,并对其进行有效的改造,从而开发出更高效、更特异的碱基编辑器。4.2.3碱基编辑活性预测模型构建预测碱基编辑活性的模型对于碱基编辑器的设计和优化具有重要指导意义,能够帮助研究人员更好地理解碱基编辑过程,提高碱基编辑器的性能。预测模型的构建通常需要整合多种数据信息。序列特征是重要的输入数据之一,包括向导RNA(gRNA)的序列、目标DNA或RNA的序列以及脱氨酶的氨基酸序列等。gRNA的序列决定了碱基编辑器的靶向特异性,其与目标DNA或RNA的互补配对情况会影响碱基编辑的效率。目标DNA或RNA的序列特征,如碱基组成、二级结构等,也会对碱基编辑活性产生影响。脱氨酶的氨基酸序列则决定了其催化活性和特异性。研究表明,某些特定的碱基序列模体与碱基编辑活性密切相关,通过分析这些序列模体,可以为模型提供重要的特征信息。除了序列特征,表观遗传因素也在碱基编辑过程中发挥着重要作用。DNA甲基化、组蛋白修饰等表观遗传修饰会影响染色质的结构和可及性,进而影响碱基编辑器与目标DNA的结合以及编辑活性。在构建模型时,需要考虑这些表观遗传因素的影响。通过实验测量或生物信息学预测获取目标位点的DNA甲基化水平、组蛋白修饰状态等信息,并将其作为模型的输入特征。研究发现,在DNA甲基化程度较高的区域,碱基编辑器的编辑效率往往较低,这是因为甲基化会阻碍碱基编辑器与DNA的结合。机器学习算法在碱基编辑活性预测模型中得到了广泛应用。常用的机器学习算法包括支持向量机(SVM)、随机森林(RandomForest)、神经网络(NeuralNetwork)等。这些算法能够对整合的序列特征和表观遗传因素等数据进行学习和分析,建立起输入数据与碱基编辑活性之间的关系模型。以神经网络为例,它可以通过构建多层神经元结构,自动学习数据中的复杂特征和模式。在训练过程中,神经网络会不断调整神经元之间的连接权重,使得模型能够准确地预测碱基编辑活性。通过大量的训练数据,神经网络可以学习到不同序列特征和表观遗传因素对碱基编辑活性的影响规律,从而实现对碱基编辑活性的准确预测。预测模型在碱基编辑器设计和优化中具有重要的指导作用。在设计新的碱基编辑器时,研究人员可以利用预测模型对不同的gRNA序列、脱氨酶变体等进行筛选和评估。通过模型预测不同设计方案下的碱基编辑活性,选择具有高编辑活性的方案进行实验验证,从而提高设计效率,减少实验成本。在优化碱基编辑器性能时,模型可以帮助研究人员分析影响编辑活性的关键因素,有针对性地进行改进。如果模型预测某个特定的序列模体或表观遗传因素对编辑活性有显著影响,研究人员可以通过调整碱基编辑器的结构或改变目标位点的表观遗传状态来优化编辑活性。预测模型还可以用于评估碱基编辑器在不同细胞类型或组织中的编辑活性,为其在实际应用中的效果预测提供参考。4.3碱基编辑器优化策略4.3.1提高编辑效率的策略提高碱基编辑器的编辑效率是优化碱基编辑器性能的关键目标之一,通过改变蛋白质结构和优化反应条件等策略,可以有效提升碱基编辑器的编辑效率。从蛋白质结构改造角度来看,对碱基编辑器中融合蛋白的结构进行优化是提高编辑效率的重要途径。以腺嘌呤碱基编辑器(ABE)为例,其核心组件腺嘌呤脱氨酶TadA的结构改造备受关注。研究表明,通过对TadA的氨基酸残基进行突变,可以改变其与底物的结合亲和力以及催化活性。在TadA的活性口袋附近引入特定突变,如L145T和N108Q突变,能够显著影响其对腺嘌呤的脱氨催化效率。这些突变可能通过改变活性口袋的空间构象,使腺嘌呤更容易进入活性中心,从而提高脱氨反应的速率,进而提高ABE的编辑效率。在融合蛋白中合理调整各组件之间的连接方式和空间排列也对编辑效率有重要影响。碱基编辑器通常由脱氨酶、Cas9或其变体以及其他辅助组件构成,这些组件之间的连接长度、连接肽的氨基酸组成等因素都会影响融合蛋白的整体结构和功能。通过优化连接肽的长度和序列,可以减少组件之间的空间位阻,使各组件能够更好地协同工作。在胞嘧啶碱基编辑器(CBE)中,优化尿嘧啶糖基化酶抑制剂(UGI)与其他组件的连接方式,能够增强UGI对尿嘧啶DNA糖基化酶(UNG)的抑制效果,稳定碱基编辑过程中的中间产物尿嘧啶,从而提高CBE的编辑效率。优化反应条件也是提高编辑效率的有效策略。反应体系中的温度、pH值等因素对碱基编辑器的活性有显著影响。不同的碱基编辑器在不同的温度和pH条件下可能具有不同的活性表现。某些碱基编辑器在37℃左右能够发挥最佳活性,而在温度过高或过低时,酶的活性可能会受到抑制。pH值的变化也会影响脱氨酶和Cas9等蛋白的结构和功能,进而影响碱基编辑效率。在实验中,通过精确控制反应体系的温度和pH值,使其处于碱基编辑器的最适反应条件下,可以有效提高编辑效率。细胞内环境对碱基编辑器的编辑效率也有重要影响。细胞内的代谢产物、离子浓度等因素可能会干扰碱基编辑器的正常功能。一些细胞内的代谢产物可能会与碱基编辑器结合,影响其与底物的相互作用;离子浓度的变化可能会影响蛋白质的电荷分布和结构稳定性。通过调节细胞内环境,如调整培养基的成分、添加特定的小分子化合物等,为碱基编辑器创造更有利的反应环境,有助于提高编辑效率。4.3.2降低脱靶效应的方法脱靶效应是碱基编辑器应用中面临的重要问题,降低脱靶效应对于提高碱基编辑器的安全性和可靠性至关重要,可通过合理设计gRNA和改进蛋白质结构等方式来实现。在gRNA设计方面,精确设计gRNA的序列和结构是降低脱靶效应的关键。gRNA与目标DNA序列的互补配对程度直接影响碱基编辑器的靶向特异性。为了提高靶向特异性,需要避免gRNA与非目标DNA序列之间的非特异性互补配对。通过生物信息学工具对全基因组进行扫描,分析gRNA与潜在脱靶位点的互补情况,选择与脱靶位点互补性低的gRNA序列。设计gRNA时,应考虑其长度、GC含量等因素。合适的gRNA长度能够保证其与目标DNA序列稳定结合,同时减少与非目标序列的错配。一般来说,gRNA的长度在18-22个核苷酸较为合适。GC含量过高或过低都可能影响gRNA的稳定性和特异性,通常GC含量在40%-60%之间为宜。开发具有更高特异性的gRNA变体也是降低脱靶效应的有效策略。一些研究通过对gRNA进行化学修饰或结构改造,提高其与目标DNA的结合特异性。在gRNA的末端添加特殊的化学修饰基团,能够增强gRNA与目标DNA的结合稳定性,同时减少与脱靶位点的结合。对gRNA的二级结构进行优化,使其形成更稳定的结构,也有助于提高靶向特异性。通过计算机模拟和实验验证,设计出具有特定二级结构的gRNA,如茎环结构等,能够提高其与目标DNA的识别能力,降低脱靶效应。改进蛋白质结构同样是降低脱靶效应的重要途径。对碱基编辑器中的Cas9蛋白进行改造,提高其对目标DNA序列的识别特异性。通过对Cas9蛋白的氨基酸序列进行突变,改变其与DNA结合结构域的构象,使其能够更准确地识别目标DNA序列,减少与脱靶位点的结合。研究人员发现,对Cas9蛋白的PAM识别结构域进行改造,能够使其对PAM序列的识别更加严格,从而提高碱基编辑器的靶向特异性,降低脱靶效应。优化脱氨酶与Cas9蛋白之间的相互作用也有助于降低脱靶效应。脱氨酶与Cas9蛋白的相互作用方式会影响碱基编辑器在DNA上的结合和催化活性。通过调整脱氨酶与Cas9蛋白之间的连接方式和相互作用界面,使脱氨酶在目标位点上能够更有效地发挥作用,同时减少在非目标位点的非特异性催化。在某些碱基编辑器中,通过引入柔性连接肽,优化脱氨酶与Cas9蛋白的空间位置关系,能够提高碱基编辑器在目标位点的编辑效率,同时降低在脱靶位点的编辑活性。4.3.3拓展靶向范围的研究拓展碱基编辑器的靶向范围是扩大其应用领域的关键,通过改造蛋白质或开发新系统等策略,可以有效实现靶向范围的拓展。在蛋白质改造方面,对Cas9蛋白进行改造以识别不同的PAM序列是拓展靶向范围的重要方法。PAM序列是Cas9蛋白识别并结合DNA的关键元件,不同的Cas9蛋白变体具有不同的PAM序列要求。常用的SpCas9蛋白的PAM序列为NGG,这限制了碱基编辑器的靶向范围。科研人员通过对SpCas9蛋白进行改造,开发出了具有不同PAM特异性的变体,如SpCas9-NGA、xCas9等。SpCas9-NGA能够识别NGA的PAM序列,xCas9则可以识别NG、GAA、GAT等多种PAM序列。这些变体的出现,极大地拓展了碱基编辑器的靶向范围,使得更多的基因位点能够被编辑。除了改造Cas9蛋白,对脱氨酶进行改造也可以拓展碱基编辑器的靶向范围。通过改变脱氨酶的底物特异性,使其能够作用于更多类型的碱基,从而实现更多种类的碱基编辑。一些研究尝试对腺嘌呤脱氨酶进行改造,使其能够识别并编辑除腺嘌呤以外的其他碱基,如胞嘧啶等。通过蛋白质工程技术,对腺嘌呤脱氨酶的活性位点进行修饰,改变其底物结合口袋的结构,使其能够容纳不同的碱基底物,从而实现对多种碱基的编辑,拓展了碱基编辑器的靶向范围。开发新的碱基编辑系统也是拓展靶向范围的重要策略。近年来,科研人员不断探索开发新型的碱基编辑系统,以克服现有系统的局限性。开发出了基于CRISPR-Cas12a的碱基编辑器,Cas12a蛋白与Cas9蛋白具有不同的结构和功能特点,其PAM序列也与Cas9不同。基于Cas12a的碱基编辑器能够靶向Cas9难以编辑的位点,拓展了碱基编辑的靶向范围。一些研究尝试将碱基编辑器与其他技术相结合,开发出新型的基因编辑工具。将碱基编辑器与锌指核酸酶(ZFN)或转录激活样效应因子核酸酶(TALEN)相结合,利用ZFN和TALEN能够识别特定DNA序列的特点,与碱基编辑器协同作用,实现对更多位点的精准编辑,进一步拓展了靶向范围。五、碱基编辑器开发案例分析5.1案例一:新型线粒体碱基编辑器mitoBEs的开发5.1.1开发背景与目标线粒体作为细胞的“能量工厂”,在细胞生命活动中扮演着至关重要的角色。它拥有独立于细胞核的遗传物质——线粒体DNA(mtDNA),人体内的线粒体包含37个基因,可编码13种参与细胞能量代谢的蛋白。然而,线粒体DNA突变会导致多种严重的遗传性疾病,如线粒体肌病、母系遗传Leigh综合征、Leber遗传性视神经病等。据MITOMAP数据库统计,在已确认的97种线粒体遗传疾病中,高达93种是由点突变引起的。因此,开发能够精准修正这些突变的碱基编辑工具,对于治疗线粒体遗传疾病具有重大意义。此前,修改线粒体DNA常用的方法主要是利用无RNA系统的核酸酶,如转录激活样效应因子核酸酶(TALEN)和锌指核酸酶(ZFN)技术。但这些技术存在明显的局限性,它们通常通过直接降解突变的mtDNA来增加野生型mtDNA的比例,这会导致mtDNA拷贝数降低,在实际治疗中可能带来风险,且不适用于同源突变的线粒体疾病,也无法引入新的序列。2020年,基于双链DNA脱氨酶毒素A(DddA)开发的线粒体碱基编辑器DdCBE,首次实现了mtDNA碱基序列从C到T的编辑,编辑效率约为4.6%-49%。2022年,Jin-SooKim团队提出的TALED,能够靶向诱导线粒体中碱基序列的A到G,编辑效率约为49%。尽管这些工具在一定程度上为线粒体基因编辑带来了希望,但后续研究发现DddA系统存在较为严重的脱靶效应,尤其是DddA与CTCF之间的相互作用,会引发细胞核基因组的非特异性编辑,这严重限制了其在临床治疗中的应用。在此背景下,开发一种不依赖于DddA系统、高效且精确的线粒体碱基编辑器成为当务之急。北大魏文胜课题组致力于解决这一难题,其开发mitoBEs的目标明确,旨在创建一种新型线粒体碱基编辑工具,该工具不仅能够高效地实现A到G或C到T的单碱基编辑,还需具备高度的特异性和安全性,以克服现有线粒体碱基编辑器的缺陷,为线粒体遗传疾病的治疗提供更可靠的手段。5.1.2设计思路与实验过程mitoBEs的设计思路基于对现有技术局限性的深入分析和对线粒体DNA编辑需求的精准把握。由于目前发现的除DddA之外的DNA脱氨酶都只能作用于单链DNA,研究团队提出在靶向位点产生瞬时的单链DNA,为所有“普通”脱氨酶提供有效反应底物的设想。基于此,研究人员在定位系统转录激活子样效应因子(TALE)的基础上,创新性地整合了切口酶和脱氨酶,设计出了基于TALE的单碱基编辑器。具体而言,mitoBEs工具包含3个关键部分:具有定位功能的可编程TALE结合蛋白,用于精准识别线粒体基因组上的目标位点;切口酶MutH或Nt.BspD6I(C),其作用是切开目标位点,产生瞬时单链DNA(ssDNA);脱氨酶,如TALE-TadA8e(V106W)或TALE-rAPOBEC1-2×UGI,用于实现碱基的编辑。在实现A到G编辑的实验中,当使用工程化的脱氧腺苷脱氨酶TadA8e-V106W与TALE结合时,由于TALE无法解开DNA双螺旋结构,单独使用TadA8e-V106W也无法诱导有效的脱氨反应,在所有三个靶向位点MT-ND1、MT-ND4和MT-RNR2仅检测到非常低水平的编辑,编辑率为0.39%。随后,研究团队通过融合TALE与切口酶MutH特异性切开DNA链,成对引入TALE-MutH和TALE-TadA8e-V106W并靶向
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026浙江台州市中医院招聘120驾驶员编外人员1人备考题库含完整答案详解【考点梳理】
- 2026贵州超航低空产业发展有限责任公司招聘(计算机专业)拟聘用人员笔试历年典型考点题库附带答案详解
- 2026贵州磷化集团社会招聘77人笔试历年备考题库附带答案详解
- 2026航天科工二院博士后招聘笔试历年典型考点题库附带答案详解
- 2026秋季国家管网集团福建公司校园招聘拟录用及人员笔试历年备考题库附带答案详解
- 2026福建莆田市城厢区国信产业投资有限公司招聘笔试历年常考点试题专练附带答案详解
- 2026福建港口科技集团有限公司招聘3人笔试历年难易错考点试卷带答案解析
- 2026浙江省对外服务有限公司台州分公司招聘1人笔试历年备考题库附带答案详解
- 2026江西九江市修水县投资集团有限公司及所属企业招聘拟聘用人员(第二批)笔试历年常考点试题专练附带答案详解
- 2026山西晋江市兆壹建设发展有限公司招聘项目制人员总及综合排名笔试历年典型考点题库附带答案详解
- 2017年12月大学英语三级(A级)真题试卷(题后含答案及解析)
- 绿色建材评价 室内木门
- 大航海时代4威力加强版各种宝物遗迹
- GB/T 22789.1-2023塑料制品硬质聚氯乙烯板(片)材第1部分:厚度1 mm及以上板材的分类、尺寸和性能
- 宠物腹部手术-剖宫产
- 血透病人饮食指导
- 三大构成色彩构成课件
- YC/T 526-2015烟草除草剂药害分级及调查方法
- 摩尔斯电码基础专题培训课件
- 高职单招面试参考大纲课件
- DB11- 996-2013-城乡规划用地分类标准-(高清有效)
评论
0/150
提交评论