2025年基因组学与生物信息学考试试卷及答案_第1页
2025年基因组学与生物信息学考试试卷及答案_第2页
2025年基因组学与生物信息学考试试卷及答案_第3页
2025年基因组学与生物信息学考试试卷及答案_第4页
2025年基因组学与生物信息学考试试卷及答案_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年基因组学与生物信息学考试试卷及答案一、单项选择题(每题2分,共30分)1.以下关于三代测序技术(如PacBioHiFi、OxfordNanopore)的描述,错误的是:A.单分子实时测序(SMRT)通过检测DNA聚合酶合成时的信号变化获取序列B.纳米孔测序的原始信号为电流波动,需通过碱基调用(Basecalling)转换为序列C.三代测序的读长可达数十万碱基,但单碱基错误率通常高于一代测序D.HiFi测序通过环状一致性测序(CCS)将单分子读长错误率降至0.1%以下2.单细胞RNA测序(scRNA-seq)中,“UMI(唯一分子标识符)”的主要作用是:A.区分不同细胞的来源B.校正扩增过程中的PCR偏好性C.提高测序读长的准确性D.增强稀有转录本的检测灵敏度3.在人类全基因组关联研究(GWAS)中,“曼哈顿图”的横轴和纵轴分别代表:A.染色体位置与效应值(β)B.染色体位置与-Log10(P值)C.基因表达量与P值D.SNP密度与连锁不平衡(LD)程度4.以下哪种算法常用于长读长基因组组装的纠错步骤?A.Canu(基于重叠群校正)B.BWA(短读长比对)C.GATK(变异检测)D.DESeq2(差异表达分析)5.关于结构变异(SV)检测,以下说法正确的是:A.短读长测序(如Illumina)可高效检测>10kb的大缺失(Deletion)B.纳米孔测序的高错误率使其无法准确识别插入(Insertion)变异C.基于配对末端(Paired-end)测序的“跨度异常”(DiscordantPair)可辅助检测倒位(Inversion)D.单核苷酸多态性(SNP)属于结构变异的一种6.单细胞ATAC-seq(染色质可及性测序)的主要研究目标是:A.分析不同细胞类型的基因表达异质性B.定位转录因子结合位点和开放染色质区域C.检测单细胞水平的拷贝数变异(CNV)D.重建细胞发育的时间轨迹(Pseudotime)7.在宏基因组学(Metagenomics)分析中,“分箱”(Binning)的核心目的是:A.去除测序数据中的宿主污染B.区分不同物种的基因组片段C.提高低丰度物种的测序深度D.预测微生物群落的功能富集8.以下哪个数据库主要存储人类基因组变异及其临床意义?A.Ensembl(基因注释)B.dbSNP(单核苷酸多态性)C.gnomAD(人群变异频率)D.ClinVar(临床相关变异)9.长读长测序数据(如PacBio)组装时,“重叠群”(Contig)与“支架”(Scaffold)的关键区别在于:A.Contig无缺口(Gap),Scaffold包含缺口但通过连接信息(如Hi-C)确定顺序B.Contig由短读长组装,Scaffold由长读长组装C.Contig仅含编码区,Scaffold包含非编码区D.Contig用于原核生物,Scaffold用于真核生物10.在RNA-seq数据分析中,“剪接异构体定量”(IsoformQuantification)的挑战主要源于:A.测序读长过短导致不同异构体的读段重叠B.样本RNA降解影响数据质量C.基因表达量的技术噪声(TechnicalNoise)D.转录本的3’偏倚(3’Bias)11.以下关于“泛基因组”(Pangenome)的描述,错误的是:A.泛基因组包含物种内所有个体的核心基因(CoreGene)和可变基因(AccessoryGene)B.人类泛基因组计划(HGP)的目标是替代参考基因组(GRCh38)C.泛基因组可通过图基因组(GraphGenome)形式存储,解决参考基因组的偏向性问题D.植物泛基因组研究有助于解析物种适应性进化的遗传基础12.单细胞多组学(如同时测RNA、ATAC和蛋白)的主要技术瓶颈是:A.单细胞分离的通量不足B.不同组学数据的归一化(Normalization)和整合分析C.测序成本过高D.样本保存导致的降解问题13.在癌症基因组学中,“肿瘤突变负荷”(TMB)的计算通常基于:A.全外显子组测序(WES)中非同义突变的数量B.全基因组测序(WGS)中所有体细胞突变的数量C.转录组测序(RNA-seq)中融合基因的数量D.甲基化测序(WGBS)中差异甲基化位点的数量14.以下哪种生物信息学工具常用于长读长数据的从头组装?A.FlyeB.BWA-MEMC.STARD.Salmon15.关于“基因编辑脱靶效应检测”,以下方法中灵敏度最高的是:A.基于PCR的T7E1酶切法B.全基因组测序(WGS)结合整合分析C.靶向扩增子测序(Amplicon-seq)D.体外切割实验(如GUIDE-seq)二、填空题(每空1分,共20分)1.三代测序技术中,PacBio的________模式通过环状模板的多次测序生成高准确性的一致性序列(CCS),而纳米孔测序的原始信号为________波动,需通过________算法转换为碱基序列。2.单细胞测序中,常用的细胞分离技术包括________(如10xGenomics)和________(如流式分选结合微流控)。3.基因组组装质量的评估指标主要包括________(N50)、________(L50)和________(BUSCO),其中________用于评估基因区域的完整性。4.结构变异(SV)的类型包括缺失(Deletion)、________(Duplication)、________(Inversion)和________(Translocation),其检测方法可分为基于________(如短读长的跨度异常)、基于________(长读长的直接比对)和基于________(如光学图谱)的技术。5.生物信息学中,常用的序列比对算法分为________(如BLAST)和________(如Smith-Waterman)两大类,前者适用于________,后者适用于________。三、简答题(每题8分,共40分)1.比较短读长测序(如Illumina)与长读长测序(如PacBioHiFi)在基因组组装中的优缺点,并说明二者如何互补。2.简述单细胞RNA测序(scRNA-seq)数据预处理的主要步骤(包括原始数据到表达矩阵的流程),并指出每一步的关键技术或工具。3.在癌症基因组研究中,如何区分“驱动突变”(DriverMutation)与“乘客突变”(PassengerMutation)?请列举至少3种分析策略。4.什么是“图基因组”(GraphGenome)?与传统线性参考基因组相比,其优势是什么?目前在人类基因组研究中的应用场景有哪些?5.宏基因组学中,“功能注释”(FunctionalAnnotation)的主要流程是什么?常用的数据库(如KEGG、COG、CAZy)分别侧重哪些功能层面的注释?四、论述题(每题15分,共30分)1.设计一个基于多组学数据的人类复杂疾病研究方案(如阿尔茨海默病),需包括研究目标、实验设计(测序技术选择)、数据分析流程(关键步骤与工具)及预期成果。2.近年来,人工智能(AI)在生物信息学中的应用日益广泛。请结合具体案例(如蛋白质结构预测、变异功能预测、基因表达调控模型),论述AI如何推动基因组学与生物信息学的发展,并分析其当前局限性及未来方向。答案一、单项选择题1.C(三代测序单碱基错误率通常为1%-15%,一代测序错误率<0.1%,但HiFi模式可降至0.1%以下)2.B(UMI通过唯一标签区分同一转录本的不同拷贝,校正PCR扩增偏倚)3.B(横轴为染色体位置,纵轴为-Log10(P值),用于展示GWAS中各SNP的显著性)4.A(Canu用于长读长组装的纠错和组装;BWA是比对工具,GATK是变异检测,DESeq2是差异表达)5.C(倒位可通过配对末端测序的跨度异常或方向异常检测;短读长难以检测大缺失,纳米孔可识别插入,SNP不属于SV)6.B(ATAC-seq通过转座酶插入开放染色质区域,定位转录因子结合位点)7.B(分箱通过序列组成、覆盖度等信息将宏基因组片段归类到不同物种)8.D(ClinVar存储变异与疾病的关联;dbSNP是变异位点数据库,gnomAD是人群频率)9.A(Contig是连续无缺口的序列,Scaffold通过连接信息(如Hi-C、光学图谱)确定Contig顺序,含缺口)10.A(短读长可能同时映射到多个异构体,导致定量困难)11.B(人类泛基因组计划是补充参考基因组,而非替代)12.B(不同组学数据的维度、噪声水平差异大,整合分析是主要挑战)13.A(TMB通常基于全外显子组的非同义突变计数,单位为突变数/Mb)14.A(Flye是长读长组装工具;BWA-MEM是比对,STAR是RNA比对,Salmon是定量)15.B(WGS可无偏检测全基因组脱靶位点,灵敏度最高)二、填空题1.环状一致性测序(CCS);电流;碱基调用(Basecalling)2.微液滴分选;平板分选(或微孔分选)3.连续序列长度中位数(N50);连续序列数量中位数(L50);核心基因完整性(BUSCO);BUSCO4.重复;倒位;易位;短读长(或配对末端);长读长(或直接比对);光学图谱(或物理图谱)5.启发式算法;动态规划算法;大规模序列比对;小范围精确比对三、简答题1.短读长测序:优点是成本低、错误率低(<0.1%)、数据量大;缺点是读长短(50-300bp),难以跨越重复序列,组装时易产生缺口。长读长测序:优点是读长可达10-100kb,能跨越重复区域,提升组装连续性;缺点是单碱基错误率高(1%-15%),成本较高。二者互补:短读长用于纠错(如用Illumina数据校正PacBio原始读长),长读长用于解决重复区域组装,最终获得高质量基因组(如T2T人类全基因组组装结合了PacBioHiFi和纳米孔长读长)。2.预处理流程:①原始数据过滤:去除低质量读段、接头序列(工具:Fastp、Trimmomatic);②细胞barcode与UMI拆分:根据测序接头分离不同细胞的读段(工具:CellRanger、STARsolo);③比对到参考基因组:将读段映射到基因组(工具:STAR、HISAT2);④UMI计数:统计每个基因在每个细胞中的UMI数量,生成表达矩阵(工具:CellRanger、Salmon);⑤质量控制:过滤低质量细胞(如线粒体基因比例过高、基因数过少)(工具:Seurat、Scanpy)。3.区分策略:①频率分析:驱动突变在肿瘤样本中高频出现(如TP53在多种癌症中高频突变);②功能预测:通过算法(如SIFT、PolyPhen-2)预测突变对蛋白功能的影响,驱动突变多为功能丧失或获得;③进化树分析:驱动突变通常出现在肿瘤进化树的早期分支(克隆性突变),乘客突变多为晚期分支(亚克隆性);④实验验证:通过基因编辑(如CRISPR)在细胞或动物模型中验证突变是否促进增殖或转移。4.图基因组是一种非线性基因组表示方法,通过图结构(节点为序列片段,边为连接关系)整合物种内多个个体的遗传变异(如SNP、SV)。优势:避免传统线性参考基因组的偏向性(如仅代表部分人群),更全面反映遗传多样性;提升变异检测的准确性(尤其是结构变异)。应用场景:人类泛基因组构建(如HPRC计划)、复杂疾病关联分析(减少参考序列导致的假阳性)、个性化基因组分析(更准确的比对与注释)。5.功能注释流程:①基因预测:通过宏基因组组装或分箱后,使用工具(如Prodigal)预测开放阅读框(ORF);②序列比对:将ORF与功能数据库比对(如BLASTp);③功能分类:根据比对结果注释到通路、酶类或功能模块。数据库侧重:KEGG(代谢通路与调控网络)、COG(同源基因家族功能分类)、CAZy(碳水化合物活性酶)、PFAM(蛋白结构域)、eggNOG(进化与功能注释)。四、论述题1.研究方案(阿尔茨海默病)-研究目标:解析AD发病的多组学分子机制,识别潜在治疗靶点。-实验设计:-样本:收集AD患者(早发/晚发)、健康对照的血液(血浆cfDNA、外泌体RNA)、脑活检组织(冷冻保存)。-测序技术:①全基因组测序(WGS,IlluminaNovaSeq+PacBioHiFi)检测germline/SomaticSV;②全外显子测序(WES)分析编码区变异;③单细胞RNA-seq(10xGenomics)分析脑区细胞类型特异性表达;④ATAC-seq(bulk/单细胞)定位AD相关调控元件;⑤甲基化测序(WGBS)检测差异甲基化区域(DMR)。-数据分析流程:-基因组学:用GATK4+Manta检测SNP/Indel/SV,结合gnomAD过滤人群多态性,用FATHMM-MKL预测功能突变;-转录组学:scRNA-seq用Seurat聚类细胞类型,识别小胶质细胞/神经元的差异表达基因(DEG),用SCENIC推断调控转录因子;-表观组学:ATAC-seq用MACS2调用峰,关联DEG启动子区开放染色质;WGBS用Bismark比对,用DSS识别DMR,关联基因表达;-多组学整合:用MOFA+(多组学因子分析)整合变异、表达、甲基化数据,筛选关键调控模块(如APOE通路、Tau蛋白相关基因)。-预期成果:鉴定AD特异性驱动变异(如APP/PSEN1新突变)、细胞类型特异性表达特征(如小胶质细胞炎症通路激活)、表观调控网络(如SORL1基因甲基化与表达

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论