2025年生物信息学专业考试试题及答案_第1页
2025年生物信息学专业考试试题及答案_第2页
2025年生物信息学专业考试试题及答案_第3页
2025年生物信息学专业考试试题及答案_第4页
2025年生物信息学专业考试试题及答案_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年生物信息学专业考试试题及答案一、单项选择题(每题2分,共30分)1.以下关于Illumina测序技术的描述,错误的是:A.基于桥式PCR扩增DNA簇B.采用边合成边测序(SBS)原理C.读长通常为50300bpD.单碱基错误率主要由纳米孔电流波动引起答案:D(纳米孔测序属于三代技术,Illumina错误率主要由DNA聚合酶保真性和光学信号干扰引起)2.下列数据库中,主要存储蛋白质三维结构信息的是:A.GenBankB.PDB(ProteinDataBank)C.KEGGD.dbSNP答案:B(GenBank存储核酸序列,KEGG是通路数据库,dbSNP是单核苷酸多态性数据库)3.在BLAST比对中,E值(ExpectValue)越小意味着:A.比对结果的随机性越高B.序列相似性越低C.在随机数据库中出现该匹配的概率越低D.比对得分(Score)一定越小答案:C(E值反映随机匹配的概率,E值越小,结果越可靠)4.以下哪种算法适用于全局序列比对?A.SmithWatermanB.NeedlemanWunschC.BLASTD.FASTA答案:B(全局比对覆盖全序列,NeedlemanWunsch基于动态规划;SmithWaterman是局部比对)5.RNAseq中计算基因表达量时,TPM(TranscriptsPerMillion)与FPKM(FragmentsPerKilobaseMillion)的主要区别是:A.TPM校正了测序深度和转录本长度,FPKM仅校正深度B.TPM在归一化时先校正长度,再校正测序深度;FPKM顺序相反C.FPKM适用于单端测序,TPM适用于双端测序D.TPM的数值范围在01之间,FPKM无此限制答案:B(TPM先对每个样本的转录本长度校正,再归一化总reads数;FPKM先计算每百万reads的长度校正值,再归一化)6.宏基因组学研究中,用于物种组成分析的常用标记基因是:A.16SrRNA(细菌)与ITS(真菌)B.COI(细胞色素氧化酶I)C.5SrRNAD.Alu重复序列答案:A(16SrRNA是细菌/古菌的通用标记,ITS是真菌的常用标记)7.单细胞RNAseq(scRNAseq)实验中,10xGenomics技术的核心是:A.微流控芯片生成油包水微滴,将单细胞与带barcode的磁珠包裹B.激光捕获显微切割(LCM)分离单个细胞C.流式细胞术分选后进行MDA(多重置换扩增)D.原位杂交标记特定细胞类型答案:A(10x技术通过微滴分隔单细胞与带细胞barcode的磁珠,实现高通量单细胞捕获)8.蛋白质结构预测中,AlphaFold3(假设2025年版本)相比AlphaFold2的主要改进可能是:A.仅依赖同源序列比对,不再需要深度学习B.显著提升膜蛋白、动态构象(如变构)的预测精度C.仅支持真核生物蛋白质预测D.计算速度降低但准确性不变答案:B(AlphaFold2已解决静态结构预测,下一代可能聚焦动态构象、膜蛋白等复杂结构)9.GWAS(全基因组关联研究)中,控制群体分层(PopulationStratification)偏倚的常用方法是:A.主成分分析(PCA)校正B.卡方检验代替t检验C.增加样本量至1000以下D.仅纳入单一民族样本答案:A(PCA通过计算遗传主成分作为协变量,校正群体结构带来的假阳性)10.非编码RNA分析中,miRDeep2工具的主要功能是:A.预测新的microRNA前体及其成熟序列B.计算lncRNA的编码潜能C.分析circRNA的环化接头D.鉴定tRNA的修饰位点答案:A(miRDeep2基于小RNA测序数据,通过特征(如茎环结构、Dicer切割信号)预测新miRNA)11.三代测序(如PacBioHiFi)的主要优势是:A.测序成本低于二代B.读长可达数十kb,且单碱基准确性>99%C.无需PCR扩增,无GC偏倚D.通量极高(单运行达Tb级数据)答案:B(PacBioHiFi通过循环一致性测序(CCS)将读长缩短至1025kb,但准确性提升至Q30以上;三代仍需PCR,成本高于二代,通量低于二代)12.ChIPseq数据中,峰(Peak)的调用(Calling)通常使用的工具是:A.MACS2B.DESeq2C.HISAT2D.BWA答案:A(MACS2通过比较IP样本与Input样本的reads分布,识别转录因子或组蛋白修饰的结合区域)13.基因组组装中,kmer分析的主要目的是:A.计算基因组杂合度、重复序列比例及预估基因组大小B.直接拼接获得完整染色体C.鉴定单核苷酸多态性(SNP)D.分析基因表达量差异答案:A(通过kmer频率分布可评估基因组复杂度、杂合度,以及估算基因组大小)14.单细胞ATACseq(scATACseq)数据的核心分析目标是:A.检测不同细胞类型的染色质开放区域差异B.定量mRNA表达水平C.分析蛋白质翻译后修饰D.鉴定拷贝数变异(CNV)答案:A(ATACseq通过转座酶切割开放染色质,scATACseq可解析单细胞水平的染色质可及性差异)15.长链非编码RNA(lncRNA)的长度阈值通常是:A.>50ntB.>200ntC.>1000ntD.>5000nt答案:B(lncRNA定义为长度超过200nt、无显著蛋白质编码能力的RNA)二、填空题(每空1分,共20分)1.二代测序数据质量控制常用工具是______(如检测测序错误、接头污染)。答案:FastQC2.BAM文件是______格式的压缩版本,常用于存储测序reads的比对结果。答案:SAM(SequenceAlignment/Map)3.KEGG数据库的主要功能是______(如代谢通路、疾病相关通路注释)。答案:生物通路与功能模块注释4.转录组组装工具中,基于参考基因组的常用软件是______(如将reads比对到基因组后组装转录本)。答案:StringTie5.三代测序技术主要包括______(PacBio)和______(OxfordNanopore)。答案:单分子实时测序(SMRT);纳米孔测序6.单倍型组装(HaplotypeAssembly)的常用软件是______(通过长读长或HiC数据区分同源染色体)。答案:WhatsHap7.环状RNA(circRNA)的鉴定依赖于______(测序reads跨越环化接头的位置)。答案:反向剪接接头(BackSpliceJunction,BSJ)8.蛋白质互作网络分析的常用数据库是______(提供实验验证和预测的互作关系)。答案:STRING9.肿瘤体细胞突变检测时,需同时测序肿瘤组织与______(如血液)作为对照,以区分germline突变。答案:正常组织(或配对正常样本)10.空间转录组学技术(如10xVisium)的核心是______(在组织切片上保留空间位置信息的同时进行转录组测序)。答案:空间条形码(SpatialBarcoding)三、简答题(每题8分,共40分)1.比较一代测序(Sanger)、二代测序(NGS)和三代测序(TGS)的优缺点。答案:一代测序(Sanger):优点是读长(~1000bp)、单碱基准确性(>99.99%)高,适合小片段精确测序;缺点是通量低(单反应~1kb)、成本高,无法处理大规模基因组。二代测序(NGS):优点是高通量(单运行Tb级数据)、成本低($0.1/MB),适合全基因组/转录组测序;缺点是读长较短(50300bp),难以组装重复区域,且依赖PCR扩增可能引入偏倚。三代测序(TGS):优点是长读长(10kb2Mb),无需PCR(如Nanopore),可直接检测表观修饰(如甲基化);缺点是单碱基错误率较高(PacBioHiFi可达99.9%,NanoporeR10.4.1约99.5%),成本仍高于二代。2.解释kmer在基因组组装中的作用,并说明如何通过kmer频率分布判断基因组杂合度。答案:kmer是将序列切割为长度为k的短片段,用于评估基因组特征。作用包括:①估算基因组大小(通过总kmer数除以平均覆盖深度);②识别重复序列(高频率kmer可能来自重复区域);③评估杂合度(杂合位点会导致kmer频率分布出现两个主峰,主峰1为单拷贝kmer频率,主峰2为杂合kmer频率,杂合度=主峰2高度/主峰1高度)。3.简述RNAseq差异表达基因(DEG)分析的主要步骤及每一步的目的。答案:步骤:①数据质控(FastQC):去除低质量reads、接头污染;②比对(HISAT2/Bowtie2):将reads映射到参考基因组,定位转录本;③表达量定量(Salmon/kallisto):计算基因/转录本的表达量(TPM/FPKM);④差异检验(DESeq2/edgeR):通过负二项分布模型,识别组间表达量显著差异的基因(FDR<0.05);⑤功能富集(clusterProfiler):对DEG进行GO/KEGG富集分析,揭示其参与的生物学过程或通路。4.宏基因组学中,基于标记基因(如16SrRNA)和基于全基因组鸟枪法(WGS)的物种注释策略有何区别?各举一例常用工具。答案:标记基因策略:扩增保守基因(如16SV3V4区),通过比对数据库(如SILVA/NCBI16S)进行物种分类。优点是成本低、分析简单,适合大规模样本;缺点是分辨率有限(属/种水平),无法获得功能信息。工具:QIIME2。WGS策略:直接测序宏基因组全DNA,通过组装或比对(如Kraken2/MetaphlAn3)进行物种注释。优点是分辨率高(可到菌株水平),并能分析功能基因(如CAZy酶、抗生素耐药基因);缺点是成本高,数据量大,组装难度大。工具:MetaPhlAn3。5.单细胞RNAseq数据降维常用方法(如PCA、tSNE、UMAP)的原理及适用场景。答案:PCA(主成分分析):基于线性变换,提取数据中方差最大的主成分,用于保留全局结构。适用于初步降维(23维),观察主要细胞群体分离。tSNE(t分布随机邻域嵌入):基于非线性变换,重点保留局部相似性(近邻细胞的距离),但可能扭曲全局结构。适用于可视化细胞亚群(如鉴定稀有细胞类型)。UMAP(均匀流形近似与投影):结合局部和全局结构,比tSNE更快且更稳定,保留更多全局拓扑信息。适用于大规模单细胞数据(>10万细胞)的可视化与分群。四、分析题(每题10分,共20分)1.给定一组配对的肿瘤(T)与正常(N)组织的WES(外显子组测序)数据(各30例),请设计一个生物信息学分析流程,检测肿瘤中的体细胞突变(SNV/Indel),并筛选潜在驱动基因。答案:分析流程:(1)数据预处理:质控:FastQC检查reads质量,Trimmomatic去除接头及低质量碱基(Q<20)。比对:BWAMEM将cleanreads比对到人类参考基因组(GRCh38),生成SAM文件。比对后处理:Picard标记重复reads(MarkDuplicates),GATKBaseRecalibrator进行碱基质量重校正(BQSR)。(2)突变检测:使用Mutect2(GATK)检测体细胞突变,输入T/N配对BAM文件,筛选肿瘤中存在、正常中不存在的变异(VAF肿瘤>5%,正常<1%)。过滤germline变异:比对gnomAD数据库(排除人群频率>1%的变异)。(3)突变注释:用ANNOVAR或VEP注释突变的功能(如错义、无义、剪接位点变异)、所在基因(如TP53、EGFR)、数据库信息(ClinVar致病性、COSMIC肿瘤相关变异)。(4)驱动基因筛选:统计各基因的突变频率(≥10%样本中突变);使用OncodriveCLUST检测突变热点(如酪氨酸激酶结构域的聚集突变);结合功能富集(KEGG癌症通路,如PI3KAKT、MAPK),筛选参与关键通路的高频突变基因。2.某实验室获得一批人源肿瘤样本的单细胞多组学数据(scRNAseq+scATACseq),需解析肿瘤微环境(TME)中免疫细胞亚群的异质性及其与肿瘤细胞的互作。请设计分析策略。答案:分析策略:(1)单细胞数据整合:scRNAseq:使用Seurat进行标准化(SCTransform)、PCA降维、UMAP可视化,基于marker基因(如CD3+T细胞、CD68+巨噬细胞)分群,鉴定免疫细胞亚群(如CD8+T细胞、Treg、M1/M2巨噬细胞)。scATACseq:使用Signac分析染色质开放区域(MACS2峰调用),通过TFmotif富集(HOMER)推断活跃转录因子,结合RNAseq的基因表达,关联开放染色质与基因表达(如增强子启动子互作)。(2)免疫细胞异质性分析:在T细胞亚群中,通过检查PD1、CTLA4等标记基因,区分耗竭T细胞(ExhaustedT)与效应T细胞(EffectorT);在巨噬细胞中,通过CD80/CD86(M1)与CD163/CD206(M2)标记,分析促炎(M1)与促肿瘤(M2)表型的比例。(3)肿瘤免疫互作预测:使用CellPhoneDB数据库,基于配体受体(LigandReceptor)对,预测肿瘤细胞(如表达PDL1)与免疫细胞(如表达PD1的T细胞)的互作强度;结合scATACseq中肿瘤细胞的调控元件(如PDL1启动子开放程度)与scRNAseq的表达量,验证互作的转录调控机制。五、综合应用题(30分)随着长读长测序(如PacBioHiFi、OxfordNanopore)和单细胞多组学技术的发展,2025年生物信息学在复杂疾病(如神经退行性疾病)研究中的应用日益广泛。假设你需设计一项基于多组学数据的阿尔茨海默病(AD)发病机制研究,需整合基因组(WGS)、转录组(scRNAseq)、表观组(ChIPseqforH3K27ac)和空间转录组数据。请详细描述研究方案,包括数据获取、分析流程及预期科学发现。答案:研究方案设计:1.数据获取:样本:收集AD患者(n=20)与健康对照(n=20)的前额叶皮层组织(尸检或脑活检),同时采集外周血(提取germlineDNA)。基因组(WGS):使用PacBioHiFi测序(读长15kb,覆盖深度30×),解析AD相关基因(如APP、PSEN1、APOE)的结构变异(SVs)、重复扩增(如TREM2内含子重复)及罕见突变。转录组(scRNAseq):使用10xGenomics平台(v4化学),分离皮层单细胞(神经元、小胶质细胞、星形胶质细胞),测序深度50,000reads/cell,捕获基因表达谱。表观组(ChIPseq):针对激活型组蛋白标记H3K27ac(与增强子/启动子活性相关),使用抗H3K27ac抗体富集染色质,Illumina测序(深度30×),定位AD相关基因的调控元件。空间转录组:使用10xVisium(分辨率55μm),对同一块皮层组织切片进行测序,保留基因表达的空间位置信息(如海马区、内嗅皮层)。2.分析流程:(1)基因组学分析:SV检测:使用HiFi数据+SVision工具,识别AD患者特有的结构变异(如APP基因的倒位导致β分泌酶切割位点暴露);重复序列分析:用TandemRepeatFinder(TRF)结合PBSV,检测C9orf72等基因的六核苷酸重复扩增(与额颞叶痴呆AD重叠综合征相关);关联分析:将WGS变异与AD临床表型(如MMSE评分、Aβ斑块负荷)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论