2025年医学统计与生物信息学考试试题及答案_第1页
2025年医学统计与生物信息学考试试题及答案_第2页
2025年医学统计与生物信息学考试试题及答案_第3页
2025年医学统计与生物信息学考试试题及答案_第4页
2025年医学统计与生物信息学考试试题及答案_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年医学统计与生物信息学考试试题及答案一、单项选择题(每题2分,共20分)1.某研究欲比较两种降压药物(A药与B药)对高血压患者的疗效,以收缩压下降值(mmHg)为结局指标,两组患者年龄、性别基线均衡。若数据满足正态性和方差齐性,应选择的统计方法是()。A.配对t检验B.两独立样本t检验C.Wilcoxon秩和检验D.卡方检验2.在生存分析中,以下哪项不属于删失数据的常见原因?()A.研究结束时患者仍存活B.患者因其他疾病死亡C.患者明确记录的死亡时间D.患者失访3.某RNA-seq实验中,某基因在对照组的表达量为(10,12,15),处理组为(25,28,30),若采用DESeq2进行差异表达分析,第一步需要完成的操作是()。A.计算FPKM值B.进行批次效应校正C.估计离散度(Dispersion)D.构建负二项分布模型4.在GWAS(全基因组关联研究)中,曼哈顿图的纵坐标通常表示()。A.基因表达量的对数值B.SNP的p值的负对数(-log₁₀P)C.连锁不平衡(LD)系数D.效应值(β)的绝对值5.某队列研究中,随访5年发现:暴露于因素X的1000人中,50人发生疾病;未暴露的2000人中,40人发生疾病。则相对危险度(RR)为()。A.2.5B.5.0C.0.5D.0.256.以下哪种方法适用于处理高维生物信息数据中的多重共线性问题?()A.主成分分析(PCA)B.卡方检验C.独立样本t检验D.Cochrran-Armitage趋势检验7.在Logistic回归模型中,若某自变量的OR值为2.0(95%CI:1.5-2.5),则正确的解释是()。A.自变量每增加1单位,疾病发生概率增加2倍B.自变量每增加1单位,疾病发生的优势比(Odds)增加2倍C.自变量每增加1单位,疾病发生风险增加200%D.自变量与疾病无统计学关联8.某microRNA测序数据中,检测到3000个差异表达的miRNA(p<0.05),若采用Benjamini-Hochberg(BH)法校正多重检验,FDR设定为0.05,则最终被认定为显著差异的miRNA数量通常会()。A.多于3000个B.等于3000个C.少于3000个D.无法确定9.在生存分析中,Cox比例风险模型的核心假设是()。A.生存时间服从指数分布B.风险比(HR)不随时间变化C.删失数据为完全随机删失(MCAR)D.自变量与生存时间呈线性关系10.以下哪项属于生物信息学中“功能富集分析”的常用数据库?()A.GEO(基因表达综合数据库)B.KEGG(京都基因与基因组百科全书)C.TCGA(癌症基因组图谱)D.dbSNP(单核苷酸多态性数据库)二、简答题(每题8分,共40分)1.简述t检验与方差分析的联系与区别。2.解释“第一类错误(TypeIError)”和“第二类错误(TypeIIError)”的定义,并说明如何通过研究设计降低两类错误的概率。3.比较RNA-seq数据中RPKM、FPKM与TPM三种标准化方法的异同。4.简述随机森林(RandomForest)算法在生物信息学中的应用场景及优势。5.请说明在病例对照研究中使用匹配(Matching)的目的及潜在局限性。三、计算题(每题10分,共30分)1.某研究比较两种手术方式(腹腔镜组vs开腹组)的术后住院时间(天),数据如下:腹腔镜组(n=15):5,6,7,5,8,6,7,9,5,7,6,8,7,6,5开腹组(n=12):8,9,10,7,11,9,8,10,12,9,8,11假设数据满足正态性和方差齐性,试计算两组住院时间的均数、标准差,并进行两独立样本t检验(α=0.05),给出结论。2.某肿瘤随访研究中,5例患者的生存时间(月)及结局(1=死亡,0=删失)如下:患者1:12(0);患者2:15(1);患者3:20(1);患者4:8(0);患者5:24(1)试绘制Kaplan-Meier生存曲线,并计算12个月时的生存率(保留3位小数)。3.某基因表达芯片实验中,检测到1000个基因,其中实际差异表达的基因有200个(真阳性)。若统计分析显示有250个基因被判定为差异表达(包括真阳性和假阳性),其中假阳性为50个。计算该分析的灵敏度(Sensitivity)、特异度(Specificity)、阳性预测值(PPV)。四、综合分析题(共10分)某研究团队基于TCGA数据库获取了500例肺腺癌患者的RNA-seq数据(包括肿瘤组织与正常组织)及临床随访信息(生存时间、生存状态、年龄、性别、TNM分期)。研究目标是筛选肺腺癌的关键预后基因,并构建多基因预后模型。请设计分析流程(需包含数据预处理、差异表达分析、生存分析、模型验证等关键步骤),并说明每一步骤的具体方法及选择依据。答案一、单项选择题1.B2.C3.C4.B5.A6.A7.B8.C9.B10.B二、简答题1.联系:t检验与方差分析均用于推断两组或多组均值是否有统计学差异,核心思想均基于组间变异与组内变异的比较,且t检验可视为方差分析在两组情况下的特例(当方差分析F检验结果显著且仅两组时,F=t²)。区别:t检验适用于两组独立或配对数据的均值比较;方差分析(ANOVA)适用于两组及以上独立样本的均值比较,通过分解总变异为组间变异和组内变异,计算F统计量进行检验。当比较多组时,若直接使用t检验会增加第一类错误概率,而方差分析可同时控制整体错误率。2.第一类错误:原假设(H₀)为真时,错误拒绝H₀的概率(α),即“假阳性”;第二类错误:原假设为假时,错误接受H₀的概率(β),即“假阴性”。降低方法:-增大样本量(n)可同时降低α和β;-合理设定α水平(如0.05),避免随意调整;-采用更高效的研究设计(如随机对照试验)减少混杂;-对多重检验进行校正(如Bonferroni、BH法)以控制第一类错误。3.相同点:三者均用于校正RNA-seq数据中基因长度和测序深度对表达量的影响,目标是得到标准化的相对表达量。不同点:-RPKM(ReadsPerKilobaseperMillion):先校正基因长度(每千碱基),再校正测序深度(每百万reads);-FPKM(FragmentsPerKilobaseperMillion):适用于双端测序,以片段(Fragment)代替单端reads,原理与RPKM一致;-TPM(TranscriptsPerMillion):先校正测序深度(计算每个基因的reads占总reads的比例),再校正基因长度,最终结果的总和为100万,更适合多样本间的相对表达比较。4.应用场景:-高维生物数据分类(如癌症亚型识别);-特征筛选(如关键基因或SNP识别);-预后模型构建(整合多组学数据预测生存结局)。优势:-抗过拟合能力强(通过自助采样和随机特征子集构建多棵决策树);-可评估变量重要性(通过袋外数据错误率或节点分裂贡献度);-对缺失值和异常值不敏感;-适用于非线性关系和交互作用分析。5.目的:-控制混杂因素(如年龄、性别),提高组间可比性;-减少样本量需求(通过匹配使病例与对照在混杂因素上均衡);-提高统计效能(降低混杂因素导致的变异)。局限性:-过度匹配可能引入新的混杂(如匹配与疾病因果路径相关的变量);-匹配过程可能限制样本选择(如难以找到匹配对象时导致样本量减少);-无法控制未匹配的混杂因素;-分析时需采用匹配设计的统计方法(如条件Logistic回归),增加分析复杂度。三、计算题1.计算过程:-腹腔镜组均数(x̄₁):(5+6+7+5+8+6+7+9+5+7+6+8+7+6+5)/15=6.8天;标准差(s₁):√[Σ(xᵢ-x̄₁)²/(n₁-1)]=√[((5-6.8)²×4+(6-6.8)²×4+(7-6.8)²×4+(8-6.8)²×2+(9-6.8)²×1)/14]≈1.23天;-开腹组均数(x̄₂):(8+9+10+7+11+9+8+10+12+9+8+11)/12=9.25天;标准差(s₂):√[Σ(xᵢ-x̄₂)²/(n₂-1)]=√[((7-9.25)²×1+(8-9.25)²×3+(9-9.25)²×3+(10-9.25)²×2+(11-9.25)²×2+(12-9.25)²×1)/11]≈1.67天;-两独立样本t检验:合并方差s_p²=[(n₁-1)s₁²+(n₂-1)s₂²]/(n₁+n₂-2)=[(14×1.23²)+(11×1.67²)]/25≈(21.23+30.75)/25≈2.08;t=(x̄₁-x̄₂)/√(s_p²(1/n₁+1/n₂))=(6.8-9.25)/√(2.08×(1/15+1/12))≈(-2.45)/√(0.312)≈-4.37;自由度df=25,查t界值表,t₀.05/2,25=2.059,|t|>2.059,P<0.05,结论:两组术后住院时间差异有统计学意义,腹腔镜组住院时间更短。2.Kaplan-Meier生存率计算:按生存时间排序(删失用+表示):8+,12+,15,20,24;-时间点0-8月:无事件,生存率S(0)=1;-时间点8月:1例删失,无死亡,S(8)=S(0)×(n-d)/n=1×(5-0)/5=1;-时间点12月:1例删失,无死亡,S(12)=S(8)×(4-0)/4=1×1=1;-时间点15月:1例死亡(d=1,n=3),S(15)=S(12)×(3-1)/3≈0.667;-时间点20月:1例死亡(d=1,n=2),S(20)=0.667×(2-1)/2≈0.333;-时间点24月:1例死亡(d=1,n=1),S(24)=0.333×(1-1)/1=0;12个月时生存率为1.000(因12月时无死亡事件,仅1例删失,剩余4例均存活)。3.指标计算:-真阳性(TP)=200,假阳性(FP)=50,真阴性(TN)=1000-200=800(总基因数-实际差异基因数),假阴性(FN)=200-200=0(此处FN=实际差异基因数-TP=200-200=0,因TP=200);-灵敏度=TP/(TP+FN)=200/(200+0)=1.0;-特异度=TN/(TN+FP)=800/(800+50)=0.941;-阳性预测值=TP/(TP+FP)=200/(200+50)=0.800。四、综合分析题分析流程设计:1.数据预处理:-质量控制:使用FastQC评估RNA-seq原始数据质量(如测序错误率、GC含量分布),过滤低质量reads(Phred质量分数<20)及接头序列;-比对与定量:采用STAR或HISAT2将cleanreads比对至人类参考基因组(如GRCh38),使用HTSeq或Salmon计算基因表达量(计数矩阵);-标准化:因RNA-seq数据服从负二项分布,采用DESeq2或edgeR进行标准化(如计算大小因子校正测序深度),消除批次效应(若存在)可使用ComBat或sva包。2.差异表达分析:-以肿瘤组织vs正常组织为分组变量,使用DESeq2拟合负二项分布模型,计算每个基因的log2FoldChange(FC)和调整后p值(FDR<0.05);-筛选标准:|log2FC|>1且FDR<0.05,得到差异表达基因(DEGs)。3.生存分析:-单因素Cox回归:对每个DEG进行单因素Cox分析,筛选与总生存(OS)显著相关的基因(HR≠1,p<0.05);-多因素Cox回归:将单因素显著的基因纳入多因素模型,采用逐步回归(向前/向后法)或LASSO回归(处理高维共线性)筛选关键预后基因;-风险评分模型构建:基于多因素Cox系数计算风险评分(RiskScore=Σ(βᵢ×Expᵢ)),将患者分为高、低风险组,绘制Kaplan-Meier曲线并进行log-rank检验。4.模型验证:-内部验证:采用Bootstrap重采样(如1000次)评估模型稳定性,计算C-index(一致性指数)衡量预测效能(C-index>0.7为良好);-外部验证:使用GEO或ICGC数据库中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论