2025年生物统计学数据分析方法考试卷及答案解析_第1页
2025年生物统计学数据分析方法考试卷及答案解析_第2页
2025年生物统计学数据分析方法考试卷及答案解析_第3页
2025年生物统计学数据分析方法考试卷及答案解析_第4页
2025年生物统计学数据分析方法考试卷及答案解析_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年生物统计学数据分析方法考试卷及答案解析一、单项选择题(每题2分,共20分)1.在正态总体方差未知且样本量n=16的条件下,欲检验总体均值μ是否等于某给定值μ₀,应采用的检验统计量为A.Z=(x̄−μ₀)/(σ/√n)B.t=(x̄−μ₀)/(s/√n)C.χ²=(n−1)s²/σ₀²D.F=s₁²/s₂²答案:B解析:总体方差未知且样本量小,必须采用t分布,故选B。2.对同一批小鼠连续5天测量体重,若欲比较两种饲料对体重增长曲线的影响,最合适的分析策略是A.独立样本t检验B.单因素方差分析C.重复测量方差分析D.KruskalWallis检验答案:C解析:同一批个体多次测量,数据间存在相关性,需用重复测量ANOVA。3.在多重线性回归中,若某自变量Xj的方差膨胀因子VIF=8.5,则通常认为A.不存在多重共线性B.存在轻度多重共线性C.存在严重多重共线性D.无法判断答案:C解析:VIF>10为严重共线,8.5已接近阈值,视为严重。4.对二分类响应变量Y(0/1)建立逻辑回归,若某连续自变量X的OR=1.00(95%CI:0.99–1.01),则下列说法正确的是A.X对Y无影响B.X对Y有显著正向影响C.置信带包含1,说明无统计学意义D.需进一步做ROC曲线答案:C解析:OR置信区间包含1,P值>0.05,无统计学意义。5.在生存分析中,若KaplanMeier曲线出现交叉,则A.仍可用logrank检验B.logrank检验功效降低,应考虑加权检验C.应立即改用Cox回归D.说明数据存在测量误差答案:B解析:曲线交叉提示风险比非恒定,logrank对晚期差异不敏感,可用FlemingHarrington加权检验。6.对RNAseq计数资料进行差异表达分析时,普遍采用的归一化方法是A.TPMB.FPKMC.DESeq2中的sizefactorsD.Zscore答案:C解析:DESeq2的sizefactors基于中位数比率,能有效消除库容差异,为差异分析首选。7.若随机区组设计实验的区组因素与处理因素存在交互效应,但统计分析时误用无交互项的模型,则A.误差项自由度增加B.处理效应检验可能产生I型错误膨胀C.区组效应估计无偏D.只需事后多重比较即可答案:B解析:交互效应被并入误差,导致误差方差高估或低估,处理效应检验不可靠。8.在贝叶斯统计框架下,若先验分布为Beta(1,1),似然为二项分布Bin(n=20,k=15),则后验分布为A.Beta(15,5)B.Beta(16,6)C.Beta(14,6)D.Beta(15,6)答案:B解析:Beta先验共轭,后验为Beta(1+15,1+5)=Beta(16,6)。9.对高维数据(p≫n)进行变量筛选,下列方法中最不容易过拟合的是A.逐步回归B.LassoC.单变量t检验筛选D.主成分回归答案:B解析:Lasso通过L1正则同时实现变量选择与收缩,交叉验证可控制过拟合。10.若两实验室对同一样本分别采用方法A、B测定血糖,欲评估两种方法的一致性,首选A.Pearson相关B.Spearman相关C.BlandAltman图D.配对t检验答案:C解析:相关仅测线性关系,BlandAltman直接评估系统偏差与一致性界限。二、多项选择题(每题3分,共15分,多选少选均不得分)11.下列哪些情况可能导致Cox比例风险模型失效A.协变量效应随时间变化B.存在竞争风险C.样本量n=10000D.基线风险非比例E.存在依时协变量答案:A、B、D、E解析:比例风险假设要求协变量效应恒定,竞争风险、依时协变量均违反假设。12.关于多重比较校正,下列说法正确的是A.Bonferroni方法控制族错误率FWERB.FDR控制比FWER更宽松C.BenjaminiHochberg方法适用于探索性分析D.固定顺序检验属于FDR控制E.permutation检验无需校正答案:A、B、C解析:permutation仍需校正,固定顺序检验属FWER控制。13.在线性混合效应模型lme4::lmer()中,下列哪些语法可正确拟合交叉随机效应A.y~x+(1|subject)+(1|item)B.y~x+(x|subject)+(x|item)C.y~x+(1|subject:item)D.y~x+(0+x|subject)+(1|item)E.y~x+(1|subject)+x+(1|item)答案:A、B、D解析:C为交互随机截距,E语法重复x固定效应。14.对微生物16SrRNA数据进行α多样性分析,下列指数中考虑物种丰度分布的有A.ShannonB.SimpsonC.Chao1D.PDwholetreeE.observedspecies答案:A、B解析:Chao1与observed仅测丰富度,PD测系统发育。15.若logistic回归出现完全分离,则A.最大似然估计不存在B.需用Firth惩罚似然C.可用精确逻辑回归D.系数估计趋于无穷E.预测准确率一定为100%答案:A、B、C、D解析:完全分离时预测准确率不一定100%,存在少数误分。三、判断题(每题1分,共10分,正确打“√”,错误打“×”)16.当样本量足够大时,t分布近似标准正态分布。答案:√17.在多重回归中,调整R²一定随自变量增加而增大。答案:×解析:调整R²惩罚变量数,可能下降。18.若两变量Pearson相关系数r=0,则两变量独立。答案:×解析:仅无线性关系,可能存在非线性关系。19.对计数资料进行广义线性模型分析时,负二项回归可处理过离散。答案:√20.随机森林的OOB误差可用于变量重要性评估。答案:√21.在meta分析中,I²>50%提示研究间异质性较低。答案:×解析:I²>50%提示异质性较高。22.对非正态数据取对数后,可完全消除偏态。答案:×解析:仅可能减轻,无法保证完全消除。23.若生存数据的删失比例超过80%,仍可进行Cox回归,但解释需谨慎。答案:√24.在RNAseq差异分析中,使用rawcount直接进行t检验是合理的。答案:×解析:rawcount未归一化且方差非齐性,需用DESeq2等专用方法。25.贝叶斯因子BF>10通常视为强证据支持备择假设。答案:√四、填空题(每空2分,共20分)26.在单因素方差分析中,若组数为4,每组样本量n=8,则误差自由度为______。答案:28解析:df_error=N−k=32−4=28。27.若随机变量X~N(μ,σ²),则P(|X−μ|<1.96σ)=______(保留两位小数)。答案:0.9528.对二项分布Bin(n=50,π=0.2),其方差为______。答案:8解析:Var=nπ(1−π)=50×0.2×0.8=8。29.若线性回归模型Y=β₀+β₁X+ε,已知β₁=2,X取值范围1–10,则当X=6时,Y的预测值比X=1时高______。答案:1030.在Cox模型中,某协变量风险比HR=0.80,则该变量每增加1单位,事件风险降低______%。答案:2031.对p=2000个基因进行多重t检验,若采用Bonferroni校正,显著性阈值应设为______(保留四位小数)。答案:0.000025解析:0.05/2000=2.5×10⁻⁵。32.若两独立样本t检验的Cohen’sd=0.5,则效应量大小属于______效应。答案:中等33.在PCA中,第k主成分的方差等于协方差矩阵的第______大特征值。答案:k34.若负二项分布离散参数θ=0.25,则其方差与均值关系为Var=μ+______μ²。答案:4解析:Var=μ+μ²/θ=μ+4μ²。35.对时间序列数据采用ARIMA(1,1,1)模型,其中“I”表示______阶差分。答案:1五、简答题(每题8分,共24分)36.某研究者欲探究运动干预对糖尿病患者空腹血糖的影响,招募60名患者随机分为干预组与对照组,基线测一次,干预12周后再测一次。请指出该设计潜在统计问题,并提出改进方案。答案:潜在问题:1.仅两次测量,无法区分瞬时效应与持续效应;2.未考虑个体血糖自然波动;3.采用独立t检验忽略基线差异,增加II型错误。改进:1.采用重复测量设计,每4周测一次,共4时点;2.使用线性混合效应模型,将基线血糖作为协变量,组别×时间交互项检验干预效应;3.引入随机截距与随机斜率,控制个体间变异;4.预注册分析计划,采用多重比较校正。37.简述RNAseq差异表达分析中“过度离散”概念,并说明DESeq2如何建模并检验差异。答案:过度离散指计数数据的方差显著大于泊松分布期望(方差=均值)。DESeq2采用负二项分布NB(μ_ij,α_i)建模,其中μ_ij为归一化后期望计数,α_i为基因特异离散参数。步骤:1.估计sizefactors归一化库容;2.通过共享信息拟合均值离散关系,采用经验贝叶斯收缩α_i;3.构建广义线性模型,使用Wald检验或似然比检验计算P值;4.采用BenjaminiHochberg控制FDR。收缩离散参数可提高小样本估计稳定性,降低假阳性。38.解释生存分析中“竞争风险”问题,并比较FineGray模型与Causespecific模型的应用场景。答案:竞争风险指研究终点外存在其他事件阻止目标事件观察,如癌症死亡研究中非癌死亡为竞争风险。Causespecific模型:将竞争风险事件视为删失,估计目标事件的因果风险,需满足独立删失假设,适用于病因学研究。FineGray模型:将竞争风险保留在风险集中,估计累积发生率函数(CIF),直接比较实际临床可见的发生率,适用于预测与决策。选择依据:若关注生物学机制用前者,若评估临床实际收益用后者。六、计算与综合题(共61分)39.(10分)某药物试验采用双盲随机对照,干预组n₁=25,对照组n₂=25,12周后测得LDL降低值:干预组x̄₁=1.8mmol/L,s₁=0.6;对照组x̄₂=1.2mmol/L,s₂=0.5。假定方差齐性,试计算合并方差s_p²,并检验干预是否显著优于对照(α=0.05,单侧)。答案:s_p²=[(n₁−1)s₁²+(n₂−1)s₂²]/(n₁+n₂−2)=(24×0.36+24×0.25)/48=0.305t=(1.8−1.2)/√(s_p²(1/25+1/25))=0.6/√(0.305×0.08)=0.6/0.156=3.85df=48,单侧临界t₀.₀₅=1.677,3.85>1.677,P<0.001,拒绝H₀,干预显著优于对照。40.(12分)下表为某基因在肿瘤与癌旁组织的表达(log₂TPM):肿瘤:7.2,6.8,8.1,7.5,6.9,7.0癌旁:5.1,5.3,4.9,5.0,5.2,4.81.计算两组均值差及95%CI;2.采用非参数检验判断差异是否显著(α=0.05)。答案:1.肿瘤x̄₁=7.25,癌旁x̄₂=5.05,差值=2.20合并标准误:s₁=0.49,s₂=0.19,n=6,SE=√(s₁²/6+s₂²/6)=0.21t₀.₀₂₅,df≈9.9≈2.26,CI=2.20±2.26×0.21=(1.73,2.67)2.MannWhitneyU:肿瘤秩和=57,癌旁秩和=21,U=57−6×7/2=36,临界U₀.₀₅=36,恰在边界,P≈0.05,提示差异边缘显著。41.(14分)某研究欲建立预测2型糖尿病风险的逻辑回归模型,自变量包括年龄、BMI、家族史(0/1)、HOMAIR。基于1000人数据拟合结果:β₀=−6.20,β_age=0.05,β_BMI=0.15,β_fh=1.10,β_ir=0.301.写出Logit方程;2.计算一名50岁、BMI=30、有家族史、HOMAIR=4的个体预测概率;3.解释HOMAIR的OR值;4.若将HOMAIR按三分位分组,讨论如何报告结果避免过度依赖连续假设。答案:1.Logit(p)=−6.20+0.05×Age+0.15×BMI+1.10×Fh+0.30×IR2.η=−6.20+0.05×50+0.15×30+1.10×1+0.30×4=−6.20+2.5+4.5+1.1+1.2=3.1p=1/(1+e^(−3.1))=0.9573.OR=e^0.30=1.35,HOMAIR每增加1单位,患病风险增加35%。4.报告三分位分组后OR趋势,采用限制性立方样条或分段线性检验非线性,提供P_for_trend与图形,避免线性假设误导。42.(13分)下图为某生存研究KaplanMeier曲线,两条曲线分别代表高、低表达组,括号内为风险人数。(文字描述:高表达组3年生存率=0.78,低表达组=0.90,logrankχ²=4.50,P=0.034)1.计算高表达组相对低表达组的3年风险比(HR)近似值;2.若存在竞争风险(非本病死亡占15%),讨论P值可能如何变化;3.提出后续分析建议。答案:1.采用MantelHaenszel近似:HR≈(O₁/E₁)/(O₂/E₂),设O₁=22,O₂=10,E₁=16,E₂=16,HR≈(22/16)/(10/16)=2.20。2.竞争风险导致本病死亡减少,事件数降低,logrank检验功效下降,P值可能>0.05。3.采用FineGray模型估计本病死因的CIF,报告子分布风险比(SHR),并做敏感性分析。43.(12分)某生态学研究记录10个湖泊的磷浓度(TP,mg/L)与叶绿素a(Chla,μg/L),拟建立线性模型,发现散点呈指数关系,故对Chla取自然对数。R代码如下:model<lm(log(Chl.a)~TP,data=lake)summary(model)输出:Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)1.20000.15008.002.0e05TP0.18000.02507.205.5e05Residualstandarderror:0.28on8DFMultipleRsquared:0.8661.写出回归方程;2.预测TP=0.5mg/L时Chla的点估计与95%置信区间;3.计算TP每增加0.1mg/L,Chla增加的百分比;4.诊断提示残差呈漏斗形,给出下一步处理方案。答案:1.log(Chla)=1.20+0.18×TP2.TP=0.5,log(Chla)=1.20+0.09=1.29,Chla=e^1.29=3.63μg/LSE_pred=0.28×√(1/10+(0.5−meanTP)²/Σ(TP−meanTP)²)=0.28×0.36=0.10CI_log=1.29±t₀.₀₂₅,8×0.10=1.29±0.23=(1.06,1.52)CI_Chla=(e^1.06,e^1.52)=(2.89,4.57)3.每增加0.1TP,log(Chla)增加0.018,百分比=(e^0.018−1)×100%=1.8%4.残差漏斗形提示方差不齐,采用加权最小二乘或对Chla采用BoxCox变换,或拟合异方差模型如nlme::gls。七、软件实操与结果解读(共20分)44.使用R语言ggplot2及survminer包,绘制前述42题KaplanMeier曲线,要求:1.写出完整代码;2.在图上标注中位生存时间;3.将风险表置于图下方,字体大小=3.5。答案:```rlibrary(survival)library(survminer)fit<survfit(Surv(time,status)~group,data=df)ggsurvplot(fit,data=df,pval=TRUE,risk.table=TRUE,risk.table.font=3.5,legend.title="Expression",legend.labs=c("Low","High"),median.line="hv",palette=c("00AFBB","E7B800"),xlab="Time(years)",ylab="Survivalprobability",title="KaplanMeierCurvebyExpression")```45.使用DESeq2完成RNAseq差异分析,写出从countMatrix到结果导出的完整代码,并说明如何提

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论