2025年生物统计学高级考试试卷及答案_第1页
2025年生物统计学高级考试试卷及答案_第2页
2025年生物统计学高级考试试卷及答案_第3页
2025年生物统计学高级考试试卷及答案_第4页
2025年生物统计学高级考试试卷及答案_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年生物统计学高级考试试卷及答案一、单项选择题(每题2分,共30分。每题只有一个正确答案,请将正确选项字母填入括号内)1.在完全随机设计(CRD)的方差分析中,若处理数k=5,每处理重复n=6,则误差自由度为()A.25  B.29  C.30  D.24答案:B解析:总自由度=k·n–1=29,处理自由度=k–1=4,误差自由度=29–4=25。注意题干问“误差自由度”,故选B。2.对同一批小鼠连续5天测量体重,欲检验时间趋势,应首选()A.单因素方差分析  B.重复测量方差分析  C.KruskalWallis检验  D.Friedman检验答案:B解析:同一受试对象多次观测,数据存在相关性,需用重复测量ANOVA。3.在logistic回归中,若某自变量X的OR=0.35(95%CI:0.20–0.60),则下列说法正确的是()A.X每增加1单位,事件概率增加65%  B.X与事件负相关且显著  C.需对OR取对数后才能判断方向  D.无法判断显著性答案:B解析:OR<1且置信区间不包含1,说明负相关且显著。4.对两独立样本均数比较,若总体方差不等且样本量均小于10,应选用()A.配对t检验  B.Welch校正t检验  C.常规t检验  D.Z检验答案:B解析:方差不等+小样本,Welcht稳健。5.在多重比较中,若实验共10组,两两比较次数为()A.45  B.90  C.10  D.55答案:A解析:C(10,2)=45。6.下列关于AIC的说法,错误的是()A.可用于非嵌套模型比较  B.越小越好  C.对参数个数进行惩罚  D.服从卡方分布答案:D解析:AIC无已知分布。7.若随机变量X~Poisson(λ),则Var(X)=()A.λ²  B.λ  C.e^λ  D.1/λ答案:B解析:泊松分布方差等于均值。8.在生存分析中,若两条KaplanMeier曲线交叉,则()A.logrank检验必然失效  B.中位生存期一定相等  C.可能比例风险假设不成立  D.需立即终止试验答案:C解析:交叉提示风险比非恒定,PH假设可疑。9.对基因表达矩阵(行基因、列样本)进行PCA,所得主成分得分矩阵维度为()A.基因数×主成分数  B.样本数×主成分数  C.基因数×样本数  D.主成分数×主成分数答案:B解析:得分矩阵每列对应一个主成分,每行对应一个样本。10.若线性回归模型出现多重共线性,则下列指标最先升高的是()A.R²  B.调整R²  C.方差膨胀因子VIF  D.残差平方和答案:C解析:VIF直接度量共线性。11.在随机区组设计中,若区组因素与处理因素交互效应显著,则()A.必须重新设计试验  B.处理效应解释需谨慎  C.可忽略交互  D.误差自由度增加答案:B解析:交互显著说明处理效应随区组变化,解释需分层。12.对二项分布B(n,p)进行假设检验H0:p=0.3,若n=50,观测到x=8,则精确P值为()A.P(X≤8)+P(X≥8)  B.2·min[P(X≤8),P(X≥8)]  C.P(X≤8)  D.P(X≥8)答案:B解析:双侧精确检验取两倍最小单侧概率。13.若线性混合模型中随机效应方差估计为0,则()A.模型不可识别  B.应改为固定效应  C.似然比检验失效  D.需用贝叶斯方法答案:B解析:方差为零说明该随机效应不必要,可剔除或改为固定。14.在RNAseq差异分析中,DESeq2采用的离散度估计策略是()A.矩估计  B.最大似然  C.经验贝叶斯压缩  D.中位数平滑答案:C解析:DESeq2通过经验贝叶斯压缩基因特异离散度。15.若某实验要求检出δ=5单位差,σ=8,α=0.05(双侧),β=0.10,则每组所需样本量约为()A.27  B.34  C.42  D.50答案:B解析:n=2[(Z_{0.975}+Z_{0.90})σ/δ]²≈2(1.96+1.28)²·(8/5)²≈33.5,取整34。二、多项选择题(每题3分,共15分。每题至少有两个正确答案,多选少选均不得分)16.下列哪些方法可用于处理高维数据中的多重检验问题()A.Bonferroni校正  B.FDRBH  C.Storey’sq值  D.置换检验  E.主成分回归答案:ABCD解析:E用于降维而非直接校正P值。17.关于Cox比例风险模型,正确的有()A.基线风险函数无需指定  B.可处理时依协变量  C.要求风险比恒定  D.偏似然估计β  E.失访必须独立答案:ABCDE解析:所有选项均符合Cox模型理论。18.下列哪些属于非参数检验()A.MannWhitneyU  B.Wilcoxon符号秩  C.KruskalWallis  D.符号检验  E.单因素ANOVA答案:ABCD解析:E为参数方法。19.在贝叶斯统计中,下列哪些可作为后验分布的推断依据()A.最高后验密度区间  B.贝叶斯因子  C.后验预测检验  D.DIC  E.似然比答案:ABCD解析:E为经典统计量。20.若线性模型残差呈现“漏斗型”分布,可考虑的改进有()A.加权最小二乘  B.对因变量取对数  C.使用稳健回归  D.增加二次项  E.采用BoxCox变换答案:ABCE解析:D用于非线性而非异方差。三、判断题(每题1分,共10分。正确打“√”,错误打“×”)21.对同一数据,似然比检验、Wald检验、Score检验三者结果一定相同。(×)22.在多重回归中,标准化回归系数可比较不同量纲自变量的相对重要性。(√)23.若随机效应服从正态分布,则广义线性混合模型可用Laplace近似求解。(√)24.当样本量趋于无穷时,t分布收敛于标准正态分布。(√)25.对计数数据,负二项回归可解决泊松回归的过离散问题。(√)26.在实验设计中,协变量失衡必然导致处理效应估计有偏。(×)27.若两变量Pearsonr=0,则必然独立。(×)28.对生存数据,若所有个体均发生终点事件,则无需使用生存分析。(×)29.在机器学习中,交叉验证可完全消除过拟合风险。(×)30.对基因集富集分析(GSEA),基因排序指标可采用信号噪声比。(√)四、填空题(每空2分,共20分)31.在随机化完全区组设计中,总平方和可分解为________、________、________三部分。答案:处理平方和、区组平方和、误差平方和。32.若X~N(μ,σ²),则Z=(X–μ)/σ服从________分布。答案:标准正态。33.对二分类反应变量,连接函数g(π)=log(π/(1–π))称为________。答案:logit。34.在RNAseq分析中,TPM的全称是________。答案:TranscriptsPerMillion。35.若线性回归模型VIF>10,通常认为存在严重________。答案:多重共线性。36.对Poisson回归,离散参数φ=________时表明无过离散。答案:1。37.在meta分析中,I²=62%表示________。答案:62%的变异来源于研究间异质性而非随机误差。38.若Cox模型比例风险假设不成立,可引入________协变量。答案:时依。39.对高维数据,LASSO回归通过________实现变量选择。答案:L1正则化。40.在实验设计里,D最优设计旨在最小化________。答案:参数估计的广义方差(或|X'X|⁻¹)。五、简答题(每题8分,共24分)41.简述多重比较中FDR与FWER的区别,并给出各自适用场景。答案:FWER(FamilyWiseErrorRate)指族系错误率,即至少出现一次Ⅰ型错误的概率,控制严格,适用于验证性研究或监管决策;FDR(FalseDiscoveryRate)指错误发现率,即拒绝原假设中假阳性的期望比例,控制较宽松,适用于探索性高维数据如基因组学、脑成像。FWER常用Bonferroni、Holm;FDR常用BH、Storey。42.说明线性混合模型与一般线性模型的核心差异,并给出随机截距模型的矩阵形式。答案:一般线性模型仅含固定效应,假设观测独立且方差齐;线性混合模型引入随机效应,可建模层次相关、重复测量、个体差异。随机截距模型:Y=Xβ+Zu+ε,u~N(0,σ²_uI),ε~N(0,σ²_εI),Z为设计矩阵,u为随机截距向量。43.描述生存分析中“失访”与“竞争风险”的区别,并指出各自对估计的影响。答案:失访指个体在随访期内失去跟踪,产生右删失,若失访独立于真实事件时间,则KaplanMeier与Cox估计仍无偏;竞争风险指个体因其他事件退出,导致目标事件无法观测,若忽略竞争风险,会高估目标事件累积发生率,需采用累积发生函数(CIF)与FineGray模型。六、计算与综合题(共51分)44.(10分)为比较两种饲料对仔猪增重(kg)的影响,随机分配12头仔猪到A、B两组,各6头。数据如下:A:4.2,4.8,5.0,4.5,4.9,5.1B:5.5,5.8,5.6,5.9,5.7,6.0(1)假定方差齐,求合并方差s²_p;(2)计算t统计量;(3)给出P值并判断α=0.05下差异是否显著。答案:(1)x̄_A=4.75,s²_A=0.101;x̄_B=5.75,s²_B=0.027;s²_p=[(5·0.101)+(5·0.027)]/10=0.064。(2)t=(4.75–5.75)/√[0.064(1/6+1/6)]=–1/0.146=–6.85,|t|=6.85。(3)df=10,查t分布双侧P<0.0001,拒绝H0,差异显著。45.(12分)一项病例对照研究调查某基因SNP与疾病关联,数据:   病例 对照GG  30  70GA  50  80AA  20  50(1)构建3×2列联表,计算等位基因G/A频率;(2)以GG为参照,计算GA与AA的OR及95%CI(Wald法);(3)进行趋势检验(CochranArmitage)并给出P值。答案:(1)病例G=(30×2+50)/200=0.55,A=0.45;对照G=(70×2+80)/200=0.73,A=0.27。(2)OR_GA=(50·70)/(30·80)=1.458,SE_logOR=√(1/50+1/30+1/80+1/70)=0.302,95%CI=exp(log1.458±1.96·0.302)=1.458×(0.81–2.63);OR_AA=(20·70)/(30·50)=0.933,SE=0.372,95%CI=0.45–1.94。(3)趋势检验Z=–2.41,P=0.016,提示负向趋势(Aalleleprotective)。46.(14分)某实验室记录30只小鼠注射肿瘤后的生存天数,部分小鼠未观察到死亡。数据:12,15,18+,22,25+,27,30+,33,35+,38,40+,42,45+,48,50+,52,55+,58,60+,65,70+,75,80+,85+,90+,95+,100+,105+,110+,120+(+表示删失)。(1)用KaplanMeier法计算t=50天的生存概率S(50);(2)给出Greenwood标准误;(3)绘制生存曲线草图并指出中位生存期;(4)若采用指数分布拟合,求最大似然估计λ及其95%CI。答案:(1)风险集n=30,死亡数d至50天共10例,S(50)=∏(1–d_i/n_i)=0.533。(2)GreenwoodSE=0.089。(3)中位生存期约58天。(4)总随访时间Σt_i=2130,死亡数D=14,λ̂=D/Σt_i=0.00657,95%CI=λ̂±1.96·λ̂/√D=0.00657±0.00344→(0.0031,0.0100)。47.(15分)一项重复测量实验考察药物(P/D)与时间(0,1,2周)对血压的影响,共20名受试者随机双盲交叉。数据采用线性混合模型:Y_{ijk}=μ+α_i+β_j+(αβ)_{ij}+u_k+ε_{ijk},其中u_k~N(0,σ²_u)为个体随机效应,ε_{ijk}~N(0,σ²_ε)。拟合结果:σ²_u=36,σ²_ε=25,固定效应估计:    Estimate SE tIntercept 125  2.1 59.5DrugD  –8  2.9 –2.76Time1  –3  1.5 –2.00Time2  –10  1.5 –6.67DrugD:Time2 5  2.1 2.38(1)写出第k名受试者服用D药在第2周的预测值表达式;(2)计算DrugD在主效应下的降压幅度及P值(双侧);(3)检验交互项DrugD:Time2是否显著;(4)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论