2026年大学统计学期末考试题库及答案-非参数统计方法在生物医学领域的应用_第1页
2026年大学统计学期末考试题库及答案-非参数统计方法在生物医学领域的应用_第2页
2026年大学统计学期末考试题库及答案-非参数统计方法在生物医学领域的应用_第3页
2026年大学统计学期末考试题库及答案-非参数统计方法在生物医学领域的应用_第4页
2026年大学统计学期末考试题库及答案-非参数统计方法在生物医学领域的应用_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年大学统计学期末考试题库及答案—非参数统计方法在生物医学领域的应用1.单选题(每题4分,共40分)1.1在比较两组小鼠肿瘤体积随时间变化曲线是否重合时,首选的非参数方法是A.Mann-WhitneyU检验B.Kolmogorov-Smirnov双样本检验C.带FDR校正的Wilcoxon符号秩检验D.基于秩的纵向Jonckheere-Terpstra检验答案:B解析:K-S检验比较两条经验分布函数的整体差异,对“曲线是否重合”最敏感;其余方法或仅比较位置,或仅用于横断面数据。1.2某临床试验用Kaplan-Meier估计生存函数,若在最后观察时点仍有25%受试者存活,则该时点生存率的标准误可用Greenwood公式计算。若此时风险集人数为n=16,则标准误约为A.0.125B.0.108C.0.095D.0.087答案:B解析:Greenwood公式SE=√[S²(t)∑(d_i/(n_i(n_i-d_i)))],末端仅1项,d=0,故SE=S(t)/√n=0.25/4=0.108。1.3对单细胞RNA-seq的数千个基因做差异表达,若采用非参数秩检验并控制FDR,下列哪一步骤能最大限度减少“离散型p值”带来的FDR低估A.将p值进行Storey的q值转换B.使用带随机扰动的Wilcoxon检验C.采用permutation-basedFDRD.增加样本量至n>100答案:C解析:permutation保留离散结构,FDR估计无偏;Storey需连续p值;扰动破坏原假设;样本量增大不解决离散问题。1.4在影像组学中,对同一患者的MRI与CT纹理特征做一致性评价,若数据明显非正态且存在大量结值,应选A.ICC(2,1)B.ConcordancecorrelationcoefficientC.Kendall’sWD.Bland-Altmanwithlog-transformation答案:C解析:Kendall’sW对结值稳健且完全非参数,适用于多序列排序一致性;ICC与CCC均假设近似正态。1.5对5个中心各招募20名患者进行疼痛评分(0-10),欲检验“中心效应是否存在”,数据极度偏态,最佳非参数方案为A.Kruskal-WallisfollowedbyDwass-Steel-Critchlow-Flignerpost-hocB.带中心随机效应的bootstrapANOVAC.Friedman检验D.混合效应模型秩变换(rank-basedmixedmodel)答案:D解析:中心为随机效应,需考虑重复测量结构;rank-basedmixedmodel保留非参数特性且可处理随机效应。1.6若对生存数据拟合Cox比例风险模型后发现Schoenfeld残差呈明显非线性,可考虑A.引入时间依赖协变量系数B.改用加速失效模型C.采用log-rank检验D.对协变量做Box-Cox变换答案:A解析:非线性Schoenfeld提示比例风险不成立,可令β(t)为时间的函数;log-rank无法处理协变量;变换协变量不解决比例问题。1.7对高维代谢组学数据(p≫n)做非参数判别,若希望输出变量重要性且对异常值稳健,首选A.随机森林平均下降精度B.基于秩的SVM权重C.带L1正则的Logistic回归D.非参数Bayesian稀疏模型答案:B解析:基于秩的SVM将原始数据映射到秩空间,权重直接反映变量贡献,对异常值不敏感;RF需OOB估计,且在高维易过拟合。1.8若用非参数bootstrap估计中位数的95%置信区间,bootstrap分布出现明显“跳跃”导致分位数区间端点恰好落在同一观测值上,可A.改用平滑bootstrapB.增加bootstrap次数至10000C.采用学生化区间D.改用百分位-t区间答案:A解析:平滑bootstrap对经验分布加小扰动,消除离散导致的跳跃;单纯增加B不解决离散问题。1.9对两组成年人步态加速度信号(长度不等)检验“整体波形差异”,若要求对齐时间轴且对振幅单调变换稳健,应选A.动态时间规整(DTW)后做permutationMANOVAB.傅里叶变换后HotellingT²C.函数型主成分t检验D.带弹性距离的秩和检验答案:A解析:DTW对齐非线性时间变形,permutationMANOVA无需正态;傅里叶对单调变换不稳健;函数型PCA需正态假设。1.10在基因集富集分析(GSEA)中,若表型为二分类且样本量极小(n1=n2=6),下列哪种做法最能保持非参数特性并控制FWERA.使用基因水平t检验生成排序列表B.直接对表达矩阵做permutationofclasslabelsC.采用Wilcoxonrank-sum生成排序列表D.使用parametricGSEAwithasymptoticp-value答案:B解析:对标签做permutation保留联合分布,FWER由permutation控制;t检验/Wilcoxon均假设基因独立,且asymptotic近似在小样本失效。2.多选题(每题5分,共30分,少选得2分,错选0分)2.1下列哪些非参数方法可用于评估诊断试验的ROC曲线下面积(AUC)置信区间A.DeLong非参数法B.bootstrap百分位法C.Mann-WhitneyU的渐近方差D.基于秩的jackknifeE.二项分布精确法答案:A,B,C,D解析:E仅适用于单点灵敏度,不适用于AUC。2.2对重复测量的收缩压(非正态)比较三种降压药,若每例患者观测5个时点,可用A.边际模型GEEwithrobustsandwich估计B.混合效应秩变换模型C.Friedman检验D.纵向rank-basedANOVA-typestatisticE.协变量调整的Kruskal-Wallis答案:A,B,D解析:Friedman仅处理单变量重复;E忽略重复结构;A、B、D均保留非参数特性且考虑相关。2.3关于多重比较校正,下列说法正确的是A.Bonferroni法对任意依赖结构均保守B.Holm法比Bonferroni有更高检验效能C.Benjamini-Hochberg法控制FDR≤αD.若检验统计量正相关,Westfall-Youngpermutation法可提高效能E.固定顺序检验可控制FWER但需预设层次答案:A,B,C,D,E解析:全部正确,E指序贯gatekeeping。2.4对单细胞UMAP嵌入做聚类后,欲非参数检验某簇是否高表达某基因,应避免A.对该簇与其他簇做Wilcoxon秩和B.用logistic回归LRTC.对簇成员做permutation检验D.用t检验假设正态E.采用带结校正的exactranktest答案:B,D解析:B假设线性及大样本;D假设正态;A、C、E均为非参数。2.5下列哪些技术可用于高维生存数据的非参数变量筛选A.基于permutation的随机生存森林最小深度B.带L1正则的Cox模型C.非参数加性CoxwithcomponentselectionD.基于秩的sureindependencescreeningE.梯度提升Coxwithsubsampling答案:A,C,D解析:B、E为半参数;A、C、D完全非参数。2.6对功能近红外光谱(fNIRS)的通道×时间矩阵做被试间差异检验,若数据非正态且通道间相关,可用A.基于球化秩的F型检验B.带cluster-mass的permutation检验C.函数型Wilcoxon检验D.多元Kruskal-WallisE.基于tensorrank的MANOVA答案:A,B,C,E解析:D忽略时间维度相关;A、B、C、E均非参数且考虑相关。3.填空题(每空3分,共30分)3.1对n=12的配对阿尔茨海默量表得分,用Wilcoxon符号秩检验,正秩和T+=56,负秩和T-=22,则双侧精确p值=________。(保留三位小数)答案:0.263解析:查Wilcoxon精确分布表,n=12,T=min(T+,T-)=22,P(T≤22)=0.1315,双侧p=2×0.1315=0.263。3.2若对两独立样本n1=n2=15做permutationt检验,所有permutation中|t|≥观测值的排列有________个。答案:大于1小于binom(30,15)解析:精确数目需枚举,但最大可能为C(30,15)=155117520,实际取决于数据。3.3对生存数据用log-rank检验,若O-E=4.8,Var(O-E)=9,则Z值=________。答案:1.60解析:Z=(O-E)/√Var=4.8/3=1.60。3.4若对基因表达做rank-transform,设原始值x=(7,3,5,5,9),则rank后平均秩为________。答案:(5,1,3,3,5)解析:结值取平均,(3+4)/2=3.5,修正:(5,1,3.5,3.5,5)。3.5对n=100的样本,bootstrap估计中位数,B=2000,若bootstrap分布第2.5百分位为12.3,第97.5百分位为18.7,则95%置信区间=________。答案:(12.3,18.7)解析:直接取百分位区间。3.6对k=6组做Kruskal-Wallis,H=14.52,df=5,则近似χ²的p值=________。(保留三位小数)答案:0.013解析:查χ²分布,P(χ²₅≥14.52)=0.013。3.7若对ROC曲线做DelLong方差估计,AUC=0.891,SE=0.043,则95%Wald区间=________。答案:(0.807,0.975)解析:0.891±1.96×0.043→(0.807,0.975)。3.8对n=50的样本,用核密度估计pdf,若采用Silverman规则带宽,σ̂=2.3,则h=________。答案:0.786解析:h=1.06σ̂n^(-1/5)=1.06×2.3×50^(-0.2)=0.786。3.9对两样本做Mann-Whitney检验,U=345,n1=25,n2=30,则标准化Z=________。(无结)答案:2.18解析:μ_U=n1n2/2=375,σ_U=√[n1n2(n1+n2+1)/12]=√[25×30×56/12]=61.24,Z=(345-375)/61.24=-0.49,取绝对值0.49,双侧无意义,但题目仅求Z值。3.10对n=200的生存数据,用Nelson-Aalen估计累积风险,若在某时刻风险集100人,死亡10人,则ΔH=________。答案:0.10解析:ΔH=d/n=10/100=0.10。4.综合应用题(共100分)4.1某研究比较新型抗纤维化药物与对照对肺功能下降速率的影响。招募n=48例,随机双盲,每3个月测FVC%,共8次。数据严重右偏,含15%缺失且为MAR。要求:(1)给出非参数检验整体药物效应的完整方案(含缺失处理、纵向比较、多重比较校正);(20分)(2)用R语言写出核心代码;(10分)(3)若药物组m=24,对照组m=24,纵向秩-transform后得F=7.34,df1=1,df2=42,求p值并解释。(5分)答案与解析:(1)步骤:①缺失:用非参数多重插补(predictivemeanmatching,m=20)生成完整数据;②对每次访视分别计算FVC%的秩,采用Brunner-Munzel非参数边际模型,检验组×时间交互;③若交互显著,用rank-basedANOVA-typestatistic做post-hoc,比较各时点差异;④用Westfall-Youngpermutation法控制FWER,permutation单元为受试者,保持纵向相关;⑤敏感性分析:对最差值插补做相同流程,比较结论稳健性。(2)R核心代码:```rlibrary(nparLD)library(mice)set.seed(42)imp<mice(df,m=20,method="pmm",printFlag=FALSE)fitList<with(imp,nparLD(fvc~group*time,subject="id",data=df.long))pool<pool(fitList)summary(pool)```(3)p=0.0095,拒绝原假设,提示药物显著改变FVC%下降轨迹。4.2某医院收集n=120例肝癌患者术前MRI纹理特征共p=350维,欲建立非参数预后模型预测2年复发。事件数d=40,数据高维、高度共线、非正态。(1)给出变量筛选+模型构建+内部验证的完整非参数流程;(25分)(2)说明如何计算C-index及其95%CI;(10分)(3)若随机生存森林给出最小深度排序,前20变量中含8个已被临床证实,求富集OR并解释。(5分)答案与解析:(1)流程:①随机生存森林(RSF)withmtry=√p,ntree=2000,用permutationimportance+最小深度筛选top30;②对top30做稀疏偏秩相关(SPRC)进一步去冗余,保留≤15变量;③用非参数加性Coxwithcomponentselection(coxboost)再精炼,调λvia5-foldCV;④最终模型用RSFwithselectedvars,计算OOBC-index;⑤内部验证:bootstrap500次,每次bootstrap样本建模,原始样本测试,得optimism-correctedC-index。(2)对每次bootstrap,计算C_idxb,用bootstrap百分位法取2.5%与97.5%分位,得95%CI。(3)富集OR=(8/20)/(8/350)=17.5,提示RSF最小深度显著富集已知变量,筛选可信。4.3单细胞ATAC-seq在两种T细胞亚群(各n=200细胞)中检测peaks,共p=80000维,欲非参数检验差异开放。(1)为何不能直接用Wilcoxon秩和逐peak检验?(5分)(2)给出结合非参数检验与FDR控制的完整方案;(15分)(3)若采用带结校正的exactranktest,计算量过大,给出加速算法;(10分)答案与解析:(1)单细胞数据稀疏(>90%零),秩和分布极度离散,p值直方图呈“锯齿”,FDR估计失真;且逐检验忽略细胞间相关。(2)方案:①对每peak,用two-partWilcoxon(零部分用二项,非零部分用秩和),合并p值;②用permutationofclasslabels(B=10000)生成零分布,保留联合结构;③用Storey’sq-value估计π0,控制FDR≤0.05;④对toppeaks用非参数bootstrap估计log2FC置信区间;⑤用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论