2025生物统计学题库及答案_第1页
2025生物统计学题库及答案_第2页
2025生物统计学题库及答案_第3页
2025生物统计学题库及答案_第4页
2025生物统计学题库及答案_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025生物统计学题库及答案一、单变量描述统计与探索性数据分析1.某湿地保护区2023年共记录丹顶鹤巢址高度(cm)如下:45,48,52,55,58,60,62,65,68,70,72,75,78,80,82,85,88,90,92,95。请计算其Gini离散系数并给出解释。答案:先排序得x_i,计算平均数μ=71.5;G=∑(2i−n−1)x_i/(n∑x_i)=0.151。系数接近0,说明巢址高度分布较均匀,保护区地形差异小。2.为比较两种RNAseq归一化方法,研究者对同一批样本分别计算logCPM与TMM值,得到两列数据。若用箱线图发现TMM的箱体更窄且须线更短,可初步得出什么结论?答案:TMM对库容差异的校正更充分,样本间表达离散度降低,技术噪声被有效压缩。3.某实验室测定小鼠每日摄食量(g)呈右偏,峰度−0.35。若欲使用均数±2s作为参考区间,会存在何种风险?答案:右偏导致右侧尾部拉长,均数被拉向高端,±2s区间将高估上限、低估下限,可能出现“正常”个体被误判为异常。4.给出下列茎叶图(stem=10g,leaf=1g)对应的五数概括:3|254|033695|114786|025答案:最小值32,Q1=43,中位数51,Q3=57,最大值65;IQR=14,无离群点。5.若变量X服从对数正态,如何估计其算术均数与几何均数的关系?答案:算术均数=exp(μ+σ²/2),几何均数=exp(μ),故算术均数≥几何均数,等号当且仅当σ²=0。二、概率分布与抽样模型6.某CRISPR敲除实验每次转染成功率为0.15,若独立进行20次,求至少成功3次的概率。答案:1−P(X≤2)=1−[C(20,0)0.85²⁰+C(20,1)0.15·0.85¹⁹+C(20,2)0.15²0.85¹⁸]=0.595。7.若每毫升河水中大肠杆菌数服从Poisson(λ),且λ本身服从Gamma(α=2,β=0.5),则边缘分布为何?答案:负二项NB(r=α,p=1/(1+β))=NB(2,2/3),均数αβ=1,方差αβ(1+β)=1.5。8.设基因表达差异的log2FC服从Laplace(μ=0,b=0.6),求|log2FC|>1的概率。答案:Laplace尾概率P(|X|>x)=exp(−x/b),故P=exp(−1/0.6)=0.189。9.在群体遗传学中,若等位基因频率漂移服从WrightFisher模型,种群大小N=50,初始频率p=0.3,求10代后期望杂合度。答案:Ht=H0(1−1/2N)^t=0.42(1−1/100)^10=0.42×0.904=0.380。10.某高通量筛选命中数服从零膨胀Poisson,零膨胀概率ω=0.3,Poisson均数λ=1.2,求总体期望与方差。答案:E(Y)=(1−ω)λ=0.84;Var(Y)=(1−ω)λ+ω(1−ω)λ²=0.84+0.3024=1.1424。三、假设检验与显著性11.为验证新型肥料是否提高拟南芥根长,研究者测得对照组n1=15,x̄=2.3cm,s1=0.4cm;处理组n2=15,x̄=2.7cm,s2=0.5cm。假定方差齐性,试计算t统计量与双侧P值并下结论(α=0.05)。答案:sp²=0.205,t=2.47,df=28,P=0.020<0.05,拒绝H0,肥料显著提高根长。12.若上题方差齐性不成立,应采用何种修正?给出Welcht公式并计算新P值。答案:t=(2.7−2.3)/√(0.5²/15+0.4²/15)=2.40,df=26.6,P=0.024,结论不变。13.某实验室对同一批血清采用两种ELISA试剂盒,数据呈配对。差值d̄=0.12,sd=0.18,n=20,试进行双侧符号秩检验并给出近似P。答案:正秩和T+=150,查表得P=0.011,拒绝H0,两试剂系统偏差显著。14.若基因集富集分析(GSEA)中观察到NES=1.92,FDR=0.08,可否认为该基因集显著?答案:按常规FDR<0.05标准,不显著;但属边界结果,可结合生物学意义报告为“提示性”。15.为控制多重检验,若独立检验1000次,要求族错误率FWER<0.05,Bonferroni校正后单检验α′为多少?若改用BenjaminiHochberg,发现R=80,其中S=76,则FDR估计值?答案:α′=0.05/1000=5×10⁻⁵;FDR=76/80=0.95,提示需提高阈值。四、方差分析与实验设计16.三因素完全交叉设计:A(2)B(2)C(3),每单元3重复,共36观测。写出固定效应模型并给出总自由度分解。答案:Yijkl=μ+αi+βj+γk+(αβ)ij+(αγ)ik+(βγ)jk+(αβγ)ijk+εijkl;总35=1+1+2+2+2+2+4+24。17.若上题中C为区组变量,应改用何种模型?给出误差项变化。答案:混合模型,C随机;误差项改为ε(ijk)l,检验A、B及其交互时用C交互作误差,df=12。18.某农业试验采用裂区设计,主区为灌溉(2水平),副区为品种(3水平),共4区组。写出方差分析表结构并指出如何检验灌溉效应。答案:主区误差=区组×灌溉,df=3;副区误差=区组×品种+区组×灌溉×品种,df=15;灌溉用主区误差。19.若发现交互效应显著但主效应不显著,应如何解释与报告?答案:说明因子效应依赖于另一因子水平,应做简单效应分析,而非单独解释主效应。20.为检测时间趋势,研究者将实验按顺序分为5段,每段6观测,用正交多项式分解线性、二次趋势。给出对比系数并说明如何计算SS。答案:线性:−2,−1,0,1,2;二次:2,−1,−2,−1,2;SS=n(∑ciȲi)²/∑ci²,其中n=6。五、回归与相关21.某研究建立体重(kg)对体长(cm)的线性回归,得b1=0.82,R²=0.76,n=30,检验H0:β1=0的t值为?答案:se(b1)=0.82/√(R²/(1−R²)·(n−2))=0.82/√(0.76/0.24·28)=0.82/9.33=0.088,t=9.32。22.若发现残差呈漏斗形,应如何处理?答案:采用加权最小二乘或变换Y(如log),使方差稳定化。23.给出Logistic回归中优势比OR=1.45,95%CI:1.12−1.88,解释其含义。答案:暴露组成功概率是非暴露的1.45倍,真实OR有95%把握落在1.12−1.88,下限>1说明正向关联显著。24.为检验线性模型是否遗漏二次项,可引入I(x²)并做偏F检验,写出公式。答案:F=[(SSEr−SSEf)/q]/[SSEf/(n−p)],其中q=1,p为全模型参数。25.若多重共线性导致VIF>10,应如何改进?答案:删除或合并高度相关预测变量,或采用岭回归、主成分回归。六、多元与高维统计26.对基因表达矩阵(5000基因×40样本)进行PCA,发现PC1解释35%方差,PC2解释8%,前两个载荷向量如何可视化?答案:作双标图(biplot),样本点按处理组着色,基因向量以箭头表示,夹角余弦≈相关性。27.若PLSDA的Q²=0.42,permutation检验P=0.03,说明什么?答案:模型预测能力显著优于随机,但Q²<0.5提示过拟合风险,需减少成分或增加样本。28.给出高维线性判别分析中,当p>>n时为何会出现奇异协方差矩阵,如何解决?答案:样本协方差不满秩;可用收缩估计或先用PCA降维至n−1维。29.对微生物组计数表进行CLR变换后,欧氏距离为何等价于Aitchison距离?答案:CLR将成分数据映射到对数比空间,满足扰动不变性,且logratio内积与Aitchison定义一致。30.随机森林给出变量重要性MeanDecreaseAccuracy=5.3,如何计算?答案:对每棵树,随机置换某变量OOB样本,记录精度下降,跨树平均即得。七、生存分析与可靠性31.某临床试验随访时间(月):3,5,5+,8,10+,12,15+,20,求KaplanMeier估计12月生存率。答案:S(12)=(6/7)×(5/6)×(4/5)×(3/4)=0.571。32.若Cox模型中年龄每增加1岁,HR=1.04,95%CI含1,P=0.08,可否说年龄无影响?答案:统计上不显著,但点估计仍提示4%风险增加,需更大样本确认。33.给出指数分布参数λ的MLE为事件数/总人时,求其渐近方差。答案:Var(λ̂)=λ²/D,D为事件数。34.对数秩检验统计量近似χ²,其自由度如何确定?答案:组数−1。35.若生存曲线交叉,说明何问题?答案:比例风险假设不成立,应改用时间依赖协变量或分段模型。八、贝叶斯统计与计算36.设二项实验y=8,n=20,采用Beta(2,2)先验,求后验均数与95%可信区间。答案:后验Beta(10,14),均数=10/24=0.417;CI:qbeta(0.025,10,14)=0.22,qbeta(0.975,10,14)=0.63。37.给出MCMC中GelmanRubin统计量R̂=1.03,是否足够?答案:接近1,可接受,但建议R̂<1.01发表。38.若似然为Poisson,共轭先验为何?答案:Gamma。39.对高维回归,Horseshoe先验如何设置超参数?答案:全局尺度τ=n−1/2p−1/2,局部尺度λj~C+(0,1)。40.用Bayes因子BF10=5解释证据强度。答案:中等证据支持H1,按Jeffreys尺度。九、机器学习与组学应用41.对单细胞RNAseq,为何先进行高变基因筛选?答案:降低噪声,保留生物信号,提高聚类与轨迹精度。42.给出SVMRBF中γ=0.01,C=1,若训练误差0但测试误差高,如何调参?答案:γ过大导致过拟合,应减小γ或增加C。43.深度学习中,Dropout率0.5为何能防过拟合?答案:训练时随机失活相当于集成多个子网络,减少共适应。44.若LASSO筛选出20变量,但Bootstrap重复中仅8变量频率>0.8,说明什么?答案:选择不稳定,需增大样本或采用稳定性选择。45.对类别不平衡(1:9),如何调整随机森林?答案:采用classwt设置权重9:1,或下采样多数类。十、综合案例分析46.一项多中心随机对照试验,主要终点为连续型血压下降值,样本量估算:期望差Δ=5mmHg,合并σ=12,power=0.9,α=0.05双侧,求每组所需例数。答案:n=2(1.96+1.28)²12²/5²=2×10.5×144/25=121,取122。47.若期中分析采

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论