版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中医药统计学与软件模拟试题及答案一、单项选择题(每题2分,共20分)1.在中医药临床研究中,若欲比较两种汤剂对“气虚证”患者症状积分改善的差异,且数据服从正态分布、方差齐性,首选的假设检验方法是A.配对t检验B.两独立样本t检验C.Mann-WhitneyU检验D.卡方检验答案:B解析:症状积分改善值为计量资料,两组独立、正态、方差齐,故选两独立样本t检验。A用于配对设计;C为非参数;D用于计数资料。2.某中医院开展“三伏贴”疗效观察,记录患者“发作次数”属罕见事件,且样本量小、方差远大于均数,宜采用的描述指标为A.均数±标准差B.中位数(四分位距)C.几何均数D.率答案:B解析:罕见事件且分布极度右偏,均数受极端值影响大,中位数与四分位距稳健。3.用R语言进行Logistic回归分析“是否显效”与“年龄、性别、舌质、脉象”的关系,下列代码正确的是A.glm(显效~年龄+性别+舌质+脉象,data=dat,family=gaussian)B.glm(显效~年龄+性别+舌质+脉象,data=dat,family=binomial)C.lm(显效~.,data=dat)D.gbm(显效~.,data=dat,distribution="gaussian")答案:B解析:二分类因变量需指定family=binomial,link默认logit;A误用gaussian;C为线性回归;D为提升法,非基础Logistic。4.对“舌象”变量设“淡红=1,红=2,绛=3,紫暗=4”,在统计模型中直接纳入,则A.视为连续变量,系数解释为单位色阶变化对结局的logORB.需设置3个哑变量,以“淡红”为参照C.可视为等级变量,用1个线性项即可D.必须删除,避免多重共线答案:B解析:舌象为无序多分类,需哑变量化;若视为连续则强行等距,不合理;C仅当确证等级且效应线性时可用。5.在交叉设计试验中,若存在显著的顺序效应(sequenceeffect),则A.可直接忽略,因处理效应已平衡B.应在混合效应模型中加入顺序项与处理×顺序交互项C.仅说明随机化失败,应重做试验D.采用配对t检验即可消除答案:B解析:顺序效应提示不同给药顺序对结局有影响,需在统计模型中控制,否则处理效应估计偏倚。6.用Python的statsmodels库拟合Poisson回归出现“过度离散”,首选的修正命令为A.smf.glm("发作次数~疗法",data=df,family=sm.families.Poisson()).fit()B.smf.glm("发作次数~疗法",data=df,family=sm.families.NegativeBinomial()).fit()C.smf.ols("发作次数~疗法",data=df).fit()D.smf.logit("发作次数~疗法",data=df).fit()答案:B解析:负二项回归通过引入随机效应处理过度离散;A未修正;C为线性;D为二分类。7.对“脉象”进行主成分分析(PCA),若前三个主成分累计贡献率为82%,则A.可直接用三维散点图代替原8维脉象指标B.说明信息损失18%,不可接受C.必须保留全部8维,否则辨证不准D.贡献率过低,应改用因子分析答案:A解析:82%已能反映大部分变异,可用于降维可视化;信息损失是否可接受取决于临床解释力。8.在Meta分析中,评估发表偏倚最常用A.Egger回归B.Q检验C.I²统计量D.Peto法答案:A解析:Egger回归通过回归截距检验小样本效应;B、C为异质性;D为效应合并方法。9.若随机对照试验的“随机化”采用“中心分层、区组随机”,则统计推断时应A.忽略分层,因随机化已保证平衡B.在线性模型中加入“中心”作为固定效应C.仅用Fisher精确检验D.必须采用贝叶斯方法答案:B解析:分层因素可能关联结局,纳入模型可提高精度、减少偏倚。10.用SPSS进行重复测量方差分析,若Mauchly球形检验p<0.05,应A.直接报告未校正结果B.采用Greenhouse-Geisser或Huynh-Feldt校正C.改用多水平模型D.删除异常点答案:B解析:球形假设不满足时,需用ε校正自由度,控制Ⅰ型错误。二、多项选择题(每题3分,共15分)11.下列哪些方法可用于处理中医药数据中的“高维小样本”问题A.LASSO回归B.弹性网C.偏最小二乘判别分析(PLS-DA)D.支持向量机递归特征消除(SVM-RFE)E.单因素t检验筛选答案:ABCD解析:高维小样本易过拟合,LASSO、弹性网、PLS-DA、SVM-RFE均可降维或正则化;E未考虑多重比较及变量间相关,易失真。12.关于“中医证候疗效评价量表”的信度指标,正确的有A.Cronbachα>0.7表示内部一致性良好B.重测信度ICC<0.4说明稳定性差C.分半信度Spearman-Brown系数越接近1越好D.Kappa值可用于评定评定者间信度E.信度高一定意味着效度高答案:ABCD解析:E错误,信度仅反映一致性,效度关注是否测到真实特征,二者不必然同步。13.在R语言中,进行倾向性评分匹配(PSM)时,下列包与函数对应正确的有A.MatchIt::matchit()B.twang::ps()C.Matching::Match()D.optmatch::pairmatch()E.tableone::CreateTableOne()答案:ABCD解析:E用于基线描述,非匹配算法本身。14.下列哪些情况适合采用非参数检验A.样本量小且严重偏离正态B.数据存在大量截尾值(如>50%)C.等级资料D.方差悬殊且无法转换E.已知总体服从正态,样本量>100答案:ABCD解析:E大样本时中心极限定理保证均数近似正态,可用参数检验。15.对“中药复方网络药理学”数据,下列网络指标可量化“关键靶点”的有A.度中心性(Degree)B.接近中心性(Closeness)C.特征向量中心性(Eigenvector)D.边介数(Betweenness)E.网络直径(Diameter)答案:ABCD解析:E描述网络整体规模,不针对节点重要性。三、判断题(每题1分,共10分)16.中医药数据若出现“0”值过多,可直接加1后取对数转换。答案:错解析:加1后log仅能缓解,不能解决过量零问题,应考零膨胀模型(ZIP、ZINB)。17.在多重比较中,Bonferroni法比FDR法更容易出现Ⅱ型错误。答案:对解析:Bonferroni控制族错误率更严格,检验效能下降。18.对同一数据先做单因素筛选p<0.05的变量,再做多因素回归,可有效避免过拟合。答案:错解析:两步法仍过拟合,标准误缩小,置信区间偏窄,应使用正则化或预先设定模型。19.若Logistic回归的ROC曲线下面积AUC=0.5,说明模型无判别力。答案:对解析:AUC=0.5等价于随机分类。20.在生存分析中,若Kaplan-Meier曲线交叉,说明PH假设成立。答案:错解析:曲线交叉提示风险比非恒定,PH假设可能不成立,应考时依Cox或分段模型。21.对“舌苔厚度”采用超声影像自动识别,连续测量3次取平均,可减少随机测量误差。答案:对解析:重复测量平均可降低随机误差,提高精度。22.随机效应Meta分析中,τ²=0表示研究间无异质性。答案:对解析:τ²为异质性方差,0即所有差异由抽样误差解释。23.在Python中,pandas.DataFrame的缺失值可以用df.fillna(df.mean())填补,对分类变量同样适用。答案:错解析:分类变量均值无意义,应使用众数或单独类别填补。24.若某中药成分浓度与毒性呈“U”型关系,线性模型系数显著,可放心报告线性关联。答案:错解析:U型关系需引入二次项,仅线性项显著不代表真实关联。25.对同一批“脉图”数据,小波变换去噪后再提取特征,可提高后续分类模型稳健性。答案:对解析:小波去噪保留关键波形,抑制高频噪声,提升信噪比。四、填空题(每空2分,共20分)26.在R语言中,使用______包中的______函数可一次性输出Logistic回归的OR值及95%CI。答案:epiDisplay,logistic.display27.若某RCT的主要结局为“治疗3个月后‘证候积分’下降≥50%”,则该指标属于______变量(填变量类型)。答案:二分类28.对“针灸得气”量表进行探索性因子分析,KMO=0.85,Bartlett球形检验p<0.001,说明______。答案:数据适合进行因子分析29.在Python中,使用sklearn.preprocessing的______类可将“舌质”多分类变量转换为哑变量,并避免虚拟变量陷阱。答案:OneHotEncoder,drop='first'30.若Cox回归中某处理变量HR=0.65(95%CI:0.48–0.88),则该处理使风险下降约______%。答案:35解析:(1−0.65)×100%=35%。31.对“中药提取物抑癌实验”进行样本量估算,已知对照组平均瘤重3.2g,期望新药降低1g,合并标准差1.5g,双侧α=0.05,power=0.9,用两样本t检验估算,每组需______只小鼠。答案:48解析:通过公式或软件计算,n=2×[(Z_{1−α/2}+Z_{1−β})×σ/δ]²≈47.6,向上取整48。32.在R中,使用______函数可将数据框dat按“证型”分层随机抽样,使训练集与测试集各证型比例一致。答案:caret::createDataPartition33.若“中药指纹图谱”相似度评价采用向量夹角余弦,余弦值=0.98,说明两份图谱______。答案:高度相似34.对“穴位贴敷”不良反应进行信号检测,首选的disproportionality方法为______。答案:报告比值比(ROR)或比例报告比(PRR)35.在Meta分析森林图中,菱形中心点位于无效线左侧且不与无效线相交,提示合并效应______。答案:具有统计学显著性五、简答题(每题10分,共30分)36.某中医院开展“加味四君子汤治疗脾虚证”RCT,主要结局为“证候积分”变化,基线积分非正态,治疗4周后积分差值近似正态但方差不齐。请给出完整分析思路,包括数据清洗、统计描述、假设检验、敏感性分析,并写出关键R代码片段。答案与解析:(1)数据清洗:①用dplyr::filter剔除未完成试验且缺失>20%变量者;②对缺失值采用多重填补(mice包mice()),设置m=5,method="pmm";③离群值用箱式图标记,若超出1.5×IQR,临床核实后决定保留或缩尾。(2)统计描述:基线积分用M(P25,P75)描述;差值用mean±SD;绘制差值直方图+QQ图验证近似正态。(3)假设检验:①方差不齐,采用Welch校正t检验:t.test(差值~分组,data=dat,var.equal=FALSE)②非参数校验:Wilcoxon秩和检验作为敏感性分析。(3)效应量:计算Cohen’sd及95%CI,用effsize包cohen.d()。(4)敏感性分析:①符合方案集(PP)与意向性分析(ITT)对比;②对基线不均衡变量(如年龄)作协变量调整,用ANCOVA:lm(治疗后积分~分组+基线积分+年龄,data=dat)③置换检验(coin包)验证稳健性。(5)结果报告:按CONSORT流程图列出;显著性水平α=0.05;提供差值adjustedmean及95%CI。37.试述如何利用Python构建“中药-成分-靶点-疾病”多层网络,并识别潜在关键靶点,给出主要库、步骤及核心代码。答案与解析:(1)库导入:importpandasaspd,numpyasnpimportnetworkxasnxfromcollectionsimportdefaultdictimportmatplotlib.pyplotasplt(2)数据准备:①中药-成分:TCMSP数据库导出OB≥30%、DL≥0.18;②成分-靶点:SwissTargetPrediction;③靶点-疾病:DisGeNET,筛选score>0.1。(3)构建多层图:G=nx.MultiGraph()G.add_nodes_from(herb_list,bipartite=0)G.add_nodes_from(comp_list,bipartite=1)G.add_nodes_from(target_list,bipartite=2)G.add_nodes_from(disease_list,bipartite=3)forh,cinherb_comp_edges:G.add_edge(h,c,layer='herb-comp')forc,tincomp_tar_edges:G.add_edge(c,t,layer='comp-tar')fort,dintar_dis_edges:G.add_edge(t,d,layer='tar-dis')(4)关键靶点识别:①度中心性:deg=nx.degree(G,nbunch=target_list)②边介数:bet=nx.betweenness_centrality(G,k=1000)③子图提取“comp-tar-dis”投影:proj=jected_graph(G,target_list)pr=nx.pagerank(proj)④综合评分:score={n:0.4deg[n]+0.3bet[n]+0.3*pr[n]fornintarget_list}top_targets=sorted(score,key=score.get,reverse=True)[:20](5)可视化:plt.figure(figsize=(12,12))pos=nx.spring_layout(proj,k=0.3)nx.draw_networkx_nodes(proj,pos,nodelist=top_targets,node_color='r',alpha=0.7)nx.draw_networkx_labels(proj,pos,labels={n:nfornintop_targets},font_size=8)plt.axis('off');plt.show()(6)验证:对top_targets进行GO/KEGG富集,看是否与疾病通路一致;用Cytoscape美化导出。38.某研究收集“脉象仪”采集的寸关尺三部脉搏波,每部采样频率500Hz,时长30s,共15000点。欲建立“脉弦与否”的机器学习分类模型,请给出完整技术路线,含信号预处理、特征工程、模型选择、超参数优化、性能评估,并说明如何解决类别不平衡。答案与解析:(1)信号预处理:①去基线漂移:高通滤波0.5Hz;②去噪:Daubechies6小波软阈值;③周期分割:用峰值检测找主波,取完整周期≥30个,不足者补零或剔除;④归一化:将幅值缩放到[0,1],消除个体振幅差异。(2)特征工程:①时域:收缩期峰值、舒张期谷值、重搏波高度、脉率、K值(硬度指数);②频域:FFT提取前10次谐波幅值;③非线性:近似熵ApEn、样本熵SampEn、Lempel-Ziv复杂度;④时频:连续小波变换能量比(E_{scale}/E_{total})分5频段;⑤特征选择:Boruta-SHAP混合筛选,保留重要性>0.5%者。(3)类别不平衡:①收集阶段:增加弦脉样本;②算法:SMOTE过采样+TomekLinks清洗;③模型:采用class_weight='balanced';④评价:关注F1、AUC、PR曲线,避免仅用准确率。(4)模型选择:①基线:Logistic回归;②树模型:RandomForest、XGBoost;③深度学习:1D-CNN+BiLSTM;④集成:Stacking(RF+XGB+CNN)+Logistic元模型。(5)超参数优化:Optuna框架,贝叶斯搜索,10折分层交叉验证,优化目标=最大化AUC,迭代200次。(6)性能评估:①外部验证:独立医院采集120例;②解释:SHAPsummary查看全局特征贡献;③校准:PlattScaling校正概率;④临床决策曲线(DCA)评估净收益。(7)代码片段(RandomForest示例):fromimblearn.pipelineimportPipelinefromimblearn.over_samplingimportSMOTEfromsklearn.ensembleimportRandomForestClassifierfromsklearn.metricsimportroc_auc_score,classification_reportpipe=Pipeline([('smote',SMOTE(k_neighbors=5)),('clf',RandomForestClassifier(n_estimators=1000,max_depth=None,class_weight='balanced',random_state=42))])param={'clf__max_depth':[10,20,None],'clf__min_samples_split':[2,5]}grid=GridSearchCV(pipe,param,cv=StratifiedKFold(10),scoring='roc_auc')grid.fit(X_train,y_train)print(grid.best_score_,classification_report(y_test,grid.predict(X_test)))六、综合应用题(25分)39.研究背景:为评价“清热解毒方”联合常规西药治疗急性扁桃体炎(中医辨证“风热犯咽”)的有效性与安全性,某中心开展实用型整群随机对照试验。共纳入24个班级(群),随机12班接受联合治疗(干预组),12班仅常规西药(对照组)。主要结局:①咽痛VAS评分(0–10)随时间变化;②退热时间(生存数据)。次要结局:③中医证候积分;④不良反应率。数据特点:班级内学生相关(ICC≈0.08),重复测量5次(0h、6h、12h、24h、48h),部分学生缺失一次测量,退热时间存在右删失。问题:(1)请写出分析咽痛VAS纵向数据的多水平线性混合效应模型方程(含固定效应、随机效应、协方差结构),并给出R(lme4或nlme)与Python(statsmodels或linearmodels)两套代码。(8分)(2)退热时间拟采用Cox脆弱模型(frailtymodel)以校正群相关,写出R(survival包)与Python(lifelines)核心代码,并解释脆弱分布选择gamma的理由。(5分)(3)为控制基线不均衡,拟进行倾向性评分加权(IPTW),请给出构建PS模型、计算权重、诊断平衡性、加权后分析咽痛AUC_{0–48h}的完整R代码,并用cobalt包绘图。(7分)(4)若欲进行多重比较校正,请比较Bonferroni、Holm、FDR三种策略对次要结局检验效能的影响,并给出模拟结果(附代码与图)。(5分)答案与解析:(1)模型方程:VAS_{ijt}=β_0+β_1Group_i+β_2Time_t+β_3Group_i×Time_t+β_4Age_{ij}+β_5Sex_{ij}+β_6BaseVAS_{ij}+u_{0i}+u_{1i}Time_t+ε_{ijt}其中u_i~N(0,Ψ),ε_{ijt}~N(0,σ²I);Ψ为2×2非结构化矩阵。R代码(nlme):library(nlme)fit.lme<lme(VAS~Group*Time+Age+Sex+BaseVAS,random=~Time|ClassID,correlation=corAR1(form=~Time|ClassID),data=df,method="REML")Python代码(statsmodels):importstatsmodels.apiassmimportstatsmodels.formula.apiassmfvc={"ClassID":"0+Time"}fit=smf.mixedlm("VAS~Group*Time+Age+Sex+BaseVAS",data=df,groups=df["ClassID"],vc_formula=vc,use_reml=True).fit()(2)Cox脆弱模型:R:library(survival)fit.cox<coxph(Surv(time,event)~Group+Age+Sex+BaseTemp+frailty(ClassID,distribution="gamma"),data=df)Python:fromlifelinesimportCoxPHFitterfromlifelines.datasetsimportload_rossicph=CoxPHFitter(penalizer=0.1,l1_ratio=0)cph.fit(df,duration_col='time',event_col='event',strata=['Clas
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026秋招:歌尔股份面试题及答案
- 2026秋招:富春江通信集团笔试题及答案
- 2025年员工年度聚餐合同协议
- 健身房会员管理系统开发合同协议
- 保密协议2026年股东会团队版本
- 2025年人工智能医疗影像识别协议
- 中小学教师岗位职责汇编(2026年修订)
- 2026年春季学期XX市第一中学高三年级二轮复习备考推进会材料:冲刺高考的学科复习策略
- 2025-2026学年秋季学期初一年级(7)班班主任班级管理工作总结:班级文化建设
- 1.2 孟德尔的豌豆杂交实验(二)(第1课时) 课件 高中生物新人教版必修2(2022-2023学年)
- 2026广东惠州市博罗县城乡管理和综合执法局招聘编外人员55人考试参考试题及答案解析
- 2026台州三门金鳞招商服务有限公司公开选聘市场化工作人员5人备考考试题库及答案解析
- 江西省南昌市2025-2026学年上学期期末九年级数学试卷(含答案)
- 信息化培训考核管理制度
- 体育培训教练员制度
- 县医院医保基金管理制度(3篇)
- 建筑钢结构防火技术规范
- 低空智能-从感知推理迈向群体具身
- 管道壁厚计算表
- 内镜进修汇报
- 春节后复工“收心会”会议纪要
评论
0/150
提交评论