2026年健康数据专项训练押题试题及答案_第1页
2026年健康数据专项训练押题试题及答案_第2页
2026年健康数据专项训练押题试题及答案_第3页
2026年健康数据专项训练押题试题及答案_第4页
2026年健康数据专项训练押题试题及答案_第5页
已阅读5页,还剩17页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年健康数据专项训练押题试题及答案1.【单选】某队列研究纳入50000名35–64岁社区人群,随访10年,记录新发2型糖尿病3200例。基线时12000人HbA1c≥5.7%,其余HbA1c<5.7%。若10年内HbA1c≥5.7%组发生糖尿病2400例,<5.7%组发生800例,则HbA1c≥5.7%组相对于<5.7%组的归因危险度百分比(AR%)为A.60% B.65% C.70% D.75% E.80%2.【单选】在构建电子健康档案(EHR)预测模型时,对缺失率38%的“吸烟状态”变量进行多重插补。下列做法最可能引入“插补后分布偏移”的是A.以年龄、性别、BMI、饮酒作为预测变量,采用链式方程插补20次B.将“吸烟状态”视为二分类,使用logistic回归作为条件模型C.插补模型中未包含结局变量“急性心梗事件”D.对连续型预测变量做标准化后再插补E.合并20个插补数据集时采用Rubin规则3.【单选】某可穿戴设备24h光电容积描记(PPG)信号采样频率64Hz,欲提取心率变异性(HRV)频域指标LF(0.04–0.15Hz)。若采用4阶Butterworth带通滤波器,则根据奈奎斯特准则,最低有效数据时长至少为A.5s B.12.5s C.25s D.50s E.100s4.【单选】对1000名体检者同时测量指尖毛细血管血糖(CBG)与静脉血浆血糖(VPG),拟用Bland–Altman法评估一致性。若平均差值d̄=0.15mmol/L,差值标准差s=0.42mmol/L,则95%一致性界限(LoA)宽度为A.0.82mmol/L B.1.05mmol/L C.1.24mmol/L D.1.65mmol/L E.2.10mmol/L5.【单选】在健康大数据平台中,采用ApacheFlink对流式血压数据进行实时异常检测。若滑动窗口长度5min、滑动步长30s,事件时间特征允许最大延迟3min,则触发计算的最小水印(watermark)时间戳与当前处理时间之差不得超过A.30s B.90s C.180s D.300s E.330s6.【单选】某医院采用ICD-10编码进行疾病分类,对“急性ST段抬高型心肌梗死”映射SNOMEDCT时,下列最恰当的首选映射方式是A.直接匹配ICD-10编码I21.0至SNOMEDCT概念57054005B.采用WHO提供的ICD-10-SNOMEDCT简单映射表C.通过自然语言处理从出院记录提取实体后再映射D.使用UMLSMetathesaurus进行双向映射并人工复核E.将ICD-10文本标签向量化后做语义相似度匹配7.【单选】对200名受试者进行双能X射线吸收(DXA)体脂测量,同时用生物电阻抗(BIA)设备获取体脂率。若建立Passing–Bablok回归方程y=1.04x+1.8(单位%),则当DXA体脂率30%时,BIA对DXA的系统性比例误差为A.1.8% B.3.2% C.4.2% D.5.0% E.6.2%8.【单选】在联邦学习框架下,多家医院协同训练血糖预测模型而不共享原始数据。为防止模型更新泄露患者信息,最安全的技术组合是A.同态加密+梯度压缩B.差分隐私+安全聚合C.安全多方计算+模型蒸馏D.梯度扰动+参数剪枝E.本地差分隐私+联邦平均9.【单选】某研究使用英国生物银行(UKBiobank)全外显子组数据,拟评估罕见变异对心衰风险的影响。若采用SKAT-O检验,下列参数设置最能提高罕见变异(MAF<1%)检测效能的是A.变异权重β(MAF;a=1,b=25)B.设置MAF上限5%C.使用Bonferroni校正显著性阈值D.剔除同义变异E.纳入高频变异作为协变量10.【单选】对1200名老年人进行年度认知评估,采用潜类混合模型(LCMM)识别认知轨迹异质性。若最优模型显示3个潜类,BIC值分别为–8450、–8320、–8310,则依据BIC最小原则应选择的潜类数为A.1 B.2 C.3 D.4 E.需结合熵值再判断11.【单选】在健康数据治理中,对“可识别个人信息”进行去标识化时,HIPAASafeHarbor方法要求去除18类标识符,其中不包括A.入院日期 B.出院日期 C.出生年份 D.邮政编码前3位 E.设备标识序列号12.【单选】某研究团队利用24h尿液离子组学数据预测高血压,采用LASSO回归筛选特征。若λ_min对应模型含15个离子,λ_1se对应模型含8个离子,则选择λ_1se的主要优势是A.降低偏差 B.提高灵敏度 C.增强可解释性 D.减少计算量 E.避免过拟合13.【单选】对ICU多参数监护仪的时序生理信号进行异常检测,采用Transformer架构。若输入序列长度1024步、步长1s、嵌入维度128,则自注意力机制的计算复杂度约为A.O(128×1024)B.O(128²×1024)C.O(1024²×128)D.O(1024³) E.O(128×1024²)14.【单选】在健康数据可视化中,采用“森林图”展示多中心Meta分析结果,若某研究权重12.5%,其95%CI横线与无效线相交,则下列说法正确的是A.该研究效应量无统计学意义B.合并效应量一定无意义C.异质性一定较高D.需用随机效应模型重新合并E.该研究对总合并结果影响为零15.【单选】对5000名儿童进行生长发育纵向随访,采用SuperImpositionbyTranslationAndRotation(SITAR)模型拟合身高生长曲线。若模型随机效应包含个体“大小”“时间”“强度”三个参数,则“强度”参数主要解释A.成年靶身高差异 B.青春期突增幅度差异 C.生长速率个体差异 D.骨成熟度差异 E.出生身长差异16.【单选】在健康数据质量评估中,采用“数据元素完整度(DEC)”指标,若某字段在10000条记录中缺失450条,无效50条,则DEC为A.90% B.94.5% C.95% D.95.5% E.99%17.【单选】某市疾控中心构建流感样病例(ILI)预测模型,采用LSTM网络,输入为过去7周门诊ILI%序列。若采用滑动窗口验证,训练集、验证集、测试集按7:1:2划分,则时间窗滑动步长最优为A.1周 B.2周 C.3周 D.4周 E.7周18.【单选】在健康数据共享协议中,采用“数据使用协议(DUA)”约束第三方。下列条款最能体现“最小必要原则”的是A.允许数据接收方保留数据10年B.允许数据接收方再分发给合作机构C.限定数据仅用于“肺癌早筛算法研发”D.允许数据接收方将数据用于商业保险定价E.允许数据接收方将数据出境至母公司19.【单选】对1000名受试者进行口腔菌群16SrRNA测序,若采用DEseq2进行差异分析,下列预处理步骤最能减少假阳性的是A.抽平至最小样本读数 B.不做任何过滤 C.剔除平均相对丰度<0.01%的OTU D.对计数数据做log转换 E.用PCA降维后再分析20.【单选】在健康数据伦理审查中,IRB对“风险”评估采用“数据风险矩阵”,若数据敏感度为“高”,数据识别度为“低”,数据规模为“全基因组”,则风险等级为A.最小 B.低 C.中等 D.高 E.无法判定21.【多选】某研究采用可穿戴加速度计识别老年人跌倒事件,采样频率100Hz。下列特征对提高跌倒/日常活动分类器召回率最有帮助的是A.向量幅值(VM)峰值 B.小波熵 C.倾斜角 D.步频 E.信号幅值面积(SMA)22.【多选】在健康数据清洗中,对实验室检验“肌酐”异常值进行识别,下列规则合理的是A.低于检测下限记为缺失 B.高于3倍99分位数记为异常 C.同一患者相邻两次检测差值>50%且绝对值>20μmol/L触发复核 D.性别特异5倍中位数绝对偏差(MAD)之外记为异常 E.直接删除所有异常值23.【多选】对电子病历文本进行去身份化,下列属于“准标识符”的是A.婚姻状况 B.职业 C.民族 D.出生日期 E.就诊科室24.【多选】在健康数据安全传输中,采用TLS1.3协议,下列加密套件可提供前向保密性的是A.TLS_AES_128_GCM_SHA256 B.TLS_CHACHA20_POLY1305_SHA256 C.TLS_AES_256_GCM_SHA384 D.TLS_RSA_WITH_AES_256_GCM_SHA384 E.TLS_ECDHE_RSA_WITH_AES_128_GCM_SHA25625.【多选】对5000名体检者进行颈动脉超声IMT测量,若建立参考范围,下列统计方法可取的是A.非参数2.5–97.5百分位数 B.稳健ROS法剔除离群值后取±1.96SD C.分性别、年龄组建立quantile回归曲线 D.直接采用制造商提供的固定切点 E.用Box–Cox转换后估计正态分布界值26.【多选】在健康数据挖掘竞赛中,为防止“测试集过拟合”,下列策略有效的是A.限制每日提交次数 B.采用私有盲测榜 C.设置算法可解释性评审 D.提供合成测试数据 E.公开测试集标签27.【多选】对ICU脓毒症早期预警模型进行外部验证,下列指标可同时反映区分度与校准度的是A.Brier分数 B.净重新分类指数(NRI) C.综合判别改善指数(IDI) D.标准化净获益(sNB) E.自举法校准斜率28.【多选】在健康数据可视化仪表盘设计中,采用“视觉编码”原则,下列做法合理的是A.用红色表示血压下降、绿色表示上升 B.用面积而非半径编码数值大小 C.用同一色调不同亮度表示有序分类 D.用3D饼图展示占比 E.用动画仅突出异常变化29.【多选】对100名糖尿病患者进行连续葡萄糖监测(CGG),计算目标范围内时间(TIR,3.9–10.0mmol/L)。下列情况需将数据标记为“不可靠”的是A.每日校准次数<2次 B.传感器脱落时间>1h C.每日缺失数据>30% D.平均绝对相对差(MARD)>15% E.信号漂移>0.5mmol/L/h30.【多选】在健康数据治理中,建立“数据血缘”系统的核心功能包括A.记录字段级转换规则 B.追踪数据源头 C.记录访问日志 D.自动发现敏感字段 E.提供影响分析31.【判断】采用SMOTE算法处理健康数据类别不平衡时,合成样本总是位于少数类样本的凸包内。( )32.【判断】在健康数据匿名化中,k-匿名模型保证任意等价类至少包含k条记录,因此无法防止属性泄露。( )33.【判断】对心率序列进行频谱分析时,采用Welch法比周期图法更能降低估计方差。( )34.【判断】在健康数据共享平台中,采用“数据沙箱”模式可完全消除隐私泄露风险。( )35.【判断】对基因表达矩阵进行log2转换后,其协方差矩阵与原始矩阵的秩相同。( )36.【判断】在健康数据质量评估中,若两个数据源对同一字段的一致性达到98%,则无需进一步核查。( )37.【判断】对医学影像进行联邦学习时,采用梯度压缩一定降低模型精度。( )38.【判断】在健康数据可视化中,采用色盲友好配色方案可提高信息可达性。( )39.【判断】对体检时间序列数据采用Prophet模型预测时,节假日效应必须手动指定。( )40.【判断】在健康数据伦理中,获得“泛化同意”意味着未来任何研究无需再次审查。( )41.【填空】对1000名受试者进行空腹血糖(FPG)与糖化血红蛋白(HbA1c)线性回归,得方程̂y=0.85x+1.92其中x单位为mmol/L,y单位为%。若某患者FPG=7.5mmol/L,则模型预测HbA1c为________%,95%置信带宽度与________(统计量)成正比。42.【填空】在健康数据脱敏中,采用“噪声添加”法对年龄进行ε-差分隐私保护,若ε=0.1,则隐私预算越________,噪声尺度b越________。43.【填空】对24h动态血压监测数据,采用“清晨血压surge”定义:起床后2h平均收缩压与起床前2h平均收缩压之差。若起床后数据缺失30%,则依据________原则,该日清晨surge值应标记为缺失。44.【填空】在健康数据版本控制中,采用“语义化版本号”格式MAJOR.MINOR.PATCH,若数据库schema新增字段但向下兼容,则应升级________位。45.【填空】对500名儿童进行骨龄X线判读,若Cohen’sκ=0.82,则表明两位判读医师的可靠性接近________水平。46.【简答】说明采用“联邦迁移学习”解决多中心脑影像数据异质性问题的技术路线,限150字。47.【简答】阐述在健康数据实时流处理中“exactly-once”语义的重要性,并给出Flink实现要点,限150字。48.【简答】说明在罕见病注册研究中采用“主数据管理(MDM)”确保患者唯一性的策略,限150字。49.【简答】解释“数据可用性偏差(availabilitybias)”对健康预测模型外部效度的影响,限150字。50.【简答】概述采用“区块链”技术实现临床试验数据溯源的优势与局限,限150字。51.【计算】某医院采用新算法估算肾小球滤过率(eGFR),对100名患者同时用经典CKD-EPI公式作为参考。结果如下:算法均值72.3mL/min/1.73m²,CKD-EPI均值70.0mL/min/1.73m²,差值标准差8.4mL/min/1.73m²。(1)计算95%一致性界限;(2)若临床可接受误差为±10mL/min/1.73m²,判断新算法是否满足要求,并给出统计学依据。52.【计算】对1000名体检者进行颈围(NC)与阻塞性睡眠呼吸暂停(OSA)事件数的Poisson回归,得ln(μ)=-0.42+0.08x其中x为NC(cm)。若某人NC增加5cm,求OSA事件数相对危险度(RR)及95%CI(假设NC测量误差可忽略)。53.【计算】某可穿戴设备心率传感器在100次同时ECG测量中,真阳性88次,假阳性5次,假阴性7次。(1)计算敏感度、特异度、F1分数;(2)若人群房颤患病率1%,求阳性预测值(PPV)。54.【计算】对200名受试者进行双样本t检验,比较干预前后IL-6水平变化,得差值均值0.45pg/mL,差值标准差1.20pg/mL。(1)计算Cohen’sd;(2)若期望检测到d=0.40,α=0.05,power=90%,求所需样本量(给出公式与结果)。55.【计算】某健康数据平台采用AES-256加密存储,密钥由HSM管理。若暴力破解尝试次数2²⁵⁶,单次尝试1ns,求理论最长时间(年),并说明实际不可行原因。56.【案例分析】阅读摘要:某多中心回顾性队列纳入2018–2022年45万例住院患者,构建深度学习模型预测院内跌倒,AUC0.91(95%CI0.90–0.92),外部验证AUC0.83。模型输入包括287项EHR变量。研究未公开代码,仅提供模型API。问题:(1)指出潜在偏倚来源;(2)提出提高可重复性的三项措施;(3)说明如何评估模型公平性。57.【案例分析】某市疾控中心发布“流感疫苗有效性(VE)”快速评估报告,采用检测阴性设计(TND),2025年1–3月收集流感样病例8000例,经PCR确诊流感1200例,其中疫苗接种480例;检测阴性6800例,其中接种3200例。问题:(1)计算VE及95%CI;(2)指出TND设计的关键假设;(3)若接种与检测间隔<14天,应如何处理?58.【案例分析】某基因测序公司推出“全基因组多基因风险评分(PRS)”服务,对2型糖尿病给出风险分层。消费者小王收到报告提示“高风险”,但其家族史阴性、BMI正常。问题:(1)解释PRS与家族不一致的可能原因;(2)说明小王应如何与医生沟通;(3)列出两项PRS报告必须包含的局限性声明。59.【案例分析】某医院上线“AI辅助诊断肺炎”系统,部署在CT影像工作流程中,实时提示疑似病灶。放射科李医生发现系统对右中叶磨玻璃影敏感性低,且频繁误报血管影。问题:(1)指出可能导致敏感性低的三种技术原因;(2)提出两项持续监控模型性能指标;(3)说明如何建立“人机协同”反馈闭环。60.【案例分析】某健康App收集用户步数、睡眠、心率数据,与保险公司合作推出“动态保费”产品。用户张先生发现夜间心率数据被用于保费上调15%,而隐私政策未明确提及。问题:(1)指出该行为违反的数据伦理原则;(2)提出三项整改措施;(3)说明如何设计“用户可控”数据共享机制。——答案与解析——1.CAR%=(Ie–Iu)/Ie×100%=(2400/12000–800/38000)/(2400/12000)×100%≈70%。2.C插补模型若不含结局变量,将导致预测分布与真实分布偏移,影响下游效应估计。3.CLF最低频率0.04Hz,周期25s,按奈奎斯特准则至少需25s才能分辨。4.DLoA宽度=1.96×s×2≈1.65mmol/L。5.C最大延迟3min=180s,水印延迟超过此值将丢弃数据。6.DUMLS双向映射并人工复核可解决语义粒度差异。7.C比例误差=(1.04–1)×30%≈1.2%,截距1.8%,总系统误差≈4.2%。8.B差分隐私防止成员推断,安全聚合防止梯度泄露。9.Aβ(1,25)权重函数对罕见变异赋予更高权重,提高SKAT-O效能。10.BBIC最小原则选2类,3类比2类BIC降低<10,不支持增加复杂度。11.CHIPAASafeHarbor允许保留出生年份,其余需去除。12.Eλ_1se选择更稀疏模型,降低过拟合风险。13.C自注意力复杂度O(L²d),L=1024,d=128。14.A95%CI与无效线相交即效应量无统计学意义。15.BSITAR“强度”参数解释青春期突增幅度差异。16.DDEC=(10000–450–50)/10000=95.5%。17.A步长1周可充分利用数据,避免信息泄漏。18.C限定用途体现最小必要原则。19.C剔除低丰度OTU减少假阳性。20.C高敏感度+低识别度+大规模→中等风险。21.ABEVM峰值、小波熵、SMA均与跌倒冲击相关。22.ABCDE直接删除可能丢失真实极端值。23.BCD职业、民族、出生日期可辅助重识别。24.ABCTLS1.3仅支持前向保密套件,DE为旧版RSA密钥交换。25.ABCE制造商固定切点忽略人群差异。26.ABC限制提交、盲测、可解释评审均可降低过拟合。27.AEBrier分数与校准斜率同时反映区分与校准。28.BCE面积编码、亮度有序、动画突出异常均合理。29.BCDE校准不足、脱落、MARD高、漂移大均影响TIR。30.ABE血缘系统需记录转换、源头、影响分析。31.错误SMOTE可生成凸包外合成样本。32.正确k-匿名无法防止属性泄露,需l-多样性或t-closeness。33.正确Welch法分段平均降低方差。34.错误数据沙箱降低但无法完全消除风险。35.正确log2为单调变换,不改变矩阵秩。36.错误高一致性仍需核查2%不一致原因。37.错误梯度压缩结合量化与误差反馈可保持精度。38.正确色盲友好配色提高可达性。39.错误Prophet可自动检测节假日。40.错误泛化同意仍需伦理框架与退出机制。41.8.3%,与差值标准误及t临界值成正比。42.小,大;ε越小噪声越大。43.缺失机制MCAR或临床合理性,标记缺失。44.MINOR位。45.几乎完美(0.81–1.00)。46.技术路线:①源域预训练3D-CNN特征提取器;②联邦平均共享权重;③目标域用少量本地数据微调全连接层;④采用差分隐私梯度扰动防止泄露;⑤通过迁移学习对齐特征空间,缓解设备、序列差异。47.Exactly-once保证每条记录仅一次计入结果,防止重复或丢失。Flink实现:启用checkpoint机制,采用两阶段提交(2PC)sink,幂等写外部系统,结合事务性Kafka生产者。48.策略:①建立统一身份标识(OID)体系;②采用确定性匹配算法(姓名+出生日期+性别+父/母名);③引入人工复核可疑匹配;④设置主数据黄金记录;⑤定期数据治理审计。49.Availabilitybias指训练数据过度代表易获得人群(如城市、住院患者),导致模型在边缘人群表现下降,外部效度降低,需通过重采样、领域适应、公平性约束缓解。50.优势:不可篡改、时间戳、去中心化溯源;局限:性能低、存储开销大、隐私链上透明、法规适配不足、智能合约漏洞风险。51.(1)LoA=0.15±1.96×8.4→(–16.3,16.6)mL/min/1.73m²;(2)可接受±10,LoA宽度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论