雨课堂学堂在线学堂云《医学数据挖掘（湖北医药学院）》单元测试考核答案

上传人：z*** IP属地：贵州上传时间：2026-04-24 格式：DOCX 页数：24 大小：72.52KB 积分：15 举报 版权申诉

已阅读5页，还剩19页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第1题影响数据质量问题的因素有()。A准确性、完整性、一致性B相关性、时效性C可信性、可解释性D以上都是第2题有关数据质量不正确的说法是()。A错误的数据将可能产生有害于决策的结果。B因为数据量很大,所以数据质量差一些也对机器学习没多大影响。C数据预处理的重要目的是提高机器学习结果的质量。D从业务系统提取的脏数据需要预处理才能进行建模工作第3题在哪些环节中可能引起数据质量问题()。A数据清洗B数据加工C数据变换D数据传输第4题数据的预处理不包括()。A数据审核B数据筛选C数据排序D图标展示第5题数据预处理一般包括哪些过程()。A数据存储、数据更新、数据清洗、数据变换B数据存储、数据清洗、数据集成、数据变换C数据清洗、数据集成、数据变换、数据归约D数据清洗、数据集成、数据归约、数据分析第6题下面哪一项不是属于数据归约的策略()。A维归约B数量归约C数据压缩D属性构造第7题转换创建并保存后的文件后缀名是()。AktrBkjbCkbjDkrt第8题大数据预处理的方法不包含以下哪个选项?()A数据清洗B数据变换C数据采集D数据规约第9题数据预处理()过程由前到后分为三个阶段,哪项除外?()A数据抽取B数据转换C数据加载D数据整合第10题数据预处理的任务不包括()。A数据分类B数据清洗C数据规范化和离散化D特征提取与特征选择第11题下列不属于数据预处理原因的是()。A数据可能存在缺失、错误、不一致等问题B数据有可能不能很好地反映潜在的模式C有些数据属性是无用的或者冗余的D数据量过于庞大第12题数据审计是数据预处理的一个手段,其不包括()。A可视化审计B自定义审计C预定义审计D后定义审计第13题关于一元线性回归分析的说法错误的是()。A只有一个自变量和一个因变量的线性回归模型叫一元线性回归模型B在各种回归分析中,一元线性回归分析是整个回归分析的基础C为了得到尽可能准确的模型参数,需要借助于最小二乘法,随机选取部分数据,不用将所有的数据都用上D一般认为,在不考虑系统演化的尺度范围的情况下,样本数越大,数据序列越长,回归模型就越可靠第14题一般在多元线性回归分析中遇到的问题主要有()。Ⅰ.多重共线性Ⅱ.自相关Ⅲ.异方差Ⅳ.序列相关性AⅠ、Ⅱ、Ⅲ、ⅣBⅡ、Ⅲ、ⅣCⅠ、Ⅱ、ⅣDⅠ、Ⅲ、Ⅳ第15题决定系数R2()。A是对相关关系显著性检验所运用的统计量B是衡量回归模型的拟合优良程度的指标C其定义是在回归模型为非线性模型、回归系数是用最小平方法下给出的D其定义是在回归模型为线性模型、回归系数是用极大似然估计法下给出的第1题logistic回归适用于因变量为()。A数值变量资料B分类变量资料C一般资料D正态分布资料第2题以下关于logistic回归分析,错误的是()。Alogistic要求应变量Y为分类数据Blogistic要求自变量x为分类数据Clogistic可以同时开展多个影响因素研究Dlogistic可以计算OR值第3题logistic回归属于()回归A概率型非线性回归B概率型线性回归C非概率型非线性回归D非概率型线性回归第4题Logistic回归方法属于()。A监督学习B无监督学习C半监督学习D以上都不是第5题有关Logistic回归,正确的说法是哪个?()ALogistic回归属于线性回归模型。BLogistic回归的损失函数可以选用交叉熵,并且采用梯度下降法调整其中的参数。CLogistic回归实际上是一种分类算法。DLogistic回归通常用于处理多分类问题。第6题Logistic回归的描述正确的是?()A用一个或多个解释变量预测一个类别型响应变量B用一个解释变量预测多个类别型响应变量C用多个解释变量预测多个类别型响应变量D其余都不对第7题关于Logistic回归分析方法的叙述,下列哪一项不恰当。()A反应变量是有序或无序的分类变量BLogistic回归模型是一种概率型非线性回归模型C如果某自变量的回归系数为负值,则其相对应的OR值一定小于1DLogistic回归模型的自变量不能是数值变量,只能是有序和无序的分类变量第8题非线性回归分析模型的错误说法()。A预先设置表达式B结合专业实际C结构选择较灵活D用最小二乘法估计参数第9题在多元非线性回归模型的建立过程,说法正确的是()。A多项式回归模型的建立在回归分析中占有重要的地位,其原因是任何函数都可在较小区间内用多项式来逐步逼近。B对于多项式回归模型可通过变量代换,转化为多元线性回归模型,然后按多元线性回归分析方法处理。C多元非线性回归方程的建立的思路是转为多元线性回归方程的形式。D以上说法都对。第10题进行一元非线性回归时应该()A根据收集到的数据资料做散点图。B根据散点图的特征大致判断曲线的形态。C根据曲线的形态所反映的变量之间的关系确定因变量y与自变量x之间的回归函数的类型。D以上步骤依次进行。第11题下列关于非线性回归的描述不正确的是()A非线性回归模型的数据输入和输出呈非线性关系B样条曲线是由多个控制节点连接的分段多项式曲线C样条回归模型不容产生过度拟合现象D常见的非线性回归模型包括样条回归和径向基函数第12题非线性回归分析模型的错误说法()。A预先设置表达式B结合专业实际C结构选择较灵活D用最小二乘法估计参数第13题偏最小二乘回归具有的优势在于()。A样本容量小,可处理多重共线性B可以进行回归分线C可以解释因变量D可使数据结构更复杂第14题对于偏最小二乘回归,下列说法正确的是()。A目标函数要求从X中提取出的潜变量方差最大B目标函数要求从X中提取出的潜变量和Y中提取出的潜变量协方差最大C目标函数要求从X中提取出的潜变量和Y中提取出的潜变量相关系数最大D其余选项说法均错误第15题应用最小二乘法拟合的回归直线()A其定系数一定大于0.5B使数据点到直线的垂直距离的平方和最小C使得大部分数据点都落在该直线上D每个数据点都精确地落在回归直线上作业习题第1题Meta分析中,如果异质性检验不拒绝H0,一般采用()进行效应合并。A随机效应模型B固定效应模型C混合效应模型D回归模型第2题关于meta分析,以下()说法正确。AMeta分析本质上是一种观察性研究,因而可能存在各种偏倚BMeta分析是用定量的方法综合同类研究结果的一种系统评价C采用随机效应模型能使Meta分析的结果更加可靠DMeta分析时,如果研究间异质性很大,应认真考察异质性的来源,并考虑这些研究的可合并性第3题异质性检验采用的统计量是()。AF统计量BQ统计量Ct统计量DH统计量第4题Meta分析在合并各个独立研究结果前应进行()。A相关性检验B异质性检验C回归分析D标准化第5题异质性检验的目的是()。A评价研究结果的不一致性B检查各个独立研究的结果是否具有一致性C评价一定假设条件下所获效应合并值的稳定性D增加统计学检验效能第6题发表偏倚时指()。A有“统计学意义”的研究结果较“无统计学意义”和无效的研究结果被报告和发表的可能性更大B研究者往往根据需要自定一个纳入标准来决定某些研究的纳入与否C研究结果的筛选过程中筛选者主观意愿的影响而引入的偏倚D只检索了某种语言的文献资料第7题失效安全数越大,说明()。AMeta分析的各个独立研究的同质性越好BMeta分析的各个独立研究的同质性越差CMeta分析的结果越稳定,结论被推翻的可能性越小DMeta分析的结果越不稳定,结论被推翻的可能性越大第8题如果漏斗图呈明显的不对称,说明()。AMeta分析统计学检验效能不够BMeta分析的各个独立研究的同质性差CMeta分析的合并效应值没有统计学意义DMeta分析可能存在偏倚第9题Meta分析过程中,主要的统计内容包括()。A对各独立研究结果进行异质性检验,并根据检验结果选择适当的模型加权合各研究的统计量B对各独立研究结果进行异质性检验和计算失效安全数C计算各独立研究的效应大小后按Mental-Haenszel法进行合并分析D计算各独立研究的效应大小和合并后的综合效应第10题Meta分析中敏感性分析主要用于()。A控制偏倚B检查偏倚C校正偏倚D计算偏倚的大小第11题Meta分析的适用指征包括()。A需要做一项紧急决定,而又缺乏时间进行一项新的试验B有关药物和其他治疗,特别是副作用评价方法的研究C目前没有能力开展大规模的临床试验引用偏倚D以上均正确第12题原始文献结局指标为定量变量,在Meta分析中可选用的效应尺度指标为()。A比值比(OddsRatio,OR)B相对危险度(RelativeRisk,RR)C风险比(HazardRatio,HR)D加权均数差(WeightedMeanDifference,WMD)第13题Meta分析中敏感性分析的目的是()。A用于分析模型的选择B评价Meta分析结果是否稳定和可靠C用于独立研究纳入和剔除标准的制定D用于排除可能影响效应合并值大小的研究第14题关于Meta分析,下列哪项描述是错误的()。A可以比较和综合多个同类研究的结果BMeta分析不需要持续更新C属于二次研究D是系统综述中使用的一类统计学方法第15题有关系统评价或Meta分析报告条目清单的叙述不正确的是()。A在方法中,需要说明至少一个资源库的检索方法B在结果中,需要说明研究间可能存在偏倚的评价结果C在讨论中,需要探讨研究层面和结局层面的局限性D如果有资金支持,不需要列出资金来源作业习题第1题ROC曲线凸向(),代表模型约理想。A左上角B左下角C右上角D右下角第2题关于ROC曲线的描述,错误的是()。A可用于选择最佳的界限值B可用于比较不同诊断试验对于疾病的识别能力C可用于判断及选择合适的灵敏度和特异度DROC曲线是以敏感度为横坐标,特异度为纵坐标绘制的曲线第3题表示最佳准确性时的ROC曲线下面积()为()。AAUC=0.1BAUC=0.5CAUC=0.8DAUC=1.0正确答案：ACD第4题表示不符合真实情况的是()。AAUC=0.1BAUC=0.5CAUC=0.8DAUC=1.0第5题表示准确性比较低的是()。AAUC=0.1BAUC=0.5CAUC=0.8DAUC=1.0第6题关于ROC曲线,以下错误的是()。AROC曲线可用于比较几种诊断试验BROC曲线可用于帮助确定临界点CROC曲线纵坐标是灵敏度DROC曲线下面积等于0.5时,仍具有一定的区别患者和非患者的能力第7题根据界值特征曲线(ROC分析)的判断标准,假阴性极高的界值()。A有助于排除疾病存在,判定为正常B提示很可能正常C只提示可能有病D很可能有病第8题根据界值特征曲线(ROC分析)的判断标准,如果真阳性率明显高于假阳性率()。A有助于排除疾病存在,判定为正常B提示很可能正常C只提示可能有病D很可能有病第9题根据界值特征曲线(ROC分析)的判断标准,如果真阳性率与假阳性率相近()。A有助于排除疾病存在,判定为正常B提示很可能正常C只提示可能有病D很可能有病第10题根据界值特征曲线(ROC分析)的判断标准,如果真阳性率小于假阳性率()。A有助于排除疾病存在,判定为正常B提示很可能正常C只提示可能有病D很可能有病第11题关于受试者工作特征()曲线,叙述错误的是()。AROC曲线下的面积(AUC)越大,越接近1.0,表示筛查或诊断的真实性越高BROC曲线还可以比较2种或2种以上试验的诊断价值C当患病率接近50%时,在ROC曲线上距离坐标图左上角最近的一点,灵敏性和特异性之和最大,误诊与漏诊例数之和最小DROC曲线是用真阳性率和真阴性率作图得出的曲线正确答案：CD第12题关于ROC的说法错误的是()。A已应用于医学影像领域B指受试者操作特性曲线C最初用于雷达信号的分析D是一种客观评价法第13题关于ROC曲线的应用错误的说法是()。AROC曲线属于影像质量的主观评价B可以对主观评价以定量的方式进行表述C主要应用于对评价者的主观评价能力的评估D可能使主观评价趋向客观化第14题ROC曲线的主要作用不包括()。A易于查出任意界限值对疾病的识别能力B选择最佳的诊断界限值C比较两种及其以上的不同的诊断试验对疾病的识别能力D能提供有关测定准确度的情况第15题ROC曲线主要用于()。A确定灵敏性B确定临界值C诊断性能比较D药物浓度监测作业习题第1题想象一下,机器学习中有1000个输入特征和1个目标特征,必须根据输入特征和目标特征之间的关系选择100个最重要的特征。你认为这是减少维数的例子吗?()第2题没有必要有一个用于应用维数降低算法的目标变量。()第3题在数据集中有4个变量,如A,B,C和D.执行了以下操作:步骤1:使用上述变量创建另外两个变量,即E=A+3*B和F=B+5*C+D。步骤2:然后只使用变量E和F建立了一个随机森林模型。上述步骤可以表示降维方法吗?()第4题降维算法是减少构建模型所需计算时间的方法之一。()第5题PCA可用于在较小维度上投影和可视化数据。()第6题t-SNE学习非参数映射。()第7题LDA明确地尝试对数据类别之间的差异进行建模,而PCA没有。()第8题以下哪种技术对于减少数据集的维度会更好?()A删除缺少值太多的列B删除数据差异较大的列C删除不同数据趋势的列D都不是第9题以下哪种算法不能用于降低数据的维数?()At-SNEBPCACLDAD都不是第10题想像正在处理文本数据,使用单词嵌入(Word2vec)表示使用的单词。在单词嵌入中,最终会有1000维。现在想减小这个高维数据的维度,这样相似的词应该在最邻近的空间中具有相似的含义。在这种情况下,您最有可能选择以下哪种算法?()At-SNEBPCACLDAD都不是第11题以下对于t-SNE和PCA的陈述中哪个是正确的?()At-SNE是线性的,而PCA是非线性的Bt-SNE和PCA都是线性的Ct-SNE和PCA都是非线性的Dt-SNE是非线性的,而PCA是线性的第12题以下哪种情况LDA会失败?()A如果有辨识性的信息不是平均值,而是数据的方差B如果有辨识性的信息是平均值,而不是数据方差C如果有辨识性的信息是数据的均值和方差D都不是第13题当特征值大致相等时会发生什么?()APCA将表现出色BPCA将表现不佳C不知道D以上都没有第14题在哪种条件下,SVD和PCA产生相同的投影结果?()A当数据为零时B当数据均值为零时,C两者总是相同D都不是第15题对于投影数据为((√2),(0),(√2))。现在如果在二维空间中重建,并将它们视为原始数据点的重建,那么重建误差是多少?()A0%B10%C30%D40%作业习题第1题决策树中不包含一下哪种结点()A根结点B内部结点C外部结点D叶结点第2题以下哪项关于决策树的说法是错误的()A冗余属性不会对决策树的准确率造成不利的影响B神经网络对训练数据中的噪声非常鲁棒C子树可能在决策树中重复多次D可以处理冗余特征E决策树算法对于噪声的干扰非常敏感F训练ANN是一个很耗时的过程G寻找最佳决策树是NP完全问题3以下关于人工神经网络(ANN)的描述错误的有(A)H至少含有一个隐藏层的多层神经网络正确答案：F第3题在ID3算法中信息增益是指()A信息的溢出程度B信息的增加效益C熵增加的程度最大D熵减少的程度最大第4题朴素贝叶斯分类算法是基于()的朴素假定A类条件相关B类条件独立C类条件正相关D类条件负相关第5题下列哪项说法不正确()A人工智能是对人类智能的模拟B人工神经元是对生物神经元的模拟C生物神经信号由树突传递给轴突D人工神经元的激活函数可以有多种设计第6题贝叶斯网络起源于贝叶斯统计学,是以()为基础的有向图模型,它为处理不确定知识提供了有效方法。A线性代数B逻辑学C概率论D信息论第7题SVM算法的性能取决于()A核函数的选择B软间隔参数C核函数的参数D以上所有第8题以下有关支持向量机说法不正确的是()A具有很好的推广能力.B采用结构化风险最小化原理C是凸二次优化问题D得到的是局部最优解第9题下列描述正确的是()A分类和聚类都是有指导的学习B分类和聚类都是无指导的学习C分类是有指导的学习,聚类是无指导的学习D分类是无指导的学习,聚类是有指导的学习第10题简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作()A层次聚类B划分聚类C非互斥聚类D模糊聚类第11题闵可夫斯基距离表示为曼哈顿距离时p为()A1B2C3D4第12题以下哪个聚类算法不是属于基于原型的聚类()。A模糊c均值BEM算法CSOMDCLIQUE第13题以下哪些分类方法可以较好地避免样本的不平衡问题()AKNNBSVMCBayesD神经网络第14题以下哪些算法是基于规则的分类器()AC4.5BKNNCBayesDANN第15题()是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。A边界点B质心C离群点D核心点作业习题第1题在一个神经网络里,知道每一个神经元的权重和偏差是最重要的一步。如果以某种方法知道了神经元准确的权重和偏差,你就可以近似任何函数。实现这个最佳的办法是什么?()A随机赋值,祈祷它们是正确的B搜索所有权重和偏差的组合,直到得到最佳值C赋予一个初始值,通过检查跟最佳值的差值,然后迭代更新权重D以上都不正确第2题梯度下降算法的正确步骤是什么?()1计算预测值和真实值之间的误差2迭代跟新,直到找到最佳权重3把输入传入网络,得到输出值4初始化随机权重和偏差5对每一个产生误差的神经元,改变相应的(权重)值以减小误差A1,2,3,4,5B5,4,3,2,1C3,2,1,5,4D4,3,1,5,2第3题什么情况下神经网络模型被称为深度学习模型?()A加入更多层,使神经网络的深度增加B有维度更高的数据C当这是一个图形识别的问题时D以上都不正确第4题下列哪一种操作实现了和神经网络中Dropout类似的效果?()ABaggingBBoostingC堆叠(Stacking)D以上都不正确第5题下列哪项关于模型能力(modelcapacity)的描述是正确的?(指模型能近似复杂函数的能力)()A隐层层数增加,模型能力增加BDropout的比例增加,模型能力增加C

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

雨课堂学堂在线学堂云《医学数据挖掘（湖北医药学院）》单元测试考核答案

文档简介

温馨提示

最新文档

评论

雨课堂学堂在线学堂云《医学数据挖掘（湖北医药学院）》单元测试考核答案

文档简介

温馨提示

最新文档

评论

相关文档