版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1题建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?()A根据内容检索B建模描述C预测建模D寻找模式和规则第2题在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:()A有放回的简单随机抽样B无放回的简单随机抽样C分层抽样D渐进抽样第3题舆情研判,信息科学侧重(),社会和管理科学侧重突发群体事件管理中的群体心理行为及舆论控制研究,新闻传播学侧重对舆论的本体进行规律性的探索和研究.A舆论的本体进行规律性的探索和研究B舆论控制研究C互联网文本挖掘和分析技术D用户行为分析第4题协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度(),并将这些用户喜欢的项推荐给有相似兴趣的用户。A相似B相同C推荐D预测第5题大数据科学关注大数据网络发展和运营过程中()大数据的规律及其与自然和社会活动之间的关系。A大数据网络发展和运营过程B规划建设运营管理C规律和验证D发现和验证第6题什么是KDD?()A数据挖掘与知识发现B领域知识发现C文档知识发现D动态知识发现第7题使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?()A探索性数据分析B建模描述C预测建模D寻找模式和规则(第8题在受试人群中,根据人群的某些体征比如面色红润,口苦,疲乏,舌苔黄腻,畏寒怕冷等特征将这些人的体质分为平和体质,湿热体质,阳虚体质等等。属于数据挖掘的哪一类任务()A分类B回归C关联规则D聚类第9题数据挖掘的挖掘方法包括:()A聚类分析B回归分析C神经网络D决策树算法E关联规则分析正确答案:ABCDE第10题抽取数据的标准有()A相关性B可靠性C有效性D实效性E准确性正确答案:ABC第11题数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。()第12题数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表性。()第13题模型的具体化就是预测公式,公式可以产生与观察值有相似结构的输出,这就是预测值。。()第14题Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息。()第15题数据质量的标准有两个方面,一是资料完整无缺,各类指标项齐全;二是数据准确无误,且反应的都是在正常状态下的水平。()第16题在随机抽样这种操作中,首先将样本总体分成若干层次(或者说分成若干个子集)。每个层次中的观测值都具有相同的被选用的概率,但对不同的层次可以设定不同的概率。()第17题Python解释器易于扩展,可以使用C语言或C++,来扩展新的功能和数据类型,也可用于可定制化软件中的扩展程序语言。()第18题在选定主成分之后,还需要结合应用,对主成分进行解释,给出主成分的实际意义。()第19题医学数据分析与挖掘作为知识发现的核心部分,主要有以下几个步骤目标分析,数据抽取,数据探索,数据预处理,数据建模与评价以及模型反馈。()第20题进行降维处理、缺失值处理等,都是数据预处理要解决的问题。()第1题下列有关个人信息的指标,属于序数属性的是()A学历B民族C职业D考试成绩第2题下列说法错误的是()。A有时为了数据分析的方便,可将高级属性转化为比他低级的属性,一般不能做相反方向的转化。B数据属性转化顺序:标称属性→序数属性→区间标度属性→比率属性C数据属性的类型大的来说分为定性和定量两种。D实际工作中,首选比率属性,其次是区间标度属性,再次是序数属性,最后是标称属性。第3题下列属于二元属性的是()A血压值B流感病毒检测结果C身高D血型第4题肝炎病人的住院天数是()A区间标度属性B比率标度属性C标称属性D序数属性第5题一组数据中出现次数最多的变量值称为()。A算术平均值B众数C中位数D标准差第6题离散趋势是指()。A变量值的远离其中心值的程度B变量值的平均水平C变量值的分配D变量值的大小第7题主成分分析后每一个新的变量可以表示为()A某个原变量B新变量的线性组合C原来部分变量的线性组合D原来所有变量的线性组合第8题标准差数值越小,则()。A反映变量值越集中,算术平均值代表性越好。B反映变量值越分散,算术平均值代表性越差。C反映变量值越集中,算术平均值代表性越差。D反映变量值越分散,算术平均值代表性越好。第9题当两组或多组资料的变异度进行比较时,应采用离散系数的情况是()A均数相差悬殊B标准差相差悬殊C度量单位不同D资料来自不同地区E资料来自不同时期正确答案:AC第10题下列指标中属于集中趋势指标的有()A算术平均值B众数C中位数D百分位数E极差正确答案:ABCD第11题比率标度属性能提供关于顺序、差异以及比率关系的信息,关键之处在于“真正零值”能够被定义。()第12题当资料分布的末端无确切数据时不能计算算术平均值。()第13题样本量增大时,极差可能会增大。()第14题方差的单位与原始数据的单位相同。()第15题卡方检验中,卡方统计量用来衡量所有单元格的观测值与理论值的差异大小。()第16题卡方检验中,卡方统计量越大,越有理由拒绝H0。()第17题相关系数∣r∣越接近于0,说明相关的密切程度越强。()第18题在选定主成分之后,还需要结合应用,对主成分进行解释,给出主成分的实际意义。()第19题主成分分析是一种统计方法,通过正交变换将一组可能存在相关性的变量转换为一组线性无关的变量,转换后的这组向量称为主成分。()第20题主成分分析方法是一种数据降维的方法。()第三章作业第1题()的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果A数据清洗B数据集成C数据变换D数据归约第2题将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?()A频繁模式挖掘B分类和预测C数据预处理。D数据流挖掘第3题下面哪种不属于数据预处理的方法?()A变量代换B离散化C聚集D估计遗漏值第4题假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?()A第一个B第二个C第三个D第四个第5题以下哪种方法不属于特征选择的标准方法:()A嵌入B过滤C包装D抽样第6题下面哪个属于映射数据到新的空间的方法?()A傅立叶变换B特征加权C渐进抽样D维归约第7题数据仓库是随着时间变化的,下面的描述不正确的是()A数据仓库随时间的变化不断增加新的数据内容B捕捉到的新数据会覆盖原来的快照C数据仓库随事件变化不断删去旧的数据内容D数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合第8题MapReduce的Map函数产生很多的()AkeyBvalueC〈key,value>DHash第9题噪声数据的产生原因主要有:()A数据采集设备有问题B在数据录入过程中发生了人为或计算机错误C数据传输过程中发生错误D由于命名规则或数据代码不同而引起的不一致E数据资料自然产生正确答案:ABCD第10题进行多表合并时,使用pandas库的可以实现横向堆叠和纵向堆叠()Aconcat函数Bappend()方法Cmerge函数Djoin()方法Egroupby()正确答案:AB第11题对遗漏数据的处理方法主要有:忽略该条记录;手工填补遗漏值;利用默认值填补遗漏值;利用均值填补遗漏值;利用同类别均值填补遗漏值;利用最可能的值填充遗漏值。()第12题数据规范化指将数据按比例缩放(如更换大单位),使之落入一个特定的区域(如0—1)以提高数据挖掘效率的方法。规范化的常用方法有:最大—最小规范化、零-均值规范化、小数定标规范化。()第13题原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。()第14题孤立点在数据挖掘时总是被视为异常、无用数据而丢弃。()第15题维归约可以去掉不重要的属性,减少数据立方体的维数,从而减少数据挖掘处理的数据量,提高挖掘效率。()第16题分组是使用特定的条件将元数据进行划分为多个组。()第17题agg()方法和aggregate()方法都支持对每个分组应用某函数,但是不包括Python内置函数或自定义函数。()第18题特征离散化以后,起到了简化了模型的作用,降低了模型过拟合的风险。()第19题最小-最大标准化也称为离差标准化,是对原始数据的线性变换,将数值映射到[0,1]之间。()第20题处理缺失值的方法可分为3类:删除记录、数据插补和不处理。()第四章作业第1题某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()A关联规则发现B聚类C分类D自然语言处理第2题设X={1,2,3}是频繁项集,则可由X产生()个关联规则.
A4B5C6D7第3题考虑下面的频繁3—项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()A1,2,3,4B1,2,3,5C1,2,4,5D1,3,4,5第4题在图集合中发现一组公共子结构,这样的任务称为()A频繁子集挖掘B频繁子图挖掘C频繁数据项挖掘D频繁模式挖掘第5题下面购物篮能够提取的3—项集的最大数量是多少()
TID项集1牛奶,啤酒,尿布2面包,黄油,牛奶3牛奶,尿布,饼干4面包,黄油,饼干5啤酒,饼干,尿布6牛奶,尿布,面包,黄油7面包,黄油,尿布8啤酒,尿布9牛奶,尿布,面包,黄油10啤酒,饼干A1B2C3D4第6题可用作数据挖掘分析中的关联规则算法有().A决策树、对数回归、关联模式BK均值法、SOM神经网络CApriori算法、FP-Tree算法DRBF神经网络、K均值法、决策第7题关联规则的评价指标是:().A均方误差、均方根误差BKappa统计、显著性检验C支持度、置信度D平均绝对误差、相对误差第8题分析顾客就医行为,以便有针对性的向其推荐感兴趣的就医服务,属于()问题。A关联规则挖掘B分类与回归C聚类分析D时序预测第9题利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。在以下的购物篮中产生支持度不小于3的候选3—项集,在候选2-项集中需要剪枝的是()。TID项集1面包、牛奶2面包、尿布、啤酒、鸡蛋3牛奶、尿布、啤酒、可乐4面包、牛奶、尿布、啤酒5面包、牛奶、尿布、可乐A啤酒、尿布B啤酒、面包C面包、尿布D啤酒、牛奶E面包、牛奶正确答案:BD第10题Apriori算法的计算复杂度受()影响。A支持度阀值B项数(维度)C事务数D事务平均宽度E极差正确答案:ABCD第11题比率标度属性能提供关于顺序、差异以及比率关系的信息,关键之处在于“真正零值”能够被定义。()第12题当资料分布的末端无确切数据时不能计算算术平均值。()第13题在图集合中发现一组公共子结构,这样的任务称为频繁子图挖掘。()第14题决策树方法通常用于关联规则挖掘。()第15题Apriori算法是一种典型的关联规则挖掘算法。()第16题关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。()第17题可信度是对关联规则的准确度的衡量。()第18题利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。()第19题先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。()第20题回归分析通常用于挖掘关联规则。()第五章作业第1题下列问题,属于回归的是()A通过症状判别证型B胃癌术后五年期生存率分析C根据影像对病程分期D根据患者证症推荐医生第2题下列说法错误的是()。A支撑向量机可以用来进行拟合函数。B支撑向量机可以用于多分类问题。C支撑向量机需要大量训练样本。D支撑向量机通过核函数将数据映射到高维空间,从而能够解决非线性问题。第3题患者试纸检测结果是阳性,实际真实值是阴性,则试纸结果是()ATPBTNCFPDFN第4题在医学疾病筛查中,希望尽量小的是()ARecallBPrecisionCAccuracyD漏检率第5题当Kappa(),说明已经取得相当满意的一致程度。A在区间[-1,1]内B大于等于0.75时CKappa=1DKappa<0.4第6题下面是SVM算法中需要指定的超参数()。ACBalphaCbiasDomiga第7题ROC曲线下方的面积就是()ALOTBTPRCFPRDAUC第8题()算法只适用于离散的描述属性。AID3。BC4.5。CCART决策树。DSLIQ。第9题常见的非线性映射核有()ARBF核B多项式核Csigmoid核D拉普拉斯核ESobel核正确答案:ABCD第10题集成学习有如下几种方式()ABaggingBBoostingCAdaboostDStackingEID3正确答案:ABD第11题K近邻(K-NearestNeighbor,KNN)算法是一种常用的监督学习方法。()第12题最近邻算法是K近邻算法的一个特例。()第13题决策树算法通常按照纯度的增加来选择拆分属性。()第14题C4.5决策树生成算法相对于ID3算法的重要改进是使用信息增益率来选择节点属性。()第15题为了评价回归模型,一般让模型预测单个点的值进行评价以免受到噪声影响而不准。()第16题当Kappa>0时,说明有意义,Kappa愈大,说明一致性愈好。()第17题Bagging算法中个体学习器间存在强依赖关系。()第18题Bagging的个体弱学习器的训练集是通过随机采样得到的。()第19题随机森林RF算法是Stacking的一个拓展。()第20题均方误差开根号后就变成均方根误差。()第六章作业第1题当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?()A分类B聚类C关联分析D回归第2题通过聚集多个分类器的预测来提高分类准确率的技术称为()A组合(ensemble)B聚集(aggregate)C合并(combination)D投票(voting)第3题简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作()A层次聚类B划分聚类C非互斥聚类D模糊聚类第4题在基本K均值算法里,当邻近度函数采用()的时候,合适的质心是簇中各点的中位数.A曼哈顿距离B平方欧几里德距离C余弦距离D切比雪夫距离第5题DBSCAN是一种()。A分类器B聚类算法C关联分析算法D特征选择算法第6题()将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。AMIN(单链)BMAX(全链)C组平均DWard方法第7题()将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚层次聚类技术。AMIN(单链)BMAX(全链)C组平均DWard方法第8题关于K均值和DBSCAN的比较,以下说法不正确的是()。AK均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象BK均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。CK均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇DK均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。第9题以下属于聚类算法的是()。AK—MeansBDBSCANCAprioriDKNNEBayes正确答案:AB第10题()都属于簇有效性的监督度量。A轮廓系数B共性分类相关系数C熵DF度量E余弦距离正确答案:CD第11题聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。()第12题用于分类的离散化方法之间的根本区别在于是否使用类信息。()第13题简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作划分聚类。()第14题在基本K均值算法里,当邻近度函数采用曼哈顿距离的时候,合适的质心是簇中各点的中位数。()第15题聚类()是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。()第16题在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。()第17题聚类分析可以看作是一种非监督的分类。()第18题K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。()第19题基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。()第20题如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。()第七章作业第1题关于随机抽样,下列说法正确的是()。A抽样时应使得总体中的每一个个体都有同等机会被抽取B研究者在抽样时应精心挑选个体,以使样本更能代表总体C随机抽样即随意抽取个体D为确保样本具有更好的代表性,样本量越大越好第2题报上登出了国内20家大医院的名单,名单按他们在近三年中病人死亡率的高低排序。专家指出不能把名单排列的顺序作为评价医院医疗水平的标准。以下各项,如果是真的,都能做论据支持专家的结论,除了哪一项()。A这20家医院中,有5家医院依靠国家资助从国外引进了多项先进、大型和配套的医疗设备,其余15家都没有。B有些医院,留病人住院的时间长,病人死亡率因此较高;有些医院,往往较早地动员患绝症而救治无望的病人出院,病人死亡率因此较低。C这20家医院中,有2家老人医院和3家儿童医院。D20家医院中,有2家是肿瘤医院。第3题下列哪项检验不适用χ2检验()。A两样本均值比较B两样本率比较C构成比比较D拟合优度检验第4题为研究矽肺患者肺功能的变化情况,某医院对I、II期肺硅沉着病患者各35名测定其肺活量,得到I期患者的均值2700ml,标准差137ml;II期患者均值2800ml,标准差125ml,欲求I、II期肺硅沉着病患者的肺活量是否有显著性差异,宜采用什么统计方法()。Aχ2检验Bt检验Clogit回归D秩和检验第
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 物业活动直播方案策划(3篇)
- 素养活动策划方案(3篇)
- 西安会议活动策划方案(3篇)
- 雕塑城市活动策划方案(3篇)
- 妊娠合并马凡综合征的微创分娩探讨
- 台湾酒吧营销方案(3篇)
- 家族公司营销方案(3篇)
- 教培机构消防预案和应急预案(3篇)
- 楼盘营销方案纲要(3篇)
- 现在饭店营销方案(3篇)
- 2024年湖北省武汉市中考物理·化学试卷真题(含答案解析)
- DL-T-1946-2018气体绝缘金属封闭开关设备X射线透视成像现场检测技术导则
- DZ∕T 0399-2022 矿山资源储量管理规范(正式版)
- 2024年河南应用技术职业学院单招职业适应性测试题库及答案解析
- 树立正确婚恋观做遵纪守法军人
- 2021年中国中车公司组织架构和部门职能
- 反间谍法介绍宣传课件
- CPK-数据自动生成器
- catia静强度有限元分析课件
- 钢的热处理工艺课件
- Unit 1 Our living planet Reading 课件-2022-2023学年高中英语牛津译林版(2020)选修第一册
评论
0/150
提交评论