版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据分析基础一、基础知识部分习题(共29题,67分)1、大数据的最显著特征是()。(单选题,本题2分)A:数据规模大 B:数据类型多样 C:数据处理速度快D:数据价值密度高2、美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的()。(单选题,本题2分)A:在数据基础上倾向于全体数据而不是抽样数据B:在分析方法上更注重相关分析而不是因果分析C:在分析效果上更追究效率而不是绝对精确D:在数据规模上强调相对数据而不是绝对数据3、下列对大数据特点的说法中,错误的是()。(单选题,本题2分)A:数据规模大 B:数据类型多样C:数据处理速度快 D:数据价值密度高4、当前社会中,最为突出的大数据环境是()。(单选题,本题2分)A:互联网B:物联网C:综合国力 0:自然资源5、下列关于计算机存储容量单位的说法中,错误的是()。(单选题,本题2分)A:1KB<1MB<1GB B:基本单位是字节(Byte)C:一个汉字需要一个字节的存储空间 D:一个字节能够容纳一个英文字符,6、下列关于聚类挖掘技术的说法中,错误的是()。(单选题,本题2分)A:不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别B:要求同类数据的内容相似度尽可能小C:要求不同类数据的内容相似度尽可能小D:与分类挖掘技术相似的是,都是要对数据进行分类处理7、下列关于大数据的分析理念的说法中,错误的是().(单选题,本题2分)A:在数据基础上倾向于全体数据而不是抽样数据B:在分析方法上更注重相关分析而不是因果分析C:在分析效果上更追究效率而不是绝对精确D:在数据规模上强调相对数据而不是绝对数据8、大数据时代,数据使用的关键是()。(单选题,本题2分)B:数据存储A:数据收集C:数据分析 B:数据存储A:数据收集9、数据仓库的最终目的是()。(单选题,本题2分)A:收集业务需求 B:建立数据仓库逻辑模型C:开发数据仓库的应用分析 D:为用户和业务部门提供决策支持10、支撑大数据业务的基础是()。(单选题,本题2分)A:数据科学 B:数据应用 C:数据硬件 D:数据人才11、在网络爬虫的爬行策略中,应用最为基础的是()。(多选题,本题3分)A:深度优先遍历策略 B:广度优先遍历策略C:高度优先遍历策略 D:反向链接策略 E:大站优先策略12、当前,大数据产业发展的特点是().(多选题,本题3分)A:规模较大B:规模较小C:增速很快D:增速缓慢 E:多产业交叉融合13、下列关于数据生命周期管理的核心认识中,正确的是().(多选题,本题3分)A:数据从产生到被删除销毁的过程中,具有多个不同的数据存在阶段B:在不同的数据存在阶段,数据的价值是不同的C:根据数据价值的不同应该对数据采取不同的管理策略D:数据生命周期管理旨在产生效益的同时,降低生产成本E:数据生命周期管理最终关注的是社会效益14、下列关于基于大数据的营销模式和传统营销模式的说法中,错误的是()。(多选题,本题3分)A:传统营销模式比基于大数据的营销模式投入更小B:传统营销模式比基于大数据的营销模式针对性更强C:传统营销模式比基于大数据的营销模式转化率低D:基于大数据的营销模式比传统营销模式实时性更强E:基于大数据的营销模式比传统营销模式精准性更强15、下列关于脏数据的说法中,正确的是()。(多选题,本题3分)A:格式不规范 B:编码不统一 C:意义不明确D:与实际业务关系不大E:数据不完整16、数据再利用的意义在于()。(多选题,本题3分)A:挖掘数据的潜在价值 B:实现数据重组的创新价值C:利用数据可扩展性拓宽业务领域 D:优化存储设备,降低设备成本E:提高社会效益,优化社会管理17、按照涉及自变量的多少,可以将回归分析分为().(多选题,本题3分)A:线性回归分析 B:非线性回归分析 C:一元回归分析D:多元回归分析 E:综合回归分析18、大数据人才整体上需要具备( )等核心知识。(多选题,本题3分)A:数学与统计知识B:计算机相关知识C:马克思主义哲学知识 D:市场运营管理知识E:在特定业务领域的知识19、下列关于大数据的说法中,错误的是()。(多选题,本题3分)A:大数据具有体量大、结构单一、时效性强的特征B:处理大数据需采用新型计算架构和智能算法等新技术C:大数据的应用注重相关分析而不是因果分析D:大数据的应用注重因果分析而不是相关分析E:大数据的目的在于发现新的知识与洞察并进行科学决策20、在噪声数据中,波动数据比离群点数据偏离整体水平更大。(判断题,本题2分)是否21、对于大数据而言,最基本、最重要的要求就是减少错误、保证质量.因此,大数据收集的信息量要尽量精确。(判断题,本题2分)是否22、一般而言,分布式数据库是指物理上分散在不同地点,但在逻辑上是统一的数据库。因此分布式数据库具有物理上的独立性、逻辑上的一体性、性能上的可扩展性等特点。(判断题,本题2分)是否23、具备很强的报告撰写能力,可以把分析结果通过文字、图表、可视化等多种方式清晰地展现出来,能够清楚地论述分析结果及可能产生的影响,从而说服决策者信服并采纳其建议,是数据分析能力对大数据人才的基本要求。(判断题,本题2分)是否24、谷歌流感趋势充分体现了数据重组和扩展对数据价值的重要意义。(判断题,本题2分)是否25、决策树是一种基于树形结构的预测模型,每一个树形分叉代表一个分类条件,叶子节点代表最终的分类结果,其优点在于易于实现,决策时间短,并且适合处理非数值型数据。(判断题,本题2分)是否26、信息生命周期管理是据生命周期管理的来源,最早由英国企业提出。(判断题,本题2分)是否27、简单随机抽样,是从总体N个对象中任意抽取n个对象作为样本,最终以这些样本作为调查对象。在抽取样本时,总体中每个对象被抽中为调查样本的概率可能会有差异.(判断题,本题2分)是否28、啤酒与尿布的经典案例,充分体现了实验思维在大数据分析理念中的重要性。(判断题,本题2分)是否29、对于企业来说,给用户进行各种促销或者实施运营策略的时机也比较重要,而且对不同兴趣偏好的用户最好集中处理.(判断题,本题2分)是否二、数据挖掘部分单选题(共20题,20分)()的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。A.数据清洗 B。数据集成C.数据变换 D.数据归约某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?( )A。关联规则发现 B。聚类C。分类 D。自然语言处理以下两种描述分别对应哪两种对分类算法的评价标准?( )(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。(b)描述有多少比例的小偷给警察抓了的标准.A.Precision,RecallB.Recall,PrecisionA.Precision,ROC D.Recall,ROC将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?()A。频繁模式挖掘 B.分类和预测C.数据预处理 D。数据流挖掘当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )A.分类 B。聚类C.关联分析 D.隐马尔可夫链建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( )A。根据内容检索B.建模描述C.预测建模 D.寻找模式和规则下面哪种不属于数据预处理的方法?()A.变量代换 B.离散化C。聚集 D。估计遗漏值假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?()A。第一个 B。第二个C.第三个 D.第四个TOC\o"1-5"\h\z以下哪种方法不属于特征选择的标准方法:( )人。嵌入 B。过滤C.包装 D。抽样10)下面不属于创建新属性的相关方法的是:( )A。特征提取 B.特征修改C.映射数据到新的空间D。特征构造11)假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:( )A.0。821 B。1。224C.1.458 Do0.71612)一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人.则年级属性的众数是:()A.一年级 B.二年级Co三年级 Do四年级13)下列哪个不是专门用于可视化时间空间数据的技术:()A.等高线图 B.饼图C.曲面图 Do矢量场图14)在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:( )A。有放回的简单随机抽样B。无放回的简单随机抽样C。分层抽样D渐进抽样15)以下哪些算法是分类算法( )A.DBSCANB。C4。5C.K-Mean D.EM16)决策树中不包含一下哪种结点()A.根结点(rootnode)B.内部结点(internalnode)C.外部结点(externalnode)D.叶结点(leafnode)17)以下哪项关于决策树的说法是错误的( )冗余属性不会对决策树的准确率造成不利的影响子树可能在决策树中重复多次决策树算法对于噪声的干扰非常敏感D.寻找最佳决策树是NP完全问题18)通过聚集多个分类器的预测来提高分类准确率的技术称为( )A。组合(ensemble)B。聚集(aggregate)C.合并(combination)D.投票(voting)19)在基本K均值算法里,当邻近度函数采用()的时候,合适的质心是簇中各点的中位数.A。曼哈顿距离 B.平方欧几里德距离C。余弦距离 D.Bregman散度20)个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助()为其顾客购物提供完全个性化的决策支持和信息服务.A。公司 B.各单位C。跨国企业 D。电子商务网站三、计算题(共13分)1、根据下表中信用卡训练样本判断(女性,年龄介于31~45之间,不具学生身份,收入中等)者会不会办理信用卡。请自选两种方法进行计算.
表信用卡训练样本项目性别年龄学生身分收入办卡1男>45否高会2女31~45否高会3女20~30是低会4男〈20是低不会5女20~30是中不会6女20〜30否中会7女31~45否高会8男31~45是中不会9男31~45否中会10女〈20是低会本题可以使用多种方法,没有固定答案.解题方式合理,计算步骤无误即可。首先根据训练样本计算各属性相对于不同分类结果的条件机率:P(性别=女|办卡=会)=5/7 P(性别=女1办卡=不会)=1/3P(年龄=3广45|办卡=会)=3/7P(年龄=31~45I办卡=不会)=1/3P(学生=否1办卡=会)=5/7 P(学生=否1办卡=不会)=0/3 P(收入=中|办卡=会)=2/7 P(收入=中|办卡=不会)=2/3 再应用朴素贝叶斯分类法进行类别预测:P(办卡=会)=7/10P(女I会)P(31-45|会)P(否I会)P(中I会)=15/343=0。044P(办卡=
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 深度解析(2026)《FZT 73034-2021半精纺毛针织品》
- 人教统编版六年级语文下册古诗三首《马诗》公开课教学课件
- 深度解析(2026)《FZT 13025-2021棉与粘胶纤维混纺本色布》
- 初中家长教育观念更新对亲子关系影响-基于观念测评与亲子关系评估关联
- 《JBT 8487.1-2002活塞车床 技术条件》专题研究报告
- 2026年高考物理复习(习题)第四章第4讲 万有引力与航天
- 2026年新疆维吾尔自治区吐鲁番市社区工作者招聘考试模拟试题及答案解析
- 初中语文人教部编版(2024)七年级下册叶圣陶先生二三事教案
- 2026年江西省萍乡市社区工作者招聘考试参考题库及答案解析
- 2026年宿迁市宿豫区社区工作者招聘笔试参考试题及答案解析
- 脉冲场消融在心房颤动治疗中的应用进展2026
- (2025年)医师定期考核题库附答案
- GB/T 3159-2026液压式万能试验机
- 2026年建安杯信息通信建设行业安全竞赛重点题库(新版)
- 施工现场劳务人员组织与管理方案
- 第十六届职工技能竞赛焊工专业理论考试题库(含答案)
- (新版)网约车考试题库(全国题库)-500题
- 初中英语沪教版7B A friendly dolphin U3 More practice部优课件
- 情声气结合训练说课材料课件
- 第六章有机地球化学1
- 46不对称钢板弹簧的刚度计算
评论
0/150
提交评论