版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据分析基础一、基础知识部分习题(共29题,67分)1、 大数据的最显著特征()。 (单选本2分)A:数据规模大B:数据类型多样数据处理速度快 D:数据价值密度高2、 美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发的地点。这体现了大数据分析理念中的()。(单选题,本2分)A:在数据基础上倾向于全体数据而不是抽样数据B:在分析方法上更注重相关分析而不是因果分析C:在分析效果上更追究效率而不是绝对精确D:在数据规模上强调相对数据而不是绝对数据3、 下列对大数据特点的说法中,错误的()。 (单选题,本分)A:数据规模大数据类型多样C:数据处理速度快D:数据价
2、值密度4、 当前社会中,最为突出的大数据环境是()。 (单选本2分)A:互联网物联网综合国力自然资源5、 下列关于计算机存储容量单位的说法中,错误的()。 (单选本题分) A:1KB1MB1GB基本单位是字(Byte) C:一个汉字需要一个字节的存储空间一个字节能够容纳一个英文字6、 下列关于聚类挖掘技术的说法中,错误的是( )。 (2分) AB:要求同类数据的内容相似度尽可能小 C:要求不同类数据的内容相似度尽可能小 D:与分类挖掘技术相似的是,都是要对数据进行分类处理7、 下列关于大数据的分析理念的说法中,错误的是(). (单选题,本2分A:在数据基础上倾向于全体数据而不是抽样数据 B:在
3、分析方法上更注重相关分析而不是因果分析 C:在分析效果上更追究效率而不是绝对精确 D:在数据规模上强调相对数据而不是绝对据8、 大数据时,数据使用的关键是(。 (单选题,本分)数据收集数据存储数据分析D:数据再利用9、 数据仓库的最终目的是(。 (单选题,本分)收集业务需求建立数据仓库逻辑模型 开发数据仓库的应用分析D:为用户和业务部门提供决策支10、 支撑大数据业务的基础是()。 (单选,本2分)A:数据科学B:数据应用数据硬件数据人11、 在网络爬虫的爬行策略中,应用最为基础的()。 (多选题,本3分)A:深度优先遍历策略广度优先遍历策略高度优先遍历策略反向链接策略大站优先策12、 当前,
4、大数据产业发展的特点是(). 多选题,本3分)A:规模较大B:规模较小C:增速很快D:增速缓慢E:多产业交叉融13、 下列关于数据生命周期管理的核心认识中,正确的(). (多选题,本3分)A:数据从产生到被删除销毁的过程中,具有多个不同的数据存在阶段B:在不同的数据存在阶段,数据的价值是不同的C:根据数据价值的不同应该对数据采取不同的管理策略D:数据生命周期管理旨在产生效益的同时,降低生产成本E:数据生命周期管理最终关注的是社会效益14、 下列关于基于大数据的营销模式和传统营销模式的说法中,错误的()。(多选题,本分)A:传统营销模式比基于大数据的营销模式投入更小 BC:传统营销模式比基于大数
5、据的营销模式转化率低 DE15、 下列关于脏数据的说法中,正确的是()。 (多选,本分) A:格式不规范编码不统一C:意义不明确与实际业务关系不E:数据不完整16、 数据再利用的意义在() 。 ( 多 选 本 题 分 ) A:挖掘数据的潜在价值B:实现数据重组的创新价值 C:利用数据可扩展性拓宽业务领域优化存储设备,降低设备成E:提高社会效益,优化社会管理17、 按照涉及自变量的多少,可以将回归分析分为(). (多选题,本3分A:线性回归分析非线性回归分析C:一元回归分析 D:多元回归分析综合回归分析18、 大数据人才整体上需要具备()等核心知识。 多选本题分A:数学与统计知识B:计算机相关知
6、识 C:马克思主义哲学知识市场运营管理知识 E:在特定业务领域的知识19、 下列关于大数据的说法中,错误的是()。 (多选题,本3分A:大数据具有体量大、结构单一、时效性强的特征20、 在噪声数据中,波动数据比离群点数据偏离整体水平更大。(判断题,本分是否21、 对于大数据而言,最基本、最重要的要求就是减少错误、保证质量.因此,大数据收集的信息量要尽量精确。(判断题,本题2分)是否22、 一般而言,分布式数据库是指物理上分散在不同地点,但在逻辑上是统一的数据库。因此分布式数据库具有物理上的独立性、逻辑上的一体性、性能上的可扩展性等特点。(判断题,本题2分)是否23、 具备很强的报告撰写能力,可
7、以把分析结果通过文字、图表、可视化等多种方式清晰地展现出来,能够清楚地论述分析结果及可能产生的影响,从而说服决策者信服并采纳其建议,是数据分析能力对大数据 人才的基本要求。(判断题,本题2分)是否24、 谷歌流感趋势充分体现了数据重组和扩展对数据价值的重要意义。(判断本题分是否25、 决策树是一种基于树形结构的预测模型,每一个树形分叉代表一个分类条件,叶子节点代表最终的分类结果,其优点在于易于实现,决策时间短,并且适合处理非数值型数据。(判断题,本题2分)是否26、 信息生命周期管理是据生命周期管理的来源,最早由英国企业提出判断题,本2分是否27、 简单随机抽样,是从总体N个对象中任意抽取n个
8、对象作为样本,最终以这些样本作为调查对象。在抽取样本时,总体中每个对象被抽中为调查样本的概率可能会有差异.(判断题,本题2分)是否28、 啤酒与尿布的经典案例,充分体现了实验思维在大数据分析理念中的重要性。(判断题,本分是否29、 对于企业来说,给用户进行各种促销或者实施运营策略的时机也比较重要,而且对不同兴趣偏好的用户最好集中处理.(判断题,本题2分)是否二、数据挖掘部分单选题(共 20 题,20 分)()的分析结果。数据清洗。数据集成C.数据变换D.数据归约某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿这种属于数据挖掘的哪类问题()A。 关联规则发现。聚类C。 分类。 自然语言
9、处理以下两种描述分别对应哪两种对分类算法的评价标准? ()(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。(b)描述有多少比例的小偷给警察抓了的标准.A. Precision,RecallB. Recall,PrecisionA. Precision,ROCD. Recall,ROC将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务A。 频繁模式挖掘B.分类和预测C. 数据预处理。 数据流挖掘当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离()分类B。 聚类C. 关联分析D.隐马尔可夫链建立一个模型,通过这个模型根据已知的变量值来预测
10、其他某个变量值属于数据挖掘的哪一类务?()A。 根据内容检索B.建模描述C. 预测建模D.寻找模式和规则下面哪种不属于数据预处理的方法? (A.变量代换离散化C。聚集。估计遗漏值8) 假设12个销售价格记录组已经排序如下10,13,15,35,50,55,72,92,204,215 使用如下每种方法将它们划分成四个箱。等频(等深)划分,15在第几个箱子内? ()A。第一个。第二个C.第三个第四个以下哪种方法不属于特征选择的标准方法:(A。嵌入。过滤C.包装。抽样下面不属于创建新属性的相关方法的: (A。特征提取B.特征修改C.映射数据到新的空间 D。特征构造假设属性income的最大最小值分别
11、是12000元和98000元。利用最大最小规范化的方法将属性的值射到0至1的范围内。对属性income的73600元将被转化:()A.0821。224C.1.458。0.716一所大学内的各年纪人数分别:一年级200人,二年级160人,三年级130人,四年级110人则年属性的众数是: ()一年级二年级C。三年级。四年级下列哪个不是专门用于可视化时间空间数据的技术: (A.等高线图B.饼图C.曲面图。矢量场图在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: ()A。有放回的简单随机抽样B。无放回的简单随机抽样C。分层抽样D 渐进抽样以下哪些算法是分类算法 ()A.DBSCAN。C
12、4。5C.KMeanD.EM决策树中不包含一下哪种结点 ()根结点(root node)内部结点(internal (external (leaf node)以下哪项关于决策树的说法是错误的 ()B。 子树可能在决策树中重复多次C. 决策树算法对于噪声的干扰非常敏感D. 寻找最佳决策树是NP 完全问题18)通过聚集多个分类器的预测来提高分类准确率的技术称为 (A。组合(ensemble)。聚集C.合(combination) 投票(voting)19)在基本K均值算法里,当邻近度函数采(的时候,合适的质心是簇中各点的中位.。曼哈顿距离平方欧几里德距离C。余弦距离D.Bregman散度20) 个
13、性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助()为其顾客物提供完全个性化的决策支持和信息服.A。公司C。跨国企业三、计算题(共13分)各单位D。 电子商务网站1、根据下表中信用卡训练样本,判断(女性,年龄介于3145之间,不具学生身份,收入中等)者会不会办理信用卡。请自选两种方法进行计算信用卡。请自选两种方法进行计算.项目 性别 年龄学生身分 收入 办卡项目 性别 年龄学生身分 收入 办卡1男45否高会2女3145否高会3女2030是低会4男20是低不会5女20306女20307女31458男31459男3145否中会10女20是低会是中不会否中会否高会是中不会本题可以使用多种方法,没有固定答案.解题方式合理,计算步骤无误即可。首先根据训练样本计算各属性相对于不同分类结果的条件机率:P(性别女办卡会)=5/7P(性别女办卡不会)=1/3 P(年龄=3145|办会)=3/7P(年龄=3145办卡不会)=1/3P(学生否办卡会)=5/7P(学生否办卡不会)=0/3P(收入=中办卡会)=2/7P(收入中办卡不会)=2/3再应用朴素贝叶斯分类法进行类别预测:P(办卡会)=7/10P(女会)P(31-45|
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025南平市延平区医院招聘驾驶员备考考试试题及答案解析
- 2026天津市和平区卫生健康系统事业单位招聘26人备考核心题库及答案解析
- 2025恒丰银行杭州分行社会招聘5人笔试重点试题及答案解析
- 2025广东肇庆市德庆县教育局所属公办幼儿园招聘合同制工作人员26人笔试重点题库及答案解析
- 江西省水务集团有限公司2025年第三批社会招聘【34人】考试核心试题及答案解析
- 2025年广州市第一人民医院总院医务部编外人员招聘备考题库及一套参考答案详解
- 2025年西安未央区辛家庙社区卫生服务中心招聘(8人)考试重点试题及答案解析
- 北京体育大学北京兴奋剂检测实验室2025年专业技术检测人员公开招聘备考题库(非事业编)及答案详解参考
- 安钢总医院2026年成熟型人才招聘备考题库及参考答案详解
- 2025年西安市浐灞第一幼儿园招聘备考题库及参考答案详解1套
- 2025+CSCO宫颈癌诊疗指南解读
- DG-TJ08-2207-2024城市供水管网泵站远程监控系统技术标准
- 机器学习与随机微分方程的深度集成方法-全面剖析
- 《TSGD7003-2022压力管道定期检验规则-长输管道》
- GB/T 45355-2025无压埋地排污、排水用聚乙烯(PE)管道系统
- 2025年全国硕士研究生入学统一考试 (数学二) 真题及解析
- 企业管理者的领导力培训
- There+be句型练习题及答案
- 《阻燃腈纶的研究与应用》课件
- 吊索具的使用与报废标准
- 2024-2025学年广东省广州市越秀区八年级(上)期末语文试卷
评论
0/150
提交评论