MOOC 大数据基础与应用-北京理工大学 中国大学慕课答案_第1页
MOOC 大数据基础与应用-北京理工大学 中国大学慕课答案_第2页
MOOC 大数据基础与应用-北京理工大学 中国大学慕课答案_第3页
MOOC 大数据基础与应用-北京理工大学 中国大学慕课答案_第4页
MOOC 大数据基础与应用-北京理工大学 中国大学慕课答案_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

MOOC大数据基础与应用-北京理工大学中国大学慕课答案【第一周】单元测试1、问题:大数据的特性不包括选项:A、分布地域广B、容量大C、速度快D、价值密度低正确答案:【分布地域广】2、问题:如下关于大数据分析流程的哪一项是正确的?选项:A、数据采集、数据清洗、数据管理、数据分析、数据呈现B、数据采集、数据分析、数据清洗、数据管理、数据呈现C、数据采集、数据呈现、数据分析、数据清洗、数据管理D、数据清洗、数据采集、数据呈现、数据分析、数据管理正确答案:【数据采集、数据清洗、数据管理、数据分析、数据呈现】3、问题:大数据分析与传统的数据分析的区别主要在于:选项:A、传统数据分析主要是描述性分析和诊断性分析,而大数据分析主要是预测性分析。B、大数据分析的对象是大规模类型多样的海量数据,使用的模型较为复杂;而传统数据分析则作用在有限的小规模数据集上,模型较为简单。C、大数据分析主要是为了发现新的规律和知识,而传统数据分析主要是为了了解正在发生的事件及其原因。D、大数据分析需要借助各种分析工具完成,而传统数据分析不需要使用其他工具。正确答案:【传统数据分析主要是描述性分析和诊断性分析,而大数据分析主要是预测性分析。#大数据分析的对象是大规模类型多样的海量数据,使用的模型较为复杂;而传统数据分析则作用在有限的小规模数据集上,模型较为简单。#大数据分析主要是为了发现新的规律和知识,而传统数据分析主要是为了了解正在发生的事件及其原因。】4、问题:1、大数据主要是由于数据规模巨大、来源分散、格式多样,所以需要新的体系架构、技术、算法和分析方法来对这些数据进行采集、存储和关联分析,以期望能够从中抽取出隐藏的有价值的信息。选项:A、正确B、错误正确答案:【正确】5、问题:数据科学家主要负责开发、构建、测试和维护系统,比如数据库和大规模处理系统选项:A、正确B、错误正确答案:【错误】6、问题:大数据分析的目的是从类型多样的海量数据中挖掘出隐藏的有价值的信息。选项:A、正确B、错误正确答案:【正确】7、填空题:大数据分析能够应用在哪些领域?正确答案:【交通医疗足球零售天文政治】【第二周】单元测试1、问题:Python代码:r=5+"5"的执行结果是选项:A、报错B、55C、10D、5正确答案:【报错】2、问题:1.m=[1,2,[3]]2.n=m[:]3.n[1]=44.n[2][0]=55.print(m)代码的执行结果是?选项:A、[1,2,[5]]B、[1,2,[3]]C、[1,4,[3]]D、[1,4,[5]]正确答案:【[1,2,[5]]】3、问题:1.n1={'a':1,'b':2}2.n2=n13.n1['a']=54.s=n1['a']+n2['a']5.print(s)代码的结果是?选项:A、10B、5C、6D、7正确答案:【10】4、问题:用python处理本机文件时,可以使用glob完成文件查找功能。下列有关glob的说法中,错误的是选项:A、glob为内置库,无需import即可使用B、glob可以使用?匹配单个字符C、glob中表达式"[0-9]"表示匹配0-9中的单个数字D、glob返回的是一个包含所有匹配文件的列表正确答案:【glob为内置库,无需import即可使用】5、问题:1.importsqlite32.fromfakerimportFaker3.f=Faker("zh_cn")4.conn=sqlite3.connect(":memory:")5.c=conn.cursor()6.c.execute("createtableuser(idvarchar(10)primarykey,namevarchar(20))")7.foriinrange(0,100):8.c.execute("insertintouser(id,name)values('{}','{}')".format(i,()))9.c.execute("select*fromuser")10.result=c.fetchall()11.print(len(result))上述代码执行的结果是?选项:A、100B、10C、20D、0正确答案:【100】6、问题:用户处理numpy的ndarray对象时,可以改变数组维度。下列描述中错误的是选项:A、resize方法不能修改原andarray数组B、reshape方法不能修改原andarray数组C、flatten方法不能修改原andarray数组D、参数用元组来表示正确答案:【resize方法不能修改原andarray数组】7、问题:Numpy的Series对象在进行运算时,其默认索引值是0到n-1可以参与运算,而自定义索引值不会参与运算。选项:A、正确B、错误正确答案:【错误】8、问题:DataFrame结构为一个二维结构,每一列可以为不同的值类型,但一列之内的类型必须相同。选项:A、正确B、错误正确答案:【正确】9、问题:由于Python的list列表足够强大,完全可以代替ndarry这种数组。选项:A、正确B、错误正确答案:【错误】10、问题:使用文件打开命令时,即使使用withas语句也应该调用close()方法显式关闭文件,以保证文件安全。选项:A、正确B、错误正确答案:【错误】【第3周】单元测试1、问题:使用json库进行Python的内置数据类型与Json类型转换时,字典dict将被转换为选项:A、objectB、stringC、strD、array正确答案:【object】2、问题:某网站提供形式多样的财经大数据服务:①提供一个第三方python库,调用库中方法可以直接返回DataFrame对象;②提供一个网站api,可以返回json格式字符串;③提供静态页面,内含表格数据;④提供查询功能,使用JavaScript动态脚本生成查询结果。假设上述各种服务样式均可返回所需数据,则从减少编程工作量的角度看,用户应选择的方案编号是选项:A、①B、②C、③D、④正确答案:【①】3、问题:对于matplotlib的plot方法原型:pyplot.plot([x],y,[format],…),下列说法错误的是选项:A、只需要提供y轴数据,即可绘制出图像B、pyplot是matplotlib中的一个子库名字C、format表示控制字符串,包括:颜色、风格和标记D、x轴数据必须提供正确答案:【x轴数据必须提供】4、问题:matplotlib提供了图形文本显示,下列函数可以在图像中任意位置显示文字的是选项:A、text()B、title()C、xlabel()D、ylabel()正确答案:【text()】5、问题:使用Pandas处理数据的时候,经常会遇到重复值。下列说法中错误的是选项:A、duplicated()返回值中用1表示重复,0表示不重复B、duplicated()用于判断某行是否存在重复C、duplicated()返回一个Series对象D、duplicated()不能删除重复值正确答案:【duplicated()返回值中用1表示重复,0表示不重复】6、问题:排序在数据处理中具有重要的作用。若df为一个DataFrame对象,则对其描述中错误的是选项:A、排序时无论是升序还是降序,NaN统一排到序列的开头部分B、df.nlargest(10,"Score")表示取Score列的前10项最大值C、df.sort_index()表示对索引排序D、df.sort_values()表示对数值排序正确答案:【排序时无论是升序还是降序,NaN统一排到序列的开头部分】7、问题:语句json.dumps({'name':'David','age':20})将一个Python对象转为一个JSON字符串。选项:A、正确B、错误正确答案:【正确】8、问题:使用requests库爬取回来的字符串数据,可以加载到BeautifulSoup库中,形成一个树状的HTML页面结构,供用户检索使用。选项:A、正确B、错误正确答案:【正确】9、问题:当在DataFrame中试图补全空值时,可以使用fillna,但该方法只能为整个DataFrame设置相同的补全值。选项:A、正确B、错误正确答案:【错误】10、问题:使用matplotlib绘制多图时,可以使用subplots和subplot方法。如:1.fig,ax=subplot(rows,cols)选项:A、正确B、错误正确答案:【错误】【第4周】单元测试1、问题:如下关于数据分析框架的流程,哪一项是正确的?选项:A、业务理解、数据理解、数据准备、建立模型、模型评估B、建立模型、模型评估、数据理解、业务理解、数据准备C、数据理解、业务理解、建立模型、数据准备、模型评估D、数据准备、建立模型、模型评估、数据理解、业务理解正确答案:【业务理解、数据理解、数据准备、建立模型、模型评估】2、问题:偏度是数据分布扁平程度的测度。选项:A、正确B、错误正确答案:【错误】3、问题:中位数指的是任意一组数据中的中间位置的数。选项:A、正确B、错误正确答案:【错误】4、问题:某组数据的峰态系数小于0,则并表明该组数据为扁平分布或者平峰分布。选项:A、正确B、错误正确答案:【正确】5、问题:预测降雨量属于机器学习中的回归任务的应用场景。选项:A、正确B、错误正确答案:【正确】6、填空题:已知10个家庭的人均月收入数据分别为:660、750、780、850、960、1080、1250、1500、1630、2000,请计算该组数据的中位数。正确答案:【1020】7、填空题:已知9个家庭的人均月收入数据分别为:1500、750、780、1080、850、960、2000、1250、1630,请计算该组数据的四分位数。(请使用较准确的位置确定方法。)正确答案:【8151565】8、填空题:请计算下列数据{10,12,13,14,25,30,40,50,90,100}的p=40%的截断均值。(保留2位小数)正确答案:【28.67】9、填空题:请计算下列数据{1,3,7,9,0,3,5}的中列数。正确答案:【4.5】10、填空题:依据下面两组数据,分别计算两组年收入数据的方差。第一组:99个年收入10万的人和1个年收入1000万的人,第二组:60个年收入10万的人和40个年收入34.75万的人。正确答案:【9801148.5】【第5周】单元测试1、问题:“二手车价格预测”场景属于哪种机器学习的典型任务?选项:A、回归B、分类C、关联D、聚类正确答案:【回归】2、问题:“垃圾邮件的处理”场景属于哪种机器学习的典型任务?选项:A、分类B、关联C、聚类D、回归正确答案:【分类】3、问题:“推荐系统”场景属于哪种机器学习的典型任务?选项:A、聚类B、分类C、关联D、回归正确答案:【聚类】4、问题:“尿布与啤酒”案例属于哪种机器学习的典型任务?选项:A、关联B、分类C、聚类D、回归正确答案:【关联】5、问题:过拟合是指模型不能在训练集上获得足够低的误差选项:A、正确B、错误正确答案:【错误】6、问题:有监督算法和无监督算法的区别在于数据是否进行标注。选项:A、正确B、错误正确答案:【正确】7、问题:K-means算法属于分类算法。选项:A、正确B、错误正确答案:【错误】8、问题:KNN算法的优点在于不需要指定K的个数。选项:A、正确B、错误正确答案:【错误】9、填空题:决策树的生成由两个阶段组成:_____、______正确答案:【判定树构建树剪枝】10、填空题:假设有四个样本分布在坐标系中,已知A区两点分别(2,5)和(1,4),B区(8,1)和(9,2),若使用KNN算法(距离使用欧氏距离),求M(4,3)属于哪一区?正确答案:【A】【第七周】单元测试1、问题:以下关于日志采集工具Flume的说法不正确的是:选项:A、Flume是一个分布式、可靠和高可用的海量日志采集、聚合和传输的日志收集系统B、Flume的数据源和目标都是可定制、可扩展的C、Flume支持多级级联和多路复制D、Flume适用于大量数据的实时数据采集正确答案:【Flume适用于大量数据的实时数据采集】2、问题:以下关于数据分发中间件Kafka的说法不正确的是:选项:A、Kafka是一个基于发布/订阅的消息系统B、每条发布到Kafka集群的消息都属于一个主题(topic)C、Kafka主要是使用c++、Java语言实现的D、Kafka将Topic分成一个或者多个Partition正确答案:【Kafka主要是使用c++、Java语言实现的】3、问题:以下关于分布式文件系统HDFS的说法不正确的是:选项:A、HDFS是能够运行在通用硬件上的分布式文件系统B、HDFS支持存储TB-PB级别的数据C、HDFS支持多用户写入,任意修改文件D、数据块(Block)是HDFS文件系统基本的存储单位正确答案:【HDFS支持多用户写入,任意修改文件】4、问题:HDFS集群中管理文件系统的元数据、负责客户端请求响应的节点是:选项:A、NameNodeB、DataNodeC、ClientNodeD、ActiveNode正确答案:【NameNode】5、问题:HDFS(Hadoop1.X版本中)默认的块大小是:选项:A、32MBB、32KBC、64MBD、64KB正确答案:【64MB】6、问题:以下关于分布式数据库HBase的说法不正确的是:选项:A、HBase是一个基于列式存储的分布式数据库系统B、HBase源于GoogleBigTable技术C、HBase比传统关系数据库系统具有更加丰富的数据类型D、HBase不支持复杂的SQL操作,例如表连接正确答案:【HBase比传统关系数据库系统具有更加丰富的数据类型】7、问题:HBase中分布式存储和负载均衡的最小单元是:选项:A、TableB、RegionC、BlockD、Partition正确答案:【Region】8、问题:以下关于数据仓库Hive的说法不正确的是:选项:A、Hive主要是为分析数据而设计的数据仓库B、Hive的数据最终都保存为HDFS文件C、Hive将用户的查询语句转换为MapReduce作业提交到Hadoop集群上执行D、Hive能够在大规模数据集上实现低延迟快速的查询正确答案:【Hive能够在大规模数据集上实现低延迟快速的查询】9、问题:Hive的数据模型主要包括:选项:A、表(Tables)B、分区(Partitions)C、桶(Buckets)D、块(Blocks)正确答案:【表(Tables)#分区(Partitions)#桶(Buckets)】10、问题:NoSQL数据库的主要类型包括:选项:A、图形数据库B、文档数据库C、键值数据库D、列族数据库正确答案:【图形数据库#文档数据库#键值数据库#列族数据库】MOOC期末测试1、问题:下列数据类型中,不属于Python内置数据类型的是:选项:A、strB、floatC、dtypeD、bool正确答案:【dtype】2、问题:假设d是一个DataFrame类型对象,其中包含name和age两列100行数据。则下列表达式中,错误的是.选项:A、d[‘age’]B、d[2,’name’]C、d.ageD、d.loc[2,’name’]正确答案:【d[2,’name’]】3、问题:以下不属于高维数据可视化技术的是.选项:A、RadVizB、平行坐标C、降维投影D、词云正确答案:【词云】4、问题:以下哪个是常见的大数据处理流程.选项:A、数据获取、数据清洗、数据分析、数据可视化B、数据清洗、数据获取、数据分析、数据可视化C、数据清洗、数据获取、数据可视化、数据分析D、数据可视化、数据清洗、数据获取、数据分析正确答案:【数据获取、数据清洗、数据分析、数据可视化】5、问题:大数据分析技术可以应用于哪些行业.选项:A、政务和交通B、金融和农业C、医疗和健康D、其他全是正确答案:【其他全是】6、问题:测得一组身高(cm)数据如下:176、165、173、168、176、180、177、168、174、176,则其众数和中位数分别是:选项:A、175,176B、173.3,175C、176,173.3D、176,175正确答案:【176,175】7、问题:数据清洗的方法不包括选项:A、缺失值处理B、噪声数据清除C、数据可视化D、重复数据记录处理正确答案:【数据可视化】8、问题:以下哪个不属于分布式文件系统HDFS的特有特性选项:A、高容错性B、高吞吐量C、随机读写D、大文件存储正确答

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论