付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
【MOOC】大数据基础与应用-北京理工大学中国大学慕课MOOC答案【第一周】单元测试1、【单选题】大数据的特性不包括本题答案:【分布地域广】2、【单选题】如下关于大数据分析流程的哪一项是正确的?本题答案:【数据采集、数据清洗、数据管理、数据分析、数据呈现】3、【多选题】大数据分析与传统的数据分析的区别主要在于:本题答案:【传统数据分析主要是描述性分析和诊断性分析,而大数据分析主要是预测性分析。#大数据分析的对象是大规模类型多样的海量数据,使用的模型较为复杂;而传统数据分析则作用在有限的小规模数据集上,模型较为简单。#大数据分析主要是为了发现新的规律和知识,而传统数据分析主要是为了了解正在发生的事件及其原因。】4、【判断题】1、大数据主要是由于数据规模巨大、来源分散、格式多样,所以需要新的体系架构、技术、算法和分析方法来对这些数据进行采集、存储和关联分析,以期望能够从中抽取出隐藏的有价值的信息。本题答案:【正确】5、【判断题】数据科学家主要负责开发、构建、测试和维护系统,比如数据库和大规模处理系统本题答案:【错误】6、【判断题】大数据分析的目的是从类型多样的海量数据中挖掘出隐藏的有价值的信息。本题答案:【正确】7、【填空题】大数据分析能够应用在哪些领域?本题答案:【交通医疗足球零售天文政治】【第二周】单元测试1、【单选题】Python代码:r=5+"5"的执行结果是本题答案:【报错】2、【单选题】1.m=[1,2,[3]]2.n=m[:]3.n[1]=44.n[2][0]=55.print(m)代码的执行结果是?本题答案:【[1,2,[5]]】3、【单选题】1.n1={'a':1,'b':2}2.n2=n13.n1['a']=54.s=n1['a']+n2['a']5.print(s)代码的结果是?本题答案:【10】4、【单选题】用python处理本机文件时,可以使用glob完成文件查找功能。下列有关glob的说法中,错误的是本题答案:【glob为内置库,无需import即可使用】5、【单选题】1.importsqlite32.fromfakerimportFaker3.f=Faker("zh_cn")4.conn=sqlite3.connect(":memory:")5.c=conn.cursor()6.c.execute("createtableuser(idvarchar(10)primarykey,namevarchar(20))")7.foriinrange(0,100):8.c.execute("insertintouser(id,name)values('{}','{}')".format(i,()))9.c.execute("select*fromuser")10.result=c.fetchall()11.print(len(result))上述代码执行的结果是?本题答案:【100】6、【单选题】用户处理numpy的ndarray对象时,可以改变数组维度。下列描述中错误的是本题答案:【resize方法不能修改原andarray数组】7、【判断题】Numpy的Series对象在进行运算时,其默认索引值是0到n-1可以参与运算,而自定义索引值不会参与运算。本题答案:【错误】8、【判断题】DataFrame结构为一个二维结构,每一列可以为不同的值类型,但一列之内的类型必须相同。本题答案:【正确】9、【判断题】由于Python的list列表足够强大,完全可以代替ndarry这种数组。本题答案:【错误】10、【判断题】使用文件打开命令时,即使使用withas语句也应该调用close()方法显式关闭文件,以保证文件安全。本题答案:【错误】【第3周】单元测试1、【单选题】使用json库进行Python的内置数据类型与Json类型转换时,字典dict将被转换为本题答案:【object】2、【单选题】某网站提供形式多样的财经大数据服务:①提供一个第三方python库,调用库中方法可以直接返回DataFrame对象;②提供一个网站api,可以返回json格式字符串;③提供静态页面,内含表格数据;④提供查询功能,使用JavaScript动态脚本生成查询结果。假设上述各种服务样式均可返回所需数据,则从减少编程工作量的角度看,用户应选择的方案编号是本题答案:【①】3、【单选题】对于matplotlib的plot方法原型:pyplot.plot([x],y,[format],…),下列说法错误的是本题答案:【x轴数据必须提供】4、【单选题】matplotlib提供了图形文本显示,下列函数可以在图像中任意位置显示文字的是本题答案:【text()】5、【单选题】使用Pandas处理数据的时候,经常会遇到重复值。下列说法中错误的是本题答案:【duplicated()返回值中用1表示重复,0表示不重复】6、【单选题】排序在数据处理中具有重要的作用。若df为一个DataFrame对象,则对其描述中错误的是本题答案:【排序时无论是升序还是降序,NaN统一排到序列的开头部分】7、【判断题】语句json.dumps({'name':'David','age':20})将一个Python对象转为一个JSON字符串。本题答案:【正确】8、【判断题】使用requests库爬取回来的字符串数据,可以加载到BeautifulSoup库中,形成一个树状的HTML页面结构,供用户检索使用。本题答案:【正确】9、【判断题】当在DataFrame中试图补全空值时,可以使用fillna,但该方法只能为整个DataFrame设置相同的补全值。本题答案:【错误】10、【判断题】使用matplotlib绘制多图时,可以使用subplots和subplot方法。如:1.fig,ax=subplot(rows,cols)本题答案:【错误】【第4周】单元测试1、【单选题】如下关于数据分析框架的流程,哪一项是正确的?本题答案:【业务理解、数据理解、数据准备、建立模型、模型评估】2、【判断题】偏度是数据分布扁平程度的测度。本题答案:【错误】3、【判断题】中位数指的是任意一组数据中的中间位置的数。本题答案:【错误】4、【判断题】某组数据的峰态系数小于0,则并表明该组数据为扁平分布或者平峰分布。本题答案:【正确】5、【判断题】预测降雨量属于机器学习中的回归任务的应用场景。本题答案:【正确】6、【填空题】已知10个家庭的人均月收入数据分别为:660、750、780、850、960、1080、1250、1500、1630、2000,请计算该组数据的中位数。本题答案:【1020】7、【填空题】已知9个家庭的人均月收入数据分别为:1500、750、780、1080、850、960、2000、1250、1630,请计算该组数据的四分位数。(请使用较准确的位置确定方法。)本题答案:【8151565】8、【填空题】请计算下列数据{10,12,13,14,25,30,40,50,90,100}的p=40%的截断均值。(保留2位小数)本题答案:【28.67】9、【填空题】请计算下列数据{1,3,7,9,0,3,5}的中列数。本题答案:【4.5】10、【填空题】依据下面两组数据,分别计算两组年收入数据的方差。第一组:99个年收入10万的人和1个年收入1000万的人,第二组:60个年收入10万的人和40个年收入34.75万的人。本题答案:【9801148.5】【第5周】单元测试1、【单选题】“二手车价格预测”场景属于哪种机器学习的典型任务?本题答案:【回归】2、【单选题】“垃圾邮件的处理”场景属于哪种机器学习的典型任务?本题答案:【分类】3、【单选题】“推荐系统”场景属于哪种机器学习的典型任务?本题答案:【聚类】4、【单选题】“尿布与啤酒”案例属于哪种机器学习的典型任务?本题答案:【关联】5、【判断题】过拟合是指模型不能在训练集上获得足够低的误差本题答案:【错误】6、【判断题】有监督算法和无监督算法的区别在于数据是否进行标注。本题答案:【正确】7、【判断题】K-means算法属于分类算法。本题答案:【错误】8、【判断题】KNN算法的优点在于不需要指定K的个数。本题答案:【错误】9、【填空题】决策树的生成由两个阶段组成:_____、______本题答案:【判定树构建树剪枝】10、【填空题】假设有四个样本分布在坐标系中,已知A区两点分别(2,5)和(1,4),B区(8,1)和(9,2),若使用KNN算法(距离使用欧氏距离),求M(4,3)属于哪一区?本题答案:【A】【第七周】单元测试1、【单选题】以下关于日志采集工具Flume的说法不正确的是:本题答案:【Flume适用于大量数据的实时数据采集】2、【单选题】以下关于数据分发中间件Kafka的说法不正确的是:本题答案:【Kafka主要是使用c++、Java语言实现的】3、【单选题】以下关于分布式文件系统HDFS的说法不正确的是:本题答案:【HDFS支持多用户写入,任意修改文件】4、【单选题】HDFS集群中管理文件系统的元数据、负责客户端请求响应的节点是:本题答案:【NameNode】5、【单选题】HDFS(Hadoop1.X版本中)默认的块大小是:本题答案:【64MB】6、【单选题】以下关于分布式数据库HBase的说法不正确的是:本题答案:【HBase比传统关系数据库系统具有更加丰富的数据类型】7、【单选题】HBase中分布式存储和负载均衡的最小单元是:本题答案:【Region】8、【单选题】以下关于数据仓库Hive的说法不正确的是:本题答案:【Hive能够在大规模数据集上实现低延迟快速的查询】9、【多选题】Hive的数据模型主要包括:本题答案:【表(Tables)#分区(Partitions)#桶(Buckets)】10、【多选题】NoSQL数据库的主要类型包括:本题答案:【图形数据库#文档数据库#键值数据库#列族数据库】MOOC期末测试1、【单选题】下列数据类型中,不属于Python内置数据类型的是:本题答案:【dtype】2、【单选题】假设d是一个DataFrame类型对象,其中包含name和age两列100行数据。则下列表达式中,错误的是.本题答案:【d[2,’name’]】3、【单选题】以下不属于高维数据可视化技术的是.本题答案:【词云】4、【单选题】以下哪个是常见的大数据处理流程.本题答案:【数据获取、数据清洗、数据分析、数据可视化】5、【单选题】大数据分析技术可以应用于哪些行业.本题答案:【其他全是】6、【单选题】测得一组身高(cm)数据如下:176、165、173、168、176、180、177、168、174、176,则其众数和中位数分别是:本题答案:【176,175】7、【单选题】数据清洗的方法不包括本题答案:【数据可视化】8、【单选题】以下哪个不属于分布式文件系统HDFS的特有特性本题答案:【随机读写】9、【单选题】以下哪种方法不属于预测性(有监督学习)模型本题答案:【关联分析】10、【单选题】Apriori算法的加速过程依赖于以下哪个策略本题答案:【剪枝】11、【单选题】Spark是使用以下哪种编程语言实现的?本题答案:【Scala】12、【判断题】词典中的key不能是字典类型,但value可以是字典类型。本题答案:【正确】13、【判断题】传统数据分析主要是完成描述性分析和诊断性分析,而大数据分析主要目的是预测性分析。本题答案:【正确】14、【判断题】峰度是数据分布偏斜程度的测度。本题答案:【错误】15、【判断题】偏度系数在0.5~1或-1~-0.5之间被称为高度偏态分布。本题答案:【错误】16、【判断题】数据工程师的主要工作职责是整理和组织数据,进行描述性统计,分析开发潜在的价值,构建模型解决商业问题。本题答案:【错误】1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026中德住房储蓄银行春季校园招聘2人备考题库及完整答案详解【易错题】
- 2026北京城市副中心投资建设集团有限公司春季校园招聘25人备考题库及参考答案详解(突破训练)
- 2026山东青岛海检冠图检测技术有限公司招聘1人备考题库带答案详解(模拟题)
- 2026福建龙岩上杭县古田会议纪念馆公开招聘见习人员3人备考题库及答案详解1套
- 2026广东云浮市郁南县招聘公益性岗位人员27人备考题库(第二轮)及答案详解(典优)
- 2026中共湖南省委党校(湖南行政学院)招聘高层次人才17人备考题库含答案详解(完整版)
- 公路养护工程的路基施工方案
- 2026广东广州花都城投住宅建设有限公司第二次招聘项目用工人员4人备考题库附参考答案详解【预热题】
- 2026江苏南通市第一人民医院招聘备案制工作人员102人备考题库附答案详解(达标题)
- 2026四川遂宁射洪平安街道招聘1人备考题库【真题汇编】附答案详解
- 香港公司购货合同(标准版)
- 2025年贵州省高考地理试卷真题(含答案)
- 煤矿企业一线从业人员主要工种考试题库-《探放水工》理论知识
- 2026届新高考数学热点精准复习浅谈“四新”背景下数列备考
- 急性阑尾炎课件教学
- 老年康复护理床上运动
- 木材加工厂消防安全规范
- 双硫仑反应的科普
- 消防设施维护保养方案(全系统模板)
- 小儿常见营养障碍性疾病
- 2026年内蒙古机电职业技术学院单招职业技能考试必刷测试卷附答案
评论
0/150
提交评论