大数据导论 试卷3答案_第1页
大数据导论 试卷3答案_第2页
大数据导论 试卷3答案_第3页
大数据导论 试卷3答案_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

课程名称:大数据导论______________

命题教师签字:周末一班

一、单选(共20题,每空1分,共20分。)

1)A2)C3)B4)D5)D

6)A7)A8)D9)B10)C

11)C12)B13)A14)D15)B

16)T17)T18)F19)F20)T

21)F22)T23)T24)F25)T

26)T27)F28)F29)F30)T

18题应为满足租用、计时、有效。出自第2章

19题应为二种,不包括元数据存储。出自第2章

21题应为数据分析的目的,出自第4章

24题应为文本是社会媒体的核心,出自第7章

27题应为雪花模型,出自第8章

28题应为互联网金融,出自第10章

29题应为工业大数据,出自第11章

二、简答题(共5题,每题5分,共25分。)

1.大数据有四个层面特点,其4V特征是什么?

数据规模大(Volume)

从TB跃升到PB甚至EB。

数据类型多(Variety)

越来越多非结构化数据;音频、视频,地理位置信息等多类型数据对数据处理能力提

出更高要求。

数据价值高,价值密度低(Value)

海量数据带来了巨大的商业价值。数据之间关联性支持深层的数据挖掘。

数据处理速度快(Velocity)

对数据实时处理有着极高的要求,通过传统数据库查询方式得到的“当前结果”很可

能已经没有价值。

2.云计算的体系架构包括哪几层?

(1)资源层

资源池层是指基础架构层面的云计算服务,可以提供虚拟化的资源。服务器服务提供操

作系统的环境,例如Linux集群等。网络服务提供的网络处理能力,如防火墙,VLAN等。

存储服务为用户所需的资源提供存储能力。物理资源是指承载发源的物理设备,如服务器等。

(2)平台层

平台层为用户提供对资源层的各项云计算服务的封装,帮助用户构建所需的应用。数据

库服务提供可扩展的数据库处理的能力。中间件服务为用户提供可扩展的消息中间件或事务

处理中间件等服务。

(3)应用层

应用层提供软件服务,企业应用为面向企业的用户提供软件服务,如财务管理,客户关

系管理,商业智能等。个人应用指为面向个人的用户提供软件服务,如电子邮件,文本处理,

个人信息存储等。

(4)用户访问层

用户访问层为用户使用云计算服务所需的各种支撑服务提洪平台,对不同层次的云计算

服务提供与之相应的访问接口。服务目录是包含所有服务的服务列表,用户可以通过目录直

观便捷的选择所需要的云计算服务。订阅管理可以对■提供的服务进行管理,用户可以查存订

阅的服务,也可以停止服务。服务访问是给不同层次的云计算服务提供访问接口,如果是资

源层的访问,提供的接口就是远程桌面等,如果是应用层的访问,提供的接口可能是WEB

等。

(5)管理层

管理层提供对全部的云计算服务的管理,安全管理是授权控制服务、用户认证和审计等

功能。服务组合指用户可以对需要的云计算服务进行组合。服务目录管理服务可以对服务目

录和服务进行管理,管理员可以对服务进行增加和删除。服务使用计量可以统计用户的使用

情况,然后对用户进行计费。服务质量管理指管理服务的性能、可靠性等。部署管理指自动

化部署和配置服务的实例。服务监控记录服务的健康状态。

3.请对数据挖掘进行简单的分类并给予简单的介绍。

数据挖掘可按数据库类型、挖掘对象、挖掘任务、至掘方法与技术以及应用

等几方面进行分类。

1.按数据库关系类型分类

数据挖掘主要是关系数据库中挖掘知识。随数据库类型的不断增加,逐步出

现了不同数据库的数据挖掘。

2我数据挖掘对象分类

数据挖掘除了对数据库这个主要对象进行挖掘外,还有文本数据挖掘、多媒

体数据挖掘、Web数据挖掘。由于对象不同,挖掘的方法相差很大。

3.按数据挖掘任务分类

数据挖掘的任务有:关联分析、时序模式、聚类、分类、偏差检测、预测等。

接任务分类有:关联规则挖掘、序列模式挖掘、聚类数据挖掘、分类数据挖掘、

偏差分析挖掘和预测数据挖掘等类型。

4.数据挖掘方法和技术分类

归纳学习类、仿生物技术类、公式发现类、统计分析类及可视化技术类。

4.可视化流程以数据流为主线,请你列出一个可视化流程的步骤。

答案可多样,答题要点:

整个可视化过程可以看成数据流经•系列处理模块并得到转换的过程。

1)数据采集。数据是可视化的对象。数据可以通过仪器采样、调杏记录、模拟计铝等

方式采集。

2)数据处理和变换。数据的处理和变换可以认为是可视化的前期处理。一方面原始数

据不可避免含有噪声和误差。另一方面,数据的模式和特征往往被隐藏。而可视化需要将难

以理解的原始数据变换成用户可以理解的模式和特征并显示出来。

3)可视化映射。可视化映射是整个可视化流程的核心。这种映射的最终目的是让用户

通过可视化洞察数据和数据背后隐含的现象和规律。

4)用户感知。用户感知从数据的可视化结果中提取信息、知识和灵感。可视化映射后

的结果只有通过用户感知才能转换成知识和灵感。

5.请对社交网络的组成内容及社交媒体大数据的主要特征进行分析。

参考答案:

1)社交网络的组成内容:虽然社交网络形形色色,但它们都由用户、关系和内容组成。

2)从用户层而上看,活跃用户是社交网络的核心,主导整个社交网络的交互,社会网

络中基于用户的研窕包括多源异构网络中用户身份识别和社群发现。

3)从交互关系的层面看,用户之间存在关注关系、传播关系和互惠关系,主要包括用

户关系强度、信息传播以及影响力最大化。

4)从用户交互内容看,用户交互的内容不仅有文本信息,还会包含大量的地理位置、

图像和视频等多媒体信息,并且在这些信息中还会包含情感信息。文本是社会媒体

数据的核心,其研究包括文本特征提取与选择、话题挖掘、事件和新闻检测。

三、量化题(共3题,1题10分,共20分)

1.对以上数据进行箱深度为3的箱均值光滑,需要一下步骤:

第一步:对所有数据按从小到大排序(也可以从大到小)

第二步:将数据划分到大小为3的等深的箱中:

箱1:13,15.16箱2:16,19,20箱3:20,21,22

箱4:22.25.25箱5:25,25,30箱6:33,33,35

箱7:35,35,35箱8:36,40,45箱9:46,52,70

第三步:计算每个箱的均值

第四步:将箱汇总每一个值都替换为箱中的均值

箱1:44/3,44/3,44/3箱2:55/3,55/3,55/3箱3:21,21,21

箱4:24.24,24箱5:80/3,80/3,80/3箱6:101/3,101/3.101/3

箱7:35,35,35箱8:121/3,121/3,121/3箱9:56,56,56

2.将数据集合分组为若干个簇,在簇外的值即为孤立•点,这些孤立点就是噪声数据,

对这些孤立点进行删除或替换。相似或相临近的数据聚合在一起形成各个聚类集合,

布这些聚类集合之外的数据即为异常数据,.

作为选择,一种人机结合的检测可被采用,而计算机用一种事先决定的数据

分布来区分可能的离群点。这些可能的离群点能被用人工轻松的检验,而不必检查

整个数据集。

3.其它可用来数据光滑的方法包括别的分箱光滑方法,如中位数光滑和箱边界光滑。

作为选择,等宽箱可被用来执行任何分箱方式,其中每个箱中的数据范围均是常量。

除了分箱方法外,可以使用回归技术拟合成函数来光滑数据,如通过线性或多线

性回归。分类技术也能被用来对概念分层,这是通过符低级概念上卷到高级概念来

光滑数据。

四.案例分析:(共3题,1题10分,2题5分3题10分,共25分)

答案可多样

1.昆仑轮胎公司的信息化管理架构包括哪几部分?请你就自己熟悉的子系统或其他相

关系统进行简单的介绍。

包括5部分,分别是

①PCS(ProcessConlrolSystem,即过程控制系统)

②MES(ManufacturingExecutionSystem,即制造企一业生产过程执行系统)

③ERP(EnterpriseResourcePlanning,即企业资源计划)

(4)CRM(CustomerRelationshipManagement,即客户关系管理)

⑤SCM(SupplyChainManagement,即供应链管理)

其中,①PCS是是“过程控制系统”。全集成自动化的优点不仅在设计和工程阶段,而

kt在装配和调试阶段以及操作和维护阶段都表现不俗,尤其是统一的数据管理、通讯和组态。

②MES系统是一套面向制造企业车间执行层的生产信息化管理系统。MES可以为企业

提供包括制造数据管理、计划排程管理、生产调度管理、库存管理、质量管理、人力资源管

理、工作中心/设备管理、工具工装管理、采购管理、成本管理、项目看板管理、生产过程

控制、底层数据集成分析、上层数据集成分解等管理模块,为企业打造一个扎实、可靠、全

面、可行的制造协同管理平台。

③ERP企业资源计划是指建立在信息技术基础上,以系统化的管理思想,为企业决策

层及员工提供决策运行手段的管理平台。ERP系统支持离散型、流程型等混合制造环境,

应用范围从制造业扩展到了零售业、服务业、银行业、电信业、政府机关和学校等事业部门,

通过融合数据库技术、图形用户界面、第四代查询语言、客户服务器结构、计算机辅助开发

工具、可移植的开放系统等对企业资源进行了有效的集成。

④CRM通常所指的CRM,指用计算机自动化分析销售、市场营销、客户服务以及应用

等流程的软件系统。它的目标是通过提高客户的价值、满意度、新利性和忠实度来缩减销售

周期和销售成本、增加收入、寻找扩展业务所需的新

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论