版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一单元测试题
1.(填空)大数据的发展历程总体上可以划分为4个重要阶段。它们分别是?
答案:萌芽期、突破期、成熟期和大规模应用期
2.(填空)按数据结构的不同,数据分为?
答案:结构化数据、非结构化数据、半结构化数据
3.(填空)按照数据开发应用深入程度不同,可将大数据应用分为?
答案:描述性分析应用、预测性分析应用和指导性分析应用
4.(填空)决策的5大特性包括?
答案:目的性、选择性、满意性、过程性、动
5.(填空)决策过程的4个阶段为?
答案:情报、设计、选择、执行
6.(判断)按决策影响范围和重要程度不同,管理决策分为战略决策、战术决策
和业务决策
A.V
R.X
答案:A
7.(判断)常见的定性决策方法有:头脑风暴法、专家会议法、后悔值决策法、
波士顿矩阵
A.J
B.X
答案:B
8.(判断)大数据对决策思维的影响主要体现在:全样而非抽样、精确而非高效,
因果性而非相关性。
A7
B.X
答案:B
9.(判断)大数据应用已成熟,目前多应用于决簧指导性分析。
A.J
B.X
答案:B
10.(判断)从业务角度出发,大数据的核心价值主要有:数据辅助决策、数据驱
动业务、数据对外变现。
A.V
B.X
答案:A
11.(多选)根据大数据从来源到应用的流程,下列属于大数据技术架构的是:
A.数据采集层
B.数据抽取层
C.数据分析层
D.数据应用层
答案:ACD
12.(多选)大数据时代,现代企业的管理和发展面临哪些挑战?
A.更多的数据被收集
B.数据更加复杂
C.决策自动化
D.实时决策需求突出
答案:ABCD
13.(多选)下列属于大数据“5V”特征的是:
A.数据容量大
B.数据类型多样
C.数据价值密度高
D.数据流转速度快
答案:ABD
14.(多选)按照载体大同,下列不属于文本数据的是:
A.txt文本
B.照片
C.excel电子表格
D.录像
答案:BD
15.(多选)下列关于数据、信息、知识的描述正确的是:
A.信息是有意义、有用途的数据
B.数据源于信息,是信息的表现形式和载体
C.知识是更加系统化、理论化的信息
D.从信息到数据再到知识,是螺旋式上升的过程
答案:AC
16.(判断)决策的基本流程包含发现并界定问题、确定决策目标、拟定备选方案、
评价备选方案、选择方案和回馈评估方案六大步。
A.V
B.X
答案:A
17.(多选)以下哪些方法属于定性决策方法?
A.头脑风暴法
B.专家会议法
C.乐观决策法
D.波士顿矩阵法
答案:ABD
18.(填空)大数据的五大特征包括?
答案:1.数据容量大;2.数据类型多样;3.数据价值密度低;4.数据流转速度快;
5.对数据真实性要求高
第二单元测试题
1.(单选)数据采集与处理工作不包括
A.数据治理
B数据获取
C数据预处理
D数据存储
答案:A
2.(单选)以下哪项不属于大数据分析的范畴
A.描述性分析
B诊断分析
C预测分析
D聚类分析
答案:D
3.(单选)大数据建模的步骤为
A.模型建立-模型评估-模型训练-模型应用
B模型建立•模型优化-模型训练■模型应用
C模型建立-模型训练-模型评估-模型应用
D模型建立-模型训练-模型优化-模型应用
答案:C
4.(单选)决策数据可视化技术不包括
A.海量数据可视化
B文本数据可视化
C网络可视化
D多维数据可视化
答案:A
5.(单选)大数据处理的核心环节是
A.数据分析与挖掘
B数据采集与处理
C结果展示
D数据应用
答案:A
6.(判断)大数据决策是以信息技术、云计算技术、大数据技术等为支撑,以海
量数据为主要驱动,通过大数据分析提出问题、确立目标、设计和选择方案的过
程。
A.V
B.X
答案:A
7.(判断)在数据状态上,大数据分析多使用存量数据,而大数据挖掘多使用动
态增量数据或存量数据。
AZ
B.X
8.(判断)常见的决策数据采集技术包括网络数据采集、系统日志采集、感知设
备采集、数据库采集四种。
A.V
B.X
答案:A
9.(判断)针对结构化和非结构化混合数据一般采用数据库集群的方式进行存储
A.V
B.X
答案:B
10.(判断)Hadoop是一个分布式的、容错的实时计算系统,能够对实时动态的
多源异构数据进行实时计算,获得有价值的信息。
A.V
B.X
答案:B
11.(判断)数据分析与挖掘是大数据处理的核心环节,指通过数据标签服务、文
本处理和影像组学分析等应用支撑,进行大数据的探索分析、模型拟合、模型训
练及评估。
A.V
B.X
答案:A
第三单元测试题
1.(多选)M叩Reduce体系结构主要由哪几个部分组成
A.ClientB.JobTrackerC.TaskTrackerD.Task
答案:ABCD
2.(单选)以下名词解释不正确的是
A.HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的升
源实现
B.HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开
源实现
C.Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统
D.Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进
行数据整理、特殊查询和分析存储
答案:A
3.(单选)HDFSFederation设计不能解决“单名称节点”存在的哪个问题
A.单点故隙问题
B.良好的隔离性
C.性能更高效
D.HDFS集群扩展性
答案:A
4.(单选)下列说法正确的是
A.第二名称节点无法解决单点故障问题
B.HDFSHA提供高可用性,可以实现可扩展性、系统性能和隔离性
C.第二名称节点是热备份
D.HDFSHA可用性不好
答案:A
5.(多选)对新一代资源管理调度框架YARN的理解正确的是
A.YARN的体系结构包含三个组件:ResourceManager,NodeManager,
ApplicationMasterB.YARN可以实现“一个集群多个框架”,即在一个集群上部
署一个统一的资源调度管理框架
C.MapReduce2.0是运行在YARN之上的计算框架,由YARN来为MapReduce
提供资源管理调度服务
D.YARN既是资源管理调度框架,也是一个计算框架
答案:ABC
6.(判断)Hadoop支持数据的随机写。
A.V
B.X
答案:B
7.(判断)Hadoop是Java开发的,所以Hadoop只支持Java语言编写。
A.J
B.X
答案:B
8.(判断)Hadoop1.()和2.()都具有完善的HDFSHA策略。
A.J
B.X
答案:B
9.(判断)因为Hadoop有多个副本,所以NameNode不存在单点问题。
A.V
B.X
答案:B
10.(判断)PIG是脚本语言,它与M叩Reduce无关。
A.J
B.X
答案:B
11.(单选)关于SecondaryNameNode哪项是正确的?
A.它的目的是帮助NameNode合并编辑日志,减少NameNode的启动时间
B.它是NameNode的热备份
C.它对内存没有要求
D.SecondaryNameNode应与NameNode部署到一个节点
答案:A
12.(填空)YARN的体系结构包括哪些组件?
答案:ResourceManager、ApplicationMaster^NodeManager
13.(单选)下面哪个程序负责HDFS数据存储。
A.Datanode
B.NameNode
C.Jobtracker
D.SecondaryNameNode
答案:A
14.(单选)HBase是分布式列式存储系统,记录按什么集中存放。
A.列族
B.歹U
C.行
D.不确定
答案:A
15.(填空)哪个进程负责M叩Reduce任务调度.
答案:Jubliackci
第四单元测试题
1.(单选)分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个
节点构成的,这些节点分为两类,一类存储元数据叫(),另一类存储具体数据
叫()
A.数据节点,名称节点
B.名称节点,主节点
C.从节点,主节点
D.名称节点,数据节点
答案:D
2.(单选)下列Amazon的云数据库属于关系数据库的是()
A.AmazonDynamoDB
B.AmazonRedshift
C.AmazonRDS
0.AmazonSimplcDB
答案:C
3.(单选)下列关于NoSQL数据库和关系型数据库的比较,不正确的是(;
A.NoSQL数据库缺乏统一的查询语言,而关系型数据库有标准化查询语言
B.NoSQL数据库很容易实现数据完整性,关系型数据库很难实现数据完整性
C.NoSQL数据库的可扩展性比传统的关系型数据库更好
D.NoSQL数据库具有弱一致性,关系型数据库具有强一致性
答案:B
4.(多选)下列对HBase的理解正确的是()
A.HBase是一个行式分布式数据库,是Hadoop生态系统中的一个组件
B.HBase是针对谷歌BigTable的开源实现
C.HBase是一种关系型数据库,现成功应用于互联网服务领域
D.HBase多用于存储非结构化和半结构化的松散数据
答案:BD
5.(单选)HBase是一种()数据库
A.行式数据库
B.关系数据库
C.文档数据库
D.列式数据库
答案:D
6.(单选)下列数据库属于文档数据库的是
A.HBase
B.MongoDB
C.MySQL
D.MongoDB
答案:D
7.(单选)NoSQL数据库的三大理论基石不包括
A.CAP
B.最终一致性
C.BASE
D.ACID
答案:D
8.(多选)HDFS只设置唯一一个名称节点带来的局限性包括。
A.命名空间的限制
B.集群的可用性
C.隔离问题
D.性能的瓶颈
答案:ABCD
9.(判断)目前,NoSQL的含义是“NolonlySQL”,而不是“NoSQL”。
A.J
B.X
答案:B
10.(判断)一个数据库事务具有ACID是指:原子性,一致性,持久性,隔离性。
A.J
B.X
答案:A
第五单元测试题
1.(单选)下列哪些不是数据来源()
A.商业教据
B.互联网教据
C.物联网教据
D.人工收集教据
答案:D
2.(单选)下列不是数据采集的主要渠道是()
A.传统信息系统
B.大数据系统
C.物联网系统
D.Web系统
答案:B
3.(单选)下列数据质量的评估标准,不正确的是()
A.完整性
B.可替代性
C.一致性
D.及时性
答案:B
4.(多选)下列关于数据质量的影响因素理解正确的是()
A.信息因素
B.人为因素
C.信息因素
D.流程因素
答案:ABD
5.(单选)下列不是大数据采集方法的是0
A.系统日志采集
B.网络数据采集
C.数据库采集
D.手动聚集
答案:D
6.(多选)下列属于大数据预处理的方法的是()
A.数据清洗
B.数据集成
C.数据变换
D.数据归约
答案:ABCD
7.(多选)处理噪声数据的方法包括0
A.分箱
B.平滑处理
C.聚类
D.清洗
答案:ABC
8.(判断)忽略元组的方法可以使用该元组的剩余属性值
A.V
B.X
答案:B
9.(判断)大数据预处理技术就是对己接收数据的辨析抽取和清洗
A7
B.X
答案:A
10.(判断)大数据的数据采集是指通过传感器、摄像头、RFID射频数据以及互
联网等方式获取的各种结构化、半结构化和非结构化的数据。
A.V
B.X
答案:A
第六单元测试题
一、单选
1.(单选)MapReduce的基本架构不包括下列哪个部分()
AClient
BJobTracker
CTaskTracker
DSparkCore
答案:D
2.(单选)大型主机的特点不包括下列哪个()
A高可靠性
B高可用性
C高服务性
D高激活性
答案:D
3.(单选)下列哪项不是Storm的主要特点()
A可伸缩性高
B容错性不好
C语言无关性
D适用场景广泛
答案:B
4.(单选)下列哪项不是SAPHANA的特点()
A充分并行编程
B把数据全部放入内存中存储
C图模型系统优化
D最小化数据传输
答案:C
二、多选
1.(多选)MapReduce的主要特点有()
A易于编程
B良好的扩展性
C高容错性
D适合PB级以上海量数据的离线处理
答案:ABCD
2.(多选)Spark的主要特点有()
A快速高效
B快速高效
C全栈式数据处理
D兼容性高
答案:ABCD
3.(多选)超级计算机可应用的领域有()
A气象预报领域
B医药领域
C交通领域
D防震减灾领域
答案:ABCD
4.(多选)图计算主要分为以下哪三类()
A基于分布式环境的大规模图计算系统
B基丁软件加速器的大规模图计算系统
C基于单机的大规模图计算系统
D基于硬件加速器的大规模图计算系统
答案:ACD
5.(多选)流式计算系统的特征主要包括以下哪几个方面()
A有序性
B实时性
C突发性
D易失性
答案:BCD
三、判断
1.(判断)M叩Reduce集群中使用了大量的低端服务器,因此,节点硬件失效和
软件出错是常态。
A.V
B.X
答案:A
2.(判断)大型主机虽然在性能和稳定性方面表现卓越,但并不代表其永远不会
出故障。
A.V
B.X
3.(判断)分布式架构中的计算机有明显的主/从之分,所有计算机节点都是不对
等的。
A.V
B.X
答案:B
4.(判断)集中式架构设计,天然就有多个节点,很容易通过主备、冗余、哈希
(Hash)等手段实现计算和存储冗余备份,从而实现高可用。
A.J
B.X
答案:B
5.(判断)批处理系统自动化程度比较高,系统吞吐量大,资源利用率高,系统
开销小,但各作业周转时间长,不提供用户与系统的交互手段,适合大的成熟的
作业。
A.J
B.X
答案:B
四、填空
1.(填空)大数据处理从海量的原始数据中抽取出有价值的信息,将数据转换成
信息,其中—是基础、—是支撑、是核心、―是根本。
答案:数据资源处理平台分析算法应用效益
2.(填空)M叩Reduce框架把计算节点和存储节点放在一起运行,将复杂的、运
行于大规模集群上的并行计算过程高度地抽象到两个函数:和,从而减
少了节点间的数据移动开销。
答案:MappingReducing
3.(填空)Spark生态系统主要包含
了、、、
_>和等组件。
答案:SparkCore>SparkSQL>SparkStreaming>MLlib、GraphX
4.(填空)分布式架构设计的核心理念是“",即按照一定维度将系
统进行拆分,系统各部分松耦合并行运行,并建立起较为完善的横向扩展与容错
恢复机制。
答案;并行拆分与横向扩展
5.(填空)Prcgel是一种基于—模型实现的并行图处理系统,搭建了一套可扩
展的、有容错机制的平台,提供了一套非常灵活的—,可以描述各种各样的图
计算,主要用于—、—、—等。
答案:BSPAPI图遍历最短路径PageRank计算
第七单元测试题
1.(单选)大数据时代下企业管理的特点是()
A.企业用于分析的数据量十分庞大
B.数据的精确性要求有所降低提高
C.建立事物之间的相关性
D.处理能力提升
答案:A
2.(单选)下列不属于大数据在企业管理中的作月及价值是()
A.大数据帮助企业优化资源配置
B.大数据帮助企业推动产品创新
C.大数据帮助企业实现精准营销
D.大数据帮助企业改善外部管理
答案:D
3.(单选)下列属于大数据分析流程有0
A.跨行'业数据挖掘标准流程CRISP-DM
B.业务理解
C.模型部署
D.数据取样
答案:A
4.(单选)SEMMA是由SAS公司提出的一套行之有效的数据挖掘方法论,下列
不属于数据挖掘的核心过程有()
A.抽样
B.探索
C.评估
D.部署
答案:D
5.(多选)大数据分析关键技术有()
A.可视化分析
B.数据挖掘算法
C.预测性分析
D.数据降噪
答案:ABC
6.(多选)大数据分析是利用数据获得洞察力,帮助人们更好地做决策的学科集
合,下列属于大数据分析有。
A.可视化分析
B基本数据分析
C.诊断型数据分析
D.描述型数据分析
答案:CD
7.(判断)模型评估指从业务角度和统计角度进行模型结论的评估,评估决定了
当前模型的命运,没通过评估只能面临返工。
A.J
B.X
答案:A
8.(判断)数据分析方法主要对机器学习算法进行分类介绍,机器学习算法包括
监督式学习和非监督式学习
A7
B.X
答案:A
9.(填空)跨行业数据挖掘标准流程CRISP-DM(cross-industrystandardprocessfor
datamining)是一种业界认可的用于指导数据挖掘工作的方法,为数据库知识发现
工程(KnowledgeDiscoveryinDatabase,KDD)或数据挖掘项目提供了一个完整
的过程描述。CRISP-DM把这个过程划分为六个阶段,分别
是、、、、和O
答案:业务理解、数据理解、数据准备、建立模型、模型评估、模型部署
10.(判断)特征工程是机器学习应用的基础,指的是利用领域知识从原始数据
中提取用于后续机器学习及数据挖掘应用的特征(向量)的过程。整个过程并
不涉及诸如特征表示、特征提取、属性约减、特征选择等内容。
A.V
B.X
答案:B
第八单元测试题
1.(单选)可视化基本类型不包括以下哪一项?
A.图形可视化
B.科学可视化
C.信息可视化
D.可视分析学
答案:A
2.(单选)科学可视化主要关注的是()
A.三维现象的可视化
B.二维现象的可视化
C.多维现象的可视化
D.图形的可视化
答案:A
3.(单选)GoogleChartAPI属于那种可视化工具?
A.信息图表工具
B.入门级工具
C.地图工具
D.时间线工具
答案:A
4.(单选)下面那一项不属于可视化工具中的高级分析工具
A.R语言
B.TimelineJS
C.Weka
D.Gephi
答案:B
5.(单选)下面哪一项不属于视觉通道的内容
A.饱和度
B.色调
C.色彩
D.面积
答案:c
6.(单选)以下不属于时间线工具的是
A.TimelineJS
B.Timetoast
C.Xlimeline
DR语言
答案:D
7.(多选)以下属于地图工具的有
A.Leaflet
B.ModestMaps
C.GoogleFusionTables
D.excel
答案:ABC
8.(多选)可视化评估可以分为哪两种类型
A.定性评估
B.定量评估
C.半定性评估
D.半定量评估
答案:AB
9.(判断)数据中的离•群点,即不同于数据集中其他大部分数据对象特征的数
据对象。
A.V
B.X
答案:A
10.(判断)内部数据收集的具体目的包括:获取竞品的数据、获取官方机构官
网公布的一些行业数据等。
A.V
B.X
答案:B
IL(填空)整群抽样又称O0是将总体中各单位归并成若干个互不交叉、互
不重复的集合,称之为群;然后以群为取样单位抽取样本的一种抽样方式。
答案:聚类抽样
12.(填空)典型的访谈包括()、()和半结构型访谈等
答案:开放型访谈、结构型访谈
13.(判断)数据可视化的工具,主要有入门级工具、信息图表工具、地图工
具、时间线工具、高级分析工具。
A.V
B.X
答案:A
14.(判断)开始创建一个可视化项目时,第一步是收集数据
A.V
B.X
答案:B
15.(多选)以下属于主观评估方法的有
A.专家评估
B.启发式评估
C.抽样问卷调查
D.焦点小组访谈
答案:ABCD
第九单元测试题
1.(多选)制约大数据治理的主要因素有:()
A.制度与规范缺失
B.数据防护意识薄弱
C.成本效益比较低
D.技术不成熟
答案:ABCD
2.(多选)下列属于大数据治理的实施路径的是:()
A.产生数据
B.数据资产梳理
C.构建机构内部大数据治理体系
D.大数据治理评估与审计
答案:ABCD
3.(填空)数据资产包括:
答案:企业内部数据、企业外部数据、企业购买数据
4.(填空)大数据治理的五个核心要素包括:
答案:明确数据治理责任,建立数据治理组织、管理出成效,制度是保障、确
保数据规范、数据治理要理论结合实践、数据治理软件
第十单元测试题
1.(多选)大数据技术的应用为组织财务管理注入了新鲜血液的方式有()
A.拓宽筹资渠道
B.增强财务控制能力
C.提高投资回报率
D.数据资源整合共享
答案:ABCD
2.(单选)大数据平台可为物流管理提供()
A.海量数据的收集
B.储存数据
C.分析数据
D.整合数据
答案:A
3.(多选)大数据在零售决策中的应用()
A.利用大数据分析关联购买行为
B.智能推荐系统
C.大范围营销
D.主持产品定价
答案:AB
4.(单选)下列不属于大数据在政府决策中的应月()
A.智慧政府
B.社会治理
C.公共服务
D.调整组织结构
答案:D
5.(多选)大数据在研发设计中的应用()
A.产品协同设计
B.设计仿真
C.替代工艺流程
D.优化工艺流程
答案:ABD
6.(多选)下列不属于大数据在供应链中的应用()
A.供应链管理战略决策
B.供应链管理风险预测
C.供应链管理敏捷性
D.供应链协同管理
答案:ABCD
7.(判断)大数据与智能制造之间的关系包括将制造中存在的问题转换为定
性、定量的数据内容,然后从中找到相应的解决方法。
AZ
B.X
答案:A
8.(判断)大数据技术在供应链管理方面的应用集中在供应链管理战略决策、
风险预测、提升供应链管理敏捷性及协同管理方面。
A.V
B.X
答案:A
9.(填空)大数据技术在生产制造环节的应用有助于更快、更好地推进智能制
造,其主要应用包括、—和—制等
答案:智能生产、生产流程优化、个性化定制
10.(填空)大数据在医疗卫生管理与临床服务中的应用包
括:、、、
答案:医疗质量管理、医疗绩效管理、医疗设备管理、医保管理
第十一单元测试题
1.(单选)下列说法正确的是()
A.当今社会,互联网以及各种智能设备的普遍应用,人们活动的大量信息被广
泛收集
B.大数据的应用并不会引发了各种各样的社会问题
C.技术的提升只有好处没有坏处
D.世界进入了大数据时代之后,总体会危害人们的安全
答案:A
2.(单选)下列说法错误的是()
A.组织可以比以往更大规模地收集或分析数据
B.网络公司拥有海量用户个人信息,有泄露的风险
C.公司可从数据中获利
D.组织可以不通过互联网获得数据
答案:D
3.(单选)下列说法错误的是()
A.大数据应用引发的各种社会问题,归纳起来,既有伦理问题,又有法律问题
B.大数据时代,要获得更好的个性化服务,用户就必须同意收集自己的个人信
息C.大数据应用最常见的伦理问题就是个人信息遭泄露
D.杀熟现象不需要数据也会出现
答案:D
4.(判断)在互联网大数据时代,保护公民个人信息与隐私,强化技术防范措
施,是一种及时和有效的手段。()
A7
B.X
答案:A
5.(填空)除了和之外,及,也都是保护公民个人信息与
隐私安全的必然要求。
答案:技术防范和法律保护;公民道德素质的提高及国际治理环境的不断改善
第十二单元测试题
1.(多选)下列属于大数据管理决策面临的挑战的是:()
A.数据获取与整合能力欠缺
B.企业管理观念落后
C.企业决策环境复杂
D.大数据人才匮乏
答案:ABCD
2.(单选)下列不属于大数据管理决策考虑的问题和技术选择的是()
A.数据的数量和质量
B.大数据与其他信息的结合
C.因果关系分析
D.公司的盈利情况
答案:D
3.(单选)下列不属于大数据管理决策的未来趋势是()
A.事务与分析融合
B.模块融合
C.人智融合
D.云数融合
答案:C
4.(判断)合适的数据分析工具其实能带给企业的作用是非常巨大的,系统化
的可视化数据能够更好、更准确地帮助用户进行数据分析。
A.V
B.X
答案:A
5.(填空)数据能力集成的趋势打破了企业内原有的复杂数据结构,使数据和
业务更贴近,并能更快地使用数据驱动决策。主要针对性地解决三个问题:一
是提:二是;三是O
答案:提高数据获取的效率;打通数据共享的通道;提供统一的数据开发能力
6.(填空)数据模型是数据特征的抽象,它从抽象层次上描述了系统
的、和,为数据库系统的信息表示与操作提供一个
抽象的框架。
答案:静态特征、动态行为和约束条件
1.科学决策为何遵循“满意原则”而不是“最优原则”?
信息、时间和确定性地局限使决策者难以做到最佳,通常情况下,决策者采
纳寻求一定条件下实现目标的较满意方案,即在目前环境中足够好的方案为决策
方案。满意原则是针对“最优化''原则提出来的,即最优是不存在的,存在的只有
满意。“最优化”的理论假设把决策者作为完全理性的人,以“绝对的理性”为指导,
按最优化准则行事。但是,处于复杂多变环境中的企业和决策者,要对未来做出
,,绝对理性,,的判断是不可能的。要使得决策达到最优,但是现实中上述条件往往
得不到满足,具体来说:①组织内外存在的一切,对组织的现在和未来都会直接
或间接地产生某种程度的影响,但决策者很难收集到反映这一切情况的信息。②
对于收集到的有限信息,决策者的利用能力也是有限的,决策者只能制定数量7T
限的方案。③决策所预测的未来状况可能与实际的未来状况有出入,人们对未来
的认识是不全面的。区此,决策者不可能做出“最优化''的决策,只能做到满意决
策。从管理学的意义上讲最优就是最好的资源、最好的组合和利用,获得最好的
效益,亳无疑问这是不可能的。所谓满意,就是满意的资源、通过满意的组合和
利用、获得满意的效果,而这才是合理的,也是能实现的。
2.在大数据背景下,决策还有新的分类方法吗?
在大数据背景下,决策的分类方法可以根据不同的维度和目的进行划分。以
下是一些常见的分类方法:
(1)基于数据类型的分类
①结构化数据决策:对于具有明确定义格式和字段的数据,可以使用传统的
数据挖掘技术和统计方法进行决策。②半结构化和非结构化数据决策:针对文本、
图像、视频等不同形式的非结构化数据,通常需要利用自然语言处理、图像处理、
深度学习等技术进行决策。
(2)基于决策模型的分类
①经验模型:基于先前的经验和规则进行决策,如规则引擎、专家系统等。
②机器学习模型:通过训练模型来从数据中学习模式,例如决策树、支持向量机、
神经网络等。③深度学习模型:利用深度神经网络学习复杂的特征和模式,例如
卷积神经网络、循环神经网络等。
(3)基于决策支持系统的分类
①基于规则的系统:使用事先定义的规则来进行决策,如专家系统。②基于
模型的系统:使用数学模型和算法来辅助决策,如优化模型、模拟模型等。
(4)基于决策环境的分类
①静态环境决策:在固定的数据集上进行决策,数据不断累积但不会实时更
新。②动态环境决策:需要实时地处理和响应不断变化的数据,例如金融交易、
网络安全等。
(5)基于决策目标的分类
①单目标决策:优化一个特定的目标,例如最大化利润、最小化成本等。②
多目标决策:同时考虑多个决策目标,可能存在相互冲突的情况,需要进行权衡
和优化。
(6)基于决策模型的分类
①经验模型:基于先前的经验和规则进行决策,如规则引擎、专家系统等。
②机器学习模型:通过训练模型来从数据中学习模式,例如决策树、支持向量机、
神经网络等。③深度学习模型:利用深度神经网络学习复杂的特征和模式,例如
卷积神经网络、循环神经网络等。
以上分类方法并非互斥,实际应用中可能会结合多种方法来解决复杂的决策
问题。同时,随着技术的不断发展和大数据应用场景的多样化,决策方法也在不
断演进和创新。
3.除了本书中提到的大数据对于管理决策思维、手段和方式产生影响外,是否
还在其他方面对管理决策产生影响呢?
大数据在管理决策方面产生了广泛的影响,不仅仅限于思维、手段和方式。
以下是一些其他方面,其中大数据对管理决策产生影响的示例:
①精细化决策:大数据允许管理者更细致地分析和理解组织内部和外部的各
种因素。这有助于制定更精确、个性化的管理决黄,以满足不同情境和利益相关
者的需求。
②实时决策:大数据技术使得管理者能够获取和分析实时数据。这有助于更
快地做出决策,以应市紧急情况或迅速变化的市场条件。
③风险管理.:通过大数据分析,管理者可以更好地识别和管理风险。这包括
市场风险、供应链风险、合规性风险等。大数据帮助管理者更好地预测、减轻和
回应潜在风险。
④客户体验:大数据有助于了解客户需求和行为,以优化产品和服务,提高
客户满意度,并制定更好的客户关系管理策略。
⑤创新决策:大数据分析可以帮助管理者发现新的机会和趋势,从而推动创
新决策。它有助于识别市场缺口,了解客户反馈,以及监测竞争者的动态。
⑥成本效益:通过大数据的分析,管理者可以更好地控制和降低成本。这包
括优化供应链、资源分配、生产流程等方面。
⑦人力资源管理:大数据可以用于招聘、绩效评估、员工满意度和离职率分
析,从而支持更智能的人力资源决策。
⑧社会责任和可持续发展:大数据分析有助于监测和报告组织的社会责任,
包括可持续发展目标、环保措施等,从而影响与可持续发展相关的决策。
⑨供应链管理:大数据有助于实时跟踪供应链运营,以应对需求变化、库存
管理和供应链风险。
总之,大数据对管理决策的影响不仅仅限于改进思维和决策方式,它改变了
决策的全面方法,使管理者更具洞察力、反应迅速,并更好地适应不断变化的商
业环境。这有助于提高效率、创造价值,并推动组织的成功。
1.大数据决策和传统的决策方式有什么区别?
大数据决策和传统的决策方式之间存在多个关键区别,这些区别涵盖了决策
过程、数据使用、分析方法以及决策效果。以下是一些主要区别:
区别大数据决策传统决策
大数据决策依赖于处理大规模、高维传统决策通常依赖于有
数据量和多度、多种类型的数据。这包括结构化限数量的数据,通常是结
样性数据(如数据库记录)和非结构化数构化数据,而非结构化数
据(如文本、图像、视频等)。据较少。
大数据决策通常可以实时或接近实
传统决策可能依赖于定
时地分析和应对数据。这对于需要快
实时性期或批处理分析,不如大
速决策的情况非常重要,如金融交易
数据决策实时。
或社交媒体监控。
通常依赖于内部数据源,
数据可以来自多个渠道和来源,如:
数据来源如企业数据库,或者一些
社交媒体、物联网设备、传感器、日
已知的外部数据,但范围
志文件等C
较窄。
通常需要使用高级数据处理工具和使用较为传统的数据处
数据处理
技术,如分布式计算、云计算和大数理方法,如SQL数据库查
据平台。询和统计分析工具。
通常使用先进的分析工具和技术,包
可能更依赖于经验和专
决策支持工括机器学习、深度学习、自然语言处
家判断,也可能使用传统
具理和数据挖掘等,以从大规模数据中
的统计方法。
提取洞察。
由于大数据提供了更多的信息和更
传统决策可能受到数据
准确的洞察,大数据决策通常更准确
决策效果限制和有限的分析方法
和有效,尤其在预测、个性化推荐和
的限制,因此在应对复杂
风险管理方面。
问题时可能效果较弱。
总之,大数据决策与传统决策方式之间的主要区别在于数据的规模、类型、
实时性、处理方法以及决策支持工具的使用。大数据决策在处理大规模和复杂数
据时具有明显的优势,但也需要更高级的技术和资源支持。然而,传统决策方式
仍然在某些情况下有其价值,特别是在数据有限或对实时性要求不高的情境中。
2.简述大数据决策的基本流程,并举例分析?
大数据在管理决策中的应用流程包括:定义问题、建立大数据存储库、数据
探索、数据准备、建立模型、评价模型和实施七大步骤。
(一)定义问题
定义问题通过对实际状况和理想状况进行细致周密的分析•,对问题进行综合
定义,明确问题的性质、类型和范围,确定所要实现的目标。定义问题是进行决
策的第一步。面对决策的不同需求,最先且最重要的就是了解流程和业务问题,
制定清晰明确的任务目标,以问题为导向开展大数据管理决策的相关活动。
(二)建立大数据存储库
海量异构数据存储是大数据支撑组织决策的基础。建立大数据存储库包括数
据收集、数据描述与选择、数据质量评估、处理与整合、构建数据库和维护数据
库等工作。其中,数据库是以一定方式储存在一起、具有尽可能小的冗余度且允
许多用户共享的数据集合。大数据存储库包括多种类型:如关系型数据库、分布
式数据库、数据仓库Hive等。
(三)数据探索
数据探索通过绘图和计算等手段分析数据的质量、结构、趋势和关联,对数
据进行解释分析工作。数据探索的目的在于以问题为导向定义数据的本质、描述
数据的形态特征并解释数据的相关性。大数据的多样性和大量性决定了从海量数
据中选择符合决策需求的数据是十分重要的,因此这一步骤的重点在于解释数据
的相关性,找到对决策影响最大的数据类型,建立数据关联关系。数据探索有助
于更好的开展后续的数据挖掘与数据建模等工作。
(四)数据准备
数据准备是指将来刊不同来源的原始数据整理或预处理为可以方便、准确进
行分析的数据形式,即将原始数据转换成机器学习等算法可以使用的数据形式,
包括数据清洗、数据集成、数据转换和数据归约。
(1)数据清洗。数据清洗是数据准备的第步,是指发现并纠正数据中可
识别错误的过程,包括处理噪声数据、错误数据、缺失数据、冗余数据等。该步
骤可以有效减少初始数据出现相互矛盾情况的问题。
(2)数据集成。数据集成是将多个数据源中的数据整合到一个数据存储库
中的过程。数据集成的核心任务是将互相关联的分布式异构数据集成到一起,使
用户能够以透明的方式访问这些数据。数据集成能够维护数据的整体性、一致性,
提高信息的共享和利用效率。
(3)数据转换。数据转换是采用数学变换等方法将数据从一种格式或结构
转换为另一种格式或结构的过程,目的是将多维数据压缩成低维数据,消除数据
在空间、属性、时间及精度等特征上的差异。
(4)数据归约。数据归约是指在对挖掘任务和数据理解的基础上,对数据
的特征属性进行相应处理,在减少数据存储空间的同时尽可能保证数据的完整性,
获得比原始数据小得多的数据。
(五)建立模型
建立模型是从大数据中寻找知识的过程,常用的方法有机器学习、数据挖掘、
概率统计等。机器学习是一种数据分析技术,主要是用数据或以往的经验优化程
序,而不依赖既定方程模型,其目的是实现在经验学习中改善具体算法。数据挖
掘是指按既定目标,对大量数据进行探索和分析,揭示隐藏的、未知的规律或验
证已知的规律,并进一步将其模型化。概率统计是利用统计学中的概率分布及数
学特征建立模型的方法。建立模型的最终目的是解决实践问题。根据需要解决的
问题,数据模型可以分为预测模型(分类模型和回归模型)、推荐模型、聚类模
型和降维模型等,建立模型是大数据决策的核心内容。模型的建立是一个反复的
过程,需要准备多个模型以判断哪个模型对决策作用最大。在建立模型的过程中,
应先用一部分数据来训练模型,然后再用额外的数据测试和验证该模型,以保证
模型的准确性和泛化性。
(六)评价模型
在完成模型构建后,应对模型的效果进行评估,并根据评估结果继续调整模
型的参数、特征或算法,确保所构建模型充分考虑了所有重要业务,能够实现其
挖掘目标,达到满意的结果。可以用实验数据进行模型评估,或直接在现实世界
中测试模型,观察模型拟合程度和输出结果,根据平均误差率、判定系数、精度、
查全率、查准率等一系列指标评估模型效果,若各类指标达到可接受范围,则表
明模型可以被接受。
(七)实施
基于大数据的决策模型在经过反复验证后,即可投入到实际的组织运营决策
中,辅助战略制定、组织管理等相关人员进行决策。
举例:大数据在航班信息预测中的应用
随着航空业的发展壮大,航班量、空中交通流量不断增加,空管系统的压力
日益增加,航班的延误率也有所上涨。航班延误的因素包括空管原因、天气原因、
航空公司原因、旅客原因等。航班延误不仅对当前航班旅客的行程造成影响,也
会波及后续航班,不利于我国航空业的长远发展。以卜.分别从定义问题、建立大
数据存储库、数据探索、数据准备、建立模型、评价模型和实施七个步骤展开分
析大数据的应用。
(一)定义问题
随着航班延误现象口趋严重,航空公司在运营管理等可控方面做出了一定的
努力以减少延误,但由于流控和天气等不可控因素,航班延误整体现象并未得到
缓解。航空业各子系统间沟通不畅,信息壁垒,延误预警能力不足成为造成航班
延误的新内因。航空系统每分钟产生大量数据,数据来源繁杂、格式多样。就航
班预测而言,对多种不可控因素的实时掌控和精确预测的关键在于各大信息系统
数据之间的互联互通和及时处理。运用大数据技术预测航班信息顺应了时代的要
求和科技的趋势。
(二)建立大数据存储库
采用移动互联网和网络爬虫等技术从航空运输系统、航空公司报告、机场准
点报告、机场服务评价反馈和天气预报网站等平台收集国内航空运输航班相关信
息,包括航班运行信息表、机场航班量、准点率、航空企业基地统计表、旅客评
价信息、机场服务评级和天气情况等。收集到的数据来源不同,数据格式也不尽
相同。根据数据类型建立大数据存储库,将收集到的数据存储在数据库中。
由于以上数据结构的多样性,将数据资料存储在HDFS文件系统中。HDFS
是一种分布式的数据存储系统,适合部署在廉价的机器上,能够提供高吞吐量的
数据访问,适合存储大规模数据集。HDFS会对所存储的数据进行质量评估,评
估数据的完整性、有效性、一致性和准确性,直观了解数据质量和存在的问题。
并根据业务场景和航班延误过程整合数据,建立数据关联,如下图所示。
航空延误大数据存储图
(三)数据探索
航班延误是受多方面因素影响的综合结果。在进行航班延误预测前;尽可能
将所有相关因素都考虑在内,使未考虑的随机因素尽可能小。根据现实背景和数
据来源,对数据进行初步统计分析,了解数据之间的关联关系,从相关因素中筛
选对航班延误影响效果较大的因素。
(四)数据准备
在进行大数据分析前,对所搜集的航班相关数据进行数据准备,如下图所示。
航空延误数据准备图
(1)进行数据清洗,包括:①数据过淀:在所设定的时间或范围内,从原
始数据库中抽取部分数据建立数据模型。②缺失值处理:对于未记录数据或由于
数据收集和存储过程出现软硬件故障而丢失的数据,过滤掉不完整的数据样本,
或通过某种方式填充数据点。③异常值处理:错误或异常数据不利于模型的训练,
不适用于一般的学习规则,因此通过可视化的数据分布发现并过滤掉一些异常值。
(2)进行数据集成,合并多个数据源。将不同数据源的数据合并成一个包
含所有训练相关字段的数据集,以便进行模型训练,并对模型输入数据进行某种
形式上的汇总,如统计事件类型总数等。
(3)进行数据转奥,将处理后的数据转换为一种适合机器学习模型的表示
形式,如数值向量、矩阵等。对于类别数据,将其编码为对应的数值,如根据天
气的恶劣程度分类打分;将数值数据转化为类别数据,减少变量可能值的数量;
提取非结构化数据(如图形、图像、音频等)的有用信息,进行数值转换,并对
特征进行正则化、标准化处理。
(五)建立模型
(1)根据问题特征判断问题类型,选定模型类别。就航班延误预测问题而
言,预测某个航班具体延误时间更有意义,即研究回归问题。
(2)在回归问题中寻找最适合本场景的个体模型建模,并寻找最佳参数组
合使个体模型尽可能最优。采用试验法,将多种模型训练至最佳参数,并从中选
择表现最好的模型。
(3)探索并评估多个模型组合(集成学习)表现效果,以得到比单一模型
更好性能的模型,模型构建流程如下图所示。
航空延误预测模型建立图
上述模型主要采用批处理方法,即用离线存储的所有数据或一部分数据进行
周期性训练。一般而言,根据比例将目标数据分为训练数据集、验证数据集和测
试数据集。选取训练集进行模型训练形成初始模型,借助验证集验证初始模型,
不断调整参数使模型效果达到最优,通过测试集对模型评估决定模型的可用性。
由于批计算需要花费一定时间,这就使得它难以在新数据到达时立即完成模型的
更新和计算,故采用流计算进行模型实时更新,对新的信息和底层行为做出快速
的反应和调整。
(六)评价模型
采用正确率、错误率、准确率、召回率、ROC曲线(ReceiverOperating
characteristicCurve)和AUC(AreaUnderCunze)等指标评价分类问题。采用均
方误差(MeanSquareError,MSE)=2%保;),平方绝对误差
(MeanAbsoluteError,MAE)=(匕和判定系数R?=1一二;%等指
标评价回归模型,判定模型拟合的精确程度和拟合优度。其中,%是真实数据,
%是真实数据的均值,区是拟合的数据。
(七)实施
大数据决策模型较传统模型预测准确度更高,预测行为实时可操作,经反复
验证后可进行大规模实践应用。
3.大数据决策的基本方法包括哪些?
大数据决策涉及多种方法和技术,以从大规模数据集中提取有价值的信息和
见解。以下是一些基本的大数据决策方法:
(1)数据挖掘:数据挖掘是一种通过自动或半自动的方式探索大数据集,
以发现模式、趋势和关联的技术。常见的数据挖掘技术包括分类、聚类、关狭规
则挖掘、异常检测等。
(2)机器学习:机器学习是一种人工智能技术,它使用算法来训练计算机
从数据中学习并做出预测或决策。大数据决策中的机器学习方法包括监督学习、
无监督学习和强化学习。
(3)深度学习:深度学习是机器学习的一个分支,主要用于处理大规模、
高维度的数据,如图像、语音和自然语言文本。深度学习模型如神经网络已经在
各种领域的大数据决策中取得了显著的成功。
(4)统计分析:统计方法在大数据决策中仍然是非常重要的。它包括描述
统计、推断统计和假设检验等技术,用于分析数据的分布、可靠性和相关性。
(5)数据可视化:数据可视化是通过图表、图形和交互性界面来呈现大数
据的方法。它有助于理解数据、发现模式和沟通见解,从而支持决策过程。
(6)自然语言处理(NLP):NLP技术用于处理和分析文本数据,包括从
社交媒体、新闻文章和客户评论中提取信息,以支持决策制定。
(7)图分析:当数据以图的形式存在时,图分析方法可以用于发现网络、
社交媒体关系、供应链等方面的见解。
(8)时间序列分析:时间序列分析方法用于处理时间相关的数据,如股票
价格、天气预测等。它有助于预测趋势和模式。
(9)集成方法:集成方法结合多种算法和技术,以提高预测和决策的准确
性。例如,随机森林和梯度提升是常用的集成方法。
(10)实验设计:在大数据决策中,实验设计方法可用于制定实验计划和评
估不同策略或变量对结果的影响。
这些方法通常与大数据平台和工具(如Hadoop.Spark、NoSQL数据库等)
结合使用,以实现数据处理、存储和分析的要求。在实际应用中,选择适当的方
法取决于具体的问题和数据特征。
第三章
1.试述Hadoop和Google的MapReduce、GFS等技术之间的关系。
Hadoop是一个开源的分相式计算框架,其中包括MapReduce分布式计算模
型和HadoopDistributedFileSystem(HDFS)分布式文件系统。M叩Reduce是处
理大数据集的一种编程模型,它可以将大数据集分解成小的数据块并在集群中进
行处理,最终将结果合并起来。而HDFS则是一个分布式文件系统,它将大文件
拆分成多个块并存储在不同的计算机上,从而实现大规模数据的存储和访问。
GFS(GoogleFileSystem)是Google公司开发的一种分布式文件系统,它的
设计目标是为大规模数据集的分布式访问提供高可靠性、高性能和高可扩展性。
GFS与HDFS的设计目标类似,都是为了支持大规模数据的存储和访问。但是,
它们之间也存在一些差异,如文件块的大小、数据的复制策略等。
总的来说,Hadoop的MapReduce模型和HDFS文件系统是一个整体,用于
处理和存储大规模的数据集,而GFS则是Google公司开发的另一种分布式文件
系统,用于支持其搜索引擎等大规模的数据处理应用。
1.试述Hadoop和GoogIe的MapReduceGFS等技术之间的关系。
Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS是谷歌文件系
统GFS的开源实现,MapReduce是针对谷歌MapReduce的开源实现。
2.试述Hadoop具有哪些特性。
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻
松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:
①高可靠性和容错性。Hadoop能自动地维护数据的多份副本,并且在任务失败
后能自动地重新部署(redeploy)计算任务,体现出优良的可靠性和容错性,②
高效性。Hadoop利用分布式集群进行运算,可以把成百上千台服务器集中起来,
进行分布式并行处理。提高了PB级数据存储和计算的效率。③可扩展性。Hadoop
是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展
到数以千计的节点中。④成本低。Hadoop整个集群中可以使用很多低端机,甚
至普通PC机也可以建立集群,成本非常低。⑤可跨平台。Hadoop基于Java语
言进行开发,可以较好地运行在Linux环境,具有跨平台属性。同时,Hadoop支
持多种语言进行应用程序开发,如C++等。
3.试述Hadoop的项目结构以及每个部分的具体功能。
Common是为Hadoop其他子项目提供支持的常用工具,主要包括文件系统、
RPC和串行化库。
Avro是为Hadoop的子项目,用于数据序列化的系统,提供了丰富的数据结
构类型、快速可压缩的二进制数据格式、存储持续性数据的文件集、远程调用的
功能和简单的动态语言集成功能。
HDFS是Hadoop项目的两个核心之一,它是针对谷歌文件系统的开源实现。
HBase是一个提高可靠性、高性能、可伸缩、实时读写、分布式的列式数据
库,一般采用HDFS作为其底层数据存储.
MapReduce是针对谷歌MapReduce的开源实现,用于大规模数据集的并行
运算.
Zookeeper是针对谷歌Chubby的一个开源实现,是高效和可靠的协同工作
系统,提供分布式锁之类的基本服务,用于构建分布式应用,减轻分布式应用程
序所承担的协调任务。
Hive是一个基于Hadoop的数据仓库工具,可以用于对Hadoop文件中的数
据集进行数据整理、特殊查询和分布存储.
Pig是一种数据流语言和运行环境,适合于使用Hadoop和MapReduce平台
上查询大型半结构化数据集。
Sqoop可以改进数据的互操作性,主要用来在Hadoop配合关系数据库之间
交换数据。
Chukwa是一个开源的、用于监控大型分布式系统的数据收集系统,可以将
各种类型的数据收集成适合Hadoop处理的文件,并保存在HDFS中供Hadoop
进行各种MapReduce操作。
1.在Hadoop体系架构中,试述HBase与其他组成部分的相互关系。
Hadoop的生态系统和项目组件已经逐渐完善,除了分布式文件系统HDFS
和分布.式并行编程框架MapReduce之外,还包括分布式协作服务Zookeeper、分
布式数据库HBase、数据仓库Hive、数据流处理工具Pig、数据库挖掘工具Mahout、
数据库ETL工具Sqoop、日志收集工具Flume和安装部署配置管理工具Ambari,
HBase利用HadoopM叩Reduce来处理HBase中的海量数据,实现高性能计
算;利用Zookeeper作为协同服务,实现稳定服务和失败恢复;使用HDFS作为高
可靠的底层存储,利用廉价集群提供海量数据存储能力;Sqoop为HBase的底层
数据导入功能,Pig和Hive为HBase提供了高层语言支持,HBase是BigTablc
的开源实现。
2.请以实例说明HBase数据模型。
HBase数据模型下图所示,展示的是HBase中的学生信息表,有四行记录和
两个列族,行键分别为202208121、202208204、202208215>202207118,两个列
族分别为Stulnfo和Grades,每个列族中含有若干列,如列族Stulnfo包括Name、
Class和MobilePhone三种列限定符,列族Grades包括Math^English、Computer
和BigData四种列限定符。包含数据的实体称为单元格,行根据行键进行排序。
数据写到HBase的时候都会被记录一个时间戳,这个时间戳被当做一个版本,比
如说,我们修改或者删除某一条的时候,本质上是往里边新增一条数据,记录的
版本也加一。
列族Stulnfo列族Grades
行键
NameClassMobilePhoneMathEnglishComputerBigData
202208121李明11311111111185888487
202208204王亮21311111111287848985
202208215孙天21311111111392899184
202207118T强11311111111487908789
3.试述HBase系统基本架构以及每个组成部分的作用。
HBase是一个分布式的、面向列的开源数据库,它允许存储和查询大量的数
据。HBase系统基本构架包括客户端、Zookeeper服务器、Master主服务器、
Region服务器。
(1)客户端是指与服务器相对应,为客户提供本地服务的程序。包含访问
HBase的接口,同时在缓存中维护着己经访问过的分区位置信息,用来加快后续
数据访问过程。
(2)Zookeeper服务器是Hadoop和HBase的重要组件,它的作用包括:
实现集群管理的功能,如果有多台服务器组成一个服务器集群,那么必须要
一个“总管”知道当前集群中每台机器的服务状态,一旦某台机器不能提供服务,
集群中其他机器必须知道,从而做出调整重新分配服务策略;
当增加集群的服务器时,每个分区服务器都需要到Zookeeper中注册,
Zookeeper实时监控每个分区服务器的状态并通知给Master主服务器,这样主服
务器就可以通过Zookeeper随时感知到各个分区服务器的状态。
(3)Master主服务器
Master主服务器是HBase集群中的主服务器,负责监控集群中的所有Region
服务器,并且是所有元数据更改的接口。Master主服务器的作用包括:
主服务器主要负责管理用户对表的增加、删除、修改及查询等操作;
实现不同分区服务器之间的负载均衡;
在Region分裂或合并后,负责重新调整Region的分布;
对发生故障失效的分区服务潜上的分区进行迁移。
(4)Region服务器
Region服务器是一套对Region中的数据进行操作的程序,是HBase框架中
最为关键的一个模块,它运行在Hadoop集群中的数据节点上,负责数据的存储
操作,是整个存储机制的关键实现。Region服务器的作用包括:
每个Region服务器都维护着属于自己的Region,接收和处理对Region的
访问;
Region服务器还负责Region过大时的割裂以及数量过多时的合并操作。
4.试述键值数据库、列族数据库、文档数据库和图形数据库的适用场合和优缺
点O
键值数据库是一种使用键值对来存储数据的非关系型数据库,它会使用一个
哈希表,这个表中有一个特定的键和一个指针指向特定的值;列族数据库是一种
可以存储关键字及其映射值的非关系数据库,一般采用列族数据模型;文档数据
库是一种旨在将数据作为类JSON文档存储和查询的非关系数据库;图形数据
库是指利用图结构进行存储和查询数据的一种非关系型数据库,使用图作为数据
模型来存储数据。这四种数据库的适用场景和优缺点如下表所示。
键
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人情世故模拟题目及答案
- 医疗技术临床应用管理制度
- 快题高分分析题目及答案
- 养老院老人医疗服务预约制度
- 养老院老人入住手续制度
- 养老院老人健康饮食营养师福利待遇制度
- 养老院老年人文化活动组织制度
- 办公室员工培训效果跟踪报告制度
- 银行资产保全制度
- 配电室双人双岗值班制度
- 新课标小学语文六年级下册全册核心素养教案(教学设计)
- 教科版九年级物理上册专项突破提升检测(四)电磁学实验及作图含答案
- 解决劳资纠纷与调解制度
- 护理个人先进
- DB34-T 4877-2024 智慧检验检测实验室建设指南
- GB/T 32399-2024信息技术云计算参考架构
- 高速公路收费站QC小组成果如何降低入口发卡差错率
- 食堂设备使用及保养培训
- 村庄异地搬迁安置点项目可行性研究报告
- 《正常人体形态学》考试复习题库大全(含答案)
- 抗洪抢险先进事迹2023
评论
0/150
提交评论