大数据工程技术人员初级理论考核试题与答案_第1页
大数据工程技术人员初级理论考核试题与答案_第2页
大数据工程技术人员初级理论考核试题与答案_第3页
大数据工程技术人员初级理论考核试题与答案_第4页
大数据工程技术人员初级理论考核试题与答案_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据工程技术人员初级理论考核一、选择题1.下列哪个选项不属于数据可视化的范畴(1[单选题]*A.科学可视化B.图表可视化VC.信息可视化。可视化分析.下列哪个选项不属于最为常见的六种图形(\[单选题]*A饼图B.条形图C.树图VD.柱状图.下列()可视化图表通常用颜色深浅表示数值大小[单选题]*A.柱状图B.热力图VC.散点图D.气泡图4.数据集合中出现次数最多的数值被称为()[单选题]*A.平均数B.众数VC.中位数D极差.()指总体中的最大值与最小值的差,反映总体标志值的差异范围。[单选题]*A极差VB方差C.标准差D.离散系数.分析买家购买商品时产生流量和金额的各渠道情况需要细分()[单选题]*A.终端B.时间C.地区D.品类V.统计时间内支付金额/支付买家数(或商品件数),衡量统计时间内每位买家的消费金额大小是()指标[单选题]*A.支付金额VB.买家数C.单价D.客单价.平均停留时长和跳失率都是()的分析内容[单选题]*A.交易分析B.流量分析VC.访客分析D.商品分析.商品分析中的重点商品选择可以借助()方法[单选题]*A.回归分析B.相关分析C.漏斗分析D.ABC分类。.ABC分类中畅销的、库存周转率高的高价值商品为()[单选题]*A.B类B.C类C.A类VD.都不属于.流量质量评估采用()作为衡量流量有效性的宏观指标[单选题]*A.访客数B.转化率VC.浏览量D.浏览时长.据WardM0(2010)的研究,超过()的人脑功能用于视觉信息的处理,视觉信息处理是人脑的最主要功能之一。[单选题]*A.30%B.50%VC.70%D.40%.当前,市场上已经出现了众多的数据可视化软件和工具,下面工具不是大数据可视化工具的是(\[单选题]*A.TableauB.DatawatchC.PIatforaD.PhotoshopV.从宏观角度看,数据可视化的功能不包括(\[单选题]*A.信息记录B.信息的限分析C.信息清洗VD.信息传播.目前有多种成熟的知识可视化工具,下面()不属于这类可视化工具。[单选题]*A.概念图B.思维导图C.认知地图D.趋势图V.可视化模型有助于理解可视化的具体过程,常用的可视化模型不包括[单选题]*A彳盾环模型B.分析模型C.递进模型VD.顺序模型.人眼的视场是很宽的,垂直方向能超过80°,水平方向能超过(X[单选题]*A.18O0B.17O0C.160°VD.150°.雷达图适用于()数据,且每个维度必须可以排序。[单选题]*A.一维B.二维C.三维D.多维V.下列四项中,不属于数据库特点的是(1[单选题]*A.数据共享B.数据完整性C.数据冗余很高VD.数据独立性高.()是位于用户与操作系统之间的一层数据管理软件,它属于系统软件,它为用户或应用程序提供访问数据库的方法。数据库在建立、使用和维护时由其统一管理、统一控制。[单选题]*A.DBMSVB.DBC.DBSD.DBA.在SQL中,建立表用的命令是(\[单选题]A.CREATESCHEMAB.CREATETABLEVC.CREATEVIEW0.CREATEINDEX.SQL的视图是从()中导出的。[单选题]*A.基本表B视图C.基本表或视图VD.数据库.下列哪个不是sql数据库文件的后缀(1[单选题]*A..mdfB.JdfC..tifVD..ndf.数据定义语言的缩写词为(X[单选题]*A.DDLVB.DCLC.DMLD.DBL.目前()数据库系统已逐渐淘汰了网状数据库和层次数据库,成为当今最为流行的商用数据库系统.[单选题]*A.关系VB.面向对象C.分布。逻辑26.SQL语言中,删除一个表中所有数据,但保留表结构的命令是(X[单选题]A.DELETEVB.DROPC.CLEARD.REMORE27在MSSQLServer中,关于数据库的说法正确的(1[单选题]*A.一个数据库可以不包含事务日志文件B.一个数据库可以只包含一个事务日志文件和一个数据库文件VC.一个数据库可以包含多个数据库文件,但只能包含一个事务日志文件D.一个数据库可以包含多个事务日志文件,但只能包含一个数据库文件.数据库管理系统的英文缩写是(I[单选题]*A.DBMSVB.DBSC.DBAD.DB.建立索引的目的是(1[单选题]*A.降低SQLServer数据检索的速度与SQLServer数据检索的速度无关C.加快数据库的打开速度D.提高SQLServer数据检索的速度V30.以下关于主键的描述正确的是(I[单选题]*A.标识表中唯一的实体VB.创建唯一的索引,允许空值C.只允许以表中第一字段建立D.表中允许有多个主键31.有关数据冗余说法错误的是(X[单选题]*A.数据库中,数据存在副本的现象,就是数据冗余B.通过分类存储,可以有效减少数据冗余,但是会增加数据查找的复杂性C.在数据库设计阶段,一定要尽最大可能避免数据冗余,最好做到无数据冗余。D.数据冗余通常是由于数据库设计引起的。V32.关于标识列,以下说法正确的是(\[单选题]*A.使用sql语句插入数据时,可以为标识列指定要插入的值。B.设定标识时,必须同时指定标识种子和标识递增量。VC.若设定标识时,未指定标识递增量,D.只能把主键设定为标识列。33.现有表user,字段:userid,username,salary,deptid,email;表department,字段:deptid,deptname;下面()应采用检查约束来实现。[单选题]*A.若department中不存在deptid为2的纪录,则不允许在user表中插入deptid为2的数据行。B.若user表中已经存在userid为10的记录,则不允许在user表中再次插入userid为10的数据行。C.User表中的salary(薪水)值必须在1000元以上。VD.若User表的email列允许为空,则向user表中插入数据时,可以不输入email值。34.以下不属于企业管理器功能的是(1[单选题]*A.创建并管理所有数据库、登陆、用户、权限等。B.管理和执行数据导入导出、数据库备份等多项辅助功能。C.定义sqlserver组。D.调试、执行sql语句,批处理和脚本。V35.将原始数据进行集成、变换、维度规约、数值规约是在()步骤的任务。[单选题]*A.频繁模式挖掘B.分类和预测C.数据预处理VD.数据流挖掘.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的()问题。[单选题]*A.关联规则发现VB.聚类C.分类D.自然语言处理.当不知道数所带标签时,可以使用()技术位使带同类标签的数据与带其他标签的数据相分离。[单选题]*A分类B.聚类VC.关联分析D.隐马尔可夫链.下面()属于映射数据到新的空间的方法。[单选题]*A.傅里叶变换VB特痴□权C.渐进抽样D维归约.下列()不是专门用于可视化时间空间数据的技术。[单选题]*A.等高线图B.饼图VC.曲面图D.矢量场图.可用作数据挖掘分析中的关联规则算法有(X[单选题]*A.决策树、对数回归、关联模式B.K均值法、SOM神经网络C.Apriori算法、FP-Tree算法VD.RBF神经网络、K均值法、决策树.下列()不是可视化交互方法。[单选题]*A.概览+细节技术B.焦点+上下文技术C.概览+缩放技术。D.平移+缩放技术.下列()属于可视化交互设备。[单选题]*A.平板电脑B触摸屏C.立体眼镜D.以上都是V.可视分析的运行过程可看作是()的循环过程。[单选题]*A."数据—知识一数据"7B."知识—知识—知识”C."数据一数据一数据"D."知识-数据一数据".与大数据密切相关的技术是(\[单选题]*A.蓝牙B.云计算VC.博弈论D.Wifi.极坐标图形是使用()来绘制的。[单选题]*A.原点和半径B.相角和距离VC.横纵坐标D.原点和相角A.原始文本->文本信息挖掘->视图绘制->人机交互。VB.原始文本->视图绘制->人机交互。C.原始文本->文本信息挖掘->人机交互.D.原始文本->文本信息挖掘->视图绘制。.下列属于反映比例关系的可视化图表的是(X[单选题]*A旭日图VB.散点图C.热力图D.气泡图.下列属于数据收集内部渠道的是(I①客户调查②专家与客户访谈③专业调研机构④内部数据库[单选题]*A.①、②、④V①、③、④C.①、②、③D.①、②、③、④[单选题]49.作为电商企业,以下()图可以有效地提供不同商品的销售和趋势情况。[单选题]A.饼图B.分组直方图C.气泡图D.条形图和线图的组合图V.下列属于基本图表的是(I[单选题]*A.瀑布图B.滑珠图C.漏斗图D.折线图V.对于一个右偏的频数分布,一般情况下()的值最大。[单选题]*A.中位数众数C.算术平均数VD.无法判断52.散点图是对成组的()数值进行1:瞰,气泡图是对()数值进行比较。[单选题]*A.两个;两个B.两个;三个VC.三个;两个D.四个;三个.图表操作以下个操作①选择数据源②图表布局③插入图表,他们的正确顺序是(I[单选题]*A.①②③①③②VC.③①②D.②①③.使用一下那种可视化工具不需要编程基础{X[单选题]*A.D3,jsB.TableauVC.Vega0.Processing.现有两个数据(0,1,0,1,0)与(0,0,1,1,1),其中每个属性为二元属性类型,则它们的Jaccard相似系数为().[单选题]*A.0.75VB.0.6C.0.5D.0.25.下面哪个选项不是表达维度的展现方式(\[单选题]*A.次序VB彳至向C.螺旋形D线性.下面哪个维度表示事件组之间的关系(1[单选题]*A.布局维度V表达维度C.比例维度D.随机58.要展示多个文档之间的主题相似性,以下哪类可视化技术较为合适(\[单选题]*A.图结构可视化,如节点连接图B.空间数据可视化,如体绘制C.时序数据可视化,如主题河流。高维数据可视化,如降维投影V.若有--个数据集,每个数据点有5个属性,以下哪种可视化技术最适用于表示其属性两两之简的相关性(1[单选题]*A.降维投影后使用二维散点图进行可视化B.像素图C.散点图矩阵VD.平行坐标系.可视化可以将难以理解的原始数据变换成用户可以理解的模式和特征,并显示出来。依据可视化流程概念图,在原始数据和可视化中间这一步骤是(1[单选题]*A.用户感知B.数据分析C.数据采集D.数据处理和变换V.在TamaraMunzner提出的可视分析模型中,可视设计的whatwhyhow三个维度中的what指代的是(X[单选题]*A.可视化任务的抽象B.对于要被可视化的数据的抽象VC.视觉编码形式的设计D.可视化交互形式的设计.可视化和其他数据分析处理方法最大的不同是用户起到了关键作用,可视化映射后的结果只有通过()才能转换成知识和灵感。[单选题]*A.可视化映射B.数据处理与变换C.用户感知VD.以上答案均不正确.下列哪一个不属于可视化三部曲(X[单选题]*A.可视化编码映射B.视图与交互设计C.可视化代码实现VD.可展示数据筛选.颜色的视觉通道不包括(\[单选题]*A.饱和度B.色相/色调C.透明度D.美观度V.可视化的输入是(\[单选题]*A.数据VB代码C.视觉形式D语言.可视化的输出是(\[单选题]*A数据B代码C.视觉形式V。语言.哪句话可以说明可视化的作用(I[单选题]*A.一图胜千言VB.掷地有声C.力透纸背D.画龙点睛.数据的维度指的是(1[单选题]*A.重要属性的数量B.属性值的大小C.属性的数量VD.样本的数量.以下关于统计的说法中,错误的是(X[单选题]*A.统计学是关于收集、整理、分析数据和从数据中得出结论的科学B.描述统计和推断统计的作用只能分开发挥VC.参数估计是利用样本信息推断总体特征D.描述统计的内容包括如何用图表或数学方法对数据进行整理和展示.用组中值代表各组内得一般水平得假定条件就是(X[单选题]*A.各组得次数均相等B.各组得组距均相等C.各组得变量值均相等D.各组次数在本组内呈均匀分布V.RFM模型的R代表什么?()[单选题]*A.客户最近一次交易时间的间隔VB.客户在最近一段时间内交易的次数C.客户在最近一段时间内交易的金额D.客户在最近一段时间内交易的频率.多维数据模型中的钻取主要指(I[单选题]*A.从细粒度数据向高层的聚合B.将;口息数据拆分到更细节的数据VC.选择维中特定的值进行分析D.选择维中特定的值进行聚合.数据分析的具体步骤为分析业务含义、制定分析计划、拆分查询数据、提炼业务洞察和(1[单选题]*A.提交报告B.反馈汇总C.产出业务决策VD.以上都对.上卷是钻取的逆操作(\[单选题]*A.正确VB错误C.不确定D.不相关.苹果手机的LOGO遵循了闭合性原则中的(X[单选题]*A.形状闭合B.负形闭合VC.经验闭合D.截断闭合76.OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是(X[单选题]*A.表B.维VC.数据D.统计.基于OLAP技术通过对数据进行多层次、多阶段的分析处理,获得高度归纳的信息是(X[单选题]*A.多维数据分析VB.多维标度分析C.业务分析D.逻辑分析.下述对维度成员的描述错误的是(I[单选题]*A.维的一个取值称为该维的一个维度成员(简称维成员)B.如果一个维是多级别的,那么该维的维度成员是在不同维级别的取值的组合。C.银行会给不同经济性质的企业贷款,比如国有、集体等,若通过企业性质的角度来分析贷款数据,那么经济性质就是维度成员VD.考虑时间维具有日、月、年这3个级别,分别在日、月、年上各取一个值组合起来,就得到了时间维的一个维成员,即"某年某月某日"。.PV和UV分别指的是(1[单选题]*A.访客数和浏览量B.浏览量和访客数VC.浏览量和买家数D.买家数和浏览量.下列哪个不是数据库对象(X[单选题]*A.数据模型B.视图C.表D.用户V.运用基于计算机的方法,包括新技术,从而在数据中获得有用知识的整个过程,就叫做数据挖掘。[判断题]*对V错.大数据往往可能蕴含着丰富的规律和知识,所以在大数据之上应用数据挖掘就成了理所当然的活动了。[判断题]*对V错.1989年,术语"数据库中的知识发现"正式确立,即KDD,[判断题]*对V错.通过数据挖掘技术,可以发现许多深层的、手工无法发现的规律,帮助企业在激烈的竞争环境中,占有更多的先机。[判断题]*对V错.一般而言,数据仓库应先行建立完成,数据发掘才能有效率的进行。[判断题]*对V错.Web数据挖掘是通过数据库中的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息。[判断题]*对错V.与分类不同的是,回归的输出是离散的类别值,而分类的输出是连续数值。[判断题]*对错V.近年来,随着人工智能机器学习模式识别和数据挖掘等领域中传统方法的不断发展以及各种新方法新技术的不断涌现,分类方法得到了长足的发展。[判断题]*对V错.”根据客户的消费行为,把客户分成三个类,第一个类的主要特征是..…,实际上这错V.至今Apriori仍然作为聚类分析的经典算法被广泛讨论。[判断题]*对错V神经网络在学习中,一般分为"有教师学习"和"无教师学习"两种。[判断题]*对V错12.早期的数据挖掘工具采用命令行界面,而且文本格式的输出也不够直观。[判断题]*对V错13kMeans聚类算法以相对距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。[判断题]*对错V.从混淆矩阵中,可以衍生出各种评价的指标。错误发现率(Falsediscoveryrate,FDR),表示在模型预测为正类的样本中,真正的负类的样本所占的比例.[判断题]*对V错.层次聚类方法的基本思想是:通过某种相似性测度计算节点之间的相似性,并按相似度由高到低排序,逐步重新连接个节点。[填空题] (答案:请设置答案).层次聚类方法的基本思想是:通过某种相似性测度计算节点之间的相似性,并按相似度由高到低排序,逐步重新连接个节点。[判断题]*对V错.政府2.0.政府3.0,与政府以后的治理改革和服务型政府建设的目标是完全不一致的。[判断题J*对错V.深度学习就是指Tensorflow框架.[判断题]*对错V.大数据的价值重在挖掘,目的在于从数据中获取有用知识。[判断题]*对V错.简单随机抽样,是从总体N个对象中任意抽取n个对象作为样本,最终以这些样本作为调查对象。在抽取样本时,总体中每个对象被抽中为调查样本的概率可能会有差19.简单随机抽样,是从总体N个对象中任意抽取n个对象作为样本,最终以这些样本作为调查对象。在抽取样本时,总体中每个对象被抽中为调查样本的概率可能会有差异。[判断题]*对错V20.维是人们观察数据的特定角度,是考虑问题时的一类属性。[判断题]*对V错1、在进行数据探索性分析时,经常使用各种可视化图形的方式。请说明探索性分析的目标,以下几种图形的核心指令,以及各图的主要功能。[填空题]*答案解析:(1)条形图核心指令:plt.bar(x,y)(3分)作用:用来表现类别数据的频数分布(3分)(2)箱线图核心指令:sns.boxplot(x,y,data)(4分)作用:用来表现数值型数据的数据分布情况,如中位数、上四分位数、下四分位数、四分储巨等。(4分)(3)折线图核心指令:plt.plot(x,y)(3分)作用:一般用来表现数据随时间变化的趋势。(3分)2、什么异常值分析?

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论