大数据练习卷含答案_第1页
大数据练习卷含答案_第2页
大数据练习卷含答案_第3页
大数据练习卷含答案_第4页
大数据练习卷含答案_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第页大数据练习卷含答案1.下列关于决策树的说法正确的是()A、数据集D的纯度可以用基尼值来度量,基尼值越大,数据集纯度越高B、剪枝是决策树学习算法对付“过拟合”的主要手段C、ID3算法以信息增益比为特征选择的准则D、后剪枝是先从训练集生成一棵完整的决策树,然后自上向下地对非叶节点进行考察【正确答案】:B2.()用于将非线性引入神经网络,它会将值缩小到较小的范围内。A、损失函数B、优化函数C、激活函数D、目标函数【正确答案】:C3.下列哪个不属于常用的文本分类的特征选择算法()。A、卡方检验值B、互信息C、信息增益D、主成分分析【正确答案】:D4.Hive是基于Hadoop的数据仓库软件,最大可以查询有管理()级别的分布式数据。A、PBB、GBC、MBD、TB【正确答案】:A5.选出主成分分析的步骤顺序:①确定主成分②求出相关系数矩阵③对原来的指标进行标准化④求出协方差矩阵的特征根和特征向量A、①③②④B、②①③④C、④①②③D、③②④①【正确答案】:D6.时间序列中除去趋势、周期性和季节性之后的偶然性波动,称为:()。A、趋势B、季节性C、周期性D、随机性【正确答案】:D7.根据《国家电网有限公司大数据应用管理办法》第二章职责分工第五条:建立横向部门之间、纵向各单位之间职责清晰、分工负责、()的工作机制,共同推进公司数据管理工作。A、独立完成B、协同配合C、私下配合D、私下完成【正确答案】:B8.数据中台采用总部和()两级部署模式构建。A、省市公司B、市公司C、省公司D、市县公司【正确答案】:A9.Apriori算法是最基本的一种关联规则算法,它采用布尔关联规则的挖掘频繁项集的算法,利用()搜索的方法挖掘频繁项集。A、逐层B、逐级C、自底向上D、自上而下【正确答案】:A10.下列关于随机森林和Adaboost说法不正确的是()A、和Adaboost相比,随机森林对错误和离群点更鲁棒B、随机森林准确率不依赖于个体分类器的实例和他们之间的依赖性C、随机森林对每次划分所考虑的属性数很偏感D、Adaboost初始时每个训练元组被赋予相等的权重【正确答案】:B11.神经元计算什么?A、神经元计算激活函数后,再计算线性函数(z=Wx+b)B、神经元计算一个线性函数(z=Wx+b),然后接一个激活函数C、神经元计算一个函数g,它线性地缩放输入x(Wx+b)D、神经元先计算所有特征的平均值,然后将激活函数应用于输出【正确答案】:B12.可是分析学是一门以可视交互为基础,综合运用()、数据挖掘和人机交互等技术等多个学科领域的知识。A、图像学B、人工智能C、分析学D、图形学【正确答案】:D解析:

可视分析学被定义为一门由可视交互界面为基础的分析推理科学。它综合了图形学、数据挖掘和人机交互等技术13.()是一种处理时序数据的神经网络,常用语语音识别、机器翻译等领域。A、前馈卷神经网络B、卷积神经网络C、循环神经网络D、对抗神经网络【正确答案】:C14.个人信息的保存期限的要求原则是()。A、实现处理目的之后15天B、实现处理目的之后30天C、所必要的最短时间D、所必要的最长时间【正确答案】:C15.评估完模型之后,发现模型存在高偏差(highbias),应该如何解决()A、减少模型的特征数量B、增加模型的特征数量C、增加样本数量D、以上说法都正确【正确答案】:B16.关于L1、L2正则化下列说法正确的是?A、L2正则化能防止过拟合,提升模型的泛化能力,但L1做不到这点B、L2正则化技术又称为LassoRegularizationC、L1正则化得到的解更加稀疏D、L2正则化得到的解更加稀疏【正确答案】:C17.以下哪种方法可以将json字符串转换为Python形式()。A、read_jsonB、json.transC、json.loadsD、json.dumps【正确答案】:C18.下列选项中,不符合《国家电网有限公司大数据应用管理办法》第二章职责分工第六条的是()。A、审议决策公司数据管理重大事项B、协调解决数据管理重要问题C、对公司数据管理工作进行监督指导D、公司数据管理体系和规章制度建设【正确答案】:D19.()模块是Python标准库中最常用的模块之一。通过它可以获取命令行参数,从而实现从程序外部向程序内部传递参数的功能,也可以获取程序路径和当前系统平台等信息。A、sysB、platformC、mathD,参数是组合类型(可变对象)时,改变原参数的值【正确答案】:A20.在数据仓库中,有以下销售事实表,字段如下:日期、产品编号、区域ID、渠道ID、销售数量、销售金额。其中属于维度,并且需要关联维度表的字段有几个?A、1个B、2个C、3个D、4个【正确答案】:C21.当前人工智能算力持续突破,面向训练用和推断用的芯片仍在快速推进,基于___的训练芯片持续增多A、CPUB、GPUC、FPGAD、5G通讯【正确答案】:B22.()是空语句,一般用做占位语句,不做任何事情。A、breakB、passC、continueD、print【正确答案】:B23.根据数据质量核查和治理情况,互联网部对数据质量问题发生数、()、整改完成率等进行评估和通报,促进公司整体数据质量水平提升。A、整改量B、整改及时率C、问题频率D、问题整改情况【正确答案】:B24.以下关于Python程序的基本语法元素,错误的描述是()A、变量是由用户定义的用来保存和表示数据的一种语法元素B、Python语言只能用4个空格的缩进来实现程序的强制可读性C、变量的命名规则之一是名字的首位不能是数字D、变量标识符是一个字符串,长度是没有限制的【正确答案】:B25.如果训练一个RNN网络时发现权重与激活值都是,则导致这个问题最有可能的原因是()。A、梯度消失B、梯度爆炸C、ReLUD、Sigmoid【正确答案】:B26.以下哪项工作属于数据应用优化生产运行,提升电网质效。A、优化设备运维策略B、优化能源配置C、提升电网防灾抗灾能力D、优化设备物资供应链【正确答案】:C27.若arr=np.array([[1,2,3,],[4,5,6,],[7,8,9,]]),则arr[:2,1:]的输出为()。A、([[2,3],[5,6]])B、([[1][6]])C、([[5,6],[8,9]])D、([[1,2],[4,5]])【正确答案】:A28.()是公司大数据应用工作的归口管理部门A、数字化部B、信通公司C、大数据中心D、发展部【正确答案】:A29.关于Python语言的浮点数类型,以下选项中描述错误的是A、浮点数类型与数学中实数的概念一致B、浮点数类型表示带有小数的类型C、Python语言要求所有浮点数必须带有小数部分D、小数部分不可以为0【正确答案】:D30.以下关于神经网络的说法错误的是()A、递归神经网络不允许网络中出现环形结构B、减少神经网络层数,可能会降低测试集分类错误率C、循环神经网络适合处理序列数据D、卷积神经网络可以应用于图像分类【正确答案】:A31.()用于将非线性引入神经网络。它会将值缩小到较小的范围内。A、损失函数B、优化函数C、激活函数D、目标函数【正确答案】:C32.以下()问题不适合应用神经网络。A、预测电信客户流失的可能性B、辅助确定是否给银行的客户贷款C、对基金公司的客户进行分组,了解每组客户的特点D、股票走势的预测【正确答案】:C33.假设我们有一个使用ReLU激活函数(ReLUactivationfunction)的神经网络,假如我们把ReLU激活替换为线性激活,那么这个神经网络能够模拟出同或函数(XNORfunction)吗A、可以B、不好说C、不一定D、不能【正确答案】:D34.业务中台从管理上突破了系统建设的()壁垒A、部门级B、地市C、专业D、公司级【正确答案】:A35.下列哪个神经网络结构会发生权重共享()A、卷积神经网络B、循环神经网络C、全连接神经网络D、卷积神经网络和循环神经网络【正确答案】:D36.关于pandas库的文本操作,下列说法错误的是()。A、Replace方法用于替换字符串B、Slice方法不是通过截取字符实现文本索引操作的C、Upper方法可将Series各元素转换为大写D、存在一些特殊的方法是Python原生str类型所没有的【正确答案】:B37.有关深度神经网络的训练(Training)和推断(Inference),以下说法中不正确的是:()。A、将数据分组部署在不同GPU上进行训练能提高深度神经网络的训练速度。B、TensorFlow使用GPU训练好的模型,在执行推断任务时,也必须在GPU上运行。C、将模型中的浮点数精度降低,例如使用float16代替float32,可以压缩训练好的模型的大小。D、GPU所配置的显存的大小,对于在该GPU上训练的深度神经网络的复杂度、训练数据的批次规模等,都是一个无法忽视的影响因素【正确答案】:B38.在神经网络中,以下哪种技术用于解决过拟合()。A、减少网络容量B、添加权重正则化C、添加dropoutD、以上都是【正确答案】:D39.现阶段的大数据技术体系主要类型不包括()。A、数据源与APPB、基础设施C、HadoopD、数据资源【正确答案】:C40.视觉通道表现力评价指标不包括()A、精确性B、可辨认性C、可分离性D、可转换性【正确答案】:D41.哪种策略可以加速词向量训练()。A、para2vectB、层级softmaxC、最大似然估计D、以上都不对【正确答案】:B42.大数据平台技术架构不包含的是()A、数据整合B、数据存储C、数据计算D、数据溯源【正确答案】:D43.国网公司数据管理坚持()的原则。A、面向专业B、面向基层C、面向应用D、面向专业、面向基层、面向应用【正确答案】:D44.以下关于Hadoop中MapReduce说法正确的是()。A、可以没有reduce任务B、Reducer输入为随机输入C、shuffle主要实现数据可视化功能D、一个reducer只能从一个map复制所需要的partition【正确答案】:A解析:

mapreduce与hbase两者不是强关联关系,没有mapreduce,hbase可以正常运行,mapreduce可以直接访问hbase。45.下列哪项关于模型能力(modelcapacity指神经网络模型能拟合复杂函数的能力)的描述是正确的()A、隐藏层层数增加,模型能力增加B、Dropout的比例增加,模型能力增加C、学习率增加,模型能力增加D、其他选项都不正确【正确答案】:A46.公司大数据应用需求与立项管理遵循()管理规范,严格落实项目制管理要求,主要包括需求征集、评审、储备、立项和计划编制与调整等工作。A、大数据应用项目B、数字化项目C、信息化项目D、数据研发项目【正确答案】:B47.Maxcompute执行某个SQL时返回信息中包括“J3_1_2_Stg1”,以下说法中正确的是:()。A、当前Task(ID为3)依赖于ID为1的任务,该Task的Workercount为2B、当前Task(ID为3)依赖于ID为1的任务,同时触发ID为2的任务C、当前Task(ID为3)有2个Reducer,1个mapperD、当前Task(ID为3)依赖于ID为1和ID为2的两个Task【正确答案】:D48.如果用了一个过大的学习速率会发生什么?A、神经网络会收敛B、不好说C、都不对D、神经网络不会收敛【正确答案】:D49.以下()情况下,神经网络模型被称为深度学习模型。A、加入更多层,使神经网络深度加深B、输入层可以接收维度更高的数据C、当问题是图形识别或分类问题时D、激活函数更复杂【正确答案】:A50.依托数据建模与仿真,实现经营管理的()可视、运营可控、问题可溯,持续提升科学决策能力、业务运行效率和风险管控水平。A、数据B、流程C、业务D、进度【正确答案】:B51.按照《关于进一步加强公司数据安全的通知》,应严格电网省侧和经营管理数据对外发布共享。遵循()的原则,确保生产经营数据及分析结果数据不出网(管理信息大区和生产控制大区)、不触媒。A、以共享为原则、不共享为例外B、最小化授权C、明细业务数据不出中台D、谁主管谁负责,谁使用谁负责【正确答案】:C52.国网数据中台,是在下面()阶段的基础上发展过来的。A、营销服务中心B、全业务统一数据中心C、海量历史/实时数据中心D、电网GIS数据中心【正确答案】:B53.给定一个置信概率和置信区域,若误差超过置信区域,则认为误差不是随机误差引起,视为异常值的判别方法()。A、聚类判别法;B、回归判别法;C、抽样判别法;D、统计判别法【正确答案】:D54.以下哪一个不是LSTM三个门中的一个门()A、输入门B、遗忘门C、输出门D、迭代门【正确答案】:D55.以下不是Python语言所使用特殊含义符号的是______。A、?B、**C、&D、^【正确答案】:A56.依据《国家电网有限公司数据管理办法》坚持__A、以共享为原则、不共享为例外B、一事一议C、层层审批的数据应用授权方式D、以上都可以【正确答案】:A57.国网公司坚持数据“一处生成、多处使用”,明确权威数据源引用规范,开展权威数据源中台标注,推进权威数据源在中台的落地应用,常态推进()治理。A、数据源头B、数据中台C、业务中台D、数据应用【正确答案】:A58.以习近平新时代中国特色社会主义思想为指导,全面贯彻习近平总书记关于网络强国的重要思想和国家网络空间安全战略、回家大數据发展战路,认其落实回务院回资委加睡容规作理、建设法治央企工作部署,紧扣“稳、进、()、开〞四字要求。A、平B、管C、育D、信【正确答案】:C59.pynlpir是一种常用的自然语言理解工具包,其中进行分词处理的函数是()。A、open()B、segment()C、AddUserWord()D、generate()【正确答案】:B60.考虑以下两个随机数组a和b:a=np.random.randn(4,3)<a.shape=(4,3);b=np.random.randn(3,2)<b.shape=(3,2);c=a*b,c的维度是什么?A、shape=(4,3)B、shape=(3,3)C、shape=(4,2)D、计算不成立因为这两个矩阵维度不匹配【正确答案】:D61.当闵可夫斯基距离公式中的系数p值为2时,可得到(__)的公式。A、欧氏距离B、曼哈顿距离C、街区距离D、切比雪夫距离【正确答案】:A62.以下程序的输出结果是:x=['90','87','90']n=90print(x.count(n))A、NoneB、1C、2D、0【正确答案】:D63.下面哪些超参数的增加可能会造成随机森林数据过拟合?A、树的数量B、树的深度C、学习速率D、以上选项都正确【正确答案】:B64.考虑下面的3项频繁集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4项集不包含()A、1,2,3,4B、1,2,3,5C、1,2,4,5D、1,3,4,5【正确答案】:C65.优化配电网运行,构建()等应用场景,优化停电策略,降低停电影响,提升配电网可靠性。A、精准停电分析B、精准故障抢修C、优化停电策略D、降低停电影响【正确答案】:B66.数据湖探索(DataLakeInsight,简称DLI)是支持以下()形式的大数据计算分析服务。A、流式处理B、批处理C、流批一体D、都不支持【正确答案】:C解析:

数据湖探索(DataLakeInsight,简称DLI)是完全兼容ApacheSpark和ApacheFlink生态,实现批流一体的Serverless大数据计算分析服务。67.一个HDFS集群是由一个()和多个数据节点组成。A、索引节点B、根节点C、名字节点D、数据节点【正确答案】:C解析:

HDFS是一个主从结构。一个HDFS集群是由一个名字节点(NameNode)和多个数据节点(DataNode)组成,它们通常配置在不同的机器上。68.以下哪种不是常用的数据选择方法()A、留一法B、留出法C、十则交叉验证法D、互助法【正确答案】:D解析:

对于一个包含m个样例的数据集,划分训练集S和测试集T的方法有:留出法(hold-out)、交叉验证法(crossvalidation)、留一法(Leave-One-Out,LOO)和自助法(boostraping)。d选项是互助法,而非自助法。69.Jupyternotebook双击D是什么快捷方式()。A、cell切换到Code模式B、在当前cell的上面添加cellC、在当前cell的下面添加cellD、删除当前cell【正确答案】:D70.以下哪些是通用逼近器?A、KernelSVMB、NeuralNetworksC、BoostedDecisionTreesD、以上所有【正确答案】:D71.下列关于可视化方法体系说法不正确的是()。A、通常采用视觉图形元素和视觉通道两个维度进行视觉编码B、常用的共性方法有统计图表、图论方法、视觉隐喻和图形符号学等C、领域方法在所属领域内其可视化的信度和效果往往低于基础方法的直接应用D、视觉编码为其他数据可视化方法提供了方法学基础【正确答案】:C72.下列关于模型能力(modelcapacity,指神经网络模型能拟合复杂函数的能力)的描述正确的是()。A、隐藏层层数增加,模型能力增加B、DropoutC、学习率增加,模型能力增加D、以上都不正确【正确答案】:A73.在梯度下降算法中,通常采用多种策略避免()A、全局最小B、局部最小C、全局最大D、局部最大【正确答案】:B74.如何交换二维Numpy数组中的两列()。在数组arr中交换列1和2。arr=np.arange(9).reshape(3,3)A、arr[:,[1,0,2]]B、arr[:,[1,0,3]]C、arr[:,[1,0,1]]D、arr[:,[1,0]]【正确答案】:A75.随机森林与Bagging中基学习器"多样性"的区别是()。A、都来自样本扰动B、都来自属性扰动C、来自样本扰动和来自属性扰动D、多样本集结合【正确答案】:C76.要解决的问题只有少量的数据,但幸运的是有一个之前训练过的针对类似问题的神经网络模型。最佳方案是()。A、对于新的数据集重新训练模型B、冻结除第一层之外的所有层,微调第一层C、评估模型每一层的功能,然后选择其中的某些层D、冻结除最后一层之外的所有层,重新训练最后一层【正确答案】:D77.从电网科技发展战略和国家科技发展战略结合、推进基础支撑技术与电网发展的全面融合的角度来看,国家电网公司提出“需要利用先进计算与()成果,探索先进计算体系及高性能计算技术,研究电力大数据分析挖掘算法、优化策略和可视化展现技术,以及电力大数据仿真、测试与评价技术;开展面向智能电网的各业务领域大数据典型应用。”A、新能源技术B、电网安全与控制技术C、大数据技术D、重点跨领域技术【正确答案】:C78.大数据应用评价与成果管理不包括()A、应用成效评估、工作评价B、适用频率C、增加经济效益D、论文数量【正确答案】:D79.构建()客户画像,设计全网客户标签体系,形成客户标签库,全面及时分析客户行为活动,深度提炼客户行为特征规律,实现客户行为动态画像。A、全量B、多维动态C、全方面D、多维【正确答案】:B80.下列哪个神经网络结构会发生权重共享()。A、卷积神经网络B、循环神经网络C、全连接神经网络D、选项A和B【正确答案】:D81.下列哪些不是目前机器学习所面临的问题是()。A、测试集的规模B、维度灾难C、特征工程D、过拟合【正确答案】:A解析:

目前,机器学习领域所面临的主要挑战包括过拟合、维度灾难、特征工程、算法的可扩展性82.下列关于IPython的说法,错误的是()。A、Ipython集成了交互式Python的很多优点B、Ipython的性能远远优于标准的Python的shellC、IPython支持变量自动补全,自动收缩;D、与标准的Python相比,IPython缺少内置的功能和函数;【正确答案】:D83.国网公司数据管理以数据资产()为目标。A、易懂B、易取C、易用D、易懂、易取、易用【正确答案】:D84.《中华人民共和国网络安全法》规定:国家实行网络安全等级保护制度。网络运营者应当采取监测、记录网络运行状态、网络安全事件的技术措施,按照规定留存相关的网络日志不少于()个月。A、1B、3C、6D、12【正确答案】:C解析:

《中华人民共和国网络安全法》第二十一条:国家实行网络安全等级保护制度。网络运营者应当按照网络安全等级保护制度的要求,履行下列安全保护义务,保障网络免受干扰、破坏或者未经授权的访问,防止网络数据泄露或者被窃取、篡改:(一)制定内部安全管理制度和操作规程,确定网络安全负责人,落实网络安全保护责任;(二)采取防范计算机病毒和网络攻击、网络侵入等危害网络安全行为的技术措施;(三)采取监测、记录网络运行状态、网络安全事件的技术措施,并按照规定留存相关的网络日志不少于六个月;(四)采取数据分类、重要数据备份和加密等措施;(五)法律、行政法规规定的其他义务。85.当总体为正态总体,方差已知,样本量为40,此时进行均值检验,应采用()统计量进行检验。A、卡方检验B、t检验C、F检验D、Z检验【正确答案】:D86.数据中台提供列式存储、在线快速读写、线性扩展、监控管理等能力。支持大规模集群部署、PB级数据存储;支持组件API访问接口,支持扩展的()访问,支持ODBC、JDBC等开发接口。A、SQLB、weblogicC、javaD、hive【正确答案】:A87.如果增加神经网络的宽度,精确度会增加到一个阈值,然后开始降低。造成这一现象的原因可能是()。A、只有一部分核被用于预测B、当核数量增加,神经网络的预测能力降低C、当核数量增加,其相关性增加,导致过拟合D、以上都不对【正确答案】:C88.企业中台中不包含()A、业务中台B、数据中台C、技术中台D、应用中台【正确答案】:D89.以下哪项不是公司各级大数据中心、信通公司的负责事项?A、负责组织开展大数据应用平台、服务目录等基础环境建设,保障数据及运营安全,提供数据、算法和算力资源支持B、负责发布存储的数据目录和数据获取渠道C、协同开展大数据应用建设,并参与需求评审、应用推广等工作D、负责大数据应用技术前瞻性研究,负责大数据应用技术架构设计、技术选型验证和信息安全技术保障【正确答案】:D90.下列关于PEST分析法中分析的外部环境因素说法中,错误的是()。A、政治(Political)B、经济(Economic)C、科学(Science)D、技术(Technology)【正确答案】:C91.与HMM和MEMM模型相比,CRF模型的优势不包含()。A、特征灵活B、速度快C、可容纳较多上下文信息D、全局最优【正确答案】:B92.训练样本集S含有天气、气温、人体感受、风力4个指标,已知天气的熵为0.694,温度的熵为0.859,人体感受的熵为0.952,风力的熵为0.971,如使用ID3算法,选择()为树模型的分界点。A、天气B、气温C、人体感受D、风力【正确答案】:A93.对于非连续目标在深度神经网络的优化过程中,下面哪种梯度下降方法是最好的?A、K近邻算法B、全连接神经网络C、卷积神经网络D、拉格朗日松弛Subgradientmethod【正确答案】:D94.运行以下程序,输出结果的是:print("love".join(["Everyday","Yourself","Python",]))A、EverydayloveYourselfB、EverydaylovePythonC、loveYourselflovePythonD、EverydayloveYourselflovePython【正确答案】:D95.数据存储环节,企业重要数据原则上应存储于管理信息大区,在互联网大区存储企业重要数据时应____。A、本地储存B、云上储存C、加密储存D、线下储存【正确答案】:C96.BP神经网络经常遭遇(),其训练误差持续降低,但测试误差却可能上升。A、欠拟合B、误差过大C、误差过小D、过拟合【正确答案】:D97.下列关于特征编码的叙述中,不正确的是()。A、特征编码是将非数值型特征转换成数值型特征的方法;B、数字编码与特征的排序无关C、One-Hot编码中,原始特征有n种取值,转换后就会产生n列新特征D、哑变量编码解决了One-Hot编码中存在线性关系的问题【正确答案】:B98.Python运算符中用来计算集合并集的是()A、|B、&amp;C、||D、+【正确答案】:A解析:

Python运算符中用来计算集合并集的是单竖线99.元组变量t=("cat","dog","tiger","human"),t[::-1]的结果是()A、('human','tiger','dog','cat')B、['human','tiger','dog','cat']C、{'human','tiger','dog','cat'}D、运行出错【正确答案】:A100.()算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。AprioriB、EMC、PCD、PAC【正确答案】:A解析:

“Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。”1.当MaxCompute中某个字段取值为double,以下说法正确的是:()。A、double类型中使用丨nf表示无穷大B、double类型中使用标识无穷小C、所有数据类型都可以有空值Datetime类型默认支持时区为GMT+8【正确答案】:ACD2.关于数据中台架构,以下说法正确的是()。A、业务中台提供共性服务赋能前端业务B、数据中台将业务生产资料转变为数据生产力C、技术中台为业务中台、数据中台提供统一的人工智能、GIS、身份认证等基础服务D、后台按需调用企业中台服务和外部系统数据【正确答案】:ABC3.强化对电网设备的状态()能力,全面提升设备本质安全水平。A、感知B、诊断C、管控D、运维【正确答案】:ABCD4.数据应用重点业务支撑国家治理科学中的3个服务是指()。A、服务政府决策B、服务经济发展C、服务社会治理D、服务民生改善【正确答案】:BCD5.根据业界研究,企业数字化转型在()三方面都呈现出新的趋势A、要素驱动B、流程变革C、技术创新D、价值创造【正确答案】:ABD6.算法“歧视”现象可能出现在()。A、算法设计B、算法实现C、算法投入使用D、算法验证【正确答案】:ABC7.支持创建的数据标签类型有:()。A、规则标签B、组合标签C、手工标签D、实时标签【正确答案】:ABCD8.某单位运用随机森林算法思想建立抢修热点模型。该模型主要预测下期台区工单数量,构建抢修热点。以下模型算法构建步骤中合理的顺序是:()。A、将历史数据进行随机自助法重抽样,生成N个训练样本集B、将N个训练样本集分别做决策树,生成N棵决策树C、将N棵决策树随机构成随机森林D、未来根据预测样本气候环境、设备属性、设备工况进行随机森林决策投票,得出针对该预测样本最优的决策树进行运算,并计算出最终结果。【正确答案】:ABCD9.大数据偏见包括()A、数据源的选择偏见B、算法与模型偏见C、结果解读方法的偏见D、数据呈现方式的偏见【正确答案】:ABCD10.关于数据产品研发,下列说法错误的是()。A、从加工程度看,可以将数据分为一次数据、二次数据和三次数据B、一次数据中往往存在缺失值、噪声、错误或虚假数据等质量问题C、二次数据是对一次数据进行深度处理或分析后得到的“增值数据”D、三次数据是对二次数据进行洞察与分析后得到的、可以直接用于决策支持的“洞见数据”【正确答案】:ABD11.数据再利用的意义在于()A、挖掘数据的潜在价值B、提高社会效益,优化社会管理C、实现数据重组的创新价值D、优化存储设备,降低设备成本E、利用数据可拓展性拓宽业务领域【正确答案】:ACE12.数据使用环节,应结合数据业务场景采用脱敏、水印、审计等技术手段实现差异化防护,遵循最小授权原则访问和处理()。A、个人信息B、企业数据C、明细数据D、企业重要数据【正确答案】:AD13.加强()等重点领域的数据合规管理。A、国家秘密B、企业秘密C、个人信息D、知识产权【正确答案】:ABCD14.下列有关MapReduce计算框架的描述正确的是()。A、MapReduce可以计算任务的划分和调度;B、MapReduce可完成数据的分布存储和划分;C、MapReduce可以实现处理系统节点出错检测和失效恢复;D、MapReduce可实现处理数据与计算任务的同步;【正确答案】:ABCD15.对如下神经网络的描述,正确的是A、假如神经网络过拟合了,一个可行的操作是增加正则系数B、任何二元逻辑函数,C、对于单层神经网络(无隐藏层)可以训练拟台XOR操作D、假如神经网络过拟合了,一个可行的操作是减小正则系数【正确答案】:AB16.图像分割中常使用的领域有()。A、0邻域B、4邻域C、8邻域D、24邻域【正确答案】:BC17.在假设检验中,当原假设为“伪”,但数据分析人员没有拒绝它时犯的错误叫()。A、α错误B、β错误C、取伪错误D、弃真错误【正确答案】:BC18.各单位要从责任、管理和技术上夯实基础,完善数据安全风险防控体系,确保安全合规地____、____、____数据。A、公开B、使用C、交互D、共享【正确答案】:BCD19.对于神经网络,以下哪些是超参数?A、神经网络的层数B、神经网络的学习率C、神经网络的权重D、神经网络的偏置【正确答案】:AB20.通过技术创新和管理变革交叉赋能,完成以客户为中心的快速迭代与创新,实现公司在客户、电网等核心业务能力提升及资源聚合。A、技术创新B、管理变革C、模式创新D、政策变革【正确答案】:AB21.由境外产生并跨境传输至境内的数据,应禁止()信息流入境内。A、非法B、负面C、国家安全D、非授权【正确答案】:AB22.在使用Maxcomputetunnel命令upload数据的时候,关于一些常见参数,说法正确的包括:()。A、-cB、-dfpC、-cpD、-fd【正确答案】:ACD23.使用MySQL客户端连接ADS时,()信息是必须的。A、端口B、服务器地址C、数据库名称D、AccountID【正确答案】:ABC24.健全数据合规管理体系,落实管理职责,强化横向协调和纵向指导,突出(),加强违规事件应对处置,严格管控数据合规风险。A、事前防范B、事中控制C、事后闭环D、过程管控【正确答案】:AD25.从Hadoop实现角度看,HadoopMapReduce1.0主要由()组成。A、编程模型B、数据处理引擎C、运行时环境D、算法库【正确答案】:ABC26.依据《信息安全技术网络安全等级保护基本要求》《信息安全技术个人信息安全规范》等标准文件,落实数据()、()、()和()等技术要求。A、完整性B、保密性C、备份恢复D、个人信息保护【正确答案】:ABCD27.为了保证应用获得可预期的性能,需要设置OTS表的()。A、预留存储空间B、预留处理内存C、预留写吞吐量D、预留读吞吐量【正确答案】:CD28.关于Python语言的特点,以下选项描述不正确的是()。A、Python语言不支持面向对象B、Python语言是解释型语言C、Python语言是编译型语言D、Python语言是非跨平台语言【正确答案】:ACD29.下列算法,哪些属于深度学习模型A、支持向量机SVMB、深度残差网络C、集成学习GBDTD、卷积神经网络CNN【正确答案】:BD30.线性模型的基本形式有()。A、线性回归B、对数几率回归(二分类问题)C、线性判别分析(Fisher判别分析)D、多分类学习【正确答案】:ABCD31.对于大数据计算服务(MaxCompute,原ODPS)内置绝对值函数abs描述正确的有:()。A、当输入参数是bigint时,返回值是bigint类型B、当输入参数是string类型时,一定会导致异常C、输入类型是boolean则返回值是TrueD、当输入参数是double时,返回值是double类型【正确答案】:AD32.关于MySQL的CloudDBA的诊断报告说法正确的是A、自动或手动诊断实例B、查看实例的健康状况C、查看实例的告警信息D、查看实例的慢SQL信息【正确答案】:ABCD33.RNN网络的激活函数选用双曲正切而不是Sigmod的原因有()。A、使用Sigmod函数容易出现梯度消失B、Sigmod的导数形式较为复杂C、双曲正切更简单D、Sigmoid函数实现较为复杂【正确答案】:AB34.大数据计算服务表fact_sale_detail的建表语句如下:createtablefact_sale_detail(sale_datedatetime,regionstring,amtdecimal)partitionedby(dtstring);包括dt=’20160229’,dt=’20160301’,dt=’20160302’,dt=’20160303’共四天的数据,每个分区中只包含当天的销售数据。Udf_substr为自定义的数据(UDF),功能和substr相同但是性能更好。现在想要统计3月份的按天销售汇总金额,以下()方式经过分区剪裁后只需要付3个分区的数据久可以完成计算。A、selectdt,sum(amt)fromfact_sale_detailwheredtlike'201603%'groupbydt;B、selectdt,sum(amt)fromfact_sale_detailwheresubstr(dt,1,6)=’201603’groupbydt;C、selectdt,sum(amt)fromfact_sale_detailwheredtin('20160301''20160302''20160303')groupbydt;D、selectdt,sum(amt)fromfact_sale_detailwhereudf_substr(dt,1,6)='201603'groupbydt;【正确答案】:ABCD35.当图像分类的准确率不高时,可以考虑以下哪种方法提高准确率。A、数据增强B、调整超参数C、使用预训练网络参数D、减少数据集【正确答案】:ABC36.一个回归模型存在多重共线问题。在不损失过多信息的情况下,可如何处理()A、剔除所有的共线性变量B、剔除共线性变量中的一个C、我们可以计算方差膨胀因子(varianceinflationfactor)来检查存在的多重共线性并采取相应的措施D、移除相关变量可能会导致信息的丢失,为了保留这些变量,我们可以使用岭回归(ridge)或lasso等回归方法对模型进行惩罚E、删除相关变量可能会有信息损失,我们可以不删除相关变量,而使用一些正则化方法来解决多重共线性问题,例如【正确答案】:BCD37.在数据安全领域常用的P2DR模型中,P2、D和R代表的是()。A、策略B、防护C、检测D、响应【正确答案】:ABCD38.关于数据中台架构原则,以下说法正确的是()。A、模型统一B、资源汇聚C、同源维护D、共建共享【正确答案】:ABCD39.关于VACUUM,下列说法正确的是:A、可以使用VACUUMB、产生空间碎片的原因是因为进行了大量的更新或删除操作C、数据膨胀如果不加清理,会逐渐降低查询的效率D、VACUUM可以生成表的统计信息【正确答案】:ABC40.相对于HadoopMapReduce,Spark有什么好处()。A、通用性;B、易用性;C、速度快;D、容错性;【正确答案】:ABC41.通过数据分析挖掘,释放数据资源价值,发现新知识、创造新价值、提升新能力,()。A、赋能公司提质增效B、支撑行业高质量发展C、服务国家治理现代化D、助力“一体四翼”发展布局【正确答案】:ABC42.常用来缓解BP网络的过拟合的两种策略是()。A、晚停B、早停C、正则化D、加入损失函数【正确答案】:BC43.数据中台技术能力主要包括()六个方面A、数据接入B、存储计算C、数据分析D、数据服务E、数据资产管理【正确答案】:ABCDE44.CNN网络中可能包含哪些层()A、输入层B、卷积层C、池化层D、全连接层【正确答案】:ABCD45.Scikit-Learn中可以实现()算法。A、分类B、聚类C、回归D、降维【正确答案】:ABCD46.数据传输环节,在互联网大区传输重要数据时应加密保护。采用公司统一密码基础设施签发的(),实现企业重要数据的加密传输。A、密钥B、证书C、授权D、密码【正确答案】:AB47.下列哪些操作可以使神经网络模型拟合复杂函数的能力增加?A、隐藏层层数增加B、dropout的比例增加C、加大学习率D、增加神经元的数量【正确答案】:AD48.类的特点有()。A、封装B、继承C、多态D、重复【正确答案】:ABC49.下列关于神经网络说法正确的是()。A、不如决策树稳定B、高速寻找优化解C、非线性D、具有自学习、自组织、自适应性【正确答案】:BCD50.为进一步规范国家电网有限公司大数据应用管理工作,(),根据国家和公司有关规定,制定《国家电网有限公司大数据应用管理办法(试行)》。A、切实发挥数据基础资源价值B、构建数据驱动的创新发展模式C、加快推动企业数字化转型进程D、服务具有中国特色国际领先的能源互联网企业建设目标【正确答案】:ABCD51.OTS费用从()维度计量。A、外网下行流量B、数据访问次数(万次)C、数据存储D、预留读写吞吐量【正确答案】:ACD52.Python的优点有()。A、变量不用预定义类型B、数据结构功能强大C、语言可解释性强D、变量类型固定【正确答案】:ABC53.Python变量命名规则()。A、变量名只能包含字母、数字和下划线。变量名可以字母或下划线开头,但不能以数字开头,例如,可将变量命名为message_1,但不能将其命名为1_message。B、变量名不能包含空格,但可使用下划线来分隔其中的单词。例如,变量名greeting_message可行,但变量名greetingC、不要将Python关键字和函数名用作变量名,即不要使用Python保留用于特殊用途的单词,如print。D、变量名应既简短又具有描述性。例如,name比n好,student_name比s_n好,name_length比length_of_persons_name好。【正确答案】:ABCD54.人工智能平台总体架构由平台层、应用层、服务层组成。其中,平台层包括()、()、()、()、()支撑A、模型库B、样本库C、模型平台D、底层硬件算力【正确答案】:ABCD55.加强数据安全()能力建设,提高对各类数据安全事件发现、响应和溯源能力。A、监测B、预警C、审计D、处置【正确答案】:ABCD56.ADS中不同型号的ECU标识着()不同的配置。A、内存大小B、磁盘空间C、带宽D、Vcpu核数【正确答案】:ABD57.为什么正则化能处理过拟合?A、惩罚了模型的复杂度,避免模型过度学习训练集,提高泛化能力B、剃刀原理:如果两个理论都能解释一件事情,那么较为简单的理论往往是正确的C、正则项降低了每一次系数w更新的步伐,使参数更小,模型更简单D、贝叶斯学派的观点,认为加入了先验分布(l1拉普拉斯分布,l2高斯分布),减少参数的选择空间【正确答案】:ABCD58.以下有关生成对抗网络的说法正确的是()。A、生成器可以由Autoencoder实现B、生成器用来产生带有随机噪声的一定分布数据和真实样本数据的映射关系,判别器用来区别实际数据和生成器产生的数据C、生成器和判别器需要交替训练,不断增加两者的性能,直至达到某种博弈的平衡D、生成器和判别器的代价函数在训练过程中是同时优化的【正确答案】:ABC59.MaxcomputeSQL支持的Join操作类型包括:()。A、INNERJOINB、LEFTOUTERJOINC、FULLOUTERJOIND、RIGHTOUTERJOIN【正确答案】:ABCD60.以下关于HTML标签嵌套规则的说法,正确的是()。A、块元素可以包含内联元素或某些块元素,但内联元素也可以包含块元素B、HTML标签包括块级元素和内嵌元素C、内嵌元素一般用在网站内容之中的某些细节或部位,用以“强调区分样式上标下标锚点”等,通常包括:a、abbr、acronym、b、bdo、big、br、cite、code、dfn、em、font、i、img、input、kbd、label、q、s、samp、select、small、span、strike、strong、sub、sup、textarea、tt、u、var等D、其中块级元素一般用来搭建网络架构布局承载内容,通常包括的标签有:address、dir、div、dl、dt、dd、form、h1-h6、hr、isindex、menu、noframes、noscript、ol、p、pre、table、ul等【正确答案】:BCD61.大数据计算服务(MaxCompute,原ODPS)中,使用CREATETABLELIKE语句创建新表时,原表的()属性会被复制到新表上。A、列注释B、分区C、表的生命周期属性D、表注释【正确答案】:ABD62.以下关于Pig说法正确的是()。A、弥补MapReduce编程复杂性B、封装MapReduce处理过程C、PigLatin是一种数据分析语言D、适用于并行处理【正确答案】:ABCD63.在Python中,执行importdatetimeasdt语句后,如下时间或日期定义方式正确的是()。A、dt.datetime(2019,12,12,23,23,23)B、dt.datetime(2019,0,0,23,23,23)C、dt.datetime(2019,12,12,0)D、dt.time(23,23,23)【正确答案】:ACD64.针对维数灾难,我们主要采用的降维方法有哪些()。A、多维缩放B、主成分分析C、核化线性降维D、流形学习E、度量学习【正确答案】:ABCDE65.关于梯度为0的点,下面说法正确的是()A、一般认为此时模型不收敛B、就是损失函数的最大值点C、就是损失函数的最小值点D、一般认为此时模型收敛【正确答案】:CD66.关于Pig的说法正确的是()。A、Pig的主要目的是弥补MapReduce编程的复杂性B、Pig的核心是一种数据分析语言C、Pig程序的结构适合于串行处理D、Pig主要包含PigLatin和Pig执行环境两部分【正确答案】:ABD67.以下哪些属于深度学习中的优化算法()。A、SGDB、AdamC、MomentumD、MSELoss【正确答案】:ABC68.数据总线(DataHub)提供对流式数据的()、()和(),让用户可以轻松进行流式数据的分析和应用。A、采集B、存储C、处理D、计算【正确答案】:ABC69.对于ADS的索引说法正确的是:()。A、一个列可以设置列属性disableIndex=true,用于屏蔽ADS的默认列索引B、ADS弱化了索引的概念,用户无需亲自为自己的数据表配置索引C、ADS拥有高度智能的自动化索引机制,会搜集相关信息,去自动创建索引D、用户需要对某列进行hash【正确答案】:ABC70.在深度学习中采用梯度下降方法往往达不到最优解,而是在以下哪些情况下停止了。A、鞍点B、局部极值点C、高原(plateau)点D、早停点【正确答案】:ABCD71.Python中,复合赋值运算符包括()。A、简单的赋值运算符B、乘法赋值运算符C、取模赋值运算符D、取整除赋值运算符【正确答案】:ABCD72.通常情况下,通过DataWorks的工作空间实现数据开发和运维,包含以下操作:A、建表并上传数据B、创建业务流程、同步任务C、设置周期和依赖D、运行及排错【正确答案】:ABCD73.下面哪些是循环神经网络的输出模式(__)。A、多输出B、单输出C、同步多输出D、异步多输出【正确答案】:ABD74.对于数据,常常会使用数据增强来扩充训练集,以下Pytorch中的哪些方法用于数据增强A、RandomCropB、RandomFlipC、ToTensorD、RandonRotate【正确答案】:ABD75.回归分析有很多种类,常见的有()。A、线性回归B、系数回归C、逻辑回归D、曲线回归【正确答案】:ACD76.关于Python分隔代码块描述错误的是()。A、内嵌代码的每一行,都比外面的if语句的缩进更多B、代码以“begin”开头,“end”结尾C、每行代码的缩进都一致D、代码块被封装在花括号中【正确答案】:BCD77.数据安全不仅包括数据保密性,还包括()。A、完整性B、可用性C、不可否认性D、可审计性【正确答案】:ABCD78.数据挖掘算法的组件包括()。A、模型或模型结构B、评分函数C、优化和搜索方法D、数据管理策略【正确答案】:ABCD79.下列属于数值优化算法的是()。A、梯度下降法B、牛顿法C、极大似然法D、逻辑回归【正确答案】:AB80.RNN在NLP领域的应用包括(__)。A、语言模型与文本生成B、机器翻译C、语音识别D、图像描述生成【正确答案】:ABCD81.ADS中,同一个表组的表具有:()相同的属性。A、二级List分区数B、一级hash分区数C、副本数D、纪录条数【正确答案】:BC82.在神经网络中,下列哪种技术用于解决过拟合。A、DropoutB、正则化C、earlyD、Batch【正确答案】:ABCD83.以下哪些选项可以用于实现爬虫功能()。A、BeautifulSoup库B、re模块C、Scrapy框架D、urllibrequest库【正确答案】:ACD84.Spark2.0提供的应用库包括()。A、SparkSQLB、SparkStreamingC、MLibD、GraphX【正确答案】:ABCD85.下面是Python注释语句的是()。A、'hello'B、'''hello'''C、"hello"D、<【正确答案】:BD86.可作为决策树选择划分属性的参数是()。A、信息增益B、增益率C、基尼指数D、密度函数【正确答案】:ABC87.项目空间保护打开后(setsecurity.ProjectProtection=True)以下()操作会被禁止。A、从非trustproject中读项目空间中的数据B、.把项目空间中的数据写到非trustproject中C、读非trustproject中的数据D、从trustproject写数据到项目空间【正确答案】:AB88.下列说法中,对Python中的for语句描述正确的是()。A、Python中for语句只有一种写法:“forin”B、for语句可以用break终止当前循环,重新进入循环&amp;C、continue语句可以跳过循环的当前一步D、for语句可以有else部分【正确答案】:ACD89.常用的爬虫技巧有以下哪些()。A、更改header,伪装成浏览器进行爬取B、设置爬取的时间间隔C、应用神经网络算法识别网站验证码D、通过代理服务器进行爬取【正确答案】:ABCD90.下列关于EM算法描述正确的是(__)。A、EM算法是常用的估计参数隐变量的利器B、EM算法即是期望最大化算法C、EM算法常被用来学习高斯混合模型的参数D、EM算法是一种迭代式的方法【正确答案】:ABCD91.项目空间(project)是大数据计算服务(MaxCompute,原ODPS)的基本组织单元,它类似于传统数据库的Database。以下关于项目空间的说法中正确的有:()。A、所有的对象都会属于某个项目空间B、一个帐号可以拥有多个项目空间的权限C、一个帐号可以创建多个项目空间,最多不能超过10个D、通过安全授权,可以在一个项目空间中访问另一个项目空间中的数据【正确答案】:ABD92.pandas中主要的数据结构是()。A、DataB、DataFrameC、FrameD、Series【正确答案】:BD93.下列哪些是目前深度学习的必备技术?A、反向传播算法B、卷积可视化解释C、非线性激活函数D、深度神经网络【正确答案】:ACD94.字符串的格式化可以使用()。A、%B、formatC、inputD、+【正确答案】:AB95.以下跟图像处理相关的是()。A、图像识别B、人脸识别C、视频分析D、自然语言处理【正确答案】:ABC96.Spark适用于以下()场景。A、交互式查询B、实时流处理C、批处理D、图计算【正确答案】:ABCD97.以下()属于数据统计分析工具。A、WekaB、SASC、SPSSD、Matlab【正确答案】:ABCD98.依托数据(),实现经营管理的流程可视、运营可控、问题可溯,持续提升科学决策能力、业务运行效率和风险管控水平。A、算法B、挖掘C、建模D、仿真【正确答案】:CD99.在一个二维平面中,点a的坐标位(1,2),点a的坐标位(3,5),则系列说法错误的是A、两个点的闵可夫斯基距离在p=2时距离为5B、两者的曼哈顿距离为5C、两者的欧式距离为5D、两者的上界距离为3【正确答案】:AC100.下列对字符串函数或方法说法正确的有()。A、istitle()B、max(str)C、replace(old,new,max)D、upper()【正确答案】:ABC1.Maxcompute中,允许的SQL的最大长度为8M。A、正确B、错误【正确答案】:B2.做强做优现有产品和积极创新新业务、新模式是大数据应用的重点工作安排之一。A、正确B、错误【正确答案】:A3.各单位要坚持维护数据安全和促进数据开发利用并重,以数据开发利用促进数据安全,以数据安全保障数据开发利用和产业发展。A、正确B、错误【正确答案】:A解析:

《中华人民共和国数据安全法》第十三条:国家统筹发展和安全,坚持以数据开发利用和产业发展促进数据安全,以数据安全保障数据开发利用和产业发展。4.数字化转型需要“另起炉灶、从头再来”。A、正确B、错误【正确答案】:B5.结合业务发展情况,以及各单位在模型应用中发现的问题,大数据中心组织开展模型优化完善和维护。A、正确B、错误【正确答案】:A6.回归是一种平滑处理的方法。A、正确B、错误【正确答案】:A7.启发式搜索一定比盲目式搜索好A、正确B、错误【正确答案】:B8.到“十四五”末,数据中台实现公司核心业务数据实时接入、调度数据秒级接入、与国网公司数据中台按天同步,业务指标线上生成率95%A、正确B、错误【正确答案】:A9.湖南省电力有限公司数据服务能力提升专项行动工作要求有加强组织、明确责任;强化协同、形成合力;定期通报,严格考核。A、正确B、错误【正确答案】:A10.每日业务指标报表生成可使用实时在线数据分析服务。A、正确B、错误【正确答案】:B11.国家支持开发利用数据提升公共服务的智能化水平。A、正确B、错误【正确答案】:A解析:

《中华人民共和国数据安全法》第十五条:国家支持开发利用数据提升公共服务的智能化水平。提供智能化公共服务,应当充分考虑老年人、残疾人的需求,避免对老年人、残疾人的日常生活造成障碍。12.政府监管类主要包括需求受理、需求分析与初审、数据归口审核、签订合同(协议)、提供服务五个环节A、正确B、错误【正确答案】:B13.信息化是数据业务化的过程,重点是通过信息系统固化业务流程,实现业务从线下到线上转变,积累数据,支撑业务发展。A、正确B、错误【正确答案】:B14.公司重点应用创新示范集中在对外服务政府和对内服务公司电网业务数字化转型两个方面。A、正确B、错误【正确答案】:A15.公司明确具有中国特色国际领先的能源互联网企业战略目标,提出“一业为主、两翼齐飞、全要素发力”发展布局,为公司数字化转型指明了方向、明确了目标。A、正确B、错误【正确答案】:B16.开展涉及国家秘密的数据处理活动,应当遵循国家有关法律法规要求。A、正确B、错误【正确答案】:A解析:

《中华人民共和国数据安全法》第五十三条:开展涉及国家秘密的数据处理活动,适用《中华人民共和国保守国家秘密法》等法律、行政法规的规定。在统计、档案工作中开展数据处理活动,开展涉及个人信息的数据处理活动,还应当遵守有关法律、行政法规的规定。17.分析层的各个项目空间,每个业务流程应设置至少一个正常调度的二级虚拟节点()A、正确B、错误【正确答案】:A18.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。A、正确B、错误【正确答案】:B19.大数据计算服务(MaxCompute,原ODPS)中的日志表log是一张分区表,分区键是dt,每天产生一个分区用于存储当天新增的数据,现在共有dt=’20160101’至dt=’20160131’共31个分区的数据,为了删除20160101当天新增的数据,可以通过alter方式实现。A、正确B、错误【正确答案】:A20.鲁宾逊归结原理中,设C1与C2是子句集S中的两个子句,C12是它们的归结式,若把C12加入S中,得到新子句集S2,则S与S2是等价的。A、正确B、错误【正确答案】:B21.数字化转型既符合中央精神和国家工作要求,也高度契能源互联网的内涵和发展重点,更加具有时代特色。A、正确B、错误【正确答案】:A22.人工智能是智能计算机系统,即人类智慧在机器上的模拟,或者说是人们使机器具有类似于人的智慧(对语言能理解、能学习、能推理)。A、正确B、错误【正确答案】:A23.加快制定公司数据增值服务产品建设规范,主要指研究数据增值服务管理机制、工作流程、产品开发策略,制订公司数据增值服务指导意见,推进业务规范化高质量发展。A、正确B、错误【正确答案】:A24.K-means在进行邻近性度量时的距离是欧几里得距离。A、正确B、错误【正确答案】:B25.Kafka通过每个Producer分配唯一ID避免任务重复执行。A、正确B、错误【正确答案】:A26.在互联网大区传输重要数据时应加密保护,采用公司统一密码基础设施签发的密钥或证书。A、正确B、错误【正确答案】:A27.公司建成全球最大、央企领先的一体化集团级信息系统,建成北京、上海、深圳三地集中式数据中心。A、正确B、错误【正确答案】:B28.命题逻辑无法把它所描述的客观事物的结构及逻辑特征反映出来,也不能把不同事物间的共同特征表述出来。A、正确B、错误【正确答案】:A29.K-means是一种基于密度的产生划分聚类的聚类算法。A、正确B、错误【正确答案】:B30.在安全合规的前提下,对同一需求方、同类数据用途及范围的数据需求,首次履行审批流程,后续仍要重复审批。A、正确B、错误【正确答案】:B31.预测性分析用于发现隐藏在大型数据集中的有意义联系。A、正确B、错误【正确答案】:B32.数据产品和服务提供方与使用方应签署相关使用协议,明确约束使用规则等双方权利义务。A、正确B、错误【正确答案】:A33.根据项目实际情況,可将结算并入竣工决算中一起编制。项目竣工决算报告应在项目竣工验收通过后三个月内完成。A、正确B、错误【正确答案】:A34.实时在线数据分析服务,主要指对数据更新频率要求为日级以下数据进行流式加工处理的功能需求。A、正确B、错误【正确答案】:A35.十四五期间,以“三融三化”为总体思路,全力推动公司全业务、全环节数字化转型。即主动融入电网业务、融入生产一线、融入产业生态,推进架构中台化、数据价值化、业务智能化,赋能电网和企业高质量发展。A、正确B、错误【正确答案】:A36.分类与回归是同一概念的不同称呼。A、正确B、错误【正确答案】:B37.Apriori算法是一个关联规则算法。A、正确B、错误【正确答案】:A38.数据共享时,需坚持“一事一议”、层层审批的数据应用授权方式。A、正确B、错误【正确答案】:B39.数字化转型是推进公司战略目标落地、实现高质量发展的迫切需要。A、正确B、错误【正确答案】:A40.重构原数据超市,能够提升用户“读数、找数、用数”体验。A、正确B、错误【正确答案】:A41.公司科技互联网专业2021年内需完成“能源看经济”、“能源看灾害防治”、“能源看乡村振兴”、“能源看环保”、“能源+企业用能”、僵尸空壳企业监测应用等产品在能源大数据平台的统一发布。A、正确B、错误【正确答案】:A42.虚假数据的存在会影响数据分析的信度。A、正确B、错误【正确答案】:A43.特征提取技术并不依赖于特定的领域。A、正确B、错误【正确答案】:B44.轻度汇总层主要面向业务视角,存放具有共性需求的宽表和单指标表。A、正确B、错误【正确答案】:A45.噪声是一个测量变量中的随机错误或偏差。A、正确B、错误【正确答案】:A46.国网湖南省电力有限公司2021年大数据应用及数据增值服务专项工作的工作原则包括聚焦需求,不包括价值创造。A、正确B、错误【正确答案】:B47.数据保护伞平台是一款数据安全管理产品,数据保护伞所具备的功能不包括授权。A、正确B、错误【正确答案】:A48.《中华人民共和国数据安全法》首次提出了“重要数据”概念。A、正确B、错误【正确答案】:B解析:

2016年11月发布的《中华人民共和国网络安全法》首次提出重要数据的概念49.各单位负面清单原则上应与分部负面清单保持一致,按照分部负面清单执行。A、正确B、错误【正确答案】:B50.pandas是建立在numpy基础上的高效数据分析处理库,是Python的重要数据分析库。A、正确B、错误【正确答案】:A51.数据安全,是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。A、正确B、错误【正确答案】:A解析:

《中华人民共和国数据安全法》第三条:本法所称数据,是指任何以电子或者其他方式对信息的记录。数据处理,包括数据的收集、存储、使用、加工、传输、提供、公开等。数据安全,是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。52.print(100-25*3%4)结果是97。A、正确B、错误【正确答案】:A53.贴源层存放着最细粒度的明细事实数据和维度数据。A、正确B、错误【正确答案】:B54.公司科技互联网专业2021年工作目标有:业绩指标上创一流、产业发展上有跨越、数字转型上有突破。A、正确B、错误【正确答案】:A55.预测性分析是一种将知识转换为智慧的分析过程。A、正确B、错误【正确答案】:B56.数字化工作就是建设信息系统。A、正确B、错误【正确答案】:B57.长期坚持、不断完善,逐步实现公司数据管理的体系化、规范化。A、正确B、错误【正确答案】:A58.海伯伦定理可以在计算机上实现其证明过程。A、正确B、错误【正确答案】:B59.无监督逐层训练是单隐层网络训练的有效手段。A、正确B、错误【正确答案】:B60.当相关系数r=0时,说明现象之间完全无关.A、正确B、错误【正确答案】:B61.直接提供明细数据的社会公益类流程包括需求受理、需求分析与初审、保密合规审核、数据归口审核、签订合同(协议)、提供服务六个环节A、正确B、错误【正确答案】:A62.国网公司各分部和各单位可按要求自主决策推进数据开放事宜A、正确B、错误【正确答案】:B63.分类器的期望误差不受训练数据可变性的影响,因为训练集合的决策边界相同。A、正确B、错误【正确答案】:B64.MaxCompute的分区表的分区层次目前不能超过.6层。A、正确B、错误【正确答案】:A65.开展数据处理活动应当加强风险监测,发现数据安全缺陷、漏洞等风险时,应当立即采取补救措施;发生数据安全事件时,应当立即采取处置措施,按照规定不用及时告知用户并向有关主管部门报告。A、正确B、错误【正确答案】:B解析:

《中华人民共和国数据安全法》第二十九条:开展数据处理活动应当加强风险监测,发现数据安全缺陷、漏洞等风险时,应当立即采取补救措施;发生数据安全事件时,应当立即采取处置措施,按照规定及时告知用户并向有关主管部门报告。66.推进新能源预测平台和碳市场交易辅助分析产品试点培育,试点开展火电企业碳排放监测与分析,探索碳排放诊断及对标模式等业务,加强技术与商业模式创新,推进市场应用拓展。A、正确B、错误【正确答案】:A67.国网湖南省电力有限公司数字化系统深化应用促基层减负专项行动,反馈问题最多的是科网

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论