2023年能源大数据应用开发技能竞赛理论练习试题及答案（一）

上传人：喝*** IP属地：广西上传时间：2023-10-30 格式：DOC 页数：59 大小：90.42KB 积分：30 举报 版权申诉

已阅读5页，还剩54页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第页2023年能源大数据应用开发技能竞赛理论练习试题及答案1.Apriori算法的计算复杂度受()影响。①支持度阀值②项数（维度）③事务数④事务平均宽度A、①②③④B、②③④C、①③④D、①②③【正确答案】：A2.关于Python的数字类型，以下选项中描述错误的是A、python整数类型提供了4种进制表示：十进制、二进制、八进制和十六进制B、python语言提供int、float、complex等数字类型C、python语言要求所有浮点数必须带有小数部分D、python语言中，复数类型中实数部分和虚数部分的数值都是浮点类型，复数的虚数部分通过后缀“C”或者“c”来表示【正确答案】：D3.资产评估应用实现全链路的数据资产监管和价值追踪，具体包括资产使用评估、（）评估和敏感数据评估等功能。A、资产使用评估B、资产价值C、敏感数据评估D、数据质量评估【正确答案】：B4.机房照明一般要求有()A、正常照明B、保证照明C、事故照明D、以上都是【正确答案】：D5.Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用()语言实现开源软件框架。A、javaB、C++C、R语言D、以上都不是【正确答案】：A6.评估完模型后，发现模型存在高偏差，应如何解决（）A、减少模型的特征数量B、增加模型的特征数量C、增加样本数量D、以上说法都正确【正确答案】：B7.下列关于数据仓库最终目的的描述正确的是()A、收集业务需求B、建立数据仓库逻辑模型C、开发数据仓库的应用分析D、为用户和业务部门提供决策支持【正确答案】：D8.time库的time.time()函数的作用是（）。A、返回系统当前时间戳对应的易读字符串表示B、返回系统当前时间戳对应的struct_time对象C、返回系统当前时间戳对应的本地时间的struct_time对象，本地之间经过时区转换D、返回系统当前的时间戳【正确答案】：D9.下列哪些不是目前机器学习所面临的问题是（）。A、测试集的规模B、维度灾难C、特征工程D、过拟合【正确答案】：A解析：

目前，机器学习领域所面临的主要挑战包括过拟合、维度灾难、特征工程、算法的可扩展性10.输入图片大小37*37，经过步长为2，不进行padding,卷积核为5*5的卷积层后输出特征图大小（）。A、33*33B、17*17C、29*29D、16*16【正确答案】：B11.使用copy模块深拷贝的方法为()。A、copy()B、deepcopy.copy()C、copy.deepcopy()D、deepcopy.deepcopy()【正确答案】：C12.下列关于对大数据特点的说法中，错误的是（）。A、数据规模大B、数据类型多样C、数据价值密度高D、数据处理速度快【正确答案】：C13.《国家电网有限公司数据共享负面清单管理细则》自（）起施行。A、2020年3月30日B、2021年3月30日C、2020年6月30日D、2021年6月30日【正确答案】：B14.输入图像为37*37，经过第一层卷积（卷积核数量为25，每个卷积核大小为5*5，paddding方式为valid，步长为1）和池化层（卷积核大小为3*3，paddding方式为valid，），输出特征图大小为（）A、10*10B、11*11C、12*12D、13*13【正确答案】：B15.实现多分类任务的神经网络，输出层的神经元个数一般选择（）。A、与类别数一致B、10以内C、2个D、类别数的2倍【正确答案】：A解析：

对于二分类任务,如果采用sigmoid分类器,输出层的神经元个数为1个;如果采用softmax分类器,输出层神经元个数为2个。对于多分类任务,分类类别≥3时,输出层神经元个数与类别大小相等。16.CREATETABLEAS创建表，后面需要添加查询语句类型是：（）。A、INSERTB、UPDATEC、SELECTDELETE【正确答案】：C17.考虑下面的3项频繁集的集合：{1，2，3}，{1，2，4}，{1，2，5}，{1，3，4}，{1，3，5}，{2，3，4}，{2，3，5}，{3，4，5}假定数据集中只有5个项，采用合并策略，由候选产生过程得到4项集不包含（）A、1，2，3，4B、1，2，3，5C、1，2，4，5D、1，3，4，5【正确答案】：C18.若a=np.array([[1,2,3],[4,5,6]])，则print(np.mean(a))的输出结果是（__)。A、([2.][5.])B、3.5C、([3.5])D、[2.5.]【正确答案】：B19.为保证数据应用安全，对涉及负面清单敏感数据的共享应用，应采取的措施不包括（）A、数据脱敏B、禁止访问C、访问授权D、安全审计【正确答案】：B20.一位母亲记录了儿子3～9岁的身高，由此建立的身高与年龄的回归直线方程为y=7.19x+73.93，据此可以预测这个孩子10岁时的身高，则正确的叙述是（）。A、身高一定是145.83cmB、身高一定超过146.00cmC、身高一定高于145.00cmD、身高在145.83cm左右【正确答案】：D解析：

y＝7.19x+73.93，将x=10代入得y=145.83。即身高在145.83cm左右21.数据库查询集合操作中，表示交集的是（）。A、INTERSECTB、MINUSC、EXECPTD、UNION【正确答案】：A解析：

并集操作(UNION)、交集操作(INTERSECT)、集操作(EXCEPT)22.助力（）战略落地，依托电力大数据准确刻画乡村生产、生活、生态等发展现状，分析农业产业发展现状及成效，优化乡村基础设施及公共服务资源布局，服务农业农村发展。A、乡村建设B、乡村振兴C、三农政策D、服务农村【正确答案】：B23.在深度学习中，我们经常会遇到收敛到localminimum,下面不属于解决localminimum问题的方法是（）A、随机梯度下降B、设置MomentumC、设置不同初始值D、增大batch【正确答案】：D24.下列论据中，能够支撑“大数据无所不能”的观点的是（）A、互联网金融打破了传统的观念和行为B、大数据存在泡沫C、大数据具有非常高的成本D、个人隐私泄露与信息安全担忧【正确答案】：A25.以下关于traintestsplit函数的说法正确的是（）。A、train_test_split能够将数据集划分为训练集、验证集和测试集B、生成的训练集和测试集在赋值的时候可以调换位置，系统能够自动识别C、train_test_split每次的划分结果不同，无法解决D、train_test_split函数可以自行决定训练集和测试集的占比【正确答案】：D26.做好数据识别和分类分级，通过数据盘点理清数据状况，建立数据目录，以数据目录为基础梳理形成()A、数据共享负面清单B、大数据清单C、数据目录清单D、数据集成清单【正确答案】：A27.下列哪个神经网络结构会发生权重共享()。A、卷积神经网络B、循环神经网络C、全连接神经网络D、选项A和B【正确答案】：D28.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务：（）。A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘【正确答案】：C解析：

a频繁模式挖掘是数据挖掘领域的一个研究方向,旨在发现数据项之间频现且有趣的模式,是一个完整的数据挖掘过程,并非数据挖掘中的一个步骤;b:分类和预测分别为数据挖掘领域的两个研究方向;c:数据预处理是数据挖掘过程中的一个步骤,包括数据集成、变换、维度规约、数值规约等,目的是将原始数据处理为易于挖掘的形式;d:数据流挖掘是针对特殊数据类型流数据的挖掘,并非数据挖掘中的一个步骤29.从内外部环境与市场需求来看，哪项是大数据应用的业务规划将聚焦核心领域。A、电网运营B、科技创新C、新兴产业D、供电保障【正确答案】：A30.关于LDA和PCA的描述，下列说法中错误的是？A、PCA是无监督的，LDA是有监督的B、LDA最多可以降到k-2维C、LDA可能会过拟合数据D、PCA是去掉原始数据冗余的维度，LDA是选择一个最佳的投影方向，使得投影后相同类别的数据分布紧凑，不同类别的数据尽量相互远离【正确答案】：B31.为了降低MapReduce两个阶段之间的数据传递量，一般采用（）函数对map阶段的输出进行处理。A、sort（）B、combiner（）C、join（）D、gather（）【正确答案】：B解析：

组合器函数combiner组合器函数是一个优化项,减少Map与Reduce之间的网络传输的带宽。32.若a=‘abcd’，若想将a变为‘ebcd’，则下列语句正确的是（）A、a='e'a[1:]B、a[0]='e'C、a[1]='e'D、a.replace('a','e')【正确答案】：A33.例句1：JanewantstogotoShenzhen.例句2：BobwantstogotoShanghai.构建词袋模型形成的是()，例句1，2对应的向量为()。A、[Jane，wants，to，go，Shenzhen，Bob，Shanghai]，[1，1，2，1，1，0，0]，[0，1，2，1，0，1，1]B、[Jane，wants，to，go，Shenzhen]，[1，1，1，1，1]，[0，1，1，1，1]C、[Jane，wants，to，go，Shenzhen，Bob，Shanghai]，[1，1，1，1，1，0，0]，[0，1，1，1，0，1，1]D、[bob，wants，to，go，Shenzhen]，[0，1，1，1，1]，[1，1，1，1，1]【正确答案】：A34.数据的异构性问题中，下列属于专用格式的是（）A、XMLB、CSVCLASSD、OWL【正确答案】：C解析：

“class格式的字节码文件,在交给JVM通过字节码解释器或JIT即时编辑器混合执行,class文件其实就是一个二进制字节流文件,他有固定的格式。35.及时将数据活动中产生的（）纳入公司知识产权体系进行保护，妥善处理好数据内部共享、对外开放与知识产权保护的关系。A、智力成果B、软件产品C、数据D、算法【正确答案】：A36.要解决的问题只有少量的数据，但幸运的是有一个之前训练过的针对类似问题的神经网络模型。最佳方案是()。A、对于新的数据集重新训练模型B、冻结除第一层之外的所有层，微调第一层C、评估模型每一层的功能，然后选择其中的某些层D、冻结除最后一层之外的所有层，重新训练最后一层【正确答案】：D37.由于业务系统原因影响数据质量，需修改、优化应用系统功能的，按照公司（）进行。A、信息系统安全规定B、信息系统运维规定C、信息系统检修管理规定D、信息系统使用规定【正确答案】：B38.（）认为,大数据时代的数据管理目标不一定为理想和完美，一致性、可用性和分区容错性中的任何两个特征的保证(争取)可能导致另一个特征的损失(放弃)。A、CAP理论Base原则C、数据一致性理论D、大数据法则【正确答案】：A解析：

cap理论是一种分布式系统理论，是由ericbrewer在2000年在mit发表的一篇论文《cap原理：一致性、可用性和分区容错性》中提出的，该理论的核心思想是，在网络不可靠的情况下，一个分布式系统必须在3个属性中做取舍，即只能同时满足一致性、可用性和分区容错性这三项中的两项。39.针对代码importnumpyasnpx=np.array([[1,2],[3,4]])y=np.linalg.inv(x)print(y)，选项不正确的是（）。A、[[1B、[[-2.C、[[1.D、以上答案均不正确【正确答案】：B40.合作单位和供应商的开发测试环境与公司（）应做好隔离。A、内网环境B、测试环境C、生产环境D、业务环境【正确答案】：C41.下列哪个用于说明在RDD上执行何种计算（）A、分区B、算子C、日志D、数据块【正确答案】：B42.下面哪个属于映射数据到新的空间的方法？A、傅立叶变换B、特征加权C、渐进抽样D、维归约【正确答案】：A43.倒传递神经网络（BP神经网络）的训练顺序为何？(A:调整权重;B:计算误差值;C:利用随机的权重产生输出的结果)A、BCB、CAC、BAD、CBA【正确答案】：D44.为了提高系统性能，Spark采取“惰性计算模式”，具体为（）。A、执行Transformation操作时不会提交，只有执行Action操作时才会被提交到集群中开始被执行B、执行Action操作时不会提交，只有执行Transformation操作时才会被提交到集群中开始被执行C、只有执行完Action操作和Transformation操作时，所有操作才会被提交到集群中开始被执行D、执行完Action操作或Transformation操作时都不会提交到集群【正确答案】：A45.Hive是基于Hadoop的数据仓库软件,最大可以查询有管理()级别的分布式数据。A、PBB、GBC、MBD、TB【正确答案】：A46.面向政府机构或非营利性组织等，从服务中央决策部署落地实施、社会治理现代化等方面，提供的公益性数据服务为（）。A、政府监管类B、公益服务类C、商务增值类D、公共开放类【正确答案】：B47.以（）为导向，发挥电力数据覆盖广优势，提供智能、精准、高效、便捷的公共服务。A、民生需求B、社会发展C、公共需求D、经济发展【正确答案】：A48.下面不属于池化操作（）A、连接池化B、一般池化C、重叠池化D、金字塔池化【正确答案】：A解析：

池化方法包括一般池化、均值池化、最大池化、随机池化、重叠池化、全局池化等49.MapReduce计算框架的输入的数据结构是（）。A、key-valueB、input-outputC、map-reduceD、key-column【正确答案】：A解析：

MapReduce计算框架中的输入和输出的基本数据结构是键-值对。50.关于L1、L2正则化下列说法正确的是？A、L2正则化能防止过拟合,提升模型的泛化能力,但L1做不到这点B、L2正则化技术又称为LassoRegularizationC、L1正则化得到的解更加稀疏D、L2正则化得到的解更加稀疏【正确答案】：C51.使用交叉验证法，可以()。A、帮助我们更好的进行模型选择，并在一定程度上减少过拟合B、增加模型复杂度C、更好进行特征选择，使得模型效果更好D、减少模型计算量【正确答案】：A52.数据中台提供列式存储、在线快速读写、线性扩展、监控管理等能力。支持大规模集群部署、PB级数据存储；支持组件API访问接口，支持扩展的（）访问，支持ODBC、JDBC等开发接口。A、SQLB、weblogicC、javaD、hive【正确答案】：A53.下面算法中属于图像锐化处理的是（）。A、低通滤波B、加权平均法C、高通滤波D、中值滤波【正确答案】：C54.以下哪项方法不属于汉语分词方法（）。A、双向扫描法B、正向最大匹配法C、逐词遍历法D、词向量匹配法【正确答案】：D55.()用于将非线性引入神经网络，它会将值缩小到较小的范围内。A、损失函数B、优化函数C、激活函数D、目标函数【正确答案】：C56.卷积神经网络（convolutionalneuralnetwork，CNN）是一种专门用来处理具有类似()的数据的神经网络。A、网格结构B、数组结构C、序列结构D、表格结构【正确答案】：A57.在《国家电网公司“十三五”科技战略研究报告》中指出，十二五期间“先进计算与电力大数据技术取得良好开端”，主要体现在：在（）及专业应用实现基础上，探索了大数据平台基础体系架构与应用规范A、技术中台B、公司一体化信息平台C、公司统一管理平台D、数据中台【正确答案】：B58.2*1的数组与1*3的数组相加结果为（）。A、2*3的数组B、1*1的数组C、3*2的数组D、以上都不对【正确答案】：A59.给出如下代码:whileTrue:guess=eval(input())ifguess==0x452//2:break作为输入能够结束程序运行的是（）A、breakB、553C、0x452D、"0x452//2"【正确答案】：B60.根据数据分级分类管理要求，建立（）。A、数据访问权限制度B、数据备份制度C、数据安全加密制度D、数据审计制度【正确答案】：A61.以下()问题不适合应用神经网络。A、预测电信客户流失的可能性B、辅助确定是否给银行的客户贷款C、对基金公司的客户进行分组，了解每组客户的特点D、股票走势的预测【正确答案】：C62.HDFS是Hadoop体系中定位是()。A、为数据仓库的管理提供功能B、对大型数据集进行分析和评估C、日志收集分析D、数据存储管理的基础【正确答案】：D解析：

HDFS是Hadoop体系中定位是数据存储管理的基础，它是一个高度容错的系统，能检测和应对硬件故障。63.（）负责公司数据对外开放的保密工作归口管理，开展公司数据对外开放保密工作指导和检查。A、国网互联网部B、国网法律部C、国网保密办D、国网大数据中心【正确答案】：C64.年度大数据应用需求由（）重抽组织开展储备与立项工作。A、数字化部B、财务部C、大数据中心D、发展部【正确答案】：A65.对于查询结果中有多个空值NULL的情况，SELECT命令中使用了DISTINCT和ORDERBYASC的结果是（）A、空值只出现一次，排在最前面B、空值只出现一次，排在最后面C、空值出现多次，排在最前面D、空值出现多次，排在最后面【正确答案】：A解析：

“如果使用SELECTDISTINCT语句从具有多个NULL值的列中查询数据,则结果集只包含一个NULL值。66.池化层的作用是（）。A、标准化处理输入特征B、对特征图进行特征选择和信息过滤C、对提取的特征进行非线性组合以得到输出D、直接输出每个像素的分类结果【正确答案】：B67.公司（）委员会负责数据合规管理工作统筹领导。A、信息安全B、网络安全C、安全领导D、合规管理【正确答案】：D68.np.dot([[1,2,3],[1,2,3],[1,2,3]],[[2,1,1],[2,1,1],[2,1,1]])的结果是（）。A、[[1266][1266][1266]]B、[[223][223][223]]C、[[123][123][123]]D、[[211][211][211]]【正确答案】：A69.在发生或者可能发生个人信息泄露、毁损、丢失的情况时，网络运营者应当立即采取相应的（）措施，按照规定及时告知用户并向有关主管部门报告。A、弥补B、补救C、救援D、相关【正确答案】：B解析：

《中华人民共和国网络安全法》第二十五条：网络运营者应当制定网络安全事件应急预案，及时处置系统漏洞、计算机病毒、网络攻击、网络侵入等安全风险；在发生危害网络安全的事件时，立即启动应急预案，采取相应的补救措施，并按照规定向有关主管部门报告。70.输入图像已被转换为大?为28×28的矩阵和大?为7×7的步幅为1的核?/滤波器。卷积矩阵的大小是多少？A、22X22B、21X21C、28X28D、7X7【正确答案】：A71.《中华人们共和国网络安全法》规定：国家采取措施，()来源于中华人民共和国境内外的网络安全风险和威胁，保护关键信息基础设施免受攻击、侵入、干扰和破坏，依法惩治网络违法犯罪活动，维护网络空间安全和秩序。A、监测、防御、反击B、监测、防御、处置C、检测、防御、反击D、检测、防御、处置【正确答案】：B解析：

《中华人民共和国网络安全法》第五条：国家采取措施，监测、防御、处置来源于中华人民共和国境内外的网络安全风险和威胁，保护关键信息基础设施免受攻击、侵入、干扰和破坏，依法惩治网络违法犯罪活动，维护网络空间安全和秩序。72.关于对决策树进行剪枝的说法中不正确的是（）A、先剪枝和后剪枝都可以降低决策树的过拟合风险B、后剪枝决策树的训练时间会比先剪枝决策树和未剪枝决策树长很多C、先剪枝和后剪枝都是利用验证集精度来判断是否剪枝的D、一般来说，后剪枝要比先剪枝的效果好很多【正确答案】：D解析：

先剪枝和后剪枝都可以降低决策树的过拟合风险；后剪枝决策树的训练时间会比先剪枝决策树和未剪枝决策树长很多；先剪枝和后剪枝都是利用验证集精度来判断是否剪枝的73.下列关于长短时神经网络的叙述错误的是()。A、引用自循环思想B、产生梯度长时间持续流动的路径C、积累的时间尺度不可以因输入序列而改变D、可应用于语音识别和机器翻译【正确答案】：C74.卷积核大小是4*4，则其步长不能是（）。A、0B、1C、2D、3【正确答案】：A75.国家推进网络安全社会化服务体系建设，鼓励有关企业、机构开展网络安全认证、检测和（）等安全服务A、数据安全B、网络安全技术C、风险评估D、风险预防【正确答案】：C解析：

《中华人民共和国网络安全法》第十七条：国家推进网络安全社会化服务体系建设，鼓励有关企业、机构开展网络安全认证、检测和风险评估等安全服务。76.以下符合大数据问题处理范畴的是（）A、1KB数据，1小时内提交结果B、1MB数据，2小时内提交结果C、1GB数据，3小时内提交结果D、1TB数据，0.5小时内提交结果【正确答案】：D77.批规范化(BatchNormalization)的好处都有（）A、让每一层的输入的范围都大致固定B、它将权重的归一化平均值和标准差C、它是一种?常有效的反向传播(BP)方法D、这些均不是【正确答案】：A78.发挥数据核心生产要素作用，实现产品、业务、生态（）布局，支撑电力大数据服务经济发展、社会治理和民生改善体系建设。A、全链条B、全方面C、全站式D、全面【正确答案】：C79.下列关于线性模型说法正确的是()。A、ln=wx+b不是线性模型B、线性模型不能用梯度下降求解C、线性模型试图学得一个通过属性的线性组合来预测的函数D、线性回归模型是无监督学习【正确答案】：C80.公司对外提供数据时，应根据《国家电网有限公司关于数据对外开放的指导意见》（国家电网互联〔2020〕675号）有关要求，执行（）的数据开放策略。A、差异化B、一致化C、最大化D、最小化【正确答案】：A81.已知池中有两种鱼，比例为7:3，若随机捞上一条，按照70%和30%概率随机猜测其种类，则整体误差最接近于（）A、20%B、30%C、40%D、50%【正确答案】：C82.语音识别的应用场景包括()A、语音转文本B、语音合成C、人机交互D、以上都对【正确答案】：D83.下列选项中，关于Zookeeper可靠性含义说法正确的是（）。A、可靠性通过主备部署模式实现B、可靠性是指更新只能成功或者失败，没有中间状态C、可靠性是指无论哪一个server，对外展示的均是同一个视图D、可靠性是指一个消息被一个server接受，它将被所有的server【正确答案】：D84.importscipy.statsasstx=st.norm.rvs(loc=0,scale=0.1,size=100)是指()。A、期望为0.1，标准差为0的二元分布的随机数100个B、期望为0.1，标准差为0的正太分布的随机数100个C、期望为0，标准差为0.1的均匀分布的随机数100个D、期望为0，标准差为0.1的正太分布的随机数100个【正确答案】：D85.语句np.random.randn(5，4）的运算结果是（）。A、生成一个5行4列的随机矩阵B、将矩阵的第5行第4列改成一个随机值C、将矩阵的第4行第3列改成一个随机值D、将矩阵的第5列和第4列都用随机值代替【正确答案】：A86.（）计算框架源自一种分布式计算模型，其输入和输出值均为“键-值对”结构。A、MahoutB、MapReduceC、SparkD、Sqoop【正确答案】：B解析：

MapReduce计算框架源自一种分布式计算模型，其输入和输出值均为键/值对，其计算过程分为两个阶段——map阶段和reduce阶段，并分别以两个函数map（）和reduce（）进行抽象。87.以下哪些CNN模型不是在imagenet比赛中兴起的？AlexNetB、VGG19C、ResNetD、Mask-RCNN【正确答案】：D88.下列哪项关于模型能力（modelcapacity）的描述是正确的？（指模型能近似复杂函数的能力）A、隐层层数增加，模型能力增加B、Dropout的比例增加，模型能力增加C、学习率增加，模型能力增加D、都不正确【正确答案】：A89.关于Attention-basedModel，下列说法正确的是（）。A、相似度度量模型B、是一种新的深度学习网络C、是一种输入对输出的比例模型D、都不对【正确答案】：A90.朴素贝叶斯分类器的朴素之处在于：A、只能处理低维属性B、只能处理离散型属性C、分类效果一般D、属性之间的条件独立性假设【正确答案】：D91.列表中可以放（）个字符串A、1B、255C、无限个D、由用户自己定义【正确答案】：C92.LSTM中，()的作用是确定哪些新的信息留在细胞状态中，并更新细胞状态。A、输入门B、遗忘门C、输出门D、更新门【正确答案】：A93.深度学习方法不适用的数据集为以下哪种情况？A、样本量充足B、样本量多样化C、数据集具有局部相关性D、特征之间不具有局部相关性【正确答案】：D94.从合规性监测和成效后评估向超前诊断、辅助决策转变，融入到公司战略、投资、管理等决策各环节，提升（）能力。A、业务B、经营C、管理D、决策【正确答案】：D95.大数据应用的业务规划将聚焦核心领域，打造共（）大重点业务、12个业务领域、34项业务方向。A、4B、5C、6D、7【正确答案】：B96.AI芯片也被称为AI加速器，是专门用于处理人工智能应用中的大量计算任务的功能模块。A、正确B、错误C、视情况而定D、以上均不正确【正确答案】：A97.为什么要对输入x进行归一化？A、让参数初始化更快B、让代价函数更快地优化C、更容易做数据可视化D、是另一种正则化——有助减少方差【正确答案】：B98.以下（）不属于开源数据湖解决方案。A、DLIB、IcebergC、HudiD、Open【正确答案】：A99.数据存储环节，企业重要数据原则上应存储于____。A、互联网大区B、生产控制大区C、生产管理大区D、管理信息大区【正确答案】：D100.离散程度的测度值愈大，则（）。A、反映变量值愈分散，算术平均数代表性愈差B、反映变量值愈集中，算术平均数代表性愈差C、反映变量值愈分散，算术平均数代表性愈好D、反映变量值愈集中，算术平均数代表性愈好【正确答案】：A1.为进一步规范国家电网有限公司大数据应用管理工作，（），根据国家和公司有关规定，制定《国家电网有限公司大数据应用管理办法（试行）》。A、切实发挥数据基础资源价值B、构建数据驱动的创新发展模式C、加快推动企业数字化转型进程D、服务具有中国特色国际领先的能源互联网企业建设目标【正确答案】：ABCD2.按照涉及自变量的多少，可以将回归分析分为（）。A、线性回归分析B、非线性回归分析C、一元回归分析D、多元回归分析E、综合回归分析【正确答案】：CD3.企业中台主要包括（）。A、业务中台B、数据中台C、技术中台D、前台【正确答案】：ABC4.下列关于流计算特点的描述中，正确的是:（）。A、实时且流式的B、数据是无界的C、事件触发D、用户触发【正确答案】：ABC5.依据（）职责划分，按照“谁主管谁负责，谁运行谁负责，谁使用谁负责”的总体原则，明确数据安全职责分工，落实数据安全责任。A、《信息安全技术网络安全等级保护基本要求》B、《中华人民共和国网络安全法》C、《国家电网有限公司数据管理办法》D、《国家电网有限公司网络与信息系统安全管理办法》【正确答案】：CD6.下列关于ROC曲线和AUC说法正确的是：A、TPR=（TP）/(TP+FN)B、FPR=（FP）/(TP+FN)C、ROC曲线的纵轴是“真正确率”D、ROC曲线的横轴是“假正确率”【正确答案】：ABCD7.可视分析学的几个特点包含（）A、强调数据到知识的转换过程B、强调可视化分析与自动化建模之间的相互作用C、强调数据映射和数据挖掘的重要性D、强调数据加工E、强调人机交互的重要性【正确答案】：ABCDE8.在分类问题中，我们经常会遇到正负样本数据量不等的情况比如正样本为10w条数据，负样本只有1w条数据，以下最合适的处理方法是A、将负样本重复10次生成10w样本量打乱顺序参与分类B、直接进行分类可以最大限度利用数据C、从10w正样本中随机抽取1w参与分类D、将负样本每个权重设置为10，正样本权重为1，参与训练过程【正确答案】：ACD9.下列哪些是特征选择方法（）。AIC赤池信息准则B、LARS嵌入式特征选择方法C、LVW包裹式特征选择方法D、Relief过滤式特征选择方法【正确答案】：BCD10.图像识别的一般步骤包括（）。A、预处理B、特征提取C、超像素生成D、识别分类【正确答案】：ABD11.DataWorks中工作流任务如果配置为周期性调度，所支持的周期包括:（）。A、月调度B、周调度C、天调度D、小时调度【正确答案】：ABCD12.下来关于主数据的描述，正确的是（）。A、主数据无法跨流程和跨系统重复使用。B、主数据是参与业务事件的主体或资源，是具有高业务价值的、跨流程和跨系统重复使用的数据。C、主数据的错误可能导致成百上千的事务数据错误，因此主数据的管理重点是确保同源多用。D、主数据应该代表企业中的某个业务对象的唯一实例，重复创建主数据将导致数据的不一致，进而给业务流程和报告带来问题。【正确答案】：BCD13.下列属于结合策略的是（__）。A、投票法B、平均法C、学习法D、排序法【正确答案】：ABC14.阿里云流计算可以直接读写下列哪些产品的数据？A、DataHubB、日志服务C、RDSD、表格存储【正确答案】：ABCD15.对于大数据计算服务（MaxCompute，原ODPS）内置绝对值函数abs描述正确的有:（）。A、当输入参数是bigint时，返回值是bigint类型B、当输入参数是string类型时，一定会导致异常C、输入类型是boolean则返回值是TrueD、当输入参数是double时，返回值是double类型【正确答案】：AD16.下面哪些是有效的类构造函数（）。A、def_Init_(self):B、def_init_(self,var=0):C、def_init():D、def_init(self,a,b,c)【正确答案】：ABD17.下列哪些是目前深度学习的必备技术？A、反向传播算法B、卷积可视化解释C、非线性激活函数D、深度神经网络【正确答案】：ACD18.下面关于单样本Z检验的说法，正确的是（）。A、在Python中，单样本Z检验可以使用scipy.stats.ttest_1samp（）实现B、单样本Z检验适用于样本量较大的情况C、单样本Z检验假设要检验的统计量（近似）满足正态分布D、单样本Z检验常用于检验总体平均值是否等于某个常量【正确答案】：BCD19.训练的神经网络方差很高，下列哪个尝试是可能解决问题？A、添加正则项B、获取更多测试数据C、增加每个隐藏层的神经元数量D、用更多的训练数据【正确答案】：AD20.关于降维说法正确的是（）。A、PA是根据方差这一属性降维的B、降维可以防止模型过拟合C、降维降低了数据集特征的维度D、降维方法有PLA等【正确答案】：ACD21.在SQL语言分类中，以下属于DML的是：A、updateB、selectC、insertD、delete【正确答案】：ACD22.对于不同场景内容，一般数字图像可以分为（）。A、二值图像B、灰度图像C、彩色图像D、深度图像【正确答案】：ABC23.在处理序列数据时，不容易出现梯度消失现象的深度学习模型的是A、CNNB、LSTMC、GRUD、RNN【正确答案】：ABC24.下列关于深度学习说法正确的是A、LSTM在一定程度上解决了传统RNN梯度消失或梯度爆炸的问题B、CNN相比于全连接的优势之一是模型复杂度低，缓解过拟合C、只要参数设置合理，深度学习的效果至少应优于随机算法D、随机梯度下降法可以缓解网络训练过程中陷入鞍点的问题【正确答案】：ABD25.严格采取（）的方式收集数据，对照法律法规、规章、国家与行业标准，区分数据收集对象和收集方式，制定有效的安全管理策略和保障措施。A、合规B、合法C、最小化D、正当【正确答案】：BD26.下列方法中，可以用于特征降维的方法包括（）。A、主成分分析PCAB、线性判别分析LDAC、深度学习SparseAutoEncoderD、矩阵奇异值分解SVD【正确答案】：ABD27.以下（）是scipy.stats可实现的连续随机变量方法。A、rvsB、pdfC、ppfD、cdf【正确答案】：ABCD28.大数据应用需求征集及审核分为哪几个阶段？A、需求评审及储备B、需求立项及计划编制C、计划调整D、计划下达【正确答案】：ABC29.以下四个选项中，（）是Python关键字。A、asB、globalC、intD、not【正确答案】：ABD30.结合实际，按照“谁主管谁负责、谁收集谁负责、谁使用谁负责、谁提供谁负责”的原则，从数据（）、使用、内部共享、对外开放、销毁等重点环节进行管控，进一步加强数据全生命周期合规管理。A、收集B、传输C、存储D、加工【正确答案】：ABCD31.Python支持运行的平台有（）。A、WindowsB、MacOSCentOSD、Ubuntu【正确答案】：ABCD32.开展数据产品研发、发布等活动时，应确保遵从____、____、____等数据安全保护要求。A、国家法律法规B、数据主体授权范围C、通用数据保护条例D、公司相关规章制度【正确答案】：ABD33.在MapReduce1.0版本中，JobTracker功能是（）。A、负责资源管理B、作业控制C、作业存储D、作业审核【正确答案】：AB34.强化（）等关键环节管控，组织各业务部门编制本专业数据合规审查要点，确保对外提供的数据产品及服务等合法合规。A、数据产品B、数据处理C、服务开发D、数据对外开放【正确答案】：ACD35.pandas中删除列的方式（）。A、df.drop(["列名"],axis=1)B、df.drop(columns=["列名"])C、df.drop([0,1])D、df.drop([0])【正确答案】：AB36.健全数据合规管理体系，落实管理职责，强化横向协调和纵向指导，突出事前____和过程____，加强违规事件应对____，严格管控数据合规风险。A、防范B、管控C、处置D、预防【正确答案】：ABC37.关于Maxcompute跨项目资源共享的说法正确的是:（）。A、package是一种跨项目空间共享数据及资源的机制，主要用于解决跨项目空间的用户授权问题B、如果某个package还有人在使用，则该package的owner无法删除此packageC、添加到package中的不仅仅是对象本身，还包括相应的操作权限，如不显式指定权限，则默认为读写权限D、添加资源时支持的对象类型不包括project类型，即不能将project添加到package里【正确答案】：ABD38.Yarn的调度机制有哪几种是__。A、FIFOB、CapacityC、FairD、Line【正确答案】：ABC39.以下对模型性能提高有帮助的是（）。A、数据预处理B、特征工程C、机器学习算法D、模型集成【正确答案】：ABCD40.DataHub目前支持进行数据同步的离线数据仓库包含以下哪些。ADSB、RDSC、表格存储D、对象存储【正确答案】：ABCD41.Maxcompute中，当一个大表和多个小表做连接时，可以考虑使用mapjoin，以下关于mapjoin的限制，说法正确的是:（）。A、leftouterjoin的左表必须是大表，innerjoin左表或者右表都可以为大表B、fullouterjoin不能使用mapjoinC、最多支持8张小表D、所有小表占用内存综合不能超过256M【正确答案】：AB42.DataIDE中，调度任务每次运行前都先将任务实例化，即生成一个实例，调度运行时实际上在执行相应的实例。任务配置不同的调度周期，自动调度生成的实例个数也就不一样，以下说法正确的是？A、调度周期配置成按天调度的任务，每天生成一个自动调度实例B、调度周期配置成在00:00至23:59之间按分钟调度，每隔30分钟执行一次的任务，每天生成48个自动调度实例C、调度周期配置为按周调度，每周调度一次的任务，只有周一才会生成一个自动调度实例，周二到周日都不会生成实例D、调度周期配置成在00:00至23:59之间按小时调度，每天生成24个自行调度实例【正确答案】：ABD43.下面哪些方法有助于解决深度网络的梯度消失问题（）A、增加网络深度B、使用Sigmoid激活函数C、使用ReLU激活函数D、采用batchnormalization【正确答案】：CD44.下列哪些是情感分析的应用场景（）。A、数据挖掘B、信息检索C、文本分词D、市场营销【正确答案】：ABD45.关于神经网络，下列说法正确的是（）A、增加网络层数，可能会增加测试集分类错误率B、增加网络层数，一定会增加训练集分类错误率C、减少网络层数，可能会减少测试集分类错误率D、减少网络层数，一定会减少训练集分类错误率【正确答案】：AC46.ADS创建普通表的时候限制有:（）。A、一张普通表至少有一级Hash分区并且分区数不能小于8个B、一个普通表组最多可以创建256个普通表C、一个普通表最多不能超过1024列D、一张普通表至少有一级Hash分区并且分区数不能多于1000个【正确答案】：ABC47.关于Pig的说法正确的是（）。A、Pig的主要目的是弥补MapReduce编程的复杂性B、Pig的核心是一种数据分析语言C、Pig程序的结构适合于串行处理D、Pig主要包含PigLatin和Pig执行环境两部分【正确答案】：ABD48.实时计算是一种持续、低时延、事件触发的计算任务，一般的数据处理过程涉及如下哪几个步骤()？A、实时数据源获取B、数据定时传输C、结果实时展示D、数据实时计算【正确答案】：ACD49.大数据计算服务（MaxCompute，原ODPS）的MapReduce由多个步骤组成，以下哪些步骤是必须的？A、combineB、shuffleC、mapD、reduce【正确答案】：BC50.许多功能更为强大的非线性模型可在线性模型基础上通过引入（__)和（__）而得A、层级结构B、高维映射C、降维D、分类【正确答案】：AB51.下列选项中，哪几项属于卷积神经网络减少模型参数量的措施（）。A、稀疏连接B、参数共享C、池化操作D、稠密链接【正确答案】：AB52.HadoopMapReduce是MapReduce的具体实现之一。HadoopMapReduce数据处理过程涉及四个独立的实体，包括（）。A、ClientB、JobTrackerC、TaskTrackerD、HDFS【正确答案】：ABCD53.各单位要坚持维护（）并重。A、数据管理B、数据安全C、促进数据利用D、促进数据开发利用【正确答案】：BD54.在数据安全领域常用的P2DR模型中，P2、D和R代表的是（）。A、策略B、防护C、检测D、响应【正确答案】：ABCD55.关于循环神经网络（RNN）描述错误的是（）。A、可以用于处理序列数据B、不能处理可变长序列数据C、不同于卷积神经网络，RNN的参数不能共享D、隐藏层上面的unit彼此没有关联【正确答案】：BCD56.以下哪些应用适合使用循环神经网络来完成？()。A、看图说话B、机器翻译C、社交网络用户情感分类D、从一张合影照片找到特定的人【正确答案】：ABC57.常用来缓解BP网络的过拟合的两种策略是()。A、晚停B、早停C、正则化D、加入损失函数【正确答案】：BC58.ODS（OperationalDataStorage操作型数据存储）在数仓库中的作用，以下描述哪些是正确的？A、作为业务系统和数据仓库之间的数据隔离B、提供对历史明细数据查询需求C、可用于数据仓库对外提供即席查询功能D、可用于承担业务系统的细节数据查询功能【正确答案】：AD59.DataWorks中，通过运维中心的任务管理列表可以对任务进行一些批量修改，从而?高项目管理员管理调度任务的效率，其中批量操作功能包括？A、添加报警B、修改资源组C、修改调度周期D、修改负责人【正确答案】：ABD60.传统关系数据库的优点包括（）。A、数据一致性高B、数据冗余度低C、简单处理的效率高D、产品成熟度高【正确答案】：ABD61.关于卷积神经网络的叙述中正确的是（）。A、可用于处理时间序列数据B、可用于处理图像数据C、卷积网络中使用的卷积运算就是数学中的卷积计算D、至少在网络的一层中使用卷积【正确答案】：ABD62.使用阿里云MaxCompute作为数据仓库处理系统中，数据同步周期有时、分，如果累积到一定时间，表分区会越来越多，这时如果全量扫描，效率会很低，可行的优化措施有（）A、取消分区B、合理调整分区，适当增加较大周期的分区，如由小时增加日的分区C、增减临时处理层，如小时分区，每隔一段时间将数据收集到临时中间表中D、减少类似扫全量表的应用【正确答案】：BC63.使用Maxcompute的客户端工具odpscmd时，（）能进入一个已有的项目。A、使用odpscmd登录时，通过-p参数，指定登录使用的项目空间B、如果账户下就一个project，登录后就会默认进入该项目C、配置文件中指定project_name，登录后即默认进入项目D、进入odpscmd后，执行use【正确答案】：CD64.关于Python组合数据类型，以下选项中描述正确的是（）。A、Python的str,tuple和list类型都属于序列类型B、Python组合数据类型能够将多个同类型或不同类型的数据组织起来，通过单一的表示使数据操作更有序更容易C、组合数据类型可以分为3类：序列类型,集合类型和映射类型D、序列类型是二维元素向量，元素之间存在先后关系，通过序号访问【正确答案】：ABC65.下面是python标准库的是（）。A、osB、sysC、numpyD、re【正确答案】：ABD66.训练CNN时，GPU显存溢出，此时可以采取什么办法（）A、减少mini_batch大小B、移除一些卷积层C、减少图片输入大小D、增加激活函数【正确答案】：ABC67.促进营销业务质效，开展（）的匹配分析，快速响应客户诉求，优化营销业务流程。培育精准智能服务，构建客户特征分析及细分模型，评估用电优化潜力，打造千人千面的用电服务。A、服务水平B、服务渠道C、服务资源D、服务能力【正确答案】：CD68.回归分析有很多种类，常见的有（）。A、线性回归B、系数回归C、逻辑回归D、曲线回归【正确答案】：ACD69.使用数据集成做数据同步，为了避免对数据源造成过大压力，如下通道控制的配置方法哪些是正确的？A、增大任务期望最大并发数B、减小任务期望最大并发数C、同步速率选择限流D、同步速率选择不限流【正确答案】：BC70.哪些是深度学习快速发展的原因？A、现在我们有了更好更快的计算能力。B、神经网络是一个全新的领域。C、我们现在可以获得更多的数据。D、深度学习已经取得了重大的进展，比如在在线广告、语音识别和图像识别方面有了很多的应用【正确答案】：AC71.RNN在NLP领域的应用包括(__)。A、语言模型与文本生成B、机器翻译C、语音识别D、图像描述生成【正确答案】：ABCD72.GTM负责生成和维护下列哪些信息：A、全局事务IDB、事务快照C、时间戳D、执行计划【正确答案】：ABC73.依据《国家电网有限公司数据管理办法》，建立基于负面清单的公司对内数据共享机制，坚持“”，改变当前“一事一议”、层层审批的数据应用授权方式。A、以共享为原则B、不共享为例外C、谁主管谁负责D、谁使用谁负责【正确答案】：AB74.下列关于RNN、LSTM、GRU说法正确的是(__)。A、RNN引入了循环的概念B、LSTM可以防止梯度消失或者爆炸C、GRU是LSTM的变体D、RNN、LSTM、GRU是同一神经网络的不同说法，没有区别【正确答案】：ABC75.可作为决策树选择划分属性的参数是（）。A、信息增益B、增益率C、基尼指数D、密度函数【正确答案】：ABC76.下列说法中正确的是（）。A、云计算的主要特点是非常昂贵。B、大数据是多源、异构、动态的复杂数据，即具有4V特征的数据C、大数据是数据科学的研究对象之一D、MapReduce是采用云计算这种新的计算模式研发出的具体工具软件（或算法）【正确答案】：BCD77.对于大数据计算服务（MaxCompute，原ODPS）的多路输出（multiinsert），哪些项描述是不正确的A、对于源表为未分区表的，该表可以出现多次B、通常，单个SQL中最多可以写256路输出。超过256路，则报语法错误。C、PARTITION(partcol1=val1,partcol2=val2...)参数不允许使用函数等表达式，只能是常量。D、目标表为分区表的，对于不同的分区，可以混合使用insertinto和insertoverwrite，对于相同的分区则不可混用【正确答案】：AD78.下面有关HTML叙述正确的是（）。A、一个HTML文件可以用记事本来编辑B、HTML的意思是超文本标记语言C、一个HTML文件必须是一个以htm或html为扩展名的文件D、HTML区分大小写,如<b>写成<B>是错误的【正确答案】：ABC79.以下属于频率域图像滤波的方法有（）。A、中值滤波B、均值滤波C、布特沃斯滤波D、高斯滤波【正确答案】：CD80.MaxCompute的资源类型包括:（）。A、FileB、TableC、JarD、Archive【正确答案】：ABCD81.在大数据计算服务SQL中使用distributeby和sortby可以对数据进行局部排序，以下对distributeby、sortby的用法描述正确的有:（）。A、数据会按照distributeby指定的列进行分片，hash值相同的数据会在一个分片中B、使用sortby子句时，必须有distributeby子句C、sortby和orderby的用法没有区别D、在一个分片中，数据会按照sortby指定的列进行局部排序【正确答案】：ABD82.下列说法正确的是（）。A、cookielib库提供可存储cookie的对象，以便于与urllirequest库配合使用来进行访问B、过于频繁的爬虫不会带给网站额外的压力C、使用split()可以进行字符串的拆分D、正则表达式可以实现对爬取信息的快速过滤【正确答案】：ACD83.因业务需要，确需向境外提供的，应经公司（）审批，根据国家相关规定做好安全评估等工作，视情况向国家有关部门报备。A、主管领导B、信息安全小组C、保密办D、业务部门【正确答案】：CD84.常见的图像降噪方式包括（）。A、中值滤波B、均值滤波C、平均滤波D、加权平均滤波【正确答案】：ABCD85.下面哪些情况可能导致神经网络训练失败A、梯度消失B、梯度爆炸C、激活单元消失D、鞍点【正确答案】：ABCD86.Spark组件包含哪两个算子（）。A、Map；B、Action；C、Transformation；D、Reduce；【正确答案】：BC87.禁止外部合作单位和供应商在对互联网提供服务的网络和信息系统中存储或运行公司（）。A、明细业务数据B、商业秘密数据C、重要数据D、内部数据【正确答案】：BC88.相关与线性关系，下列说法正确的是（）A、相关不一定是线性关系，可能是非线性关系B、相关一定是线性关系，不可能是非线性关系C、相关时若有相关系数r为0，说明两个变量之间不存在线性关系，仍可能存在非线性关系D、相关系数为0是两个变量独立的必要不充分条件【正确答案】：ACD89.以下可用于处理由于光照不均带来的影响的图像处理方法有（）。A、同态滤波B、顶帽变换C、基于移动平均的局部阈值处理D、拉普拉斯算子【正确答案】：ABC90.在公司一体化信息平台及专业应用实现基础上，探索了大数据平台基础体系架构与应用规范；掌握了（）等先进计算技术A、批量计算B、流计算C、内存计算D、存储计算【正确答案】：ABC91.数据挖掘的挖掘方法包括（）。A、聚类分析B、回归分析C、神经网络D、决策树算法【正确答案】：ABCD92.以下关于集成学习的说法正确的是：（）。A、随机森林是减少模型的方差，而GBDT是减少模型的偏差B、组成随机森林的树可以并行生成，而GBDT是串行生成C、随机森林的结果是多数表决表决的，而GBDT则是多棵树累加之和D、Boosting是并行式集成学习最著名的代表【正确答案】：ABC93.关于总体和样本的说法，正确的是：A、总体也就是研究对象的全体B、如果总体是某一条生产线上生产的全部产品，那么样本可以是每间隔10秒抽取的产品C、样本是从总体的随机抽样D、如果总体是某一小学的1000名学生，那么样本可以是一年级的100名学生【正确答案】：ABC94.加强数据传输、存储过程中的安全管理，釆取加密、隔离、备份等安全技术手段，确保符合相应安全条件或技术标准，具备灾备能力，防范数据（）风险。A、泄露B、篡改C、损毁D、丟失【正确答案】：ABCD95.当我们构造线性模型时,我们注意变量间的相关性。在相关矩阵中搜索相关系数时,如果我们发现3对变量的相关系数是(Var1和Var2,Var2和Var3,Var3和Var1)是-0.98,0.45,1.23.我们可以得出什么结论:（）。A、Var1和Var2是非常相关的B、因为Va1r和Var2是非常相关的,C、Var3和Var1的1.23相关系数是不可能的【正确答案】：ABC96.大数据人才培养机制包括A、培养B、选拔C、组建人才库D、制定标准【正确答案】：ABC97.关于CAP理论说法正确的是（）。A、一个分布式系统不能同时满足一致性、可用性和分区容错性等需求B、一致性主要指强一致性C、一致性、可用性和分区容错性中的任何两个特征的保证（争取）可能导致另一个特征的损失（放弃）D、可用性指每个操作总是在“给定时间”之内得到返回“所需要的结果”。【正确答案】：ABCD98.下列有关MapReduce计算框架的描述正确的是（）。A、MapReduce可以计算任务的划分和调度；B、MapReduce可完成数据的分布存储和划分；C、MapReduce可以实现处理系统节点出错检测和失效恢复；D、MapReduce可实现处理数据与计算任务的同步；【正确答案】：ABCD99.关于模型参数（权重值）的描述，正确的说法是哪些？A、训练好的神经网络模型存储于一定结构的神经元之间的权重和神经元的偏置中B、在训练神经网络过程中，参数不断调整，其调整的依据是基于损失函数不断减少C、模型参数量越多越好，但没有固定的对应规则D、每一次Epoch都会对之前的参数进行调整，迭代次数越多，损失函数一般越小【正确答案】：ABD100.CNN相比于全连接的DNN有哪些优势（）A、参数更少B、泛化更好C、训练更快D、更容易搭建；【正确答案】：ABC1.DBSCAN是一种基于原型的、划分的聚类技术。A、正确B、错误【正确答案】：B2.到“十四五”末，数据中台实现公司核心业务数据实时接入、调度数据秒级接入、与国网公司数据中台按天同步，业务指标线上生成率95%A、正确B、错误【正确答案】：A3.贴源层存放着最细粒度的明细事实数据和维度数据。A、正确B、错误【正确答案】：B4.在0,1,„,9，这10个数字当中，一次任取两个，则抽到5这个数字的概率是0.1.A、正确B、错误【正确答案】：B5.插值运算属于statsmodels模块的主要特点。A、正确B、错误【正确答案】：B6.各单位要坚持维护数据安全和促进数据开发利用并重，以数据开发利用促进数据安全，以数据安全保障数据开发利用和产业发展。A、正确B、错误【正确答案】：A解析：

《中华人民共和国数据安全法》第十三条：国家统筹发展和安全，坚持以数据开发利用和产业发展促进数据安全，以数据安全保障数据开发利用和产业发展。7.在中华人民共和国境内开展数据处理活动及其安全监管，适用《中华人民共和国数据安全法》，在中华人民共和国境外开展数据处理活动，不适用本法。A、正确B、错误【正确答案】：B解析：

《中华人民共和国数据安全法》第二条：在中华人民共和国境内开展数据处理活动及其安全监管，适用本法。在中华人民共和国境外开展数据处理活动，损害中华人民共和国国家安全、公共利益或者公民、组织合法权益的，依法追究法律责任。8.基于数据中台组件和能力,研究枃构建数据应用研发平台,强化数据中台、联邦学习等前沿技术研究和落地,能够为促进数据共建共创、共用共享打下稳固基础。A、正确B、错误【正确答案】：B9.关联规则是反映事物之间的依赖关系，典型例子是购物篮分析，常见算法有Apriori关联算法和FP-growth关联算法。A、正确B、错误【正确答案】：A10.经过审批后，外部合作单位和供应商可以在对互联网提供服务的网络和信息系统中存储或运行公司商业秘密数据和重要数据。A、正确B、错误【正确答案】：B11.国网湖南省电力有限公司数字化系统深化应用促基层减负专项行动，反馈问题最多的是科网专业A、正确B、错误【正确答案】：B12.使用MaxcomputeSQL：createtablet1liket2；建表时，表t1不会具有表t2的生命周期属性。A、正确B、错误【正确答案】：A13.采集个人信息数据时，遵循合法、正当、必要、最小化、准确性、可问责性的原则下，无需获得个人信息主体同意。A、正确B、错误【正确答案】：B解析：

《中华人民共和国网络安全法》第四十一条网络运营者收集、使用个人信息，应当遵循合法、正当、必要的原则，公开收集、使用规则，明示收集、使用信息的目的、方式和范围，并经被收集者同意。14.IQR方法不适用于监测异常值。A、正确B、错误【正确答案】：B15.ADS中创建事实表（普通表）时会有一些限制，二级分区只能是Hash或List。A、正确B、错误【正确答案】：B16.推进基础资源商业化运营。深入挖掘公司现有场站、杆塔、沟道等电网基础资源的共享渠道和应用潜能,面向运营商、互联网企业等推进基础资源商业化运营,提高存量资产利用效率。可以适当降低安全底线。A、正确B、错误【正确答案】：B17.“提效”的关键推进企业运营提质增效，建设高效率数字化运营企业，缩短业务流程环节，优化业务运营过程，由“人推动业务执行”向“数据推动业务执行”转变，助力公司融入数字经济发展、数字中国建设格局。A、正确B、错误【正确答案】：A18.加强数据对外开放的底层设计，统筹推进公司数据开放工作，建立规范的数据开放标准、流程，实现数据有序对外开放。A、正确B、错误【正确答案】：B19.数字化转型是推动构建以新能源为主体的新型电力系统、服务碳达峰碳中和目标的迫切需要。A、正确B、错误【正确答案】：A20.湖南省电力有限公司数据服务能力提升专项行动工作要求有加强组织、明确责任；强化协同、形成合力；定期通报，严格考核。A、正确B、错误【正确答案】：A21.PCA的步骤包括构建协方差矩阵、矩阵分解得到特征值和特征向量、特征值排序、特征值归一化。A、正确B、错误【正确答案】：B22.统筹公司数据、知识、成果等资源围绕数据中台打造开放式的大数据应用发展模式,能够推动资源共享和跨界融合,主动融入新发展格局,带动产业链上下游共同发展构建互利共赢的能源数字新生态。A、正确B、错误【正确答案】：A23.数字化转型是顺应能源革命与数字革命相融并进趋势的必然选择。A、正确B、错误【正确答案】：A24.《国网湖南省电力有限公司数据质量管理实施细则》自2021年3月20日起生效。A、正确B、错误【正确答案】：B25.公司重点应用创新示范集中在对外服务政府和对内服务公司电网业务数字化转型两个方面。A、正确B、错误【正确答案】：A26.在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。A、正确B、错误【正确答案】：B27.RDD中的数据被分区存储在集群中，使得任务可以并行执行。A、正确B、错误【正确答案】：A28.噪声是一个测量变量中的随机错误或偏差。A、正确B、错误【正确答案】：A29.逆向推理的缺点是若提出的假设目标不符合事实，但是不会降低系统效率。A、正确B、错误【正确答案】：B30.任何国家或者地区在与数据和数据开发利用技术等有关的投资、贸易等方面对中华人民共和国采取歧视性的禁止、限制或者其他类似措施的，中华人民共和国可以根据实际情况对该国家或者地区对等采取措施。A、正确B、错误【正确答案】：A解析：

《中华人民共和国数据安全法》第二十六条：任何国家或者地区在与数据和数据开发利用技术等有关的投资、贸易等方面对中华人民共和国采取歧视性的禁止、限制或者其他类似措施的，中华人民共和国可以根据实际情况对该国家或者地区对等采取措施。31.开展数据处理活动应当加强风险监测，发现数据安全缺陷、漏洞等风险时，应当立即采取补救措施；发生数据安全事件时，应当立即采取处置措施，按照规定不用及时告知用户并向有关主管部门报告。A、正确B、错误【正确答案】：B解析：

《中华人民共和国数据安全法》第二十九条：开展数据处理活动应当加强风险监测，发现数据安全缺陷、漏洞等风险时，应当立即采取补救措施；发生数据安全事件时，应当立即采取处置措施，按照规定及时告知用户并向有关主管部门报告。32.开展数字化规划是落实公司总体布局，实现电网与企业的数字化、智慧化发展的路径。A、正确B、错误【正确答案】：A33.当相关系数r=0时，说明现象之间完全无关.A、正确B、错误【正确答案】：B34.int、smallint是SQLServer数据库的系统数据类型（?）A、正确B、错误【正确答案】：A35.公司内部共享数据时，应遵照数据共享负面清单开展。原则上所有数据均可在公司内部共享。A、正确B、错误【正确答案】：B36.依据国家相关法律法规和公司有关要求，对外提供数据中涉及国家秘密和公司商业秘密的，均按公司有关要求履行相应的审批手续A、正确B、错误【正确答案】：B37.进行数据抽样操作时，需要指定要进行抽样的时间以及要进行抽样的数据记录的条数限制。（）A、正确B、错误【正确答案】：A38.统筹组织开展一批大数据应用重点工作任务,对内服务政府科学决策和经济社会发展,对外赋能生产提质、经营提效、服务提升,探索培育数据增值服务模式,助力公司数字化转型发展。A、正确B、错误【正确答案】：B39.人工智能是智能计算机系统，即人类智慧在机器上的模拟，或者说是人们使机器具有类似于人的智慧（对语言能理解、能学习、能推理）。A、正确B、错误【正确答案】：A40.互联网部依照数据质量管理评价标准对公司进行考核。A、正确B、错误【正确答案】：A41.估价商圈经济及夜经济发展情况,可以分析产业结构、综合园区企业运营活跃程度、城乡发展协同程度和产业布局合理性A、正确B、错误【正确答案】：B42.图搜索算法中,CLOSE表用来登记待考察的节点A、正确B、错误【正确答案】：B43.长期坚持、不断完善，逐步实现公司数据管理的体系化、规范化。A、正确B、错误【正确答案】：A44.数字化转型既符合中央精神和国家工作要求,也高度契能源互联网的内涵和发展重点,更加具有时代特色。A、正确B、错误【正确答案】：A45.公司科技互联网专业2021年内需完成“能源看经济”、“能源看灾害防治”、“能源看乡村振兴”、“能源看环保”、“能源+企业用能”、僵尸空壳企业监测应用等产品在能源大数据平台的统一发布。A、正确B、错误【正确答案】：A46.数字化转型是数据业务化的过程，重点是挖掘数据价值，打造数字生态，赋能传统产业，拓展新兴产业，一般包括产业数字化和数字产业化两个方面。A、正确B、错误【正确答案】：A47.公司组织制定统一数据管理规章制度，各单位和部门落实数据管理要求，对本单位和本专业的数据负责，共同推进数据管理体系落地。A、正确B、错误【正确答案】：A48.在全行业数字化转型加速的形势下,公司数字化转型窗口期转瞬即逝唯有加快自我变革,才能避免机遇的丧失。A、正确B、错误【正确答案】：A49.国网公司各分部和各单位可按要求自主决策推进数据开放事宜A、正确B、错误【正确答案】：B50.定量属性可以是整数值或者是连续值。A、正确B、错误【正确答案】：A51.对于ADS的数据一致性问题，当updateType=realtime时，不支持事务，并且仅遵循会话一致性的设计，所以ADS并不能作为OLTP系统使用。A、正确B、错误【正确答案】：B52.研究数据新产品新业务定位、核心目标、结构功能和研发推广可行性，形成专项调研分析报告，可以为开展具有市场价值的数据产品研发和应用服务提供指导。A、正确B、错误【正确答案】：A53.打造源网荷储协同互动服务。就是挖掘负荷侧资源潜力,推动各类电源、电网、负荷和储能协同优化,提升电网协调控制能力和客户用能效率,促进清洁能源消纳。A、正确B、错误【正确答案】：A54.数字化转型可以看做是打造传统意义上的互联网企业。A、正确B、错误【正确答案】：B55.Apriori算法是一个关联规则算法。A、正确B、错误【正确答案】：A56.实时在线数据分析服务，主要指对数据更新频率要求为日级以下数据进行流式加工处理的功能需求。A、正确B、错误【正确答案】：A57.数字化转型的基本原则是坚持战略引领、坚持价值导向、坚持科技创新、坚持企业级

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2023年能源大数据应用开发技能竞赛理论练习试题及答案（一）

文档简介

温馨提示

最新文档

评论

2023年能源大数据应用开发技能竞赛理论练习试题及答案（一）

文档简介

温馨提示

最新文档

评论

相关文档