大数据挖掘技术练习(习题卷7)_第1页
大数据挖掘技术练习(习题卷7)_第2页
大数据挖掘技术练习(习题卷7)_第3页
大数据挖掘技术练习(习题卷7)_第4页
大数据挖掘技术练习(习题卷7)_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据挖掘技术练习大数据挖掘技术练习(习题卷7)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据挖掘技术练习第1部分:单项选择题,共144题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.线性回归算法寻找()与预测目标之间的线性关系。A)属性B)根因C)表象答案:A解析:[单选题]2.在无线网络覆盖指标体系中,4G用户4G流量驻留比的指标定义是?A)4G活跃用户群产生的4G上网流量/(4G活跃用户群产生的移动互联网上网总流量)B)4G活跃用户群产生的4G上网流量/(2G+3G+4G活跃用户群产生的移动互联网上网总流量)C)4G活跃用户群产生的移动互联网上网流量/(2G+3G+4G活跃用户群产生的移动互联网上网总流量)答案:A解析:[单选题]3.通过代码?fromsklearn.clusterimportKMeans?引入Kmenas模块,生成模型对象?kmeans=KMeans(n_clusters=2)?后,对于数据X训练时要调用的方法是()。A)kmaens.fit()B)kmeans.fit()C)kmaens.train()D)kmeans.train()答案:B解析:[单选题]4.以下哪些算法是分类算法,A)DBSCANB)C4.5C)K-MeanD)EM答案:B解析:[单选题]5.资金的时间价值是()A)同一资金在同一时点上价值量的差额B)同一资金在不同时点上价值量的差额C)不同资金在同一时点上价值量的差额D)不同资金在不同时点上价值量的差额答案:B解析:[单选题]6.已知:A){'a':0,'b':[1,2,3]}B){'a':0,'b':[1,2]}C)[1,2]D)[1,2,3]答案:D解析:setdefault函数向字典中添加键和值,如果没有,则首先将该键值对加入,并将对应的值作为默认值,然后返回该默认值;如果字典中键已经有了,那么取回该键对应的默认值。[单选题]7.已知事件A的概率P(A)=0.6,U为必然事件,则P(A+U)=1,P(AU)=A)0.4B)0.6C)0D)1答案:B解析:[单选题]8.数据仓库的最终目的是()A)收集业务需求B)建立数据仓库逻辑模型C)开发数据仓库的应用分析D)为用户和业务部门提供决策支持答案:D解析:[单选题]9.KNN算法可以用于()A)分类B)回归C)测试D)分类和回归答案:D解析:[单选题]10.在GPRS/EDGE数据传输过程中,终端的IP地址动态分配功能在下列哪个设备中完成A)HLRB)SGSNC)GGSND)PCU答案:C解析:[单选题]11.下列关于数据重组的说法中,错误的是()A)数据重组是数据的重新生产和重新采集B)数据重组能够使数据焕发新的光芒C)数据重组实现的关键在于多源数据融合和数据集成D)数据重组有利于实现新颖的数据模式创新答案:A解析:[单选题]12.在事先不知道数据分类的情况下,根据数据之间的相似程度进行划分,目的是使得同类别的数据对象之间的差别尽可能的小,不同类别的数据对象之间的差别尽可能的大。属于()A)聚类B)分类C)预测D)关联答案:A解析:[单选题]13.哪个选项是下列代码的执行结果?S='PYTHON'Print("{0:3}".format(s))A)PYTHB)PYTHOC)PYTHOND)PYT答案:C解析:[单选题]14.Zookeeper是Hadoop和()的重要组件A)HiveB)HBASEC)MapReduceD)HDFS答案:B解析:[单选题]15.Tableau能够对数据进行处理包括()。A)将多个数据源数据拼接为一个宽表;B)修改、删除、新增数据行;C)对数据进行行列转换、重命名、格式修改;D)对数据进行计算、合并生成新的数据列答案:A解析:[单选题]16.在多层次关联规则分析中,如果将商品进行归类,每一商品类别的支持度会()其包含的每个商品的支持度,从而有利于发现一些有意义的频繁模式或关联规则。A)小于B)等于C)大于D)不确定答案:C解析:[单选题]17.使用等距离分箱法进行数据离散化,数据范围为20,40,50,58,65,80,80,82,86,90,96,105,120,200,区间个数为4。下列属于4个箱的区间是()。A)[20,65]B)[110,155)C)(155,200]D)(65,110)答案:B解析:[单选题]18.在MySQL中,对于字段值为空值(NULL)叙述正确的是______。A)空值等同于空字符串B)空值表示字段还没有确定值C)不支持字段值为空值D)空值等同于数值0答案:B解析:[单选题]19.()是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的A)边界点B)质心C)离群点D)核心点答案:C解析:[单选题]20.以下属于可伸缩聚类算法的是()。A)CUREB)DENCLUEC)CLIQUED)OPOSSUM答案:A解析:[单选题]21.统一DPI设备技术规范3.0中,尚未支撑的解析协议是A)CoAPB)PPPOEC)MPLSD)GTP答案:A解析:[单选题]22.下面哪个说明了JSON信息标记方法的缺陷或不足?A)JSON标记仅用于JavaScript语言B)JSON标记的信息存在类型,处理繁琐。C)JSON应用领域十分有限D)JSON标记不能书写注释。答案:D解析:[单选题]23.HDFS就像一个传统的分级文件系统,以下说法错误的是A)可以创建文件B)可以计算文件C)可以删除文件D)可以重命名文件答案:B解析:[单选题]24.TCP/IP协议按照从底层到高层的顺序,除了应用层之外,每一层都有与其相对应的PDU(ProtocolDataUnit,协议数据单元),依次为()A)Bit、Segment、Packet、FrameB)Bit、Frame、Packet、SegmentC)Packet、Bit、Frame、SegmentD)Bit、Packet、Frame、Segment答案:B解析:[单选题]25.通过(),计算频数、众数、中位数等一个或多个数据指标,探索数据的分布结构。A)概率统计法B)汇总统计法C)可视化法D)分类统计法答案:B解析:[单选题]26.页面显示成功率指标定义中关于页面显示成功次数描述正确的是A)HTTPREPLYDATA消息的次数B)L4protocal=0时,DLData字段值C)L4protocal=1时,DLData字段值D)HTTPREPLY200OK消息次数答案:A解析:[单选题]27.OLAP的核心是()A)对用户的快速响应B)互操作性C)多维数据分析D)以上都不是答案:C解析:[单选题]28.根据中国移动统一DPI设备技术规范-LTE信令采集解析服务器接口规范,S1-MME接口信息的XDR中,ProcedureType取值范围为:A)0-32B)1-33C)0-33D)1-32答案:B解析:[单选题]29.以下哪个不是构造直方图的数据集划分方式A)组距分组B)分位数分组C)多变量分组D)均值-标准差分组答案:C解析:[单选题]30.用户使用小包传输的数据业务时,哪项指标对用户感知的影响较明显?A)首包时延B)响应成功率C)下载速率D)登陆成功率答案:A解析:[单选题]31.()博士和洪小文一起构建了世界上第一个大词汇量、非特定人、连续语音A)瑞迪B)李开复C)吴军D)弗雷德答案:B解析:[单选题]32.分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务,属于()问题。A)关联规则挖掘B)分类与回归C)聚类分析D)时序预测答案:A解析:[单选题]33.下面的代码其功能为()>>>x=[range(3*i,3*i+5)foriinrange(2)]>>>x=list(map(list,x))>>>x=list(map(list,zip(*x)))A)首先生成一个随机的列表,然后生成矩阵B)首先生成一个包含列表的列表,然后生成矩阵C)首先生成一个包含列表的列表,然后模拟矩阵转置D)首先排序列表,然后模拟矩阵转置答案:C解析:[单选题]34.通过4G信令+宽带信令+掌厅APP数据关联分析,可以对用户终端连接WIFI识别的行为不包括A)移动终端WIFI连移动宽带B)移动终端WIFI连异网宽带C)异网终端WIFI连移动宽带D)异网终端WIFI连异网宽带答案:D解析:[单选题]35.下列属于维归约常用的线性代数技术的有()A)主成分分析B)特征提取C)特征加权D)离散化答案:A解析:[单选题]36.人工智能复活之路上经历了()次热潮A)1B)2C)3D)4答案:C解析:[单选题]37.下述除哪个维度外,均有利于通过终端指标评估分析明确终端问题现象、场景,辅助终端问题的复现解决A)芯片一致性B)版本差异性C)网络适配性D)流程差异性答案:D解析:[单选题]38.BIRCH是一种()。A)分类器B)聚类算法C)关联分析算法D)特征选择算法答案:B解析:[单选题]39.数据挖掘工具箱中数据可视化技术的组件不包括A)histogramsB)scatterplotsC)distributionchartsD)caseselection答案:D解析:[单选题]40.数据记录内容完整比例,包括指标单位维度、业务维度组合记录条数完整,指标字段值完整称为()A)指标数据自动采集率;B)指标数据接入率C)指标数据接入及时率;D)指标数据完整率答案:D解析:[单选题]41.使用k=1的knn算法,下图二类分类问题,?+?和?o?分别代表两个类,那么,用仅拿出一个测试样本的交叉验证方法,交叉验证的错误率是多少()A)0%B)100%C)0%到100D)以上都不是答案:B解析:[单选题]42.下列哪些数据不可以直接作为网络结构评估的数据源()A)仿真栅格电平预测值B)ATU数据C)MR数据D)话统答案:D解析:[单选题]43.假设某分类器在一个测试数据集上的分类结果的混淆矩阵如下所示,该分类器的精确率为()。PredictedyesnoActualyes155no1020A)75%B)80%C)60%D)70%答案:C解析:[单选题]44.规则I->j,?有可能?,等于所有包含I的购物篮中同时包含J的购物篮的比例,为()。A)置信度B)可信度C)兴趣度D)支持度答案:B解析:[单选题]45.在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:)A)有放回的简单随机抽样B)无放回的简单随机抽样C)分层抽样D)渐进抽样答案:D解析:[单选题]46.目前业务流量占比最高的业务大类是A)即时通信B)邮件C)视频D)下载答案:C解析:[单选题]47.以下关于大数据的概念和理解不正确的是()A)大数据是指无法再容许的时间内用常规的软件工具对其内容进行抓取、管理和处理的数据集合,大数据规模的标准是持续变化的,当前泛指单一的数据集的大小在几十TB和PB之间;B)大数据是一项技术,能够对复杂海量数据进行实时获取、传输、存储、加工和利用的高薪技术;C)大数据是一种挑战,现有的数据采集、传输、存储、处理和分析技术已无法适用于现有的需要;D)大数据是一个时代,拥有大数据是时代的特征、解读大数据是时代的任务、应用大数据是时代的机遇。答案:A解析:[单选题]48.下列不属于原始数据来源的是()A)行政记录B)统计调查C)统计年鉴D)实验答案:C解析:[单选题]49.模型树的叶子结点对应()。A)一个数值B)以上都可以C)一个线性回归方程D)某个类别答案:C解析:[单选题]50.要求满足连接条件的记录,以及连接条件左侧表中的记录都包含在结果中,应使用______。A)左连接B)右连接C)内部连接D)完全连接答案:A解析:[单选题]51.在数据预处理中,将多个数据源中的数据整合到一个一致的数据存储(如数据仓库)中,这一过程称为A)数据提取B)数据集成C)数据清理D)数据加载答案:B解析:[单选题]52.P(22,1,42,10),Q(20,0,36,8)为两个向量对象,这两个对象的闵可夫斯基距离(k=3)是()。A)6B)√45C)∛233D)11答案:C解析:[单选题]53.在客户端网页脚本语言中最为通用的是()A)JavaScriptB)VBC)PerlD)ASP答案:A解析:[单选题]54.打开一个已有文件,然后在文件末尾添加信息,正确的打开方式为()。A)rB)wC)aD)w+答案:C解析:R表示只读方式。W表示只写方式,如果文件存在,则清空文件;如果文件不存在,则创建文件。A表示追加的模式,以只写的形式打开文件,只允许在文件的末尾追加数据。W+表示写入更新模式,如果文件已经存在,则清空文件[单选题]55.下列不属于关联分析的关键要素的是()A)支持度B)置信度C)满意度D)提升度答案:C解析:[单选题]56.IP报文头中固定长度部分为多少字节()A)10B)20C)30D)40答案:B解析:[单选题]57.对于任一个频繁项集X和它的一个非空真子集Y,S=X-Y,规则S→Y成立的条件是()。A)confidence(S→Y)<minconfB)confidence(S→Y)≥minconfC)confidence(Y→S)<minconfD)confidence(Y→S)≥minconf答案:B解析:[单选题]58.Hadoop2.6的核心参数文件是A)core-site.xmlB)hdfs-site.xmlC)mapred-site.xmlD)hadoop-env.sh答案:A解析:[单选题]59.下列属于数据仓库特点的是()A)综合性和提炼性数据B)重复性的、可预测的处理C)一次处理的数据量小D)面向操作人员,支持日常操作答案:A解析:[单选题]60.对于人工智能认知错误的是()A)人工智能应该是人类用来改造世界的技术手段,是辅助性的工具,而不是对人类进行了替代B)目前人工智能还处于初级阶段,算是弱人工智能,AI技术还是离不开大数据C)人工智能在计算方面,超过人类。在部分感识方面,可与人类相媲美。但在认知方面,人工智能还处于几乎空白阶段,而这恰恰是我们人类的最大优势D)人工智能会毁灭人类答案:D解析:[单选题]61.人工智能研究的基本内容不包括()A)组装机器B)机器思维C)机器行为D)机器感知答案:A解析:[单选题]62.假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:A)18.3B)22.6C)26.8D)27.9答案:A解析:[单选题]63.无线网性能劣化可能导致以下哪个指标出现问题?()A)小区RTT下行时延B)TCP一二次握手时延C)服务器侧下行RTTD)小区RTT上行时延答案:A解析:[单选题]64.NaveBayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是()A)各类别的先验概率P(C)是相等的B)以0为均值.sqr(2)/2为标准差的正态分布C)特征变量X的各个维度是类别条件独立随机变量D)P(X|C)是高斯分布答案:C解析:[单选题]65.《个人信息保护法》发布执行时间()。A)2021年9月1日;B)2021年10月1日;C)2021年11月1日D)2021年12月1日答案:C解析:[单选题]66.网优平台中可以查询的PRB利用率指标统计的最小粒度是A)15分钟B)30分钟C)60分钟D)5分钟答案:A解析:[单选题]67.依据历史数据形成刻画用户特征的类标识,进而可以预测未来数据的归类情况,属于()A)聚类B)分类C)预测D)关联答案:B解析:[单选题]68.SQL查询语句中HAVING子句的作用是()A)指出分组查询的范围B)指出分组查询的值C)指出分组查询的条件D)指出分组查询的内容答案:C解析:[单选题]69.假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:A)0.821B)1.224C)1.458D)0.716答案:D解析:[单选题]70.聚类可形式地描述为:D={O1,O2,…,On}表示n个对象的集合,Oi表示第i(i=1,2…n)个对象.C,表示第x(x=1.2…k)个簇.cCD。用Sim(o;o))表示对象o,与对象c之间的相似度。若各簇刚结果需满足的条件是()。A)AB)BC)CD)以上条件都要满足答案:D解析:[单选题]71.因业务需要进行客户敏感数据查询操作时,必须确保所有查询操作行为经过()授权,并留存授权记录,禁止在未经授权的情况下进行查询操作。A)上级主管部门B)用户C)金库审批员D)部门级以上领导答案:B解析:[单选题]72.个人信息的收集、处理和利用应当遵循()的原则,不得违反法律、法规的规定和双方的约定收集、处理和利用个人信息。()A)正规、合法、必要B)合法、正当、必要C)合法、合规、正当D)合法、合理、合规答案:B解析:[单选题]73.()的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果A)数据清洗B)数据集成C)数据变换D)数据归约答案:D解析:[单选题]74.关于Python字符串下列说法错误的是()A)字符应该视为长度为1的字符串B)字符串以\0标志字符串的结束C)既可以用单引号,也可以使用双引号创建字符串D)在三引号字符串中可以包含换行回车等特殊字符答案:B解析:[单选题]75.下面代码的输出结果是?foriinrange(3):print(2,end=',')A)2,2,2,B)2,2,2C)222D)222,答案:A解析:[单选题]76.协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度(),并将这些用户喜欢的项推荐给有相似兴趣的用户。A)相似B)相同C)推荐D)预测答案:D解析:[单选题]77.需求分析活动的一个重要任务是进行(),明确用户需求的隐含信息,展开为明确的对软件系统的行为期望,即系统需求。A)需求整理B)需求细化C)需求获取D)需求分析答案:B解析:[单选题]78.推荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求,推荐基于网站最热卖商品、客户所处城市、(),推测客户将来可能的购买行为。A)客户的朋友B)客户的个人信息C)客户的兴趣爱好D)客户过去的购买行为和购买记录答案:D解析:[单选题]79.在Numpy包中,计算标准差的函数为()。A)numpy.mean()B)numpy.median()C)numpy.std()D)numpy.var()答案:C解析:[单选题]80.以下哪项不属于分类算法()A)决策树B)随机森林C)神经网络D)K-means算法答案:D解析:[单选题]81.集中性能系统的数据重点指标包括完整性、准确性、还有哪个指标()?A)持续性B)及时性C)区域性D)时效性答案:B解析:[单选题]82.通过代码?fromsklearnimporttree?引入决策树模块,并通过代码?clf=tree.DecisionTreeClassifier()?构造分类器对象后,训练时要调用的方法是()。A)clf.learn()B)clf.fit()C)clf.predict()D)clf.train()答案:B解析:[单选题]83.关于SQLServer分析服务的叙述中正确的是()A)SQLServer分析服务是关系数据库开发工具限B)SQLServer分析服务可以用于OLAPC)SQLServer分析服务是操作型数据库系统开发工具D)以上都不对答案:B解析:[单选题]84.的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。()A)数据清洗B)数据集成C)数据变换D)数据归约答案:D解析:[单选题]85.下面哪个不是Python合法得标识浮()A)int32B)40XLC)selfD)_name_答案:B解析:[单选题]86.关于回归分析,下列说法中错误的是()A)作回归分析的变量之间要有实际意义,不能把毫无关联的两种现象随意进行回归分析,要结合专业知识对两事物之间是否存在因果关系作出合理解释和结论。B)在进行线性回归分析进行的数据准备的时候,要求因变量y和自变量x都是符合总体正态的随机变量。C)回归直线不要随意外延D)所有非线性回归都可以转化为线性回归答案:D解析:[单选题]87.下列选项中,正确定义了一个字典的是()A)a=['a',1,'b',2,'c',3]B)b=('a',1,'b',2,'c',3)C)c={'a',1,'b',2,'c',3}D)d{'a':1,'b':2,'c':3}答案:D解析:[单选题]88.指数平滑法可以用以下哪种指标来反映对时间序列资料的修正程度()A)平滑常数B)指数平滑数初始值C)跨越期D)季节指数答案:A解析:[单选题]89.对于开通4G业务的用户,如果需要使用VoLTE业务,是否需要更换手机卡,是否需要更换VoLTE终端?A)不需要更换手机卡,需要使用VoLTE终端B)不需要更换手机卡,不需要使用VoLTE终端C)需要更换手机卡,需要使用VoLTE终端D)需要更换手机卡,不需要使用VoLTE终端答案:A解析:[单选题]90.()数据挖掘方法能够帮助市场分析人员找出顾客购买的商品之间的关联关系A)分类B)预测C)关联分析D)聚类答案:C解析:[单选题]91.终端用户感知优化与网络性能KPI优化中以下哪个指标是考核接入性能()A)掉话率B)切换成功率C)PS速率D)呼叫建立成功率答案:D解析:[单选题]92.importpandasaspddata={'a':[2,1,5,6],'b':['kl','d',1,'kl'],'c':[6,5,1,6]}df=pd.DataFrame(data)d1=df.iloc[0:2,2]d2=df.loc[df['b']=='kl','c']print(d1)print(d2)A)0,61,5Name:c,dtype:int64B)0,63,6Name:c,dtype:int64C)1,52,1Name:c,dtype:int64D)1,53,6Name:c,dtype:int64答案:A解析:[单选题]93.下面购物篮能够提取的3-项集的最大数量是多少ID购买项1牛奶,啤酒,尿布2面包,黄油,牛奶3牛奶,尿布,饼干4面包,黄油,饼干5啤酒,饼干,尿布6牛奶,尿布,面包,黄油7面包,黄油,尿布8啤酒,尿布9牛奶,尿布,面包,黄油10啤酒,饼干A)1B)2C)3D)4答案:C解析:[单选题]94.数据中心侧的数据流转方式未为()A)D.XP;B)E.SPC)OGGD)E.TL答案:D解析:[单选题]95.查找某个字段中以字母A开头且以字母Z结尾的所有记录,则条件表达式应设置为______。A)LIKE"A$Z"B)LIKE"A#Z"C)LIKE"A%Z"D)LIKE"A_Z"答案:C解析:[单选题]96.有关数据抽取工具的叙述中正确的是()A)只能使用数据仓库开发工具所提供的数据抽取工具B)只能使用开发人员自己开发的数据抽取工具C)根据实际需要确定是否自己开发数据抽取工具D)以上都不对答案:C解析:[单选题]97.SGSN与GGSN相连时使用哪种协议进行通信()A)GTPB)NTPC)PPPD)GRE答案:A解析:[单选题]98.NoSQL含义是指()A)NO!SQL;B)NomberSQL;C)NotOnlySQLD)NOLLSQL答案:C解析:[单选题]99.下列不属于数据预处理原因的是()。A)数据有可能不能很好地反映潜在的模式B)有些数据属性是无用的或者冗余的C)数据可能存在缺失、错误、不一致等问题D)数据量过于庞大答案:D解析:[单选题]100.有关数据仓库分割策略的叙述中正确的是()A)分割越细越好B)分割策略与数据量大小和速度等因素有关C)分割越粗越好D)以上都不对答案:B解析:[单选题]101.使用等距离分箱法进行数据离散化,数据范围为20,40,50,58,65,80,80,82,86,90,96,105,120,200,区间个数为4。下列属于4个箱的区间是()。A)[20,65]B)(155,200]C)[110,155)D)(65,110)答案:C解析:[单选题]102.关于OLAP和OLTP的说法,下列不正确的是:()A)OLAP事务量大,但事务内容比较简单且重复率高B)OLAP的最终数据来源与OLTP不一样C)OLTP面对的是决策人员和高层管理人员D)OLTP以应用为核心,是应用驱动的答案:A解析:[单选题]103.以下不可以用来分类的模型是A)线性回归模型B)神经网络模型C)逻辑回归模型D)支持向量机答案:A解析:[单选题]104.在Scikit-learn模块下,不同分类模型在预测时,调用的方法名称()。A)相同B)视情况而定C)不知道D)不同答案:A解析:[单选题]105.在MySQL的SQL查询中,为了计算某数值字段的平均值应使用函数______。A)AVGB)SUMC)MAXD)MIN答案:A解析:[单选题]106.检查异常值常用的统计图形是()A)柱状图B)箱线图C)帕累托图D)气泡图答案:B解析:[单选题]107.使用python处理缺失值的方法中叙述错误的是()。A)isnull()判断缺失值B)dropna()删除缺失值C)interpolate()使用中位数填充缺失值D)fillna()填充缺失值答案:C解析:interpolate()指用线性插值法[单选题]108.()是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。A)边界点B)质心C)离群点D)核心点答案:C解析:[单选题]109.下列说法错误的是()A)相关系数矩阵是一个对称矩阵,其中对角线上的元素都是1,表示自相关系数B)非对角线元素表示互相关系数,每个元素的绝对值都小于等于0,反应变量变化趋势的相似程度C)相关系数的绝对值越大,表示两个信号互相影响的程度越大D)如果的相关系数矩阵中非对角线元素大于0,表示两个信号正相关,其中一个信号变大时另一个信号也变大,变化方向一致答案:B解析:[单选题]110.在进行数据分箱时,我们所说的基于MDLP的分组指的是A)组距分组B)分位数分组C)多变量分组D)基于最短描述长度原则答案:D解析:[单选题]111.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含A)1,2,3,4B)1,2,3,5C)1,2,4,5D)1,3,4,5答案:C解析:[单选题]112.下述哪个参数用于UE从GSM/UMTS网络重选到LTE网络过程中的位置更新请求A)GUTIB)OldGUTIC)PTMSI/RAID)OldPTMSI/RAI答案:A解析:[单选题]113.以下关于IMEI的说法错误的是A)IMEI为TAC+SNR+FAC+SPB)双卡双待手机会有两个IMEIC)IMEI码具有唯一性,贴在手机背面的标志上,并且读写于手机内存中。它也是该手机在厂家的?档案?和?身份证号?。D)当手机被盗的时候,如知道IMEI码,可以通过手机供应商进行手机锁定答案:A解析:[单选题]114.Python标准库os中用来列出指定文件夹中的文件和子文件夹列表的方式是A)dir()B)isfile()C)listdir()D)isdir()答案:C解析:[单选题]115.Pandas处理缺失值的函数有()A)fillnaB)ilocC)fitD)transform答案:A解析:[单选题]116.如下表所示,交易号(D)商品(tems)1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts2)X={butter,cheese},Y={beer},则置信度confidence(X→Y)=()。A)2/5B)1/2C)1/3D)1/4答案:B解析:[单选题]117.在Python中有S=['a','b']S.append([1,2])S.insert(1,7);执行以上代码后,s值为()A)?a',7,?b',1,2]B)[[1,2],7,?a',?b?]C)[1,2,?a?,7?,?b?]D)[?a',7,?b?,[1,2]]答案:D解析:[单选题]118.视频业务流程可以分为播放准备阶段和播放阶段,其中属于播放阶段KQI指标有()A)停顿次数B)视频播放等待时长C)初始缓冲成功率D)初始缓冲时长答案:A解析:[单选题]119.有如下的数据表:部门(部门号,部门名称),职工(部门号,职工号,姓名,基本工资)。检索每个部门职工工资的总和,要求显示?部门名称,基本工资?,正确的语句是______。A)SELECT部门名称,SUM(基本工资)FROM部门INNERJOIN职工ON部门.部门号=职工.部门号ORDERBY部门号;B)SELECT部门名称,SUM(基本工资)FROM部门INNERJOIN职工ON部门.部门号=职工.部门号GROUPBY部门号;C)SELECT部门名称,SUM(基本工资)FROM部门INNERJOIN职工ON部门.部门号=职工.部门号ORDERBY职工.部门号;D)SELECT部门名称,SUM(基本工资)FROM部门INNERJOIN职工ON部门.部门号=职工.部门号GROUPBY职工.部门号;答案:D解析:[单选题]120.以下影响HTTP速率的因素中哪一个直接与终端相关()A)TCP通告窗口大小B)TCP上行乱序比例C)TCP下行RTTD)TCP下行乱序比例答案:A解析:[单选题]121.以下关于数据仓库与操作型数据库的叙述中错误的是()A)数据仓库是面向主题的,而操作型数据库是面向应用的B)数据仓库中保存当前数据,而操作型数据库中保存历史数据C)数据仓库中数据常冗余,而操作型数据库中数据非冗余D)数据仓库是支持决策分析的,而操作型数据库是支持事务处理的答案:B解析:[单选题]122.字符串是一个字符序列,给字符串s,以下表示s从右侧向左第三个字符的是:()A)s[-3]B)s[:-3]C)s[3]D)s[0:-3]答案:A解析:[单选题]123.以下关于字典操作的描述,错误的是()A)del用于删除字典或者元素B)clear用于清空字典中的数据C)len方法可以计算字典中键值对的个数D)keys方法可以获取字典的值视图答案:D解析:[单选题]124.面不属于创建新属性的相关方法的是()A)特征提取B)特征修改C)映射数据到新的空间D)特征构造答案:B解析:[单选题]125.两个二元向量:x=(1,0,0,0,0,0,0,0,0,0)y=(0,0,0,0,0,0,1,0,0,1),SMC=(),J=()A)0,0.7B)1,0.7C)0.7,1D)0.7,0答案:D解析:[单选题]126.假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?()A)第一个B)第二个C)第三个D)第四个答案:B解析:[单选题]127.基于DPI的网站统计分析功能目前暂无法支持的是A)域名按网站聚合B)URL的访问源记录C)域名流量统计D)页面内容爬取答案:D解析:[单选题]128.智能手机AI创新不包括()A)机器学习框架B)3D结构光技术C)手机芯片硬件层面推出了全新的NPU单元D)手机材料更耐摔答案:D解析:[单选题]129.以下哪个变量可以反映客户的忠诚度?()A)购买频次B)购买金额C)最后一次购买时间D)购买金额波动率答案:A解析:[单选题]130.当数据样本的特征属性为自然数时,应采用以下那种算法进行分类()A)多项式朴素贝叶斯B)高斯朴素贝叶斯C)贝努利朴素贝叶斯D)K均值算法答案:B解析:[单选题]131.查看下面表单的示例程序:若要使用WebDriver定位上述元素,可以使用如下()方法实现。A)find_element_by_idB)find_element_by_nameC)find_elements_by_link_textD)find_elements_by_tag_name答案:A解析:[单选题]132.当时间序列数据点的一阶差分近似为一常数,可配合以下哪种预测模型()A)直线B)二次抛物线C)三次抛物线D)指数曲线答案:A解析:[单选题]133.可以对按季度汇总的销售数据进行(),来观察按月汇总的数据。A)上卷B)下钻C)切片D)切块答案:B解析:[单选题]134.皮尔森相关系数取值为()时说明两个对象最不相似。A)-1B)0.05C)1D)0答案:A解析:[单选题]135.考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是()?A)2B)3C)3.5D)5答案:C解析:[单选题]136.在SQLServer提供的EM聚类算法中,叙述正确的是()A)必须要设置聚类的分类数B)不必指定聚类的分类数C)可以不指定聚类的分类数,此时采用默认值D)以上都不对答案:C解析:[单选题]137.关于列表的说法,描述错误的是:A)list是一个有序集合,没有固定大小B)list可以存放Python中任意类型的数据C)使用list时其下标可以是负数D)list是不可变数据类型答案:D解析:[单选题]138.以下哪些学科和数据挖掘没有密切联系?()A)统计学B)计算机组成原理C)机器学习D)人工智能答案:B解析:[单选题]139.关于主成分数目的选取,正确的是()A)保留多少个主成分取决于累计方差在方差总和中所占百分比B)一般选择50%以上C)选择前两个就可以D)选择的数目和变量的个数一致答案:A解析:[单选题]140.概念分层图是____图。A)无向无环B)有向无环C)有向有环D)无向有环答案:B解析:[单选题]141.办理不限流量套餐的用户群体主要的流量消费去向是A)即时通信B)音乐C)下载D)视频答案:D解析:[单选题]142.全网通双卡槽营销支撑分析中,全网通双卡槽双IMEI在网终端数指标来源为A)LTE/Mc信令监测统计在网去重终端数B)GbAttach识别移动数据功能关闭用户数C)基于开户数据排出移动卡4G功能未开通D)信令监测语音在网且数据不在网答案:A解析:[单选题]143.关于HBASE描述错误的是A)空值占据空间B)高可靠性C)面向列D)高性能答案:A解析:[单选题]144.源业务系统接入数据中心的方式主要有:JDBCESB和()。A)D.XP;B)E.SPC)OGGD)E.TL答案:C解析:第2部分:多项选择题,共47题,每题至少两个正确答案,多选或少选均不得分。[多选题]145.DPI视频流量的识别规则主要基于哪两点A)URLB)content-typeC)IPD)host答案:AB解析:[多选题]146.下边属于数据基本类型的是:A)数值B)字符串C)字典D)集合答案:AB解析:[多选题]147.确定一个投资方案可行的必要条件是()。A)净现值大于零B)现值指数大于1C)投资回收期小于1年D)内部报酬率较高答案:AB解析:[多选题]148.以下有关随机森林算法的说法正确的是()A)随机森林算法的分类精度不会随着决策树数量的增加而提高。B)随机森林算法对异常值和缺失值不敏感。C)随机森林算法不需要考虑过拟合问题。D)决策树之间相关系数越低.每棵决策树分类精度越高的随机森林模型的分类效果越好。答案:ABD解析:[多选题]149.数据类型:A)离散Q型B)连续性C)符号型D)文本型答案:ABCD解析:[多选题]150.缺省承载建立过程的成功率会进一步影响哪些指标A)UE附着成功率B)PDNConnection建立成功率C)业务请求成功率D)MME建立缺省S5S8承载成功率答案:AB解析:[多选题]151.针对咪咕游戏业务提供市场营销支撑,可以从哪些维度入手分析A)游戏用户识别B)热点游戏识别C)质差用户识别D)价值区域识别答案:ABD解析:[多选题]152.以下关于非频繁模式说法,正确的是()A)其支持度小于阈值B)都是不让人感兴趣的C)包含负模式和负相关模式D)对异常数据项敏感答案:AD解析:[多选题]153.对于一个二分类问题,现在已经建立好了模型,该模型通过设置概率估计的阈值输出0或1。初始时设概率估计阈值为0.5,超过0.5判别为1,否则就判别为0;如果现在用另一个大于0.5的阈值,那么模型评估指标将发生什么变化()A)模型分类的召回率会降低或不变B)模型分类的召回率会升高C)模型分类精确率(Precision)会升高或不变D)模型分类精确率(Precision)会发生变化,但不能确定是升高还是降低答案:AD解析:[多选题]154.下列指标受终端性能影响的有()A)无线掉线率B)4G用户附着成功率C)视频缓冲时长D)http响应时延答案:ABC解析:[多选题]155.移动网信令XDR包括以下哪些内容A)移动网通用信息B)公共信息C)信令信息D)通用业务信息答案:BC解析:[多选题]156.分箱方法有哪些?()A)等深分箱B)等宽分箱C)数据标准化D)自定义区间法答案:ABD解析:[多选题]157.以下属于数据规约方法的是()A)数据离散化B)数据标准化C)噪声数据识别D)数据压缩答案:AD解析:[多选题]158.Namenode的作用是?A)存储用户上传的生产数据B)完成用户计算任务C)存储datanode节点报告的运行数据D)将用户的计算工作分配给各个计算节点答案:CD解析:[多选题]159.以下说法正确的有()A)OMC采用服务器-客户端模式B)OMC与eNodeB通信的单元为NMA,其完成协议和数据模型的转换,是O接口的接口单元和处理单元C)可利用OMC集成的快配工具完成邻区的快速和批量配置D)每个OMC机房都应配置2台冷备份的交换机和2台热备份的CE或路由器答案:ACD解析:[多选题]160.打点模型把视频业务分为接入阶段与播放阶段。其中接入阶段又被细分为()A)初始缓冲准备阶段B)初始缓冲阶段C)播放阶段D)播放准备阶段答案:AB解析:[多选题]161.以下说法正确的有哪些?()A)大数据仅仅是讲数据的体量大B)大数据对传统行业有帮助C)大数据会带来机器智能D)大数据是一种思维方式答案:BCD解析:[多选题]162.以下关于STDP协议的描述,正确的是A)SDTP为实时数据共享传输协议B)数据传输量大,实时性高C)不需要握手鉴权过程D)用于信令采集网关把采集到的原始信令数据传送到信令共享平台答案:ABCD解析:[多选题]163.根据中国移动统一DPI设备规范,设备能根据网络其他位置上部署的信令解析设备、NAT设备、Radius设备等采集的信令、公私IP地址对应关系、用户账号等信息,对数据流量识别后生成的XDR记录进行特定字段的回填操作,这里的特定字段包括:A)MSISDNB)IMSIC)位置信息D)公有IP地址答案:ABCD解析:[多选题]164.大数据应用建设及运营过程中如发生数据安全问题,应立即暂停大数据应用建设或运营工作,向()部门汇报。A)互联网部B)安监部C)法规部D)相关专业管理部门答案:ABCD解析:[多选题]165.构造线性模型时在发现(Var1和Var2,Var2和Var3,Var3和Var1)变量间的相关系数分别是-0.98,0.45,1.23,则下述说法正确的是A)Var1和Var2非常相关B)Var和Var2可以去除其中一个C)Var3和Var1的相关系数是错误的D)Var2和Var3不存在相关性答案:ABC解析:[多选题]166.元组在某些属性上缺少值是常有的。在实际数据中,描述处理该问题的各种方法有()A)直接删除B)使用属性的平均值填充空缺值C)使用一个全局常量填充空缺D)使用与给定元组属同一类的所有样本的平均值答案:ABC解析:[多选题]167.视频初缓成功率指标下降,根据分段定界法需对哪些指标进行分析A)DNS解析成功率B)TCP握手成功率C)Http响应成功率D)Attach成功率答案:ABC解析:[多选题]168.下面哪些为直播业务A)快手B)抖音C)斗鱼D)微信答案:ABC解析:[多选题]169.关于BOOSTING技术,以下说法正确的是A)BOOSTING技术通过对现有加权样本反复抽样以模拟增加样本集B)BOOSTING技术采样加权投票的方式,不同模型具有不同的权数,权数与模型的误差成反比。C)BOOSTing技术建立第一个模型时,每个样本的权数都不同D)BOOSTING建立第2个模型时,采用不同的样本,相同的权数重新构造训练样本集。答案:AB解析:[多选题]170.数据挖掘一般分为哪些数据挖掘种类A)预测性B)描述性C)即时性D)延时性答案:AB解析:[多选题]171.下列对学生的描述属性中,标称属性的属性是:A)婚姻状况B)头发颜色C)身高D)学号答案:ABD解析:[多选题]172.在集团公司四维十轮网络质量评估体系中,新业务包括:A)统一认证B)咪咕音乐C)共享单车D)和交通答案:ABC解析:[多选题]173.以下哪个用户上网流程不属于业务面A)网络附着B)TCP握手C)承载建立D)TAU更新答案:ACD解析:[多选题]174.在全面调查和抽样调查中都存在的误差是()A)系统误差B)登记性误差C)责任心误差D)技术性误差答案:BCD解析:[多选题]175.数据挖掘汇聚了许多学科的知识,其主要的挖掘技术包括A)统计方法B)机器学习方法C)数据库方法D)神经网络方法答案:ABCD解析:[多选题]176.下面哪些函数是神经网络中常用的激活函数()A)ReLuB)SoftmaxC)SigmoidD)Maxout答案:ABCD解析:[多选题]177.以下哪些方法可以用于回归模型的特征选择()A)chi2B)f_classifC)mutual_info_regressionD)f_regression答案:CD解析:[多选题]178.噪声数据处理的方法主要有:()A)分箱B)聚类C)关联分析D)回归答案:ABD解析:[多选题]179.敏感个人信息划定依据()A)与人格尊严相关B)与人身.财产安全相关C)不满十四周岁未成年人的个人信息D)与公司管理要求相关答案:ABC解析:[多选题]180.以下哪些指标为行为偏好维度指标A)paging成功率B)TCP二三次握手时延C)应用下载业务流量D)游戏业务流量答案:CD解析:[多选题]181.智能翻译可以实现的功能为()A)多种语言翻译B)语音翻译C)方言翻译D)拍照翻译答案:ABCD解析:[多选题]182.数据挖掘算法的组件包括:()A)模型或模型结构B)评分函数C)优化和搜索方法D)数据管理策略答案:ABCD解析:[多选题]183.数据预处理方法主要有()A)数据清洗B)数据集成C)数据变换D)数据归约答案:ABCD解析:[多选题]184.以下关于CART和C5.0的说法,错误的是:A)CART中的输入变量和输出变量可以是分类型也可以是数值型,而C5.0中的输出变量只能是分类型B)CART能建立多叉树,而C5.0只能建立二叉树。C)CART以Gini系数和方差为基础选择最佳分组变量和分割点,而C5.0则以信息熵为基础计算信息增益率。D)CART只依据训练样本集通过近似正态分布进行剪枝,而C5.0依据检验样本集进行剪枝答案:BD解析:[多选题]185.联机分析处理包括()基本分析功能。A)聚类B)切片C)转轴D)切块答案:BCD解析:[多选题]186.簇有效性的面向相似性的度量包括()。A)精度B)RandC)JaccardD)召回率答案:BC解析:[多选题]187.可以用神经网络构建的算法包括A)KNN最近邻算法B)线性回归C)逻辑回归D)最小二乘法答案:BCD解析:[多选题]188.()都属于分裂的层次聚类算法。A)二分B)MSTC)ChameleonD)组平均答案:AB解析:[多选题]189.数据仓库在技术上的工作过程是:()A)数据的抽取B)存储和管理C)数据的表现D)数据仓库设计E)数据的表现答案:ABCD解析:[多选题]190.GPRS/EDGE网络的QoS包括哪几项A)优先等级Serviceprecedence(priority)B)可靠性等级ReliabilityC)延时等级delayD)峰值吞吐量等级PeakThroughputE)平均吞吐量等级AverageThroughput答案:ABCDE解析:[多选题]191.下面属于数据集的一般特性的有:()A)连续性B)维度C)稀疏性D)分辨率E)相异性答案:BCD解析:第3部分:判断题,共55题,请判断题目是否正确。[判断题]192.只能通过切片访问元组中的元素,不能使用切片修改元组中的元素。A)正确B)错误答案:对解析:[判断题]193.计算公司的总销售额,是数据挖掘任务。A)正确B)错误答案:错解析:[判断题]194.数值预测与分类都属于有监督学习,解决问题的过程相同,都是先通过训练数据集进行学习,以得到一个模型然后利用模型进行预测。A)正确B)错误答案:对解析:[判断题]195.current_time()函数用于获取MySQL服务器当前时间。A)正确B)错误答案:对解析:[判断题]196.如果两个变量不独立,那这两者的相关系数必然不等于0。A)正确B)错误答案:错解析:[判断题]197.OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。()A)正确B)错误答案:对解析:[判断题]198.Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。()A)正确B)错误答案:错解析:[判断题]199.已知L1=[1,2,3]L1.extend(['kl','ml'])print(L1)则结果为为[1,2,3,['kl','ml']]A)正确B)错误答案:错解析:[判断题]200.离群点是一个实际观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。A)正确B)错误答案:对解析:[判断题]201.多元回归是对一个自变量和多个因变量之间的回归分析。A)正确B)错误答案:错解析:[判断题]202.GET请求是指向指定资源提交数据进行处理请求,数据被包含在请求体中。A)正确B)错误答案:对解析:[判断题]203.元组的访问速度比列表要快一些,如果定义了一系列常量值,并且主要用途仅仅是对其进行遍历二不需要进行任何修改,建议使用元组而不使用列表。A)正确B)错误答案:对解析:[判断题]204.已知x为非空字符串,那么表达式?.join(x.split())==x的值一定为True。A)正确B)错误答案:错解析:[判断题]205.K均值聚类算法,簇的个数由算法自动地确定。()A)正确B)错误答案:错解析:[判断题]206.以写模式打开的文件无法进行读操作。A)正确B)错误答案:对解析:[判断题]207.当两种产品为互补品时,其交叉弹性小于零。A)正确B)错误答案:对解析:[判断题]208.负面清单外的数据在公司范围内可以直接共享使用。A)正确B)错误答案:对解析:[判断题]209.正则表达式?^http?只能匹配所有以?http?开头的字符串。A)正确B)错误答案:对解析:[判断题]210.每个网站都有robots.txt文件A)正确B)错误答案:错解析:不是每个网站都有robots文件[判断题]211.主成分分析是一种在原来变量中筛选大贡献率变量的方法A)正确B)错误答案:错解析:[判断题]212.决策树中包含根结点、叶结点、内部结点和外部结点。A)正确B)错误答案:错解析:[判断题]213.当倒传递神经网络(BP神经网络)无隐藏层,输出层个数只有一个的时候,也可以看做是逻辑回归模型。A)正确B)错误答案:对解析:[判断题]214.read方法只能一次性读取文件中的所有数据。A)正确B)错误答案:错解析:错误,可以按字节大小读取数据,例如:read(3),表示读取3个字节的数据。[判断题]215.基于密度的聚类算法可以用来过滤噪声和孤立点数据,发现任意形状的类。A)正确B)错误答案:对解析:[判断题]216.层次聚类方法将给定数据集分层进行划分,形成一个以各个聚类为结点的树型结构。A)正确B)错误答案:对解析:[判断题]217.列表可以作为字典的?键?。A)正确B)错误答案:错解析:[判断题]218.LF、RF算法分别为逻辑回归算法、随机森林算法的简称。A)正确B)错误答案:对解析:[判断题]219.具有较高的支持度的项集具有较高的置信度。A)正确B)错误答案:错解析:[判断题]220.统计图中的散点图主要用来观察变量之间的相关关系。A)正确B)错误答案:对解析:[判断题]221.对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。()A)正确B)错误答案:对解析:[判断题]222.样本容量是指从总体中抽取的个体。A)正确B)错误答案:错解析:[判断题]223.k中心点算法使用绝对误差标准作为度量聚类质量的目标函数A)正确B)错误答案:对解析:[判断题]224.seleinum支持浏览器的功能,可以直接被用来执行命令。A)正确B)错误答案:错解析:[判断题]225.资本成本就是资金的时间价值。A)正确B)错误答案:错解析:[判断题]226.图挖掘技术在社会网络分析中扮演了重要的角色。A)正确B)错误答案:对解析:[判断题]227.Apriori算法是一种典型的关联规则挖掘算法。()A)正确B)错误答案:对解析:[判断题]228.使用内置函数open()打开文件时,只要文件路径正确就总是可以正确打开的。A)正确B)错误答案:错解析:[判断题]229.datahoop中输入的数据必须是数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论