2025年《大数据挖掘技术》核心备考题库(含典型题、重点题)_第1页
2025年《大数据挖掘技术》核心备考题库(含典型题、重点题)_第2页
2025年《大数据挖掘技术》核心备考题库(含典型题、重点题)_第3页
2025年《大数据挖掘技术》核心备考题库(含典型题、重点题)_第4页
2025年《大数据挖掘技术》核心备考题库(含典型题、重点题)_第5页
已阅读5页,还剩157页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGEPAGE1一、单选题1.信令监测系统在架构上分为哪三层?A、采集层、共享层、应用层B、采集层、解码层、识别层C、物理层、网络层、应用层D、接入层、汇聚层、核心层答案:A2.自动化高级分析实验室,实现与统一数据资源库互联,实现数据的自助组表、自助分析功能,满足不同层级、不同水平的用户需求的是()A、初级分析;B、综合分析C、典型分析D、高级分析答案:D3.办理不限流量套餐的用户群体主要的流量消费去向是A、即时通信B、音乐C、下载D、视频答案:D4.有关数据仓库建模的叙述中正确的是()。A、因为需求分析中已经考虑主题,建模时不再需要确定主题域B、因为需求分析中已经确定项目的所有功能,没有必要再进行数据仓库建模工作C、数据仓库建模是设计概念模型,继而导出逻辑模型D、数据仓库建模是设计物理模型答案:C5.时间序列的类型分为()。A、平稳序列和非平稳序列B、大序列和小序列C、有趋势序列和无趋势序列D、随机序列和非随机序列答案:A6.通过加入特定的____,可以将爬虫发出的请求伪装成浏览器。A、RequestB、openerC、HeadersD、User_Agent答案:C7.一个对象的离群点得分是该对象周围密度的逆。这是基于()的离群点定义A、概率B、邻近度C、密度D、聚类答案:C8.在SELECT语句中,用来指定查询所用的表的子句是______。A、WHEREB、GROUPBYC、ORDERBYD、FROM答案:D9.下面不属于创建新属性的相关方法的是:()A、特征提取B、特征修改C、映射数据到新的空间D、特征构造答案:B10.检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测。A、统计方法B、邻近度C、密度D、聚类技术答案:A11.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?A、分类B、聚类C、关联分析D、隐马尔可夫链答案:B12.HTTP响应中404代码指的是()A、请求被服务器拒绝B、服务器无法找到请求的URLC、不允许使用此方法请求相应的URLD、服务器内部错误答案:B13.用信息增益方法作为属性选择度量建立决策树时,已知某训练样本集的4个条件属性的信息增益分别为:G(收人)=0.940位,G(职业)=0.151位,G(年龄)0.780位,G(信誉)=0.048位,则应该选择()属性作为决策树的测试属性。A、收入B、职业C、年龄D、信誉答案:A14.美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的()A、在数据基础上倾向于全体数据而不是抽样数据B、在分析方法上更注重相关分析而不是因果分析C、在分析效果上更追究效率而不是绝对精确D、在数据规模上强调相对数据而不是绝对数据答案:B15.面不属于创建新属性的相关方法的是()A、特征提取B、特征修改C、映射数据到新的空间D、特征构造答案:B16.运行以下代码Fromsklearn.datasetsimportload_irisIris_data=load_iris()Iris_data.data.shape输出结果为(150,4)。则表示iris数据集包括样本特征数为()。A、600B、150C、4D、154答案:C17.按数据的结构程度来划分,分为()A、结构化数据、半结构化数据、非结构化数据B、强结构化数据、弱结构化数据C、截面数据、面板数据D、一级数据、二级数据、三级数据答案:A18.表示职称为副教授、性别为男的表达式为()A、职称='副教授'OR性别='男'B、职称='副教授'AND性别='男'C、BETWEEN'副教授'AND'男'D、IN('副教授','男')答案:B19.HDFS的数据块大小通常为()A、1MB、64MC、12MD、8M答案:B20.关联规则的评价指标是:()。A、均方误差、均方根误差B、Kappa统计、显著性检验C、支持度、置信度D、平均绝对误差、相对误差答案:C21.某小区60%居民订晚报,45%订青年报,30%两报均订,随机抽一户。则至少订一种报的概率为()A、0.82B、0.85C、0.80D、0.75答案:D22.以下哪项关于决策树的说法是错误的A、冗余属性不会对决策树的准确率造成不利的影响B、子树可能在决策树中重复多次C、决策树算法对于噪声的干扰非常敏感k-neans最敏感D、寻找最佳决策树是NP完全问题答案:C23.eSRVCC方案相对于SRVCC方案的增强在于减少了切换时长,eSRVCC切换时长小于()A、20msB、40msC、160msD、300ms答案:D24.朴素贝叶斯分类算法为()A、生成式模型B、判别式模型C、统计模型D、预算模型答案:A25.通过代码“fromsklearnimporttree”引入决策树模块,并通过代码“clf=tree.DecisionTreeClassifier()”构造分类器对象后,训练时要调用的方法是()。A、clf.learn()B、clf.fit()C、clf.predict()D、clf.train()答案:B26.下列()不属于人工智能新突破取得的产品A、科大讯飞的翻译器、记录仪B、天猫精灵等智能AI音箱C、佳能相机D、某酒店通过人脸识别认证身份信息答案:C27.Requests库中,下面哪个属性代表了从服务器返回HTTP协议头所推荐的编码方式?A、headersB、apparent_encodingC、textD、encoding答案:D28.如下哪个不是最近邻分类器的特点()A、它使用具体的训练实例进行预测,不必维护源自数据的模型B、分类一个测试样例开销很大C、最近邻分类器基于全局信息进行预测D、可以生产任意形状的决策边界答案:C29.以下哪种方法不属于特征选择的标准方法:()A、嵌入B、过滤C、包装D、抽样答案:D30.以下哪个聚类算法不属于基于网格的聚类算法A、BIRCHB、WaveClusterC、STINGD、MAFIA答案:A31.当置信水平一定时,置信区间的宽度()A、随着样本量的增大而减小B、随着样本量的增大而增大C、与样本量的大小无关D、先随着样本量的增大而减小,到一定程度后会随着样本量的增大而增大。答案:A32.P-R图一般为()曲线A、光滑非单调B、非光滑非单调C、非光滑单调D、光滑单调答案:B33.KNN算法流程中不正确的有()A、计算已知类别数据集中的点与当前点之间的距离,按照距离递增次序排序;B、选取与当前点距离最小的k个点;C、确定前k个点所在类别对应的出现频率;D、返回前k个点出现频率最低的类别作为当前点的预测分类。答案:D34.附着流程中若创建默认承载流程失败给终端的错误码是A、Nosuitablecellsintrackingarea#15B、EPSservicesnotallowed#7C、Implicitlydetached#10D、ESMfailure#19答案:D35.假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?A、第一个B、第二个C、第三个D、第四个答案:B36.()数据挖掘方法能够帮助市场分析人员找出顾客购买的商品之间的关联关系A、分类B、预测C、关联分析D、聚类答案:C37.第三次人工智能浪潮区别前两次在于()A、理论的革新B、思维的转变C、人工智能战胜了人类国际象棋世界冠军D、人工智能的产品打破了人们的预期,真正做到了在识别方面比人类本身更智能更高效,是真正可以用的东西答案:D38.、当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?A、分类B、聚类C、关联分析D、隐马尔可夫链答案:B39.为了可以把多个评估器链接成一个复合评估器,sklearn中提供了PipeLine机制,下面关于PipeLine描述不正确的是()A、管道中的最后一个评估器一定要是一个实现了predict方法的学习器B、管道中的所有评估器,除了最后一个评估器,管道中的所有评估器必须都是转换器。C、管道中的评估器参数可以通过<estimator>__语义来访问D、管道中的评估器可以通过索引或名称访问答案:A40.()提供的支撑技术,有效解决了大数据分析、研发的问题,比如虚拟化技术、并行计算、海量存储和海量管理等。A、点计算B、线计算C、云计算D、面计算答案:C41.统计档案表中学生来自多少个城市,下面SQL语句正确的是______。A、SELCETSUM(DISTINCT家庭住址)FROM档案表;B、SELCETDISTINCT家庭住址FROM档案表;C、SELCETCOUNT(家庭住址)FROM档案表;D、SELCETCOUNT(DISTINCT家庭住址)FROM档案表;答案:D42.关于python说法错误的是()A、python字典中的“健”可以是元组B、python集合中元素不允许重复C、python字典中的“值”不允许重复D、python集合中的元素可以是列表答案:D43.数据中心侧的数据流转方式未为()A、D.XP;B、E.SPC、OGGD、E.TL答案:D44.要求满足连接条件的记录,以及连接条件左侧表中的记录都包含在结果中,应使用______。A、左连接B、右连接C、内部连接D、完全连接答案:A45.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离()A、分类B、聚类C、关联分析D、隐马尔可夫链答案:B46.面对人工智能存在的诸多伦理道德问题,下列不应当采取的行动为()A、思考如何将人类的价值观和规范嵌入人工智能系统,赋予AI以人性的光辉B、开展人工智能伦理的研究和顶层设计,促进民生福祉改善,推进行业健康发展,掌握新一轮技术革命的主动权C、人工智能的伦理,实际上是人的问题。国家和机构需要重视,共同做出更多的努力D、发展人工智能时面对有问题的地方不去发展答案:D47.如果对属性值的任一组合,R中都存在一条规则加以覆盖,则称规则集R中的规则为()A、无序规则B、穷举规则C、互斥规则D、有序规则答案:B48.下列哪一个TCP层指标不反应S1口以下的质差问题?A、RTT上行时延B、RTT下行时延C、TCP下行重传率D、TCP上行重传率答案:A49.在网管上使用路径法创建以下哪种业务时需选择单向服务路径A、在两纤单向通道保护环上创建VC12级别的业务B、在两纤双向复用段保护环上创建VC12级别的业务C、在两纤单向复用段保护环上创建VC12级别的业务D、在两纤双向通道保护环上创建VC12级别的业务答案:C50.下面购物篮能够提取的3-项集的最大数量是多少ID购买项1牛奶,啤酒,尿布2面包,黄油,牛奶3牛奶,尿布,饼干4面包,黄油,饼干5啤酒,饼干,尿布6牛奶,尿布,面包,黄油7面包,黄油,尿布8啤酒,尿布9牛奶,尿布,面包,黄油10啤酒,饼干A、1B、2C、3D、4答案:C51.关于OLAP和OLTP的区别描述,不正确的是:()A、OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.B、与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.C、OLAP的特点在于事务量大,但事务内容比较简单且重复率高.D、OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的.答案:C52.下面哪个算法可以将文本数据转换为数值数据?()A、TF-IDFB、决策树C、PCAD、DBSCAN答案:A53./etc/init.d命令的作用是?A、/etc/init.d说明了守护进程(服务)的位置或状态B、指定hadoop的启动路径C、指定HDFS的启动路径D、指定YARN的启动路径答案:A54.模型树的叶子结点对应()。A、一个数值B、以上都可以C、某个类别D、一个线性回归方程答案:D55.SASEnterpriseMiner的优点不包括A、可伸缩性B、良好预测准确性C、高处理效率D、有效节省资源答案:D56.Hbase是哪种数据库?A、关系型数据库B、Nosql数据库C、网状数据库D、层次数据库答案:B57.在中移动的集中性能管理应用落地-居民区4G&宽带网络能力全景分析手册中,感知差居民区的定义是:A、4G感知质差用户占比>5%或4G驻留比<95%B、4G感知优良用户占比<80%或4G驻留比<90%C、4G感知优良用户占比<80%且4G驻留比<90%D、4G感知质差用户占比>5%且4G驻留比<95%答案:A58.下面购物蓝能够提取的3-项集的最大数量是多少()TID项集1牛奶,啤酒,尿布2面包,黄油,牛奶3牛奶,尿布,饼干4面包,黄油,饼干5啤酒,饼干,尿布6牛奶,尿布,面包,黄油7面包,黄油,尿布8啤酒,尿布9牛奶,尿布,面包,黄油10啤酒,饼干A、1B、2C、3D、4答案:C59.设X={1,2,3}是频繁项集,则可由X产生____个关联规则。A、4B、5C、6D、7答案:C60.终端分版本指标量化分析中,万终端用户投诉次数的定义为A、终端时间业务范围内投诉量÷查询终端总用户数×10000B、终端时间范围内投诉量÷查询终端总用户数×10000C、终端时间业务范围内重复投诉用户数÷查询终端总投诉用户数D、投诉用户数÷终端用户数×10000答案:A61.以下哪个不是移动网数据XDR内容A、公共信息B、移动网通用信息C、特定业务信息D、信令信息答案:D62.EPC不包括以下网元()A、MMEB、HSSC、PCRFD、M-MGW答案:D63.下列哪项活动属于数据挖掘A、根据性别划分公司的顾客B、使用历史记录预测公司未来的股票价格C、预测骰子的结果D、计算公司的总销售额答案:B64.下面哪个不属于数据的属性类型:()A、标称B、序数C、区间D、相异答案:D65.某出行公司寻求商务合作希望提升其调度效率,网络大数据可以提供何种类型的规划分析服务A、人脉关系B、用户标签C、位置D、消费能力答案:C66.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则答案:C67.在基于图的簇评估度量表里面,如果簇度量为proximity(Ci,C),簇权值为mi,那么它的类型是()。A、基于图的凝聚度B、基于原型的凝聚度C、基于原型的分离度D、基于图的凝聚度和分离度答案:C68.下列选项中,属于结构化数据的是____。A、图像B、文本C、办公文档D、JSON答案:D69.对原始数据进行聚集、抽样、违归约等是哪个步骤的任务A、数据预处理B、业务理解C、数据理解D、数据量挖掘答案:A70.SQL语句中删除表的命令是()A、DROPTABLEB、DELETETABLEC、ERASETABLED、DELETEDBF答案:A71.SELECT语句中的JOIN用来实现多个表的连接查询,JOIN应放在下列哪个短语之后______。A、FROMB、WHEREC、OND、GROUPBY答案:A72.有关数据仓库粒度设计的叙述中正确的是()。A、粒度越细越好B、粒度越粗越好C、粒度应该与数据仓库的主题相对应D、以上都不对答案:C73.()的目的是缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。A、数据清洗B、数据集成C、数据变换D、数据归约答案:D74.在Bigtable中,()主要用来存储子表数据以及一些日志文件A、GFSB、ChubbyC、SSTableD、MapReduce二、(共40题)答案:A75.关于OLAP的特性,下面正确的是:()1)快速性(2)可分析性(3)多维性(4)信息性(5)共享性A、(1)(2)(3)B、(2)(3)(4)C、(1)(2)(3)(4)D、(1)(2)(3)(4)(5)答案:D76.已知x=[1,2]和y=[3,4],那么x+y的结果是?A、3B、7C、[1,2,3,4]D、[4,6]答案:C77.以下OLAP操作中()的作用是改变维的层次,变换分析的粒度。A、切块B、平移C、钻取D、切片答案:C78.在DPI规范中,HTTP版本字段等于0x05代表()A、HTTP2.0B、HTTP1.1C、WAP1.0D、WAP1.1答案:C79.以下不属于聚类算法的是:A、K均值B、DBSCANC、AprioriD、Jarvis-Patrick(JP)答案:C80.如果规则集中的规则按照优先级降序排列,则称规则集是()A、无序规则B、穷举规则C、互斥规则D、有序规则答案:D81.分析判断PGW是否存在业务受限的情况采用哪个指标A、PGW承载容量平均利用率B、PGW承载容量峰值利用率C、PGW平均负荷D、PGW数据吞吐容量利用率答案:B82.如果对属性值的任一组合,R中都存在一条规则加以覆盖,则称规则集R中的规则为A、无序规则B、穷举规则C、互斥规则D、有序规则答案:B83.决策树中的InformationGain的计算是用来?A、剪枝B、使树成长C、处理缺失值和异常值D、砍树答案:B84.有关数据仓库的开发特点,不正确的描述是A、数据仓库开发要从数据出发B、数据仓库使用的需求在开发出去就要明确C、数据仓库的开发是一个不断循环的过程,是启发式的开发D、在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式答案:A85.上题中,等宽划分时(宽度为50),15又在哪个箱子里?A、第一个B、第二个C、第三个D、第四个答案:A86.非参数检验是针对()分布情况做的假设。A、总体B、局部C、个体答案:A87.假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?A、第一个B、第二个C、第三个D、第四个答案:B88.大数据是指()A、一个图书馆内的书籍信息B、无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产C、城市管理信息D、Facebook用户信息答案:B89.关于K均值和DBSCAN的比较,以下说法不正确的是()。A、KB、KC、KD、K答案:A90.如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为()A、无序规则B、穷举规则C、互斥规则D、有序规则答案:A91.一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是:()A、一年级B、二年级C、三年级D、四年级答案:A92.NB指标中,电力抄表响应成功率是指:A、电力抄表业务HTTPGET请求成功/请求次数,如果是非HTTP业务,可以统计时间段内电力抄表用户TCP建链的成功比例。B、电力抄表业务HTTPPUT请求成功/请求次数,如果是非HTTP业务,可以统计时间段内电力抄表用户TCP建链的成功比例。C、电力抄表业务HTTPGET请求成功/请求次数,如果是非HTTP业务,可以统计时间段内电力抄表用户UDP建链的成功比例。D、电力抄表业务HTTPPUT请求成功/请求次数,如果是非HTTP业务,可以统计时间段内电力抄表用户UDP建链的成功比例。答案:A93.智能手机AI创新不包括()A、机器学习框架B、3D结构光技术C、手机芯片硬件层面推出了全新的NPU单元D、手机材料更耐摔答案:D94.在进行VOLTE端到端八元六阶定界时,下列哪个不属于六阶A、附着B、TAUC、eSRVCC切换D、语音质量答案:B95.检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测。A、统计方法B、邻近度C、密度D、聚类技术答案:A96.通过聚集多个分类器的预测来提高分类准确率的技术称为()A、组合B、聚集C、合并D、投票答案:A97.视频业务流程可以分为播放准备阶段和播放阶段,其中属于播放阶段KQI指标有()A、停顿次数B、视频播放等待时长C、初始缓冲成功率D、初始缓冲时长答案:A98.下面不属于创建新属性的相关方法的是:A、特征提取B、特征修改C、映射数据到新的空间D、特征构造答案:B99.通过数据收集和展示数据背后的(),运用丰富的、具有互动性的可视化手段数据新闻学成为新闻学作为一门新的分支进入主流媒体,即用数据报道新闻。A、数据收集B、数据挖掘C、真相D、关联与模式答案:D100.下列选项中属于现金流入的项目是()A、所得税B、建设投资C、经营成本D、营业收入答案:D101.以下是哪一个聚类算法的算法流程:①构造k-最近邻图。②使用多层图划分算法划分图。③repeat:合并关于相对互连性和相对接近性而言,最好地保持簇的自相似性的簇。④until:不再有可以合并的簇。()。A、MSTB、OPOSSUMC、ChameleonD、Jarvis-Patrick(JP)答案:C102.已知:<imgsrc="/220586/8947890/1669541629124.png">则t的取值是()A、1B、2C、3D、4答案:D103.Python文件只读打开模式是A、wB、xC、bD、r答案:D104.卡方检验?A、是一种假设检验B、是一种T检验C、SAS有专门卡方检验过程D、样本含量小于40也可以使用答案:A105.下面哪个不属于数据的属性类型:A、标称B、序数C、区间D、相异答案:D106.IMEI中的TypeAllocationCode字段可以确定哪些信息A、装配号B、终端型号C、出厂序号D、检验码答案:B107.以下哪一点不是PCI规划需要重点关注的A、频率B、RS位置C、小区位置关系D、TA归属答案:D108.JSON中的中括号一般来表示()。A、数组;B、标点符号C、对象D、注释答案:C109.下列有关熵的描述,错误的是()A、在信息论中,是接收的每条信息中包含的信息平均量B、表示随机变量不确定性的度量C、比较不可能发生的事情,当它发生了,会提供更多的信息D、熵越大,随机变量的不确定性就越小答案:D110.在FP-growth构建频繁模式树中,每个()(除根结点外)代表一个单项,树中的每条()代表原数据中每一个条目的各个项。如果把条目内的项组合在一起看成一个字符串,则字符串前缀相同时共享相同的()。A、结点;路径;结点B、结点;路径;路径C、路径;路径;结点D、路径;路径;路径答案:B111.下面不是造成“塔下黑”的原因的一项为A、站点过高B、天线规格不达标C、功率过高D、下倾角过小答案:C112.()是研究一种或者多种因素的变化对试验结果的观测值是否有显著影响的统计方法。A、因子分析;B、数据降维C、方差分析D、假设检验答案:C113.T检验比较A、两个方差B、两个比值C、两个平均数的差异是否显著D、标准差答案:C114.视频业务端到端问题定界的关键点在于()A、查找KQI对应的相关异常KPI指标B、不同维度的对比定位分析C、进行HTTP错误码分析D、进行接口以上以下分析答案:A115.下列哪项不是TD-SCDMA系统的无线接口协议层()A、物理层PhysicallayerB、数据链路层DatalinklayerC、网络层NetworklayerD、媒体层Medialayer答案:D116.关于性能度量不正确的是()A、性能度量是衡量模型泛化能力的评价标准,反映了任务需求B、在对比不同模型的能力时,使用不同的性能度量会导致不同的评判结果,这就意味着模型的“好坏”是相对的C、回归任务最常用的性能度量是“均方误差”D、性能度量实用意义不大答案:D117.selectreplace('长江长城黄山黄河','长','黄')返回的是______。A、长江长城黄山黄河B、黄江长城黄山黄河C、黄江黄城黄山黄河D、长江长城长山长河答案:C118.为支撑市场营销,除下述哪个用户终端特征识别外,均能用于提高批开用户的VoLTE转化成功率A、软件版本B、软开关状态识别C、VoLTE版本D、芯片版本答案:D119.在线性不可分的情况下,支持向量机首先在低维空间中完成计算,然后通过()将输入空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而把平面上本身不好分的非线性数据分开。A、线性函数B、回归函数C、核函数D、卡方函数答案:C120.人工智能时代来临,新竞技将更加残酷,在商场上可行的是()A、不放弃既原有市场,寄望通过专利保护来阻挡新技术B、面对革命性的技术出现,依然固守传统思维与产品C、退出商场D、开放的心态迎接人工智能的到来,积极适应新市场,学习创造新技术答案:D121.要查询所有课程中,各门课程的最低分,下面SQL语句正确的是______。A、SELCET课程号,MIN(成绩)FROM选课表GROUPBY课程号;B、SELCET课程号,SUM(成绩),FROM选课表GROUPBY课程号;C、SELCET课程号,MAX(成绩),MIN(成绩),AVERAGE(成绩)FROM选课表GROUPBY课程号;D、SELCET课程号,MAX(成绩),FROM选课表GROUPBY课程号;答案:A122.为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务()A、探索性数据分析B、建模描述C、预测建模D、寻找模式和规则答案:B123.以下哪个聚类算法不是属于基于原型的聚类()。A、模糊c均值B、EM算法C、SOMD、CLIQUE答案:D124.变量的量纲比如以厘米或者米为单位对下面哪种方法会有影响()A、方差分析B、回归分析C、聚类分析D、主成分分析答案:C125.下述方法不属于聚类方法的是()A、K-均值B、K-中心性C、DBSCAN算法D、神经网络答案:D126.DHCP支持哪种类型的地址分配()A、自动分配B、动态分配C、手工分配D、以上答案:D127.Hive是基于Hadoop的一个数据()工具A、分析;B、仓库C、制图D、可视化答案:B128.分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务,属于()问题A、关联规则挖掘B、分类与回归C、聚类分析D、时序预测答案:A129.k均值聚类的目标是()。A、最大化簇间距离B、最大化质心距离C、簇的大小基本一致D、最小化簇内距离的平方和答案:D130.SQL语句中进行空值运算时,需要用到的短语是______。A、NULLB、ISNULLC、=NULLD、=ISNULL答案:B131.对于双路的室分系统来说,影响性能的因素有那些()A、双路功率的平衡度B、双路天线间距C、A&BD、以上都不影响答案:C132.P(22,1,42,10),Q(20,0,36,8)为两个向量对象,这两个对象的曼哈顿距离是()。A、6B、三次根号下233C、根号下45D、11答案:D133.通用人工智能面对大型即时策略游戏,面临很多亟待解决的问题,不包括()A、通用人工智能需要平衡价值目标和策略目标,价值目标服务于长期目标,策略目标服务于短期目标。这就需要通用人工智能,掌握博弈论的精髓。B、通用人工智能,需要能够主动挖掘游戏情报,并通过局部信息或不完美的信息做出游戏决策。C、像许多现实世界的问题一样,因果关系不是即时的。这意味着游戏早期采取的行动可能无法在很长一段时间内获得回报。这就需要通用人工智能,具有长期规划能力D、智能匹配队友答案:D134.以下叙述正确的是()A、极差较少受异常值的影响B、四分位差较少受异常值的影响C、方差较少受异常值的影响D、标准差较少受异常值的影响答案:B135.在有关数据仓库测试,下列说法不正确的是()A、在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试B、当数据仓库的每个单独组件完成后,就需要对他们进行单元测试C、系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试D、在测试之前没必要制定详细的测试计划答案:D136.在基本K均值算法里,当邻近度函数采用____的时候,合适的质心是簇中各点的中位数。A、曼哈顿距离B、平方欧几里德距离C、余弦距离D、Bregman散度答案:A137.()的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果A、数据清洗B、数据集成C、数据变换D、数据归约答案:D138.下面哪个不属于数据的属性类型:()A、标称B、序数C、区间D、相异答案:D139.在数据挖掘中,将大数据集转换为保持原数据完整性的小数据集,这一过程称为(D)A、数据提取B、数据变换C、数据清理合D、数据归约答案:D140.社交网络产生了海量用户以及实时和完整的数据,同时社交网络也记录了用户群体的(),通过深入挖掘这些数据来了解用户,然后将这些分析后的数据信息推给需要的品牌商家或是微博营销公司。A、地址B、行为C、情绪D、来源答案:C141.ROC曲线凸向哪个角,代表模型越理想?A、左上角B、右上角C、左下角D、右下角答案:A142.人工智能不会()A、听(语音识别、机器翻译),看(图像识别、文字识别)B、说(语音合成、人机对话),思考(人机对弈、定理证明等)C、学习(机器学习、知识表示等),行动(机器人、自动驾驶汽车等)D、表达感情答案:D143.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘答案:C144.大数据技术由()公司首先提出来的A、腾讯B、谷歌C、阿里巴巴D、微软答案:B145.人工智能复活之路上经历了()次热潮A、1B、2C、3D、4答案:C146.能够完全匹配字符串“gogo”和“kittykitty”,但不能完全匹配“gokitty”的正则表达式()A、r“\b(\w+)\b\s+\1\b”B、R“\w{2,5}\s*\1”C、r“(\S+)\s+\1”D、r“(\S{2,5})\s{1,}\1”答案:D147.规则I->j,“有可能”,等于所有包含I的购物篮中同时包含J的购物篮的比例,为()。A、置信度B、可信度C、兴趣度D、支持度答案:B148.数据仓库是随着时间变化的,下面的描述不正确的是A、数据仓库随时间的变化不断增加新的数据内容;B、捕捉到的新数据会覆盖原来的快照;C、数据仓库随事件变化不断删去旧的数据内容;D、数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合.答案:C149.LTE中,对于频分双工(FDD)的操作,定义了4中随机接入的前导格式,其中格式3的Tcp()μsA、203.13B、406.26C、101.3D、684.38答案:D150.如对用户的信令序列编码成时间序列,则可以利用哪种算法可以进行具备故障区分能力的特征挖掘A、EMB、K-MeansC、CARTD、PrefixSpan答案:D151.HTTP协议工作在()A、物理层B、网络层C、传输层D、应用层答案:D152.假设某分类器在一个测试数据集上的分类结果的混淆矩阵如下所示,该分类器的精确率为()。PredictedYesnoActualyes155No1020A、75%B、80%C、60%D、70%答案:C153.下列度量不具有反演性的是()A、系数B、几率C、CohenD、兴趣因子答案:D154.在OLAP的基本操作中,在给定的数据立方体的两个或更多个维上进行选择操作得到一个子立方体,这个操作称为()A、切块B、转轴C、上卷D、下钻答案:A155.关于OLAP和OLTP的区别描述,不正确的是:()A、OLAPB、与C、OLAPD、OLAP答案:C156.()数据挖掘方法能够帮助市场分析人员找出顾客购买的商品之间的关联关系A、分类B、预测C、关联分析D、聚类答案:C157.分类器效果检验中的准确率是指()A、预测正确的数据在总数据中的比例B、预测为正的数据在总数据中的比例C、预测为正的数据中实际为正的数据所占比例D、实际为正的数据中被预测为正的数据所占比例答案:C158.EPC核心网网元SGW主要功能不包括()A、移动性及切换支持B、计费C、IP地址分配D、合法监听答案:C159.线性模型中使用的函数不包括()A、g(x)联系函数B、单位阶跃函数C、Sigmoid函数D、API函数答案:D160.以下哪些分类方法可以较好地避免样本的不平衡问题()A、KNNB、SVMC、BayesD、神经网络答案:A161.在比较模型的拟合效果时,甲、乙、丙、丁四个模型的决定系数R^2的值分别约为0.96、0.85、0.80和0.7,则拟合效果好的模型是()。A、丁B、乙C、甲D、丙答案:C162.通过代码”fromsklearnimportlinear_model”引入线性模型模块,并通过代码“reg=linear_model.LinearRegression()”构造回归器对象后,在训练时要调用的方法是(B),在训练后做预测时要调用的方法是(D)。A、reg.train()B、reg.fit()C、reg.learn()D、reg.predict()答案:B163.在利用linear_model.LinearRegression()构造的reg对象训练模型后,可以通过以下哪行代码查看回归模型系数()。A、reg._coefB、reg._coefficientC、reg.coefficient_D、reg.coef_答案:D164.以下关于文件的描述错误的选项是()A、readlines()函数读入文件内容后返回一个列表,元素划分依据是文本文件中的换行符B、read()一次性读入文本文件的全部内容后,返回一个字符串C、readline()函数读入文本文件的一行,返回一个字符串D、二进制文件和文本文件都是可以用文本编辑器编辑的文件答案:D165.下列关于等宽分箱的说法中错误的是()。A、等宽分箱可能导致属于某些的取值非常多,而某些又非常少B、又称为等距离分箱C、等宽分箱能使每个区间内包含的取值个数大致相同D、若区间个数为k,每个区间的间距为(-min)/k答案:C166.如何退出vi编辑器输入模式?1按ESC;2键入:q(如果你没有输入任何当下)3或者键入:wq(如果你已经输入当下)4按下Enter。A、1、3、2、4B、3、2、1、4C、2、1、3、4D、1、2、3、4答案:D167.MDX是一种()A、数据仓库建模语言B、创建数据库的语言C、数据仓库开发语言D、OLAP和数据仓库应用中使用最广泛的多维数据查询语言答案:D168.对于企业来说,数据使用的关键是()A、数据收集B、数据存储C、数据分析D、数据再利用答案:D169.一般,k-NN最近邻方法在()的情况下效果较好A、样本较多但典型性不好B、样本较少但典型性好C、样本呈团状分布D、样本呈链状分布答案:B170.关于K均值和DBSCAN的比较,以下说法不正确的是()。A、K均值丢弃被它识别为噪声的对象,而BSCAN一般聚类所有对象。B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。C、K均值很难处理非球形的簇和不同大小的,DBSCAN可以处理不同大小和不同形状的簇。D、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。答案:A171.下列哪个不是专门用于可视化时间空间数据的技术:()A、等高线图B、饼图C、曲面图D、矢量场图答案:B172.在基本K均值算法里,当邻近度函数采用()的时候,合适的质心是簇中各点的中位数。A、曼哈顿距离B、平方欧几里德距离C、余弦距离D、Bregman答案:A173.先按课程号升序排列,再按成绩降序排列检索出选课表中的所有信息,下面SQL语句正确的是______。A、SELECT*FROM选课表ORDERBY课程号,成绩;B、SELECT*FROM选课表GROUPBY课程号,成绩;C、SELECT*FROM选课表ORDERBY课程号,成绩DESC;D、SELECT*FROM选课表ORDERBY课程号DESC,成绩;答案:C174.咪咕视频业务的端到端感知评价指标中感知最相关且DPI可以精准建模的指标是A、初缓时长B、下载速率C、卡顿时长D、播放成功率答案:A175.PageRank是一个函数,它对Web中的每个网页赋予一个实数值。它的意图在于网页的PageRank越高,那么它就()。A、相关性越高B、越不重要C、相关性越低D、越重要答案:D176.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务()A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则答案:A177.某项目预计运行5年后的净现值为4500万元,如折现率为16%,其终值应为()万元(说明:结果保留两位小数)A、8045.86B、6996.21C、9451.54D、7000.02答案:C178.IP报文头中固定长度部分为多少字节()A、10B、20C、30D、40答案:B179.下列不是智能的特征的是()A、具有储存空间B、具有学习能力C、具有记忆与思维的能力D、具有自适应能力答案:A180.Python在调用efficient-apriori包中的apriori函数进行挖掘关联规则时,第二个返回值是()。A、最小置信度B、最小支持度C、关联规则D、频繁项集答案:C181.字符串是一个连续的字符序列,哪个选项可以实现打印字符信息的换行?A、使用\nB、使用转义符\\C、使用空格D、使用“\换行”答案:A182.属于定量的属性类型是()。A、标称B、序数C、区间D、相异答案:C183.只有非零值才重要的二元属性被称作()A、计数属性B、离散属性C、非对称的二元属性D、对称属性答案:C184.关于决策树算法,以下的叙述错误的是A、决策树修剪技术有预修剪和后修剪B、决策树层数越多,预测结果准确性越高C、C5.0、CHAID、CART都属于决策树算法D、修剪技术是为了防止过拟合的问题答案:B185.有关数据仓库的开发特点,不正确的描述是:A、数据仓库开发要从数据出发;B、数据仓库使用的需求在开发出去就要明确;C、数据仓库的开发是一个不断循环的过程,是启发式的开发;D、在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式答案:A186.k-均值算法是一种()算法。A、关联规则发现B、聚类C、分类D、自然语言处理答案:B187.在BP神经网络中,只有相邻的神经层的各个单元之间有联系,除了输出层外,每一层都有一个()A、关联B、连接C、偏置结点D、输入答案:C188.下列基本术语描述错误的是()A、学习(训练):从数据中学得模型的过程B、测试:学得模型后,使用其样本进行预测的过程C、分类:输出结果是连续值D、回归:输出结果是连续值答案:C189.关于OLAP和OLTP的区别描述,不正确的是()A、OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同B、与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务C、OLAP的特点在于事务量大,但事务内容比较简单且重复率高D、OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的答案:C190.大数据起源是()A、金融B、电信C、互联网D、公共管理答案:C191.以下关于字符串.strip()方法功能说明正确的是:A、连接两个字符串序列B、替换字符串中特定字符C、按照指定字符分割字符串为数组D、去掉字符串两侧指定字符答案:D192.区块链本身并非是一项全新技术,而是多项技术的集成式创新,其中不包括()A、分布式网络B、数据加密C、共识机制、智能合约D、机械自动化答案:D193.以下哪个类型的变量在作预测客户流失的模型中最有解释力度?A、人口基本数据,比如年龄和性别B、基本社会状态数据,比如收入和职业C、业务数据,比如消费频次D、业务数据的衍生变量,比如最近3个月消费频次的变化情况答案:D194.requests库发送请求的get方法中,()参数来设置超时时间A、timeoutB、headersC、user_agentD、add答案:A195.一个对象的离群点得分是该对象周围密度的逆。这是基于()的离群点定义。A、概率B、邻近度C、密度D、聚类答案:C196.GSM网络中用于传递并且识别用户的唯一标识是A、MSISDNB、IMEIC、IMSI答案:C197.以下哪个不是构造直方图的数据集划分方式A、组距分组B、分位数分组C、多变量分组D、均值-标准差分组答案:C198.()是数据仓库体系架构的重要组成部分,具备数据仓库的部分特征和OLTP系统的部分特征。A、E.SB;B、D.MC、ODSD、E.TL答案:C199.主成分分析方法PCA属于属于python中的哪个包()。A、sklearnB、numpyC、pandasD、scipy答案:A200.下列selenium库的方法中,通过元素名称进行单元素定位的是()A、find_element_by_nameB、find_elements_by_nameC、find_elements_by_idD、find_elements_by_class_name答案:A201.对于下列实验数据:1,108,11,8,5,6,8,8,7,11,描述其集中趋势用()最为适宜,其值是()。A、平均数,14.4B、中位数,8.5C、众数,8D、以上都可以答案:C202.以下哪些算法是分类算法A、DBSCANB、C4.5C、K-MeanD、EM答案:B203.考虑两队之间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为A、0.75B、0.35C、0.4678D、0.5738答案:C204.假设file是文本文件对象,下列选项中,哪个用于读取一行?()A、file.read()B、file.read(200)C、file.readline()D、file.readlines()答案:C205.下列train_test_split参数解释错误的是()A、train_data:所要划分的样本结果B、test_size:样本占比,如果是整数的话就是样本的数量C、random_state:是随机数的种子D、随机数种子:其实就是该组随机数的编号,在需要重复试验的时候,保证得到一组一样的随机数。比如你每次都填1,其他参数一样的情况下你得到的随机数组是一样的。但填0或不填,每次都会不一样答案:A206.正则表达式字符集中,()表示数字A、\dB、\DC、\sD、\w答案:A207.下面的代码其功能为()>>>x=[range(3*i,3*i+5)foriinrange(2)]>>>x=list(map(list,x))>>>x=list(map(list,zip(*x)))A、首先生成一个随机的列表,然后生成矩阵B、首先生成一个包含列表的列表,然后生成矩阵C、首先生成一个包含列表的列表,然后模拟矩阵转置D、首先排序列表,然后模拟矩阵转置答案:C208.如下表所示,X={butter,cheese},则支持度support(X)=()。交易号(TID)商品(Items)1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nutsA、2/5B、4/5C、1/5D、3/5答案:A209.下面代码的输出结果是?foriinrange(3):print(2,end=',')A、2,2,2,B、2,2,2C、222D、222,答案:A210.SELECT语句中“GROUPBY学号”表示______。A、修改学号B、过滤学号C、对学号排序D、对学号分组答案:D211.请问以下何者属于时间序列的问题?A、信用卡发卡银行侦测潜在的卡奴B、基金经理人针对个股做出未来价格预测C、电信公司将人户区分为数个群体D、以上均不是答案:B212.KNN算法可以用于()A、分类B、回归C、测试D、分类和回归答案:D213.连续属性离散化的问题本质是:决定选择多少个分割点和确定分割点位置。任务可分为两个步骤完成。首先将连续属性排序,并通过指定n-1个分割点把它们分成n个区间。然后,将一个区间中的所有值映射到相同的()。A、分类值B、平均值C、特征值D、最大值答案:A214.一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是:()A、一年级B、二年级C、三年级D、四年级答案:A215.()是一种开源软件编程语言,主要用于统计分析,绘图和数据挖掘,内置多种统计及分析功能。A、H.IVE;B、H.ADOOPC、R;D、H.FDS答案:C216.使用requests库发送请求后,返回response对象的属性中,表示网页内容的是()A、status_codeB、encondingC、apprence_encondingD、text答案:D217.requests库获取HTTP请求获得reponse对象,该对象对应的()属性,用于判断网页请求状态。A、status_codeB、encondingC、apprence_encondingD、headers答案:A218.贝叶斯决策是根据()进行决策的一种方法。A、极大似然概率B、先验概率C、边际概率D、后验概率答案:D219.回归分析的第一步是()A、确定解释量和被解释变量B、确定回归模型C、建立回归方程D、进行检验答案:A220.以下哪个聚类算法不属于基于网格的聚类算法()A、STINGB、WaveClusterC、MAFIAD、BIRCH答案:D221.概念分层图是()图。A、无向无环B、有向无环C、有向有环D、无向有环答案:B222.考虑两队之间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为()A、0.75B、0.35C、0.4678D、0.5738答案:C223.根据《中国移动集中性能管理应用落地手册-有线宽带端到端业务质量分析》,家客业务XDR话单不包括以下哪部分?A、DPI话单B、Radius话单C、网络资源数据D、用户位置话单答案:D224.下面购物篮能够提取的3-项集的最大数量是多少ID购买项1牛奶,啤酒,尿布2面包,黄油,牛奶3牛奶,尿布,饼干4面包,黄油,饼干5啤酒,饼干,尿布6牛奶,尿布,面包,黄油7面包,黄油,尿布8啤酒,尿布9牛奶,尿布,面包,黄油10啤酒,饼干A、1B、2C、3D、4答案:C225.以下那一项不是大数据提供的用户交互方式是()。A、企业报表;B、查询C、大数据分析挖掘D、可视化答案:A226.打开一个已有文件,然后在文件末尾添加信息,正确的打开方式为()A、rB、wC、aD、w+答案:C227.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则答案:A228.对于人工智能认知错误的是()A、人工智能应该是人类用来改造世界的技术手段,是辅助性的工具,而不是对人类进行了替代B、目前人工智能还处于初级阶段,算是弱人工智能,AI技术还是离不开大数据C、人工智能在计算方面,超过人类。在部分感识方面,可与人类相媲美。但在认知方面,人工智能还处于几乎空白阶段,而这恰恰是我们人类的最大优势D、人工智能会毁灭人类答案:D229.如果L2={{a,b},{a,c},{a,d},{b,c},{b,d}},则自连接产生的C2中包含()个项集。A、1B、2C、3D、4答案:D230.若数据量较大,下面哪种方式比较适合()A、系统聚类B、快速聚类(k-means)C、A和B都可以D、A和B都不可以答案:B231.轮廓系数的取值范围是()。A、[-1,1]B、[0,∞)C、[0,1]D、[-1,0]答案:A232.能够在字符串中匹配“aab”,而不能匹配“aaab”和“aaaab”的正则表达式()A、r“a*?b”B、r“a{,2}b”C、r“aa??b”D、r“aaa??b”答案:B233.下列()不是将主观信息加入到模式发现任务中的方法。A、与同一时期其他数据对比B、可视化C、基于模板的方法D、主观兴趣度量答案:A234.以下哪些算法是基于规则的分类器A、C4.5B、KNNC、Na?veBayesD、ANN答案:A235.eNodeB对哪种类型的数据进行完整性保护()A、RRCsignallingB、NASsignallingC、UserplanedataD、SystemInformation答案:C236.查找某个字段中以字母A开头且以字母Z结尾的所有记录,则条件表达式应设置为______。A、LIKE"A$Z"B、LIKE"A#Z"C、LIKE"A%Z"D、LIKE"A_Z"答案:C237.OLAM技术一般简称为”数据联机分析挖掘”,下面说法正确的是:()A、OLAPB、由于C、基于D、BE、BF、OLAM答案:D238.查看下面表单的示例程序:若要使用WebDriver定位上述元素,可以使用如下()方法实现。A、find_element_by_idB、find_element_by_nameC、find_elements_by_link_textD、find_elements_by_tag_name答案:A239.以下不是Python数据类型的是:A、实数B、整数C、列表D、字符串答案:A240.SGW和PGWS5/S8协议栈自上而下正确的顺序是()A、GTP/TCP/IP/L2/L1B、GTP/UDP/IP/L2/L1C、GTP/SCTP/IP/L2/L1D、GTP/RLC/MAC/L1答案:B241.假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:A、18.3B、22.6C、26.8D、27.9答案:A242.分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务,属于()问题。A、关联规则挖掘B、分类与回归C、聚类分析D、时序预测答案:A243.()是一种松散耦合的服务和应用之间标准的集成方式。A、E.SB;B、D.MC、ODSD、E.TL答案:A244.上题中,等宽划分时(宽度为50),15又在哪个箱子里?A、第一个B、第二个C、第三个D、第四个答案:A245.MR数据引入对基站建设规划的主要增益在于A、弱覆盖区域识别B、网速慢区域识别C、高干扰区域识别D、高价值区域识别答案:A246.在中移动的集中性能管理应用落地-居民区4G&宽带网络能力全景分析手册中,建立居民区与无线基站的关联模型,推荐使用的方案是:A、基于基站经纬度与居民区经纬度B、基于MR数据获得居民小区与无线小区的对应关系C、基于晚间用户常驻小区D、基于长期不移动的手机对应的基站答案:B247.以下哪个不是数据清理的方法()A、填充缺失值B、光滑噪声C、识别离群点D、数据变换答案:D248.设X={a,b,c}是一个频繁项集,则最多可由X产生()个关联规则。A、4B、5C、6D、7答案:C249.将原始数据进行集成、变换、维度规约、数据规约是在以下哪个步骤的任务()A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘答案:C250.OLAP包括以下()基本操作功能。I.上卷Ⅱ切片Ⅲ.转轴Ⅳ.切块A、I、Ⅱ和ⅢB、I、Ⅱ和ⅣC、Ⅱ、Ⅲ和ⅣD、都是答案:D251.数据仓库的最终目的是()A、收集业务需求B、建立数据仓库逻辑模型C、开发数据仓库的应用分析D、为用户和业务部门提供决策支持答案:D252.VoLTE始呼接续时长统计点为()A、从主叫侧CSCF收到VoLTE语音或视频的Invite始呼请求开始,到主叫侧CSCF向主叫用户成功转发180响应消息B、从主叫侧SBC收到VoLTE语音或视频的Invite始呼请求开始,到主叫侧SBC向主叫用户成功转发180响应消息C、从主叫侧SBC收到VoLTE语音或视频的Invite始呼请求开始,到主叫侧SBC向主叫用户成功转发200响应消息D、从主叫侧CSCF收到VoLTE语音或视频的Invite始呼请求开始,到主叫侧CSCF向主叫用户成功转发200响应消息答案:B253.在数据挖掘过程中,()可以看作是承载数据和挖掘算法的基础设施。A、云平台B、物联网C、SPSSD、WEKA答案:A254.有关数据仓库的开发特点,不正确的描述是:()A、数据仓库开发要从数据出发B、数据仓库使用的需求在开发出去就要明确C、数据仓库的开发是一个不断循环的过程,是启发式的开发D、在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式答案:A255.OLAM技术一般简称为”数据联机分析挖掘”,下面说法正确的是:A、OLAP和OLAM都基于客户机/服务器模式,只有后者有与用户的交互性;B、由于OLAM的立方体和用于OLAP的立方体有本质的区别.C、基于WEB的OLAM是WEB技术与OLAM技术的结合.D、OLAM服务器通过用户图形借口接收用户的分析指令,在元数据的知道下,对超级立方体作答案:D256.在上网业务问题诊断中,以下哪一种错误现象需要进一步定位用户侧问题?A、发送SNY_ack后用户端无ackB、附着失败返回#96C、DNS解析失败返回#3D、HTTP失败返回#400-500答案:A257.考虑这么一种情况:一个对象碰巧与另一个对象相对接近,但属于不同的类,因为这两个对象一般不会共享许多近邻,所以应该选择()的相似度计算方法。A、平方欧几里德距离B、余弦距离C、直接相似度D、共享最近邻答案:D258.在SQLServer提供的EM聚类算法中,叙述正确的是()A、必须要设置聚类的分类数B、不必指定聚类的分类数C、可以不指定聚类的分类数,此时采用默认值D、以上都不对答案:C259.利用tree.DecisionTreeClassifier()训练模型时调用.fit()方法需要传递的第一个参数是()。A、样本特征XB、样本标签YC、判断标准D、设置结点的最小样本数量答案:A260.()是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的A、边界点B、质心C、离群点D、核心点答案:C261.《实时业务质量监控保障》落地手册中,基于开源框架的流数据处理架构的计算步骤是怎样的?(1)将筛选、清洗、转换后的数据发送至Kafka集群。(2)由Storm集群完成实时1分钟粒度指标计算。(3)基于ETL模块,对入库的XDR数据进行针对性的事件、字段筛选,以及数据转换、加载,最大程度的减少传输、计算数据量。(4)历史1分钟粒度指标计算结果同步至Hbase数据库,实现历史数据持久化。(5)从XDR数据源系统(例如统一DPI)以SDTP接口的形式实时接收XDR数据流,完成数据入库。(6)将指标计算结果写入Redis集群,并对上层应用开放实时数据查询接口。A、531264B、532146C、541326D、561423答案:A262.示例程序如下importurllib.requestresponse=urllib.request.urlopen(‘http://python.Org’)print(response.getcode())若上述示例程序正常运行成功,则程序输出的结果为____。A、200B、304C、403D、500答案:A263.《物联网端到端业务质量分析》落地手册中,物联网端到端定界分析“七元四阶”法的四阶不包括?A、终端移动性B、业务接入C、网络切换D、业务使用答案:A264.可以最全面反映整个网络缺省EPS承载的建立成功率的指标是A、PDN连接建立成功率B、缺省承载激活成功率C、MME建立缺省S5S8承载成功率D、位置更新的成功率答案:A265.假设Python中data=pd.Series(["1","2","3","4"]),则data.loc[2:]的职是A、3B、234C、34D、12答案:C266.在集团公司四维十轮网络质量评估体系中,下列哪项不是评估家庭业务感知的指标:A、家宽网页打开成功率(%)B、139邮箱web登录成功率(%)C、家宽网页平均首屏时延(s)D、家宽视频首帧显示时长(s)答案:B267.关于字符编码的类型中,用于指明浏览器可接受简体中文的是()A、gb2312B、iso-8859-1C、utf-8D、utf答案:C268.以下哪些不是业务质量指标KQIA、页面响应成功率B、视频下载速率C、及时通信接入时延D、Attach成功率答案:D二、多选题1.检索所有姓“张”、姓“田”的学生信息,可以使用的SQL语句有______。A、SELECT*FROMstudentWHEREstudent_nameLIKE('张%'OR'田%');B、SELECT*FROMstudentWHERESUBSTRING(student_name,1,1)in('张','田');C、SELECT*FROMstudentWHERESUBSTRING(student_name,1,1)='张'ORSUBSTRING(student_name,1,1)='田';D、SELECT*FROMstudentWHEREstudent_nameLIKE'张%'ORstudent_nameLIKE'田%';答案:BCD2.TD-LTE终端形态包括()A、手机B、数据卡C、MiFiD、CPE答案:ABCD3.人工智能存在的伦理道德问题有()A、道德超载问题B、算法的偏见C、数据的偏见D、人工智能取代人类答案:ABC4.以下哪些学科和数据挖掘有密切联系?()A、统计B、计算机组成原理C、矿产挖掘D、人工智能答案:AD5.我们可以用哪种方式来避免决策树过度拟合的问题?()A、利用修剪法来限制树的深度B、利用盆栽法规定每个节点下的最小的记录数C、利用逐步回归法来删除部分数据D、目前并无适合的方法来处理这问题答案:AB6.在《中国移动集中性能管理应用落地手册-居民区4G&宽带网络能力全景分析》中,居民区常驻用户识别模型是A、基于信令识别用户常驻居民区B、基于MR打点法识别用户常驻居民区C、基于语音话单识别用户常驻居民区D、基于用户宽带开户信息识别答案:ABCD7.下列属于机器学习工具包Scikit-learn包含的基本功能的是:A、数据预处理B、回归C、分类D、聚类答案:ABCD8.商业模式描述正确的是:A、B2B--商家对商家B、B2C--商家对人C、O2O--线上对线下D、C2C--人对人答案:ABCD9.根据集中性能管理应用《物联网端到端业务质量分析》落地手册,物联网端到端定界的分析方法包括?()A、关联分析B、回溯分析C、聚类分析D、根因分析答案:ABCD10.下面有关HAVING子句的说法中正确的是()A、HAVING子句必须与GROUPBY子句同时使用,不能单独使用B、使用HAVING子句的同时不能使用WHERE子句C、使用HAVING子句的同时可以使用WHERE子句D、使用HAVING子句的作用是限定分组的条件答案:ACD11.预处理的任务有哪些()。A、特征提取与特征选择B、数据清洗C、数据规范化D、数据离散化答案:ABCD12.广告主在投放移动广告时,会考虑关于终端的哪些因素A、终端品牌B、操作系统C、屏幕尺寸D、出厂日期答案:ABC13.可以应用失败码定界法的指标包括A、附着成功率B、HTTP响应成功率C、TAU成功率D、TCP建立成功率答案:ABC14.VoLTE信令面关键KPI指标不包括?()A、初始注册成功率B、第三方注册成功率C、VoTE网络原因掉话率D、SRVCC切换时延答案:CD15.人工网络学习的两个相似的算法:()A、梯度下降法则B、感知器训练法则C、遗传算法D、连接分析答案:AB16.缺省承载建立过程的成功率会进一步影响哪些指标A、UE附着成功率B、PDNConnection建立成功率C、业务请求成功率D、MME建立缺省S5S8承载成功率答案:AB17.以下哪些指标可以判断出劣化问题可能出现在核心网元?A、TCP握手时延B、服务器侧上行RTTC、服务器侧下行RTTD、HTTP响应成功率答案:ABC18.()都属于簇有效性的监督度量。A、轮廓系数B、共性分类相关系数C、熵D、F度量答案:CD19.贝叶斯信念网络(BBN)有如下哪些特点。()A、构造网络费时费力B、对模型的过分问题非常鲁棒C、贝叶斯网络不适合处理不完整的数据D、网络结构确定后,添加变量相当麻烦答案:AB20.统一DPI分应用场景包括()A、PS侧B、IDC出口C、省网出口D、省网网间出口E、骨干网网间出口答案:ABCDE21.以下哪些方法可以用于回归模型的特征选择()A、chi2B、f_classifC、mutual_info_regressionD、f_regression答案:CD22.以下关于IMEI的说法正确的是()A、IMEI是国际移动设备身份码的缩写,国际移动装备辨识码B、IMEI为TAC+FAC+SNR+SP+NSC、双卡双待手机会有两个IMEID、IMEI不标识移动式笔记本电脑答案:ACD23.概率分析中,应计算出()表明该风险因素的风险程度。A、变异系数B、期望值C、方差D、标准差答案:ABCD24.层次聚类的聚类方式有()A、凝聚方式聚类B、分解方式聚类C、Q型聚类D、R型聚类答案:AB25.以下各项均是针对数据仓库的不同说法,你认为正确的有()。A、数据仓库就是数据库B、数据仓库是一切商业智能系统的基础C、数据仓库是面向业务的,支持联机事务处理(OLTP)D、数据仓库支持决策而非事务处理E、数据仓库的主要目标就是帮助分析,做长期性的战略制定答案:BCDE26.打点模型把视频业务分为接入阶段与播放阶段。其中接入阶段又被细分为()A、初始缓冲准备阶段B、初始缓冲阶段C、播放阶段D、播放准备阶段答案:AB27.视频业务流程可以分为播放准备阶段和播放阶段,其中播放准备阶段KQI指标包括()A、播放成功率B、视频播放等待时长C、初始缓冲成功率D、初始缓冲时长答案:ABCD28.以下哪些指标属于网页浏览类KQI?()A、流媒体停顿占比B、页面显示时长C、页面下载速率D、页面响应成功率答案:BCD29.界面整体规划设计时涉及的工作包括A、确定主题B、选择合适制作工具C、收集材料D、制作DEMO答案:ABCD30.集中性能“四轮驱动”包含以下业务()A、家宽业务B、集客业务C、新

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论