版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
试卷科目:大数据挖掘技术练习大数据挖掘技术练习(习题卷21)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据挖掘技术练习第1部分:单项选择题,共51题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.下列属于维归约常用的线性代数技术的有()A)主成分分析B)特征提取C)特征加权D)离散化答案:A解析:[单选题]2.下列不属于序数属性的是()。A)顾客满意度B)矿石硬度C)军衔D)邮政编码答案:D解析:[单选题]3.关联规则是反映事物之间的依赖关系,典型例子是购物篮分析,常见算法有Apriori关联算法和()算法。A)贝叶斯算法B)线性回归C)F.P-growth关联算法D)聚类算法答案:C解析:[单选题]4.若有频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},(2,3,4),(2,3,5},{3,4,5},假定数据集中只有5个项,则产生的候选4-项集不包含()。A){1,2,3,4}B){1,2,3,5}C){1,2,4,5}D)以上都不是答案:C解析:[单选题]5.变量y与x之间的回归方程()。A)表示y与x之间的函数关系B)表示y与x之间的不确定性关系C)反映y与x之间真实关系的形式D)反映y与x之间的真实关系达到最大限度的吻合答案:D解析:[单选题]6.有关数据仓库物理模型设计的叙述中正确的是()。A)存储结构中不能存在任何数据冗余B)尽可能多地建立索引C)尽可能把在逻辑上关联的数据放在一个表中D)以上都不对答案:D解析:[单选题]7.HDFS的数据块大小通常为()A)1MB)64MC)12MD)8M答案:B解析:[单选题]8.已知x=([1],[2]),那么执行语句x[0].append(3)后x的值为()A)([1],[2,3])B)([1],[3],[2])C)([1,3],[2])D)([1],[2],[3])答案:C解析:[单选题]9.下列方法,用于向文件写入内容的是()A)writeB)readC)openD)close答案:A解析:Write:文件写入Read:读文件Open:文件的打开Close:文件的关闭[单选题]10.分版本分芯片落地手册,关于版本信息库建设描述错误的是()A)提取XDR用户面单据USER-AGENT字段中的版本信息B)提取XDR用户面单据及数据业务CDR话单IMEI-SV字段中的版本信息C)需终端厂家提供的SV信息D)建立IMEI和版本对应关系答案:D解析:[单选题]11.语音识别的突破在()A)用人类思维去做,让机器认识每个音节音素,然后通过音节音素去分辨字和单词B)研发过程中,计算机工程师与科学家围绕着语言学家进行工作C)开创了统计学的模式,抛弃了模仿人类思维方式,不再通过总结思维规则的老路,研发过程中极少语言学家的参与,更多是计算机科学家与数学家的合作D)图灵测试答案:C解析:[单选题]12.用于将Python程序打包成可执行文件的工具是()A)Panda3DB)cocos2dC)pipD)PyInstaller答案:D解析:[单选题]13.0.5)能够计算x的平方根,计算负数的平方根将产生:A)程序崩溃B)复数C)ValueError错误D)无输出答案:B解析:[单选题]14.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。A)4B)5C)6D)7答案:C解析:[单选题]15.表示职称为副教授、性别为男的表达式为()A)职称='副教授'OR性别='男'B)职称='副教授'AND性别='男'C)BETWEEN'副教授'AND'男'D)IN('副教授','男')答案:B解析:[单选题]16.针对非数值数据类型的分类数据在Scikit-Learn中分类特征选取的最佳方式是A)映射关系编码B)使用DictVectorizer类C)使用dict类D)特征分类编码答案:B解析:[单选题]17.一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是:A)一年级B)二年级C)三年级D)四年级答案:A解析:[单选题]18.在FP-growth构建频繁模式树中,每个()(除根结点外)代表一个单项,树中的每条()代表原数据中每一个条目的各个项。如果把条目内的项组合在一起看成一个字符串,则字符串前缀相同时共享相同的()。A)结点;路径;结点B)结点;路径;路径C)路径;路径;结点D)路径;路径;路径答案:B解析:[单选题]19.算法的核心思想是()逐层构造一个树。A)自上而下B)自下而上C)自左向右D)自右向左答案:A解析:[单选题]20.DPI设备对业务流量的统计维度应与现网计费系统保持一致,通常为用户实际发送和接收的报文的()层及以上部分。A)二B)三C)四D)五答案:B解析:[单选题]21.Zookeeper是Hadoop和()的重要组件A)HiveB)HBASEC)MapReduceD)HDFS答案:B解析:[单选题]22.苹果的FaceID基于3D结构光技术,硬件上不需要()A)点发射器B)红外发射器C)红外摄像头D)数据线答案:D解析:[单选题]23.人工智能是一种()A)让人觉得不可思议的计算机程序B)与人类思考方式相似、行为相似的计算机程序C)会学习的计算机程序D)根据对环境的感知,做出合理的行动,并获得最大收益的计算机程序答案:D解析:[单选题]24.以下影响HTTP速率的因素中哪一个直接与终端相关()A)TCP通告窗口大小B)TCP上行乱序比例C)TCP下行RTTD)TCP下行乱序比例答案:A解析:[单选题]25.以下哪个指标不是家客数据端到端指标A)网页首屏时延B)网页打开成功率C)视频平均播放卡顿次数D)4G占网时长占比答案:D解析:[单选题]26.数据挖掘技术包括三个主要的部分()A)数据、模型、技术B)算法、技术、领域知识C)数据、建模能力、算法与技术D)建模能力、算法与技术、领域知识答案:C解析:[单选题]27.MySQL是()A)操作系统;B)数据库C)聊天软件D)浏览器答案:B解析:[单选题]28.在SQL语言中,子查询是______。A)返回单表中数据子集的查询语句B)嵌入到另一个查询语句之中的查询语句C)选取多表中字段子集的查询语句D)选取单表中字段子集的查询语句答案:B解析:[单选题]29.在OLAP的基本操作中,在给定的数据立方体的两个或更多个维上进行选择操作得到一个子立方体,这个操作称为()A)切块B)转轴C)上卷D)下钻答案:A解析:[单选题]30.下列代码作用为()Net_in=np.array([0,0,-1])Out_in=np.array([0,0,0,0,-1])A)输出层权值变化量B)中间层权值变化量C)中间层神经元输入和输出层神经元输入D)输出连接权值和阈值答案:C解析:[单选题]31.获取网络上某个URL对应的图片或视频等二进制资源,应该采用Response类的哪个属性?A)status_codeB)headC)textD)content答案:D解析:题型:[单选题]32.决策树算法很容易出现过拟合,我们通常会使用一些剪枝手段来改善这一现象。对于Sklearn.tree.DecisionTreeClassifier模型,下面这些参数哪个不能起到剪枝的作用()A)criterionB)max_depthC)min_samples_splitD)min_impurity_split答案:A解析:[单选题]33.对于人工智能认知错误的是()A)人工智能应该是人类用来改造世界的技术手段,是辅助性的工具,而不是对人类进行了替代B)目前人工智能还处于初级阶段,算是弱人工智能,AI技术还是离不开大数据C)人工智能在计算方面,超过人类。在部分感识方面,可与人类相媲美。但在认知方面,人工智能还处于几乎空白阶段,而这恰恰是我们人类的最大优势D)人工智能会毁灭人类答案:D解析:[单选题]34.下列不属于原始数据来源的是()A)行政记录B)统计调查C)统计年鉴D)实验答案:C解析:[单选题]35.根据高斯朴素贝叶斯计算后验概览比值,确定每个数据点可能性最大的标签,可以采用哪个评估器A)sklearn.naive_bayes.GaussianNBB)sklearn.naive_bayes.GaussianC)sklearn.naive_bayes.Predict_probaD)sklearn.naive_bayes.Predict_Set答案:A解析:[单选题]36.人们购买制冷用空调主要是为了在夏天获得凉爽空气,这属于空调产品整体概念中的()A)有形产品B)直接产品C)核心产品D)主要产品答案:C解析:[单选题]37.自有业务质量监测的集中性能落地手册中,通过横向对比等定界方法实现故障定界首先进行排查的是A)SP问题B)核心网问题C)TAC问题D)无线问题答案:C解析:[单选题]38.主成分分析方法PCA属于属于python中的哪个包()。A)sklearnB)numpyC)pandasD)scipy答案:A解析:[单选题]39.下列关于数据规范化说法错误的是()。A)数据规范化是为了给重要的属性赋予更大的权重B)数据规范化又称为数据标准化C)数据规范化是将属性的取值范围统一D)数据规范化是为了避免不同属性的不平等地位答案:A解析:[单选题]40.下列关于聚类挖掘技术的说法中,错误的是()A)不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别B)要求同类数据的内容相似度尽可能C)要求不同类数据的内容相似度尽可能D)与分类挖掘技术相似的是,都是要对数据进行分类处理答案:B解析:[单选题]41.在集团公司四维十轮网络质量评估体系中,下列哪项不是评估家庭业务感知的指标:A)家宽网页打开成功率(%)B)139邮箱web登录成功率(%)C)家宽网页平均首屏时延(s)D)家宽视频首帧显示时长(s)答案:B解析:[单选题]42.下列四项中,不属于数据库特点的是()A)数据共享B)数据完整性C)数据冗余很高D)数据独立性高答案:C解析:[单选题]43.()是在贝叶斯算法的基础上进行了相应的简化,即假定给定目标值时属性之间相互条件独立A)贝叶斯定理B)贝叶斯统计C)朴素贝叶斯方法D)贝叶斯分类器答案:C解析:[单选题]44.大数据特征错误的是()。A)容量大;B)类型多C)价值高D)系统多答案:D解析:[单选题]45.在集团公司四维十轮网络质量评估体系中,下列哪项不是评估移动业务感知的指标:A)重点保障场景VoLTE接通率(%)B)4G客户网络质量满意度C)HTTP下载速率(Mbps)D)家庭宽带网络质量满意度答案:D解析:[单选题]46.VOLTE的语音静默期是()A)20msB)80msC)160msD)40ms答案:C解析:[单选题]47.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()A)1,2,3,4B)1,2,3,5C)1,2,4,5D)1,3,4,5答案:C解析:[单选题]48.列表对象的sort()方法用来对列表元素进行原地排序,该函数返回值为()A)errorB)1C)0D)None答案:D解析:[单选题]49.()是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。A)边界点B)质心C)离群点D)核心点答案:C解析:[单选题]50.以下关于IMEI的说法错误的是A)IMEI为TAC+SNR+FAC+SPB)双卡双待手机会有两个IMEIC)IMEI码具有唯一性,贴在手机背面的标志上,并且读写于手机内存中。它也是该手机在厂家的?档案?和?身份证号?。D)当手机被盗的时候,如知道IMEI码,可以通过手机供应商进行手机锁定答案:A解析:[单选题]51.以下是哪一个聚类算法的算法流程:①构造k-最近邻图。②使用多层图划分算法划分图。③repeat:合并关于相对互连性和相对接近性而言,最好地保持簇的自相似性的簇。④until:不再有可以合并的簇。()。A)MSTB)OPOSSUMC)ChameleonD)Jarvis-Patrick(JP)答案:C解析:第2部分:多项选择题,共17题,每题至少两个正确答案,多选或少选均不得分。[多选题]52.利用中文文本绘制词云时,需要在anaoncda的基础上安装哪些工具包()。A)MatplotlibB)WordcloudC)Scikit-learnD)Jieba答案:BD解析:[多选题]53.影响基本K-均值算法的主要因素包括()A)初始类中心的选取B)样本相似性的度量C)样本输入顺序D)K值的设定答案:ABD解析:[多选题]54.Hadoop的核心配置是什么?A)Hadoop的核心配置通过修改配置文件来完成B)hadoop-default.xmlC)hadoop-site.xmlD)hadoop-env.sh(启动环境变量)答案:ABC解析:[多选题]55.关于Python内存管理,下列说法正确的是()A)变量不必事先声明B)变量无须先创建和赋值而直接使用C)变量无须指定类型D)可以使用del释放资源答案:ACD解析:[多选题]56.下面那个TCP/IP传输层协议提供了端到端面向事务的高效连接服务A)IPB)TCPC)UDPD)ICMP答案:ABD解析:[多选题]57.如果自变量有连续型变量,则适用的分类预测方法有()A)逻辑回归B)神经网络C)SVM算法D)C4.5算法答案:ABC解析:[多选题]58.下列哪些指标用于评估回归模型()A)R2B)F1C)MSED)MAE答案:ACD解析:[多选题]59.缺失值的处理方法有哪些?()A)用平均值填充B)忽略缺失记录C)以任意数据填充D)用默认值填充答案:ABD解析:[多选题]60.决策树算法很容易出现过拟合,我们通常会使用一些剪枝手段来改善这一现象。对于sklearn.tree.DecisionTreeClassifier模型,下面这些参数哪些能起到剪枝的作用()A)criterionB)max_depthC)min_samples_splitD)min_impurity_split答案:BCD解析:[多选题]61.以下哪些指标为行为偏好维度指标A)paging成功率B)TCP二三次握手时延C)应用下载业务流量D)游戏业务流量答案:CD解析:[多选题]62.C4.5克服了ID3的哪两个缺点()A)不能直接使用信息增益B)只能使用增益率选择最优分支标准C)不能处理连续属性D)用信息增益选择属性时偏向于选择分枝比较多的属性值答案:CD解析:[多选题]63.下面哪些网元会产生CDR话单?()A)MMEB)PGWC)SGWD)GGSN答案:BCD解析:[多选题]64.促销预算的方法主要有()。A)量入为出法B)竞争对等法C)销售比例法D)目标任务法答案:ABCD解析:[多选题]65.大数据指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到()成为帮助企业经营决策更积极目的的信息A)撷取B)管理C)处理D)整理答案:ABCD解析:[多选题]66.Web内容挖掘实现技术()A)文本总结B)文本分类C)文本聚类D)关联规则答案:ABCD解析:[多选题]67.数据挖掘工具R语言,其核心计算模块采用什么语言编写A)CB)C++C)FortranD)Python答案:ABC解析:[多选题]68.某种产品的生产总费用2003年为50万元,比2002年多2万元,而单位产品成本2003年比2002年降低5%,则()A)生产费用总指数为104.17%B)生产费用指数为108.56%C)单位成本指数为95%D)产量指数为109.65%E)由于成本降低而节约的生产费用为2.63万元答案:ACDE解析:第3部分:判断题,共20题,请判断题目是否正确。[判断题]69.随机森林中的每棵树都不进行剪枝,因此过拟合的风险很高。A)正确B)错误答案:错解析:[判断题]70.对于大量列表的连接,extend()方法比运算符+具有更高的效率。A)正确B)错误答案:对解析:[判断题]71.数据规范化指将数据按比例缩放(如更换大单位),使之落入一个特定的区域(如0-1)以提高数据挖掘效率的方法。规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化。()A)正确B)错误答案:对解析:[判断题]72.购买了此商品后还会购买的商品,它们的地位是平等的,其中涉及了时间和顺序的概念,强调的是一个规则,也就是我们所说的关联规则。A)正确B)错误答案:错解析:[判断题]73.逐层发现算法Apriori发现频繁项集的过程是按照项集的长度由大到小逐级进行的。A)正确B)错误答案:错解析:[判断题]74.分类预测时,准确率和召回率存在矛盾关系,不能同时增大,所以要考虑他们的综合影响,即F1-Score。A)正确B)错误答案:错解析:[判断题]75.个人信息去标识化,是指个人信息经过处理,使其在不借助额外信息的情况下无法识别特定自然人的过程。A)正确B)错误答案:对解析:[判断题]76.在Python中,任意长的字符串都遵守驻留机制。A)正确B)错误答案:错解析:[判断题]77.DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。()A)正确B)错误答案:对解析:[判断题]78.标准差越小,表示离散程度越小,风险越大;反之离散程度越大,风险越小。A)正确B)错误答案:错解析:[判断题]79.序数类属性值有大小或前后关系,可进行大于或小于的比较运算A)正确B)错误答案:对解析:[判断题]80.描述离散程度的统计量一般有方差、标准差和极差等。A)正确B)错误答案:对解析:[判断题]81.数据可视化可以便于人们对数据的理解。()A)正确B)错误答案:对解析:[判断题]82.在多元线性回归模型中,变量显著性检验与方程显著性检验都要进行,不能相互替代。A)正确B)错误答案:对解析:[判断题]83.同一个列表对象中的元素类型可以各不相同。A)正确B)错误答案:对解析:[判断题]84.商业智能系统与一般交易系统之间在系统设计上的主要区别在于:后者把结构强加于商务之上,一旦系统设计完毕,其程序和规则不会轻易改变;而前者则是一个学习型系统,能自动适应商务不断变化的要求。A)正确B)错误答案:对解析:[判断题]85.可视化技术对于分析的数据类型通常不是专用性的。A)正确B)错误答案:错解析:[判断题]86.在网络爬虫的系统框架中,主过程由控制器,解析器,资源库三部分组成。A)正确B)错误答案:对解析:[判断题]87.人的血型属于标称属性。()A)正确B)错误答案:对解析:[判断题]88.分类模型的测试集没有类标号。()A
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年预制菜自动化生产技术突破创新报告
- 2026年粮食安全宣传教育基地创建问答
- 2026年街道未成年人交通安全知识测试
- 2026年入学测试试题及答案
- 2026年大中型灌区管理单位负责人能力测试题
- 《做好自我管理》教案-2025-2026学年川教版(新教材)小学信息技术三年级下册
- 2026年音乐鉴赏与音乐创作基础知识题
- DB3410-T 48-2024 鲜食黑糯玉米罐头加工技术规程
- 二年级上册综合实践活动蒙沪版活动三《节气习俗知多少》教案
- 临床执业医师历年试题考点纵览医学微生物学
- 雨课堂学堂在线学堂云国际学术交流英语吉林大学单元测试考核答案
- 雨课堂学堂在线学堂云《工程伦理与学术道德(电科大)》单元测试考核答案
- 安全环保法律法规培训
- 工贸行业安全监管课件
- 《桥涵施工技术》课件 学习任务十 涵洞施工
- 甲状旁腺功能亢进症教案
- 【低空经济】AI无人机空管系统设计方案
- 重难点22 立体几何中的外接球、内切球问题(举一反三专项训练)(全国通.用)(解析版)-2026年高考数学一轮复习举一反三系列
- 2025年钻孔施工报告
- 入党党章考试试题及答案
- 殡葬改革政策解读
评论
0/150
提交评论