大数据分析与应用智慧树知到期末考试答案2024年

上传人：题*** IP属地：浙江上传时间：2024-03-26 格式：DOCX 页数：12 大小：19.79KB 积分：6 举报 版权申诉

已阅读5页，还剩7页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据分析与应用智慧树知到期末考试答案2024年大数据分析与应用数据挖掘一般无需预先设定好的主题，主要是在现有数据上进行基于各种算法的计算，实现一些（）的需求。

A:高级别数据分析B:高级别数据计算C:高级别数据处理D:高级别数据优化答案:高级别数据分析根据判定系数R2与F统计量的关系可知，当R2=1时有（）。

A:F=∞B:F=0C:F=-1D:F=1答案:F=∞决策树算法是一种贪心算法，是（）的逐次搜索方式，逐渐产生决策树模型结构。（）。

A:由下至上B:由上至下C:由右至左D:由左至右答案:由上至下置信度(confidence)是衡量兴趣度度量（）的指标。

A:新颖性；B:简洁性；C:实用性；D:确定性；答案:确定性；训练数据集中对象的属性分为哪两类？（）。

A:分类属性和类别属性B:数据属性和类别属性C:分化属性和数据属性D:分化属性和分类属性答案:分类属性和类别属性系统性原理是指预测必须以系统的观点为指导，采用哪种方法实现预测的系统目标？()。

A:系统分析；B:回归分析C:相关性分析；D:时间分析；答案:系统分析；大数据分析并不是简单的数据分析的延伸，对大数据进行分析需要高性能的（）。

A:计算架构和存储系统B:计算结构和存储系统C:计算结构和存储库D:计算架构和存储库答案:计算结构和存储库推荐系统的构成有哪些（）。

A:行为记录模块B:推荐算法模块C:其他三个选项均正确D:模型分析模块答案:其他三个选项均正确EM算法的引入是因为概率模型中包含（）。

A:隐变量B:随机变量C:观测变量D:固定值答案:隐变量使用聚类方法确定最相似用户群的时候，使用离目标用户（）一类用户的中心处的打分。

A:最远B:不近不远C:最近D:其他三个选项都不正确答案:最近预测的基本要素不包括以下哪点？（）。

A:预测结果B:发展趋势C:预测者D:预测方法和技术答案:发展趋势基于产品的协同过滤需要回答（）。

A:其他三个选项均正确B:如何预测某一用户对某一产品的打分；C:如何计算产品之间的相似性D:如何选择每个产品的最相似产品答案:其他三个选项均正确发展系数a的有效区间为？（）。

A:（-1，1）B:（-4，4）C:（-3，3）D:（-2，2）答案:（-2，2）模型的作用是（），以适于用户使用的方式重新组织和展现。

A:从数据中找到知识B:从数据中找到信息C:从知识中找到数据D:从信息中找到数据答案:从数据中找到知识推荐是（）决策的一种手段。

A:辅助B:控制C:其他三个选项均正确D:主导答案:辅助下列关于文本分析的说法错误的是（）。

A:词频是指某一个给定的词语在文本中出现的次数B:无监督关键词提取方法将关键词提取视为分类过程C:关键词提取算法主要有无监督关键词提取方法和有监督关键词提取算法D:分词能够通过某种方式将句子中的各个词语识别并分离答案:无监督关键词提取方法将关键词提取视为分类过程常用的文本特征选取方式有（）。

A:其他三个选项均正确B:根据专家的知识挑选出最有影响的特征C:从原始特征中挑选出一些具有代表性的特征D:用数学的方法进行选取答案:其他三个选项均正确下列属于格式内容清洗的是？（）

A:修正矛盾内容B:非法字符检测C:去重D:去掉不合理值答案:非法字符检测以下哪种属于系统抽样？（）

A:在100个人中选取第2、12....92人B:从总体的N个样本中抽取n个C:在饮料口味改变调查中多选取常购买的人D:调查近视眼从一个班级中抽样答案:在100个人中选取第2、12....92人以下关于聚类分析的陈述，哪些是正确的（）。

A:进行聚类分析的变量应该进行标准化处理B:进行聚类分析的统计数据有关于类的变量C:递推公式有利于运算速度的提高D:不同的类间距会产生不同的递推公式答案:进行聚类分析的统计数据有关于类的变量###不同的类间距会产生不同的递推公式###递推公式有利于运算速度的提高预测方法选择原则（）。

A:从经济、时间与适用性的角度选择预测方法B:根据预测结果的准确程度选择预测方法C:根据预测对象资料的特征和规律选择预测方法D:根据预测目标的要求选择预测方法答案:根据预测目标的要求选择预测方法###根据预测对象资料的特征和规律选择预测方法###根据预测结果的准确程度选择预测方法###从经济、时间与适用性的角度选择预测方法常见的权重组合的方法有（）。

A:综合加权B:IR_IC加权C:IC均值加权D:等权加权答案:等权加权###IC均值加权###IR_IC加权常用的决策树算法有？（）

A:CARTB:HuntC:ID3D:C4.5答案:C4.5###CART###Hunt###ID3Aprior算法的关键步骤是（）

A:剪接步；B:中和步；C:减枝步；D:连接步；答案:连接步###减枝步以下哪些属于非结构化数据（）。

A:音频B:视频C:文本D:图像答案:图像###文本###视频###音频K-means聚类法的局限性体现在（）。

A:K-means聚类法对变量的要求也比较高B:由K-means聚类法得到的聚类结果，轮廓系数都不是很大C:K-means聚类法对噪声和离群点敏感D:应用K-means聚类法需要预先直到聚类个数答案:K-means聚类法对噪声和离群点敏感###K-means聚类法对变量的要求也比较高###应用K-means聚类法需要预先直到聚类个数在DBSCAN算法中，数据点分为哪几类（）。

A:边界点B:核心样本C:核心点D:噪音点答案:核心点###边界点###噪音点经典的计算用户相似度可以用（）方法。

A:其他三个选项均不正确B:皮尔逊相关度C:调整余弦相似性D:余弦相似性答案:皮尔逊相关度###余弦相似性###调整余弦相似性属于度量的类型的有（）。

A:不可加性度量B:不确定性度量C:半可加性度量D:可加性度量答案:可加性度量###半可加性度量###不可加性度量###不确定性度量假设线性回归模型满足全部基本假设，则其参数的估计量具备（）。

A:无偏性B:有效性C:可靠性D:线性答案:无偏性###有效性###线性logistic回归适用于因变量为（）。

A:多分类无序变量B:多分类有序变量C:连续型定量变量D:二分类变量答案:分类变量对样本进行聚类，通常采用的相似性统计量（）。

A:绝对距离B:欧式距离C:切比雪夫距离D:夹角余弦答案:切比雪夫距离###欧式距离###绝对距离回归分析中估计回归参数的方法主要有（）。

A:极大似然法B:相关系数法C:最小二乘估计法D:矩估计法答案:最小二乘估计###极大似然法###矩估计法以下哪几项属于分词的方法（）。

A:横向最大匹配法B:双向最大匹配法C:逆向最大匹配法D:正向最大匹配法答案:双向最大匹配法###正向最大匹配法###逆向最大匹配法数据缺失值填充方法？（）

A:预测填充B:统计填充C:统一填充D:删除答案:删除;统计填充;统一填充;预测填充推荐系统可以（）角度评估。

A:用户满意度B:多样性C:新颖性D:惊喜度答案:多样性###新颖性###用户满意度###惊喜度数据可视化根据数据类型可以分为（）。

A:多维数据可视化B:文本可视化C:时空数据可视化D:网络可视化答案:多维数据可视化###文本可视化###时空数据可视化###网络可视化数据标准化与归一化方法？（）

A:反正切函数B:log函数转换C:0-1标准化D:Z-score标准化答案:0-1标准化###Z-score标准化###log函数转换###反正切函数依据分析的数据类型，可将大数据分析模型分为（）。

A:面向非结构化文本数据的多元分析B:面向结构化多维数据的多元分析C:面向半结构化图数据的图分析D:面向非结构化文本数据的文本分析答案:面向结构化多维数据的多元分析###面向半结构化图数据的图分析###面向非结构化文本数据的文本分析灰色预测的数据是通过生成数据的模型所得到的预测值的逆处理结果（）。

A:对B:错答案:对EM算法一定收敛。（）

A:对B:错答案:错用户喜好矩阵的两个维度分别是用户维度和产品维度。（）。

A:错B:对答案:对对于项集来说，置信度没有意义。（）

A:对B:错答案:对数据集市包含的数据量比较多。（）

A:对B:错答案:错词嵌入方法使用低维、稠密、实值的词向量来表示每一个词，从而赋予词语丰富的语义含义，并使得计算词语相关度成为可能。（）

A:对B:错答案:对传统数据分析建模方法与大数据分析建模方法是对立的。（）

A:对B:错答案:错剩余变差，是未被回归直线解释的部分，是由解释变量以外的因素造成的。（）

A:错B:对答案:对计量经济模型中的被解释变量一定是，内生变量。（）

A:错B:对答案:对分类分析是指在已知研究对象已经分为若干类的情况下，确定新的对象属于哪一类。（）

A:错B:对答案:对概率推断原理是指当被推断的结果能以较大的概率出现时，则认为该结果成立。（）。

A:对B:错答案:对为评论者打分目的是根据指定的人员对每个人进行打分，找出最接近的匹配结果。（）。

A:错B:对答案:对K-Medoids是对K-means聚类算法的优化，因此比K-means聚类法应用更为广泛。（）

A:错B:对答案:错轮廓系数的值越趋近于1则代表紧密度和分离度都相对较优，即聚类效果越好。（）

A:错B:对答案:对Apriori算法是一种典型的关联规则挖掘算法。（）

A:错误B:正确答案:正确欧几里德距离通过判断两组数据与某一直线拟合程度来判断相似度。（）。

A:错B:对答案:错在大数据分析中，想要从文本中获取信息首先要将其转换为结构化的数据。（）

A:错B:对答案:对FP-Growth算法的优点是算法步骤的时间比较长。（）

A:错B:对答案:错密度可达是不具有传递性的。（）

A:错B:对答案:错先进行数据清洗，再进行数据仓库数据模型的优化。（）

A:对B:错答案:错以下SQL语句中，获取平均值的是?（）

A:selectSUM(price)fromAB:selectMIN(price)fromAC:selectMAX(price)fromAD:selectAVG(price)fromA答案:selectAVG(price)fromA开源大数据平台Hadoop体系，系列哪一组件可以进行实时数据处理?（）

A:MapReduce程序B:SqoopC:HiveD:Spark答案:Spark下列日常工作场景，哪些适用于阿里云BI报表平台QuickBI?（）

A:数据权限行级管控，实现同一份报表，不同的人看不同的数据B:非结构化数据的表报分析需求C:数据获取简单，业务人员分析各维度的数据不再需要频繁找技术写SQL取数D:与内部系统集成，统一数据入口，解决员工使用多系统的麻烦，提高查看数据的效率。E:适应多变的业务需求，解决统计指标经常随业务发展而频繁变动，负担重，响应慢等问题答案:!用二维表来表示实体及实体之间联系的数据模型称为（）

A:网状模型B:层次模型C:实体联系模型D:关系模型答案:关系模型下列不适用于大数据应用场景的是?（）

A:通过数据库上云，加快交易数据的增删改查速度B:通过数据大屏实时展现数据C:通过搭建数据仓库，实现传统的数据分析D:通过智能算法，实现语音、图像、文本分析处理等答案:通过数据库上云，加快交易数据的增删改查速度下列关于舍恩伯格对大数据特点的说法中,错误的是（）.

A:体量巨大B:种类繁多C:变化速度快D:价值密度高答案:价值密度高大数据存储的关键技术是分布式存储与访问，以下关于数据存储不正确的是?（）

A:列式存储按列存放，只读取查询到的列，能有效减少10消耗;B:列式存储不适合更新和删除的实时操作。C:传统的关系型数据库采用行存储，分布式数据库大多采用列式存储;D:列式存储通过建立索引，来降低查询响应时间;答案:列式存储通过建立索引，来降低查询响应时间下列属于数据操纵语言的是（）分值5分

A:SELECTB:INSERTC:UPDATED:DELETE答案:UPDATE###INSERT###DELETE开源大数据体系下，HBase组件的特点有以下哪几项?（）

A:可以支撑实时或批量数据更新B:丰富的数据类型C:更新后旧版本任然会保留D:可以支撑高并发KV查询场景答案:可以支撑实时或批量数据更新###可以支撑高并发KV查询场景###更新后旧版本任然会保留orderby子句只能通过指定列名的值进行排序分值5分（）

A:正确B:错误答案:错出现在查询的select列表中的每一列都必须同时出现在groupby子句中。（）

A:错误B:正确答案:正确大数据存储采用分布式存储技术，所以要求每个节点的存储磁盘高性能（）

A:错B:对答案:错大数据平台HBase支持简单的增删改查。（）

A:正确B:错误答案:正确在MaxcomputeSQL使用动态分区生成数据时，动态生成的成分区值不可以为NULL。（）

A:正确B:错误答案:正确MaxComputeSQL支持事务、主外键约束、索引等分值5分（）

A:正确B:错误答案:错Spark运算比Hadoop的MapReduce框架快，原因是Hadoop在一次MapReduce运算之后，会将数据的运算结果从内存写入磁盘中，第二次MapReduce运算时在从磁盘中读取数据，所以其瓶颈在2次运算间的多余I0消耗。Spark则是将数据一直缓存在内存中，直到计算得到最后的结果，再将结果写入到磁盘，所以多次运算的情况下，Spark是比较快的。（）

A:正确B:错误答案:正确大数据关键技术包含数据采集、数据预处理、数据存储、数据挖掘、数据分析与可视化、数据安全等。（）

A:正确B:错误答案:正确大数据平台HBase只支持字符串数据类型。（）

A:正确B:错误答案:正确数据可视化的目的是为了尽可能多的发现问题并得出“不良结论"，这样才能体现数据分析的价值。（）

A:错误B:正确答案:错误在创建数据库时数据库名称最长可以（）字符

A:128B:256C:64D:1024答案:AI参考:在创建数据库时，数据库名称的最长字符数通常取决于所使用的数据库管理系统（DBMS）。在大多数情况下，数据库名称的最大长度为255个字符。因此，正确选项是B:256。'开源大数据平台Hadoop体系，HBase组件的分布式存储最小单元是什么?（）

A:CloumnFamilyB:CellC:RegionD:Table,答案:AI参考:在开源大数据平台Hadoop体系中，HBase组件的分布式存储最小单元是Cell。Cell是HBase的基本存储单位，代表了存储在数据库中的数据的最小单元，它包含了数据、时间戳以及相关元数据。因此，答案为B：Cell。'在se-score表中查询存在成绩为空的学生的学号和课程号，以下逻辑可以实现的是?（）

A:selectstudentno.coursenofromse-cuursewherescoreisnoll:B:selectstudentno,coursenofromse-cuursewherescore=null;C:selectstudentno,coursenofromse-cursewherescore=/N;D:selectstudentno,coursenofromsecuursewherescore=",答案:AI参考:正确答案是选项D：\n\nselectstudentno,coursenofromse-cursewherescore="，"\n\n在SQL查询中，要查询存在成绩为空的学生的学号和课程号，需要使用条件语句来筛选出成绩为空的数据。选项D中的查询语句使用了“score="，"”作为条件，表示成绩字段值为空字符串，即成绩为空的情况。其他选项中的语法错误或逻辑不正确，无法实现所需的功能。因此，选项D是正确答案。'目前最多支持指定（）张小表，所以小表占用的内存总和不得超过（）MB。

A:4,640B:6,640.C:12,1024D:8,640答案:AI参考:正确答案是：B:6，640。\n系统支持最大连接数一般与系统硬件有关，比如内存大小，磁盘大小等，如果按照目前技术发展水平来看，一个系统最大支持1000个左右小表连接，同时需要支持每个小表不超过25MB的内存，则最大支持6640个左右小表，总内存不超过6MB。故答案为B。'创建数据库、表应该使用数据那种语言?（）

A:DCLB:DDLC:TCLD:DML答案:AI参考:正确答案是B：DDL（数据定义语言）。\n\n创建数据库、表等操作属于数据定义语言（DDL）的范畴，用于定义和描述数据库中的数据结构。选项A、C、D分别代表数据控制语言（DCL）、命令行界面语言（TCL）和数据操纵语言（DML），与创建数据库、表的操作不相关。因此，创建数据库、表应该使用DDL语言。'MaxCompute将SQL语句的关键字作为保留字。在对表、列或是分区命名时如若使用关键字，需给关键字加符号进行转义，否则会报错。下列哪一项不属于保留字?（）

A:FULLB:TESTC:IFD:IS答案:AI参考:答案：B:TEST。\n\n解释：在MaxCompute中，关键字包括FULL、IF、IS等，而TEST不属于这些关键字，因此在对表、列或是分区命名时不需要对TEST进行转义。所以选项B不属于保留字。'位运算符不支持隐式转换，只允许那种数据类型。（）

A:BooleanB:DecimalC:DoubleD:BIGNT答案:AI参考:在位运算符中，不支持隐式转换，只允许对两种数据类型进行运算，它们是：Boolean、Byte、Short、Int、Long。因此，选项A：Boolean是正确答案。位运算符只能用于Boolean、Byte、Short、Int、Long这几种数据类型，而不支持Decimal、Double或BIGNT等其他数据类型。'据清洗的方法不包括下列哪一项?（）

A:一致性检查B:重复数据记录处理C:噪声数据清除D:缺失处理答案:AI参考:正确答案是A：一致性检查。\n\n清洗方法包括重复数据记录处理、噪声数据清除、缺失处理等，而一致性检查属于数据预处理中的一部分，不属于清洗方法。因此，本题答案为A。'显示数据转换cast(1.65asbigINT)的结果为?（）

A:1.7B:2C:1D:1.6答案:AI参考:正确选项为B:2。\n\n在SQL中，cast函数用于将一种数据类型转换为另一种数据类型。在这个例子中，我们将浮点数1.65转换为bigINT类型。由于bigINT类型的范围大于浮点数类型，所以这个转换会导致数值被截断，只保留整数部分，因此结果为2。'以下SQL函数中属于聚合函数的是?（）

A:RANDB:ABSC:STDDEVD:EXTRACT答案:AI参考:正确答案是C:STDDEV。\n\n聚合函数是SQL中用于对一组值进行统计和计算的一组函数，如COUNT、SUM、AVG、MAX、MIN、GROUP_CONCAT等。其中，STDDEV是标准差聚合函数，用于计算一组数值的离散程度。而ABS是绝对值函数，RAND是随机数函数，EXTRACT是日期时间函数，它们都不是聚合函数。因此，本题答案为C。'2020年天猫双十一成交额4982亿元，最高峰值订单54.4万笔/秒，单日处理数据量达到970PB。这一现象体现了大数据什么特征?（）

A:数据量大B:处理速度快C:数据种类多D:价值密度低答案:AI参考:这一现象体现了大数据的特征是处理速度快。因为题目中提到了在短时间内产生了大量的数据，并且需要快速地处理这些数据，以应对峰值订单和单日处理数据量的需求。而数据量大、数据种类多和价值密度低并不是这一现象所体现的特征。因此，正确答案是B：处理速度快。'开发工程师需要求数据3.256的平方根，下列函数中可以实现求取非负数平方根的是?（）

A:EXPB:POWC:SQRTD:DIV答案:AI参考:正确选项是C:SQRT\n\n开发工程师需要求取3.256的平方根，也就是要求非负数的平方根。在Python中，可以使用内置函数`math.sqrt()`来实现这个功能。选项A、B、D都不是求平方根的函数，只有选项C的`math.sqrt()`函数可以求取非负数的平方根。'MaxCompute的SQL语言有以下三大类（）

A:DMLB:DQLC:TCL

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据分析与应用智慧树知到期末考试答案2024年

文档简介

温馨提示

最新文档

评论

相关文档