大数据统计知识竞赛试卷(附答案)

上传人：1*** IP属地：四川上传时间：2026-04-21 格式：DOCX 页数：18 大小：46.71KB 积分：12 举报 版权申诉

已阅读5页，还剩13页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据统计知识竞赛试卷(附答案)一、单项选择题（每题2分，共20分）1.关于数据仓库的特征，下列描述错误的是（）。A.面向主题B.集成性C.相对稳定D.反映当前最新状态2.在假设检验中，用于衡量样本数据与原假设之间差异程度的统计量是（）。A.置信区间B.P值C.点估计D.标准误差3.以下哪种算法不属于无监督学习？（）A.K-means聚类B.主成分分析（PCA）C.线性回归D.关联规则挖掘（Apriori）4.关于Hadoop分布式文件系统（HDFS）的描述，正确的是（）。A.适合低延迟的数据访问B.采用主从（Master/Slave）架构C.默认将文件分割成可变大小的数据块D.数据写入后不可修改，只能追加或重写5.在统计学中，一组数据中出现次数最多的数值称为（）。A.平均数B.中位数C.众数D.四分位数6.下列关于MapReduce编程模型的描述，不正确的是（）。A.Map阶段对输入数据进行处理，输出键值对B.Reduce阶段对Map输出的中间结果进行汇总C.Shuffle过程负责将Map输出的数据按照键进行排序和分区D.一个MapReduce作业只能包含一个Map任务和一个Reduce任务7.用于度量分类模型性能，计算为（真正例+真负例）/总样本数的指标是（）。A.精确率B.召回率C.F1分数D.准确率8.在时间序列分析中，用于描述数据长期变化趋势的组成部分是（）。A.趋势成分B.季节成分C.循环成分D.不规则成分9.关于大数据的4V特征，不包括（）。A.体量（Volume）B.速度（Velocity）C.价值（Value）D.可视化（Visualization）10.在数据库设计中，第三范式（3NF）要求消除（）。A.非主属性对主键的部分函数依赖B.非主属性对主键的传递函数依赖C.主属性对主键的部分函数依赖D.多值依赖二、多项选择题（每题3分，共15分。全部选对得满分，少选得部分分，错选不得分）1.下列属于数据预处理常用技术的有（）。A.数据清洗B.数据集成C.数据归约D.数据变换E.数据脱敏2.关于随机森林算法，以下说法正确的有（）。A.它是一种集成学习算法B.基学习器通常是决策树C.训练时，每棵树使用全部训练样本和全部特征D.通过投票或平均的方式产生最终预测结果E.对异常值和噪声不敏感3.下列哪些是常用的数据可视化图形？（）A.散点图B.直方图C.箱线图D.热力图E.桑基图4.在A/B测试中，为了确保结果的可靠性，需要关注（）。A.样本量的充足性B.流量分配的随机性C.测试周期的合理性D.只关注均值变化，忽略分布变化E.避免同时进行多个改动5.关于SQL窗口函数，以下描述正确的有（）。A.OVER子句用于定义窗口B.ROW_NUMBER()可以为分区内的行分配唯一的序号C.RANK()函数在遇到相同值时会产生间隔的序号D.LAG()函数可以访问当前行之前行的数据E.窗口函数会改变结果集的行数三、判断题（每题1分，共10分）1.大数据处理中，批处理和流处理是两种完全独立、互不兼容的处理模式。（）2.相关系数为0意味着两个变量之间不存在任何关系。（）3.主成分分析（PCA）是一种有监督的降维方法。（）4.在Hive中执行查询，其底层一定会触发MapReduce任务。（）5.精确率（Precision）和召回率（Recall）是一对相互矛盾的指标，通常此消彼长。（）6.数据湖存储原始格式的数据，而数据仓库存储经过清洗和结构化的数据。（）7.决策树算法中，信息增益比（增益率）可以完全解决信息增益对可取值数目多的属性有所偏好的问题。（）8.在分布式计算中，CAP理论指出，一个系统无法同时保证一致性、可用性和分区容错性。（）9.标准差是方差的算术平方根，用于衡量数据的离散程度。（）10.NoSQL数据库中的“NotOnlySQL”意味着它完全不能使用SQL语言进行操作。（）四、填空题（每空1分，共15分）1.在大数据生态中，________是一个基于内存计算的通用并行计算框架，速度比HadoopMapReduce快很多。2.统计学中，描述数据分布形态陡缓程度的指标是________。3.在关联规则挖掘中，规则“如果购买A，则购买B”的支持度计算公式是________。4.数据挖掘的经典流程模型CRISP-DM代表跨行业数据挖掘标准流程，其六个阶段分别是商业理解、________、数据准备、建模、评估和________。5.假设随机变量X服从均值为μ，标准差为σ的正态分布，则其概率密度函数为f(x)=________。6.在机器学习中，为了防止模型过拟合，可以在损失函数中增加________项，如L1正则化或L2正则化。7.Kafka是一种高吞吐量的分布式________系统，常用于构建实时数据管道和流式应用。8.数据库事务的ACID特性是指原子性、________、隔离性和持久性。9.在抽样调查中，由于样本的随机性导致的样本统计量与总体参数之间的差异称为________误差。10.数据治理的核心领域包括数据质量、________、数据安全和数据生命周期管理。11.线性回归模型中，用于评估模型拟合优度的统计量R²的取值范围是________。12.在Spark中，一个________代表一个不可变的、可分区的数据集合。13.贝叶斯定理公式为：P(A|B)=________。五、简答题（每题5分，共20分）1.简述K-means聚类算法的基本步骤。2.解释在数据分析中“幸存者偏差”的含义，并举例说明。3.简述HDFS的写数据流程。4.什么是数据倾斜？在Spark计算中，常见的数据倾斜解决方法有哪些？六、计算与分析题（每题10分，共20分）1.已知某商品在一周内的日销量（单位：件）数据如下：120,135,118,142,130,125,128。（1）计算该组数据的算术平均数、中位数和样本方差（保留两位小数）。（2）若已知该商品日销量总体服从正态分布，请以95%的置信度估计日销量平均值的置信区间。（已知t_{0.025}(6)=2.447）2.下表是使用某分类模型在测试集（共200个样本）上的混淆矩阵：真实情况\\预测结果预测为正例预测为负例实际为正例80(TP)20(FN)实际为负例30(FP)70(TN)请计算：（1）该模型的准确率（Accuracy）、精确率（Precision）、召回率（Recall）和F1分数（F1-Score）。（2）假设业务场景中，将实际负例误判为正例（即FP）的成本很高，我们更应该关注哪个指标？为什么？答案与解析一、单项选择题1.D数据仓库是面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。它并非反映当前最新状态，那是操作型数据库的特点。2.BP值是在原假设为真的前提下，出现当前样本或更极端样本的概率。P值越小，拒绝原假设的证据越强。3.C线性回归属于有监督学习，它需要利用带有标签（因变量）的数据进行训练。K-means、PCA、Apriori均无需标签，属于无监督学习。4.BHDFS采用主从（Master/Slave）架构，包含一个NameNode（主节点）和多个DataNode（从节点）。A错误，HDFS适合高吞吐量数据访问，而非低延迟。C错误，HDFS将文件分割成固定大小的数据块（默认128MB）。D描述的是HDFS早期版本的“一次写入，多次读取”特性，但现代HDFS已支持文件追加。5.C众数是一组数据中出现次数最多的数值。6.D一个MapReduce作业可以包含多个Map任务和多个Reduce任务，数量由输入数据量和用户配置决定。7.D准确率（Accuracy）是分类正确的样本数占总样本数的比例，即(TP+TN)/(TP+TN+FP+FN)。8.A趋势成分（Trend）反映了时间序列数据在较长时期内的持续上升、下降或平稳的总体方向。9.D大数据的4V特征通常指：体量（Volume）、速度（Velocity）、多样性（Variety）、价值（Value）。可视化（Visualization）是处理和分析大数据的重要手段，但不属于其定义性特征。10.B第二范式（2NF）要求消除非主属性对主键的部分函数依赖。第三范式（3NF）在2NF基础上，要求消除非主属性对主键的传递函数依赖。二、多项选择题1.ABCDE所有选项均为数据预处理的常用技术。数据脱敏是数据变换的一种，特别用于隐私保护。2.ABDA、B、D正确。C错误，随机森林在训练每棵决策树时，使用自助采样法（Bootstrap）从训练集中抽取样本，并且通常随机选取部分特征进行节点分裂。E不完全正确，随机森林对异常值有一定鲁棒性，因为是多棵树的集成，但并非完全不敏感。3.ABCDE所有选项均为常见的数据可视化图形。散点图看关系，直方图和箱线图看分布，热力图看密度或相关矩阵，桑基图看流程或能量流动。4.ABCEA、B、C、E都是保证A/B测试有效性的关键原则。D错误，除了均值，还应关注指标的分布、方差等变化，以避免得出片面结论。5.ABDA、B、D正确。C错误，RANK()在遇到相同值时会产生相同的序号，并跳过后续序号（如1,1,3），产生间隔的是DENSE_RANK()（如1,1,2）。E错误，窗口函数不会改变结果集的行数，它是对每行计算一个基于窗口的值。三、判断题1.错批处理和流处理是两种主要模式，但现代大数据框架（如Spark、Flink）提供了统一的编程模型，可以融合两种处理模式。2.错相关系数为0仅表示两个变量之间不存在线性相关关系，但可能存在非线性关系。3.错PCA是一种无监督的降维方法，它不需要数据的类别标签。4.错Hive查询的底层执行引擎可以是MapReduce，也可以是Tez或Spark。对于简单的查询（如selectfromtablelimit10），Hive可能会采用本地抓取（Fetch）模式，而不触发MapReduce。5.对在模型阈值变化时，提高精确率通常会导致召回率下降，反之亦然，这被称为精确率-召回率权衡。6.对这是数据湖与数据仓库在数据存储状态上的核心区别之一。7.错信息增益比进行了归一化，可以在一定程度上减少对多值属性的偏好，但并非完全解决。C4.5算法使用增益率作为划分标准。8.对这是CAP理论的基本内容，系统至多只能同时满足其中的两个特性。9.对标准差是方差的正平方根，单位与原始数据一致，更常用于衡量离散程度。10.错“NotOnlySQL”意味着非关系型数据库不仅限于SQL，有些NoSQL数据库（如Cassandra的CQL，某些图形数据库）也提供了类SQL的查询语言。四、填空题1.Spark2.峰度3.同时包含A和B的交易数/总交易数或P(A∪B)4.数据理解；部署5.6.正则化7.消息发布-订阅8.一致性（Consistency）9.抽样10.数据架构或元数据管理（数据治理核心领域通常包含多个，此空答案不唯一，符合常规定义即可）11.[0,1]（对于线性回归，R²可能为负，但通常语境下指解释方差的比例，范围为0到1）12.弹性分布式数据集（RDD）13.五、简答题1.K-means聚类算法基本步骤：（1）随机选择K个初始点作为簇中心（质心）。（2）将每个数据点分配到距离其最近的簇中心所在的簇。（3）重新计算每个簇中所有数据点的平均值，将该平均值作为新的簇中心。（4）重复步骤（2）和（3），直到簇中心不再发生显著变化（或达到预设的迭代次数），算法收敛。2.幸存者偏差：指在分析数据时，只关注“幸存”下来的样本，而忽略那些因失败或消失而未被纳入观察的样本，从而导致结论存在偏差。举例：二战时，军方调查返航飞机上的弹孔分布，发现机翼和机身上的弹孔多，而引擎部位的弹孔少。据此最初建议加固弹孔多的部位。但统计学家指出，他们只看到了安全返航的飞机（“幸存者”），那些被击中引擎的飞机很可能已经坠毁，无法被观察到。因此，真正需要加固的恰恰是弹孔看起来少的引擎部位。3.HDFS写数据流程：（1）客户端向NameNode发起写文件请求，NameNode检查权限及文件是否存在。（2）NameNode在元数据中创建文件记录，并返回给客户端一个可写的DataNode列表（通常包含多个副本的存放位置，如默认3副本）。（3）客户端将文件数据分割成数据包（Packet），写入第一个DataNode。第一个DataNode接收数据包后，将其复制到列表中的第二个DataNode，第二个再复制到第三个，形成流水线复制。（4）各个DataNode依次确认数据包接收成功，确认信息沿流水线返回给客户端。（5）所有数据块写入完成后，客户端通知NameNode写入完成，NameNode提交元数据操作。4.数据倾斜：指在分布式计算中，数据被分发到不同计算节点时，由于数据本身分布不均匀，导致某些节点分配到的数据量远大于其他节点，使得这些节点成为计算瓶颈，拖慢整体任务执行速度的现象。Spark常见解决方法：（1）预处理数据源：从源头对倾斜的key进行打散或过滤。（2）提高Shuffle并行度：通过`spark.sql.shuffle.partitions`等参数增加Reduce端任务数，让更多任务分担负载。（3）两阶段聚合（局部聚合+全局聚合）：对倾斜key添加随机前缀，先进行局部聚合，再去掉前缀进行全局聚合。常用于reduceByKey、groupByKey等算子。（4）将倾斜Key单独处理：将倾斜的Key从RDD/DataFrame中拆分出来，形成一个小的RDD单独进行Join或聚合，再与正常数据的处理结果合并。（5）使用广播Join：如果其中一个参与Join的表很小，可以将其广播到所有Executor，避免Shuffle，从而避免因Shuffle引起的数据倾斜。六、计算与分析题1.解：已知数据：120,135,118,142,130,125,128。样本数n=7。（1）计算：算术平均数¯x将数据排序：118,120,125,128,130,135,142。中位数是第4个数，为128（件）。样本方差=。计算离差平方和：(120-128.29)²≈68.66,(135-128.29)²≈45.08,(118-128.29)²≈105.80,(142-128.29)²≈187.96,(130-128.29)²≈2.92,(125-128.29)²≈10.82,(128-128.29)²≈0.08。求和≈421.32。=≈（2）已知置信水平1-α=95%，α=0.05，自由度df=n

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据统计知识竞赛试卷(附答案)

文档简介

温馨提示

最新文档

评论

大数据统计知识竞赛试卷(附答案)

文档简介

温馨提示

最新文档

评论

相关文档