2025江苏徐州市泉山数据有限公司招聘笔试历年典型考点题库附带答案详解_第1页
2025江苏徐州市泉山数据有限公司招聘笔试历年典型考点题库附带答案详解_第2页
2025江苏徐州市泉山数据有限公司招聘笔试历年典型考点题库附带答案详解_第3页
2025江苏徐州市泉山数据有限公司招聘笔试历年典型考点题库附带答案详解_第4页
2025江苏徐州市泉山数据有限公司招聘笔试历年典型考点题库附带答案详解_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025江苏徐州市泉山数据有限公司招聘笔试历年典型考点题库附带答案详解一、单项选择题下列各题只有一个正确答案,请选出最恰当的选项(共30题)1、某公司2024年营收为1200万元,2025年同比增长25%,则2025年营收为多少万元?

A.1400B.1500C.1600D.18002、下列哪项不属于大数据的核心特征(4V)?

A.Volume(大量)B.Velocity(高速)C.Value(价值)D.Vision(愿景)3、在Excel中,若要计算A1到A10单元格的平均值,应使用的函数是?

A.SUMB.COUNTC.AVERAGED.MAX4、“所有程序员都懂逻辑,小张不懂逻辑”,由此可以推出?

A.小张是程序员B.小张不是程序员C.有的程序员不懂逻辑D.无法确定5、下列存储设备中,读取速度最快的是?

A.机械硬盘(HDD)B.固态硬盘(SSD)C.内存(RAM)D.U盘6、某项目计划10天完成,实际每天效率提高25%,则实际提前几天完成?

A.1B.2C.3D.47、在Python语言中,用于定义函数的关键字是?

A.classB.defC.functionD.import8、下列哪项行为最符合信息安全管理规范?

A.将密码写在便签上贴在屏幕旁B.定期更换复杂密码C.公共WiFi下登录银行账号D.共享个人账号给同事9、数列2,5,10,17,26,()的下一项是?

A.35B.36C.37D.3810、关于云计算服务模式,IaaS指的是?

A.软件即服务B.平台即服务C.基础设施即服务D.数据即服务11、在数据处理流程中,用于清洗重复记录以提高数据质量的常用SQL命令是?

A.DELETE

B.SELECTDISTINCT

C.INSERTINTO

D.UPDATE12、下列哪项不属于大数据特征的“4V”模型?

A.Volume(大量)

B.Velocity(高速)

C.Variety(多样)

D.Valueless(无价值)A.VolumeB.VelocityC.VarietyD.Valueless13、在Python数据分析库Pandas中,用于查看DataFrame前5行数据的函数是?

A.tail()

B.head()

C.info()

D.describe()A.tail()B.head()C.info()D.describe()14、关系型数据库设计中,第三范式(3NF)要求消除哪种依赖?

A.部分函数依赖

B.传递函数依赖

C.多值依赖

D.连接依赖A.部分函数依赖B.传递函数依赖C.多值依赖D.连接依赖15、下列关于HTTP状态码的说法,正确的是?

A.200表示服务器内部错误

B.404表示请求成功

C.500表示服务器内部错误

D.301表示禁止访问A.200表示服务器内部错误B.404表示请求成功C.500表示服务器内部错误D.301表示禁止访问16、在数据挖掘中,K-Means算法属于哪类学习方法?

A.监督学习

B.无监督学习

C.强化学习

D.半监督学习A.监督学习B.无监督学习C.强化学习D.半监督学习17、Linux系统中,用于查看当前目录下的文件及详细权限的命令是?

A.ls-l

B.cd

C.pwd

D.mkdirA.ls-lB.cdC.pwdD.mkdir18、下列哪种图表最适合展示各部分占整体的比例?

A.折线图

B.饼图

C.散点图

D.柱状图A.折线图B.饼图C.散点图D.柱状图19、在网络安全中,SQL注入攻击主要针对的是?

A.操作系统内核

B.数据库查询逻辑

C.网络传输协议

D.用户浏览器缓存A.操作系统内核B.数据库查询逻辑C.网络传输协议D.用户浏览器缓存20、Excel中,若要计算满足多个条件的单元格平均值,应使用哪个函数?

A.AVERAGE

B.AVERAGEIF

C.AVERAGEIFS

D.COUNTIFSA.AVERAGEB.AVERAGEIFC.AVERAGEIFSD.COUNTIFS21、在数据处理流程中,将原始数据转换为适合分析格式的初始步骤通常被称为?

A.数据可视化

B.数据清洗

C.数据挖掘

D.数据建模22、下列哪项不属于关系型数据库管理系统(RDBMS)?

A.MySQL

B.Oracle

C.MongoDB

D.PostgreSQL23、在Python数据分析库Pandas中,用于读取CSV文件的核心函数是?

A.pd.read_excel()

B.pd.read_csv()

C.pd.load_csv()

D.pd.open_csv()24、下列关于大数据“4V”特征的描述,错误的是?

A.Volume(大量)

B.Velocity(高速)

C.Variety(多样)

D.Value(低价值密度)25、在SQL查询中,用于对分组后的数据进行筛选的关键字是?

A.WHERE

B.HAVING

C.GROUPBY

D.ORDERBY26、下列哪种图表最适合展示各部分占整体的比例关系?

A.折线图

B.柱状图

C.饼图

D.散点图27、关于数据隐私保护,下列做法符合《个人信息保护法》要求的是?

A.未经用户同意收集敏感个人信息

B.对个人信息进行去标识化处理

C.无限期存储用户数据以备后用

D.公开出售匿名用户数据28、在机器学习分类任务中,用于评估模型预测准确性的指标是?

A.准确率(Accuracy)

B.均方误差(MSE)

C.R平方值(R²)

D.轮廓系数29、下列哪项技术主要用于解决分布式系统中的数据一致性问题?

A.RAID

B.CAP定理

C.HTTP协议

D.SSL加密30、在Excel中,若要查找某个值在区域中的位置并返回对应行的另一列数据,最佳组合函数是?

A.SUMIF

B.VLOOKUP或XLOOKUP

C.COUNTIF

D.AVERAGE二、多项选择题下列各题有多个正确答案,请选出所有正确选项(共15题)31、关于大数据处理流程,下列属于核心环节的有:

A.数据采集B.数据清洗C.数据存储D.数据销毁32、徐州市泉山数据有限公司作为国企,其笔试常考的职业道德包括:

A.诚实守信B.廉洁自律C.保守秘密D.唯利是图33、下列属于云计算服务模式的有:

A.IaaSB.PaaSC.SaaSD.DaaS34、数据安全法规定的数据处理活动包括:

A.收集B.存储C.使用D.加工35、Excel中用于数据筛选的功能有:

A.自动筛选B.高级筛选C.排序D.透视表36、下列属于人工智能应用场景的有:

A.智能客服B.图像识别C.手工记账D.预测分析37、计算机网络拓扑结构包括:

A.星型B.总线型C.环型D.树型38、公文写作中,通知的特点包括:

A.广泛性B.指导性C.时效性D.私密性39、数据库管理系统(DBMS)的功能包括:

A.数据定义B.数据操纵C.数据控制D.硬件维修40、提升团队协作效率的方法有:

A.明确分工B.定期沟通C.共享目标D.互相推诿41、在数据处理流程中,数据清洗的主要任务包括哪些?

A.去除重复数据

B.填补缺失值

C.纠正错误数据

D.数据可视化展示42、下列属于关系型数据库管理系统的是?

A.MySQL

B.Oracle

C.MongoDB

D.PostgreSQL43、Python中用于数据分析和处理的常用库包括?

A.Pandas

B.NumPy

C.Flask

D.Matplotlib44、关于数据安全等级保护制度,下列说法正确的有?

A.分为五个安全保护等级

B.第三级及以上需定期测评

C.所有系统必须定为最高级

D.依据系统重要程度定级45、下列哪些行为可能构成数据泄露风险?

A.弱口令设置

B.未加密传输敏感数据

C.定期备份数据

D.随意丢弃存储介质三、判断题判断下列说法是否正确(共10题)46、在数据分析中,平均值极易受极端值影响,因此在数据分布偏斜严重时,中位数比平均值更能反映数据的集中趋势。判断该说法是否正确?A.正确B.错误47、SQL语言中,INNERJOIN(内连接)会返回左表的所有记录,即使右表中没有匹配的记录,未匹配部分填充NULL。判断该说法是否正确?A.正确B.错误48、在Python的Pandas库中,dropna()函数默认会删除包含任何缺失值(NaN)的行或列,而fillna()函数用于使用指定值填充缺失值。判断该说法是否正确?A.正确B.错误49、数据可视化中,饼图适合展示部分与整体的比例关系,但当分类数量超过5-7类时,建议使用条形图替代,以提高可读性。判断该说法是否正确?A.正确B.错误50、在关系型数据库设计中,第三范式(3NF)要求非主键字段必须直接依赖于主键,而不能依赖于其他非主键字段,旨在消除传递依赖。判断该说法是否正确?A.正确B.错误51、假设检验中,P值小于显著性水平α(通常为0.05)时,我们应当接受原假设(H0),认为差异不具有统计学意义。判断该说法是否正确?A.正确B.错误52、在Excel中,VLOOKUP函数的第四个参数设置为FALSE或0时,表示进行精确匹配;若设置为TRUE或1,则表示进行近似匹配,且查找区域首列必须升序排列。判断该说法是否正确?A.正确B.错误53、大数据的4V特征包括Volume(大量)、Velocity(高速)、Variety(多样)和Value(价值),其中Value密度高是大数据的典型特点。判断该说法是否正确?A.正确B.错误54、在机器学习分类任务中,准确率(Accuracy)是评估模型性能的唯一黄金标准,尤其适用于正负样本极度不平衡的数据集。判断该说法是否正确?A.正确B.错误55、网络爬虫技术中,robots.txt文件位于网站根目录,用于告知爬虫哪些页面可以抓取,哪些禁止抓取,遵守该协议是爬虫开发的基本伦理和法律合规要求。判断该说法是否正确?A.正确B.错误

参考答案及解析1.【参考答案】B【解析】本题考查基础经济利润计算。根据公式:现期量=基期量×(1+增长率)。已知2024年营收为1200万元,增长率为25%,则2025年营收=1200×(1+25%)=1200×1.25=1500万元。故正确答案为B。此类题目需熟练掌握百分数运算技巧,避免计算失误。2.【参考答案】D【解析】本题考查大数据基础知识。大数据通常被概括为4V特征:Volume(数据量大)、Velocity(处理速度快)、Variety(数据类型多)、Value(价值密度低但商业价值高)。“Vision”并非大数据的核心特征定义。故正确答案为D。考生应熟记大数据的基本概念及其技术背景。3.【参考答案】C【解析】本题考查办公软件操作知识。SUM用于求和,COUNT用于计数,MAX用于求最大值,AVERAGE用于计算算术平均值。因此,计算A1到A10的平均值应使用=AVERAGE(A1:A10)。故正确答案为C。日常办公中熟练掌握常用函数能显著提高工作效率。4.【参考答案】B【解析】本题考查逻辑推理中的直言命题。题干可转化为:如果是程序员→懂逻辑。根据逆否命题等价原理:不懂逻辑→不是程序员。已知小张不懂逻辑,必然推出小张不是程序员。故正确答案为B。此类题目关键在于掌握充分条件假言命题的推理规则。5.【参考答案】C【解析】本题考查计算机硬件基础。存储体系结构中,寄存器速度最快,其次是缓存、内存(RAM),再次是固态硬盘(SSD),最慢是机械硬盘(HDD)和U盘。内存直接与CPU交换数据,速度远快于外存。故正确答案为C。理解存储层级有助于优化系统性能认知。6.【参考答案】B【解析】本题考查工程问题。设原效率为1,工作总量为10×1=10。现效率为1×(1+25%)=1.25。实际所需时间=10÷1.25=8天。提前天数=10-8=2天。故正确答案为B。解决工程问题时,常设特值简化计算,注意效率与时间成反比关系。7.【参考答案】B【解析】本题考查编程基础语法。Python中使用`def`关键字来定义函数,后接函数名和参数列表。`class`用于定义类,`import`用于导入模块,Python中没有`function`关键字。故正确答案为B。掌握基本语法是进行数据处理和分析的前提。8.【参考答案】B【解析】本题考查信息安全意识。A、C、D均存在严重安全隐患,易导致信息泄露。定期更换包含大小写字母、数字及特殊符号的复杂密码,能有效提升账户安全性,符合安全管理规范。故正确答案为B。数据安全是企业运营的生命线。9.【参考答案】C【解析】本题考查数字推理。观察数列相邻两项之差:3,5,7,9,构成公差为2的等差数列。下一个差值应为11。因此,未知项=26+11=37。或者看作平方数列变式:1²+1,2²+1,3²+1...6²+1=37。故正确答案为C。10.【参考答案】C【解析】本题考查云计算基本概念。云计算主要服务模式包括:IaaS(InfrastructureasaService,基础设施即服务)、PaaS(PlatformasaService,平台即服务)、SaaS(SoftwareasaService,软件即服务)。故正确答案为C。理解各层服务区别有助于企业选型。11.【参考答案】B【解析】SELECTDISTINCT用于返回唯一不同的值,能有效识别并去除查询结果中的重复行,是数据清洗阶段去重的核心手段。DELETE用于删除整行数据,风险较高且需配合条件;INSERTINTO用于插入新数据;UPDATE用于修改现有数据。在初步数据探查和清洗阶段,使用DISTINCT能快速评估数据冗余情况,为后续建立唯一约束或物理去重提供依据,符合数据治理规范。12.【参考答案】D【解析】大数据的4V特征包括Volume(数据量大)、Velocity(处理速度快)、Variety(数据类型多样)和Value(价值密度低但商业价值高)。选项D“Valueless”表述错误,大数据的核心在于从海量低密度数据中挖掘高价值信息,而非无价值。理解4V模型有助于企业制定合适的数据存储、计算和分析策略,是数据从业人员的基础认知。13.【参考答案】B【解析】head()函数默认显示DataFrame的前5行,常用于快速预览数据结构。tail()显示最后5行;info()提供索引、数据类型及非空值计数等概要信息;describe()生成数值列的统计描述(如均值、标准差)。在数据探索性分析(EDA)初期,head()是最常用的直观检查工具,帮助分析师迅速把握数据样本形态。14.【参考答案】B【解析】第一范式(1NF)要求属性原子性;第二范式(2NF)在1NF基础上消除非主属性对码的部分函数依赖;第三范式(3NF)在2NF基础上消除非主属性对码的传递函数依赖。即非主属性不能依赖于其他非主属性。消除传递依赖可减少数据冗余和更新异常,是数据库逻辑设计优化的关键步骤。15.【参考答案】C【解析】200OK表示请求成功;404NotFound表示资源未找到;500InternalServerError表示服务器内部错误;301MovedPermanently表示永久重定向;403Forbidden表示禁止访问。掌握常见状态码对于前端调试、API接口测试及运维排查至关重要,能准确定位问题是客户端错误、服务端错误还是重定向需求。16.【参考答案】B【解析】K-Means是一种经典的聚类算法,旨在将数据划分为K个簇,使簇内相似度最大、簇间相似度最小。由于训练数据没有标签,它属于无监督学习。监督学习(如分类、回归)需要labeled数据;强化学习基于奖励机制;半监督学习结合少量标签和大量未标签数据。聚类常用于客户分群、异常检测等场景。17.【参考答案】A【解析】ls-l以长格式列出文件详细信息,包括权限、所有者、大小和时间戳。cd用于切换目录;pwd显示当前工作路径;mkdir用于创建新目录。在服务器运维和数据部署中,ls-l是检查文件权限、确认数据文件是否存在及属性的最基础且高频使用的命令。18.【参考答案】B【解析】饼图通过扇形面积直观展示各部分占总体的百分比,适用于构成分析。折线图侧重趋势变化;散点图展示两个变量间的相关性;柱状图用于类别间的数值比较。在制作数据报表时,若需强调市场份额、预算分配等占比关系,饼图或环形图是最佳选择,但需注意分类不宜过多。19.【参考答案】B【解析】SQL注入是通过在输入字段中插入恶意SQL代码,欺骗服务器执行非授权数据库操作(如窃取、篡改数据)。它利用的是应用程序对用户输入过滤不严,导致数据库查询逻辑被篡改。防范手段包括使用预编译语句(ParameterizedQueries)和输入验证。这是Web应用最常见的安全漏洞之一。20.【参考答案】C【解析】AVERAGE计算所有数值平均值;AVERAGEIF仅支持单条件平均;AVERAGEIFS支持多条件平均,语法为AVERAGEIFS(平均区域,条件区域1,条件1,...);COUNTIFS用于多条件计数。在处理复杂业务数据报表时,AVERAGEIFS能精准筛选特定维度(如某地区、某时间段)的数据进行均值分析,提升数据处理效率。21.【参考答案】B【解析】数据清洗是数据处理的首要环节,旨在识别并纠正数据中的错误、不一致或缺失值,确保数据质量。数据可视化是结果展示,数据挖掘侧重发现模式,数据建模则是构建算法模型。对于数据公司而言,高质量的清洗是后续所有分析工作的基础,因此该步骤最为关键且典型。22.【参考答案】C【解析】MySQL、Oracle和PostgreSQL均为典型的关系型数据库,使用SQL语言且数据以表格形式存储。MongoDB属于非关系型数据库(NoSQL),采用文档存储模型,适用于处理非结构化或半结构化大数据场景。在招聘笔试中,区分SQL与NoSQL数据库是考察候选人技术基础的重点内容。23.【参考答案】B【解析】Pandas库中,pd.read_csv()是专门用于读取逗号分隔值(CSV)文件的标准函数,能自动处理分隔符和编码问题。pd.read_excel()用于Excel文件,而C和D选项并非Pandas的标准API。掌握常用数据导入导出函数是数据分析师的基本技能,也是此类考试的高频考点。24.【参考答案】D【解析】大数据的4V特征包括Volume(大量)、Velocity(高速)、Variety(多样)和Value(价值)。虽然大数据具有“低价值密度”的特点,即海量数据中有用信息比例低,但“Value”本身指的是通过挖掘实现高商业价值,而非单纯强调“低价值”。选项D表述易产生歧义,通常第四维指Veracity(真实性)或强调价值的挖掘潜力,此处D为最不符合标准定义的选项。25.【参考答案】B【解析】WHERE子句用于在分组前过滤行,而HAVING子句专门用于在GROUPBY分组后过滤组。ORDERBY用于排序,GROUPBY用于分组。理解WHERE与HAVING的执行顺序及适用场景,是编写复杂查询语句的基础,也是数据岗位笔试中考察SQL逻辑能力的经典题目。26.【参考答案】C【解析】饼图通过扇形面积直观展示各部分占总体的百分比,最适合表现比例关系。折线图侧重趋势变化,柱状图侧重类别对比,散点图侧重变量间的相关性。在数据汇报中,正确选择图表类型能显著提升信息传递效率,这是数据可视化能力的重要体现。27.【参考答案】B【解析】《个人信息保护法》规定,处理个人信息应遵循合法、正当、必要原则。去标识化是重要的安全保护措施,能降低泄露风险。未经同意收集、无限期存储及非法交易数据均严重违规。数据从业人员必须具备合规意识,确保数据处理全流程符合法律法规要求。28.【参考答案】A【解析】准确率是分类模型中最直观的评估指标,表示预测正确的样本占总样本的比例。均方误差和R平方值主要用于回归任务,轮廓系数用于聚类效果评估。根据不同业务场景选择合适的评估指标,是构建有效机器学习模型的关键步骤,也是技术笔试的常考内容。29.【参考答案】B【解析】CAP定理指出分布式系统无法同时满足一致性(Consistency)、可用性(Availability)和分区容错性(Partitiontolerance),需根据业务场景权衡。RAID是磁盘冗余技术,HTTP是应用层协议,SSL用于加密传输。理解CAP定理有助于设计高可用的数据架构,是后端及数据工程岗位的核心知识点。30.【参考答案】B【解析】VLOOKUP是经典的纵向查找函数,XLOOKUP是其现代增强版,功能更强大且灵活,常用于跨表匹配数据。SUMIF用于条件求和,COUNTIF用于计数,AVERAGE用于求平均值。熟练掌握查找引用函数能大幅提升数据处理效率,是办公自动化及初级数据分析岗位的必备技能。31.【参考答案】ABC【解析】大数据处理通常包括采集、清洗、存储、分析及可视化。数据采集是源头,清洗确保质量,存储提供基础。数据销毁属于生命周期末端的安全管理,非核心处理环节。故选ABC。32.【参考答案】ABC【解析】国企员工需具备高度责任感。诚实守信是基石,廉洁自律防腐蚀,保守秘密护数据安全。唯利是图违背职业操守。故选ABC。33.【参考答案】ABC【解析】云计算三大基本服务模式为基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)。DaaS虽存在但非标准三大类。故选ABC。34.【参考答案】ABCD【解析】《数据安全法》明确数据处理包括数据的收集、存储、使用、加工、传输、提供、公开等。四项均符合定义。故选ABCD。35.【参考答案】AB【解析】自动筛选和高级筛选直接用于条件过滤。排序仅调整顺序,透视表用于汇总分析,虽可间接筛选但非专用筛选功能。故选AB。36.【参考答案】ABD【解析】智能客服、图像识别和预测分析均依赖AI算法。手工记账是传统人工操作,不涉及人工智能技术。故选ABD。37.【参考答案】ABCD【解析】常见网络拓扑结构包括星型、总线型、环型、树型和网状型。四种选项均为标准拓扑结构类型。故选ABCD。38.【参考答案】ABC【解析】通知适用于发布、传达要求下级机关执行事项,具有广泛性、指导性和时效性。私密性不是其主要特征。故选ABC。39.【参考答案】ABC【解析】DBMS主要负责数据定义、操纵、控制和保护。硬件维修属于物理层维护,非软件系统功能。故选ABC。40.【参考答案】ABC【解析】明确分工、定期沟通和共享目标能增强凝聚力与效率。互相推诿破坏团队信任,降低效率。故选ABC。41.【参考答案】ABC【解析】数据清洗旨在提高数据质量,核心任务包括识别并去除重复记录、通过统计方法或默认值填补缺失数据、以及修正逻辑错误或格式不规范的数据。D项数据可视化属于数据分析后的展示环节,而非清洗阶段的任务。清洗是数据预处理的关键步骤,确保后续分析的准确性。42.【参考答案】ABD【解析】MySQL、Oracle和PostgreSQL均基于关系模型,使用SQL语言进行交互,属于典型的关系型数据库(RDBMS)。C项MongoDB是基于文档存储的非关系型数据库(NoSQL),适用于处理非结构化或半结构化数据。理解两者区别对于数据存储选型至关重要。43.【参考答案】ABD【解析】Pandas提供高效的数据结构如DataFrame,NumPy支持大规模多维数组运算,Matplotlib用于数据可视化,三者常组合用于数据分析。C项Flask是轻量级Web开发框架,主要用于构建后端服务,不属于数据分析核心库。掌握这些库是数据岗位的基础技能。44.【参考答案】ABD【解析】我国网络安全等级保护制度将信息系统分为五个等级,定级依据是系统遭到破坏后对国家安全、社会秩序及公共利益的危害程度。第三级及以上系统要求每年至少进行一次等级测评。C项错误,定级应遵循适度原则,并非越高越好,需结合业务实际风险确定。45.【参考答案】ABD【解析】弱口令易被暴力破解,未加密传输导致数据在链路中被窃听,随意丢弃硬盘等介质可能导致物理恢复数据,三者均为常见泄露源头。C项定期备份是数据容灾和保护的有效手段,有助于防止数据丢失,属于安全防护措施,而非风险行为。46.【参考答案】A【解析】该说法正确。平均值(Mean)计算时包含所有数据点,因此对极大或极小的异常值非常敏感。当数据呈现偏态分布(如收入分布)时,极端值会拉高或拉低平均值,使其偏离大多数数据的中心位置。相比之下,中位数(Median)仅取决于数据排序后的中间位置,不受极端值大小影响,具有更强的鲁棒性。因此,在存在明显离群点或偏斜分布的数据分析场景中,使用中位数作为集中趋势的度量指标更为科学和准确,能更真实地反映典型水平。47.【参考答案】B【解析】该说法错误。题目描述的是LEFTJOIN(左外连接)的特征。INNERJOIN(内连接)仅返回两个表中连接字段相匹配的行,如果某行在另一个表中没有匹配项,则该行不会出现在结果集中。LEFTJOIN才会保留左表的所有记录,当右表无匹配时,右表字段显示为NULL。理解不同连接类型的区别对于数据提取至关重要:内连接用于获取交集,左连接用于保留主表全量信息并补充关联信息,全外连接则获取并集。混淆连接类型会导致数据遗漏或冗余,严重影响分析结果的准确性。48.【参考答案】A【解析】该说法正确。Pandas是Python中强大的数据处理库。dropna()函数用于处理缺失数据,默认参数how='any'意味着只要行或列中存在任何一个NaN值,该整行或整列就会被删除;若设置how='all',则仅当所有值均为NaN时才删除。fillna()函数则提供另一种策略,即用均值、中位数、众数或特定常数替换缺失值,以保留样本量。选择删除还是填充取决于缺失数据的比例、缺失机制(完全随机缺失等)以及业务场景对数据完整性的要求,两者是数据清洗阶段的核心操作。49.【参考答案】A【解析】该说法正确。饼图通过扇区面积展示占比,人类视觉对角度和面积的细微差别辨识度较低。当分类较少(通常少于5-7类)且差异明显时,饼图直观有效。然而,当类别过多时,扇区变得狭窄,标签拥挤,难以比较各部分大小,甚至导致图表混乱。此时,条形图(BarChart)利用长度进行编码,人类对长度的感知更为敏锐,且便于排序和添加详细标签,能更清晰地展示多类别数据的对比情况。因此,遵循“少即是多”的原则,合理选择图表类型是提升数据沟通效率的关键。50.【参考答案】A【解析】该说法正确。数据库规范化旨在减少数据冗余和异常。第一范式(1NF)要求原子性;第二范式(2NF)要求非主属性完全依赖于主键(消除部分依赖);第三范式(3NF)进一步要求非主属性不依赖于其他非主属性(消除传递依赖)。例如,若“学生ID”决定“系别”,“系别”决定“系主任”,则“学生ID”通过“系别”传递决定“系主任”,这违反了3NF。将表拆分为学生表和系别表可解决此问题。满足3NF能有效避免插入、删除和更新异常,是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论