版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026锦泰财产保险股份有限公司招聘数据开发工程师等岗位20人笔试历年典型考点题库附带答案详解一、单项选择题下列各题只有一个正确答案,请选出最恰当的选项(共30题)1、在数据仓库建模中,关于星型模型与雪花模型的描述,下列哪项是正确的?
A.星型模型规范化程度高,节省存储空间
B.雪花模型查询性能通常优于星型模型
C.星型模型维度表非规范化,结构简单,查询效率高
D.雪花模型事实表包含大量冗余数据2、在SQL查询优化中,以下哪种操作最可能导致索引失效从而引发全表扫描?
A.使用等值查询`WHEREid=100`
B.使用范围查询`WHEREage>25`
C.对索引列进行函数运算`WHEREYEAR(create_time)=2025`
D.使用联合索引的最左前缀`WHEREa=1ANDb=2`3、关于Hadoop生态组件的功能描述,下列哪项是错误的?
A.HDFS负责分布式文件存储
B.MapReduce负责分布式计算
C.Hive基于Hadoop提供SQL查询接口,适用于实时低延迟查询
D.YARN负责集群资源管理和调度4、在数据质量管理中,“完整性”这一维度主要关注的是?
A.数据值是否符合预定义的格式或类型
B.数据是否存在缺失值或空值
C.不同数据源之间的数据是否一致
D.数据是否准确反映了现实世界的业务对象5、Python中,关于列表(List)和元组(Tuple)的区别,下列说法正确的是?
A.列表是不可变的,元组是可变的
B.元组的访问速度通常比列表快,且占用内存更小
C.列表可以作为字典的键,元组不可以
D.两者都只允许存储相同数据类型的数据6、在关系型数据库事务特性ACID中,“隔离性”(Isolation)指的是?
A.事务中的所有操作要么全部完成,要么全部不完成
B.事务执行前后,数据库从一个一致性状态变换到另一个一致性状态
C.多个并发事务之间互不干扰,一个事务的执行不应影响其他事务
D.事务一旦提交,对数据的改变就是永久的7、以下哪种算法不属于常见的机器学习分类算法?
A.逻辑回归(LogisticRegression)
B.K近邻(K-NearestNeighbors)
C.K均值聚类(K-MeansClustering)
D.支持向量机(SupportVectorMachine)8、在Linux系统中,若要查看当前目录下所有文件(包括隐藏文件)的详细信息,应使用的命令是?
A.`ls-l`
B.`ls-a`
C.`ls-al`
D.`pwd`9、关于API接口设计规范,遵循RESTful风格时,对于“删除用户资源”的操作,通常使用的HTTP方法是?
A.GET
B.POST
C.PUT
D.DELETE10、在数据链路层中,用于唯一标识网络设备物理地址的是?
A.IP地址
B.MAC地址
C.URL
D.端口号11、在Hive中,关于内部表与外部表的区别,下列说法正确的是:
A.删除内部表时,元数据和数据均被删除
B.删除外部表时,元数据和数据均被删除
C.内部表数据存储在HDFS任意位置
D.外部表无法建立分区12、在SQL查询优化中,以下哪种操作最可能导致数据倾斜?
A.对分布均匀的主键进行Join
B.对含有大量NULL值的字段进行GroupBy
C.使用Limit限制返回行数
D.对索引字段进行等值查询13、关于Python中列表(List)和元组(Tuple)的区别,下列描述错误的是:
A.列表是可变的,元组是不可变的
B.列表使用方括号[],元组使用圆括号()
C.元组可以作为字典的键,列表不可以
D.列表的访问速度比元组快14、在数据仓库建模中,星型模型与雪花模型的主要区别在于:
A.星型模型存在数据冗余,雪花模型规范化程度更高
B.雪花模型查询性能一定优于星型模型
C.星型模型维度表必须规范化
D.雪花模型不包含事实表15、下列关于Kafka消息队列特性的描述,正确的是:
A.Kafka保证消息的全局严格顺序
B.Consumer消费消息后,消息立即从Broker删除
C.Kafka支持高吞吐量的实时数据流处理
D.Topic的Partition数量一旦创建不可修改16、在Java多线程编程中,用于实现线程同步的关键字是:
A.static
B.synchronized
C.volatile
D.final17、关于Linux系统中查看进程状态的命令,下列哪项可以实时动态显示系统资源使用情况?
A.ps-ef
B.top
C.ls-l
D.cat/proc/cpuinfo18、在关系型数据库中,第三范式(3NF)要求:
A.每个属性都是不可再分的基本数据项
B.非主属性完全依赖于主键
C.非主属性不传递依赖于主键
D.表中不能有重复行19、以下哪种算法不属于常见的机器学习分类算法?
A.逻辑回归(LogisticRegression)
B.K-近邻(K-NearestNeighbors)
C.K-均值(K-Means)
D.支持向量机(SVM)20、在Git版本控制中,将工作区的修改提交到本地仓库的正确命令顺序是:
A.gitcommit->gitadd
B.gitpush->gitcommit
C.gitadd->gitcommit
D.gitpull->gitadd21、在数据仓库建模中,关于星型模型与雪花模型的描述,下列哪项是正确的?
A.星型模型规范化程度高,节省存储空间
B.雪花模型查询性能通常优于星型模型
C.星型模型维度表非规范化,查询效率更高
D.雪花模型维护简单,适合快速开发22、在SQL查询优化中,关于索引使用的原则,下列说法错误的是?
A.遵循最左前缀法则使用联合索引
B.避免在索引列上进行函数运算或计算
C.使用SELECT*可以充分利用覆盖索引
D.区分度低的列(如性别)不适合单独建索引23、关于Hadoop生态组件的功能描述,下列匹配正确的是?
A.HDFS:分布式计算框架
B.MapReduce:分布式文件系统
C.Hive:基于Hadoop的数据仓库工具
D.YARN:分布式协调服务24、在Python数据处理库Pandas中,若要删除DataFrame中包含缺失值(NaN)的行,应使用哪个方法?
A.df.fillna()
B.df.dropna()
C.df.isnull()
D.df.drop_duplicates()25、关于数据库事务的ACID特性,其中“隔离性”(Isolation)主要指的是?
A.事务一旦提交,对数据的改变是永久的
B.事务中的所有操作要么全部完成,要么全部不完成
C.并发执行的事务之间互不干扰
D.事务执行前后,数据库完整性约束没有被破坏26、在Elasticsearch中,关于倒排索引(InvertedIndex)的描述,下列哪项是正确的?
A.记录文档ID到完整文档内容的映射
B.记录词条(Term)到包含该词条的文档列表的映射
C.是一种正排索引,按文档顺序存储数据
D.仅支持精确匹配,不支持全文检索27、关于Kafka消息队列中的ConsumerGroup(消费者组),下列说法正确的是?
A.同一个分区可以被同一个消费者组内的多个消费者同时消费
B.同一个消费者组内的消费者数量可以无限增加以提高吞吐量
C.同一个分区在同一时刻只能被同一个消费者组内的一个消费者消费
D.不同消费者组不能消费同一个Topic的数据28、在数据清洗过程中,处理异常值(Outliers)的常见方法不包括?
A.3σ原则(三倍标准差)
B.箱线图(IQR)法
C.将所有异常值直接替换为0
D.使用聚类算法识别并处理29、关于Python中浅拷贝(shallowcopy)与深拷贝(deepcopy)的区别,下列描述正确的是?
A.浅拷贝会递归复制对象内部的所有子对象
B.深拷贝仅复制对象本身,不复制其引用的子对象
C.修改浅拷贝得到的嵌套列表中的子元素,原对象也会受影响
D.对于不可变对象,深拷贝和浅拷贝没有任何区别30、在保险行业数据分析中,关于“赔付率”(LossRatio)的计算公式,下列哪项是正确的?
A.赔付率=保费收入/赔款支出
B.赔付率=赔款支出/保费收入
C.赔付率=(保费收入-赔款支出)/保费收入
D.赔付率=赔款支出/(保费收入+投资收益)二、多项选择题下列各题有多个正确答案,请选出所有正确选项(共15题)31、在数据仓库建模中,关于维度建模的说法正确的有:
A.星型模型结构简单,查询性能高
B.雪花模型规范化程度高,节省存储空间
C.事实表通常包含大量外键和度量值
D.维度表应当尽量保持非规范化以减少Join32、关于Hadoop生态组件的功能描述,下列正确的有:
A.HDFS负责分布式海量数据存储
B.MapReduce适用于实时流处理场景
C.YARN负责集群资源管理和调度
D.Hive基于Hadoop提供SQL查询接口33、在SQL优化中以下哪些措施能有效提升查询性能?
A.避免在索引列上使用函数运算
B.使用SELECT*获取所有字段以简化开发
C.合理建立联合索引遵循最左前缀原则
D.大表关联时确保关联字段有索引34、关于数据质量管理的维度,下列属于常见评估指标的有:
A.完整性:数据是否存在缺失值
B.一致性:不同来源数据逻辑是否冲突
C.及时性:数据从产生到可用的时间延迟
D.美观性:数据展示界面的色彩搭配35、在Python数据处理库Pandas中,下列说法正确的有:
A.DataFrame是二维标签化数据结构
B.merge函数主要用于数据库风格的连接操作
C.groupby操作后必须立即聚合否则报错
D.dropna方法可用于处理缺失数据36、关于保险行业数据特征,下列描述准确的有:
A.数据具有高敏感性和隐私保护要求
B.业务流程长,涉及承保、理赔等多个环节
C.历史数据积累深厚,适合长期趋势分析
D.数据结构单一,仅需处理结构化表格37、下列关于ETL流程设计的说法,正确的有:
A.Extract阶段需考虑对源系统性能的影响
B.Transform阶段应完成数据清洗与标准化
C.Load阶段必须采用全量覆盖方式加载
D.ETL过程中应记录日志以便故障排查38、在关系型数据库设计中,关于范式的理解正确的有:
A.第一范式要求字段不可再分
B.第二范式要求消除非主键对主键的部分依赖
C.第三范式要求消除传递依赖
D.实际应用中必须严格遵守第三范式39、关于大数据计算引擎Spark的特点,下列描述正确的有:
A.基于内存计算,速度优于MapReduce
B.支持SQL、Streaming、MLlib等多种组件
C.RDD是弹性分布式数据集,具有容错性
D.Spark只能运行在HadoopYARN上40、数据开发工程师在进行数据安全治理时,应采取的措施包括:
A.对敏感字段进行脱敏或加密存储
B.实施严格的权限控制最小化原则
C.定期备份数据并验证恢复可用性
D.将所有数据公开以促进共享41、在数据仓库建模中,关于维度建模的说法正确的有:
A.星型模型结构简单,查询性能高
B.雪花模型规范化程度高,节省存储空间
C.事实表通常包含度量值和外来键
D.维度表必须是非规范化的42、关于Hadoop生态系统组件的功能,下列描述正确的有:
A.HDFS负责分布式数据存储
B.MapReduce负责分布式计算
C.Hive基于MapReduce提供SQL查询接口
D.Spark只能运行在YARN上43、在SQL优化中,以下哪些措施能有效提升查询性能?
A.避免使用SELECT*,只查询必要字段
B.在WHERE子句中对索引列进行函数运算
C.使用EXPLAIN分析执行计划
D.尽量使用JOIN代替子查询44、关于Python数据处理库Pandas,下列说法正确的有:
A.DataFrame是二维表格型数据结构
B.read_csv可读取CSV文件为DataFrame
C.merge函数用于实现数据库风格的连接
D.apply函数只能应用于列方向45、在关系型数据库事务特性ACID中,下列描述对应的概念正确的有:
A.原子性:事务要么全部完成,要么全部不完成
B.一致性:事务执行前后数据库状态合法
C.隔离性:并发事务互不干扰
D.持久性:事务提交后数据仅保存在内存中三、判断题判断下列说法是否正确(共10题)46、在数据仓库建模中,星型模型由一个事实表和多个维度表组成,维度表通常是非规范化的,这种说法是否正确?A.正确B.错误47、SQL语句中,LEFTJOIN返回左表的所有记录以及右表中匹配的记录,若右表无匹配则填充NULL,这种说法是否正确?A.正确B.错误48、HadoopHDFS适合存储大量小文件,因为其NameNode内存中可以高效管理海量元数据,这种说法是否正确?A.正确B.错误49、在Python中,列表(List)是可变对象,而元组(Tuple)是不可变对象,因此元组可以作为字典的键,这种说法是否正确?A.正确B.错误50、数据清洗过程中,对于缺失值的处理,直接删除含有缺失值的记录总是最优策略,这种说法是否正确?A.正确B.错误51、Kafka消息队列中,ConsumerGroup内的多个消费者可以共同消费同一个Topic的不同Partition,以实现并行处理,这种说法是否正确?A.正确B.错误52、在关系型数据库中,第三范式(3NF)要求消除传递依赖,即非主键字段不能依赖于其他非主键字段,这种说法是否正确?A.正确B.错误53、Spark计算框架中,RDD(弹性分布式数据集)是不可变的、分区的、可并行操作的数据集合,这种说法是否正确?A.正确B.错误54、数据指标体系中,“原子指标”通常由业务过程+度量+时间周期+修饰词构成,这种说法是否正确?A.正确B.错误55、在Linux系统中,chmod755filename命令表示文件所有者拥有读、写、执行权限,组用户和其他用户拥有读和执行权限,这种说法是否正确?A.正确B.错误
参考答案及解析1.【参考答案】C【解析】星型模型的核心特征是维度表非规范化,直接连接事实表,结构简单,减少了Join操作,因此查询效率较高,适合OLAP场景。A项错误,星型模型冗余度高;B项错误,雪花模型因Join多,查询性能通常低于星型模型;D项错误,事实表主要存储度量值,冗余主要存在于维度表中。锦泰财产保险等金融机构在处理海量保单和理赔数据时,常采用星型模型以保障报表查询速度。理解两种模型的区别是数据开发工程师的基础考点,需掌握其适用场景及优缺点。2.【参考答案】C【解析】对索引列使用函数(如YEAR、SUBSTR等)或进行计算,会导致数据库引擎无法直接使用索引树进行查找,从而退化为全表扫描,严重影响性能。A、D项均能高效利用索引。B项范围查询虽可能停止后续索引列的使用,但当前列仍可使用索引。在保险业务系统中,针对创建时间、保单号等高频查询字段,应避免在WHERE子句中对索引列进行函数转换,建议在应用层处理或使用生成列索引。这是数据开发笔试中的高频优化考点。3.【参考答案】C【解析】Hive是将SQL转换为MapReduce或Tez/Spark任务执行的工具,其设计初衷是处理离线批处理任务,延迟较高,不适用于实时低延迟查询场景。实时查询通常使用Impala、Presto或ClickHouse等引擎。A、B、D项描述均正确:HDFS是存储基础,MapReduce是经典计算框架,YARN是资源调度器。在保险公司大数据平台建设中,Hive常用于历史保单数据的离线清洗与统计,而实时风控则需其他组件支持。考生需清晰区分各组件的适用场景。4.【参考答案】B【解析】数据质量通常包含准确性、完整性、一致性、及时性等维度。完整性特指数据是否存在缺失,如必填字段为空、记录数不足等。A项属于有效性或规范性;C项属于一致性;D项属于准确性。在保险业务中,客户身份证号、保单生效日期等关键信息的缺失会直接影响业务流转,因此完整性校验是ETL开发中的重要环节。数据开发工程师需通过设置默认值、非空约束等手段保障数据完整性。5.【参考答案】B【解析】列表是可变序列,元组是不可变序列。由于元组不可变,其内部结构更简单,因此访问速度略快且占用内存更少,适合存储常量数据。A项说反了;C项错误,只有不可变对象(如元组、字符串、数字)才能作为字典的键,列表不可哈希,不能做键;D项错误,两者均可存储不同类型数据。在数据处理脚本编写中,若数据不需修改,推荐使用元组以提升性能并防止意外篡改,这是编程基础考点。6.【参考答案】C【解析】ACID分别代表原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)。隔离性确保并发执行的事务彼此独立,避免脏读、不可重复读和幻读等问题。A项是原子性;B项是一致性;D项是持久性。在保险核心系统中,扣款与出单往往涉及多个表操作,必须保证事务隔离性以防止数据错乱。开发人员需根据业务需求选择合适的事务隔离级别,如读已提交(RC)或可重复读(RR)。7.【参考答案】C【解析】K均值聚类(K-Means)是一种无监督学习算法,主要用于聚类分析,即将数据划分为K个簇,而非进行分类预测。A、B、D项均为经典的有监督分类算法,用于预测离散标签。在保险科技应用中,分类算法可用于预测客户流失、欺诈检测等场景,而聚类算法常用于客户分群。数据开发工程师需明确区分监督学习(分类、回归)与无监督学习(聚类、降维)的应用边界,这是算法基础题的重点。8.【参考答案】C【解析】`ls`是列出目录内容的命令。`-l`参数表示以长格式显示详细信息(权限、所有者、大小等);`-a`参数表示显示所有文件,包括以`.`开头的隐藏文件。组合使用`-al`(或`-la`)即可同时满足“详细”和“包括隐藏文件”的要求。A项仅显示详细信息但不含隐藏文件;B项显示所有文件但非详细格式;D项`pwd`用于显示当前工作目录路径。Linux基本操作是数据工程师部署任务、查看日志的必备技能,需熟练掌握常用参数。9.【参考答案】D【解析】RESTful架构风格中,HTTP方法对应资源的特定操作:GET用于获取资源,POST用于创建资源,PUT用于更新资源(全量),PATCH用于部分更新,DELETE用于删除资源。因此,删除用户资源应使用DELETE方法。A项GET应是安全且幂等的,不能用于修改数据;B项POST通常用于新建;C项PUT用于替换。在微服务架构日益普及的今天,数据开发人员常需对接各类API,理解标准的HTTP语义有助于构建规范、易维护的数据服务接口。10.【参考答案】B【解析】MAC地址(媒体访问控制地址)是烧录在网卡中的物理地址,用于在局域网数据链路层唯一标识设备。A项IP地址是网络层逻辑地址,可配置且随网络环境变化;C项URL是应用层资源定位符;D项端口号是传输层用于区分不同应用程序的逻辑标识。虽然数据开发工程师主要关注应用层和数据层,但理解底层网络基础有助于排查数据传输故障、配置防火墙规则及理解分布式通信原理,是综合素质考察的一部分。11.【参考答案】A【解析】Hive中,内部表(ManagedTable)由Hive完全管理,删除表时,其元数据(Metadata)和HDFS上的数据文件会被同时删除。而外部表(ExternalTable)仅管理元数据,删除表时只删除元数据,保留HDFS上的数据文件,便于数据共享和安全保护。两者均可建立分区,且默认存储位置均在Hive仓库目录下,但外部表可指定任意HDFS路径。因此,A选项描述准确,符合大数据开发中数据存储管理的最佳实践。12.【参考答案】B【解析】数据倾斜通常发生在Key分布不均匀的场景下。当对含有大量NULL值或特定高频值的字段进行GroupBy或Join时,这些相同Key的数据会被分发到同一个Reducer节点,导致该节点负载过重,而其他节点空闲,从而引发性能瓶颈。A选项主键分布均匀,不易倾斜;C和D选项属于常规查询优化手段,不直接导致倾斜。解决倾斜常用方法包括给Key加盐、过滤NULL值或提高并行度。13.【参考答案】D【解析】Python中,列表是可变序列,支持增删改操作;元组是不可变序列,一旦创建不能修改。由于元组的不可变性,其在内存中占用空间更小,且在某些场景下(如作为字典键或集合元素)具有哈希性,而列表不可哈希。通常情况下,元组的迭代和访问速度略优于列表,因为其结构更简单且无需处理动态扩容逻辑。因此,D选项说法错误,其他选项均正确描述了二者特性。14.【参考答案】A【解析】星型模型由一个事实表和多个非规范化的维度表组成,结构简单,查询效率高,但存在一定数据冗余。雪花模型是对星型模型的扩展,将维度表进一步规范化,拆分为多个子维度表,减少了数据冗余,节省存储空间,但增加了Join操作的复杂度,可能降低查询性能。两者都包含事实表和维度表。在实际应用中,为追求查询效率,常优先选择星型模型或轻度规范的雪花模型。故A选项正确。15.【参考答案】C【解析】Kafka设计目标是高吞吐量,适用于大规模实时数据流处理,C正确。Kafka仅保证Partition内的局部有序,而非全局有序,A错误。Kafka基于日志存储,消息保留时间由配置决定,不因消费而立即删除,B错误。Topic的Partition数量可以在创建后增加,但不能减少,D错误。理解Kafka的分区机制和保留策略对于构建稳定数据管道至关重要。16.【参考答案】B【解析】synchronized是Java中用于实现线程同步的关键字,它可以修饰方法或代码块,确保同一时刻只有一个线程执行该段代码,从而保证原子性和可见性。volatile主要用于保证变量的可见性和禁止指令重排序,但不保证原子性。static用于修饰类成员,final用于定义常量或不可继承类。在高并发数据处理场景中,合理使用synchronized或ReentrantLock等锁机制是保障数据一致性的核心手段。17.【参考答案】B【解析】top命令能够实时动态地显示系统中各个进程的资源占用状况,如CPU、内存使用率等,类似于Windows的任务管理器,适合监控系统负载。ps-ef用于显示当前瞬间的进程快照,非动态。ls-l用于列出目录内容。cat/proc/cpuinfo用于查看CPU静态硬件信息。在排查服务器性能问题或监控后台数据处理任务时,top是常用的运维工具。18.【参考答案】C【解析】第一范式(1NF)要求属性不可再分(A选项);第二范式(2NF)要求非主属性完全依赖于主键,消除部分依赖(B选项);第三范式(3NF)要求非主属性不传递依赖于主键,即消除传递依赖(C选项)。D选项是关系表的基本要求。遵循3NF有助于减少数据冗余和维护异常,但在数据仓库场景中,为了查询性能有时会故意反范式化。19.【参考答案】C【解析】逻辑回归、K-近邻和支持向量机均为监督学习中的经典分类算法,用于预测离散类别标签。K-均值(K-Means)是一种无监督学习算法,主要用于聚类分析,即将数据划分为K个簇,而非进行分类预测。在数据开发与应用中,区分监督学习(分类/回归)与无监督学习(聚类/降维)的适用场景是构建智能数据产品的基础。20.【参考答案】C【解析】Git的标准工作流程是:首先使用gitadd将工作区(WorkingDirectory)的修改添加到暂存区(StagingArea),然后使用gitcommit将暂存区的内容提交到本地仓库(LocalRepository)。gitpush用于将本地仓库推送到远程仓库,gitpull用于拉取远程更新。掌握正确的Git命令顺序对于团队协作开发和代码版本管理至关重要,避免代码丢失或冲突。21.【参考答案】C【解析】星型模型的核心特征是事实表周围环绕着非规范化的维度表,这种结构减少了JOIN操作,从而提高了查询性能,特别适合OLAP场景。相比之下,雪花模型对维度表进行了规范化,虽然节省了存储空间并减少了数据冗余,但增加了表的连接数量,导致查询复杂度和执行时间增加,维护难度也相对较大。因此,在追求查询效率的数据仓库应用中,星型模型更为常见。选项A错误,星型模型冗余大;选项B错误,雪花模型查询通常较慢;选项D错误,雪花模型维护更复杂。故正确答案为C。22.【参考答案】C【解析】覆盖索引是指索引包含查询所需的所有字段,无需回表查询数据行。使用SELECT*会选取所有列,除非索引包含了表中所有列(极少见且维护成本高),否则无法利用覆盖索引,反而会导致大量的回表操作,降低性能。正确的做法是只查询需要的字段。选项A正确,联合索引需满足最左前缀;选项B正确,对索引列运算会导致索引失效;选项D正确,区分度低的列索引选择性差,优化器可能放弃使用索引。故错误的是C。23.【参考答案】C【解析】Hadoop生态中各组件功能明确:HDFS(HadoopDistributedFileSystem)是分布式文件系统,负责数据存储;MapReduce是分布式计算框架,负责离线批量数据处理;YARN(YetAnotherResourceNegotiator)是资源调度和集群管理系统;ZooKeeper才是典型的分布式协调服务。Hive则是建立在Hadoop之上的数据仓库基础设施,提供类SQL查询功能(HQL),将SQL转化为MapReduce或Spark任务执行。因此,A、B、D描述均错位,只有C正确描述了Hive的定位。故正确答案为C。24.【参考答案】B【解析】Pandas中处理缺失值的常用方法包括:dropna()用于删除含有缺失值的行或列;fillna()用于用指定值填充缺失值;isnull()用于判断每个元素是否为缺失值,返回布尔型DataFrame;drop_duplicates()用于删除重复行。题目要求“删除”包含缺失值的行,因此应使用dropna()。默认情况下,df.dropna()会删除任何包含NaN的行。若需填充则用fillna,若需检测则用isnull。故正确答案为B。25.【参考答案】C【解析】ACID分别代表原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)和持久性(Durability)。A描述的是持久性,即提交后数据永久保存;B描述的是原子性,即不可分割的操作单元;D描述的是一致性,即事务必须使数据库从一个一致性状态变换到另一个一致性状态。C描述的是隔离性,指多个并发事务之间互不干扰,一个事务的执行不应影响其他事务,通过锁机制或多版本并发控制(MVCC)实现。故正确答案为C。26.【参考答案】B【解析】倒排索引是Elasticsearch实现高效全文检索的核心数据结构。它不再是从文档找内容,而是从内容(词条/Term)找文档。具体结构是建立“词条->文档ID列表”的映射关系。当用户搜索某个关键词时,系统直接查找该关键词对应的文档ID列表,从而快速定位相关文档。A描述的是正排索引(StoredFields);C错误,倒排索引并非按文档顺序存储;D错误,倒排索引正是为了支持高效的全文检索和模糊匹配而设计的。故正确答案为B。27.【参考答案】C【解析】Kafka的消费者组机制保证了消息消费的负载均衡和有序性。核心规则是:同一个分区(Partition)在同一时刻只能被同一个消费者组内的一个消费者实例消费,这保证了组内消费的有序性和不重复性(A错,C对)。如果消费者数量超过分区数,多余的消费者将空闲,不会提高吞吐量,因此消费者数不应超过分区总数(B错)。不同的消费者组之间是独立的,可以消费同一个Topic的数据,实现发布-订阅模式(D错)。故正确答案为C。28.【参考答案】C【解析】处理异常值需谨慎,目的是减少其对模型或统计结果的负面影响,同时保留数据真实性。A项3σ原则适用于正态分布数据,超出均值±3倍标准差视为异常;B项箱线图法利用四分位距(IQR),超出1.5*IQR范围视为异常,鲁棒性强;D项聚类算法可将远离簇中心的点识别为异常。C项直接将异常值替换为0是不科学的,因为0本身可能具有特定含义(如“无”),且强行替换会扭曲数据分布和统计特征,通常应采用删除、填补均值/中位数或分箱等方法。故不包括的是C。29.【参考答案】C【解析】浅拷贝(copy.copy)创建一个新的容器对象,但其中填充的是对原容器中子对象的引用。因此,如果原对象包含可变子对象(如列表中的列表),修改浅拷贝后的子对象,原对象中的对应子对象也会改变,因为它们指向同一内存地址。深拷贝(copy.deepcopy)则递归复制所有层级的对象,完全独立。A描述的是深拷贝;B描述的是浅拷贝;D不准确,虽然不可变对象本身不可改,但容器结构可能不同,且概念上二者机制不同。故正确答案为C。30.【参考答案】B【解析】赔付率是衡量保险公司承保业务盈利能力的核心指标之一,反映了每单位保费收入中用于支付赔款的比例。其标准计算公式为:赔付率=已决赔款支出(或发生赔款)/已赚保费(或保费收入)。比值越高,说明赔付成本越高,承保利润空间越小。A项是倒数;C项近似于承保利润率的一部分;D项分母引入了投资收益,不符合标准赔付率定义。故正确答案为B。31.【参考答案】ABCD【解析】维度建模是数据仓库核心技术。星型模型通过非规范化维度表减少表连接,提升查询效率,适合大多数BI场景,故A正确。雪花模型对维度表进一步规范化,虽增加复杂度但能减少数据冗余,节省存储,故B正确。事实表记录业务过程,包含指向维度的外键及可累加的度量指标,故C正确。维度表保留冗余信息(如地址层级)旨在避免多表关联,提高读取性能,故D正确。四者均符合维度建模最佳实践。32.【参考答案】ACD【解析】HDFS是Hadoop分布式文件系统,专为高吞吐量大文件存储设计,A正确。MapReduce基于磁盘迭代,延迟较高,适合离线批处理而非实时流处理,实时场景通常使用Flink或SparkStreaming,故B错误。YARN作为资源管理器,统一分配计算资源,解耦计算框架与资源管理,C正确。Hive将SQL转化为MapReduce或Tez任务,降低了Hadoop使用门槛,D正确。因此正确答案为ACD。33.【参考答案】ACD【解析】在索引列使用函数会导致索引失效,引发全表扫描,应避免,A正确。SELECT*会传输无用数据,增加IO和网络开销,且阻碍覆盖索引优化,应指定具体字段,故B错误。联合索引遵循最左前缀匹配规则,合理设计可加速查询,C正确。大表Join时若关联字段无索引,复杂度极高,建立索引可将嵌套循环优化为索引查找,显著提升性能,D正确。综上,ACD为有效优化手段。34.【参考答案】ABC【解析】数据质量管理关注数据本身特性。完整性指数据记录及字段是否齐全,无缺失,A正确。一致性指同一数据在不同系统或表中逻辑一致,无矛盾,B正确。及时性反映数据更新频率及延迟,满足业务时效需求,C正确。美观性属于前端可视化呈现范畴,不属于数据本身的质量属性,故D错误。保险公司尤其重视数据的准确、完整与及时,以支撑精算与风控决策。35.【参考答案】ABD【解析】DataFrame是Pandas核心结构,类似Excel表格,具有行索引和列标签,A正确。merge支持inner、outer等连接方式,实现多表关联,B正确。groupby生成GroupBy对象,可进行聚合、转换或过滤,并非必须立即聚合,也可遍历或应用自定义函数,故C错误。dropna能删除含缺失值的行或列,是常用清洗手段,D正确。掌握这些基础对数据开发工程师至关重要。36.【参考答案】ABC【解析】保险数据包含客户身份、健康状况等敏感信息,需严格合规加密,A正确。保险生命周期长,涵盖投保、核保、保全、理赔等复杂流程,数据链路长,B正确。保险业发展成熟,拥有多年积累的历史保单与赔付数据,利于精算建模和风险预测,C正确。随着科技发展,非结构化数据如医疗影像、查勘照片、客服录音占比日益增加,数据结构复杂多样,故D错误。37.【参考答案】ABD【解析】抽取(Extract)时应采用增量或错峰策略,避免占用源系统过多资源影响业务,A正确。转换(Transform)核心任务是清洗脏数据、统一格式及代码映射,B正确。加载(Load)可根据场景选择全量或增量方式,对于大规模历史数据,增量加载更高效,并非必须全量,故C错误。完善的日志记录有助于监控任务状态、定位错误及数据血缘追踪,D正确。38.【参考答案】ABC【解析】1NF要求原子性,列不可拆分,A正确。2NF在1NF基础上,要求非主属性完全依赖于主键,消除部分依赖,B正确。3NF在2NF基础上,消除非主属性对主键的传递依赖,C正确。在实际数据仓库或高性能场景中,为提高查询效率,常适当反规范化(冗余字段),牺牲空间换时间,并非必须严格遵守3NF,故D错误。39.【参考答案】ABC【解析】Spark利用内存迭代计算,减少磁盘IO,比MapReduce快得多,A正确。Spark生态丰富,包含SparkSQL、SparkStreaming、MLlib机器学习库等,B正确。RDD是其核心抽象,具备血统机制实现容错,C正确。Spark部署灵活,可运行在YARN、Mesos、Kubernetes或Standalone模式下,不依赖Hadoop,故D错误。40.【参考答案】ABC【解析】数据安全是底线。敏感信息如身份证号、手机号需脱敏展示或加密存储,防止泄露,A正确。权限管理应遵循最小权限原则,仅授权必要人员访问必要数据,B正确。定期备份及恢复演练是防范数据丢失、应对灾难的关键手段,C正确。数据共享需在合规与安全前提下进行,绝不可随意公开,尤其涉及个人隐私和商业机密,故D严重错误。41.【参考答案】ABC【解析】星型模型以事实表为中心,周围环绕维度表,结构简洁且JOIN操作少,查询效率高,A正确。雪花模型对维度表进一步规范化,减少数据冗余,节省存储,但查询时需更多JOIN,B正确。事实表主要存储业务过程的度量指标及关联维度的外键,C正确。维度表可以是非规范化的(如星型),也可以是部分规范化的(如雪花型),并非“必须”非规范化,D错误。维度建模核心在于平衡查询性能与存储效率,实际应用中需根据场景选择模型类型。42.【参考答案】ABC【解析】HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于海量数据存储,A正确。MapReduce是Hadoop的核心计算框架,适用于离线批量处理,B正确。Hive将SQL语句转换为MapReduce任务执行,降低了大数据开发门槛,C正确。Spark是一个通用的内存计算引擎,支持多种资源管理器,包括Standalone、YARN、Mesos和Kubernetes,并非只能运行在YARN上,D错误。掌握各组件定位有助于构建合理的大数据架构。43.【参考答案】ACD【解析】SELECT*会返回所有列,增加网络传输和I/O开销,指定必要字段可减少资源消耗,A正确。对索引列使用函数(如YEAR(date))会导致索引失效,引发全表扫描,应尽量避免,B错误。EXPLAIN能展示SQL的执行路径、索引使用情况等,是定位性能瓶颈的关键工具,C正确。在某些数据库引擎中,JOIN比相关子查询效率更高,因为优化器能更好地优化JOIN顺序,D正确。优化需结合具体数据库特性及数据量综合判断。44.【参考答案】ABC【解析】DataFrame是Pandas核心的二维标记数据结构,类似Excel表格或SQL表,A正确。read_csv是常用IO函数,可将CSV文件加载为DataFrame对象,B正确。merge函数支持inner、outer、left、right等多种连接方式,类似SQLJOIN,C正确。apply函数非常灵活,既可作用于行(axis=1),也可作用于列(axis=0),还可应用于整个DataFrame,D错误。熟练掌握Pandas基础操作是数据清洗与分析的前提。45.【参考答案】ABC【解析】原子性(Atomicity)保证事务是不可分割的最小工作单元,全部成功或全部回滚,A正确。一致性(Consistency)确保事务执行不破坏数据库完整性约束,如外键、唯一性等,B正确。隔离性(Isolation)通过锁或多版本控制机制,使并发事务看似串行执行,互不影响,C正确。持久性(Durability)指事务一旦提交,对数据的修改是永久的,即使系统故障也不会丢失,通常写入磁盘而非仅存内存,D错误。46.【参考答案】A【解析】星型模型是数据仓库
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年安徽省池州市高考英语一模试卷
- 幼儿园老师试用期转正总结
- 初二滑轮组知识点总结
- 在旅行社的实习报告
- 2026年新高考全国卷II文科综合冲刺卷含易错点分析含解析
- 高中政治选修课 1210生活中的心理知识
- 二手工程机械评估师持续改进强化考核试卷含答案
- 光纤筛选工岗前竞争分析考核试卷含答案
- 生活垃圾转运分拣工安全知识宣贯考核试卷含答案
- 多晶硅制取工安全技能评优考核试卷含答案
- 2026AHA-ASA急性缺血性卒中早期管理指南解读课件
- 2026年北京市高校毕业生到农村从事支农工作招聘467人农业笔试参考题库及答案解析
- 【宁波】2025年中共浙江宁波市宁海县委党校招聘事业编制工作人员笔试历年典型考题及考点剖析附带答案详解
- (二模)贵阳市2025年高三年级适应性考试(二)语文试卷
- (完整word版)三级安全教育记录及表格(全)
- 名师整理最新人教部编版语文中考议论文阅读-论证思路及结构专题复习教案含答案
- 预制梁首件施工方案
- 灵芝孢子油课件
- 多媒体技术ppt课件(完整版)
- 2023届浙江省嘉兴市七校高三物理第一学期期中统考模拟试题(含解析)
- Q∕SY 05490-2019 油气管道安全防护规范
评论
0/150
提交评论