版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年数据专员上机测试题及答案
一、单项选择题(20分)1.数据清洗中,对于数值型缺失值且缺失比例<5%、数据分布近似正态,最常用的填充方法是?A.均值填充B.中位数填充C.众数填充D.删除行2.SQL中统计某字段不同类别记录数的聚合函数是?A.SUMB.COUNTC.AVGD.MAX3.Excel中多工作表双向匹配效率最高的函数组合是?A.VLOOKUPB.INDEX+MATCHC.HLOOKUPD.SUMIF4.不属于常用数据可视化工具的是?A.TableauB.PowerBIC.Excel图表D.Notepad++5.数据质量维度中“符合业务规则”属于?A.准确性B.完整性C.一致性D.合规性6.GDPR用户权利不包括?A.数据访问权B.数据删除权C.数据修改权D.数据永久存储权7.不受极端值影响的集中趋势指标是?A.均值B.中位数C.众数D.标准差8.ETL核心环节不包括?A.提取B.转换C.加载D.存储9.Excel中“销售额>1000且地区为华东”的筛选应使用?A.自动筛选B.高级筛选C.数据透视表D.条件格式10.SQL中去除重复记录的关键字是?A.DISTINCTB.GROUPBYC.HAVINGD.WHERE二、填空题(20分)1.数据清洗步骤包括:数据抽取、______、缺失值处理、重复值处理等。2.SQL中GROUPBY用于______,HAVING用于筛选分组结果。3.Excel中按条件计数的函数是______。4.数据可视化核心原则是______(突出核心信息)。5.GDPR要求用户数据处理需获得______(明确同意)。6.ETL转换环节包括格式转换、______、合并等。7.反映数据离散程度的指标有______、方差等。8.重复值处理方法:删除、______、保留最新记录。9.数据字典核心内容:数据项名称、______、类型等。10.Excel数据透视表数值字段默认聚合方式是______。三、判断题(20分)1.SQL中DISTINCT只能单个字段去重。()2.ExcelCOUNTIF可统计文本型条件记录。()3.可视化应优先用3D图表提升美观。()4.GDPR要求数据删除请求30天内响应。()5.ETL加载无需验证数据。()6.中位数不受极端值影响。()7.异常值只能删除不能保留。()8.SQLJOIN必须指定ON子句。()9.Excel数据透视表可刷新同步源数据。()10.数据一致性指不同系统值完全相同。()四、简答题(20分)1.简述数据清洗中缺失值的4种处理方法及适用场景。2.说明SQL中GROUPBY与HAVING的区别及使用场景。3.简述Excel数据透视表的核心功能及3个基本步骤。4.列举数据可视化的5个基本设计原则。五、讨论题(20分)1.某电商近半年订单“商品ID为空”(缺失3%),结合业务讨论处理方案及理由。2.对比Excel与SQL优缺点,说明优先选SQL的场景。3.企业服务欧盟用户需符合GDPR,数据专员重点关注3个合规要点及建议。4.10万条Excel销售数据导入数据库,ETL流程需注意5个关键问题。答案及解析一、单项选择题答案及解析1.A解析:正态分布数值型缺失值,均值填充保持分布特征;中位数适用于偏态,众数适用于类别。2.B解析:COUNT统计记录数,SUM求和,AVG求平均,MAX求最大值。3.B解析:INDEX+MATCH双向匹配,效率高于仅右向的VLOOKUP,适合多表匹配。4.D解析:Notepad++是文本编辑器,不属于可视化工具。5.C解析:一致性指数据符合业务规则,准确性指无错误,完整性指无缺失。6.D解析:GDPR无永久存储权,要求数据最小化存储。7.B解析:中位数是排序中间值,不受极端值影响;均值受极端值影响大。8.D解析:ETL是提取-转换-加载,存储是加载后环节,不属于核心。9.B解析:高级筛选支持多条件组合,自动筛选仅支持简单条件。10.A解析:DISTINCT去除重复记录,GROUPBY分组,HAVING筛选分组结果。二、填空题答案及解析1.数据探查解析:数据清洗第一步需了解数据情况。2.数据分组解析:按指定字段分组,便于聚合分析。3.COUNTIF解析:格式为COUNTIF(区域,条件),支持文本/数值条件。4.简洁性原则解析:突出核心信息,避免冗余装饰。5.明确同意解析:GDPR要求同意需明确、具体,不能默认勾选。6.缺失值处理解析:转换环节需确保数据符合目标要求。7.极差解析:离散程度指标包括极差(最大值-最小值)、方差等。8.标记重复值解析:除删除外,可标记重复值以便后续分析。9.业务含义解析:数据字典需明确数据项的业务意思。10.求和解析:数值型字段默认聚合方式为求和,可改为计数、平均等。三、判断题答案及解析1.×解析:DISTINCT可用于多个字段,去除组合重复记录。2.√解析:COUNTIF支持文本条件,如COUNTIF(A:A,"华东")。3.×解析:3D图表扭曲数据,降低可读性,优先2D图表。4.√解析:GDPR规定删除请求需30天内响应(可延长至60天)。5.×解析:加载后需验证数据完整性、准确性。6.√解析:中位数仅依赖排序中间位置,与极端值无关。7.×解析:异常值可通过盖帽法(如99分位数替换)保留。8.√解析:JOIN必须指定ON子句(CROSSJOIN除外,业务少用)。9.√解析:刷新按钮可同步源数据修改。10.×解析:一致性指逻辑一致(如“销售额”定义相同),而非值完全相同。四、简答题答案1.缺失值处理:①均值填充:数值型、低缺失、正态分布;②中位数填充:数值型、偏态分布(避极端值);③众数填充:类别型、低缺失;④删除行:缺失比例>20%或无意义;⑤插值法:时间序列数据(按趋势填充)。(答4种即可)2.区别:GROUPBY是分组子句,HAVING是分组后筛选子句。场景:GROUPBY按部门统计人数;HAVING筛选人数>10的部门(需配合GROUPBY)。3.功能:快速汇总、交叉分析、多维度统计。步骤:①选源数据;②插入数据透视表;③拖字段到行/列/值区域;④设置聚合方式;⑤刷新同步。4.原则:①简洁性;②准确性;③清晰性;④一致性;⑤相关性;⑥可理解性。(答5个即可)五、讨论题答案1.方案:①探查原因:若因临时商品未录ID,标记为“未知商品”;若因传输错误,补充ID;②不删除(3%比例低,避免丢失订单信息);③若无法补充,标记后分析未知商品的用户/金额特征。理由:删除损失数据,补充/标记更贴合业务。2.Excel优点:可视化操作,适合小数据;缺点:大数据慢、多表关联复杂。SQL优点:大数据高效、多表灵活、批量操作;缺点:需代码。优先SQL场景:大数据(>10万条)、多表关联、批量重复操作、自动化任务。3.要点:①数据最小化:仅收集必要数据;②明确同意:用户勾选同意而非默认;③数据可携带:提供导出工具;④数据安全:加密/访问控制;⑤bre
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年哈尔滨市第八医院医护人员招聘笔试题库及答案详解
- 2026年西宁市城北区中医院医护人员招聘考试参考题库附答案详解
- 2025年青岛肛肠医院青岛市市北区医院医护人员招聘笔试题库及答案详解
- 2025年杭州市萧山区皮肤病防治院医护人员招聘笔试题库及答案详解
- 招聘2人!都兰县人民医院公开招聘临床药学、财务工作人员笔试模拟试题及答案详解
- 2025年大兴安岭林业集团总医院医护人员招聘笔试题库及答案详解
- 可持续城市设计中的绿地空间-洞察与解读
- 2025年成都第四十中学小升初入学分班考试英语试卷(含答案解析)
- 2026年初中数学章节测试题及答案
- 2026年联邦chams测试题及答案
- 2026年辽宁锦州海通实业有限公司计划招录28人备考题库含答案详解
- 2026中国铁建纪委办案中心社会招聘13人笔试模拟试题及答案详解
- 2025年四川资阳市八年级地理生物会考真题试卷+答案
- 深基坑开挖与支护施工监理实施细则
- 钢-混组合连续梁支座预顶升施工工艺
- 《汽车底盘电控系统实训工单(AR版)》课后部分参考答案 廖光宙
- 《疫苗管理法》法律法规解读课件
- 农商银行强化公司治理年工作总结-银行工作总结
- GB 4569-2000摩托车噪声限值及测试方法
- 网络路由重发布
- 招标代理机构廉洁从业措施
评论
0/150
提交评论