数据清洗整 理技师考试试卷及答案_第1页
数据清洗整 理技师考试试卷及答案_第2页
数据清洗整 理技师考试试卷及答案_第3页
数据清洗整 理技师考试试卷及答案_第4页
数据清洗整 理技师考试试卷及答案_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据清洗整理技师考试试卷及答案一、填空题(每题1分,共10分)1.数据清洗中,缺失值的常用处理方法包括填充、删除和______。2.pandas中用于删除重复行的函数是______。3.数据质量的核心维度包括准确性、完整性、一致性、及时性和______。4.Excel中快速定位缺失值的快捷键组合是Ctrl+G后选择______。5.异常值检测常用的方法有Z-score法、IQR法和______。6.ETL流程中,T代表______。7.数据标准化中,将数据缩放到[0,1]区间的方法是______。8.SQL中用于去除重复记录的关键字是______。9.数据脱敏常用的方法有替换、遮蔽和______。10.pandas中查看数据基本统计信息的函数是______。二、单项选择题(每题2分,共20分)1.以下不属于数据清洗步骤的是?A.数据采集B.缺失值处理C.重复值删除D.异常值检测2.pandas中,fillna()方法默认填充的是?A.均值B.中位数C.空值D.无默认(需指定)3.以下哪种方法属于缺失值填充的“前向填充”?A.method='ffill'B.method='bfill'C.interpolate()D.fillna(mean)4.Excel中,若要删除重复项,应使用“数据”选项卡中的哪个功能?A.排序B.删除重复项C.筛选D.条件格式5.Z-score法中,通常认为Z值绝对值大于多少为异常值?A.2B.3C.4D.56.以下哪种工具主要用于数据清洗的SQL操作?A.MySQLB.pandasC.ExcelD.Tableau7.数据一致性检查不包括以下哪项?A.字段格式统一B.关联数据匹配C.数据时效性D.编码一致8.pandas中,将字符串转换为日期类型的函数是?A.to_datetime()B.to_date()C.strftime()D.date_range()9.以下属于数据转换操作的是?A.缺失值填充B.单位转换C.重复值删除D.异常值检测10.数据脱敏的主要目的是?A.提高数据完整性B.保护数据隐私C.加快数据处理速度D.减少数据存储量三、多项选择题(每题2分,共20分)1.数据清洗的主要目标包括?A.提高数据质量B.满足分析需求C.减少数据冗余D.加快数据传输2.缺失值处理的常见方法有?A.均值填充B.中位数填充C.前向填充D.删除整行3.异常值检测的方法有?A.Z-score法B.IQR法C.箱线图法D.聚类法4.pandas中处理重复值的方法有?A.drop_duplicates()B.duplicated()C.fillna()D.merge()5.数据质量的维度包括?A.准确性B.完整性C.一致性D.及时性6.Excel中数据清洗的常用功能有?A.删除重复项B.条件格式(标记异常值)C.数据验证D.排序7.数据转换的常见操作有?A.类型转换B.单位转换C.编码转换D.字符串拆分8.以下属于数据脱敏方法的是?A.替换B.遮蔽C.加密D.泛化9.ETL流程包括哪些环节?A.提取(Extract)B.转换(Transform)C.加载(Load)D.分析(Analyze)10.以下工具可用于数据清洗的是?A.pandasB.ExcelC.SQLD.Tableau四、判断题(每题2分,共20分)1.缺失值删除一定比填充更优。()2.pandas的drop_duplicates()默认保留第一个重复行。()3.IQR法中,异常值是小于Q1-1.5IQR或大于Q3+1.5IQR的值。()4.Excel中“条件格式”可用于标记缺失值。()5.数据标准化中,Z-score标准化的均值为0,标准差为1。()6.SQL的DISTINCT关键字可删除所有重复记录。()7.数据清洗只需要处理结构化数据,非结构化数据不需要。()8.pandas的fillna(method='bfill')是后向填充。()9.数据脱敏会改变原始数据的业务含义。()10.数据清洗是数据分析的前置步骤。()五、简答题(每题5分,共20分)1.简述数据清洗中缺失值处理的常用方法及适用场景。2.简述pandas中处理重复值的步骤。3.简述数据标准化的两种常用方法(Min-MaxScaling和Z-score)及适用场景。4.简述数据质量的核心维度及各维度含义。六、讨论题(每题5分,共10分)1.讨论在处理客户数据缺失值时,如何平衡数据完整性和分析准确性?2.讨论异常值处理的原则及常用策略,举例说明。---参考答案一、填空题答案1.插值法2.drop_duplicates()3.有效性4.空值5.箱线图法6.转换(Transform)7.Min-MaxScaling8.DISTINCT9.加密10.describe()二、单项选择题答案1.A2.D3.A4.B5.B6.A7.C8.A9.B10.B三、多项选择题答案1.ABC2.ABCD3.ABCD4.AB5.ABCD6.ABCD7.ABCD8.ABCD9.ABC10.ABC四、判断题答案1.×2.√3.√4.√5.√6.×7.×8.√9.×10.√五、简答题答案1.缺失值处理方法及场景:①删除法:删除含缺失值的行/列,适用于缺失比例<5%、删除后不影响分布的场景;②填充法:均值(正态分布数值)、中位数(偏态分布数值)、众数(类别型),适用于缺失比例中等的场景;③插值法:线性/多项式插值,适用于时间序列等有序数据;④模型填充:KNN/决策树预测,适用于缺失比例高、数据关联强的场景。2.pandas处理重复值步骤:①检测:用duplicated()返回布尔Series标记重复行;②查看:df[df.duplicated()]定位重复详情;③删除:drop_duplicates(),默认保留第一个(keep='first'),可指定subset去重特定列;④验证:duplicated().sum()确认无重复。3.两种标准化方法:①Min-MaxScaling:缩放到[0,1],公式(X-Xmin)/(Xmax-Xmin),适用于无明显分布、需保留相对关系的场景(如图片像素);②Z-score:均值0、标准差1,公式(X-μ)/σ,适用于正态分布、需消量纲的场景(如聚类)。异常值下Z-score更稳健。4.数据质量核心维度:①准确性:数据与真实值一致;②完整性:无字段/记录缺失;③一致性:格式、编码统一,关联数据匹配;④及时性:采集/更新满足业务时间需求;⑤有效性:符合业务规则(如日期格式)。各维度关联,影响分析可靠性。六、讨论题答案1.客户数据缺失值平衡策略:①先分析缺失原因:随机缺失(如系统遗漏)用前向填充(时间序列行为)或众数填充(类别型);非随机缺失(如敏感信息未填)用模型填充(消费/年龄预测职业),避免删除(样本偏差);②缺失比例>10%:结合业务,如地址缺失若分析地域则补充(IP定位),若分析消费则保留;③验证:对比填充前后分布,做敏感性分析。2.异常值处理原则及策略:原则:先检

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论