数据预处理习题库2020_第1页
数据预处理习题库2020_第2页
数据预处理习题库2020_第3页
数据预处理习题库2020_第4页
数据预处理习题库2020_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

单项选择题(每小题2分,共30分)1.影响数据质量问题的因素有哪些?()A.准确性、完整性、一致性 B.相关性、时效性 C.可信性、可解释性 D.以上都是 2.假设有这么一组排序后的数据:4,8,15,21,21,24,25,28,34,划分为等频的箱:箱1:4,8,15;箱2:21,21,24;箱3:25,28,34,要求:箱1用平均值,箱2用中位值,箱3用箱边界三种方法来光滑噪声数据,下面哪个选项是正确的?()A.9,9,9;22,22,22;25,25,34 B.8,8,8;22,22,22;25,25,34C.9,9,9;21,21,21;25,25,34 D.4,4,15;21,21,21;25,25,253.下面有关转换描述错误的是?()A.转换是ETL解决方案中最主要的部分,主要负责处理抽取、转换、加载各阶段对数据行的各种操作B.转换中的步骤通过跳来连接,定义了一个单向通道C.转换中的跳传递的是一个结果对象 D.转换中的图形化组件被称为步骤 4.下面哪一项不是属于数据归约的策略?()A.维归约 B.数量归约 C.数据压缩 D.属性构造5.下面有关步骤描述错误的是?()A.步骤需要有一个唯一的名字 B.步骤之间通过跳进行数据行的单向传输C.大多数的步骤都可以有多个输出跳 D.可以影子复制 6.基于CDC的数据变更有两种:侵入性和非侵入性的。下面哪一项是属于非侵入性的?()A.基于源数据的CDC B.基于日志的CDC C.基于触发器的CDC D.基于快照的CDC7.下面哪一项描述的正确?()A.拆分字段和拆分字段成多行是一样的 B.合并字段是拆分字段的逆运算C.拆分字段步骤支持正则表达式 D.使用拆分字段成多行步骤,被拆分的字段将不复存在8.以下说法错误的是?()A.主成分分析、属性子集选择为维归约方法。B.直方图、聚类、抽样和数据立方体聚集为数量归约方法。C.用于规约的时间可以超过或抵消在规约后的数据上挖掘节省的时间。D.数据集成有助于减少结果数据集的冗余和不一致,这有助于提高其后挖掘过程的准确性和速度。9.下列说法不正确的是?()A数据集成时一般会用到数据仓库B.业务键通常来源于业务系统C.事实表加载前,先加载维表 D.雪花模型的各个维表之间没有依赖关系10.以下说法错误的是?()A.可能通过pymysql.connect(host,user,password,database)连接到mysql数据库B.cursor.execute(sql)执行SQL语句 C.cursor.fetchall()获取一行执行结果D.若改变了数据库里的数据,需要调用commit()来提交11.转换创建并保存后的文件后缀名是?()A.ktr B.kjb C.kbj D.krt12.下列合并多个数据集说法错误的是?()A.pandas.merge基于一个或多个键连接多个DataFrame中的行B.pandas.concat按行或按列将不同的对象叠加到一起C.pandas.merge默认的合并操作使用的是innerjoin,通过传递how参数修改为outerjoinD.concat函数的axis参数值为0,表示沿着横轴串接,生成一个新的Series对象13.以下说法错误的是?()A.去除重复数据时若需要保留最后一个值需要keep=’last’参数 B.调用duplicated方法可以对重复数据去除C.使用去除重复数据步骤必须先排序 D.Kettle提供了去除不完全重复数据的步骤14.有关Kettle设计原则说法不正确的是?()A.易于开发 B.运行状态透明化C.只映射需要的字段 D.命名必须用汉字或英文15.以下说法错误的是?()A.一个作业包含一个或多个作业项 B.作业项可以是转换也可以是作业C.作业执行顺序是由跳和每个作业执行结果来决定的 D.作业和转换都可以并行执行16.下列有关变量的说法错误的是?()A.系统变量包括Java虚拟机和Kettle的内部变量B.可以使用perties文件来设置变量C.可以使用${变量}或%%变量%%来调用变量 D.作业中的每个作业项中都可以使用所有的变量17.在数据预处理阶段,数据类型被统一,使得挖掘过程可能更有效,挖掘的模式可能更容易理解,这个过程被称为?()A.数据清理 B.数据集成 C.数据规约 D.数据变换18.以下说法正确的是?()A.事实表中,数据粒度很细,这类通常是事务型事实表 B.周期快照事实表,通常是汇总的数据C.累积快照事实表,数据生成后,后续经常有变化 D.以上都正确19.下面有关SQL说法不正确的是?()A.删除表可用drop B.修改表结构可用updateC.增加数据可用insertinto D.切换数据库可用use20.下列关于为什么要做数据清理描述错误的是?()A. 数据有错误 B.数据量太大 C.数据有缺失 D.数据有重复21.下面有关Kettle中连接关系型数据库的说法不正确的是?()A.“数据库连接”窗口中连接名称必须在作业或转换范围内唯一的名称B.可以在“选项”中设置编码格式 C.主机名称、用户名和密码均不可使用变量D.端口号一般是选中的数据库服务器的默认端口号22.下列关于描述正确的是?()A.字符串剪切步骤的功能相对单一,就是根据设置的剪切位置对输入的字段剪切B.字符串操作支持正则表达式C.字符串替换支持大小写的转换D.字符串操作不支持数字的提取23.下面有关参照表描述错误的是?()A.外部的参照数据里的信息是完整的、标准的,也称这些参照数据为主数据B.大部分的主数据都是可以免费下载的C.使用参照表可以校验数据的准确性D.使用参照表可以使数据一致24.下列有关变量的说法错误的是?()A.系统变量包括Java虚拟机和Kettle的内部变量B.可以使用perties文件来设置变量C.可在“设置变量”中设置作业项的属性 D.变量一旦设置将不可以修改填空题数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策和信息的全局共享。它主要由(1)和(2)组成。Pandas是一个Python的开源库,提供了高性能且易于使用的数据结构及数据分析工具。提供了两种主要数据结构(3)和(4),其中,(5)用于处理一维数据,(6)用于处理二维数据。SQL语言的用户对join操作很熟悉,它用于合并数据集,按照一个或多个特定的键来连接相关的行。在关系型数据库中,连接操作处于中心的位置。pandas提供了(7)函数,可以对数据集进行类似数据库连接的操作。维度表有两个典型的模型,其中(8)模型加载时不分先后顺序,而(9)是在前一个模型的基础上扩展面来的。可调用DataFrame的(10)方法返回一个布尔型(11),用以提示各行是否是重复行。一个作业包括一个或多个作业项,这些作业项以某种顺序来执行。作业执行顺序由作业项之间的(12)和每个作业项的(13)来决定。所谓数据清理,就是试图检测和去除数据集中的(14)和(15),处理遗漏数据,去除空白数据域和知识背景下的白噪声,解决数据的(16)、唯一性问题,从而达到提高数据质量的目的。(17)作业项是一个特殊的作业项,一个作业必须而且只能定义一个。数列为[5,5,8,15,12,15],使用z-score方法映射后为[(18),(19),(20),(21),(22),(23)](注,均值为10,标准差为:4.243)星型模型中,维度表通过(24)和事实表的外键的关联。Kettle作业的监控方式有两种,其中(25)是对运行过程的信息反馈,(26)是通知管理员作业的执行情况。判断题1.Pandas是一个Python开源库,提供了高性能且易于使用的数据结构及数据分析工具。 ()2.Kettle提供了大量的数据清洗步骤,没有必要再使用脚本组件来做数据清理。()3.数据预处理的数据清理、数据集成、数据变换与数据归约流程并不是完全分开的,在某种场景下是可以一起使用的。()4.Kettle作业的监控方式有两种,即日志和邮件。 ()5.缓慢变化维,主要分为三种,其中类型2当前最新数据会覆盖旧数据。()6.concat函数的axis参数取值为0,表示行的串接,生成一个新的Series对象,如果传递axis=1,表示列的串接,结果得到一个新的DataFrame对象。 ()7.Kettle中,参照数据流到流查询步骤对应的跳上会出现一个“i"标识。()8.merge默认执行的是类似于SQL中的outerjoin操作。()9.缓慢变化维只有三种类型。()10.业务键和代理键都通过ETL生成。项目中,我们要确保业务键的唯一性。 ()11.Kettle中,作业中的跳有三种类型,分别是无条件的,结果为真,结果为假。 ()12.Series对象的index可以通过赋值来改变。 ()13.作业项可以有影子拷贝,这样可以把作业项放在多个不同的位置。这些影子拷贝里的信息都是相同的,编辑了一个拷贝,其他拷贝也随之修改。()14.Kettle支持自定义脚本开发。()15.在一个作业中,START作业项可以多次出现。 ()16.Kettle中的步骤不可并行执行的。()简答题简述星型模型和雪花模型的特点。列举至少五个在数据清理中处理缺失值的方法。什么是CDC?列出CDC操作的常见方法,并标明是否是侵入性的。数据预处理的大体流程是什么?应用题两个DataFrame实例:df1=DataFrame({'key':['b','b','a','c','a','a','b'],'data1':range(7)})df2=DataFrame({'key':['a','b','d'],'data2':range(3)})求pd.merge(df1,df2)的结果?s1=Series([0,1],index=['a','b'])s2=Series([2,3,4],index=[

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论