数据导入与预处理期末习题_第1页
数据导入与预处理期末习题_第2页
数据导入与预处理期末习题_第3页
数据导入与预处理期末习题_第4页
数据导入与预处理期末习题_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章

一、单项选择题

1、数据集成的方法有(D)

A、联邦数据库

B、中间件集成。

C、数据复制

D、以上都是

2、以下说法错误的是(B)

A、数据预处理的主要流程为数据清理、数据集成、数据变换与数据归约.

B、数据清理、数据集成、数据变换、数据归约这些步骤在数据预处理活动中必须

顺序使用。

C、冗余数据的删除既是一种数据清理形式,也是一种数据归约。

D、整个预处理过程要尽量人机结合,尤其要注重和客户以及专家多交流。

3、处理噪声的方法一般有(D)

A、分箱

B、回归。

C、聚类

D、以上都是

4、数据集成的过程中需要处理的问题有(D)

A、实体识别

B、冗余与相关性分析。

C、数据冲突和检测

D、以上都是

5、影响数据质量问题的因素有哪些(D)

A、准确性、完整性、一致性

B、相关性、时效性

C、可信性、可解释性

D、以上都是

6、数据归约的方法有(D)

A、维归约

B、数量归约C、

数据压缩D、

以上都是

7、以下说法错误的是(C)

A、主成分分析、属性子集选择为维归约方法.

B、直方图、聚类、抽样和数据立方体聚集为数量归约方法。

C、用于规约的时间可以超过或抵消在规约后的数据上挖掘节省的时间。

D、数据归约的目的用于帮助从原有庞大数据集中获得一个精简的数据集合,并

使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据

挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果是基

本相同。

8、下列方法不是数据变换的有(B)

A、光滑

B、抽样

C、规范化

D、属性构造

二、填空题

1、在下表中,用同类样本属性的中心度量方法填充空缺值,空缺值应为90在,

客户编号客户名称风险等级收入

1张三35000

2李四28000

3王五210000

4赵六115000

5李木2

6王权116000

2、假定属性income的最小与最大值分别为25000和3000,根据最小一最大规范化方法

将income10000映射到[0,1]范围内,值为0.318。

3、数列为[3,5,10,15,10,13],使用z-score方法映射后为

1-L650-L178.0.1.178.0.0,7071

(注,均值为10,标准差为:4.243)

4,一组排序后的数据:5,8,11,19,22,24,27,36,92,划分为等频的箱:箱1:5,8,11;箱2:

19,22,24;箱3:27,36,92,要求:箱1用平均值,箱2用中位值,箱3用箱边界三种方法来光

滑噪声数据,求光滑噪声后的数据为:8,8,8,22,22,22,27,27,92

第二章

一、填空

1.Kettle是一^外Java程序

2.转换是ETL解决方案中最主要的部分,它负责处理抽取、转换、加载各阶段

对数据行的各种操作

3.转换里的步骤通过里来连接

4.跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动

5.在Kettle里,数据的单位是工数据流就是数据行从一个步骤到另一个步骤的移动

6.数据流的另一个同义词就是记录流。

7.步骤是转换里的基本组成部分。它是一个图形化的组件,可以通过配置步骤的参

数,使得它完成相应的功能。

8.表输入步骤可以从指定的数据库中读取指定关系表的数据

9.步骤需要有一个唯一性的名字。

10.一个跳,相对于输出数据的步骤而言,为输出跳;相对于输入数据的步骤而言,

为输入跳。

11.一个步骤的数据发送可以被设置为轮流发送和复制发送。

12.轮流发送是将数据行依次发给每一个输出跳,复制发送是将全部数据行发

送给所有输出跳

13.在运行转换时,一个线程运行一个步骤,所有步骤的线程几乎同时运行。

14.从程序执行的角度看,3实际上是两个步骤线程之间进行数据行传输的缓存。这个

缓存被称为行集。

15.Kettle使用图形化的方式定义复杂的ETL程序和工作流,所以被归类为可视化式

程语言。

16.Kettle的参:数呼詈分为环境变量配置和命名参数两类,

17.环境变量具有全局性质,配置后的环境变量对所有转换、作业都可用、有效;

命名参数具有局部性质,仅对当前转换、作业有效。

二、判断

1.Kettle不是开源软件。(错)

2.Kettle使用Java编写的非可视化工具。(错)

3.Kettle中的步骤是顺序执行的。(错)

4.Kettle中的步骤是并行执行的。(对)

5.步骤的名称具有唯一性。(对)

三、简答

1、什么是转换?

转换是ETL解决方案中最主要的部分,它负责处理抽取、转换、加载各阶段对数据黄行的

各种操作。

2、什么是跳?

转换中的步骤通过跳来连接,跳定了一个单向通道,允许数据从一个步骤向另一个步骤流

3、Kettle的参数配置分为哪两类,并简述每一类的作用范围。

Kettle的参数配置分为环境变量配置和命名参数两类。环境变量具有全局性质,配置后

的环境变量对所有转换、作业都可用、有效;命名参数具有局部性质,仅对当前转换、作业有

效。

第三章

一、填空题

1.文本文件主要分为_分隔符文件和固定宽度文件两大类。

2.CSV文件是一种用分隔符分割的文本文件。

3.Excel的数据可分为结构化的表格数据和非结构化的表格数据。

4.Kettle提供了HTTPClient和HTTPPost步骤从Web上获取数据。

5.查询类的步骤,需要一个输入类的步骤来激活。

6.基本上CDC可以分为两种,一种是侵入性的,另一种是非侵入性的。

7.基于源数据的CDC要求源数据中相关的属性列。最常见的两种属性列是时间戳

和自增序列。

8.当INSERT、UPDATE、DELETE等SQL进行执行时,可以触发数据库自有的触发

选_______,并执行某些动作。

9.Kettle里的合并记录步骤就可以用来比较两个表的差异。

10.基于触发器的具有侵入性的CDC操作,可以实时监测到源数据的变化。

11.基于日志的CDC操作是非侵入性的。

12.基于源数据的CDC操作,不能捕获物理删除的数据,可以捕获逻辑删除

的数据。

13.基于源数据的CDC不适用于实时数据捕获,适用于批量操作。

14.XML文件不是普通的文本文件,而是一种遵循规范的半结构化的文本文件。

15.对于JSON文件,Kettle可以用JSONInput和JSONOutput步骤完

成文件的读取与输出。

二、判断

1.在“数据库连接”窗口中,在一个作业或转换范围内连接名称不能重复。(V)

2.查询类的步骤不需要激活,可以直接运行。(x)

3.触发器的CDC的可以实时监测到数据的所有变化。(V)

三、简答

1、在ETL工作中,我们常常面临着处理各种类型的文件场景,请列举几个文件类型。

TXT、CSV、Excel,XML、JSON等

2、什么是CDC

识别出变化的数据并只导入这部分数据被称为变化数据捕获(ChangeDataCapture)

即CDC

3、CDC操作分为哪四种,并标明是否是侵入性的。

基于源数据的CDC,侵入性;

基于触发器的CDC,侵入性;

基于快照的CDC,侵入性;

基于日志的CDC,非侵入性

4、简述基于日志的CDC操作的优缺点。

优点:基于日志的方式是最高级的、最没有侵入性的CDC方法;

缺点:只能用来处理一种特定的数据库

第四章

一、选择题:

1.下列关于为什么要做数据清理描述错误的是(D)

A,数据有重复

B.数据有错误

C.数据有缺失

D.数据量太大

2.下列关于数据清理描述错误的是(A)

A.数据清理能完全解决数据质量差的问题

B.数据清理在数据分析过程中是不可或缺的一个环节

C.数据清理的目的是提高数据质量

D.可以借助Kettle来完成大量的数据清理工作

3.下列关于使用参照表清洗数据说法错误的是(B)

A.有些数据无法从内部发现错误,需要结合外部的数据进行参照

B.只要方法得当,数据内部是可以发现错误的,不需要借助参照表

C.使用参数表可以校验数据的准确性

D.使用参照表可以处理数据的一致性

二、判断题:

1.在Kettle中,不存在单一的清洗步骤,清洗工作往往需要结合多个步骤才能组合完成。

V

2.在使用表输入步骤进行数据抽取时,应尽量避免使用复杂的SQL语句进行数据筛选。V

3.由于大部分的数据都是准确无误的,存在问题的数据只占极少部分,只要数据分析的方

式正确,是不需要进行数据清理的。x

4.Kettle中,参照数据流到流查询步骤对应的跳上会出现一个“i”标识。V

5.Kettle提供了大量的数据清洗步骤,没有必要再使用脚本组件来做数据清理。x

三、填空题:

1.重复数据分为哪两类:完全重复数据、/完全重复数据,

2.Kettle目前的版本中提供了三个关于字符串清洗的步骤,分别是字符串操作一步骤、

一字符串替换步骤和字符串剪切步骤

3.Kettle提供的字符串替换步骤的功能非常强大,主要是因为该步骤支持一正则表达式

4.需要将一个行记录拆分成多行记录时,可以选择拆分字段成多行步骤;需要

将一个字段拆分成多个字段时,可以选择拆分字段步骤。

5.在Kettle中,提供了两个可以比较相似度的步骤,它们分别是计算器步骤

、楼糊口配步骤_________________0

6.所谓数据清理,就是试图检测和去除数据集中的—噪声数据—和—无关数据处理遗漏数

据,去除空白数据域和知识背景下的白噪声,解决数据的一一致性一、_唯一性—问题,从而

达到提高一数据质量一的目的。

四、简答题:

1.数据清理主要目的是什么?

参考答案:数据清理,就是试图检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,去除

空白数据域和知识背景下的白噪声,解决数据的一致性、唯一性问题,从而达到提高数据质量

的目的。

2.请简单描述下如何去除不完全重复数据?

参考答案:第一步,选定一个或多个字段,使用模糊匹配步骤找出疑似重复数据的记录

第二步,选定一个或多个字段做为参考字段,进一步检测数据的可能重复性

第三步,去除或者合并这些疑似重复的记录,这一步是非常关键的一步,需要结合多方面的因素

进行综合评估,最终才能确定一个合并/去除的方案。

第五章

--填空

1.作业有一作业项.一跳一、注释组成。

2.作业创建并保存后的文件后缀名是一*.kjb―。

3.作业执行顺序由作业项之间的一跳和每个作业项的一执行结果一来决定。

4.kettle使用一种一回溯—算法来执行作业里的所有作业项。

5.一个作业包括一个或多个作业项,这些作业项以某种顺序来执行。作业执行顺序由作业

项之间的一跳—和每个作业项的—执行结果^一来决定。

6..START—作业项是一个作业的起点。它的作用是设置作业的定时调度

7._START_作业项是一个特殊的作业项,一个作业必须而且只能定义一个。

8.如果定义了变量"hostname,那么在程序中弓I用的格式是■$(hostname这£%%hostname%%”

9.作业的监控有2种:一日志和一邮件一。

二、判断

1.作业中的注释是可有可无的,因此它不重要。(错)

2.注释是为了增强程序的可读性,能大大减低维护成本。(对)

3.在一个作业中START作业项可以多次出现。(错)

4.变量是一个任意长度的字符串值,它有自己的作用范围。(对)

5.在kettle中所有文本输入框都可以使用变量。(错)

三、问答:

1.作业项有哪些不同于转换步骤?

可以影子拷贝,•作业项之间传递一个结果对象;可以并行执行。

2.作业跳对作业项对运行结果的判断有哪三种方式?

无条件的;当结果为真的时候继续下一步;当结果为假的时候继续下一步。

3.写出下面这个作业的执行顺序。

B

c

1.首先"开媪作业项搜索所有下一个节点作业项,找到了'A和€",

2.执行'A"0

3.搜索A后面的作业项,发现了B'.

4.执行

5.搜索B后面的作业项,没有找到任何作业项。

6.回到A",也没发现其他作业项。

7.回到START",发现另一个要执行的作业项'C".

8.执行'C",,

9.搜索C后面的作业项,没有找到任何作业项。

10.回到START",没有找到任何作业项。

11.作业结束。

第六章

一、判断题

(V)1、数据仓库主要有事实表和维度表组成,维表主要存放各类属性,事实表主要

存放业务数据。

(X)2、业务键和代理键都通过ETL生成。项目中,我们要确保业务键的唯一性。

(x)3、身份证号、手机号、学号等是常见的代理键°

(V)4、星型模型汇中,事实表是模型的中心,外围是若干张维表,每张维表都和

事实表直接连接。

(x)5、缓慢变化维,主要分为三种,其中类型2当前最新数据会覆盖旧数据。

(V)6、缓慢变化维类型3:业务主体数据发生变化时,用当前最新数据生成新的

记录,并且在该行记录中记录上一个版本部分关键信息。

(V)7、事务事实表记录的是事务层面的事实,保存的是最原子的数据,也称原

子事实表"。

二、单项选择题

1、下列说法错误的是(A)

A、数据仓库就是数据库。

B、业务键通常来源于业务系统

C、事实表加载前,先加载维表

D、星型模型的各个维表之间没有依赖关系

2、以下说法错误的是(C)

E、雪花模型有多个相互依赖的维表,加载时要注意先后顺序

F、雪花模型是在基于星型模型之上拓展来的,每一个维度可以再扩散出更多的维度,

根据维度的层级拆分成颗粒度不同的多张表

G、事实表和维表之间通过业务键关联

H、雪花模型的主维表和非维表之间是N对1的关系

3、以下说法错误的是(C)

D、时间、日期维属于生成维

E、混合维较少用,实现比缓慢变化维中的类型1、类型2、类型3三种类型复杂。F、

杂项维的属性通常可以分为特定的几个分类

D、类型2缓慢变化维,不会直接覆盖以前的版本,每次更新会生成新的记录

4、以下说法错误的是?(C)

A、可能通过pymysql.connect(host,user,password,database)连接至ijmysql数据库B、

cursor.execute(sql)执行SQL语句

C、cursor.fetchall()获取一行执行结果

D、若改变了数据库里的数据,需要调用commit。来提交

三、不定项选择题

1、以下说法正确的是(B)

E、事实表的批量加载,我们使用“表输出”即可

F、对传统数据库进行DML操作时,会产生大量日志数据

G、对传统数据库进行DML操作时,数据库管理系统不会进行约束性检查

H、Kettle提供了SQLServer数据库的批量加载控件

2、以下说法正确的是(ABCD)

A、查找维度时,要正确的查找代理键

B、查找维度时,注意数据完整性问题C、

数据延迟主要是指事实表数据延迟D、

先加载维度表,接着加载事实表

3、以下说法正确的是(ABCD)

A、事实表中,数据粒度很细,这类通常是事务型事实表

B、累积快照事实表,数据生成后,后续经常有变化

C、周期快照事实表,通常是汇总的数据。

D、以上都正确

四、填空题

(1)数据仓库(DataWarehouse)是一个一面向主题的__、____集成的、相对稳定

的_、_反映历史变化—的数据集合,用于支持管理决策和信息的全局共享。它主要由

事实表_和_维度表_组成。

(2)星型模型中,维度表通过一主键一和事实表的外键的关联。

(3)维度表有两个典型的模型,其中—星形—模型加载时不分先后顺序,而—雪花模型

是在前一个模型的基础上扩展面来的。

第七章

一、填空

1.pandas提供了两种主要的数据结构:(Series)和(DataFrame)。

2.Series是一种类似于(数组)的一维数据结构,包含了一系列的(元素)以

及元素对应的(标签)。

3.Series对象没有指定index时,默认创建的index是从(0)到(N-1)的整数

值,其中N是Series对象的元素个数。

4.获取Series对象s的index值的写法是(s.index),获取元素值的写法是

(s.values)。

5.s2=Series([3,8,-5,1],index=['d','b','a',,c']),s2网返回的是(1),s2La']返回

的值是(-5),s2>0返回的元素是(bool)类型。

6.DataFrame是一种带标签的(二)维数据结构,其中各列可以存储(不同)

的数据类型。

7.pandas提供了(read_csv)函数,用于导入csv文件,并得到一个(DataFrame)

对象。

8.read_csv函数中参数names=「a','b','c','d'J表示指定DataFrame对象的(列名)

依次为a,b,c,do

9,使用pandas.isnull。函数判断DataFrame对象中的(空缺值)。

10.pandas的导出csv文件的函数是(to_csv),其中指定分隔符的参数名是

(sep),不希望输出索引是,可设置参数(index)=(False)o

11.json模块的(load)函数能够导入JSON数据,返回值是f(字典/diet)对

象。

12.pandas通过(ExcelFile)类提供了对Excel文件的基本支持。这个类在内部

使用(xlrd)和(openpyxl)包来操作Excel文件,因此需要首先安

装这两个包。

13.数据库通常可分为两大类型,一类是基于SQL的(关系)型数据库,另一类

被称为NoSQL属于(非关系)型数据库。

二、判断

1.Series对象的index可以通过赋值来改变。(对)

2.在创建DataFrame时,如果columns参数中指定的列不存在,那么创建的DataFrame对

象中的对应列值均为NaN,表示一个不可用的值。(对)

3.在读取csv文件时,read_csv函数中参数header=None表示让pandas不指定列名。

(错)

4.pandas.read_csv('test.csv',skiprows=[0,2,3]),skiprows的作用是忽略指定行。(对)

5.与文件相比,使用数据库管理数据能够获得更快的访问速度,更方便的访问接口,更可

靠的数据完整性。(对)

三、问答

1.操作csv文件,按下面的步骤完成代码。

1.1假设现有一个名为test.csv的文件,请使用pandas的read_csv函数导入,并设

置分隔符是且没有列名,最后赋值给变量df。

df=pd.read_csv('test.csv',sep=';",header=False)

1.2设置df的列名,列名的列表为['one'two';three']

df.columns=['one'two'three']

1.3检查df的各个元素中是否有NaN值。

pd.isnull(df)

1.4将df导出为"result.csv",并以「作为分隔符。

df.to_csv('result.csv',sep=',')

第八章

一、判断题:

(1)层次化索引(hierarchicalindexing)是pandas的一项重要功能,它使你能在一个轴

上拥有多个(两个以上)索引级别。(V)

(2)DataFrame的duplicated方法返回一个布尔型Series,用以提示各行是否是重复行

二、填空题:

(4)Pandas库中用于合并数据集的方法是merge和concat

(5)对于多级索引数据,pandas的stack方法可以将数据集的列旋转为行,而unstack

方法可以将数据的行旋转为列。

(6)可调用DataFrame的_duplicated方法返回一^布尔型一Series___,用以提示各

行是否是重复行。

(7)pandas有一个_get_dummies___函数可以实现将分类变量(categoricalvariable)

转换为“虚拟”或“指示”的矩阵。

(8)SQL语言的用户对join操作很熟悉,它用于合并数据集,按照一个或多个特定的键

来连接相关的行。在关系型数据库中,连接操作处于中心的位置。pandas提供了

_merge_函数,可以对数据集进行类似数据库连接的操作。

三、简答题与计算:

1、请简要描述pandas库的DataFrame对象。

DataFrame是一种表格型数据结构,它含有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论