数据清洗期末试卷答案

上传人：文*** IP属地：河北上传时间：2024-07-16 格式：PDF 页数：14 大小：1.20MB 积分：12 举报 版权申诉

已阅读5页，还剩9页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

学院

期末试卷A

2020-2021学年第一学期

考试课程：数据清洗

课程代码：

考试形式：闭卷考试

考试班级：20大数据

命题教师：

教研室主任：

系（院）主任：

教务处长:

学院

2020-2021学年第一学期辅修试卷

《数据清洗A》（课程代码：）

考试时间：120分钟总分：100分

一'名词解释题（每题5分，共10分）

1、数据的标准化

2、数据集成

二、选择题（每空2分，共10分）

1、噪声数据主要包含错误数据、假数据和（）

A、异常数据B、真实数据C、污染数据D、都对

2、、特征二值化的核心在于设定一个（）

A、元素B、阈值

C、元素D、关键值

3、定性特征哑编码又称为独热码，它用不同的（）对应不同的数据值。

A、数据B、数值C、状态D、节点

4、数据压缩是指在（）前提下，缩减数据量以减少存储空间，提高其传输、存

储和处理效率，或按照一定的算法对数据进行重新组织，减少数据的冗余和存储

的空间的一种技术方法。（）

A、不丢失有用信息的B、不丢失所有信息的C、不丢失真实信息的

D、以上三个都是

5、在Python在，GroupBy对象的用途是（）。

A、执行分割-应用-组合操作B、执行排序操作C、执行定位操作D、都不

是

三'简答题（每题8分，共48分）

1.描述数据归约思想及实现。

2、描述回归法主要思想。

3、描述大数据采集的特点。

4、请写出8个以上的Excel中用于数据清洗的函数

5、什么是数据类型？有哪些常见的数据类型？

6、如何使用kettle对数据进行统计分析

四、程序题（每题6分共12分）

1.写出程序用Python读取文本内容

2.创建一个Series,并更新Series的索引

五'论述题（每题20分共20分）

如何使用kettle清洗超出范围的数据？画出流程图并说明含义

答案:

一、名词解释题（每题5分，共10分）

1、数据的标准化

数据的标准化，是通过一定的数学变换方式，将原始数据按照一定的比例进行转换，使之落入

到一个小的特定区间内，例如0~1或-1~1的区间内，消除不同变量之间性质、量纲、数量级等

特征属性的差异，将其转化为一个无量纲的相对数值。

2、数据集成

数据集成正是将把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从而为

企业提供全面的数据共享。

二'选择题（每空2分，共20分）

ABCAA

三、简答题（每题8分，共32分）

1.数据归约是指在尽可能保持数据原貌的前提下，最大限度地精简数据量（完成该任务的

必要前提是理解挖掘任务和熟悉数据本身内容）。数据归约主要有两个途径：属性选择和数

据采样，分别针对原始数据集中的属性和记录。

一般而言，原始数据可以用数据集的归约表示。尽管归约数据体积较小，但它仍接近于

保持原始数据的完整性。

2.回归法是试图发现两个相关的变量之间的变化模式，通过使数据适合一个函数来平滑数

据，即通过建立数学模型来预测下一个数值，包括线性回归和非线性回归。线性回归涉及找

出拟合两个属性（或变量）的“最佳”直线，使得一个属性可以用来预测另一个。非线性回归

是线性回归的扩充，其中涉及的属性多余两个，并且数据拟合到一个多维曲面。

3.大数据采集与一般的传统采集不同，大数据的采集过程的主要特点和挑战是并发数

高，因为同时可能会有成千上万的用户在进行访问和操作。例如，火车票售票网站、飞机票

售票网站和淘宝网站的并发访问量在峰值时可达到上百万甚至是上千万，所以在采集端需要

部署大量数据库才能对其支撑。并且在这些数据库之间进行负载均衡和分片是需要深入的思

考和设计的。

此外，根据数据源的不同，大数据采集方法也不相同。但是为了能够满足大数据采集

的需要，大数据采集时大多都使用了大数据的处理模式，即M叩Reduce分布式并行处理模

式或是基于内存的流式处理模式。

4.FIND函数、SEARCH函数、REPLACE函数、UBSTITUTE函数、LEFT函数、

RIGHT函数、MID函数、DOLLAR函数。

5.数据类型是指是一个值的集合和定义在这个值集上的一组操作的总称。它的出现是为了

把数据分成所需内存大小不同的数据，以便于程序的运行。通常可以根据数据类型的特点将数

据划分为不同的类型，如原始类型、多元组、记录单元、代数数据类型、抽象数据类型、参考

类型以及函数类型等。在每种编程语言和数据库中都有不同的数据类型。

常见的数据类型主要包含有：数值型、日期型、时间性、字符串型、逻辑型以及文本型

6.成功运行ketlle后在菜单栏单击文件，在“新建”中选择“转换”选项，在“输入”中选

择“Excel输入”选项，在“统计”中选择“单变量统计”选项进行分析

四'程序题(每题10分共30分)

1.withopen('1.txt,)asfile_object:

contents=file_object.read()

print(contents)

2.importpandasaspd

data=np.array(「a?b?c?d'])

s=pd.Series(data)

print(s)

运行结果为：

dtype:object

data=np.arrayCfa'/bVcVd'])

s=pd.Series(data,index=[100J01,102,103])

print(s)

运行结果为：

100a

101b

102c

103d

dtype:object

s.index

运行结果为：

Int641ndex([100,101,102,103],dtype='int64')

五、论述题（每题10分共10分）

文本文件捻出2

学院

期末试卷B

2020-2021学年第一学期

考试课程：数据清洗

课程代码：

考试形式：闭卷考试

考试班级：20大数据

命题教师：

教研室主任：

系（院）主任：

教务处长：

学院

2020-2021学年第一学期辅修试卷

《数据清洗B》（课程代码：）

考试时间：120分钟总分：100分

一、名词解释题（每题5分，共10分）

1、数据仓库

2、NumPy

二'选择题（每空2分，共10分）

1、噪声数据主要包含错误数据、假数据和（）

A、异常数据B、真实数据C、污染数据D、都对

2、Pandas提供了两种高效的的数据结构，series和（）

A、defineB、form

C、numD、dataframe

3、Kafka是一种高吞吐量的分布式系统（）。

A、数据采集B、发布订阅消息C、数据集成D、数据及处理

4^Scribe是facebook开源的（）

A、数据集成系统B、数据清洗系统C、数据实现系统D、

日志采集系统

5、在Excel中，LOOKUP函数的用途是（）。

A、查找指定的值B、清除指定的值C、打开指定的值D、都不是

三'简答题（每题8分，共48分）

1.描述随机变量分布思想。

2、描述3a原则。

3、描述网络爬虫。

4、描述数据抽取定义及实现方式。

5、描述Excel数据清洗和转换的基本步骤。

6、描述R语言功能及特点。

四、程序题（每题6分共12分）

1.写出程序用Python创建一个3x4的数组，并输出和更新数组中的元素。

2.用Python将数据框按keyl歹U,key2列同时进行分组求均值

五'论述题（每题20分共20分）

如何使用kettle去除重复数据？画出流程图并说明含义

答案：

一、名词解释题（每题5分，共10分）

1、数据仓库

数据仓库(DataWarehouse)简称DW,顾名思义，数据仓库是一个很大的数据存储集合，出于

企业的分析性报告和决策支持目的而创建，并对多样的业务数据进行筛选与整合。

2、NumPy

NumPy是Python中科学计算的第三方库，代表“NumericPython”。它是一个提供多维数组

对象，多种派生对象(如：掩码数组、矩阵)以及用于快速操作数组的函数及API

二'选择题(每空2分，共20分)

ADBDA

三'简答题(每题8分，共32分)

1.随机变量是指随机事件的数量表现，人们可以用数学分析的方法来研究随机现象。例如

某一时间内公共汽车站等车乘客人数，电话交换台在一定时间内收到的呼叫次数，电子元件

的寿命，一台机器在一定时间内出现故障的次数，在实际工作中遇到的测量误差等，都是随

机变量的实例。按照随机变量可能取得的值,可以把它们分为离散型与连续性两种基本类型。

2.3a原则是指如果数据服从正态分布，那么在3a原则下，异常数据为一组测定值中与平均

值的偏差超过3倍标准差的值。因此，如果数据服从正态分布，那么距离平均值3a之外的

值出现的概率为P(|x-u|>3a)<=0.003,(属于极个别的小概率事件)即可认为是异常数据。

3.网络爬虫(WebSpider)又称之为网络机器人、网络蜘蛛，是一种通过既定规则，能够

自动提取网页信息的程序。爬虫的目地在于将目标网页数据下载至本地，以便进行后续的数

据分析。

4.数据抽取是指从数据源中抽取对企业有用的或感兴趣的数据的过程，它的实质是将数

据从各种原始的业务系统中读取出来，它是大数据工作开展的前提。目前常用以下两种方式

来实现数据抽取：关系库中的数据抽取和非关系数据库中的数据抽取。

5.Excel数据清洗和转换的基本步骤如下：

1)从外部数据源导入数据。

2)在单独的工作簿中创建原始数据的副本。

3)确保以行和列的表格形式显示数据，并且每列中的数据都相似；所有的列和行都可

见；范围内没有空白行。为了获得较佳结果，请使用Excel表。

4)首先执行不需要对列进行操作的任务，例如拼写检查或使用“查找和替换”对话框。

5)然后执行需要对列进行操作的任务。对列进行操作的一般步骤为：

a.在需要清理的原始列(A)旁边插入新列(B)。

b.在新列(B)的顶部添加将要转换数据的公式。

c.在新列(B)中向下填充公式。在Excel表中，将使用向下填充的值自动创建计算列。

d.选择并复制新列(B),然后将其作为值粘贴到新列(B)中。

e.删除原始列(A),这样，新列B将转换为A。

6.R语言是用于统计分析，图形表示报告的编程语言和软件环境。R语言是由新西兰奥

克兰大学的RossIhaka和RobertGentleman创建的，目前由RDevelopmentCoreTeam开发

和维护。R语言的核心是一种解释型的计算机语言，允许使用分支和循环以及函数的模块化

编程。

四、程序题(每题10分共30分)

1.importnumpyasnp

a=np.array([[l,2,3,4],[5,6,7,8],[9,10,11,12]])#创建一个3X4的数组

#结果:

array([[1,2,3,4],

[5,6,7,81,

[9,10,11,12]])

b=a[:2,1:3]#取数组中第0,1行，第1,2列的元素

#结果：

array([[2,3],

[6,7]])

print(a[0,1])#运行结果为：2

b[0,0]=77#将b[0,0]的值更新为77,同时a[0,1]元素的值也更新为77

print(a[0,1])#运行结果为：7

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据清洗期末试卷答案

文档简介

温馨提示

最新文档

评论

数据清洗期末试卷答案

文档简介

温馨提示

最新文档

评论

相关文档