2023年数据挖掘离线作业_第1页
2023年数据挖掘离线作业_第2页
2023年数据挖掘离线作业_第3页
2023年数据挖掘离线作业_第4页
2023年数据挖掘离线作业_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学远程教育学院

《数据挖掘》课程作业

姓名:皇甫旭丹学7

号:

年级:2023秋学习中心:奉化学习中心

第一章引言

一、填空题

(1)数据库中的知识挖掘(KDD)涉及以下七个环节:数据清理、数据集成、

数据选择、数据变换、数据挖掘、模式评估和知识

表达

(2)数据挖掘的性能问题重要涉及:算法的效率、可扩展性和并行解决

(3)当前的数据挖掘研究中,最重要的三个研究方向是:记录学、数据库技

龙—和机器学习

(4)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据

二、简答题

(1)什么是数据挖掘?

答:数据挖掘指的是从大量的数据中挖掘出那些令人感爱好的、有用的、隐含的、先前未知

的和也许有用的模式或知识。

(2)一个典型的数据挖掘系统应当涉及哪些组成部分?

答:一个典型的数据挖掘系统应当涉及以下部分:数据库、数据仓库或其他信息库、数据库

或数据仓库服务器、知识库、数据挖掘引擎、模式评估模块、图形用户界面。

(3)Web挖掘涉及哪些环节?

答:数据清理:(这个也许要占全过程60%的工作量);数据集成(数据存入数据仓库建立

数据立方体,选择用来进行数据挖掘的数据);数据挖掘(选择适当的算法来找到感爱好的

模式);展现挖掘结果(将模式或者知识应用或者存入知识库)。

(4)请列举数据挖掘应用常见的数据源。

(或者说,我们都在什么样的数据上进行数据挖掘)

答:常见的数据源涉及关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。其

中高级数据库系统和信息库涉及:空间数据库、时间数据库和时间序列数据库、流数据、多

媒体数据库、面向对象数据库和对象一关系数据库、异种数据库和遗产(legacy)数据库、文

本数据库和万维网(WWW)等。

第二章结识数据

一、填空题

(1)两个文档向量入和心的值为:d/=(1.0,3,0,2),心=(3,2,0,0,1),

则它们的余弦相似度为:5/13

(2)数据离散度的常用度量涉及极差、分位数、四分位

1、

百分位数四分位数极差和标准差

(3)一种常用的拟定离群点的简朴方法是:出落在至少高于第三个四分卫数或低于第一

个四分卫数1.5义IQR处的值»

二、单选题

(1)对于下图所示的正倾斜数据,中位数、平均值、众数三者之间的关系是:

A、中位数=平均值=众数;。B中位数>平均值〉众数;

C、平均值>中位数〉众数;。D;众数〉中位数>平均值

答:Co

(2)下面的散点图显示哪种属性相关性?

A不相关;•B正相关;C负相关;。D先正相关然后负相关;

答:C。

三、简答题

(1)什么是基于像素的可视化技术?它有什么缺陷?

答:对于一个m维数据集,基于像素的可视化技术在屏幕上创建m个窗口,每维一个。记录

的m个维值映射到这些窗口相应位置上的m个像素。像素的颜色反映相应的值。基于像素的

可视化技术特点:难以呈现多维空间的数据分布,不显示数据子空间中是否存在稠密区域。

(2)对称的和不对称的二元属性有什么区别?

答:对称的二元属性指变量的两个状态具有同等价值或相同权重;而不对称的二元属性中,变

量的两个状态的重要性是不同的。对称的二元属性可以使用简朴匹配系统评估它们的相异度;

不对称的二元属性使用Jaccard系数评估它们的相异度。*第三章数据预解决

一、填空题

(1)进行数据预解决时所使用的重要方法涉及:数据清理、数据集成、

数据变换和数据规约

(2)数据概化是指:沿概念分层向上概化____________________________________________

(3)数据压缩可分为:有损压缩和无损压缩两种类型。

(4)进行数值归约时,三种常用的有参方法是:线性回归方法、多元回归

和对数线性模型

二、简答题

(1)常用的数值属性概念分层的方法有哪些?

答:常用的数值属性概念分层的方法有分箱、直方图分析、聚类分析、基于燧的离散化和通

过臼然划分分段。

(2)请描述主成份分析(PCA)算法环节

答:1)规范化输入的数据:所有属性落在相同区间内;2)计算k个标准正交向量,即主成分;

3)每个输入数据的向量都是这k个主成分向量的线性组合;4)主成分按照重要限度降序排

列。

(3)在现实世界的数据中,元组在某些属性上缺少值是常有的。描述解决该问题的各种方

法。

答:解决空缺值的方法有:1)忽略元祖。当类标号缺少时通常这么做(假定挖掘任务设计

分类或描述),当每个属性缺少值的比例变化很大时,它的效果非常差。2)人工填写空缺值。

这种方法工作量大,可行性低。3)使用一个全局变量填充空缺值:比如使用unknown或-8。

4)使用属性的平均值填充空缺值。5)使用与给定元祖属同一类所有样本的平均值。6)使

用最也许的值填充空缺值。如使用像Bayesian公式或鉴定树这样的基于推断的方法。

(4)常见的数据归约策略涉及哪些?

答:数据归约策略涉及:(1)数据立方体聚集(2)维归约(3)数据压缩(4)数值归约(5)

离散化和概念分层产生

第六一七章挖掘频繁模式、关联和相关

一、填空题

(1)关联规则挖掘中,两个重要的爱好度度量是:支持度和置信度

(2)Aprior算法涉及连接和剪枝两个基本环节

(3)项集的频率是指包含项集的事务数___________________________

(4)大型数据库中的关联规则挖掘包含两个过程:找出所有频繁项集和由频繁

项集产生强关联规则

(5)根据规则中所解决的值类型,关联规则可分为:布尔关联规则和量化关联

规则

(6)APriori性质是指:频繁项集的所有非空子集也必须是频繁的

(7)在多维关联规则挖掘中,我们搜索的不是频繁项集,而是频繁谓词集

二、简答题

(1)简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺陷。

答:优点:搜索时容易采用优化策略,即一个项假如不满足最小支持度,它的所有子项都可以不

用搜索。缺陷:最小支持度值设立困难,太高则将丢掉出现在较低抽象层中故意义的关联规

则;太低则会在较高层产生太多的无爱好的规则。

(2)如何提高Apr沁ri算法的有效性?有哪些常见方法?

答:可以使用以下几个思绪提高Apriori算法有效性:减少对数据的扫描次数;缩小产生的候选

项集;改善对候选项集的支持度计算方法。常见方法涉及:a、基于hash表的项集计数;b、

事务压缩(压缩进一步迭代的事务数)c、划分;d、选样(在给定数据的一个子集挖掘);e、动

态项集计数。

第八章分类

一、填空题

⑴数据分类模型的常用表达形式涉及分类规则、决策树和数学公式

等。

(2)朴素贝叶斯分类是基于类条件独立假设。

二、简答题

(1)在鉴定树归纳中,为什么树剪枝是有用的?

答:决策树建立时,许多分枝反映的是训练数据中的噪声和离群点点,树剪枝可以辨认并减去

这种分枝,以提高对未知数据分类的准确性。

(2)为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类优缺陷。

答:基于贝叶斯定理的推断需要大量训练数据以覆盖类条件概率空间,引入了很大开销。朴

素贝叶斯分类做了类条件独立假设,大幅减少了计算开销。他的优点是容易实现并在大多数

情况下可以取得较好的结果;他的缺陷是类条件独立在实际应用中缺少准确性,由于变量之

间经常存在依赖关系;这种依赖关系影响了朴素贝叶斯分类器的准确性。

(3)分类方法的常用评估度量都有哪些?

答:精度(Precision):标记为正类的元祖实际为正类所占的比例。召回率:正元祖标记为正

的比例。F度量:精度和召回率调和评估指标。准确率(accuracy),辨认率:测试数据中

被对的分类的元祖所占的比例。灵敏度(Sensitivity):真正例(辨认)率•特效性(Spe

cifictiy):真负例率。

(4)简述数据分类的两步过程。

答:第一步建立模型,建立描述预先定义的数据类或概念集的分类器;第二步,在独立测试集

上评估模型的预测准确率,通过测试后再使用模型,对新的数据进行分类。

三、算法题

(1)使用鉴定树归纳算法,根据顾客年龄age(分为3个年龄段:V18,18.・.23,>23),

收入income(取值为high,medium,low),是否为student(取值为yes和no),信用

credit_rating等级(取值为fair和excellent)来鉴定用户是否会购买PCGame,即

构建鉴定树buys_PCGame,假设现有的数据通过第一次划分之后得到如下图所示结果,并

根据该结果对每一个划分中的各个属性计算信息增益

对age<18的顾客:Gain(income)=0.022,Gain(student)=0.162,Gain(cr

edit_rating)=O.323

对age>23的顾客:Gain(income)=0.042,Gain(student)=0.462,Gain(cr

edit_rating)=0.155

请根据以上结果绘制出鉴定树buysPCGame,来鉴定用户是否会购买PCGame。

incostudecredit_raticlasIncomstudcredit_raclass

mentngseentting

highnofairnohighnofairno

medyesfairnohighyesexcel1yes

iument

highnofairnomedyesfairye

iums

medyesexce11entyeslowyesfairyes

ium

lownoexcellentyes1ownoexcellentno

incomestudencredit_raclass

tting

highnofairyes

mediumyesfairyes

highnofairyes

mediumyesexcellentyes

答:*第十章聚类分析

矩阵

(5)基于网格的聚类方法的优点是:解决速度快

二、简答题

(1)简述基于划分的聚类方法。划分的准则是什么?

答:基于划分的聚类方法:给定一个n个对象或元祖的数据库,一个划分方法构建数据的k

个划分,每个划分表达一个簇,并且k<=n。划分方法规定每个组至少包含一个对象并且每个

对象属于且仅属于一个组。聚类目的可以是最优化某种度量,比如最小化数据点与类中心的

距离平方和等。

划分准测是同一个聚类中的对象尽也许地接近或相关,不同聚类中的对象尽也许的原理

或不同。

(2)列举离群点挖掘的常见应用。

答:离群点检测应用有:1、欺诈检测;2、网络入侵;3、故障诊断;4、可疑金融交易监控等

等。

第四章数据仓库和OLAP技术

一、填空题

(1)数据仓库的多维数据模型可以有三种不同的形式,分别是:星形模式、雪花模

式________和事实星座模式

(2)给定基本方体,方体的物化有三种选择:不物化、部分物化和

全物化

(3)著名的数据仓库系统设计师W.H.Inmon认为,数据仓库与其他数据存储系统的区别

的四个特性是:是向主题、数据集成、随时间而变化和数据不

易丢失

(4)在数据访问模式上,数据仓库以事务操作为主,而平常应用数据库则以只读查询

为主。

(5)数据立方体度量可以根据其所使用的聚集函数分为三类.分别是:分布的、

代数的和整体的

(6)关于数据仓库的设计,四种不同的视图必须考虑,分别是:白顶向下视图、数据源

视图、数据仓库视图、商务查询视图

(7)0LAP服务器的类型重要涉及:关系OLAP服务器(ROLAP)、多维OLAP服务器(M

OLAP)和混合OLAP服务器(1IOLAP)____________

(8)求和函数sum()是一个分布的函数。

(9)方体计算的重要挑战是海量数据和有限的内存和时间之间的矛盾。

二、简答题

(1)为什么在进行联机分析解决(OLAP)时,我们需要一个独立的数据仓库,而不是直

接在平常操作的数据库上进行。

答:使用一个独立的数据仓库进行OLAP解决是为了以下目的:1、提高两个系统的性能:

操作数据库是为OLTP而设计的,没有为。LAP操作优化,同时在操作数据库上解决OLAP

查询,会大大减少操作任务的性能;而数据库是为OLAP而设计,为复杂的OLAP查询,多维

视图,汇总等OLAP功能提供了优化。2、两者有着不同的功能:操作数据库支持多事务的

并行解决,而数据仓库往往只是对数据记录进行只读访问;这是假如将事务解决的并行机制

和恢复机制用于这种OLAP操作,就会显著减少OLAP的性能。3、两者有着不同的数据:

数据仓库中存放历史数据;平常操作数据库中存放的往往只是最新的数据。

(2)为什么说数据仓库具有随时间而变化的特性?

答:1、数据仓库的时间范围比操作数据库系统要长的多。操作数据库系统重要保存当前数

据,而数据仓库从历史的角度提供信息(比如过去5-2023)。2、数据仓库中的每一个关键

结构都隐式或显式地包含时间元素,而操作数据库中的关键结构也许就不涉及时间元素。

(2)试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(update-d

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论