2015-6-数据挖掘与统计决策复习考试提纲与题型_第1页
2015-6-数据挖掘与统计决策复习考试提纲与题型_第2页
2015-6-数据挖掘与统计决策复习考试提纲与题型_第3页
2015-6-数据挖掘与统计决策复习考试提纲与题型_第4页
2015-6-数据挖掘与统计决策复习考试提纲与题型_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘与统计决策课程复习提纲 2015.6一、 概念题(约20%)1、 概念解释(10%)2、 是非题(10%) 概念题复习要点:1、 数据挖掘定义?数据挖掘与经典统计建模的异同点? 2、 聚类定义?系统聚类、K均值聚类、Kohonen聚类的原理与特点? 一般聚类数的判别?聚类结果的判别? 3、 神经网络定义?感知机模型、BP模型、RBF模型的原理与应用特点( 包括数据特点、结构特点、映射特点、权值修正特点、误差表示等)?3、 主成分分析与因子分析方法的特点?变量与主成分的关系?变量与公共因子的关系? 载荷因子表示公因子与变量的什么关系?载荷因子取值不同表示公因子与变量关系的哪些不同? 5、

2、决策树方法的定义?ID3、C4.5、二叉树方法的不同应用特点?决策树的评价标准?决策树的前后剪枝特点?后剪枝的形式评价与树结构评价定义?6、关联分析、时序关联分析方法的特点? K项频繁集(大项目集)、K项大序列的定义?最大频繁(项目)集、最大序列的定义?频繁集(大项目集)支持度、大序列支持度定义?关联规则置信度、时序关联规则置信度定义?规则提取特点?规则检验定义?7、 遗传算法的定义与特点?适应值函数、选择算子、交叉算子、变异算子的理论定义?一般设计形式?模式定理的结论表示?设计与计算题(约80%):二、 聚类分析:给出样品属性取值或变量观察值,1)要求计算距离矩阵,并按系统聚类法,以两点最大

3、或最小距离定义两类相似度进行聚类(样本或变量聚类),2)表出聚类过程及谱系图,并判别聚类结果。三、 主成分/因子分析: 给定变量与因子相关的载荷矩阵,在已知特征根及累计贡献率大于一定比例条件下,1)要求计算或判别选择主要变量、主要主成分、主要因子,2)用因子表示变量或用变量表示主成分。四、神经网络模型:给出已知样本与模型设计要求,1)要求通过样本学习和权值修正获取模型参数,建立神经网络模型(BP、RBF、感知机等),2)应用建立的模型进行检验、分类或预测。五、决策树分析:给出某实例集,1)要求利用ID3算法或C4.5算法或二叉树算法,判别节点与分枝,建立决策树。 2)给定检验样本集,对建立决策

4、树进行检验。 3)在假定条件下,对决策树进行剪枝判别,计算剪枝形式与剪枝结构评价。 六、1)关联分析:给出N个事务对应的物品项、最少支持度和最少可信度,要求用AP方法求最大频繁集和指定项目条件的关联规则。 2)时序关联分析:给出N个时间顾客的事务对应的物品项,最少支持度和最少可信度,要求用AP-G方法求最大序列和指定条件的时序关联规则。 3) 给定检验样本集,要求对提取规则进行检验,要求计算检验的误差。 七、遗传算法:1)给出N个个体组成的种群,在指定或设计适值函数下,进行选择、交叉与变异运算;2)给出某一问题,要求设计基因、个体和种群,并针对问题设计合理的适应值函数。参考试题形式:一. 概念

5、描述1数据挖掘是指 2遗传算法中的适应值函数是指 3. K-均值聚类是指 4. BP神经网络是指 5时序关联分析是指 二. 是非题1. DSS既具有数据驱动功能,又有模型驱动功能。( )2. 如果两产生式规则的证据相同,则两规则的结论也相同。( )3. 规则的不确定性是由证据的不确定性和结论的不确定性计算得到。( )4 启动混合推理一定要有事实支持。( )5. 在基于模糊产生式规则的不确定性推理中,推理结论的可信度仅与规则和条件的可信度有关。( )6 决策树的CART算法,是通过信息增益率最大来选择测试属性。( )7. 在同一实例集下,具有深度越小、叶结点数越多的决策树越优。( )8 时序关联

6、分析的Apriori-G 方法的最大序列一定包含客户标识。( )9. 启动混合推理一定要预先给定假设。( )10. RBF神经网络的输入层到隐层的映射是线性的。( )三、设有五个样本,每样本有n个指标,第i样本用类表示,两两之间的欧氏距离阵如下所示,试1)按最小距离聚类,表出聚类过程及聚类谱系图,2)从聚类谱系图中,通过类间距离求最合适的聚类类数。 0 1 0 3 5 0 4 7 2.5 0 6 2 5 8 0四1、设f(x)=x2, x5,30, 设想通过遗传算法求f(x)最小值。若个体为二进制表示,初始个体如下,请设计适值函数,并按要求填写下表 个体号初始个体初始个体的编码表示适应度复制数

7、(整数)随机交叉个体号随机交叉点为3时的交叉结果顺序抽取染色体,按变异概率10%、随机变异点为2实施变异的结果12711011221301101131910011448010003 2、设产品质量有质量指标为Y1,Y2YM ,影响质量的因素变量为X1,X2,XN,标准质量指标为Z1,Z2ZM,设想通过遗传算法求一组最优组合x1,x2,xN,如果采用实数编码,要求为这样的遗传算法设计1)基因与个体表示;2)种群表示;3)适值函数表示。五、设A,B,C,D,E分别表示五种物品,要求通过以下五项业务应用apriori算法分析五种物品的关联程度,求:1)若最少支持度为0.3,求最大频繁集;2)若最少支

8、持度为0.4,求任两项集出现而导致另一项集出现的关联规则。业务标识 物品 1 ACDE 2 BCD 3 A 4 CDE 5 ABCD六、设每个肺病例有五种症状:发烧(无、低、中度、高),咳嗽(轻微、中度、剧烈),X光所见阴影(点状、索条状、片状、空洞),血沉(正常、快),听诊(正常、干鸣音、水泡音),肺炎和肺结核部分病例集见下表,试用决策树的ID3算法识别根节点对应的症状及分支样本(分支样本用样本号表示)。样本号 病状病例号发烧咳嗽 X光所见血沉听诊肺炎1高剧烈片状正常水泡音2中度剧烈片状正常水泡音3低轻微点状正常干鸣音4高中度片状正常水泡音5中度轻微片状正常水泡音肺结核6无轻微索条状正常正常7高剧烈空洞快干鸣音8低轻微索条状正常正常9无轻微点状快干鸣音10低中度片状快正常七、设在开发某企业的DSS中,利用神经网络模型辅助投资方案选择。以X1、X2、X3分别表示三个评价投资方案指标的定义值,Y表示选择结果。已知两个样本的取值如下: X1 X2 X3 Y1 0 1 11 1 1 1假设阈值为0,且连接权初始值为0,调整因子=1。要求: 建立辅助投资方案决策的感知机模型; 当投资方案指标为(X1,X2,X3 )=(1,0,0)时,求出相应的选择结果Y。 注意:考试时

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论