数据挖掘题讲解_第1页
数据挖掘题讲解_第2页
数据挖掘题讲解_第3页
数据挖掘题讲解_第4页
数据挖掘题讲解_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、贵州大学2013-2014学年第一学期数据挖掘期末考试题姓名_ _ 专业_应用数学_ 学号_1107010186_问题:一、要求应用SPSS软件对实验数据(六个变量,500个数据)进行如下统计分析: 1、对每一变量数据作直方图与QQ图,选出直方图近似正态分布且QQ图近似直线的变量,视这些变量是随机变量(至少两个),其近似服从正态分布;以上是对每一变量数据作直方图与QQ图,选出直方图近似正态分布且QQ图近似直线的变量为y2,y3,视这些变量是随机变量,其近似服从正态分布.2、 对近似服从正态分布的随机变量的分布函数进行假设检验(KolmogorovSmirnov方法);1. 对于变量y2,P值0

2、.05,因此接受原假设,认为符合正态分布,相同的,对于y3,P值0.05,因此接受原假设,认为符合正态分布。2. 3.双尾P值为0.046,在显著性水平0.05下,可以拒绝原假设,即可以认为,x1与y1不独立。3、 对x1与y1 的独立性进行假设检验;4、 对x1(自变量)与y1(因变量)进行一元线性回归分析,建立回归方程,并进行线性性检验; 由上图可知:相关系数R=0.89 拟合优度 调整后的拟合优度=0.006 标准误差估计为:5764.573;所用回归模型F统计量值=3.987 显著性系数=0.46,因此认为这个统计模型有统计意义;建立回归方程为:y1=3.477x1+0.0895、 对

3、x1(自变量)、x2(自变量)、x3(自变量)与y1(因变量)进行多元线性回归分析,建立回归方程,并进行线性性检验;2:从“Anova表中,可以看出“模型2”中的“回归平方和”为2.287E8,“残差平方和”为1.645E10,总平方和=回归平方和+残差平方和。3:根据后面的“F统计量”的概率值为3.454,由于3.4540.01,随着“自变量”的引入,其显著性概率值均远大于0.01,所以可以不能拒绝总体回归系数为0的原假设,通过ANOVA方差分析表可以看出“y1”与“x1”和“x3”之间不存在着线性关系。从“系数a” 表中可以看出:1:多元线性回归方程应该为:y1=-5229.008+0.1

4、7*x1+35.329*x3但是,由于常数项的sig为(0.3150.1) 所以常数项不具备显著性,所以,我们再看后面的“标准系数”,在标准系数一列中,可以看到“常数项”没有数值,已经被剔除所以:标准化的回归方程为:销售量=-2.672*x1+20.727*x36、 分别对来自三个总体(水平)x1、x2、x3的试验数据关于均值相等的假设进行方差分析, 同理对来自三个总体(水平)y1、y2、y3的试验数据进行方差分析;7、 按六个变量进行变量聚类,以变量的相关系数作为距离度量,分析聚类结果。近似矩阵表使用平方Euclidean距离计算的,其实质是一个不相似矩阵,其中的数值表示各个样本之间的相似系

5、数,数值越大,表示样本距离越大。聚类表反映的是每一阶段的聚类结果,系数表示的是聚合系数,冰柱图是反映样本聚类情况的图,如果按照设定的类数,在那类的行上从左到右就可以找到各类所包含的样本。8.7下表由雇员的数据库的训练数据组成。数据已泛化。例如,age“3135”之间。对于给定的行,count表示department、status、age和salary在该行上具有给定值的元组数。departmentStatusagesalarycountsalessenior313546K50K30salesjunior263026K30K40salesjunior313531K35K40systemsjuni

6、or212546K50K20systemssenior313566K70K5systemssenior263046K50K3systemsjunior414566K70K3marketingsenior364046K50K10marketingjunior313541K45K4secretarysenior465036K40K4secretaryjunior263026K30K6设status是类标号属性。、(a) 如何修改基本决策树算法,以便考虑每个广义数据元组(即每个行)的count?(b) 使用修改过的算法,构造给定数据的决策树。(c) 给定一个数据元组,它的属性department、a

7、ge和salary的值分别为“systems”、“2630”和“4650K”。该元组ststus的朴素贝叶斯分类是什么?解:本题的类标号属性为:status,它有senior,junior两个值,其中,senior有30+5+3+10+4=52个元组,senior有40+40+20+3+4+6=113个元组。一共有165个元组。D元组的期望为计算depart,age,salary的期望:Gain(dep)=Info(d)-Info(dep)=0,049计算age的期望:计算salary的期望: 3.根据题意。要求分类的元组为X=(department=systems,age=26-30,sal

8、ary=46k-50k),最化PX|Ci P Ci ,i=1,2。计算: P(status=senior)=52/165=0.315 ,P(status=junior)=113/165=0.685 P(department=systems|status=senior)=8/52=0.154 P(department=systems|status=junior)=23/113=0.204 则可以得到:P(X|status=senior) =P(age=26-30|status=senior)*P(department=systems|status=senior)*P(salary=46k-50k

9、|status=senior) =0.002 P(X|status=junior) =P(age=26-30|status=junior)*P(department=systems|status=junior)*P(salary=46k-50k|status=junior) = =0.018 再次计算: P(X|status=senior)P(status=senior)=0.002*0.315=0.00063 P(X|status=junior) P(status=junior)=0.018*0.685=0.01233 对于元组X,朴素贝叶斯分类器预测元组X的类为status=junior。

10、10.18假设你打算在一个给定的区域分配一个(ATM),舍得满足大量约束条件。住宅或工作场所可以被聚类以便每个簇被分配一个ATM。然而,该聚类可能被两个因素所约束:(1)障碍物对象,即有一些可能影响ATM壳达性的桥梁、河流和公路。(2)用户指定的其他约束,如每个ATM应该能为10000户家庭服务。在这两个约束限制下,怎么修改聚类算法(k-均值)来实现高质量的聚类? 针对障碍实体的约束问题进行了研究, 以划分方法中的K- 中心点算法为基础, 利用微聚类的方法压缩数据量, 尝试利用建立距离查找表的方法解决存在障碍物的问题, 提出了限制条件下的空间聚类改进算法。 传统的的K-中心点空间聚类算法在进行

11、聚类时,并未考虑到目标物体间存在障碍物实体的情况,如参与聚类的空间对象可能存在河流,桥梁,高速公路,湖泊,山体等障碍实体,对空间聚类造成障碍或影响,使其聚类结果不具备实际意义。对此问题进行了改进。改进的K-中心点空间聚类算法 1. 基于微聚类的数据压缩在进行微聚类之前, 必须根据先验知识对微小簇给出一个阈值, 即微小簇的最大半径Rmax , 然后根据该阈值进行微聚类 2. 在考虑限制条件的情况下, 计算任意两个微小簇之间的距离, 建立一个距离查找表。若两个微小簇/ 可视0 ( 即不存在障碍实体) , 则用欧氏距离表示其间的距离, 反之, 则用加权距离表示其间的距离。然后将所有微小簇之间的距离存储起来, 以便在聚类的过程中随时调用。这样既考虑了限制条件, 又避免了重复计算微小簇之间的距离, 提高了执行效率。 3.建立距离查找表。建立查找表为便于聚类时直接调用。必须考虑到聚类对象所存在的障碍实体和联通点给中心点与非中心点的距离所带来的影响 若两个微小簇之间没有障碍物,其间的距离为: 若两个微小簇受障碍物的影响,完全不可视,其间的距离为: M表示阻碍因子权值。若两个微小簇受障碍

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论