版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、南京邮电大学数据挖掘概念与技术课程设计题 目统计学数据挖掘(GLM)专 业计算机科学与技术学生姓名付忠举班级学号B10041434指导教师叶水仙评阅教师指导单位南京邮电大学 日期: 2013年12月29日数据挖掘课程设计摘要:随着网络、数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。数据挖掘(Data Mining)就是从大量的实际应用数据中提取隐含信息和知识,它利用了数据库、人工智能和数理统计等多方面的技术,是一类深层次的数据分析方法。本文介绍了数据库技术的现状、效据挖掘的方法以及它在Bayesian网建网技术中的应用:通过散据挖掘解决Bayesian网络建模过程中
2、所遇到的具体问题,即如何从太规模效据库中寻找各变量之间的关系以及如何确定条件概率问题。一、 引言:数据是知识的源泉。但是,拥有大量的数据与拥有许多有用的知识完全是两回事。过去几年中,从数据库中发现知识这一领域发展的很快。广阔的市场和研究利益促使这一领域的飞速发展。计算机技术和数据收集技术的进步使人们可以从更加广泛的范围和几年前不可想象的速度收集和存储信息。收集数据是为了得到信息,然而大量的数据本身并不意味信息。尽管现代的数据库技术使我们很容易存储大量的数据流,但现在还没有一种成熟的技术帮助我们分析、理解并使数据以可理解的信息表示出来。在过去,我们常用的知识获取方法是由知识工程师把专家经验知识经
3、过分析、筛选、比较、综合、再提取出知识和规则。然而,由于知识工程师所拥有知识的有局限性,所以对于获得知识的可信度就应该打个折扣。目前,传统的知识获取技术面对巨型数据仓库无能为力,数据挖掘技术就应运而生。 数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出,人们希望在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,但是目前所拥有的数据分析工具很难对数据进行深层次的处理,使得人们只能望“数”兴叹。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。数据挖掘通过在大量数据的基础上对各种学习算法的训练,得到数据对象间的关系模式,这些模式反映了数据的内在特性,
4、是对数据包含信息的更高层次的抽象。目前,在需要处理大数据量的科研领域中,数据挖掘受到越来越多的关注,同时,在实际问题中,大量成功运用数据挖掘的实例说明了数据挖掘对科学研究具有很大的促进作用。数据挖掘可以帮助人们对大规模数据进行高效的分析处理,以节约时间,将更多的精力投入到更高层的研究中,从而提高科研工作的效率。二、知识获取与数据挖掘一般说来,知识获取(Knowledge Discovery inDatabases,称称KDD)意为数据库中知识获取,它代表从低层次数据中提取高层次知识的全过程,包括数据信息的收集,数据原型的确定,相关函数的分析,知识的抽取和数据模式分析。统计学中常指的是无假设证实
5、所进行的数据测量和分析。而数据挖掘则是指从数据中自动地抽取模型。数据挖掘包括许多步骤:从大规模数据库中(或从其他来源)取得数据;选择合适的特征属性;挑选合适的样本策略;剔除数据中不正常的数据并补足不够的部分;用恰当的降维、变换使数据挖掘过程与数据模型相适合或相匹配;辨别所得到的是否是知识则需将得到的结果信息化或可视化,然后与现有的知识相结合比较。这些步骤是从数据到知识的必由之路。每一步骤都可能是成功的关键或失败的开始。在一般的定义中数据挖掘是知识获取的一部分。数据挖掘的研究领域涉及广泛,主要包括数据库系统,基于知识的系统,人工智能,机器学习,知识获取,统计学,空间数据库和数据可视化等领域。(1
6、)统计学统计学在数据样本选择、数据预处理及评价抽取知识的步骤中有非常重要的作用。以往许多统计学的工作是针对数据和假设检验的模型进行评价24,很明显也包括了评价数据挖掘的结果。在数据预处理步骤中,统计学提出了估计噪声参数过程中要用的平滑处理的技术,在一定程度上对补足丢失数据有相当的作用。统计学对检测数据分析、聚类和实验数据参数设计上也有用。但统计学研究的焦点是在于处理小规模数据样本采集和小规模数据集处理的问题上。统计学的工作大多是针对技术和模型的理论方面。于是许多工作是着眼于线性模型、递增的高斯噪声模型、参数估计和严格分类参数模型上。只有在进行相近模式区别时才强调寻优。大多数数据库用户并不具备恰
7、当使用统计学知识的能力。实际上是要求有关数据库工程师或数据库系统的管理员运用关于数据选择的模型、相当多的域知识和数学知识的能力,在现实中是不大可能的。(2)模式识别在模式识别工作中,传统上是把注意力集中在符号形式化直接结合实际技术的工作过程中56。模式识别主要用于分类技术和数据的聚类技术上。模式识别中的分类和含义分析是对数据挖掘概念形成的开端。多数模式识别的算法和方法对降维、变换和设置都有直接的参考意义。在数据挖掘的步骤中,模式识别比统计学更为重要,因为它强调了计算机算法、更加复杂的数据结构和更多的搜索。典型的数据分类是用一定的分类技术把数据从一个向量空间映射到另外一个向量空间。但这种映射并不
8、总是有意义的。比如,形状上“方”与“圆”的差别就很难说比性别上“男”与“女”的差别大。显然,这其中应当注重其语言的含义。(3)人工智能人工智能对于数据挖掘来说原来一直是在符号的层次上处理数据,而对于连续变量注意较少外1。在机器学习和基于案例的推理中,分类和聚类算法着重于启发式搜索和非参数模型。对于其结果,并不象模式识别和统计学在数学上的精确和要求严格分析。随着计算机学习理论的发展。人工智能把注意力集中在了表达广义分类的模糊边缘上。机器学习主要是对数据挖掘过程中的数据变量选择处理极有帮助,在通过大量搜索表达式和选择变量上有很大作用。另外,机器学习对于发现数据结构,特别是人工智能中的不确定推理技术
9、和基于贝叶斯模型推理是统计学意义上的分布密度估计的强有力的工具。人工智能技术建立了关于特定领域知识和数据的已有知识的相对容易理解和自然的框架。人工智能的其他技术,包括知识获取技术、知识搜索和知识表达在数据挖掘的数据变换、数据选择、数据预处理等步骤中都有作用。(4)数据库数据库及其相关技术显然与数据挖掘有直接的关系。数据库是原始数据的处理、储存和操作的基础。随着平行和分布式数据库的使用,对数据录入和检索有更高的要求。数据挖掘中很重要的一个问题是对数据库中数据的在线分析,主要是如何利用多种方法对数据进行实时处理和分析68。一般来说,通过相关数据结构的标准化可以克服要求特殊存取数据的困难。在数据挖掘
10、中为了对数据进行特定的统计和计数,则要对各个特征属性进行组合形成新的数据库。其中,对于数据挖掘所得知识支持率的研究是个新领域。为直接从数据库中发现联系规则,已经以产品的形式出现了依靠分析和分类表达式的新方法。此外,为了对数据库问题的求解和优化,利用新出现的数据库定向技术更加易于寻求数据库中隐含的模式。三、数据挖掘技术的方法 数据挖掘涉及的学科领域和方法很多,如多种分类法外2。根据开采任务分,可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据开采对象分,有关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据
11、库、异质数据库、遗产数据库以及环球网Web;根据开采方法分,可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。本文的实例中我们采用了一种基于分类的方法,
12、它的优点是可以在较小的复杂度下,进行有效的挖掘。四、数据挖掘技术的应用首先介绍一个著名的实例:SKICAT。然后结合实际具体探讨数据挖掘技术在Bayesian中的应用。(一) 天文数据分析中的数据挖掘 数据挖掘在天文学上有一个非常著名的应用系统:SKICAT外3。它是美国加州理工学院(CIT)与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的一个工具。SKICAT既是第一个获得相当成功的数据挖掘应用,也是人工智能技术在天文学和空间科学上第一批成功应用之一。利用SKICAT,天文学家已发现了16个新的极其遥远的类星体,该项发现能帮助天文工作者更好地研究类星体的形成以及早期宇宙的结构。在天文
13、学研究以及航天数据分析中,人们遇到了一个很大的难题,即人工对大批量数据分析的无能为力。这里所说的数据量一般在数千兆以上,现有的大型数据库只是把数据以另一种形式给出,而并没有对数据进行更深层次的处理,因而, 在对大量天体数据进行分析的过程中,很难起到根本的促进作用。SKICAT不仅提供对数据库的管理,并且通过训练可以对天体进行辨识。它采用了模块化设计,共有三个主要功能模块:分类建立、分类管理及统计分析。其中,分类建立是通过有示范的训练建立对天体的辨识机制。对天体的辨识是进行其它数据分析的前提,只有将天体识别出来以后,如是星系还是星球,才能进行相应的研究。使用SKICAT对天体数据进行分析,一方面
14、是通过机器学习将知识提取过程由学习算法完成,从而可以实现对大批量数据的分析,另一方面是辨识那些亮度很低、人工难以判读的天体图像,以进行后续分析。SKICAT通过有效地对天体图像的特征进行定义,对那些亮度较低的图像可以得到比人工分类更好的结果。将仅由象素包含的关于天体的多维信息通过变换形成低维空间内的向量空间,并进而利用示范学习进行分类,以达到人工直接观察无法达到的分类精度。(二) Bayesian网络中的数据挖掘 Bayesian网是由变量及其关联组成的有向图。它主要用于处理实际应用中遇到的不确定信息。图中还带有各变量的概率分布,定量的概率信息被表示为条件概率表中在决策前对实际问题的先验的理解
15、与把握。然而,针对实际问题建立一个应用于决策的Bayesian网络时存在两个问题。首先,我们常常是凭个人对问题的经验与理解来建立模型的,因此建立的模型很难反映问题的客观实际。其二,在确定Bayesian网中的条件概率表时,我们需要用定量的数值以支持计算,但实际中,人们很难给出一个具体概率值,一般的应用往往是根据经验,这就要求我们有一个合理的方法,从大量杂乱无序的数据中将它们找到,并填入条件概率表中去。而数据挖掘技术恰恰为我们提供了一系列有效的方法来寻找隐藏于大规模数据之中的有用数据,以解决以上两个问题。在Bayesian建模中,我们需要找到各变量之间的关联,这种关联与关系数据库理论中的函数依赖
16、(Functional Dependence)近似,后者表示了关系表中各属性(Attribute)之间的依赖关系,而前者表示Bayesian网中各变量是关系表中的属性时,两者的表示含义是一致而和谐的。因而,只要在关系表的元组中发掘出函数依赖,便可以认清Bayesian网中各变量之间的关系,从而给建模予以理论依据,并且在数量上以具体值作为技术支持。基于GLM(广义线性模型)的数据分析 SAS里的GLM应用在实际中比较广泛,对数据的分析具有比较强的普适性。趋势面回归分析(Trend Analysis) 是以多元回归分析为理论基础的一种预测与统计技术。它用空间坐标法进行多项式回归,从中估计出最佳的回
17、归模型,因此也被称为趋势面分析,当不知道手中的数据呈线性还是非线性相关时,可以采用趋势面数据分析方法,以便找出拟合数据的最佳统计预测模型。本文运用GLM对一定的数据进行GLM分析。一、 数据与要求此处选取15名吧不同程度的烟民的每日饮酒(啤酒)量与心电图指标(zb)的对应数据。然后设法建立zb与日抽烟量(X)/支和日饮酒量(y)/升之间的关系。序号组别日抽烟量(x)/支日饮酒量(y)/升心电图指标(zb)113010280212511260313513330414014400514514410622012270721811210822512280922513300102231329011340
18、144101234515420133481642514350184501535519470二、 运用GLM过程进行趋势面分析 1. 趋势分析的GLM程序data beer;input obsn x y zb;cards;01 30 10 28002 25 11 26003 35 13 33004 40 14 40005 45 14 41006 20 12 27007 18 11 21008 25 12 28009 25 13 30010 23 13 29011 40 14 41012 45 15 42013 48 16 42514 50 18 45015 55 19 470;proc glm;
19、model zb=x y/p;proc glm;model zb=x y x*x x*y y*y/p;proc glm;model zb=x y x*x*x x*x*y x*y*y y*y*y/p;proc glm;model zb=x y x*x*x x*x*y x*y*y y*y*y x*x*x*x x*x*x*y x*x*y*y x*y*y*y y*y*y*y/p;run;2. 四种分析模型结果(1)一阶趋势模型Dependent Variable: zb源变量 自由度 平方和 均值 F值 概率值 Sum of Source DF Squares Mean Square F Value
20、Pr F Model 2 90615.20993 45307.60497 127.19 Fx 1 89541.56558 89541.56558 251.36 Fx 1 14652.24351 14652.24351 41.13 |t|Intercept 64.04999380 33.06539919 1.94 0.0766x 5.38385565 0.83947567 6.41 FModel 5 93330.83580 18666.16716 107.75 FX 1 89541.56558 89541.56558 516.86 Fx 1 965.2913631 965.2913631 5.5
21、7 0.0426y 1 127.4395437 127.4395437 0.74 0.4133x*x 1 43.6622972 43.6622972 0.25 0.6277x*y 1 242.0343234 242.0343234 1.40 0.2675y*y 1 49.8430316 49.8430316 0.29 0.6047StandardParameter Estimate Error t Value Pr |t|Intercept -262.7664793 109.1074817 -2.41 0.0394x 16.0699779 6.8078620 2.36 0.0426y 23.5
22、391327 27.4449867 0.86 0.4133x*x 0.0638773 0.1272383 0.50 0.6277x*y -1.1651016 0.9857119 -1.18 0.2675y*y 1.1673362 2.1762982 0.54 0.6047-Observation Observed Predicted Residual 1 280.0000000 279.4168700 0.5831300 2 260.0000000 258.6814596 1.3185404 3 330.0000000 351.0997183 -21.0997183 4 400.0000000
23、 388.1251282 11.8748718 5 410.0000000 414.0657505 -4.0657505 6 270.0000000 255.1256024 14.8743976 7 210.0000000 216.6773768 -6.6773768 8 280.0000000 279.9417834 0.0582166 9 300.0000000 303.5367795 -3.5367795 10 290.0000000 295.5572467 -5.5572467 11 410.0000000 388.1251282 21.8748718 12 420.0000000 4
24、19.0280585 0.9719415 13 425.0000000 436.4318573 -11.4318573 14 450.0000000 453.7554706 -3.7554706 15 470.0000000 465.4317699 4.5682301-Sum of Residuals -0.000000Sum of Squared Residuals 1559.164195Sum of Squared Residuals - Error SS -0.000000First Order Autocorrelation -0.354205Durbin-Watson D 2.694
25、808(3)三阶趋势模型Dependent Variable: zb源变量 自由度 平方和 均值 F值 概率值 Sum ofSource DF Squares Mean Square F Value Pr FModel 6 93393.46414 15565.57736 83.21 F x 1 89541.56558 89541.56558 478.66 Fx 1 1643.347081 1643.347081 8.78 0.0180y 1 197.474017 197.474017 1.06 0.3343x*x*x 1 105.516422 105.516422 0.56 0.4741x*x
26、*y 1 113.710330 113.710330 0.61 0.4580x*y*y 1 146.610010 146.610010 0.78 0.4018y*y*y 1 173.116161 173.116161 0.93 0.3642StandardParameter Estimate Error t Value Pr |t|Intercept -166.0074589 82.37772231 -2.02 0.0786x 11.1382598 3.75795233 2.96 0.0180y 15.7784340 15.35703905 1.03 0.3343x*x*x -0.015413
27、2 0.02052250 -0.75 0.4741x*x*y 0.1203187 0.15432333 0.78 0.4580x*y*y -0.3416786 0.38595313 -0.89 0.4018y*y*y 0.3134894 0.32587614 0.96 0.3642Observation Observed Predicted Residual1 280.0000000 281.0906363 -1.0906363 2 260.0000000 256.0483783 3.9516217 3 330.0000000 351.8935219 -21.8935219 4 400.000
28、0000 390.5707896 9.4292104 5 410.0000000 409.2309652 0.7690348 6 270.0000000 257.9983490 12.0016510 7 210.0000000 220.0483966 -10.0483966 8 280.0000000 275.0160368 4.9839632 9 300.0000000 299.4709973 0.5290027 10 290.0000000 295.8228899 -5.8228899 11 410.0000000 390.5707896 19.4292104 12 420.0000000
29、 420.5758580 -0.5758580 13 425.0000000 437.4437284 -12.4437284 14 450.0000000 455.6875798 -5.6875798 15 470.0000000 463.5310833 6.4689167-Sum of Residuals -0.000000Sum of Squared Residuals 1496.535862Sum of Squared Residuals - Error SS -0.000000First Order Autocorrelation -0.357545Durbin-Watson D 2.
30、686333- (4) 四阶趋势模型Dependent Variable: zb源变量 自由度 平方和 均值 F值 概率值 Sum ofSource DF Squares Mean Square F Value Pr FModel 11 94480.31919 8589.11993 62.90 0.0029Error 3 409.68081 136.56027Corrected Total 14 94890.00000R-Square Coeff Var Root MSE zb Mean0.995683 3.367695 11.68590 347.0000Source DF Type I SS
31、 Mean Square F Value Pr Fx 1 89541.56558 89541.56558 655.69 0.0001y 1 1073.64435 1073.64435 7.86 0.0676x*x*x 1 2078.77664 2078.77664 15.22 0.0299x*x*y 1 508.85526 508.85526 3.73 0.1491x*y*y 1 17.50614 17.50614 0.13 0.7440y*y*y 1 173.11616 173.11616 1.27 0.3421x*x*x*x 1 52.91566 52.91566 0.39 0.5777x
32、*x*x*y 1 193.81980 193.81980 1.42 0.3192x*x*y*y 1 452.42798 452.42798 3.31 0.1663x*y*y*y 1 40.32879 40.32879 0.30 0.6246y*y*y*y 1 347.36281 347.36281 2.54 0.2090-Source DF Type III SS Mean Square F Value Pr Fx 1 53.8347354 53.8347354 0.39 0.5746y 1 18.4422458 18.4422458 0.14 0.7376x*x*x 1 707.3985134 707.3985134
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026学年海南省三亚市四年级数学期末高分实战演练题详细参考解析详细答案和解析
- 患者排泄习惯的评估
- 急性胃炎的药物治疗
- DB1410T 096-2019 乡宁空心月饼制作规范
- 护理实训中的疼痛管理技巧
- 我院护理课件教学课件设计大赛
- 特殊打印机销售合同
- 中间商销售合同
- 大冶房屋销售合同
- (正式版)DB41∕T 1949-2020 《流域控制单元水质目标管理技术规范》
- 2026年水利水电安全b证预测试题及完整答案详解【典优】
- 考点主考校长在2026年高考考务工作会议上的讲话:高考在即责任如山慎终如始
- 2026年甘肃高考政治真题试卷(含答案)
- 2025年基本级执法资格考试真题及参考答案
- 人教版高中生物选择性必修3《生物技术与工程》模块综合测评卷(一)原卷+答案
- 初中数学九年级下册《投影与视图》单元整体教学设计 -2
- 3.1 地球是我们的家园 课件(内嵌视频) 2025-2026学年教科版科学三年级下册
- 2026年专业技术人员继续教育公需科目考试试题及答案
- 2026湖北机场集团招聘笔试备考试题及答案解析
- 合并OSAHS患者围手术期气道管理要点
- 建筑与房地产经济高级经济实务经济师考试试题及答案(2025年)
评论
0/150
提交评论