数据挖掘论文.docx

上传人：a*** IP属地：河南上传时间：2020-03-08 格式：DOCX 页数：17 大小：327.21KB 积分：18 举报 版权申诉

已阅读5页，还剩12页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

工程设计中的实验数据挖掘摘要关键词：一、问题重述1.1 问题背景工程设计的水平和能力是一个国家和地区工业创新能力和竞争能力的决定性因素之一。近些年来，随着我国各项工程的蓬勃发展，使得工程在立项、可研、方案、施工、调测直至开工这些方面都与实验数据挖掘密不可分。数据挖掘，在人工智能领域，习惯上又称为数据库中的知识发现，也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。数据挖掘是通过分析每个数据，从大量数据中寻找其规律的技术，主要有数据准备、规律寻找和规律表示3个步骤。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等等。1.2 问题提出在工业设计中，采集到了如附表中的数据，该数据是可能对19个因变量有影响的所有可以自变量的数据，第19号变量受到了18个自变量的影响（有的可能没有影响）。建立数学模型分析研究下面的问题：要求1：提出的自变量中有的是互相相关的，过多的自变量个数和小样本数给数据分析带来了很大的困难，请辨别出因为相关性需要删除的自变量；要求2：在采集数据的过程中，每一个样本值（每一列）由于人为因素或者是测量因素导致得到的数据误差很大，是不可信的。请从中挑出一个不可信的样本值；要求3：建立一种以上模型，得到因变量与自变量的关系，并统计这些模型的计算值与理论值的误差平方和；要求4：从影响因素中找出排在前五位的因素，并分析影响规律基于所做的以上分析，给出制造单位你的建议。二、问题的分析本题主要任务是：根据所给自变量之间的相关性，删除一部分自变量，并分析分析每一组样本值，从中挑选出一组不可信的样本值。通过建立因变量与自变量的关系模型，统计计算值与理论值的误差平方和，再根据影响因素，找出排在前五位的因素，进而得到分析结果，提出意见。 2.1 问题一分析2.2 问题二分析2.3 问题三分析2.4 问题四分析三、基本假设1、；2、；3、；4、。四、符号说明符号符号说明五、模型的建立与求解5.1 问题一的模型与求解5.1.1 模型的分析在分析自变量与因变量之间的关系时，为了避免遗漏某些重要因素，往往一开始选取自变量指标时，尽可能多地考虑所有的相关因素。而题意中给出了18个自变量，过多的自变量，且变量间的相关度高，这样的数据会给系统分析与建模带来很大不便。而且高相关度的自变量对因变量的影响具有一致性，因此，我们可以通过研究变量间的相似关系，按照变量的相似关系把他们聚合成若干类，选取每类中的一个变量，进而达到删除过多自变量的目的。5.1.2 模型的建立与求解1) 多元分析的方法选用：根据上述模型分析，我们需要将18个自变量进行分类，因此，我们选用聚类分析法1进行定量的数据分析。聚类分析法是对多个样本（或指标）进行定量分类的一种多元统计分析方法。其主要分为两类：对样本进行分类称为Q类聚类分析，对指标进行分类称为R型聚类分析。根据题意得，所分析的数据是以每项指标为单位进行删除，因此，我们选用R型聚类分析法。2) 变量数学化：设第19个因变量为y，18个自变量为xii=1,2,18。3) 计算变量相似性度量1：在对变量进行聚类分析时，首先要确定变量的相似性度量，常用的变量相似性度量有： l 相关系数：记变量xj的取值x1j,x2j,xnjTRn j=1,2,18，n=13。任意的选取两个变量xj与xk，将它们的相关系数rjk作为相似性度量，即 rjk= 1l 夹角余弦：直接利用两个变量xj与xk的夹角余弦rjk来定义它们的相似性度量，即 rjk= 2其中以上两种相似度量都可以表示：rjk越接近1，xj与xk越相关或越相似。rjk越接近0，xj与xk的相似性越弱。本文选取相关系数矩阵计算。通过SPSS软件计算得出各变量之间的相关系数表如下表1所示。表中为变量x1到x10的相关性系数值，其他8种见附录一。表1 各变量之间的相关系数表x1x2x3x4x5x6x7x8x9x10x11x20.1391x3-0.067-0.802*1x41.000*0.137-0.0651x5-0.256-0.763*0.895*-0.2551x60.870*0.292-0.1650.870*-0.4431x70.3080.362-0.4620.307-0.630*0.4251x80.718*-0.002-0.2140.718*-0.4320.570*0.607*1x9-0.059-0.297-0.077-0.060-0.045-0.3580.2630.563*1x10-0.284-0.613*0.842*-0.2820.897*-0.321-0.704*-0.590*-0.34714) 变量的聚类：在变量聚类的问题中，常用的方法有最长距离法、最短距离法等。本文采用采用最短距离法计算类间的相似性度量。最短距离法定义两类变量的距离为RG1,G2= 3其中：djk=1-rjk或djk2=1-rjk2，这时，RG1,G2与两类中相似性最大的两个变量间的相似性度量值有关。运用Matlab软件编程绘制聚类树型下图1所示。图1 指数聚类树型图根据文献2得知，相关系数可划分为三个级：|XY|0.4为低度线性相关；0.4|XY|0.7为显著性相关；0.7XY1为高度线性相关。我们根据高度相关关系进行聚类分析，从上图1可以看出，x1和x4先聚为一类，x5和x10聚为一类后与x3聚为一类，之后x1和x4又与x6,x15聚为一类，x11,x12聚为一类，最后x1,x4,x6,x15和x8聚为一类。被划分到一类的变量之间具有高的相关度，即可以认为他们对因变量的变化影响是一致的，因此只保留同一类中的一个自变量即可。即从类x1,x4,x6,x8,x15，类x3,x5,x10，类x11,x12中，保留各自类中的一个自变量。5) 选取类中自变量：为了达到被选取的指标能够反映因变量不同的性质（即各自指标之间相关性较低），因此在保证被划分到一类的变量之间具有较高的相关性的同时，需要使得该类中的变量与不属于该类的所有变量之间相关度均较低。下面建立模型解决类中自变量选取问题。假设指标x1,x2,x18全集U，聚类得到集合为R，在全集U中任意的选取两个指标xi、xj，需要分析类中变量与类外中变量的关系，则有约束条件：xiR，xjR为使该类中的变量与不属于该类的所有变量之间相关度均较低，假设xi与xj的相关系数为rij，则有目标函数：minjrij2 4综上，可建立如下模型：minjrij2s.t.xiR，xjRxiU，xjU 5利用Matlab软件，对上述模型进行求解。对于类x1,x4,x6,x8,x15的求解结果见下表2所示。表2 第一类的求解结果ximinjrij2被选取的自变量x11.7598x15x41.3817x61.7431x82.3567x151.3182与上述解法相同，求得第二类类x3,x5,x10，第三类x11,x12的结果见下表3、下表4所示。表3 第二类的求解结果ximinjrij2被选取的自变量x31.4864x3x52.1460x102.6154 表4 第三类的求解结果ximinjrij2被选取的自变量x110.5377x11x120.8902综上所述，我们得到需要删除的自变量有：x1、x4、x5、x6、x8、x10、x12。5.2 问题二的模型与求解5.3.1 模型的分析我们在分析数据时，为了反映各个指标的概貌而引入了平均值。在此我们暂假设各指标的平均值近似等于各指标的真实值。从采集数据中确定一组不可信的样本值实际上是分析每组样本值各指标与其平均值相差的距离。若各指标的相差距离值均较小时，我们可以认为该组的样本值较为可信，若出现相差距离值均较大时，这样会导致累积误差2，因此可以认为该组的样本值不可信。由此，可以建立比较平均值的偏离程度模型进行检验。5.3.2 模型的准备1) 自变量编号的重新设定为了便于模型表述，将所留下的自变量按照标号的大小顺序，分别重新编号为1-11。具体对应关系见表5所示。表5 自变量编号对应表原始编号x2x3x7x9x11x13x14x15x16x17x18新编号x1x2x3x4x5x6x7x8x9x10x112) 自变量的正态分布检验由于正态分布反映随着与平均水平的偏离程度的增大，事件发生的概率先是缓慢下降，然后比较急剧地下降，最后渐渐趋于零的一种统计规律。因此为了验证引入的平均值相差模型的正确性，我们对各个指标的样本值进行正态分布检验。通过SPSS软件计算得到检验结果如下图2所示（下图只有四个指标的正态分布检验图，其他七种见附表二）：图2 正态分布检验图通过SPSS软件对指标样本值进行正态分布检验时，得出显著性水平均大于0.05，均显示接受原假设，说明指标的样本值均服从正态分布。因此，我们可以通过建立比较平均值的偏离程度模型进行不可信样本值筛选。 5.3.3 模型的建立与求解1) 数据无量纲化处理各个指标之间由于计量单位和数量级尽不相同，从而使得各指标间不具有综合性，不能直接进行综合分析，这时就必须采用某种方法对各指标数据进行无量纲化处理，来解决各指标数值不可综合性问题。其中无量纲化的方法有四大类：极值化方法、标准化方法、均值化方法、标准差化方法。根据参考文献3、4得知，在多变量综合分析中，当原始数据呈正态分布的情况下，利用标准化方法进行数据无量纲化处理是较为合理的。在上述的模型准备中，我们得到11种指标的样本值均符合正态分布，因此，本问题可以具有采用标准化方法的合理性。标准化方法1的基本思想是对数据同时进行中心化压缩处理，即xij*=xij-xisii=1,2,11,j=1,2,13 6其中xi=，si=， xij表示第i指标的第j组样本值，xij*表示xij标准化后处理得到的值。通过Matlab软件编程得到标准化处理后的数据，见下表5所示。表5 标准化处理后的数据x1x2x3x4x5x6x7x8x9x10x111-0.617-0.061-1.1340.736-0.6461.7781.4440.9450.5240.7970.28720.329-0.391-1.595-1.6570.2151.169-1.088-1.0410.4220.922-0.28631.191-1.351.170.138-0.4310.56-0.2151.314-1.788-0.8350.89340.329-0.391-0.213-0.461.293-0.911-0.04-0.533-1.017-0.3420.82751.191-1.351.170.1380.8620.8211.7931.822-0.395-0.9121.1746-0.5181.5910.248-0.461.077-0.711-0.7390.2980.5431.394-1.1171.191-1.351.17-0.460-0.885-0.128-0.487-0.5341.064-1.2680.921-0.2590.709-0.46-1.0770.908-0.6510.8061.899-0.163-0.0990.329-0.391-0.2131.933-1.508-1.172-0.564-1.641-0.4320.486-0.94910-0.5181.591-1.595-1.6570-1.451-1.612-0.717-0.358-0.565-0.69611-0.190.567-0.2130.138-1.0770.3861.1820.3441.23-1.5351.06112-1.8190.963-0.6731.335-0.646-0.876-0.390.067-1.0821.225-1.44713-1.8190.8311.170.7361.9390.3861.007-1.1790.989-1.5351.5952) 建立比较平均值的偏离程度模型为了比较每一组样本值偏离平均值的程度，就需要计算在该组中所有指标与平均值偏差的平方和S，由于对数据进行标准化处理后，使得每一项指标的平均值为0，因此第j组样本值的平方和表达式为：Sj=i=111xij2 7其中i=1,2,11,j=1,2,13。由于定义偏差程度最大的一组样本即是应被挑出的不可信的样本值（即偏差平方和最大的一组），因此通过计算得到结果见下表6所示：表6 13组样本的偏差平方和第j组样本1234567偏差平方和S8.2168.86411.7816.16813.4088.1109.646第j组样本8910111213偏差平方和S7.11710.30012.6978.31411.92515.456通过上表得出，第13组样本的偏差平方和最大，综上所述，我们认为不可信的样本组即是第13组样本。5.3 问题三的模型与求解5.4.1 模型的分析根据题意建立模型得到因变量与自变量的关系，实际上是建立模型去寻找因变量与自变量之间的函数关系。由于因变量是由多个自变量得到的一组数据，因此该问题可以转化为多元曲线拟合问题。通过建立因变量与自变量之间的回归模型，进而得到两者关系，并求得计算值与理论值的误差平方和。5.4.2 模型的建立与求解1) 建立多元线性回归模型为了简化模型，我们假设因变量与自变量之间是线性关系。根据题意，因变量受多个自变量影响，且又由问题一中11个自变量之间相关性较弱的结论，可以初步建立多元线性回归模型。假设0,1,2,11为与自变量x1,x2,x11无关的未知参数，即称为回归系数。可得多元线性回归分析的模型为y=0+1x1+2x2+11x11+N0,2 8假设xij表示第j组样本的第i自变量值，yj表示第j组样本的因变量值。现有12组独立测量的样本值数据yj,x1j,x2j,x11j， j=1,2,12，有8得，yj=0+1x1j+2x2j+11x11j+jjN0,2，j=1,2,12 9记X=，Y= 10=112T，=0 111T 因此可以将8式转化为 Y=X+N0,2En 11其中En为n阶单位矩阵。通过Matlab统计工具箱用命令regress实现多元线性回归，其方法是最小二乘法，得到0,1,2,11的估计值i，见下表7所示。表7 回归系数的估计值及置信区间系数012345估计值i0-4.306410-50.02930.66790.0055-0.000267891011估计值i0.00040.0004-0.00640.0001-0.2554-0.0243且由1到11的置信区间分别是：-0.0003, 0.0003、-0.0486, 0.0891、-1.3112, 1.6096、-2.6897, 2.4221、-0.0115, 0.0075、-0.0053, 0.0034、-0.0025, 0.0034、-0.0124, 0.0117、-0.0021, 0.0029、-0.6776, 0.4134、-0.0919, 0.0657。残差分析：再根据模型求解中所求得的i的置信区间，将其两端区间端点减去i得到残差的置信区间，做出残差图像。见下图3，图3 残差图像根据上图分析，12组样本值数据的残差离原点均较近，且残差置信区间均包含零点，因此，我们可以确定线性回归模型y=-4.306410-5*x1+0.0293*x2+0.6679*x3+0.0055*x4 -0.0002*x5+0.0004*x6+0.0004*x7-0.0064*x8+0.0001*x9-0.2554*x10-0.0243*x11 12能够较好的符合原始数据，所建立的模型具有一定的准确性。2) 计算理论值与计算值的误差平方和s2，即s2=i=112yi-yi2 13经过计算得到，s2=2.07310-4。5.4.3 模型的进一步修正1) 建立逐步回归模型本问题在问题一所筛选的自变量基础上进行线性回归，虽然这些自变量之间不具有高度相关性，但是我们不能保证这些变量之间完全相互独立，或者默写自变量对因变量的影响不是很大。因此，基于11个自变量的线性回归模型不是最优的回归模型。进而，在这种情况下，可用逐步回归分析5，通过假设检验筛选出有显著影响的因子作为自变量，并建立更优的回归模型。逐步回归基本思路：先确定一初始子集，然后每次从子集外影响显著的变量中引入一个对y 影响最大的，再对原来子集中的变量进行检验，把变得不显著的变量中剔除一个影响最小的，直到不能引入和剔除为止。在Matlab统计工具箱中逐步回归命令stepwise进行统计分析，通过选择变量确定最终模型为y=-0.0014*x5-0.0012*x6+0.0014*x8+0.0007*x9-0.1530*x10-0.0136*x11+2. 196 13且R2=0.9463，F=14.6826，p=0.00490.05，可知上述模型13成立。2) 计算理论值与计算值的误差平方和s2，计算得到s2=2.76710-4。5.4 问题四的模型与求解5.4.1 模型的分析我们在讨论影响因素的影响力排名时是按聚类分析后所得类指标变量进行讨论的，因为每个类所包含的不同变量表达的都是同一个指标信息，所以用类指标变量对因变量的影响力大小程度，来进行排名，认为每类指标变量所包含的不同变量对因变量的影响程度处于同等水平。5.4.2 从影响因素中找出排在前五位的因素对于第四道题，要求得到影响因素中排在前五位的因素。第三问中我们已经得到，自变量和因变量的多元线性回归方程，但在回归方程中，其自变量因素的系数绝对值的大小，不能表明该因素对因变量的重要程度。在回归分析中，标准化回归系数恰好具有此项功能，可以反应自变量对因变量的影响力大小。因此，我们考虑用标准化回归系数来找出影响因素中排名前五的因素。标准化回归系数的意义是，当其他自变量取值保持不变时，自变量每改变一个标准差，因变量改变b个标准差。标准化回归系数的作用是，比较自变量对因变量变化的贡献大小，系数的绝对值越大该自变量对因变量的影响力越大，消除原始变量单位不同的影响。标准化回归系数的求解步骤：（1）首先对变量做标准差标准化量化处理，标准化变量的样本均值为0，标准差为1（2）再对标准化后的样本值做回归分析，求出的回归系数即为标准化回归系数。我们通过SPSS软件，求得的各指标变量的标准化回归系数见下表8所示：表8 各指标变量的标准化回归系数表自变量1713181632151179（9）14标准化回归系数-0.986-0.897-0.8660.6140.530-0.3840.331-0.254-0.136-0.017-0.012与因变量的相关关系-0.144-0.652-0.3680.1220.370-0.098-0.264-0.427-0.0420.081-0.326对表格数据进行说明：（1）“+”表明指标变量与因变量成正影响关系，“-”表明各指标变量与因变量成负影响关系；（2）标准化回归系数绝对值越大表明该指标变量对因变量的影响力越大。因此，由以上表格数据可得出影响因素排名前五的自变量排序是（按影响力从大到小排序）17,13,18,16,3。5.4.3 分析影响规律由表格中的各指标变量的标准化回归系数与各指标变量与因变量的相关关系进行对比，可以得出：(1) 指标变量与因变量的相关关系越大，并不能说

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘论文.docx

文档简介

温馨提示

最新文档

评论

数据挖掘论文.docx

文档简介

温馨提示

最新文档

评论

相关文档