




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于应用数理统计的计算机数据挖掘中应用摘 要: 本文是介绍一种基于应用数理统计的在计算机数据挖掘中的应用方法,并提出统计模型和对模型进行分析与求解,并根据统计模型的的求解结果进行分析,从中提取有用的信息,以此达到数据挖掘。abstract :this article is based on an application of mathematical statistics in computer applications in data mining methods and statistical model and the model for analysis and solution, according to the statistical model for the results of the analysis, from the extraction of useful information in order to achieve data mining关键字:数据挖掘 datamining 聚类 线性回归分析keyword: data mining datamining cluster linear regression analysis一 前 言数据挖掘(datamining)可以理解成计算机的一个方面,它是从我们所拥有的大量的数据中找出有用信息的一种技术。众所周知,分析、处理数据的传统学科是统计学。统计学的方法应该可以被利用来处理这些数据,问题是我们所面临的这些海量数据并不满足统计学的概率模型。如何成功地对这样的数据进行分析,对今后的信息处理技术具有重大的意义,这就是近年来发展起来并倍受关注。二 问题的引入社会各个方面都对数据库进行了广泛的应用,所以都积累了大量的数据,这些数据的内在联系可能就是有价值的知识,运用数据仓库技术,发现并提取这些知识,成了各个企业的首先的任务。 数据挖掘就是从大量的数据中提取隐含的、未知的、对决策有潜在价值的知识和规则的过程,它的主要技术包括聚类,粗糙集,关联规则、统计分析、神经网络、模糊数学等。数理统计学是一门关于数据资料的收集、整理、分析和推理的科学,在时下的数据挖掘热潮中,数理统计方法是最有效而且最实际的方法如何从大量的计算机计算和检测到的数据中挖掘出最由价值的信息(数据),并且对数据进行分析与分类,最后建立出回归方程,以此了解整个整个数据的变化与规律。三 统计模型以及分析3.1 数据挖掘的过程数据取样sample数据探索explore数据调整modiey评价assess模式化model聚类分析和因子分选可视数据探索添加和拆分记录数据重组数理统计分析决策树模型时间序列分析人工神经元网络数据修改?新问题?结论综合和评价 图一:数据仓库流程在这五个步骤中,模式化是数据挖掘的核心,用的最广泛又最为经典的模式化方法当数数理统计分析,一般情况下,在数据库或数据仓库字段之间存在两种关系:函数关系(能用函数公式表示的确定关系)和相关关系(不能用函数公式表示,但仍是相关确定关系),对它们可进行回归分析、相关分析、主成分分析。3.2 数据挖掘模型的建立为了分析数据仓库中的数据关联性,需进行多元线性回归分析和利用相关系数表进行特征值与特征向量分析,以确定主成分:从数据仓库中抽取随机变量y及m个自变量x0,x1,,xm-1,给定n但观测数据(x0i,x1i,xm-1,i,yi)(i=0,1,n-1),用线性表达式: ,其中a,b是线性回归系数,对线性回归方程进行逐步回归分析.四 数据模型求解4.1 最小二乘法原理 如果把用回归方程 计算得到的 i值(i=1,2,n)称为回归值,那么实际测量值yi与回归值 i之间存在着偏差,我们把这种偏差称为残差,记为ei(i=1,2,3,n)。这样,我们就可以用残差平方和来度量测量值与回归直线的接近或偏差程度。残差平方和定义为: 所谓最小二乘法,就是选择a和b使q(a,b)最小,即用最小二乘法得到的回归直线 是在所有直线中与测量值残差平方和q最小的一条。由(2-1-2)式可知q是关于a,b的二次函数,所以它的最小值总是存在的。下面讨论的a和b的求法。 4.2 正规方程组 根据微分中求极值的方法可知,q(a,b)取得最小值应满足 由上式,并考虑上述条件,则 称为正规方程组。解这一方程组可得 其中 式中,lxy称为xy的协方差之和,lxx称为x的平方差之和。 如果改写(2-1-1)式,可得 或 由此可见,回归直线是通过点 的,即通过由所有实验测量值的平均值组成的点。从力学观点看, 即是n个散点 的重心位置。 4.3一元线性回归的统计学原理 如果x和y都是相关的随机变量,在确定x的条件下,对应的y值并不确定,而是形成一个分布。当x取确定的值时,y的数学期望值也就确定了,因此y的数学期望是x的函数,即 e(y|x=x)=f(x) 这里方程f(x)称为y对x的回归方程。如果回归方程是线性的,则 e(y|x=x)=+x 或 y=+x+ 其中 随机误差 从样本中我们只能得到关于特征数的估计,并不能精确地求出特征数。因此只能用f(x)的估计式 ,用参数a和b分别作为和的估计量。那么,这两个估计量是否能够满足要求呢? 1. 无偏性 把(x,y)的n组观测值作为一个样本,由样本只能得到总体参数和的估计值。可以证明,当满足下列条件: (1)(xi,yi)是n个相互独立的观测值 (2)i是服从 分布的随机变量 则由最小二乘法得到的a与b分别是总体参数和的无偏估计,即 e(a)= e(b)= 由此可推知 e( )=e(y) 即y是回归值 在某点的数学期望值。 2. a和b的方差 可以证明,当n组观测值(xi,yi)相互独立,并且d(yi)=2,时,a和b的方差为 以上两式表明,a和b的方差均与xi的变动有关,xi分布越宽,则a和b的方差越小。另外a的方差还与观测点的数量有关,数据越多,a的方差越小。因此,为提高估计量的准确性,xi的分布应尽量宽,观测点数量应尽量多。五 结果分析根据一元线性回归的方程并利用方差分析和主分析法把把特征值从大到小排列,求出累计贡献在70%左右的前几个特征值,这几个特征值就是主成分,确定影响总体样本数据的主要因素。然后进行结论评价,如果结论不合理,再进行数据抽取,利用以前的方法进行再分析,直至结论合理有效。该挖掘软件由vc6.0开发,在win98操作系统和oracles数据库平台上测试通过。六 参考文献1 盛骤,谢千式,潘承毅.概率论与数理统计(第三版).北京:高等出版社,20012 袁荫堂.概率论与数理统计(修订版).北京:中国人民大学出版社,19903 肖亮壮,谭锐先. 概率论与数理统计(第一版).北京:国防工业出版社 19804 孙清华,赵修德.新编概率论与数理统计题解(第一版).武汉:华中科技出版社,20015 魏宗舒. 概率论与数理统计(第一版).北京:高等出版社,19986 邵峰晶,于忠清. 数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 3.2细胞器之间的分工合作 教学设计-2024-2025学年高一上学期生物人教版(2019)必修1
- 第二节 撒哈拉以南非洲说课稿-2025-2026学年初中地理粤人版七年级下册-粤人版2012
- 2025专营合同范本下载
- 2025二手房屋交易合同范本下载
- 《2025年电子配件购销合同》
- 2025买卖合同的解除条件及方法
- 2025房地产买卖合同3
- 第8讲 东南亚 南亚-印度 第1课时 教学设计 2023-2024学年高二下学期
- 2025仓库租赁合同终止协议
- 线缆厂办公区域管理细则
- 合作建房框架协议书
- 高三毕业班会课件
- 护理学基础:会阴部擦洗
- 在第五章学习活动的基础上-针对案例《送别组诗教学实录》中教师运用教学策略的效果撰写600字评析文章
- 车辆驾驶业务外包方案投标文件(技术方案)
- 门窗定做加工合同范本
- 道路施工安全风险评估措施
- 重症护理学专科护士培训基地建设标准
- 科研机构固定资产使用和管理规范
- 培训机构教师前台工作培训
- 公安情报干部培训授课
评论
0/150
提交评论