基于多个回归方程拟合的数据挖掘方法研究与设计_第1页
基于多个回归方程拟合的数据挖掘方法研究与设计_第2页
基于多个回归方程拟合的数据挖掘方法研究与设计_第3页
基于多个回归方程拟合的数据挖掘方法研究与设计_第4页
基于多个回归方程拟合的数据挖掘方法研究与设计_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

I 摘 要 统计分析 是指运用统计方法及分析对象有关的知识,从定量与定性的结合上进行的研究活动。统计分析中目前比较流行的就是回归分析方法,比以往单纯的数据统计要精确的多。但是统计分析有其自身的优势与局限,首先是现实生活中数据的复杂性,仅靠统计分析方法去控制和解释这些复杂的数据是不全面的;其次统计分析以概率为基础,既然是概率就会存在误差,很难判断一个统计的结论是否绝对正确。 近些年来,数据挖掘已经在信息业中引起了极大地关注,它是一个新兴的研究领域,利用了人工智能和统计分析的进步,以及应用数据库和机器学习,通过分析大量的,随机的数据 ,从中寻找出隐含在这些数据中有规律的,潜在有用的信息的过程,这些有用的信息可以广泛的应用于电子商务,市场分析和决策支持等方面。 但是数据挖掘并不是否定了传统的统计分析,它是统计分析方法的延伸和扩展。 在目前的人工电话系统中,当所有的话机都处于繁忙状态时,这时再打入的电话就会一直提示忙音状态而不是反馈一个预计等待时间的信息。解决此问题的方法之一就是对每一部话机做单独的回归分析,挖掘出这部话机的特征值即通话次数最多的那个时间点,再经过相关的计算即时算出当前打入的电话预计等待时间。 虽然这个方法能达到 要求,但是毕 竟对同一组数据,用不同的回归 分析方法建立的回归方程 在参数上是有着差别的 , 从而挖掘出的特征值也不尽相同, 当以后随着业务的增多需要 特征值更加精确时,传统的统计分析 中的回归分析就 不太能胜任了 。 一个比较好的办法就是对同一组 待挖掘 数据,用不同的回归 分析 方法建立多个回归方程, 并 对这些方程进行拟合,最后形成一个精度更高的回归方程。 本文就围绕着对多个回归方程拟合的方法,研究并对此方法进行改进,使其在回归精度上有一定的提高,并将此方法应用到热门的数据挖掘系统中,使统计学理论更好的服务于数据挖掘理论。 关键词: 统计学 ; 数据挖掘 ;回归分析;方程拟合 to of of a of of is in to be of is of on to is by on be it is to a In in it is an of of in as as by a of be in is to it is an of In of is to a an to is of up to in to to by so to is to to of 录 摘 要 . I . 录 . 一章 绪论 . 1 究背景 . 1 究意义 . 2 究现状 . 3 据挖掘与统计学 . 3 据挖掘中的统计方法 . 3 究目标和内容 . 4 究目标 . 4 究内容 . 5 点和创新 . 6 文结构 . 7 第二章 相关理论、方法和工具介绍 . 9 据挖掘与统计学 . 9 据挖掘综述 . 9 据挖掘的功能 . 9 据挖掘与统计学的联系 . 10 计学中的回归分析方法 . 11 归分析 . 11 元线性回归 . 11 元线性回归 . 12 线性回归 . 12 辑回归 . 13 归方程的统计检验 . 13 计分析工具 . 15 介 . 15 特点 . 17 直线回归的几种方法 . 18 第三章 多个回归方程拟合 方法的研究 . 20 程拟合的理论依据 . 20 进的方程拟合方法 . 21 进方法的拟合步骤 . 24 拟合方程的统计检验 . 25 进拟合方法有效性验证 . 26 第四章 应用领域数据挖掘模型的设计 . 29 用领域问题的阐述 . 29 据挖掘的实现目标 . 29 据挖掘模型实现过程 . 30 掘模型的建立 . 31 数据的获取 . 31 数据的处理 . 32 体模型的实现 . 33 验结果及评价 . 34 第五章 结论与展望 . 36 究工作总结 . 36 统存在问题及后续工作 . 36 参考文献 . 37 致谢 . 40 东北师范大学硕士学位论文 1 第一章 绪论 究背景 当今社会,科学技术飞速发展,在日常生活中产生的信息和数据可以用天文数字来形容,这些庞大的信息和数据,我们已经不满足于单纯的查询和统计,而更需要得到的是这些信息和数据背后所隐含的规律,那么,传统的统计分析,是否还能继续胜任这一工作呢? 目前在行政机关、企事业单位的工作中,随着信息 和数据 的逐渐复杂化 和巨量化 ,传统统计分析方法中的回归分析 方法 在 对数据描述的 精度上已经满足不了特定的办公需求 , 比如 在繁忙的电话业务中,经常出现没有空闲的 话机而又有电话不断打入的情况,这时候合理的解决方法就是能告知对方 是否要继续等待或者大约 要等待几分钟而不是让其直接挂断 。如何快速有效地获取、管理和使用那些包含于复杂数据中的潜在 有用 信息 和规律 ,己经成为信息系统学科迫切需要解决的重要问题。 随着研究的深入,数据挖掘技术产生了,它可以通过统计分析方法从庞大的数据中找出那些隐 藏在背后的,有价值的信息和规律,还可以把更为高级的人工智能技术应用到常用的数据中当中。 数据挖掘指的是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有效的、新颖的、潜在有用的、并且最终可理解的模式的非平凡过程。从技术层面讲,数据挖掘集人工智能、统计学、数据库管理、数据仓库、可视化、并行计算、决策支持为一体,利用数据库、数据仓库技术存储和管理数据,利用统计学方法和人工智能分析数据 1。虽然数据挖掘技术有很多的优点,但是它的产生并不是完全否定了统计分析方法,它在进行数据挖掘的过程中,仍然 应用了统计分析的一些基本方法,例如挖掘之前对数据的预处理上,挖掘之后挖掘结果的总结上,统计分析都发挥了重要的作用。数据挖掘的产生,是对统计分析进行了补充,数据挖掘和统计分析是相辅相成的。 我们知道,有这样一 种状况,在我们打电话的时候如果对方正在通话,那么我们从电话里听到 的只是嘟嘟的忙音,并且也不知道对方会在多久之后结束通话,会严重的影响办事效率 。目前在长春市市长公开电话项目中,就有着这样一个需求:可以同时接听市民投诉电话的话机数量是有限的,这些话机在同一时刻,有的在和市民通话,有的在空闲。但当某一时刻同时打 入的电话比较多,导致所有话机都在通话时,会使再打入的电话一直是忙音状态,市民不知道是一直等下去东北师范大学硕士学位论文 2 还是挂掉电话,这就违背了市长公开电话“服务周到、快速反应、满意答复”的初衷。所以要求项目在实施中,要加入一个功能:当没有空闲的话机可用时,要对市民新打进的电话做一个反馈,告诉其大约要等待几分钟,把是否继续等待的决策权交给市民。 如何告知市民要等待多长时间,在数据挖掘中应用传统的统计分析方法是可以达到要求的,即对每一部话机都做单独的统计,统计出 这个接线员 在通话时间为 1 分钟左右时的通话次数,通话时间为 2 分钟左右时的通话 次数,然后根据这组数据做出回归方程,从回归方程中找出通话次数最多的那个时间点作为这部话机的 特征值 。当所有话机在通话而又有市民打进电话的时候,系统就用每一部话机的 特征值 减去已经通话的时间,最后得出的集合中,把数值最小的那一个反馈给市民,即为市民大约要等待的时间。虽然能达到需求的要求,但是毕竟对同一组数据,用不同的回归方程建立方法建立的回归方程是有着或多或少的差别的,在统计的精度上不是很准确,当以后随着业务的增多需要更高的精确度时,传统的统计分析方法就无能为力了。 沈叔平等人经过研究,提出了一种对多个回归 方程拟合的方法,使多个有关联的回归方程可以拟合成一个回归精度更高的回归方程,并对其进行验证,丰富了统计学理论。 所以经过 长时间的思考和研究,我确立以“基于多个回归方程拟合的数据挖掘方法研究与设计”为论文选题, 希望通过对多个回归方程拟合的方法的研究,对此方法做出一定的改进,使其在回归精度上有一定的提高, 将其应用于数据挖掘系统,希望 使传统的统计学理论在数据挖掘的不断发展进步中做出一些贡献 。 究意义 一、理论价值 1. 对 统计分析方法中的 多个回归方程拟合 的 方法做出改进, 使其描述数据的精确程度更高,丰富了统计分析方法 。 2. 从统计学角度 出发,使 数据挖掘理论 有了进一步的发展。并在数据挖掘理论的发展方向上证明了传统的统计分析方法仍然有着其活力。 二、现实意义 随着数据库技术 不断完善,越来越多的数据库 系统 被应用到实际的生活当中 ,由此产生的数据和信息也在以一个惊人的速度增长,比如说超级市场 沃尔玛 每天的交易次数都在千万次以上,银行和医院也逐渐需要超大的数据库才能装下日益增多的数据,在各种研究所中,每天产生的大量的数据都需要去分析和处理以发现规律,除此以外,互联网更是给我们带来了海量的数据,这些巨大的数据已经东北师范大学硕士学位论文 3 远远的超出了人类的手动处理能力。但是数据并没有什么价值,其中隐含的有用信息和规律才是有价值的,所以我们面对的一个事实是:数据丰富,信息匮乏。这就促成了数据挖掘理论的兴起,早期数据挖掘被认为是人工智能的应用,但是后来逐渐发现传统的统计分析也可以很好的应用到数据挖掘理论中,两者可以相辅相成 。所以, 研究 的现实意义 在于: 1. 即使海量数据,也可以通过数据挖掘进行统计分析研究,使统计分析在巨大的数据量面前依然可以发挥其不可缺少的作用。 2. 将统计分析研究出来的,去除了噪音的数据通过数据挖掘系统,能得出隐藏在数据背后的,有用的信息和知识,使数据挖掘的质量更高。 3. 设计 的数据挖掘模块可以 应用于人工电话应答系统 以及类似的数据挖掘系统 中, 使之有其用武之地,更加实用 。 究现状 据挖掘与统计学 国内外关于数据挖掘与统计学基本问题的研究成果较少。就国外而言,在分析统计学与数据挖掘特征的基础上,具体论述了统计方法与数据挖掘在数据分析与建模方面的差异 1; 为“数据挖掘是智能化的统计”; 述了数据万巨额有别于统计学的主要方面及其目的和相关的统计方法 2; 分别论述的统计学的兴致与数据挖掘的兴致,同时提出了统计学与数据挖掘相关联的一些难题 3; 标、方法的基础上,认为数据挖掘也适用于官方统计领域 4。国内 相关研究文献有:中国人民大学统计学系数据挖掘中心以统计学最近 40 年的发展走势为论述起点,逐步对统计方法在数据挖掘算法设计、开发过程中的应用情况进行全面、系统的考察与分析,从而提出了统计学与数据挖掘协同发展的广阔前景 5;马江洪、张文修、徐宗本从统计学的角度分析了数据挖掘中相关的统计问题,提出了在这一领域将带来的一些新的研究方向 6;李经振从数据、分析方法、模型和模式、算法、方法论几个方面分析了数据挖掘与统计学的差异 7;朱世武、张尧庭、谢邦昌提出了数据挖掘和传统的统计分析相比所具有的几项特性 8。 据挖掘中的统计方法 数据挖掘中统计方法的研究,国外的相关研究文献较多。 、 和 c、 、 从统计学的角东北师范大学硕士学位论文 4 度研究关联规则 9; 出了关联规则挖掘算法中基于抽样的算法 10;、 提出了基于聚类的关联规则挖掘 11; M A 对贝叶斯分类作了介绍 12; 分析了类条件独立性假设不成立时朴素贝叶斯分类的预测能力 13; H 介绍了朴素贝叶斯分类法的一个实验报告 14; 介绍了贝叶斯信念网络 15; V 和 提出了信念网络上推理的算法 16; 、 、 提出了训练贝叶斯信念网络的梯度下降法 17; 提出了聚类分析中基于划分的 18; L 提出了 19; 、 提出了基于 等。 国内的研究文献有:赵广社、张希仁和牛力等认为数据挖掘中的统计方法主要有描述统计、概率论、回归分析、时间序列分析,多元统计中的因子分析、判别分析及聚类分析等 21;吕安民、李成名等将统计分析方法与面向属性的归纳方法结合起来,形成一种应用面比较广的统计归纳学习方法,用于 性归纳学习 22;中国人民大学统计学系数据挖掘中心从作用、相 异度度量、算法及计算机操作程序等方面对数据挖掘中的聚类方法进行了详细的论述 23;吴良刚、周海涛提出了一种基于数理统计的数据挖掘模型,技术要点为:用 解法解出回归系数,用 法求特征值和特征向量 24;洪龙、陈燕俐等对聚类、数据对象、簇的密度、基于密度的方法和 的基本概念进行了描述,在此基础上,明确定义了簇的密度,建立了关于省的基于密度的簇、密度度量函数等概念,设计了获得聚类结构的相应算法并且进行了复杂性分析 25;朱建平、李治国、陈彩云探讨了数据挖掘的一种新模型 一一伯恩斯坦基函数拟合预测模型,借助该模型的凸包性,对上证指数这一稠密时序资料进行了分阶段移动预测模拟,并分析了实际拟合模型和预测模拟的误差,取得了较好的结果,实践表明该模型对稠密数据集的研究有较明显的效果 26;李丙春、梁俊峰、田华讨论了统计学方法在数据挖掘中的主要应用,包括贝叶斯分类法和用于连续值预测的线性回归统计技术建模,以及基于统计学的概念聚类方法,并分析了算法的有效性和局限性 27;朱建平、谢邦昌对数据挖掘中关联规则作了统计描述,进而提出了相应分析的适应性问题,并对此作了深入研究 28。 究目标和内容 究目标 在 应用统计分析方法的数据挖掘 工作中, 以前常 用 的方法是标准 曲线计算 ,但是当回归方程理论出现后,越来越多的回归方程计算应用到统计分析中,最明东北师范大学硕士学位论文 5 显的优点就是减少了计算所带来的误差,使挖掘更精确。但是在建立回归方程的时候由于原始数据的不确定性,和建立模型方法的不同,导致了所建立的回归方程可能不是那么精确,不能准确的反映出我们预期的结果,所以为了提高挖掘准确度,可以应用不同的回归方程建立方法,对同一组数据建立多个回归方程,然后对这多个回归方程进行拟合,最后得出一个更加准确的回归方程。 一般 来说, 多 个 回归方程拟合 的 方法是 :先 将两个回归方程拟合为一个 回归方程后 ,经过拟合检验, 再与 另一 回归方程拟合, 再经过拟合检验,循环直至拟合完成 。 这种方法首先是计算复杂,中 间有一个步骤出错就全盘出错,而且有时候最后拟合成的方程却通不过统计检验,比如判断拟合好坏的 F 检验,最后导致拟合失败。本文在仔细研究了回归方程拟合的方法之后,结合 线性回归的数学模型 ,以期对多个回归方程拟合的方法进行改进,总结出开销更小,拟合精 度更高的 一种 拟合方法。 在拟合方法确立以后, 并且 根据数据挖掘原理,结合多个回归方程拟合的方法, 应用一定的统计分析工具, 在具体的市长电话项目中实现对数据库中的数据进行有目的、有针对性的数据挖掘,挖掘出每部电话的通话习惯,结合实际情况告知用户是否需要等待及需要等待时间。使得该 系统与传统的电话业务相比,具有更效率,更人性化的特点。 究内容 首先对统计分析中多个回归方程拟合的方法进行改进,使其 开销更小,拟合精 度更高 。 并 通过对统计分析、数据挖掘等相关技术的研究,设计并实现市长电话项目中的一个 数据挖掘模型 ,实现 电话繁忙时等待告知 的功能,以满足用户的不同需求。 如图 1示 东北师范大学硕士学位论文 6 图 1要研究内容 研究内容包括以下 几点 : 1. 发现规律:结 合一元线性回归的数学模型,对多个回归方程拟合的方法进行改进,将此方法应用到电话 繁忙时 等待告知 模块 的非线性回归方程中, 并建立回归模型,以此模型为进行决策的依据。 2. 决策: 应用回归模型对数据源进行数据挖掘,得到预期的潜在信息(即每部电话的通话习惯,习惯由接线员的习惯不同而有所差异)。因为有多部电话,每部电话的回归模型必定不同,根据已有的决策方法,判断新打入的电话是否需要等待 及等待时间 ,并 和 以以往的多个 回归方程 拟合的 方法 进行挖掘 所得结果 做出 比较。 3. 评估: 用已有的数据对决策进行评估,验证模型在精确度上是否有所提升。 4. 反馈:因为数据量总是不断在增加的,当数据源发生改变时,相应的回归模型也要随之改变,但不是一有数据的变化就重新建立回归模型,而是设定一个阈值,在数据量累计到一定程度时才重新建立新的回归模型。 点和创新 本文的难点主要体现在以下几个方面 : 1. 关于统计分析和数据挖掘理论的研究,大多都是独立进行,很少有专门的文献对数据挖掘中的统计分析方法进行研究 。 2. 对 此 数据挖掘 模型 的设计与实现,不仅需要丰富的计算机科学知识,还需要大量 数学 知识 。 3. 对于 实际应用的庞大数据,如何处理,如何进行挖掘,如何验证挖 掘效果东北师范大学硕士学位论文 7 也是一个比较难以解决的问题 。 本文的创新点 主要有以下几个方面 : 1. 对 多 个 回归方程拟合 的 方法 进行 改进。 此前有人研究过多回归方程拟合方法,但是效率不高,精确度上也有提升的空间。 2. 对 此 数据挖掘 模型 的设计与实现。 目前的电话应答系统还没有很好的解决电话繁忙时等待告知功能。 文结构 全文 总 共分为 五 章。 第一章为 :绪论 。通过对 目前数据挖掘与统计分析的研究现状 、 研究方 法 等方面的阐述 , 明确了本次论文的研究意义和研究目标,并通过总结找出了实现此目标的难点 。 第二章为 :理论的研究和学习,以及工具的介绍,共分为三个部分: 1. 数据挖掘理论和统计学的 研 究。通过对数据挖掘与统计 分析的 理论基础、研究 方法等方面的比较, 得出了数据挖掘与统计分析的联系和不同之处,使人们了解并认知了这两者之间的区别和联系,消除了人们一直以来对两者混淆的一种状态。 2. 统计 分析 方法 中回归分析 综述。首先说明了统计 分析 方法中回归的定义,然后对回归分析中的一元线性回归、多元线性回归、逻辑回归、非线性回归等 回归 方法进行综述 ,以及回归方程的统计检验方法等。 3. 统计分析工具 介绍。 统计分析 中常用的工具, 基本功能包括数据管理、统计分析、图表分析、输出管理 , 等等。 使用 以大幅度的减少数据的计算量,并能避免人工计算上可能出现的错误。 第三章为: 对 多个回归方程拟合 的 方法 进行 研究。 1. 多个 回归方程拟合 的 方法的研究。主要进行了回归方程拟合方法的研究和不同的回归方程拟合方法 在回归 精度上的对比。 关于如何改进回归方程拟合的方法 , 明确了改进的 拟合方法将先拟合后检验改为先检验后拟合,简化了计算,提高了拟合成功率。 2. 应用领域中 回归方程模型的建立。 由于应用领域中对数据的分析,得出回归方程时非线性的, 在选定横纵坐标的特征变量基础上,首先应用非线性回归方程转化线性回归方程的方法,将非线性回归方程转化成线性回归方程,然后应用不同的回归方程建立 方法建立多个线性回归方程 ,再进行拟合,得出一个拟合后的回归方程,并对此方程的系数进行调整和确定,最后再将此线性回归方程转换回非线性回归方程。 东北师范大学硕士学位论文 8 第 四 章为 :应用领域数据 挖掘 模型的实现。从应用领域问题的阐述、实现的目标以及具体模型的实现等方面设计了应用领域中的数据挖掘模型 。 使得该系统与传统的电话业务相比,具有更效率,更人性化 的特点。 第 五 章为 :全文总结及 展望。 指出当前研究已取得的成果和存在的不足,并对今后的研究工作 提出了建议和 展望。 东北师范大学硕士学位论文 9 第二章 相关理论、方法和工具介绍 据挖掘与统计学 据挖掘综述 所谓数据挖掘 ( 记 ,就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义 : 数据源必须是真实的、大量的、含噪声的 ; 发现的是用户感兴趣的知识 ; 发现的知识要可接受、可理解、可运用 ; 并不要求发现放之四海皆准的知识,仅支持特定的发现问题。 与数据挖掘相近的同义词有知识挖掘、知识获取、模式分析、数据考古等。还有一个经常与之相混的术语 : 数据库中的知识发现 ( 记 ,一般的看法是 是 一个步骤。但是由于 们也可不对他门进行严格的区分,而把他们看成同义词。 何为知识 ? 从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源 泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据 ; 也可以是半结构化的,如文本、图形和图像数据 ; 甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的 ; 可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。 因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计 、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。 据挖掘的功能 数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般可以分为两类 : 描述和预测。描述性数据挖掘任务刻画 数据库中数据的一般特性。预测性数据挖掘任务在当前数据上进行推断,以进行预测。预测性数据挖掘 : 生成己知数据集所描述的系统模型 ; 描述性数据挖掘 : 在可用数据集的基础上生成新的、非同寻常的信息。 具体而言,数据挖掘功能可以细分为以下几项 : 东北师范大学硕士学位论文 10 1. 特征描述 : 通过描述所分析数据的一般特性 ( 集中趋势、离散趋势、汇总等 ) ,发现数据中蕴含的模式,可依赖技术有 描述统计方法。 2. 关联分析 : 发现大量数据中属性之间有趣的关联或相关联系。典型的应用为购物蓝分析。 3. 聚类分析 : 从数据中导出类标号,将数据划分成有意义或有用的类 ( 簇 ) ,尽量使同一个类 ( 簇 ) 中的数据之间具有较高的相似性,而不同类 ( 簇 ) 中的数据之间具有较大的差异性。 4. 变化和偏差检测 ( 孤立点检测 ): 发现数据集中最重要的变化,寻找孤立点,以确定是否是事物发生地突变。 5. 分类分析 : 找出描述并区分数据类或概念的模型 ( 或函数 ) ,从而使用该模型 ( 或函数 ) 来预测类标一记未知的对象类。 6. 回归分析 :通过建立回归模型进行预测分析 。 一般的,我们把 1 至 4 项功能认为是描述性数据挖掘要实现的任务,而把 5、6 两项功能认为是预测性数据挖掘要实现的任务。这 6 项功能是目前数据挖掘的核心功能。这些核心功能的实现基本上可以以统计分析方法作为支撑。 据挖掘与统计学的联系 数据挖掘技术是计算机技术、人工智能技术与统计技术等构成的一种新学科。数据挖掘来源于统计分析,而又不同于统计分析。数据挖掘不是 为了替代传统的统计分析技术,相反,数据挖掘是统计分析方法的扩展与延伸。大多数的统计分析技术都基于完善的数学理论与高超的技巧,其预测的准确程度还是令人满意的,但对于使用者的知识要求比较高。而随着计算机能力的不断发展,数据挖掘可以利用相对简单与固定程序完成同样的功能。新的计算算法的产生如神经网络、决策树使人们不需了解到其内部复杂的原理也可以通过这些方法获得良好的分析与预测效果。由于数据挖掘与统计分析根深蒂固的联系,通常的据挖掘工具都能够通过可选件或自身提供统计分析功能,这些功能对于数据挖掘的前期数据探索与数据挖 掘之后对数据进行总结与分析都是十分必要的。统计分析所提供的诸如方差分析、假设检验、相关性分析、线性预测、时间序列分析等功能都有助于数据挖掘前期对数据进行探索,发现数据挖掘的题目,找出数据挖掘的目标,确定数据挖掘所需涉及的变量,对数据源进行抽样等等。所有这些前期工作对数据挖掘的效果产生重大影响。而数据挖掘的结果也需要统计分析的描述功能(最大值、最小值、平均值、方差、四分位、个数、概率分配)进行具体描述,使数据挖掘的结果能够被用户了解。因此,统计分析与数据挖掘是相辅相成的过程,两者的合理配合是数据挖掘成功的重要 条件。 东北师范大学硕士学位论文 11 计 学中的回归分析方法 归 分析 在统计分析中,有确切的数据来源的前提下,我们可以建立一种关系,关系的双方是两个变量,这种关系一般称为模型。我们可以用 Y 来表示因变量,用 有关的自变量。那么我们就可以建立一个函数关系 Y=f( X)。这里 Y 称为因变量,而 X 称为自变量。建立这种关系的过程就叫做回归。 49 回归是统计分析方法中最实用也是最常用的一种。回归的主要目的是预测,或者用一个或多个 自 变量去解释另一个 因 变量。回归挖掘也是数据挖掘 中 一项非常实用的功能,主要用于连续型变量的预测。 回归分析有如下主要用途: 1. 从一组数据出发,确定这些变量间的定量关系式 建立回归方程。 2. 评价和度量变量间关系的密切程度 相关系数及其检验。 3. 应用回归方程从一些变量的取值去估计另一变量的值。 4. 对回归方程的主要参数做进一步的评价和比较 回归直线的统计检验。 建立回归模型的方法主要有:矩估计、最小二乘法、似然法、非参数估计,等等。最常用的方法为最小二乘法,即寻找一条直线,使得所有的点到该直线的竖直距离的平方和最小,这样的直线很容易通过计 算机得到。 元线性回归 当回归方程的自变量只有一个时,方程叫做一元线性回归方程,它是把所有自变量当中起决定性作用的那个自变量 x 选入这个回归方程,从而预测和估计因变量的值 y。 一元线性回归只要解决: 1. 求变量 x 与 y 之间的回归直线方程 。 2. 判断 x 和 y 之间是否确定为线性关系。 3. 根据一个变量的值,预测或控制另一个变量的取值。 一元线性回归模型一般形式如下: y = u 其中 为回归系数, u 是误差项,表示各种随机因

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论