




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于神经网络的数据挖掘方法第1页/共24页0引言1数据挖掘技术2神经网络原理3基于神经网络的数据挖掘4结论2第2页/共24页0引言现代信息技术的高速发展,数据库应用的规模、范围不断扩大,可获得的数据量越来越大,数据的种类也日益繁多。面对如此大规模的、并且存在着“噪声”的数据,如何从中提取出隐含其中的有意义的、对决策有用的信息或知识,进一步提高信息利用率,成为“信息时代”亟待解决的一个问题。3第3页/共24页0引言20世纪90年代出现的数据挖掘技术受到不同领域研究学者的极大关注,尽管对数据挖掘的研究与应用还只处于初级阶段,但是它的应用前景早已被各方面专家学者看好。GarterGroup在1997年的一份报告中指出:数据挖掘技术将在未来的三到五年内成为对全球影响最的一个关键技术领域。4第4页/共24页1数据挖掘技术数据挖掘的含义:数据挖掘,又称数据库中的知识发现,就是从大量数据中获取有效、新颖、潜在有用、最终可理解的模式的非平凡过程。简单地说,数据挖掘就是从海量的数据中挖掘出可能有潜在价值的信息的技术。这些知识是是隐含的,事先未知的潜在的有用的信息。5第5页/共24页1数据挖掘技术数据挖掘的主要功能:①分类:按照对象的属性、特征,建立不同的组类来描述事物。②聚类:识别出分析对象内在的规则,按照这些规则把对象分成若干类。6第6页/共24页1数据挖掘技术数据挖掘的主要功能:③关联规则和序列模式:关联是某种事物发生时其他事物会发生的这样一种联系。④预测:把握分析对象发展的规律,对未来的趋势做出预见。⑤偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。7第7页/共24页1数据挖掘技术数据挖掘的处理过程:数据挖掘的过程主要分为5个部分:①问题的定义②数据准备③数据整理④建立模型⑤评价和解释8第8页/共24页1数据挖掘技术数据挖掘的处理过程:9第9页/共24页1数据挖掘技术现行的数据挖掘方法:统计方法、关联发现、聚类分析、分类与回归和决策树、联机分析处理(OLAP)、查询工具、主管信息系统(EIS)等。这些方法帮助分析包含在数据仓库中的数据,它们的共同特点是问题驱动的。用户必须提出许多问题,才能得到包含在复杂关系中的结果,当提不出问题或提出的问题不正确时,将得不到正确的数据。10第10页/共24页2神经网络原理神经网络是由大量并行分布式处理单元组成的简单处理单元。它有通过调整连接强度而从经验知识进行学习的能力并可将这些知识进行运算。是模拟人脑的一种技术系统。11第11页/共24页3基于神经网络的数据挖掘基于神经网络的数据挖掘由以下二个阶段组成:网络构造、训练和剪枝规则提取与评估12第12页/共24页3基于神经网络的数据挖掘网络构造、训练和剪枝:这个阶段需要选择拟采用的网络模型,选择或设计一种网络训练算法。训练后的网络可能有些臃肿,剪枝就是在不影响网络准确性的前提下,将网络中冗余的连接和结点去掉。没有冗余结点和连接的网络产生的模式更精练和更易于理解。13第13页/共24页3基于神经网络的数据挖掘规则提取和评估:这一阶段从进化后产生的相对简单的网络中提取分类规则。规则提取目的就是从网络中提取规则,并转换为某种易理解的形式表达出来,如决策树、模糊逻辑等方法。再利用测试样本对规则的可靠性进行测试与评估,最后输出有用知识。14第14页/共24页3基于神经网络的数据挖掘适合神经网络的数据挖掘问题:分类是数据挖掘的一个主要问题。单层感知器的线性可分能力早已证明,但是对于非线性可分问题单层网络是无能为力的。可通过加入中间层,引入转换函数,将非分线性可分的问题映射后变为线性可分。一个多层的神经网络具有非常强的分类能力,并且分类误差率较低。15第15页/共24页3基于神经网络的数据挖掘适合神经网络的数据挖掘问题:时序预测是依据当前已知的数据来预测将来未知数据的状态。神经网络固有的输人输出映射特性,特别适合用来建立预测模型。不管是线性问题还是非线性问题,只要输入输出间存在连续映射关系,就可以用一个多层神经网络以任意精度来逼近之。16第16页/共24页3基于神经网络的数据挖掘适合神经网络的数据挖掘问题:聚类是无监督学习过程,它依据数据间的相似度将数据集划分为不同的簇。目的是概观数据的全貌,了解数据点的分布情况以及可能存在的问题。17第17页/共24页4结论神经网络的优点:①非用户驱动,用户参与少,挖掘层次深。②处理变量较多,能处理定性变量,复杂、动态数据,发现的事实或规则是以描述和可视性为主要目的。③分布记忆性和快速的计算能力。18第18页/共24页4结论神经网络的不足:①非数值型数据的处理:量化此类数据往往凭人们主观经验而定,如果不能按实际情况进行量化,将影响挖掘结果。②数据质量:由于某些数据具有冗余或不完整性,致使产生的规则存在不真实和异常等问题。19第19页/共24页4结论神经网络的不足:③权值和阈值初值的确定:权值和阈值的初值影响算法的迭代次数和学习结果。④学习样本的大小:对于数据量较小的数据库,可能出现错误的结果,这时就可以把这些数据作为新样本补充到学习样本中去。20第20页/共24页4结论神经网络的不足:⑤激励函数的选取:激励函数是对多个输入进行处理产生输出的功能模块,它将关系到结果是有价值和真实。对于数据库中模糊知识的发现,往先对输出状态进行编码,采用符号函数作为激励数。⑥神经网络的训练速度问题:构造神经网络时要求对其训练许多遍,这意味着获得精确的神经网络需要花费许多时间。21第21页/共24页4结论神经网络的不足:⑦特征函数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 职场商务英语考试常见题型分析试题及答案
- 智能电动车的市场趋势考试试题及答案
- 监理考试试题单选及答案
- 智能电动汽车技术考试问题及答案
- 家具设计中的空间灵活性与适应性研究试题及答案
- 大学物理多样性考查方法试题及答案
- 管护知识考试题及答案
- 大学化学考试分相与混合的性质试题及答案
- 综艺营销面试题及答案
- 曼谷广告面试题及答案
- 中医眼干燥症试题及答案
- 租电动车电子合同协议
- 纺织服装产业链的韧性及其空间演变研究
- 2025-2030中国公路沥青行业市场发展趋势与前景展望战略研究报告
- 2024年全球及中国互联网舆情监测系统行业头部企业市场占有率及排名调研报告
- 2025年人教版五年级(下)期中数学试卷
- 《血小板分离机》课件
- 快递云仓合同协议
- 2025-2030功能性饲料行业市场发展分析及发展前景与投资机会研究报告
- 江苏省常州市2024-2025学年高一下学期4月期中考试英语试题(含答案)
- 建筑设计中的重点难点及相应控制措施
评论
0/150
提交评论