(管理科学与工程专业论文)基于粗神经网络的数据挖掘方法及其应用.pdf_第1页
(管理科学与工程专业论文)基于粗神经网络的数据挖掘方法及其应用.pdf_第2页
(管理科学与工程专业论文)基于粗神经网络的数据挖掘方法及其应用.pdf_第3页
(管理科学与工程专业论文)基于粗神经网络的数据挖掘方法及其应用.pdf_第4页
(管理科学与工程专业论文)基于粗神经网络的数据挖掘方法及其应用.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(管理科学与工程专业论文)基于粗神经网络的数据挖掘方法及其应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西安建筑科技大学硕士学位论文 基于粗神经嚼络的数据挖掘方法及其应用 专业:管理科学与工程 姓名:崔华丽 指导老师:黄光球教授 摘要 近年来,随着数据库技术的迅速发展以及数据库管理系统的广泛应用,企业的 数据库或数据仓库中积累的数据越来越多。然而激增的数据背后隐藏着许多重要的 信息,企业中的领导希望能够对其进行更高层次的分析,以便更好地利用这些数据, 为企业以后的营销、发展提供正确的决策方案。但从众多的数据中鉴别并充分抽取 有效强壮的特征目前还是一个没有完全解决的问题。 本论文首先介绍了数据挖掘理论及其在营销中的应用,并着重对数据挖掘的两 种重要新方法粗糙集理论和神经网络以及它们的应用进行了概述。接着介绍了经典 ( p a w l a k 型) 粗糙集模型的基本理论,它是建立在等价关系基础之上的,用上下近 似集合来表示一个不精确的概念。由于等价关系条件较强,有一定的局限性,已经 证明求所有约简和最小约简是n p - h a r d 问题。属性约简问题是租糙集理论的核心问 题之一,本文提出了一种基于g e n r e d 的最大概率因子的改进属性约简算法,并将 该算法应用在市场营销的客户购买分析方面。接下来分别介绍了变精度型粗糙集模 型及其在企业经营现状分析方面的应用、概率粗糙集模型及其在产品分类方面应用 和不完备信息系统税糙集模型及其在产品销售方面的应用。针对目前在对企业的大 型数据库或数据仓库进行数据挖掘时,输入信息不仅数据量大,而且存在噪声干扰, 在数据挖掘中单纯的使用粗集方法会受噪声干扰而直接影响分类精度,单纯使用神 经网络会因输入信息空间维数较大使网络结构复杂且训练时间长的问题,本论文最 后将粗糙集理论与神经网络相结合,首先介绍了基于粗神经网络的数据挖掘方法在 营销中的应用流程,接着介绍了基于粗神经网络数据挖掘的市场营销系统框架,最 后将粗糙集理论与神经网络相结合应用于市场营销的产品销售预测领域,进行销售 预测。 关键词:数据挖掘粗糙集神经网络市场营销 论文类型:应用研究 西安建筑科技大学硕士学位论文 a p p r o a c h t od a t a m i n i n g b a s e do n r o u g h n e u r a ln e t w o r ka n di t sa p p f i c a t i o n s p e c i a l t y :m a n a g e m e n t s c i e n c ea n de n g i n e e r i n g n a m e :c u ih u a l i i n s t r u c t o r :p r o f h u a n gg u a n g q i u a b s r r a c t i nt h er e c e n ty e a r s ,w i t ht h eq u i c kd e v e l o p m e n to fd a t a b a s et e c h n i q u e a n dt h ee x t e n s i v ea p p l i c a t i o no fd a t a b a s em a n a g e m e n ts y s t e m ,e n t e r p r l s e h a v ea c c u m u l a t e dm o r ea n dm o r ed a t ai nt h e ird a t a b a s eo rd a t aw a r e h o u s e h o w e v e r ,t h e r ea r em a n yi m p o r t a n ti n f o r m a t i o ni sc o n c e a l e di nt h en u m e r o u s d a t a i no r d e rt ou s et h e s ed a t am o r ee f f i c i e n t l ya n dp r o v i d ea c c u r a t e d e c i s i o n m a k i n gp r o j e c tf o rt h em a r k e t i n ga n dd e v e l o p m e n to ft h ee n t e r p r i s e , t h ee n t e r p r i s e sl e a d e r sh o p et oa n a l y z et h ed a t aw i t hh i g h e rl e v e l b u t p e o p l ed i s c r i m i n a t ea n de x t r a c t t h ev a l i da n ds t r o n gc h a r a c t e r i s t i cf r o m n u m e r o u sd a t ai ss t i l lap r o b l e mw i t h o u tc o m p l e t es o l u t i o nc u r r e n t l y f i r s t l y ,t h i sp a p e ri n t r o d u c e st h ef u n d a m e n t a lo fd a t am i n i n ga n dit s a p p l i c a t i o ni nm a r k e t i n g ,a n ds u m m a r i z e st h ea p p l i c a t i o no fr o u g hs e t sa n d n e u r a ln e t w o r kw h i c ha r et w oi m p o r t a n tm e t h o d si nd a t am i n i n g s e c o n d l y , i ti n t r o d u c e st h ee l a s s i c a lp a w l a kr o u g hs e t sm o d e l ,w h i c hi sau n c e r t a i n a n dv a g u ec o n c e p t i o nb a s e do ne q u i v a l e n c er e l a t i o na n de x p r e s s e sb yu p p e r a n dl o w e rs e ta p p r o x i m a t i o n s o w i n gt ot h es t r o n gc o n d i t i o no fe q u i v a l e n c e r e l a t i o n ,t h e r ee x i s ts o m e1 i m i t s ,a n di th a sb e e np r o v e dt ob en p - h a r dt o f i n da l1r e d u c t i o n sa n dam i n i m a lr e d u c t i o n a st h ep r o b l e mo fa t t r i b u t e i so n eo fc o r ep r o b l e m si nr o u g hs e t st h e o r y ,t h i sp a p e rp u t sf o r w a r da n i m p r o v e da l g o r i t h mb a s e do ng e n r e dr e d u c t i o na l g o r i t h m ,w h a t sm o r e ,t h e i m p r o v e da l g o r i t h mi sa p p l i e di n t oc l i e n tp u r c h a s ea n a l y s i sf i e l d i nw h a t f o l l o w s ,i ti n t r o d u c e st h ev a r i a b l ep r e c i s i o nr o u g hs e t sm o d e la n di t s a p p l i c a t i o n i n e n t e r p r i s em a n a g e m e n ta c t u a l i t ya n a l y s i s , a n dt h e p r o b a b i l i t yr o u g hs e t sm o d e la n d i t sa p p li c a t i o ni np r o d u c t i o ns o r t ,a n d t h ei m p e r f e c t i o ni n f o r m a t i o ns y s t e mr o u g hs e t sm o d e la n di t sa p p i c a t i o n 西安建筑科技大学硕士学位论文 i np r o d u c t i o ns a l er e s p e c t i v e l y f o rt h ee n o r m o u sd a t aa n dn o i s e d i s t u r b a n c e w h e nm i n ed a t af r o ml a r g ed a t a b a s eo rd a t aw a r e h o u s e ,o n l yu s i n gt h er o u g h s e t si nd a t am i n i n gw o u l dd e c r e a s et h ec l a s s i f i c a t i o np r e c i s i o n ,a n do n l y u s i n gt h en e u r a ln e t w o r ki nd a t am i n i n gw o u l dm a k et h es t r u c t u r eo fn e u r a l n e t w o r kc o m p l e xa n dt h et r a i n i n go v e r t i m e ,f i n a l i y ,t h i sp a p e ri n t r o d u c e s t h ef l o wo fd a t am i n i n gm e t h o da n dt h em a r k e t i n gs t r u c t u r eb a s e do nr o u g h n e u r a ln e t w o r k t h e nb a s e do nt h i s ,t h ec o m b i n a t i o no fr o u g hs e t sa n dn e u r a l n e t w o r ki sa p p l i e di n t om a r k e t i n gp r o d u c ts a l ef i e l d k e yw o r d s :d a t am i n i n g ,r o u g hs e t s ,n e u r a ln e t w o r k ,m a r k e t i n g t h e s i st y p e :a p p l i c a t i o ns t u d y 声明 本人郑重声明我所呈交的论文是我个人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含本人或其他 天在其它单位已申请学位或为其它用途使用过的成果。与我一同工作的同 志对本研究所做的所有贡献均已在论文中作了明确的说明并表示了致谢。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 论文作者签名:筠群勰日期:删y 、落 关于论文使用授权的说明 本人完全了解西安建筑科技大学有关保留、使用学位论文的规定,即: 学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布 论文的全部或部分内容,可以采用影印、缩印或者其它复制手段保存论文。 ( 保密的论文在论文解密后应遵守此规定) 论文作者签名:穆铧翮导师签名:刹期:潲午2 ,汐 注:请将此页附在论文首页。 西安建筑科技大学硕士学位论文 l 绪论 1 1 论文研究的目的和意义 在现代市场经济条件下,企业面临的市场环境越来越复杂多变。在复杂多变的 市场环境下,企业如何把握好航向,如何积极有效地开展市场营销工作,进行营销 决策? 这是一个需要认真研究和解决的问题。随着数据库技术的迅速发展以及数据 库管理系统的广泛应用,企业积累的营销数据越来越多。然而激增的数据背后隐藏 着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些 数据。为企业以后的营销提供正确的决策方案,目前的数据库系统可以高效地实现 数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据 现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数 据爆炸但知识贫乏”的现象。于是人们开始考虑:“如何才能不被信息淹没,而是 从中及时发现有用的知识、提高信息利用率? ”。数据的迅速增加与数据分析方法 的滞后之间的矛盾越来越突出,人们也希望能够在对已有的大量数据分析的基础上 进行科学研究、商业决策或者企业管理,但是目前所拥有的数据分析工具很难对数 据进行深层次的处理,使得人们只能望“数”兴叹。数据挖掘正是为了解决传统分 析方法的不足,并针对大规模数据的分析处理而出现的一种新型数据分析预测方 法。数据挖掘从大量数据中提取出隐藏在数据之后的有用的信息,它被越来越多的 领域所采用,并取得了较好的效果,为人们的正确决策提供了很大的帮助。数据挖掘 使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历, 并且能够找出过去数据之间的潜在联系,从而促进信息的传递。它与传统数据分析 工具的主要区别在于它们探索数据关系时所使用的方法。数据挖掘运用模式匹配和 其它算法决定数据之间的重要关系。市场营销1 5 1 作为由企业、顾客、产品及相关的 环境因素组成的系统,体现了在一定环境条件下企业的产品最大限度地满足顾客需 求的关系。市场营销领域是数据挖掘技术应用最早也是最重要的领域。粗糙集理论 心j 和神经网络1 3 i 是两种重要的数据挖掘方法。利用粗糙集能约简决策表、减少输入 空间的优点对企业的数据库或数据仓库中大量营销数据进行约简,再利用神经网络 对噪声数据的高承受能力和低错误率优点将约简后的数据输入训练并得出规则。数 据挖掘技术可以对企业为了预测所收集的大量信息以及企业长年累月积累在数据 库和数据仓库中的大量数据进行分析,发现其潜在的、有价值的信息,从而为企业 以后的发展做出预测。由于粗糙集理论和神经网络的各自优越性,近年来将两者相 结合的数据挖掘方法被广泛应用于市场营销各种领域,并取得了一定的成果。 西安建筑科技大学硕士学位论文 l - 2 国内外研究现状及发展动态 现代科学技术的发展,为市场预测提供了大量科学的方法和计算技术。如依据 众数原理和大数法则,建立专家意见集中推定法、德尔菲预测法等,可以消除或减 弱极端偏见,用多数专家推断意见预测未来。采用统计学、数学中相关的方法,如 时间序列法、回归分析法、指数法、计量经济法等,可以对不同类型的市场关系建 立相应的模型进行预测。与其他方法不同,数据挖掘使用基于发现的方法,运用模 式匹配和其它算法决定数据之间的重要关系,可以从过量信息中及时发现有用的知 识,可以对复杂的预测模型中的数据进行运算,提高预测的准确性和实效性。 从八十年代开始,在世界各地逐渐形成了一批数据挖掘和k d d 的研究小组, 1 9 8 9 年,召开了第一届k d d 专题讨论会,并于1 9 9 1 年与1 9 9 3 年举行了第二、第 三届k d d 专题研讨会。由于这项研究广泛的应用背景和人们对信息资源应用的普 遍关注,终于在1 9 9 5 年,专题研讨会发展为首届国际数据挖掘和k d d 会议,以后 每年都举行次。研究重点也逐渐从发展方法转向系统应用,并且注重多种发展策 略和技术的集成,以及多种学科之间的相互渗透。 与国外相比,我国在数据挖掘和知识发现方面的研究起步较晚,没有形成整体 力量。1 9 9 3 年国家自然科学基金首次支持我们对该领域的研究项目。目前,国内的 许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包 括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其 中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北 京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、 中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的 优化和改造,南京大学、四川联合大学和上海交通大学等单位探讨、研究了菲结构 化数据的知识发现以及w e b 数据挖掘。目前的研究重点正在从理论方面的研究转向 应用方面的研究,因此,本文尝试在这方面做一些探索性的研究工作。 粗糙集( r o u g hs e t s ) 理论是一种处理模糊、不精确的分类问题的新型数学工 具。粗糙集理论已成为当前数据挖掘的主要方法之一,国内对r o u g hs e t s 理论的研 究始于9 0 年代中期,现在已有许多高校和科研院所的专家、学者对r o u g hs e t s 的理 论和应用进行一系列的研究,并取得了令人鼓舞的成果。 神经网络( n e u r a ln e t w o r k ) 由于其固有的分布记忆和快速并行计算能力,使得 它也成为数据挖掘的一种重要方法。起初,神经网络在数据挖掘中的应用并未被看 好,其主要原因是神经网络具有结构复杂、可解释性差、训练时间长等缺陷。但其 对噪声数据的高承受能力和低错误率的优点,以及各种网络训练算法的陆续提出与 西安建筑科技大学硕士学位论文 优化,使得神经网络在数据挖掘中的应用越来越为广大使用者所青睐。 目前数据挖掘技术被广泛应用于市场营销领域,主要功能是:市场定位,消费 者分析,预测销售趋势,优化销售策略等。随着现代科学技术的发展,与市场营销 相关理论的不断发展,将数据挖掘方法应用于市场营销将会更加完善。 1 3 论文的主要研究内容 本论文着重研究了粗糙集、神经网络这两种数据挖掘方法及其在市场营销领域 的应用,并将粗糙集与神经网络相结应用于市场营销产品销售领域中。 本论文主要工作有: 1 ) 数据挖掘及其在营销中的应用,r o u g hs e t s 和神经网络的基本理论及其目 前在各个领域应用的简单介绍。 2 ) p a w l a k 粗糙集模型及其扩展模型的理论与应用。r o u g hs e t s 理论是一种新 的处理模糊、不精确的分类问题的新型数据挖掘方法。论文首先介绍了经典( p a w l a k 型) r o u g hs e t s 的基本理论,然后根据g e n r e d 属性约简算法提出一种最大概率因 子属性约简算法并将该方法应用于市场营销客户购买分析领域。接下来分别介绍了 变精度型粗糙集模型及其在企业经营现状分析方面的应用、概率粗糙集模型及其在 产品分类方面应用和不完各信息系统粗糙集模型及其在产品销售方面的应用。最后 研究了粗糙集理论的存在问题。 3 ) 粗神经网络相结合的数据挖掘方法在市场营销产品销售领域中的应用。对企 业中大型数据库或数据仓库进行数据挖掘时,输入信息不仅数据量大,而且存在噪 声干扰,单纯的使用粗集理论或者神经网络均不能达到预期的效果,因此论文首先 根踞数据挖掘在营销中的流程提出了基于粗神经网络数据挖掘系统模块框架,最后 将在p a w l a k 粗糙集模型中提出的最大概率因子属性约简算法和神经网络的b p 模型 相结合应用于市场营销产品销售领域中,充分发挥两者结合的优越性。 4 ) 总结了全文并提出了一些问题及展望。 西安建筑科技大学硕士学位论文 2 市场营销与数据挖掘概述 数据挖掘是目前国际上数据库和信息决策领域的最前沿研究方向之一,它可以 应用在包括营销、财务、银行、通讯、制造业在内的诸多领域。r o u g hs e t s 及神 经网络是两种新型的数据挖掘工具。由于它们各自的优越性,也被广泛应用于各种 领域。 2 1 数据挖掘在营销中的应用 近十几年来,全面集成了企业、客户、产品以及市场信息的大型数据库或数据 仓库导致公司内的信息呈爆炸性增长,快速增长的海量数据集存放在若干大型数据 库或数据仓库中,如果没有强有力的工具来帮助,其结果是重要的决策不是基于数 据库中丰富的信息,而是基于决策者的知觉。要想使数据真正成为一个公司的资源, 只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能 成为包袱,甚至成为垃圾。为了在竞争激烈的市场上取得成功,企业需要及时而准 确地对这些信息做复杂的分析。目前,数据挖掘工具正以前所未有的速度发展,并 且扩大着用户群体,在未来越加激烈的市场竞争中,拥有数据挖掘技术必将比别人 更快速的获得信息,赢得更多的商业机会。 在较浅的层次上,数据挖掘利用现有的数据库管理系统的查询、检索及报表功 能,与多维分析、统计分析方法相结合,进行联机分析处理( o l a p ) ,从而得出可 供决策参考的统计分析数据。在深层次上,数据挖掘是指采用专门算法从大型数据 库、数据仓库或其它信息库中的大量数据中抽取隐含的、以前未知的、具有潜在应 用价值的信息过程,即就是根据预定义的商业目标,对大量的企业数据进行探索和 分析,揭示其中隐含的商业规律,并进一步将其模型化的先进有效技术过程。它是 数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、 统计学等多个领域的理论和技术。数据挖掘进行数据查询,并且能够找出过去数据 之间的潜在联系,从而促进信息的传递。 数据挖掘技术是上个世纪末的重要发现,它给企业带来的潜在的投资回报几乎 是无止境的。世界范围内具有创造性的公司都开始采用数据挖掘技术判断哪些是他 们最有价值客户、重新制定他们的产品推广策略,以用最小花费得到最后销售。数 据挖掘工具能够对将来的趋势和行为进行预测,从而很好地支持人们的决策。比如, 经过对整个公司数据库系统的分析,数据挖掘工具可以回答诸如“哪个客户对我们 公司的邮件推销活动最有可能作出反应,为什么? ”等类似的问题。将其运用到客 户关系管理中,就能在数据量庞大的客户数据库中,将看似无关联的数据进行筛选, 4 西安建筑科技大学硕士学位论文 净化,提取出有价值的客户关系,实现对客户需求作出恰当的回应,并预测需求趋 势。 数据库营销( d a t a b a s em a r k e t i n g ) 使数据挖掘目前最成功的商业应用,作为 一种结合了信息理论技术的新型营销方式,通过搜集消费者和同类企业等的大量信 息,并利用o l a p ( o n - l i n ea n a l y t i c a lp r o c e s s i n g ) 和数据挖掘等分析技术对其进 行分析处理,据此确定相应的策略和特定的目标客户群【6 l 。 目前国外许多大型零售企业和金融保险行业都己建立了营销数据库,并利用数 据挖掘技术发现对某种产品感兴趣的顾客,帮助制定认识和保留最佳顾客的计划, 增进与顾客的关系,识别并跟踪有发展前景的市场,根据顾客反馈确定产品开发计 划,提高销售人员调配的效用,这些都为企业带来了独特的竞争优势。如美国 f i r s t a r 银行使用m a r k s m a n 数据挖掘工具跟据客户的消费模式来预测应在什么时 候向哪些客户提供哪些产品;美国运通公司( a m e r i c a ne x p r e s s ) 有一个用于记录 信用卡业务的数据库,通过对这些数据进行挖掘,制定了“关联结算( r e l a t i o n s h i p b i l l i n g ) 优惠”的促销策略,即如果一个顾客在一个商店用运通卡购买一套时装, 那么在同一个商店再买一双鞋,就可以得到比较大的折扣,既增加了商店的销售量, 也可以增加运通卡在该商店的使用率。美国的读者文摘( r e a d e r sd i g e s t ) 出版公 司运行着一个积累了4 0 年的业务数据库,其中容纳有遍布全球的一亿多个订户的 资料,并保证数据不断得到实时的更新,基于对客户资料数据库进行数据挖掘的优 势,使读者文摘出版公司能够从通俗杂志扩展到专业杂志、书刊和声像制品的出版 和发行业务,极大地扩展了自己的业务范围。 数据挖掘在营销中的主要应用有:关联分析即市场篮子分析,用于了解顾客的 购买习惯和偏好,有助于决定市场商品的摆放和产品的捆绑销售策略;序列模式与 市场篮子分析相似,不过是用某时间点发现的产品购买或其他行为模式来预测将来 购买产品或服务类别的概率聚类用于市场细分,将顾客按其行为或特征模式的相 似性划分为若干细分市场,以采取有针对性的营销策略;分类用于预测哪些人会对 邮寄广告和产品目录、赠券等促销手段有反应,还可用于顾客定级、破产预测等。 原则上讲,数据挖掘可以在任何类型的信息存储上进行,包括关系数据库、事 务数据库、演绎数据库、事态数据库、数据仓库、高级数据库系统和面向特殊应用 的数据库系统( 如:面向对象数据库、对象关系数据库、空间数据库、时间数 据库、时间序列数据库、文本数据库、多媒体数据库、w w w 等) 。从关系数据库中 挖掘知识的关系数据挖掘,是使用最为广泛,也是最为成熟的一类数据挖掘技术。 挖掘的知识具有多种形式,如关联规则、分类规则、聚类规则、特征规则、时序规 则等。 西安建筑科技大学硕士学位论文 数据挖掘技术的潜在应用是十分广泛的,目前开展的比较活跃的数据挖掘应用 方向主要有:市场营销、银行业、生产销售和零售业、制造业、经济业和安全交易、 保险业、医药、电信、资产评估、科学研究和政府决策等领域。 数据挖掘经过十几年的发展,产生了许多挖掘知识的技术,包括:基于规则和 决策树的知识发现、基于神经网络的方法、模糊和粗糙集方法、统计方法、知识可 视化方法等。 2 2 粗糙集理论及其应用 近年来,波兰华沙理工大学z p a w l a k 教授等一批科学家提出了用粗糙集( r o u g h s e t s ) 理论研究不完整数据、不精确知识表达、学习、归纳等方法。这套方法是与 用概率统计和模糊集合论处理不确定问题完全不同的,所谓粗糙集方法,是基于一 个机构( 或一组机构) 关于一些现实的大量数据信息,以对观察和测量所得数据进行 分类的能力为基础,从中发现推理知识和分辨系统的某些特点、过程、对象等。它 把那些无法确认的个体都归于边界线区域,而这种边界线区域被定义为上近似集和 下近似集之差集。由于上近似集和下近似集都可以通过等价关系给出确定的数学公 式描述,所以含糊元素数目可以被计算出来,从而实现了g f r e g e 的边界线思想。 r o u g hs e t s 理论主要兴趣在于它恰好反映了人们用r o u g hs e t s 方法处理不分明问题 的常规性,即以不完全信息或知识去处理一些不分明现象的能力,或依据观察、度 量到的某些不精确的结果而进行分类数据的能力。粗糙集理论不仅为信息科学和认 知科学提供了新的科学逻辑和研究方法,而且为智能信息处理提供了有效的处理技 术。 r o u g hs e t s 理论是一种处理含糊和不精确性问题的新型数学工具,经过近二 十年的研究和发展,已经在理论和实际应用上取得了长足的进展。特别是由于八十 年代末和九十年代初在知识发现等领域得到成功的应用而受到国际上广泛关注。目 前,它已经在人工智能、知识与数据发现、模式识别与分类、故障检测等方面得到 了较为成功的应用。目前的主要应用的研究领域有: 1 ) 股票数据分析。文【7 应用r s 方法分析了十年问股票的历史数据,研究了股票 价格与经济指数之问的依赖关系,获得的预测规则得到了华尔街证券交易专家的认 可。 2 ) 模式识别。文 8 】应用r s 方法研究了手写字符识别问题,提取出了特征属性。 3 ) 地震预报。文【9 】应用r s 方法研究了地震前的地质和气象数据与里氏地震级别 的依赖关系。 6 西安建筑科技大学硕士学位论文 4 ) 专家系统( e s ) 。文 1 0 提出了一种基于粗集理论的专家系统模型。该系统在 知识获取阶段引入知识过滤器,根据知识依赖度的变化对采集的知识进行评价和分 类,增加了系统对知识的分辨能力,加强了系统对知识性质的了解。该系统还在知 识库构造阶段引入知识重构机制,对原知识库进行精简和重构。该机制以粗集的简 约理论为基础。以二元信息系统为主要工具,不同于以往粗集应用中只对冗余属性 的消减,它还对属性值空间进行合理划分,对整个系统的性能有明显的改善效果。 5 ) 从数据库中知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 。数据挖 掘被认为是知识发现过程中的一个特定步骤,它是当前人工智能和数据库技术交叉 学科的研究热点之一。r s 方法现己成为数据挖掘的一种重要方法,其导出的知识精 炼且更便于存储和使用。 6 ) 粗糙控制。根据观测数据获得控制策略的方法被称为从范例中学习,属于智 能控制范畴。基本步骤是:把控制过程中的一些有代表性的状态以及操作人员在这 些状态下所采取的控制策略都记录下来,形成决策表,然后对其分析化简,总结出 控制规则,形成为:i fc o n d i t i o n = n 满足t h e n 采取d e c i s i o n = m 。r s 方法是一类符 号化分析方法,需要将连续的控制变量离散化,为此z p a w l a k 提出了粗糙函数的 概念,为粗糙控制打下了理论基础。 7 ) 自动识别。文 1 1 作者尝试将粗集理论应用于自动识别中,提出了一种改进 的粗集模型:变精度容差粗集模型,以解决在自动目标识别中存在的不确定性问题。 在传统的神经网络的目标识别方法中,存在极小问题而无法得到最优解,相对学习 时间较长等这些问题都可以在文中提到的方法中得到解决,实践证明,粗集理论在 自动目标识别中将会有很好的应用前景。 8 ) 人工神经网络( a n n ) 。训练时间过于漫长的固有缺点是制约a n n 实用化的因素 之一。文 1 2 应用r s 化简神经网络训练样本数据集,在保留重要信息的前提下消除 了多余的数据,使训练速度得到提高,获得了较好的效果。将r s 与a n n 结合起来, 充分利用r s 处理不确定性的特长以增强a n n 的信息处理能力。 9 ) 决策分析。r s 的决策规则是在分析以往经验数据的基础上得到的。r s 允许决 策对象中存在一些不太明确、不太完整的属性,弥补了常规决策方法的不足。希腊 工业发展银行e t e v a 应用r s 理论协助制定信贷政策,是r s 多准则决策方法的一个成 功范例。 l o ) 信息检索。文 1 3 文章通过对基于相似关系的粗集中的相似类的进一步分 类,分为正相似、负相似、纯相似类,并以此为基础提出了基于相似关系粗集的分 解。通过信息检索的实例,发现了这种分解在检索方面的实际应用价值。 r o u g hs e t s 对于人工智能和认识科学似乎是十分重要的,尤其在机器学习、知 西安建筑科技大学硕士学位论文 识获取、决策分析、数据库的知识发现、专家系统、决策支持系统、归纳推理、矛 盾归结、模式识别、模糊控制及其它各个方面的应用,它都为之提供了一种很有效 的新的数学方法。r o u g hs e t s 自提出以来一直得到模糊数学的创始人z a d e h 的重视, 并给与很高的评价,把它列入他新提倡的软计算( s o f tc o m p u t i n g ) 的基础理论之 一。由此可见,r o u g hs e t s 塑_ 论及其广泛应用越来越受到重视。 2 3 神经网络及其应用 神经网络是由大量简单神经元广泛连接而成的复杂网络,它是在现代生物学研 究人脑组织的基础上提出来的,可用来模拟人类的形象直觉思维,在生物神经网络 研究的基础上,根据生物神经元和神经网络的特点,通过简化、归纳,提炼总结出 来的一类并行处理网络,利用其非线性映射的思想和并行处理的方法,用神经网络 本身的结构来表达输入与输出的关联知识。起初,神经网络在数据挖掘中的应用并 未被看好,其主要原因是神经网络具有结构复杂、可解释性差、训练时间长等缺陷。 但其对噪声数据的高承受能力和低错误率的优点,以及各种网络训练算法的陆续提 出与优化。尤其是各种网络剪枝算法和规则提取的不断提出与完善,使得神经网络 在数据挖掘中的应用越来越为广大使用者所青睐。 神经网络是由大量非线性处理单元通过密集连接而构成的个并行信息处理 系统。它的这一结构特点决定着神经网络具有高速信息处理能力。神经网络的知识 存储容量很大。在神经网络中,知识与信息的存储表现为神经元之间分布式的物理 联系。它分散的表示和存储与整个网络内的各神经元及其连线上,每个神经元及其 连线只表示一部分信息,而不是一个完整、具体的概念。只有通过各神经元的分布 式综合效果才能表达出特定的概念和知识。 正是因为神经网络的结构特点及其信息存储的分布式特点,使得它相对于其它 的判断识别系统,如专家系统等,具有一个显著的优点健壮性。当因某些原因, 无论是网络的硬件实现还是软件实现中的某个或某些神经元实效时,整个网络仍能 继续工作。 神经网络以其特有的自组织、自学习能力,能够对非线性系统的模型进行映射。 其中,采用误差反传算法的b p ( b a c kp r o p a g a t i o n ) 网络被广泛应用。b p 神经网络 模型是由输入层、输出层、和若干隐含层组成的前向连接模型。同层神经元互不相 连,相邻层的神经元通过权值连接。将需要识别的模式加到输入结点后,由网络的 前向通道传播之各隐层接点,经隐层结点的作用函数作用后,传播到输出层各结点, 在经输出节点的作用函数输出结果对其进行解释,从而完成对输入模式的识别。确 8 西安建筑科技大学硕士学位论文 定神经网络的结构主要就是确定影响网络结构的参数:输入节点数,输出节点数, 隐层数,隐节点数,它们决定了网络的规模。在实际应用中,神经网络的结构确定 常常带有人为的主观性和艺术性,缺乏一个规则指导。隐节点数的多少对网络性能 的影响较大,当隐节点数太多时,会导致网络学习时间过长,甚至不能收敛:而当 隐节点数过小时,网络的容错能力差。在文 3 9 中基于网络隐含层节点输出之间和 隐含层结点输出对网络各输入的偏导数之间的相关分析,而探索合理隐结点个数的 估计策略,提出了基于隐含层神经元输出之间的相关分析而进行隐含层神经元合理 个数的估计方法,力图建立隐含层合理结点个数的有效方法。 神经网络广泛地应用于人工智能领域中模式识别、趋势产生和预测等方面,伴 随着不同的问题出现,神经网络的研究者们提出了大量各种类型的神经网络模型以 适应不同问题的需要。由于b p 网及误差逆传播算法具有中间隐含层并有相应的学 习规则可寻,所以它具有对非线性模式的识别能力。特别是其数学意义明确、步骤 分明的学习算法,更使其具有广泛的应用前景。目前,在手写字体的识别、语音识 别、文字一语言转换、图像识别以及生物医学信号处理方面已有很好的实际应用。 文 1 4 1 设计了一个3 层b p = o p 经网络,实现里对震相的识别,由于输入数据的多维度 和对台站的依赖性,该方法一定程度上解决了传统方法中存在的问题。文【1 5 针对 具有三道加工工序,参变量较多的热连扎工艺的特点,论文提出了一种改进的前馈 神经网络结构及其学习算法。这种网络结构,变量不是由同一输入层输入,而是根 据变量在加工工序中出现的前后次序在网络的不同层输入,真实反映了生产流程各 个参数发生作用的时间顺序。将该神经网络用于热连扎产品质量建模,经过实测数 据拟合与检验,仿真结果表明,该前馈神经网络结构是可行的而且有很好的应用前 景。文1 6 1 针对天气问题,初步建立了基于神经网络的预报系统。文 1 7 1 将b p 神经 网络应用于汽车车型的自动识别中。关于b p 神经网络的应用举不胜举。由于b p 算 法的理论依据坚实,推导过程严谨,所得的公式物理概念清晰,得到了普遍应用。 西安建筑科技大学硕士学位论文 3 粗糙集模型及其在营销领域的应用 r o u g hs e ts 理论是一种新型的处理模糊、不精确的分类问题的数据挖掘工具。 r o u g hs e t s 理论的主要出发点在于认为知识是基于人们对研究对象分类的能力, 根据当前已有的关于给定问题的知识将问题论域进行划分,然后对划分后的每一部 分确定其对某概念的支持程度,即分为肯定支持此概念,肯定不支持此概念和可能 支持此概念。以上三种情况分别用三个近似集合来表示为正域、负域和边界。其主 要思想就是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类 规则。下面先介绍经典( p a w l a k 型) 粗糙集模型的基本理论及其在客户购买分析 方面的应用,然后研究了变精度相糙集模型、概率相糙集模型及不完备信息系统粗 糙集模型及其在营销领域中的应用。 3 1 p a w l a k 粗糙集模型及其在客户购买分析方面的应用 3 1 1p a w l a k 粗糙集模型 粗糙集( r o u g hs e t s ,简称r s ) 理论是一种新型的处理模糊和不确定知识的数 学工具,自1 9 8 2 年由波兰数学家p a w l a kz 教授提出以来,粗糙集理论的要点是将 分类与知识联系在一起,认为知识源于人类以及其它物种的分类能力,概念即是对 象的集合,知识库即是分类方法的集合。粗集理论的优点:不需要预先给出额外的 信息,可以去掉冗余输入信息,简化输入信息,算法简单,易于操作。粗集理论存 在的问题:实际问题处理中,对噪声较敏感,抗干扰能力差。 r o u g hs e t s 的研究对象: r o u g hs e t s 的研究对象是由一个多值属性( 特征、症状、特性等) 集合描述的 一个对象( 观察、病历等) 集合,对于每个对象及其属性都有一个值作为其描述符 号,对象、属性和描述符是表达决策问题的3 个基本要素。这种表达形式也可以看 成一个二维表格,表格的行与对象相对应,列对应于对象的属性,各行包含了表示 相应对象信息的描述符,还有关于各个对象的类别成员的信息。通常,关于对象的 可得到的信息不一定足以划分其成员类别。换句话说,这种不精确性导致了对象的 不可分辨性。给定对象间的一个等价关系,即导致由等价关系构成的近似空间的不 分明关系,r o u g hs e t s 就用不分明对象类形成的上近似和下近似来描述。这些近似 分别对应了确定属于给定类的最大的对象集合和可能属于给定类的最小的对象集 合。下近似和上近似的差是一个边界集合,它包含了所有不能确切判定是否属于给 定类的对象,这种处理可以定义近似的精度和质量。r o u g hs e t s 方法可以解决重要 1 0 西安建筑科技大学硕士学位论文 的分类问题,所有冗余对象和属性的约简包含属性的最小子集,能够很好地近似分 类,得到可以接受质量的分类,而且,它还可以用决策规则集合的形式表示最重要 属性和特定分类之间的所有重要关系。 r o u g hs e t s 理论的特点是: 1 ) r o u g hs e t s 不需要先验知识。模糊集和概率统计方法是处理不确定信息的 常用方法,但这些方法需要一些数据的附加信息或先验信息,如模糊隶属函数和概 率分布等,这些信息有并不容易得到。r o u g hs e t s 分析方法仅利用数据本身提供 的信息,无须任何先验知识。 2 ) r o u g hs e t s 是一个强大的数据分析工具。它能表达和处理不完备信息;能在 保留关键信息的前提下对数据进行化简并求褥知识的最小表达式;能识别并评估数 据之间的依赖关系,揭示出概念简单的模式;能从经验数据中获取易于证实的规则 知识,特别适于智能控制。 3 ) r o u g hs e t s 与模糊集分别刻画了不完备信息的两个方面:r o u g hs e t s 以不 可分辨关系为基础,侧重分类,模糊集基于元素对集合隶属程度的不同,强调集合 本身的含混性。从r o u g hs e t s 的观点看,粗糙集合不能清晰定义的原因是缺乏足 够的论域知识,但可以用一对清晰集合逼近。虽然r o u g hs e t s 和模糊集特点不同, 但它们之间有着密切的关系,有很强的互补性;r o u g hs e t s 和证据理论也有一些 相互交叠之处,在实际应用中可以相互补充。 r o u g hs e t s 理论的的属性约简: 有决策表系统与无决策表系统的区别在于:有决策表系统的属性集可分为两 部分,一部分是条件属性,另一部分是决策属性:而无决策系统则没有决策属性, 对于简化的目的,二者也有明显的不同:无决策表系统的简化是为了得到最小属性 集和核:有决策属性集的简化是为了得到最简的决策规则。r o u g hs e t s 从决策表开 采规则,辅助决策,其关键步骤是求值约简或数据浓缩,包括属性约简和值约简两 个过程,有些属性或某些取值删除后对决策并没有多大影响,但它们占用存储空间 和处理时间。决策表约简经常涉及到核和可辨识矩阵两个重要的概念。一个信息系 统可以表示为:s = ,其中,u 为论域且u = f x ,x 。x n ) ;a 是属性集合,如 果a 可以分为条件属性集c 和决策属性集d ,即c u d = a ,c n d = o ,则该信息系统称为决 策表或决策系统;v = ij v a ,v a 表示属性a 的值域;f :u a v 是一个信息函数,它指 d 定u 中每一个对象x 的属性值,即对x e u ,a a ,有f ( x ,a ) v a 。在信息系统s 中,a ( x ) 是对象x 在属性a 上的值,d ( x ) 是对象x 在d 上的值,则可辨识矩阵: 西安建筑科技大学硕士学位论文 i 口c :口( x ,) a ( x ,) ) d ( x ,) d ( x ,) ( c ,) = 0d ( x ,) = d ( x ,) i - lv a ,3 a (

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论