(计算机应用技术专业论文)基于粗糙集组合模型的药品营销决策支持系统.pdf_第1页
(计算机应用技术专业论文)基于粗糙集组合模型的药品营销决策支持系统.pdf_第2页
(计算机应用技术专业论文)基于粗糙集组合模型的药品营销决策支持系统.pdf_第3页
(计算机应用技术专业论文)基于粗糙集组合模型的药品营销决策支持系统.pdf_第4页
(计算机应用技术专业论文)基于粗糙集组合模型的药品营销决策支持系统.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(计算机应用技术专业论文)基于粗糙集组合模型的药品营销决策支持系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 药品营销系统中的各经济指标的预测一直是困扰着药品销售商的重要问 题。本文通过将组合模型权系数确定问题转化为粗糙集中属性重要性评价问题, 提出基于粗糙集的组合预测模型的构建方法。 组合模型的基本思想一直受到人们的青睐,组合模型的最大特点就是能够 充分有效地利用各种模型所含的独立有用的信息,并使多种预测模型同时对同 一预测对象进行预测成为可能,从而提高预测效果。在计算机领域中的应用也 正日益受到重视,为决策系统中解决预测问题提供了新而有效的方法。 本文主要是依据现有的药品经营企业数据库中的数据,对其进行分析、处 理,使它发挥更大的作用,为决策者提供可靠的决策支持。在本文中,首先阐 述了相关的粗糙集理论、各种单一模型方法、组合模型方法等理论知识;接着 介绍了利用各种单一模型模建模;然后利用粗糙集理论对预测模型库中得出的 多种预测结果进行组合建模。通过上述实验实现了对药品经营企业的销售情况 分析和药品价格、成本、利润的预测。实际应用显示基于粗糙集的组合模型优 于单一模型的预测,在实际的药品营销预测问题中有着广泛的应用前景。 关键词:药品营销;决策支持系统;组合模型;粗糙集 a b s tr a c t f o r e c a s t i n ge c o n o m i ci n d i c a t o r s i nd r u g sm a r k e t i n gs y s t e mh a sb e e na l w a y s t h e i m p o r t a n t i s s u ew h i c hf e a z e sm e d i c a ld e a l e r i nt h i sp a p e r , t h r o u g ht h a t d e t e r m i n i n gt h ew e i g h t i n gc o e f f i c i e n ti nac o m b i n i n gf o r e c a s t i n gm o d e l i st r a n s l a t e d i n t oe s t i m a t i n gt h ea t t r i b u t e ss i g n i f i c a n c ea m o n gr o u g hs e t ,w ep r o p o s ec o n s t r u c t i o n m e t h o do fc o m b i n i n gf o r e c a s tb a s e do nr o u g hs e t t h eb a s i ci d e ao fc o m b i n i n gm e t h o dh a sb e e nf a v o r e db yt h ep e o p l ea ta l lt i m e s t h em o s ti m p o r t a n tf e a t u r eo fc o m b i n i n gf o r e c a s t i n gm o d e li st h ef u l la n de f f e c t i v e u s eo fi n d e p e n d e n ta n du s e f u lf o r e c a s ti n f o r m a t i o no fd i f f e r e n tk i n d s o fm o d e l , m a k i n gi tp o s s i b l et op r e d i c ts a m eo b j e c tt h r o u g hm u l t i p l ef o r e c a s tm o d e l ,s ot h a t 。o r o v i n go r e d i c t i e f f e c t i v e n e s s i nm t e r f i e l d 。c o m b i n i nm e t h o disimproving p r e d i c t i o ne t l e c t l v e n e s s i nc o m p u t e rv i s i o nl i c k lc o m m m n gm e m o ol s , o f f e r i n ga n e ws o l u t i o nt of o r e c a s tp r o b l e mi nd e c i s i o ns u p p o r ts y s t e m b ya n a l y s i s a n dp r o c e s st ot h ed a t ai nt h ee x i s t e dd a t a b a s eo fac u r a t i v e c o r p o r a t i o nd e e p l y ,w ea f f o r da m o r e d e p e n d a b l ed e c i s i o ns u p p o r ts y s t e mf o rd e c i s i o n m a k e r s t l l i sp a p e ri l l u m i n a t e st h et h e o r i e so nr o u g hs e t , s i n g l em o d e l ,c o m b i n i n g m o d e l t h e ni n t r o d u c e dm o d e l i n gw i t hs i n g l em o d e l s ,a n dm a k e su s eo fr o u g hs e t t h e o r yt om o d e l i n gc o m b i n i n gm o d e lw i t ht h er e s u l t so fs i n g l em o d e l s a tl a s t ,w e a c c o m p l i s h e dt h ea n a l y s i so ns a l e sa n a l y s i sa n dt h ef o r e c a s to nd r u gp r i c e s ,c o s t s , p r o f i t p r a c t i c a la p p l i c a t i o ni n d i c a t e st h a tt h i sm e t h o di ss u p e r i o r t ot h es i n g l em o d e l f o r e c a s t ,a n di th a sa b r o a da p p l i c a t i o np r o s p e c ti nr e a lm e d i c a ls a l ef o r e c a s tp r o b l e m k e yw o r d s :d r u g sm a r k e t i n g ,d e c i s i o ns u p p o r ts y s t e m ,c o m b i n i n gm o d e l ,r o u g h s e t i i 论文原创性声明 本人声明,所呈交的学位论文系在导师指导下本人独立完成的研究成果。 文中依法引用他人的成果,均已做出明确标注或得到许可。论文内容未包含法 律意义上已属于他人的任何形式的研究成果,也不包含本人已用于其他学位申 请的论文或成果。 本人如违反上述声明,愿意承担以下责任和后果: 1 交回学校授予的学位证书; 2 学校可在相关媒体上对作者本人的行为进行通报; 3 本人按照学校规定的方式,对因不当取得学位给学校造成的名誉损害, 进行公开道歉; 4 本人负责因论文成果不实产生的法律纠纷。 论文作者签名: 论文知识产权权属声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归属东北电 力大学。学校享有以任何方式发表、复制、公开阅览、借阅以及申请专利等权 利。本人离校后发表或使用学位论文或与该论文直接相关的学术论文或成果时, 署名单位仍然为东北电力大学。 论文作者签名: 导师签名:! 抛 日期:2 1 l 年王月互日 中国优秀博硕士学位论文全文数据库 和中国学位论文全文数据库投稿声明 研究生部: 本人同意中国优秀博硕士学位论文全文数据库和中国学位论文全文 数据库出版章程的内容,愿意将本人的学位论文委托研究生部向中国学术期 刊( 光盘版) 电子杂志社的中国优秀博硕士学位论文全文数据库和中国科 技信息研究所的中国学位论文全文数据库投稿,希望中国优秀博硕士学 位论文全文数据库和中国学位论文全文数据库给予出版,并同意在中 国优秀博硕士学位论文全文数据库和c n k i 系列数据库以及中国学位论文全 文数据库中使用,同意按章程规定享受相关权益。 论文级别:口硕士口博士 作者签名: 作者联系地址( 邮编) : 作者联系电话: 指导教师签名: 逝堡 日期:趔年王月二巫日 第1 章绪论 1 1 课题背景 第1 章绪论 目前市场经济条件下,复杂的药品经济系统作为实际的预测对象可能有多 种错综复杂的因素对其产生影响,如何准确预测药品的销售量、价格和销售商 的成本、利润,合理利用流动资金,把握商机,对药品销售商来说尤为重要。 同时,近年来药品销售脱胎于原有的垄断市场,要适应交易格局变化后的 市场竞争,其营销和管理模式面临的挑战是全方位的,而制定及时有效的决策 可以为改进营销和管理模式提供强大有力的支持。如何有效的整合已有的系统 和历史数据,利用计算机技术构建新的数据平台并在此基础上开发新的决策系 统,引入具有竞争力的管理理念和经验,从而在最快的时间内对市场变化做出 反应,引导客户购买和市场拓展,更多的为药品销售企业决策者提供决策支持 和决策建议,进一步提高和完善企业的管理水平以适应市场的步伐,是大多数 药品销售企业面临的问题【l j 。 从计算机应用系统来看,数据库中数据结构的复杂性、s o l 查询语言的技术 性,使药品销售企业的业务人员不能随意访问数据。大多数情况下,需要专业 开发人员进行复杂的程序开发才能实现业务人员的需求。这些缺陷决定了现有 药品营销系统不可能做到真正的方便灵活的综合查询及辅助决策,而决策支持 系统弥补了现有系统的功能不足。本文在分析现有药品营销系统及其特点的基 础上,将决策支持系统技术运用到市场营销决策上,提出基于粗糙集组合模型 的药品营销决策支持系统,使决策支持系统辅助决策的效果大大改善,即得到 定性辅助决策和定量辅助决策相结合。 东北电力大学硕上学位论文 1 2 国内外动态及发展趋势 1 2 1 决策支持的形成和发展 早在七十年代初,美国的m s s c o t tm o r t o n 教授就首先提出了d s s 的概念。 他将d s s 定义为:“一种交互式的基于计算机的系统,该系统能够帮助决策人使 用数据和模型解决非结构化的问题”。( g o r r y 和s c o t tm o r t o n ,1 9 7 1 ) ,k e e n 和 s c o t tm o r t o n 在1 9 7 8 年提出了另一个经典的定义:“d s s 将人们的智能资源与计 算机功能相结合,以改进决策质量,d s s 是一种处理半结构化问题,为管理决 策人服务的基于计算机的支持系统 【2 j 。 决策支持系统( d e c i s i o ns u p p o r ts y s t e m ,d s s ) 是在管理信息系统 ( m a n a g e m e n ti n f o r m a t i o ns y s t e m ,m i s ) 和运筹学的基础上发展而来的。m i s 是将 计算机技术应用于一个单位或部门的各种业务数据处理的系统。m i s 的优点是 能对大量的数据进行有效的组织和管理,它的局限性突出表现为只能为管理者 提供数据的统计和查询功能。为了能给管理者提供合理化的决策建议,m i s 除 了要完成大量的数据组织、存储、查询、统计等主要工作外,还需要加入模型 辅助决策的功能。运筹学主要应用于模型辅助决策,体现在模型构造上,其中 模型是对客观规律的一般描述,人们通过对模型的认识来增强对大规模复杂问 题的处理能力。模型辅助决策系统一般用模型来解决某类决策问题,随着待解 决的问题越来越复杂,涉及的模型越来越多,需要专门的模型库和模型库管理 系统对其进行有效地组织和管理,并且把模型库和数据库有机结合。这样的系 统既具有数据处理功能又具有数值计算功能,于是就出现了决策支持系统。 起初d s s 被认为主要用于支持单个决策者的管理活动,因而模型辅助决策 技术成为7 0 年代的d s s 普遍采用的方法。在8 0 年代,人工智能技术有了很快 的发展,特别是专家系统中利用推理技术来模拟领域专家解决问题;利用人工 神经元网络技术来模拟人类大脑的记忆、学习和推理功能。研究者把人类知识 的处理引入到d s s 中,使人工智能技术和d s s 结合起来,形成智能决策支持系 统( i n t e l l i g e n td e c i s i o ns u p p o r ts y s t e m ,i d s s ) t 3 。 第1 章绪 论 针对大工程、大系统等的决策问题往往都是由一个群体共同讨论协商进行 决策的。决策支持系统结合分布式网络技术,赋予不同决策者不同的决策权重, 并且通过结论冲突消解和运用模糊理论度量不确定性来达到群体决策的目的。 这样由于决策主体的扩大而形成的d s s 叫做群体决策支持系统( g r o u pd e c i s i o n s u p p o r ts y s t e m ,g d s s ) 。d s s 的进一步扩展将是组织决策支持系统( o r g a n i z a t i o n a l d e c i s i o ns u p p o r ts y s t e m ,o d s s ) ,现代组织正在从传统固定的层次组织逐渐向 灵活的网络组织转变,针对现代组织特性的转变,迫切需要一种网络组织决策 支持系统,于是o d s s 应运而生。 近年来新思想、新技术、新方法不断运用到d s s 中,出现了采用数据仓库 ( d a t aw a r e h o u s e ,d w ) 、数据挖掘( d a t am i n i n g ,d m ) 、联机分析处理技术的综 合决策支持系统和高层管理执行信息系统( e x e c u t i v ei n f o r m a t i o ns y s t e m ,e i s ) 。 此外,还产生了与仿真技术相互嵌入式的交互式仿真一一决策系统或交互式的 决策一一仿真系统。 时至今日,d s s 的发展经历了由简单决策支持系统到智能决策支持系统、 由集中式决策到分布式决策、由个人决策到群体决策、由确定性决策到模糊决 策的过程。随着计算机科学理论和技术的发展,决策支持系统正朝着横向多元 化、纵向深层次方向迈进。 1 2 2 传统单一模型预测方法 传统模型方法包括时间序列法、回归分析法、灰色模型法等。时间序列方 法能根据历史数据建模,并利用模型预测出未来的营销数值,优点是:所需历 史数据少、工作量小。缺点是:没有考虑营销变化的因素,只致力于数据的拟 合,对规律性的处理不足,只适用于变化比较均匀的短期预测的情况;回归分 析法利用历史数据可以建立营销和其它影响营销因素的关系,如与城市人均收 入之间的关系,并进而由这些因素未来的数据预测出未来的营销值,其优点是 模型参数估计技术比较成熟,预测过程简单。缺点是线性回归模型预测精度较 低;而非线性回归预测计算开销大,预测过程复杂。适用于中期预测。这几种 预测技术无论在理论上还是在实际应用上都比较成熟。 东北电力大学硕士学位论文 灰色模型法灰色系统理论是2 0 世纪8 0 年代由我国邓聚龙教授提出,用来 解决信息不完备系统的数学方法。它把模糊控制的观点和方法延伸到复杂的大 系统中,将自动控制与运筹学的数学方法相结合,多年来,灰色系统理论在药 品销售中长期预测中的应用受到了广泛的关注,灰色预测是一种对含有不确定 因素的系统进行预测的方法。它适用于贫信息条件下的分析和预测。优点是: 要求数据少、不考虑分布规律、不考虑变化趋势、运算方便、短期预测精度高、 易于检验。缺点是:当数据离散程度越大,即数据灰度越大,预测精度越差。 为了解决这一问题,人们对灰色预测做了很多改进。 1 2 3 组合模型方法 在预测实践中,对同一问题常采用不同的预测方法。不同的预测方法提供 不同的信息,其预测精度往往也不刚钔。如果简单地将预测误差较大的一些方法 舍弃掉,将会失去一些有用的信息,这种做法对信息是一种浪费,应予以避免。 一种更为科学的做法是,将不同的预测方法进行适当的组合,形成所谓的组合 模型预测方法,组合的主要目的是综合利用各种方法所提供的信息,尽可能地 提高预测精度,只要组合适当,这一目的是完全可以达到的。 早在1 9 5 4 年,美国人s c h m i c t 比就曾经用组合模型预测方法对美国3 7 个城 市的人口进行过预测,使预测精度有所提高。自从j m b a t e s 和c w j g r a n g e r 首次提出组合模型预测方法以来,组合模型的研究已经取得很大的进展,1 9 5 9 年j h b a t e s 和c w j g r a n g e r 对组合模型预测方法进行了系统的研究,其研 究成果引起了预测学者的重视。进人7 0 年代,组合模型的研究更被预测工作者 所重视,发表了一系列关于组合模型的论文。1 9 8 9 年,国际预测领域的权威学 术刊物( ( j o u r n a lo f f o r e c a s t i n g ) ) 还出版了组合预测专辑,充分说明了组合模型在 预测领域中的地位。进人9 0 年代,组合模型的研究更处于一个热潮之中。 目前,关于组合预测的研究方法有很多,大致可分为以下几种: 1 最优组合预测方法文献【5 j 提出了最优组合预测方法。这种方法的基本 思想是根据“过去一段时间内组合预测误差最小”这一原则来求取各个单项预 测方法的权系数向量的。这种方法存在的问题主要有二:一是可能会出现负权 第l 章绪论 重;二是求出的权重是否为最优。目前预测学界对于负权重是否可以接受尚有 一定的争议,一般对负权重持否定态度。因为权重表示对某种方法的偏重程度 或可信程度,用于投资则表示投资比重,所以负权重没有实际的物理意义,应 避免出现负权重问题。权重的实际变化范围应为【o ,1 】。如何避免出现负权重,文 献i o j l7 j 对此做了进一步的研究。 按照最优组合预测方法的定义:如果某一加权系数向量k 使组合预测方法的 预测误差平方和达到极小值,则称k 为最优加权系数向量,其所对应的组合预测 方法称为最优组合预测方法。但是,文献【5 】给出的最优加权系数向量并不是最优 的,其预测误差平方和也不是最小的,所以这种方法不能称为最优组合预测方 法。其最优是基于一种前提条件:假定加权系数向量为一常量。而实际中,权 系数向量应该为一变量。 2 变权重组合预测方法与不变权重组合预测方法不变权重组合预测方法 的基本思想是:以过去一段时间内组合预测的误差最小为目标函数,求取各个 单项预测方法的权重,然后把最优的权重向量作为各单项预测模型在组合预测 模型中所占的重要程度进行组合预测。而变权重组合预测方法,顾名思义,就 是随着时间的变化,各个单项预测模型的权重也在改变,它是时间的函数。进 行下一次组合预测时的各个单项预测模型的权重是由近一段时间内各个单项预 测模型预测误差的大小来确定的。当然,也是以组合预测的误差最小为目标函 数的。 在组合预测中,变权重的方法显然比不变权重的方法更为科学。因为对每 一种单项预测方法而言,它总是表现出“时好时坏 性,而不会是“一直好 或“一直坏”。如果知道某种预测方法“一直好”或“一直坏 ,那么一种简单 的做法就是“完全采用或“完全舍弃”这种方法,组合预测也就失去其意义。 组合的目的就是要综合利用各种方法所提供的信息,根据每一单项预测方法的 “时好时坏”性,反映在权重上的“时大时小 性,也即变权重的组合预测方 法。但是,由于变权重的组合预测方法比较复杂,所需要的信息也较多,所以 目前关于变权重的组合预测方法并不多见。 近年来,我国在组合预测方法的研究方面也取得了一系列的研究成果。组 合模型已经成为预测领域中的一个重要研究方向,引起了众多学者的浓厚兴趣。 东北电力大学硕十学位论文 在组合模型中,组合权重的确定是一个很关键的问题,并有新方法不断提 出,这些方法是用不同的数学方法来求解权重的,其算法的繁简程度略有不同, 可从不同的侧面对同一问题进行组合预测。而粗糙集的核心内容“重要度 恰 能很好地反映各单一模型对组合模型的影响效果,从而确定权重。组合模型中 权重的确定方法也是当前预测科学研究中热门的课题之一。 1 3 本文的主要研究内容 针对药品销售企业整合现有系统、适应信息化改革的需求,本文对药品营 销决策支持系统作了系统的研究,主要做了以下几个方面的工作。 1 对药品经营企业的数据进行收集整理。 2 药品数据流综合分析,进行药品价格、销售分布、销售情况等进行综合 分析。 3 建立单一预测模型库,根据建立的预测模型库中的各种模型对各类型的 药品进行年、月的预测。 4 分析组合模型的优缺点。 由于组合模型确定权系数的困难使得他的应用受到限制,通常的方法或带 有很强的主观性或计算复杂。由于组合预测模型中权系数的取值一方面影响预 测效果;另一方面反映各预测模型在组合预测方法中的重要度,而重要度是粗 糙集理论的核心内容之一。另一方面,药品销售预测受到多方面的不确定性因 素的影响1 8 l ,而粗糙集理论能够解决所遇到的不确定性问题。 鉴于此,本文利用粗糙集中的属性重要度来确定药品系统各单一预测模型 的权重,进而建立组合预测模型。克服了采用单一固定式模型进行预测只考虑 了数据的一种变化趋势,不能全面的反应数据规律性的缺点。 5 误差分析,对预测模型进行评价,从多个方面分析误差产生的原因,采 用相对误差、平均误差等方法对模型进行校验。 6 构建系统架构,建立药品决策支持系统,对经营者提供决策支持。 第2 幸粗糙集理论综述 2 1 粗糙集简介 第2 章粗糙集理论综述 粗糙集( r o u g hs e t s ) 理论是由波兰学者z p a w l a k 于1 9 8 2 年创立的,主要 是用来处理不确定和不精确信息。其主要思想是【9 j :基于知识的分类观点,在近 似空间( 知识库) 中研究如何在保持分类能力不变的前提下,通过知识约简, 导出问题的分类规则,然后将此规则应用于未知数据,以决定如何做出决策【l 0 1 。 经过十几年的研究和发展,粗糙集已经在理论和实际应用上取得了长足的发展, 特别是在机器学习、从数据库中发现知识、决策支持与分析等方面的应用。粗 糙集是一种新型的处理模糊和不确定知识的数学工具。目前,它已经在人工智 能、知识与数据发现、模式识别与分类、故障检测等方面得到了较为成功的应 用。 粗糙集理论可以用于分类,发现不准确数据或噪声数据内在的结构联系【】。 粗糙集理论的要点是将分类与知识联系在一起,认为知识即是对对象进行分类 的能力。假定我们起初对全域里的元素( 对象) 具有必要的信息或知识,通过 这些知识能够将其划分到不同的类别中。若两个元素具有相同的信息,则它们 就是不可分的i l 引。 作为一种数学理论,它使用等价关系来形式化地表示分类 1 3 1 ,这样,知识 就可以理解为:使用等价关系集r 对离散表示的空间u 进行划分,知识就是r 对空间u 进行划分的结果。粗糙集理论主要包括:不精确的知识的表达:不精 确知识的推理;识别评估数据之间的依赖关系及重要性;直接从数据中获取知 识;分类的思想;知识约简;机器学习【l4 1 。粗糙集以不可分辨关系为基础,给 出知识表达系统这一模型,利用精确的上、下近似集逼近不精确对象,赋予知 识清晰的数学意义,从而提供了用数理逻辑方法来表达、约简、分析、推理不 精确知识的新思路。 采用粗糙集理论作为研究工具主要具有一下优点: 东北电力大学硕十学位论文 1 粗糙集理论不需要预先给定某些特征和属性的数学描述,而是直接从给 定问题的描述集合出发,找出该问题的客观存在的内在规律。与传统的统计、 概率、证据论及模糊方法的出发点完全不同,具体地讲,粗糙集对知识不确定 程度的测量完全依赖于对数据的整体分析,成员关系不再是一个原始的概念, 因此无需人为给定元素指定一个隶属度,因而相对客观。而且成员关系是根据 已有的分类知识客观计算出来的,而不是主观给定的。也就是说,粗糙集理论 无需这些先验信息的基本考虑是:利用定义在数据集合u 上的等价关系对u 的 划分作为知识,而对知识不确定程度的测量,则是对被分析数据整体的处理之 后自然获得的。这样,粗糙集理论无需对知识或数据的局部给予主观评价,换 句话说,粗糙集理论对不确定的描述相对客观。 2 粗糙集理论包含了知识的一种形式模型,这种模型将知识定义为不可区 分关系的一个簇集,这就使得知识具有了一种清晰定义的数学意义,并且可使 用数据方法来分析处理。 3 粗糙集理论提供了一套从数学上严格处理数据分类问题的方法,从而解 决了带有噪声的、不完全的和不精确的数据的处理问题。 4 粗糙集完全有能力分析隐藏在数据中的事实,但并没有校正数据中所表 现的不一致性,从而生成确定的和可能的规则,因此,这些规则是清晰并客观 的。 必须指出,粗糙集理论也不是万能的,对建模而言,尽管粗糙集理论对知 识不完全的处理是有效的,但是,它的推广能力较弱,这意味着需要其他方法 补充【1 5 j 。 2 。2 粗糙集的基本概念 任何一种理论方法都有自己的研究体系、知识表达方法,粗糙集也不例外。 租糙集假定知识是基于对对象分类的能力,借助于决策表这样一种有效的知识 表达方式进行处理。对象( o b j e c t ) 指任何我们可以想到的东西,例如实际物体、 状态、抽象概念、过程、时刻等。知识直接与真实或抽象世界有关的不同分类 模式联系在一起,称之为论域( u n i v e r s e ) 。经典的粗糙集理论是基于集合论的, 第2 章:| :h 糙集理论综述 下面介绍一下粗糙集的一些基本的定义。 定义2 1 信息系统( i n f o r m a t i o ns y s t e m ) 与信息表( i n f o r m a t i o n t a b l e ) 粗糙集把客观世界或对象世界抽象为一个信息系统,也称知识库。一个信 息系统s 是一个四元组: 肛( 2 1 ) 其中,u 是对象( 或事例) 的有限集合,泸 z ,x 2 , ,) ;a 是属性的有限 集合;v 是属性的值域集,净 1 ,v 2 , ,) ,其中是口,的值域。厂是信息函数 ( i n f o r m a t i o nf u n c t i o n ) ,f :u 4 一n 厂( 而,a j ) 吩它指定【,中每一个对 象x 的属性值。 为了直观方便,信息系统也可以写成一个表,具体形式类似于关系数据库 中的二维关系表,纵轴表示对象,横轴表示属性,对象标记与属性的交汇点就 是这个对象在这个属性上的取值。这个表成为信息表,是表达描述知识的数据 表格。如表2 - 1 就是一个信息表: 表2 1 信息表示例 对象集合颜色 形状大小 x 1 红 方块大 x 2 蓝 三角小 x 3 红方块小 x d 黄圆形大 定义2 2 不可分辨关系( i n d i s c e m i b i l i t yr e l a t i o n ) 不可分辨关系( 也称为等价关系) 是粗糙集理论的基础概念,它在信息系 统中的定义为: r ( b ) = ( x l ,】臼i 厂( x ,6 ) = f ( 砌,b ) ,f o ra n y6i n 召) ( 2 - 2 ) 其中b 是彳的子集,即对任意的x j ,砣石,有 j ,砌e r ;对任意的x l x i 。x 2 e x | ,i j ,奄媾l ,x 2 ) 隹r o r ) 把u 划分成七个等价类托,噩,尥。对于等价类五而言,l 表示 集合的基数,即集合中所包含元素的个数。由定义可以看出论域中的对象组 东北电力大学硕十学位论文 成了一些等价类,这些等价类由相互不能分辨的对象组成。 对于上文的信息表,由属性 颜色、形状) 划分的所有等价类为: 尺( 颜色、形状) ) = x ,秘) , 耽) , 拗) 其中, x i ,勋) 表示红色的方块; x 2 表示蓝色的三角; x 4 ) 表示黄色的圆形。集合 x i ,勋 的基数为2 。 定义2 - 3 近似空间( a p p r o x i m a t i o ns p a c e ) 近似空间是一个二元组 ,b 是彳的属性子集。对任意一个集合彳, 当集合x 能表示成基本等价类的并集时,则称集合彳是可以精确定义的;否则, 集合x 只能通过逼近的方式来刻画。粗糙集使用两个精确集合上近似集和 下近似集来刻画不精确性。 设x c _ u 是一个集合,r 是一个定义在u 上的等价关系,则x 的r 下近似 ( l o w e r a p p r o x i m a t i o n ) 集定义为: 足( 丑) = u y u r :y c _ x ( 2 3 ) x 的r 上近似( u p p e r a p p r o x i m a t i o n ) 集定义为: r 一( b ) = u y eu r :】,n 彳f 2 j ( 2 - 4 ) 可以看出,当x c _ u ,且r 一= 足( 动时,x 能够通过知识召来精确定义, 此时x 为b 上的一些等价类的并;当r 一( 功足但) 时,x 被称为粗糙集,并 有 足( b ) c x cr 一 ( 2 - 5 ) x 的边界定义为: b n r = r 一一足 ( 2 - 6 ) 粗糙集理论中将下近似集足称为j 的r 正域,记为p o s r ( 舯;而把 u 尺一称为x 的r 负域,记为n e g 尺( 彳) 。从直观意义上来看,足) 是根据 知识r ,一定能归入召的元素的集合;r 一( 国是根据知识r ,可能归入b 的元 素的集合。当肼r g 时,b 是一个不确定的概念,丑为尺粗糙集。可以得到 上近似集、下近似集、正域、边界域之间的如下关系: b 一( x ) = p o s s ( 舯ub n s ( x ) = 足u 删:( 舯- - - u 罡( x ) ( 2 7 ) 用图2 1 可以形象的表示这种关系。 第2 章粗糙集理论综述 ,n e g ( x ) 聂x 哆7 誓。0 j 7 ,b n ( x ) 婴j 荔,p 。粤 图2 1 粗糙集概念示意图 根据上、下近似集的概念,可以定义以下四种类型的粗糙集。 定义2 - 4 设集合x 玑b g r 为属性子集,则: 1 若罡) a b 一u ,则z 是b 内可定义的。其意义是:利用 属性集b ,可以确定u 中哪些对象属于彤哪些对象不属于兄 2 若罡) = 0 b 一u ,则x 是b 内不可定义的。其意义是:利用 属性集召,可以确定u 中哪些对象不属于墨但是不能确定哪些对象属于兄 3 若厦) o b 一= 阢则x 是曰外不可定义的。其意义是:利用 属性集b ,可以确定u 中哪些对象属于五但是不能确定哪些对象不属于乜 4 若罡) = g b 一= 矾则x 是b 完全不可定义的。其意义是:利 用属性集b ,不能确定哪些对象属于兄哪些对象不属于兄 定义2 5 对于某个等价关系只下的集合筋称下近似集与上近似集之比 ( x ) = 簧专若为集合x 对关系r 的精确度,该比值反映了集合x 对关系j i c 的 精确度。同时粗糙度定义为 p a x ) = 1 一a r ( x ) ,其中0 ( x ) ,风( x ) 1 ( 2 - 8 ) 定义2 - 6 属性依赖度 属性集合d 对b 的依赖度定义为: y ( e d ) : p o s s ( d ) ( 2 9 ) iui 东北电力大学硕十学位论文 其中p o s s ( d ) 为根据属性集合b 划分的正区域。如果d 是全部决策属性,b 是条件属性,则r ( b ,d ) 表示用b 对u 划分后,任一x u 能被划分到决策类的 概率;同时刻画了条件属性b 描述决策属性d 的能力。属性依赖度在有的文献 中也称为近似质量或分类质量【1 6 1 。 2 3 粗糙集知识约简 知识约简是粗糙集中的一个非常重要的概念。所谓的知识约简,就是在保 持知识库分类和决策能力不变的条件下,删除其中不相关或不重要的知识。可 以使用约简后的属性集合代替原来的整个属性集合而不降低分类效果。粗糙集 中的知识约简包括两个方面的内容,即属性约简和值约简。 2 3 1 属性约简的基本定义 定义2 7 对于一个知识表达系统,b r ,对于b 中的属性a ,如果 r ( 动= r ( b - 口) ) ,则属性a 是可有可无的,否则,如果灭( 彩又一 口 ) ,则属性a 是必不可少的。可以看出,如果将可有可无的属性从系统中除去,不会改变其 分类能力,相反,若系统中除去一个必不可少的属性,则其分类能力会发生改 变。 定义2 8 属性重要度 在属性依赖度的基础上,我们可以定义每一个属性的重要度。属性a 相对 于b 对d 的依赖程度的属性重要度为: s i g ( 口,b ,d ) = y ( 召+ 口) ,d ,一y p ,d ) ( 2 1 0 ) 可见属性重要度越大,属性a 对决策划分的影响越大,相对于决策属性来说 也就越重要。 定义2 - 9 设有两个属性集召和c ,b 是c 的真子集,如果r ) 咄( c ) ,且b 不存在真子集艿使足但) 镏( 功成立,则称召为c 的一个约简。一个属性集的约 简可能有多个。r e d ( c ) 表示c 的所有约简的集合。从决策表的角度看,属性约简 就是去除那些对分类没有贡献的属性。因此属性约简又可以定义为条件属性c 第2 章粗糙集理论综述 的子集8 ,满足y ( 丑,d ) = 7 ,( c ,d ) 。 属性c 的所有约简的交集称为属性核( c o r e ) ,简称核,记为c o r e ( c , 功, 即c o r e ( e 功= n r e d ( c ,功。核表示c 中所有对于d 不可缺少的属性,也可能 为空集。 属性约简是粗糙集理论研究的一个核心内容【1 7 】。人们希望找到最佳属性约 简,最佳约简是可以区分所有对象的最小属性子集。如果去掉最佳约简中的任 何一个属性,都将使得该属性集对应的规则发生变化,即导致规则与例子的不 致。然而w o n gs k m 和z i a r k ow 已经证明这是一个n p - h a r d 问题【1 8 】,导致 n p h a r d 问题的主要原因是属性的组合爆炸问题,因而目前还没有公认的高效的 最佳属性约简算法【1 9 1 。但是在实际应用中,只要得到相对属性约简就可以了。 在已知关于r o u g hs e t 研究成果中,波兰华沙大学数学家斯科龙( s k o w r o n ) 提出的可辨识矩阵为我们求取最佳属性约简提供了很好的思路。该方法将信息 表中所有有关属性区分信息都浓缩进一个矩阵当中,人们已发现可通过该矩阵 方便地得到信息表的属性核。可辨识矩阵的定义如下: 定义2 1 0 可辨识矩阵( d i s c e r n i b i l i t ym a t r i x ) 1 2 0 1 设s = 是一个信息系统,u = x 7 ,x 2 ,粕 为论域且c 是 条件属性集合,d 是决策属性集合,是对象x 在属性a 上的取值,则可辨识矩阵 可表示为 ia c ,口( 薯) a ( y j ) c 、i d ( 薯) d ( x j ) ( q ,) = f ,= l ,2 ,刀 ( 2 - 1 1 ) io ,以上条件不满足时 当论域中的两个对象的决策属性取值相同时,它们对应的可辨识矩阵元素 为o ;当两个对象的决策属性不同并且它们的条件属性取值不是完全相同,也就 是它们可以通过某些条件属性的取值不同进行区分时,它们对应的可辨识矩阵 元素为这两个对象属性值不同的条件属性集合;而当两个对象的条件属性取值 相同而决策属性不同时,它们对应的可辨识矩阵元素为空。显然,当可辨识矩 阵中存在空集元素时,该决策表系统中包含不一致信息。 东北电力大学硕卜学位论文 2 3 2 属性约简算法描述 本文所采用的算法以可辨识矩阵为基础,重点研究矩阵中除属性核之外的 其他属性组合;同时,利用一些简单的数学逻辑协助进行运算。 令m 是决策表丁的可辨识矩阵,a = 口,a 2 , ,锄) 是r 中所有条件属性的集 合。s 是m 中所有属性组合的集合,且s 中不包含重复项。令s 中包含有s 个属 性组合,每个属性组合表示为忍,其公式化描述为j 9 l s ,b ,e s ,置b ,( f , = 1 ,2 ,芦) 。令i e i = 聊,则骂中每个条件属性表示为包。e ( 七= l ,2 ,所) 。 从可辨识矩阵的定义可知:矩阵中属性组合数为1 表明,除该属性外,其 余条件属性无法将信息表中决策不同的两条记录区分出来,即该属性必须保留, 与决策表中核属性的概念一致。因此,矩阵中所有属性组合数为1 的属性均为 决策表的核属性( 可能为空) 。令c 0 是m 中的核属性集,则有c nc a 。 考虑到可辨识矩阵包含了决策表中的所有属性区分信息,因此,核属性外 的其余有用属性应从属性组合数不为l 的矩阵元素中分析取得。假设某信息表 除c 0 外剩余两个属性组合分别为q 口2 a m ,6 , 6 2 瓯,为进行数学逻辑计算,将 该属性组合以布尔值表示其中是否包含某个条件属性。例如儡_ 0 表示不包含条 件属性a ,而q = l 表示包含条件属性q 。根据可辨识矩阵可知,如果要辨别所 有决策不同的记录,则q ( 卢l ,2 ,聊) 与b , ,_ l ,2 ,1 ) 之中必然至 少各需保留一个属性。构造表达式尸= ( a lva 2v v ) ( 6 lv6 2v v 吃) ,由以 上分析得到p = 1 ,将p 转化为析取范式形式,且令p 中任意合取式项的值均等 于1 ,则该合取式代表的属性组合连同核属性即可将原决策表中的所有决策区分 出来。由于析取范式由多个合取式构成,究竟采用哪组属性组合应根据需要而 定,该属性组合与核属性一起构成在指定要求下的最佳属性化简。如信息表除c n 外还剩余个属性组合,其处理方法可依此类推。 第2 章粗糙集理论综述 2 3 3 属性值约简 粗糙集理论还具有从信息表中抽取规则知识的能力,事实上,在粗糙集理 论中抽取规则的过程正是对信息表进行值约简的过程。这也是我们用粗糙集理 论处理问题的目标之一。决策表中的一个对象就代表一条基本决策规则,如果 我们把所有这样的决策规则罗列出来,就可以得到一个决策规则集合。但是, 这样的决策规则集合是没有任何意义的,因为其中的基本决策规则没有适应性, 只是机械地记录了一个个对象的个别情况,不能适应新的、其它的情况。 为了从决策表中提取得到适应度大的规则,我们需要对规则进行约简,使 得经过约简处理的决策表中的一个记录就代表一类具有相同规律特性的对象, 这样得到的决策规则就具有较高的适应性。为了得到简化的决策规则,需要在 对属性约简的基础上,继续对属性值进行约简,也就是决策规则的约简。从这 个意义上讲,值约简与规则提取是一致的。对于一个决策表,选择其上不同的 不可分辨关系,可以形成不同的决策规则集合。 属性值的约简不是从整体上约简属性,而是针对每个潜在的决策规则,去 掉表达该规则时的冗余属性值,以使决策规则进一步简化。相对于属性核而言, 每条规则里不能去掉的属性值组成的集合就称为值核。 2 4 粗糙集理论在数据挖掘中的应用 随着对数据挖掘技术研究的深入,以粗糙集理论为基础的数据挖掘方法, 受到人们广泛重视1 2 。粗糙集理论为数据挖掘技术提供了一种新的方法和工具。 与其它的方法相比,粗糙集理论数据挖掘具有以下的优点: 由于粗糙集理论中的信息系统的定义与数据挖掘的重要研究对象关系型数 据库的模型颇为相似,这种相似性使得在数据挖掘中使用粗糙集方法较为方便。 粗糙集理论研究的是不确定性的知识,数据挖掘技术可以利用粗糙集理论 处理从数据库中发现不确定性的知识。 利用粗糙集方法中的化简方法对数据挖掘对象的属性进行预处理,去掉多 余属性,选择合适的属性集进行挖掘,这样可提高挖掘的效率。 东北电力人学硕一l :学位论文 粗糙集方法与其它数据挖掘方法( 诸如:模糊集方法、神经网络方法等) 相比,其决策规则和推理过程方面更易于被证实和检测。 从数据中发现异常,排除知识发现过程中的噪声干扰及基于粗糙集方法数 据挖掘算法有利于并行执行等方面的特点。对于大规模数据库中的知识发现来 说是非常重要的。 随着研究的不断深入,目前粗糙集理论已经在各个领域中得到了一定的应 用,并开发出了一些基于粗糙集的软件系统和应用领域【2 2 1 。例如文献冽中使用 粗糙集理论进行病毒性与细菌性脑膜炎的鉴别诊断工作;文献【2 4 】利用粗糙集的 原理进行顾客购买意向的分析;而文献【2 5 】则利用粗糙集理论进行数字音频信号 中噪音和失真的控制。本文将粗糙集理论与组合模型技术结合对药品营销工作 进行分析。 2 5 粗糙集与其他软计算方法的比较 软计算( s o f tc o m p u t i n g ) 是相对于硬计算而言的,由美国自动控制专家l a z a d e n 教授提出,他将计算分为两类:硬计算和软计算。硬计算以二元逻辑、 链性系统和数值分析为基础,以精确性和明确性为主要特征。软计算则以模糊 逻辑、神经网络和概率推理为基础,以近似性和不确定性为主要特征【2 6 】。在软 计算中,允许误差和不确定性的存在是为了获得一种可接受的解决途径。 粗糙集理论与模糊集理论、神经网络、遗传算法等同为软计算方法。它们 的共同特点是强调自学习,通过学习来获取知识,而不是强调先验知识的作用。 软计算方法近年来

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论