(计算机应用技术专业论文)数据挖掘在供应商评价中的应用.pdf_第1页
(计算机应用技术专业论文)数据挖掘在供应商评价中的应用.pdf_第2页
(计算机应用技术专业论文)数据挖掘在供应商评价中的应用.pdf_第3页
(计算机应用技术专业论文)数据挖掘在供应商评价中的应用.pdf_第4页
(计算机应用技术专业论文)数据挖掘在供应商评价中的应用.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

(计算机应用技术专业论文)数据挖掘在供应商评价中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

安徽大学2 0 0 7 届硕士学位论文摘要 摘要 供应链管理是近年来在国内外逐渐受到重视的一种新的管理理念与模式,被 视为是提升企业竞争力,与上、下游厂商建立信任关系的基础之一。供应商评价 通过对供应链上游企业进行评价,起到了选择供应商、激励供应链合作伙伴、提 高供应链绩效水平的重要作用。目前国内大多数企业并没有一个准确、客观的供 应商评价体系,这无疑大大影响了供应链的性能。 本文依托企业管理信息系统数据库,通过数据挖掘的方法对企业供应商供货 数据进行分析,利用神经网络对供应商进行分类从而达到对供应商进行评价的 目的。主要研究内容包括以下几个方面: ( 1 ) 分析了供应商评价的难点以及现有供应商评价方法的缺点,提出了一种基于 数据挖掘的供应商评价模犁,该模型通过对企业管理信息系统数据库中数据进行 分析,从而对供应商进行评价。大大降低了供应商评价中人为因素的干扰。将模 型应用到燃料供应商评价中,实验表明了该模型具有较高的准确率。 ( 2 ) 结合实验分析了核覆盖算法相对于其他算法的优越性。实验表明在进行供应 商分类时,核覆盖算法准确率要高于交叉覆盖算法和s v m ( s u p p o r tv e c t o r m a c h i n e ) ,且其网络训练速度比s v m 要快,所产生的分类器的复杂性比交叉覆盖 算法要低,因此晟适合用于供应商评价中。 。 ( 3 ) 运用快速原型的开发方法进行了燃料供应商评价管理系统的设计和开发。快 速原型法大大加强了系统开发过程中开发人员与用户的沟通,缩短了开发周期, 提高了最终提交系统的用户满意度。 本文的研究是数据挖掘技术的新应用,为供应商评价方法的研究提供了一种 新思路,供应商管理评价系统使企业能够科学、合理地对供应商进行评价,为企 业管理者提供了可靠的决策依据。 关键词: 数据挖掘;供应商评价;核覆盖算法;支持向量机;快速原型法 安徽大聿2 0 0 7 届硕士学位论文a b s t r a e t a b s t ra c t s u p p l yc h a i nm a n a g e m e n ti sak i n do fn e wm a n a g e m e n tc o n c e p ta n di sg i v e n m o f ea n dm o r ea t t e n t i o ni nd o m e s t i ca n da b r o a d i ti sr e g a r d e da so n eo ft h e f o u n d a t i o no fi m p r o v i n ge n t e r p r i s e c o m p e t i t i v ep o w e ra n de s t a b l i s h i n g t r u s t f u l r e l a t i o n s h i pw i t 1u p - c h a i na n dd o w n c h a i ne n t e r p r i s e ss u p p l i e re v a l u a t i o ne v a l u a t e s u p - e h a me n t e r p r i s ep e r f o r m a n c ej l lt h es u p p l yc h a i n i tp l a y sav e r yi m p o r t a n tr o l ei n s e l e c t i n gs u p p l i e r s ,i n s p i r i t i n gs u p p l yc h a i np a r t n e r sa n di m p r o v i n gs u p p l yc h a i n p e r f o r m a n c ea tp r e s e n t , t h ef a c ti st h a tt h e r ei sn o tap r e c i s ea n do b j e c t i v es u p p l i e r e v a l u a t i o n s y s t e m i nd o m e s t i c e n t e r p r i s e s , w h i c hh a sg r e a t l yw e a k e n e dt h e p e r f o r m a n c eo f t h es u p p l yc h a i n t h i st h e s i sr e l i e so nt h ed a t a b a s eo fe n t e r p r i s em a n a g e m e n ti n f o r m a t i o ns y s t e m b ya n a l y z i n ge n t e r p r i s es u p p l yd a t au s i n gd a t am i n i n gm e t h o d s ,i tc l a s s i f i e ss u p p l i e r s n s m gn e u r a ln e t w o r k , i no r d e rt oe v a l u a t es u p p l i e r s t h em a m r e s e a r c hi si n c l u d e da s f o l l o w i n g : ( 1 ) t h ed i f f i c u l t i e so fs u p p l i e re v a l u a t i o na n dd i s a d v a n t a g e so fe x i s t i n gs u p p l i e r e v a l u a t i o nm e t h o d sh a v eb e e ns t a t e d ad a t am i n i n gb a s e ds u p p l i e re v a l u a t i o nm o d e l h a sb e e np r o p o s e d t h em o d e le v a l u a t e ss u p p l i e r sb ya n a l y z i n gd a t amt h ed a t a b a s eo f t h e e n t e r p f i s e i n f o r m a t i o ns y s t e m 5 0t h a tm a n m a d ed i s t u r b a n c e sa r eg r e a t l y e l i m i n a t e d t h em o d e lh a sb e e na p p l i e dt o f u e l s u p p l i e re v a l u a t i o n , a n d t h e e x p e r i m e n ts h o w e di t sh i g ha c c u r a t er a t e ( 2 ) t h r o u g ht h ee x p e r i m e n t , t h es u p e r i o r i t yo fk e m e lc o v e r i n ga l g o r i t h mc o m p a r i n g w i t ho t h e ra l g o r i t h m sh a sb e e na n a l y z e dt h ee x p e r i m e n ts h o w e dt h a tt h ea c c u r a t e r a t eo fk e r n e lc o v e r i n ga l g o r i t h mi sh i g h e rt h a nt h a to fa l t e r n a t i v ec o v e r i n ga l g o r i t h m a n ds v m ( s u p p o r tv e c t o rm a c h i n e ) a l s o ,t h en e t w o r kt r a i n i n go fk e r n e lc o v e t i n g a l g o r i t h m i sf a s t e rt h a ns v m , a n dt h ec l a s s i f i e rp r o d u c e db yk e r n e lc o v e r i n g a l g o r i t h mi ss i m p l e rt h a nt h a tp r o d u c e db ya l t e r n a t i v ec o v e r i n ga l g o r i t h m s ok e r n e l c o v e t i n ga l g o r i t h mi sm o r ea p p l i c a b l ef o rs u p p l i e re v a l u a t i o n ( 3 ) f u e ls u p p l i e rm a n a g e m e n ta n de v a l u a t i o ns y s t e mh a sb e e nd e s i g n e da n d 室墼查兰! 塑! 星堡主兰堡堡塞兰! ! 坚竺 d e v e l o p e du s i n gr a p i dp r o t o t y p i n gm e t h o d r a p i dp r o t o t y p i n g m e t h o dg r e a t l y i m p r o v e dt h ec o m m u n i c a t i o nq u a l i t yb e t w e e nd e v e l o p e r s a n du s e r sd u r i n gt h e d e v e l o p m e n tp r o c e s s ,s h o n a n e dt h ed e v e l o p m e n tc y c l ea n d e n h a n c e dt h es a t i s f a c t i o n o f u s e r s t h er e s e a r e hi n t h i st h e s i si san e wa p p l i c a t i o no fd a t am i n i n gt e c h n o l o g yi t p r o v i d e san e wt h o u g h to fs u p p l i e r e v a l u a t i o nt h es u p p l i e rm a n a g e m e n ts y s t e m e n a b l e se n t e r p r i s e st oe v a l u a t es u p p l i e r ss e i e n t i f i e a l l ya n dr a t i o n a l l y i tp r o v i d e s c r e d i b l ed e c i s i o n m a k i n ge v i d e n c ef o re n t e r p r i s em a n a g e r s k e y w o r d s :d a t am i n i n g ;s u p p l i e re v a l u a t i o n ;k e r n e lc o v e r i n ga l g o r i t h m ; s u p p o r tv e c t o rm a c h i n e ;r a p i dp r o t o t y p i n g m e t h o d 1 1 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得安徽大学或其他教育机 构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献 均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:锎影扎签字日期:2 0 0 7 年4 月22 日 学位论文版权使用授权书 本学位论文作者完全了解安徽大学有关保留、使用学位论文的规定,有 权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 阅。本人授权安徽大学可以将学位论文的全部或部分内容编八有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:绷物厶 签字目期:2 0 0 7 年4 月2 2 曰 学位论文作者毕业去向: 工作单位: 通讯地址: 导师签名 教畿 签字日期:2 0 0 7 年4 月2 3 日 电话 邮编 安徽大学2 0 0 7 届硕士学位论文第一章绪论 第一章绪论 1 1 课题的研究背景和意义 1 1 1 课题的研究背景 随着社会经济的发展,买方市场的基本形成,以生产和产品为中心的管理模 式已经不能适应现代市场竞争的需要,取而代之的是以顾客为中心的供应链管 理,企业之间的竞争也变为供应链之间的竞争。正如美国著名的供应链专家 m a r t i nc h r i s t o p h e r 所言:“市场中只有供应链而没有企业”,“2 1 世纪的竞争不再 是企业与企业之间的竞争,而是供应链与供应链之间的竞争”。谁的供应链能够 对顾客的需求作出快速反应,提供高质量、个性化的产品及优质的服务,谁就能 够在这场竞争中获取更强的竞争优势。供应链中存在许多降低成本、提高竞争力 的机会,因此,供应链管理也就成为了现代企业管理的重要环节。近年来,供应 链管理得到了国内外学术界和企业界人士的极大关注。国际上许多著名企业,如 戴尔公司、惠普、宝洁、沃尔马等,在供应链管理的实践中取得了巨大的成绩, 大大降低了整个供应链成本,提高了服务水平和顾客满意度水平,从而增强了竞 争力。p i t t i g l i or a b mt o d d & m c g r a t h 组织研究发现:实施供应链管理的企业, 平均总成本下降了1 0 ,按时交货率提高了1 5 ,订货一生产的周期缩短了2 5 - - 3 5 。供应链中企业的生产率提高了1 0 以上1 1 】。 目前随着信息越来越发达,信息化进程越来越普及,大多数企业都拥有独立 的管理信息系统,对于制造类的企业,这些系统往往表现为进一销一存系统,即 系统中保存了企业的进货、库存、销售数据,这些数据具有一些明显的特征:充 足性、历史性、周期性和实时性。如何充分利用这些历史数据,运用数据挖掘的 相关方法对其进行研究并提取出相关信息指导企业决策,相信是一项值得研究的 课题。 1 1 _ 2 课题的研究意义 随着新世纪的来临和中国加入w t o ,中国企业的主要竞争因素已经由产量 和产品质量转变为时间,这里的时间主要是交货期和响应周期。客户不但要求厂 安徽大学2 0 0 7 届硕士学位论文数据挖掘在供应商评价中的应用 家要按期交货,而且要求的交货期越来越短。通常所说的企业要有很强的产品开 发能力,不仅指产品品种丰富多样,更重要的是指新产品上市时间,这就需要尽 可能提高对客户需求的响应速度。于是,国内一些有战略眼光的企业便开始转向 实施供应链管理,与供应链伙伴进行运营协作共同寻求降低运营成本的途径以 获得双赢的结果【”。 供应链可以简单的分为三个环节:采购、生产和物流。采购环节中,核心问 题就是供应商的评价。合理的供应商评价体系,不仅可以协助企业降低采购成本, 提高企业利润,而且可以缩短供货周期,缩短对客户的相应时间。对于企业的决 策者来说,选择合适的供应商,对企业的发展至关重要。因此,对供应商评价体 系的研究有着重大的理论意义和应用前景。 1 2 国内外研究现状, 1 2 。1 供应商评价指标的建立 最早对供应商评价指标问题做出系统性研究的是美国的d i c k s o n 。d i c k s o n ( 1 9 6 6 ) 提出了以质量、交货期和历史绩效为最重要因素的供应商评价2 3 条准则【3 1 。 此后,许多专家学者就这一问题进行了大量的研究,并获得许多成果,比较有影 响的有:l e h m a n n 和0 s h a u g h n e s s y ( 1 9 8 2 ) 提出的绩效、经济、整体、适合、守法 等五项评价指标 4 1 :c a d d i c k 和d a l e ( 1 9 8 7 ) 提出的包括质量、生产计划与管理系统 的有效性、整体历史绩效、采购项目及价格等指标在内的评价体系【5 】;e l l r a m ( 1 9 9 0 ) 提出企业在进行供应商评价时,除了要考虑如成本、质量、交货期等一般 的量化标准之外,还应考虑某些如管理相容性、目标一致性等所谓的软性指标【6 】。 s y m t k a 和c t e m e n s ( 1 9 9 3 ) 提出用风险、企业战略目标、成本三项主要指标来进行 供应商评价【7 】,p a t t o n ( 1 9 9 6 ) 则认为价格、质量、交期、销售支援、设备与技术、 订货情形、以及财务状况等7 项因素都是供应商评价的要点【8 j 。w e b e r ( 1 9 9 6 ) 等人 则对d i c k s o n 提出2 3 项供应商评价准则之后的相关研究文献做了一个统计分析 【9 】,他们发现,价格是讨论得最多的一项准则,接下来依次是交货、质量、生产 设施生产能力、地理位置、技术能力、管理和组织等,其他的因素则很少提及。 y a h y a 和k i n g s m a n ( 1 9 9 9 ) 运用层次分析法1 0 1 ,通过对1 6 位富有经验的采购精英和 采购经理的调查,得到了包括质量、响应、交货、纪律性、财务、管理、技术能 2 安徽大学2 0 0 7 届硕士学位论文第一章绪论 力以及设施等指标在内的供应商评价体系及相应的权重。 1 2 2 供应商评价方法的研究 供应商评价方法的研究大致经历了三个阶段:定性方法、定量方法、定性与 定量相结合的方法。早期的供应商选择方法主要采用定性方法,它主要根据以往 的经验与供应商的关系进行主观判断,这种方法缺少科学根据而较少被采购者所 采纳。后来人们采用定量的方法选择供应商,目的是尽量减少采购成本。不久人 们发现影响供应商选择的因素有很多,仅仅从成本的角度选择供应商是不够的, 因此人们提出了定性和定量相结合的方法。 目前国内外学者所建立的供应商评价方法多为数学方法,包括加权评分法、 层次分析法、t o p s i s 法、灰色系统法等等。从评价与选择的数学方法的演变来 看,在最初的研究中采用得最多的是“加权评分法则”,随后的研究逐渐关注于 一些非精确性的经验方法。1 9 9 4 年w e b c r 提出了应用多目标规划的层次分析法来 进行供应商评价。并着重讨论了各项指标之间的平衡问题。为了减少多目标决策 中加权因子评价的随意性,1 9 9 6 年k o n i n g s 提出了基于活动作业的成本分析法 ( a c t i v i t yb a s e dc o s t i n g ,a b c ) 来计算供应商各项指标在企业生产中所引起的附 加费用。神经网络方法本身具有非线性映射、自学习和联想记忆等特点,且能通 过样本训练的方法获取各个指标之间的关系,无需人为直接确定权重,在利用专 家知识的同时,又减少了评价过程中主观因素的影响,这些特点使得神经网络成 为一种有效的智能化评价方法,为供应商评价问题开辟了一条新的道路。国内的 学者己经将b p 神经网络和离散型h o p f i e l d 神经网络应用于供应商评价中【i l 】【1 孙, 取得了一定的效果。 在应用方面,国内的学者已经将这些供应商评价方法应用到了汽车零部件、 精密仪器、医疗设备等多个领域”4 1 ,取得了一定的应用成果。然而纵观以上一些 方法和应用,难免存在以下一些问题: 1 ) 以往的大多数供应商评价的数学方法都属于多目标评价范畴,都是以确 定评价指标的相对隶属度( 指标权重) 为基础,通过权重计算供应商的综合得分作 为评价依据,在各个指标的之间的权重衡量上,往往不可避免地存在人为的痕迹。 因此,如何尽可能地消除评价过程中的主观随意性,成为是供应商评价问题的研 究重点和难点之一。 3 安徽大学2 0 0 7 届硕士学位论文致据挖掘在供应商评价中的应用 2 ) 供应商评价方法往往根据不同的领域有所不同,在基于神经网络的供应 商评价方法中,虽然成功地减少了主观人为因素的影响,然而其在具体领域的适 用性却值得进一步研究。基于神经网络的供应商评价方法中各供应商在各个评价 指标上的得分值仍然通过专家打分的方法确定,这显然仍然很大程度上受制于人 为因素的干扰。另外,由于这些研究所运用的神经网络自身的一些缺陷,其评价 效果未必能达到最好。 3 ) 优秀的供应商评价方法应该不仅能够帮助企业进行供应商选择决策,应 该还能够实现供应商监督管理和激励作用,这就要求供应商评价周期尽可能的 短,最好能够实时反映供应商的表现。以上一些评价方法在应用过程中,大多数 是对供应商长期表现进行评定,对供应商短期评定的研究不多,因此对供应商表 现的实时反应能力不够。 前辈们的研究给我们很好的指引了方向。目前随着信息越来越发达,信息化 进程越来越普及,大多数企业都拥有独立的管理信息系统,对于制造类的企业, 这些系统往往表现为迸一销一存系统,即系统中保存了实时的进货、库存、销售 数据,如果我们能够充分利用企业信息化系统中的大量充足的历史和实时数据, 运用数据挖掘的方法对其进行深层次的挖掘,提取出供应商评价的深层次规则, 提供对供应商表现的实时反映,相信会对企业决策起到很好的帮助。 1 3 论文结构和创新点 1 3 1 论文的创新点 本文首次提出了燃料管理中的供应商评价。火力发电厂下燃料供应企业众多, 其中大部分是煤炭供应商,这些供应商种类繁多,来自全国各地,供应各种形式 的煤炭。这些供应商提供的货物从价格到质量,供应商的信誉度、前期合作关系 和合作形式都不尽相同。以往在燃料管理工作中,都是凭借人为经验对其进行管 理,没有一套直观、量化的管理方法,也不能实时监控供应商的表现。本文首次 提出了燃料供应商评价,旨在为电厂企业提供一种新型的管理方式。 本文研究了数据挖掘的一些方法,包括交叉覆盖算法、支持向量机、交叉覆 盖算法的改进算法等,并首次将这些数据挖掘的方法应用到供应商评价中。在 燃料管理系统的支持下,充分利用燃料管理系统产生的大量充足的历史数据, 安徽大学2 0 0 7 届硕士学位论文 第一章绪论 运用相关的数据挖掘方法对其进行了分析,深层次的挖掘了燃料的量、质、价 与燃料供应商表现的关系。 在供应商评价方法上,提出了利用数据挖掘进行评价的方法。这种方法从数 据库中提取数据作为对各个属性的评分,利用数据挖掘的分类方法进行供应商 表现分类,从而达到对供应商表现进行评价的目的。在实验中,将这种方法应 用于燃料供应商评价中,实验结果证明了这种评价方法的可行性。 1 2 3 论文结构 本文的主要目的是研究数据挖掘技术在供应商评价中的应用,通过充分利用 燃料管理系统产生的大量数据。重点研究交叉覆盖算法和核覆盖算法在供应商评 价中的应用,从而迸一步消除了供应商评价中的人为因素干扰,并且提高了供应 商表现评定的实时性。文中还介绍了基于快速原型法的供应商评价系统开发的基 本流程。 第一章介绍了供应商评价的研究背景和研究现状。首先介绍了供应链的基本 知识,分析了供应链管理在现代企业管理中的重要性;然后阐述了供应商评价在 供应链中所起的作用和所占的地位,分析了供应商评价的重要性;分析了供应商 评价的研究现状,提出当前供应商评价方法的一些不足和待改进的地方;由此, 提出了运用数据挖掘方法进行供应商评价的意义所在。 第二章首先介绍了数据挖掘的基本概念和基本步骤;然后介绍了数据挖掘的 主要技术;最后分析了供应商评价的难点和存在的问题。从而提出供应商评份的 数据挖掘模型,并分析了模型各个阶段的可行性。 第三章首先介绍了两种常见的供应商评价的数学方法,a h p 法和t o p s i s 法, 分析了这两种方法的不足;介绍了数据挖掘中的交叉覆盖算法、核覆盖算法和 s v m ,分析了这几种算法各自的优点和不足:最后提出一个基于神经网络分类 的供应商评价模型,将模型应用到燃料供应商评价中,通过实验验证了模型的可 行性和较高的准确率,并通过实验分析了交叉覆盖算法、核覆盖算法和s v m 各 自的优缺点。 第四章介绍了中小型软件开发中常用的快速原型开发方法,将该方法运用于 燃料供应商评价管理系统开发中,介绍了供应商评价系统的设计和开发流程。 第五章是本文的总结和对今后研究方向的打算。 s 安徽大学2 0 0 7 届硕士学位论文数据挖掘在供应商评价中的应用 第二章供应商评价中的数据挖掘技术 2 1 数据挖掘技术概述 2 1 1数据挖掘的基本概念 美国著名的未来学家阿尔温托夫勒在1 9 8 0 年3 月出版的著作第三次浪 潮中多次提到信息爆炸问题,认为未来的信息量将以指数级的速度增长。从该 书出版到今天,随着信息获取和存储方式的不断变革。该论点已经逐步得到验证。 信息爆炸问题已经不再是2 0 世纪8 0 年代被预言的“将来式”,而成了“现在迸 行式”或者“现在完成进行式”。今天,伴随着计算机技术和计算机网络技术的 快速发展,大量信息充斥视野,数据量的飞速增长已经成为一个不容忽视的问题。 大量蜂拥而至的信息在给人们带来方便的同时也提出了一大堆问题,如信息的消 化和吸收、信息的真假辨识、信息安全及信息形式不一致等。在当今这个信息时 代,人们面临的不再是信息缺失,而是需要从浩如烟海的资料中选择性的收集他 们认为有用的信息,这就肯定会面临数据量巨大而有意义的信息很难得到的状 况,完全可以用“沙里淘金”和“大海捞针”这样的词来形容。目前的数据库系 统可以高效的实现数据的录入、查询、统计等功能,却无法发现这些数据中存在 的关系和规则,更不能根据现有的数据预测未来的发展趋势。随着技术的发展和 信息的急剧增长,仅仅单纯的依靠统计手段和数据库管理系统的查询检索机制等 方法已远远不能满足实际需要,它迫切要求自动、智能地将待处理的数据转化为 有用的信息和知识。数据挖掘就是为迎合这种要求而产生并迅速发展起来的、可 用于开发信息资源的一种新的数据处理技术。 数据挖掘的定义几经变动,有多种不同的定义方式。现在,为大家广泛采用 的是由u s a m amf a y y a d 等旧给出的:数据挖掘是从大量的数据中挖掘出隐含 的、未知的、用户可能感兴趣和对决策有潜在价值的知识和规则。这些规则蕴涵 了数据库中一组对象之间的特定关系,揭示出一些有用的信息,可以为经营决策、 市场策划和金融预测等方面提供数据。 从学科基础上看,数据挖掘跨越了数据库、人工智能、机器学习、统计分析 等多个学科,使决策支持系统跨入了一个新阶段。传统的决策支持系统通常是在 某个假设的前提下通过数据查询和分析来验证和否定假设,而数据挖掘则能够通 安徽大学2 0 0 7 届硕士学位论文第二章供应商评价中的数据挖掘技术 过对数据的归纳、分析和推理,从中发掘出潜在的模式,帮助决策者调整策略, 进行正确决策。 2 1 2 数据挖掘的功能 数据挖掘的功能是用于指定数据挖掘任务中要找的模式类型。一般地,数据 挖掘任务可以分两类:描述和预测。描述性挖掘任务刻画数据库中数据的一般特 性。预测性挖掘任务在当前数据上进行推断,以进行预测。在某些情况下,用户 不知道他们的数据中什么类型的模式是有趣的,因此可能想并行地搜索多种不同 的模式。这样,重要的是,数据挖掘系统要能够挖掘多种类型的模式,以适应不 同的用户需求或不同的应用。此外,数据挖掘系统应当能够发现各种粒度( 即, 不同的抽象层) 的模式。数据挖掘系统应当允许用户给出提示,指导或聚焦有趣 模式的搜索。由于有些模式并非对数据库中的所有数据都成立,通常每个被发现 的模式带上一个确定性或“可信性”度量。数据挖掘功能以及它们可以发现的模 式类型主要有以下几种: 1 ) 概念类描述:特征和区分 数据可以与类或概念相关联。例如对于一个电子产品商店,销售的商品类包 括计算杌和打印机,顾客概念包括大客户和普通客户等。用汇总的、简洁的、精 确的方式描述每个类和概念可能是有用的,这种类或概念的描述称为类概念描 述。这种描述可以通过数据特征和数据区分的方式得到。数据特征是目标类数据 的一般特征或特性的汇总,通常,用户指定类的数据通过数据查询得到,其表现 形式包括饼图、条图、曲线、多维数据方等。数据区分是将目标类对象的一般特 性与一个或多个对比类对象的一般特性进行比较。目标类和对比类由用户指定, 而对应的数据通过数据库查询提取。 2 ) 关联分析 关联分析发现关联规则,这些规则展示属性值频繁地在给定数据集中起出 现的条件。关联分析广泛用于购物篮或事务数据分析。著名的“尿布与啤酒”的 故事就是一个关联规则挖掘的例子。更形式地,关联规则是形如x 爿y ,即”a j a aa m 号b ia ab n 的规则:其中,( j 1 ,m ) ) ,b j oe l ,1 1 ) ) 是属 性值对。关联规则解释为“满足x 中条件的数据库元组多半也满足y 中条件”。 安徽大学2 0 0 7 届硕士学位论文致据挖掘在供应商评价中的应用 3 ) 分类 分类是这样的过程,它找出描述或识别数据类或概念的模型( 或函数) ,以便 能够使用模型预测类标号未知的对象。导出模型是基于对训练数据集( 即,其类 标号己知的数据对象) 的分析。导出模式可以用多种形式表示,常见的有分类规 则、决策树、数学公式、神经网络等。分类通常用于预测数据对象的类标号。 4 ) 聚类分析 与分类和预测不同,聚类分析数据对象,而不考虑己知的类标号。一般地, 训练数据中不提供类标号,因为不知道从何开始。聚类可以产生这种标号。对象 根据最大化类内的相似性、最小化类间的相似性的原则进行聚类或分组。即,对 象的聚类这样形成,使得在一个聚类中的对象具有很高的相似性,而与其它聚类 中的对象很不相似。所形成的每个聚类可以看作一个对象类。由它可以导出规则。 2 2 数据挖掘的主要支撑技术 2 2 1 决策树 在诸多的分类方法中,决策树是一种常用的、直观的快速分类方法。所谓“决 策树”,顾名思义,有一个树状的结构,它是一个类似流程图的树结构。决策树 根据层次的不同,其结点分为根结点、内部结点和叶结点三类。其中,根结点和 每个内部结点表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树 叶结点代表类或类分布。根结点和样本结点根据测试的结果将样本集划分为两个 或多个子集,每个子集生成一个分支,分支用铡试的属性值来标识。叶结点包含 一个类标志,表示对应样本集的类别。从叶结点的角度来看,决策树把整个数据 空间划分为若干子空间,属于一个子空间的所有样本都被标识为相应叶结点的类 别。 决策树的构造包括两个步骤:利用训练集生成决策树:再对决策树进行剪枝。 决策树的生成是一个从根结点开始、从上到下的递归过程,一般采用分而治之的 方法,通过不断地将训练样本分割成子集来构造决策树。决策树的剪枝是对树结 构进行修剪。删除多余分支的过程。使用决策树对新样本进行分类时,从根结点 开始对样本的属性进行测试,根据测试结果确定下一个结点,直至到达叶结点为 止叶结点标识的类别就是新样本的预测类别。 安徽大学2 0 0 7 届硕士学位论文第二章供应商评价中的数据挖掘技术 决策树己在由医疗到游戏理论和商务等应用领域广泛使用,是一些商业规则 归纳系统的基础。它的优点是精确度较高且易于理解,缺点是很难基于多个变量 组合发现规则,且不同决策分支之间的分裂不平滑。 2 2 2 人工神经网络 神经网络最早是由心理学家和神经学家提出的,旨在寻求开发和测试神经的 计算模拟。从信息处理的角度看,神经元可以看作是一个多输入单输出的信息处 理单元,根据神经元的特性和功能,可以把神经元抽象为一个简单的数学模型, 它对信息的处理是非线性的。人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k , a n n ) 是 以模拟人脑神经元的数学模型为基础而建立的,它由一系列神经元( 单元) 组成, 单元之间彼此连接。 神经网络有三要素【1 6 j :拓扑结构、连接方式和学习规则。从拓扑结构上,神 经网络可以分为单层神经网络、两层神经网络及三层神经网络等结构。神经网络 的层数和每层的单元数视问题的复杂度而定。一般来说,问题越复杂,神经网络 的层数也应该越多。著名的b p 网络就是一种三层神经网络。根据层之间的连接 方式,可以把神经网络分为前馈式神经网络和反馈式神经网络;前馈式神经网络 的连接是单向的。上层单元的输出是下层单元的输入;反馈式神经网络除了单向 的连接外,还有一种特殊的连接,把最后一层单元的输出作为第一层单元的输入。 h o 嘶e l d 网络就是一种前馈式的神经网络。从学习方式上,神经网络分为感知器 和认知器;感知器采用有监督的学习方法,训练样本的类别是已知的,并在学习 过程中指导模型的训练;认知器采用无监督的学习方法,训练样本的类别是未知 的,各单元通过竞争学习。 神经网络可以逼近任意复杂的线性关系,其所有信息等量存储于网络中的各 个神经元,具有很好的鲁棒性和容错性,能学习和自适应不确定的系统。神经网 络的这些优点吸引了越来越多的学者对其进行研究,其应用领域也越来越广泛。 传统的b p 网络被广泛的应用于各个领域中,它具有理论基础坚实、推导过 程严谨、公式形式对称优美、物理概念清晰和通用性好的优点。但其本质决定了 b p 网络的学习速度慢、容易陷入局部极小点和网络容错能力差的缺点。本文将 在第三章中详细介绍基于交叉覆盖算法的前馈神经网络。 9 安徽大学2 0 0 7 届硕士学位论文 敷据挖掘在供应商评价中的应用 2 2 3 粗糙集方法 相糙集( r o u g hs e t ) 理论是一种处理模糊和不确定知识的数学工具,由波兰科 学家zp a w l a k 于1 9 8 2 年首先提出,近年来在数据挖掘领域引起了广泛重视。 粗糙集主要用于分类和特征描述。粗糙集方法利用等价关系将一组数据划分 成几个等价类,利用等价类近似地描述某个集合的特征。在这里,一种类别对应 于一个概念。知识由概念组成,如果某知识中含有不精确概念,则该知识不精确。 粗糙集对不精确概念的描述方法是通过上近似( u p p e ra p p r o x i m a t i o n ) 和下近似 ( 1 0 w e ra p p r o x t m a u o n ) 这两个精确概念来表示的,一个概念( 或集合) 的下近 似指的是肯定属于该概念的那些元素,一个概念( 或集合) 的上近似指的是可能 属于该概念的那些元素。 这些等价类可以来自于数据库中的属性。数据库中通常把元素看成对象,列 元素看成属性,属性又分为条件属性和特征属性。在条件属性和特征属性上分别 定义等价关系,并把数据集合按照等价关系划分为若干等价类。根据条件属性上 的等价类与特征属性上的等价类之间的近似关系,可以建立起确定性规则和满足 某个可信度的不确定性规则。 粗糙集方法有几个特点:不需要预先知道额外信息,如统计中要求的先验概 率和模糊集中要求的隶属度,使算法简单易于操作;粗糙集的数学基础是集合论, 难以直接处理连续的属性,需要预先进行离散化处理。目前,基于粗糙集的数据 挖掘软件有加拿大r e g i n a 大学开发的k d d r ,美国k a n s a s 大学开发的l e r s 等。 2 2 4 其他方法 除了以上介绍的一些技术外,数据挖掘还有许多其他支撑技术,如模糊集合 理论、遗传算法、模拟退火算法、支持向量机等等。 模糊集合理论( f u z z ys e t t h e o r y ) 是由美国控制论专家z a d e h 首次提出的。 在现实生活中。很多概念本身并没有确定的含义,其外延是模糊的,称为模糊概 念,如“年轻”,。年老”,“高”,“矮”等。在这些模糊概念面前,经典的集合理 论显得无能为力。1 9 6 5 年,z a d e h 发表了奠基性的论文“f u z z ys e t ”,标志着模 糊数学的诞生i 。模糊集合理论是经典集合论的推广,在经典集合论中,元素与 安徽大学2 0 0 7 届硕士学位论文第二章供应商评价中的数据挖掘技术 集合之间的关系是要么属于,要么不属于,而模糊集合理论认为,元素与集合之 间除了属于、不属于之外,还有第三种可能,即“既属于又不属于”,元素总是 以一定的程度属于某个集合,也可能以不同的程度属于几个集合。经典集合论中 集合的边界是清晰的,而模糊集理论中集合的边界是不清晰的,对人们现实生活 中大量使用的模糊概念,模糊数学可以较好地表达。现实生活中虽然大量使用一 些含有二义性的表述,但这并不影响人们的交流思想,模糊数学无疑对这些思想 的表达,推理具有不可替代的作用。今天,模糊集合理论及其在各个领域中的应 用已经形成了一个新的独立学科分支。模糊集合理论用于数据挖掘中,可以协助 发现一些不能形成精确挖掘要求的规律。 遗传算法( g e n e t i c a l g o r i t h m ,g a ) 是由美国生物学家jhh o l l a n d 于2 0 世 纪6 0 年代提出的【”】,它是一类模拟生物进化的智能优化算法,它模拟生物进化 过程中“物竞天择,优胜劣汰”的规律。多用于优化计算、分类等问题。遗传算 法主要由三个基本算子组成:选择,即从一个旧种群种选出生命力强的个体,产 生新种群;交叉,用来交换两个不同个体的部分基因,形成新个体;变异,用来 改变个体的某些基因。与传统优化方法相比,遗传算法具有群体搜索、不需要目 标函数的导数和概率转移准则等优点,是一种解决各种组合优化问题的强有力手 段。 模拟退火算法( s i m u l a t e da n n e a l i n g ,s a ) 利用物理学的退火过程,将求解 优化问题的最优解转化成求一系列随温度变化的物理系统的自由能函数的极小 值使算法能跳出局部极小值得到全局极小值,在模式识别、图像处理和数据压 缩等领域种应用广泛。 支持向量机( s u p p o r t v e c t o r m a c h i n e ,s v i v l ) 是数据挖掘中的一项新技术, 是借助于最优化方法解决机器学习问题的新工具。它最初于2 0 世纪9 0 年代由 v a p n i k 提出,近年来在其理论研究和算法实现方面都取得了突破性进展,开始成 为克服“维数灾难”和“过学习”等传统困难的有力手段。支持向量机方法是建 立在统计学习理论的v c 维理论和结构风险最小原理基础上的,根据有限的样本 信息在模型的复杂性( 即对特定训练样本的学习精度) 和学习能力( 即无错误地识 别任意样本的能力) 之间寻求最佳折衷,以期获得最好的推广能力。支持向量机 方法的主要优点是:它是专门针对有限样本情况的,其目标是得到现有信息下的 安徽大学2 0 0 7 届硕士学位论文 数据挖掘在供应商评价中的应用 最优解而不仅仅是样本数趋于无穷大时的最优值;算法最终将转化成为一个二次 型寻优问题,从理论上说,得到的将是全局最优点,解决了在神经网络方法中无 法避免的局部极值问题;算法将实际问题通过非线性变换转换到高维的特征空间 ( f e a t u r es p a c e ) ,在高维空间中构造线性判别函数来实现原空间中的非线性判别 函数,特殊性质能保证机器有较好的推广能力,同时它巧妙地解决了维数问题, 其算法复杂度与样本维数无关。目前支持向量机已经在模式手写数字识别、语音 识别、人脸图像识别、文本分类等领域得到了广泛应用。本文将在第三章对其进 行详细介绍。 2 3 基于数据挖掘的供应商评价 2 3 1 供应商评价的特点 对于我国现今实际的生产制造型企业,大多数企业选择自己的供应商时一般 依据“适时、适质、适地、适量”的原则。也就是说企业在选择自己的供应商 时,并没有一个确定的目标,比如价格低、质量好或者服务好等,而是要综合权 衡这些方面,达到一定的满意度。目前国内大部分企业的供应商还是通过“专家 考察,开会研讨”的方式进行选择的,并没有一套完整的供应商选择评价体系。 究其原因,我们认为主要是在供应商评价的过程中存在以下难点: ( 1 ) 评价指标建立困难。 自从d i c k s o n ( 1 9 6 6 ) 提出了以质量、交货期和历史绩效为最重要因素的供应 商评价2 3 条准则以来,针对供应商评价指标体系的研究就一直没有停止过。研 究者提出了各种不同的供应商评价指标体系,然而这些指标体系却未必能对各个 企业适用。企业裉据其领域以及性质的不同。往往需要自己的评价指标体系。比 如对于某些企业来说,与供应商长期的合作更重要。这种企业就需要考察供应商 的信誉度以及供应商的发展前景等;而某些企业需要降低成本,这种企业就需要 考察供应商的价格等指标。本文在第三章的研究中,将根据火力发电厂的实际倩 况,为电厂的燃料供应商评价建立一套指标体系。 ( 2 ) 评价指标权重难以确定。 这是供应商评价中的一个难点。对于不同的企业,甚至是不同的决策者或者 安徽大学2 0 0 7 届硕士学位论文 第二章供应商评价中的数据挖掘技术 是不同的决策经历,其对供应商评价的各个指标的看重程度都有可能是不一样 的。比如对于电子、精密仪器等对产品精度要求比较高的企业来说,肯定非常注 重供货质量和供应商服务;对于纺织、服装类的企业。则相对更注重供货价格。 然而对于企业来说,如何确定评价指标的权重却是个难题,目前大多数企业采取 专家给定权值的方法,这种方法具有太多的主观性。 ( 3 ) 各评价指标的衡量标准难以量化。 虽然提出了各种评价指标,有的指标确实比较有意义,但是对这些指标很难 提出一个明确的衡量标准,因此很难实际应用。在国内外学者对供应商评价模型 的研究当中我们发现,这些方法在对供应商在各个指标上的表现值的量化上统统 采取了专家打分的方法;这种方法不仅没

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论