(企业管理专业论文)基于知识管理的数据挖掘研究.pdf_第1页
(企业管理专业论文)基于知识管理的数据挖掘研究.pdf_第2页
(企业管理专业论文)基于知识管理的数据挖掘研究.pdf_第3页
(企业管理专业论文)基于知识管理的数据挖掘研究.pdf_第4页
(企业管理专业论文)基于知识管理的数据挖掘研究.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(企业管理专业论文)基于知识管理的数据挖掘研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于知识管理的数据挖掘研究 巴菲( 企业管理) 指导教师:王文铭( 副教授) 摘要 科学技术和管理思想的发展和广泛应用,以及数据获取设备的发展, 使得各种数据资源日益膨胀,远远超出了人们的分析能力。当数据积累 到一定程度时,作为经验和教训的积累的数据库,必然会反映出某些规 律。但是,由于缺乏有效的工具和分析的技术方法,巨大的数据资料并 不能为企业提供有效的、潜在的信息。数据挖掘和知识发现技术的出现 为人们提供了有效的手段,文中基于知识管理的数据挖掘流程,有效地 运用了数据挖掘工具及知识管理的模式方法,帮助企业从海量的数据中 发现潜在的知识,为企业的决策提供有效的支持。 本文先介绍了知识管理和数据挖掘的产生背景和重要性,又着重介 绍了知识管理的内涵、知识管理系统和数据挖掘技术的选择,分析了基 于知识管理的数据挖掘流程,指出怎样应用知识管理建立数据挖掘环境, 深入地阐述了建立在知识管理理论上的数据挖掘的作用和应用领域,最 后通过山东移动通信有限公司x x 分公司的案例,介绍了数据挖掘在知识 型企业中的应用,应用s a s 跏等挖掘工具,通过数据挖掘流程来解决企 业数据分析中的问题,分析公司已有数据资源,挖掘有用信息,制定相 应措施,加强管理,从而减少了资本投入,避免了资源浪费。 本文具有较强的实用性,通过对数据的挖掘,创造新知识,结合专 家领域知识评价知识,完善并集成知识。应用知识,共享知识,为企业 竞争能力的提升提供支持。对于知识型企业或处于转型期的企业来说, 具有很强的指导作用。 关键词:数据,数据库,知识管理,数据挖掘,知识型企业 l i d a t am i n i n gr e s e a r c h b a s e do nk n o w l e d g em a n a g e m e n t b a f e i ( e n t e r p r i s em a n a g e m e n t ) d i r e c t e db ya s s o c i a t ep r o f e s s o rw a n g w e n r u i n g a b s t r a c t t h ed e v e l o p m e n ta n d 州d ea p p l i c a t i o no fs c i e n c ea n dt e c h n o l o g ya n d m a n a g e m e n tt h o u g h ta sw e l la st h ed e v e l o p m e n to fe q u i p m e n t sf o ro b t a i n i n g d a t ah a v em a d ep o s s i b l ead a i l yi n c r e a s eo fd a t ar e s o u r c e s ,w h i c hi sa l r e a d y b e y o n dt h eh u m a nb r a i n s c a p a b i l i t yo fa n a l y s i s a st h ea c c u m u l a t i o no f e x p e r i e n c ea n dl e s s o i l s ,d a t ab a s er e v e a l ss o m el a ww h e ni ta c c u m u l a t e s e n o u g hd a t a h o w e v e r , t h eh u g ed a t ab a s ec o u l dh a r d l yp r o v i d ea n ye f f e c t i v e a n du n d e r l y i n gi n f o r m a t i o nf o re n t e r p r i s e s ,a st h e r ei sl a c k i n gi ne f f e c t i v e i n s t r u m e n t sa n da n a l y t i c a lt e c h n i q u e s t h ed e v e l o p m e n to fs k i l l si nd a t a m i n i n ga n dk n o w l e d g ed i s c o v e r yo f f e r sp e o p l ee f f e c t i v em e t h o d s b a s e do n t h ep r o c e d u r e so f d a t am i n i n gi nk n o w l e d g em a n a g e m e n t ,t h i sp a p e re m p l o y s e f f e c t i v e l y d a t am i n i n gi n s t r u m e n t sa n dk n o w l e d g em a n a g e m e n tm o d e s h e l p i n gt o s e t v c a l la s s i s t a n c ef o re n t e r p r i s e st od i s c o v e rp o t e n t i a l k n o w l e d g ef r o mag r e a td e a lo fd a t a , h e n c ep r o v i d i n ge f f e c t i v es u p p o r tf o r t h ee n t e r p r i s e s d e c i s i o n n i sp a p e ri n t r o d u c e sf i r s t l yt h e b a c k g r o u n da n di m p o r t a n c eo ft h e e x i s t e n c eo f k n o w l e d g em a n a g e m e n ta n dd a t am i n i n g ,t h e nm o r ei m p o r t a n t l y t h ec o n n o t a t i o no fk n o w l e d g em a n a g e m e n ta n dt h es e l e c t i o no f k n o w l e d g e i i i m a n a g e m e n ts y s t e ma n dd a t am i n i n gt e c l m j q u e s , a n a l y z e st h ek n o w l e d g e m a n a g e m e n t - b a s e dd a t am i n i n gp r o c e d u r e ,s u b s e q u e n t l ys h o w st h em e t h o d o fe s t a b l i s h i n gad a t a m i n i n g e n v i r o n m e n tb ya p p l y i n g k n o w l e d g e m a n a g e m e n t , a n de x p o u n d si nd e p t ht h ef u n c t i o na n df i e l d so f t h ea p p l i c a t i o n o fd a t am i n i n gb a s e do i lt h et h e o r yo fk n o w l e d g em a n a g e m e n t f i n a l l y , t h r o u g ht h ec a s eo fo n ef i l i a lo fs h a n d o n gm o b i l ec o m m u n i c a t i o nc o l t d t h ep a p e ri l l u s t r a t e st h ea p p l i c a t i o no fd a t am i n i n gi nk n o w l e d g e b a s e d o r g a n i z a t i o n s ,s p e c i f i c a l l yt h es e f l l e m e n to ft h ep r o b l e m si nd a t aa n a l y s i si n e n t e r p r i s e sb yo p e r a t i n gd a t am i n i n gp r o c e d u r e sw j t hm i n i n gi n s t r u m e n t sl i k e s a se m t h ec u r r e n t l ya v a i l a b l ed a t ar e s o u l c e sa r e a n a l y z e d , u s e f u l i n f o r m a t i o na l e m i n e d , c o r r e s p o n d i n g m e a s u r e sa l e f o r m u l a t e d ,a n d m a n a g e m e n ta l es 血e n g t h e n e d , t h u ss a v i n gc a p i t a li n p u ta n da v o i d i n gw a s t e o f r e s o u r c e s k e yw o r d s :d a t a , d a t ab a s e ,k n o w l e d g em a n a g e m e n t , d a t am i n i n g , k n o w l e d g e b a s e do r g a n i z a t i o n s 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取 得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论 文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得中国 石油大学或其它教育机构的学位或证书而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了 谢意。 签名: 耸锣7 年6 月z 日 , 关于论文使用授权的说明 本人完全了解中国石油大学有关保留、使用学位论文的规定,即: 学校有权保留送交论文的复印件及电子版,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手 段保存论文。 ( 保密论文在解密后应遵守此规定) 学生签名: 导师签名: 蚴 至塞塑 月日 2 月)日 ,q ,0 年 年 却句 中国石油大学( 华东) 硕士论文第1 章前言 第1 章前言 知识管理是近年来伴随着世界经济发展由工业经济向知识经济快速 转变而兴起的一种新的管理活动。在知识经济时代,传统的生产要素一 一土地、劳动力和资本己不能成为经济持续发展的必要条件,信息化、 网络化、科技化、全球化的经济走势使企业的经营环境发生了根本的变 化,对传统企业提出挑战,推动企业管理的变革。技术知识、智力资本 日渐取代了物质资本的主导地位,成为衡量企业竞争力的主要因素。因 而企业越来越依赖知识的积累、开发和有效利用,越来越认识到创新对 企业发展的重要作用,这一切都对传统企业管理提出了挑战,成为经济 发展的新动力。许多企业出于对知识资源在经济活动中的主导作用的日 益突出而开始重视和尝试知识管理,知识管理的理论与实践正成为当前 管理学界、经济学界和信息学界研究与探讨的热点。从上世纪9 0 年代开 始,知识经济与信息革命的浪潮在全球范围席卷而来的同时,对中国的 经济发展也产生了巨大的影响。在知识经济的背景下,如何获取、共享 和应用知识成为企业和个人保持竞争性最重要的能力,而如何比别人或 别的企业更快更好的学习也就变得比任何时候都更有意义。 但2 0 世纪9 0 年代以来,数据仓库技术的发展与实现以及网络技术 的发展,知识管理部门和知识管理者却陷入数据的海洋,他们无法从丰 富的数据中寻找到知识和规律,因而发出“数据丰富,知识贫乏”的慨 叹,以致于今天很多企业把自己亲手建造成的并一度视为。宝藏”的数 据库和数据仓库称之为“数据坟墓”( d a t at o m b s ) 。如何从丰富的数据 中挖掘知识、发现规律成为今天知识管理的核心问题之一,这已经引起 了知识型企业的普遍重视。在过去1 0 多年里获得长足发展的数据挖掘技 术,正是解决如何从大量的、不完整的、有噪声的、模糊的、随机的数 据中提取( 挖掘发现) 事先不知道但又是有用的信息和知识的一种自动 将数据转换成知识的信息技术。数据挖掘作为一种前沿的信息技术能够 从大量的平凡的数据中自动地挖掘出有价值的平时不易为人所察觉的知 识,满足了认知的需求,促进了管理的改进。所以,其在生物医学、工 中国石油大学( 华东) 硕士论文第1 章前言 商管理、金融电信等领域取得了卓著的应用成效。但在知识管理的基础 上应用数据挖掘技术解决企业问题的研究还不多见。 知识管理的目标是使最恰当的知识在最恰当的时间传递给最合适的 人,以实现最佳的决策。人们搜寻、取得了很多知识,但是因为没有适 当的管理,很多知识没有被妥当应用。就像松鼠藏了很多橡树的果实, 但常常忘记藏在哪里,藏了多少,所以就要不停地采,不停地藏。同理, 知识没有完善的管理也可能遗忘或漏损,即使没有遗忘,但在重要的时 候还是没能发挥功效,因为根本忘记了有这样的知识,就像松鼠忘记藏 了多少果实。因此,我们在知识管理中引入数据挖掘,利用数据挖掘的 相关技术,在知识管理的基础上进行信息处理和数据分析,从中挖掘出 有价值的知识信息和商业信息,为企业的内部管理和市场活动提供科学 的决策和依据。 2 0 0 0 年1 2 月我国加入w t o ,企业被推到国际竞争的舞台。面对经济全 球化、信息化、知识化,学习、消化、吸收与应用当代管理科学最新成 果十分重要。尤其是许多传统企业向知识型企业转型的过程中,利用数 据挖掘技术快速而有效地分析和处理企业内外大量的数据和信息,把企 业问题转化为数据挖掘可以解决的问题,进而通过数据挖掘工具和软件 求得数据挖掘问题的结果,然后管理者或业务人员解读数据挖掘的结果, 最终把数据挖掘结果转化为企业问题的解决方案,从而为企业的预测和 决策提供科学依据,提升企业利润或降低企业成本,形成强有力的核心 竞争力。 2 中国石油大学( 华东) 硕士论文第2 章数据挖掘的理论及其技术 第2 章数据挖掘的理论及技术 2 1 数据挖掘的概述 随着i n t e r n e t 的出现和发展,以及随之而来的企业内部网和企业外 部网,展现在人们面前的己不是局限于本部门,本单位和本行业的庞大 数据库,而是浩瀚无垠的信息海洋。近十几年来,人们利用信息技术生 产和搜集数据的能力大幅度提高。无数个数据库被用于商业管理、政府 办公、科学研究和工程开发等,由此积累的数据日益膨胀,数据量达到 g b 甚至t b 级,而且高维数据也日益成为主流,这些海量数据及其高维特 征使得传统的数据分析手段相形见绌。如何才能不被信息的汪洋大海所 淹没,从中及时发现有用的知识,提高信息的利用率呢? 要想使数据真 正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略 发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。而计算 机性能的日益更新,使得人们能够期望计算机帮助我们分析与理解数据, 帮助我们以丰富的数据为基础做出正确的决策。因此从数据库中发现知 识及其核心技术数据挖掘( d md a t am i n i n g ) 便应运而生了。数据库中的 知识发现( k d dk n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 一词首次出现在1 9 8 9 年8 月举行的第1 1 届国际联合工人智能学术会上,从1 9 8 9 年至今,k d d 的 定义随着人们研究的不断深入也在不断完善。目前比较公认的定义是 f a y y a d 等给出的:k d d 是从数据集中识别出有效的、新颖的、潜在的、有 用的以及最终可理解模式的高级处理过程。k d d 的过程一般包括数据清 理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示。 其中,数据挖掘d m 是k d d 中的核心部分,数据挖掘就是从大量的、不完全 的、有噪声的、模糊的、随机的数据中提取隐含在其中的、事先未知而 潜在有用的信息和知识的过程,也就是通过挖掘数据仓库中存储的大 量数据,从中发现有意义的新的关联模式和趋势的过程。提取的知识表 示为概念、规则、规律、模式等形式。也可以说,数据挖掘是一类深层 中国石油大学( 华东) 硕士论文第2 章数据挖掘的理论及其技术 次的数据分析,是实现数据上升到知识的必然过程。但在通常的应用中, 并不区分k d d 和聊的概念。 从商业的角度定义,数据挖掘是一种新的商业信息处理技术,其主 要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他 模型化处理,从中提取辅助商业决策的关键性数据脚。利用功能强大的 数据挖掘技术,可以使企业把数据转化为有用的信息帮助决策,从而在 市场竞争中获得优势地位。同时,数据挖掘是数据库研究中的一个很有 应用价值的新领域,汇集了来自机器学习、数据库、模式识别、统计学、 人工智能、管理信息系统等各个学科的研究成果。多学科的相互交融与 相互促进,使得数据挖掘技术很快在科学实验、货篮分析、投资评估和 股票交易市场预测、银行或商业诈骗行为( 如恶性透支、洗黑钱等) 的 识别和移动、电信业等方面有着许多成功的应用。随着知识管理经营理 念的迅速发展和数据挖掘技术所带来的经济效益正越来越受到企业的关 注,其应用前景也越来越广阔。 2 2 数据挖掘技术 数据挖掘的使用技术很多,其中主要包括统计方法、机器学习方法、 神经网络方法和数据库方法。统计方法可细分为回归分析、判别分析、 聚类分析、探索性分析等。机器学习方法可细分为决策树、规则归纳、 基于范例学习、遗传算法等。神经网络方法可细分为b p 算法、自组织神 经网络等。数据库方法主要是多维数据分析或o l a p 方法,还有面向属性 的归纳方法。由于每一种数据挖掘技术都有其自身的特点和实现步骤, 对数据的形势有具体要求,并且与具体的应用问题密切相关,因此成功 的应用数据挖掘技术以达到目标的过程本身就是一件复杂的事情。 数据挖掘的任务是从数据中发现模式。根据挖掘任务,数据挖掘技 术可以分为概念描述、聚类分析、关联规则分析、分类分析、回归分析、 序列模式分析等“”。在选择用某种数据挖掘技术前,首先要将待解决的 商业问题转化成正确的数据挖掘任务,然后根据数据挖掘任务来选择具 4 中国石油大学( 华东) 硕士论文第2 章数据挖掘的理论及其技术 体使用哪一种或几种数据挖掘技术。下面具体介绍每一种挖掘任务应使 用哪些挖掘技术。 ( 1 ) 概念描述 描述是数据挖掘的最基本形式,它以简洁汇总的形式描述给定任务 的相关数据集,提供数据的一般特性。进行概念描述挖掘时一般采用面 向数据库的方法,还可采用机器学习方法的基于范例学习技术。概念描 述由特征化和比较组成。数据特征化是目标类数据的一般特征的汇总, 通常用户指定的数据通过数据库查询收集。例如,为研究上一年销售增 加1 0 n , 6 的产品的特征,可以通过执行一个s q l 查询收集有关这些产品的 数据。概念的特征化一般有两种方法:基于数据立方体o l a p 的方法和面 向属性归纳的方法,两者都是基于属性或维的概化方法。数据特征的输 出可以用多种形式,包括饼图、条图、曲线、多维数据立方体和多维表。 数据比较是将目标类对象的一般特征与一个或多个对比类对象的一般特 征比较。例如,将上一年销售增加1 0 的产品与同一时期至少下降3 0 5 的产品进行比较。用于数据比较和用于数据特征化的方法类似。 比如,运用概念描述可以发现不同的扶贫方式( 如小额贷款、救济金、 转移支付、慈善救济及其它扶贫方式) 的有效性是由不同的贫困对象和 弱势群体的特征决定的,因此。只有根据不同弱势群体的特征选择适宜 的扶贫方式才能真正实现扶贫的目标。再如,我们想知道来自不同学历 背景( 以研究生和本科生为例) 的公务员在政府工作中的表现。可以给定 如下属性指标及数值( 这些数值可通过调查统计获得,也可以是从现有的 公务员履历档案数据库中直接得到) :性别、年龄,职务、籍贯、工作部 门、工作年限、受到表彰的次数与等级、受到处分的次数与层度、有无 违法记录、违法的次数及其严重性、因不履行职责或类似行为而被公民 举报的次数、发表工作论文或学术论文的篇数。一般情况下,我们很难 辨别哪些属性是描述对象( 如研究生) 的特征,因为存在许多属性及其数 值很可能与我们所期望的结果是无关的,并且如果采用其它方法耗时费 力又难以实现。这时,采用概念描述进行挖掘任务可以表示如下:将 所有有关属性的数据库和数据仓库连接起来并将挖掘任务转换成两个关 5 中国石油大学( 华东) 硕士论文第2 章数据挖掘的理论及其技术 系查询,一个是初始目标类工作关系( 研究生) ,另一个是初始对比关系 ( 本科生) ;对上述两个数据类进行相关分析,将不相关或弱相关的从 结果中删去( 如该例中的性别、年龄、职务、工作年限、受到表彰的次数 与等级、受到处分的次数与层度等属性可能是不相关的) ,只留下那些强 相关的项以供进一步分析( 如本例中工作部门、因不履行职责或类似行为 而被公民举报的次数、发表工作论文和学术论文的篇数可能是强相关 的) :同步概念化,在目标类上的概念化是将类属特征概念化到用户或 专家指定的维阀值控制的层,产生主目标类关系,同时将对比类概念概 化到与主目标类关系相同的层次,产生主对比类关系;以图、表等可 视化和( 或) 规则的形式表示出结果类比较描述,例如本例挖掘结果可能 会发现,研究生毕业的公务员发表的文章可能以学术性为主,但被公民 举报的次数较多 ( 木号表示存在疑问的挖掘结果) :而本科生毕业的公务 员发表的工作论文少于研究生毕业的公务员,但差距不大。有趣的是他 们被公民( 顾客) 举报的次数却比研究生毕业的要少得多 。你可能难以接 受被 号标记的挖掘结果,但经过二次挖掘( 这要用到挖掘技术的关联分 析方法) ,我们可能发现这是由于理性思维更加发达和对清净的偏好导致 研究生毕业的公务员不适宜做窗口服务部门的工作。 ( 2 ) 聚类分析 , 聚类是把整个数据库分成不同的群组,目的是要群与群之间差别很 明显,而同一个群之间的数据尽量相似。聚类通常作为数据挖掘或建模 过程的第一步,例如,聚类可以作为市场划分的第一步,对于“顾客们 喜欢什么样的促销方式”这一问题,不应简单的采取单一方法,而需要 先按照顾客的购买习惯进行聚类,并且用购买模式来刻画不同客户群的 特征,然后分别调查了解每一类顾客群最喜欢的促销方式。与分类不同, 在开始聚类之前你不知道要把数据分成几组,也不知道怎么分,因此在 聚类之后要有一个对业务很熟的人来解释分群的意义。多数情况下,一 次聚类得到的分群对业务来说可能不好,这就需要删除或增加变量以影 响分群的方式,经过几次反复才能得到一个理想的结果。聚类能帮助市 场分析人员从客户基本库中发现不同的客户群,刻画不同的客户群的特 6 中国石油大学( 华东) 硕士论文第2 章数据挖掘的理论及其技术 征。聚类分析主要有两种:统计方法和神经网络方法,而自组织神经网 络方法和k 一均值是比较常用的,但也不同程度地存在一些局限性及适用 性问题。相比之下,模糊聚类分析方法具有其它方法所不具备的独特适 用性,比i r 平均算法、k 一中心点算法的计算量小,计算效率高。 同时还可以根据不同的要求进行动态聚类,提高聚类的灵活性。针对客 户数据挖掘的需要,本文专门设计了如下客户数据识别的模糊聚类算法, 对企业的客户进行聚类分析。 建立客户原始数据矩阵。 设数据集为u = ( y l ,y 2 ,y 。) ,其中y i 为由m 个属性的被分类对 象:y i = y i l ,y i m 。其中i = l ,2 ,3 ,n 这样,可以 得到如下原始数据矩阵: y l ly 1 2 y h y j ly 2 a y i y ny = a y m 将客户原始数据标准化 由于客户数据的量纲不同,因此,根据模糊矩阵的要求进行标准化 处理,通过以下变换来实现。 平移标准差变换:y ,难= 2 1 1 竽( i :1 ,2 ,n ;k = 1 ,2 , s k m ,其中v 。= 吾1 罢n ;,恤,s x = 踞 平移极差变换: y ”难= ;乏:y :i j * i - :m i 二i n ;丽 y ( 1 i n ) ( k = 1 ,2 ,m ) 此时,o 、 y ,即 a l a a m = b l 八八b n 的规则,其中a i ( i 1 ,m ) ) ,b i ( j 1 , n ) 是属性一值对,关联规则x : y 的涵义是“满足x 条件的数据库元组多 半满足y 的条件”。最典型的例子就是“在购买面包和黄油的顾客中,有 9 0 的人也同时买了牛奶”( x + y ,y 在事务集d 上的支持度s u p p o r t ( x u y ) = s 。可信度为c ,如果c = s u p p o r t ( x u y ) * 1 0 0 s u p p o r t ( x ) ,则说明d 中 包含x 的事务中有c 的事务同时也包含了y ) 。可信度说明了蕴含的强度, 而支持度说明了规则中所出现模式的频率。具有高可信度和强支持度的 规则称为“强规则”。关联分析任务的本质是要在数据库中发现强关联规 8 中国石油大学( 华东) 硕士论文第2 章数据挖掘的理论及其技木 则,利用这些关联规则可以了解客户的行为,帮助商家确定顾客在超市 中同时购买了哪些商品,改进商品的摆放,规划市场( 互相搭配进货) 等,这些对改进零售业等商业活动的决策很有帮助。在数据挖掘研究领 域,对于关联分析的研究比较深入,常用的关联挖掘算法有a p r i o r i 算 法和基于改进的a p r i o r i 算法( 利用h a s h 技术,划分数据法,采样技 术法等) 。 运用关联规则还可以挖掘判断政府政策是否有效。比如,假定在官 员收入与社会平均收入间保持合理的差距能够满足官员的欲望而使他们 不再贪污腐败,那么理论上可以用下面的形式表现:官员月收入与社会 平均月收入间的差距的数据库( x ,“8 0 0 2 0 0 0 ”) 腐败官员数据库( x , “存在腐败机会”) = 产生( x ,“腐败行为”) s u p p o r t = 1 0 , c o n f i d e n c e = 4 0 。这说明1 0 9 6 的官员在上述两个条件( 收入高出社会 平均收入且有腐败机会) 下会产生腐败行为,这类收入的官员腐败的可能 性是( 置信度或可信度) 4 0 。可见,高薪养廉有一定的道理,但并不总 是有效。再如,利用空间关联挖掘来解决公园或城市绿化广场选址问题。 某市要建一个公园,当给定一个约束条件( 必须靠近某一个居民区) 时, 但不知道另一个选择是靠近另一个大学还是区政府。此时可以用空间关 联挖掘:i s a ( x ,。公园”) a c o s e t o ( x ,“居民区”) : c l o s e t o ( x ,“行政办公区”) s u p p o r t = 7 0 ,c o n f i d e n c e = 6 0 ; i s a ( x ,“公园”) 八c l o s e t o ( x ,“居民区”) = c l o s e t o ( x , “大学”) s u p p o r t = 8 0 ,c o n f i d e n c e = 5 5 。比较发现,尽管 比的置信度低5 ,但它的支持度却高达8 0 ,因此把公园选在大学附 近的效益更大。 ( 4 ) 分类分析 分类要解决的问题是为一个事件或对象归类。分类工作的特点是先 对不同类别加以定义,并由预先分类的样本构成训练集,为每个类别做 出准确的描述或建立分析模型或挖掘出分类规则,对其他数据库中的数 9 中国石油大学( 华东) 硕士论文第2 章数据挖掘的理论及其技术 据进行分类。例如我们要进行商店定位,按成功商店、一般商店和失败 的商店排列出这三类商店各自的属性,然后选择包含位置属性的地理数 据库,分析每一个预期商店的位置属性,以确定预期的商店定位属于哪 一类。只有那些符合成功一类要求的商店位置才作为商店定位的候选。 用于分类分析的技术有很多,典型的方法有统计方法的贝叶斯分类、机 器学习的判定树归纳分类、神经网络的后向传播分类等”。还有一些其 他分类方法,包括k 一最临近分类、遗传算法、粗造集和模糊集方法。最 近,数据挖掘技术也将关联规则用于分类问题,比如引入模糊逻辑,它 允许定义模糊“边界”或阀值,它使用0 0 和1 0 问的真值表示一个特 定的值( 给定类成员的程度) ,而不是以类或集合精确的截断,这为高层 抽象处理带来了方便,但尚未发现有一种方法对所有的数据都优于其他 方法。 ( 5 ) 回归分析 回归是通过具有已知值的变量来预测其他变量的值。它与分类类似, 差别在于前者的预测值是连续的,而后者是离散的。在最简单的情况下, 回归采用的是象线性回归这样的标准统计技术。但大多数现实世界中的 问题是不能用简单的线性回归所能预测的。如商品的销售量、股票价格、 产品合格率、利润大小等,很难找到简单有效的方法来预测,因为要描 述这些事件的变化所需的变量成百上千,而且这些变量本身往往是非线 性的。为此,人们又发明了许多新的手段试图解决这个问题,如逻辑回 归、决策树、神经网络等。 ( 6 ) 序列模式分析 序列模式分析描述的问题是:在给定交易序列数据库中,每个序列 是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列 数据库上,返回该数据库中出现的高频序列。在进行序列模式分析时, 需要用户输入最小置信度c 和最小支持度s 。另外序列关联规则挖掘中采 用的a p r i o r i 特性可以用于序列模式的瓦解,另一类挖掘此类模式的方法 是基于数据库投影的序列模式生长技术。虽然序列模式分析和关联分析 类似,其目的也是为了挖掘数据之间的联系,但序列模式分析的侧重点 1 0 中国石油大学( 华东) 硕士论文 第2 章数据挖掘的理论及其技术 在于分析数据间的前后序列关系。我们以周期分析为例,它是对周期模 式的挖掘,它通过在时序数据库中寻找重复出现的模式从而发现规律。 它可以挖掘全周期模式,如一年中每一天都对该年的季节循环起作用: 也可以挖掘部分周期,如哈雷彗星的出现、潮汐的规律;还可以挖掘循 环或周期关联规则,如基于管理需要,若会计年度从1 月1 日到1 2 月3 1 日, 则全国宏观调控会议与发展计划会议最好在1 月到2 月召开。 总之,在选择种数据挖掘技术时,我们应根据商业问题的特点来 决定采用哪种挖掘。应选择符合数据模型的算法,确定合适的模型和参 数。只有选择好正确的数据挖掘技术和工具,才能发挥数据挖掘的作用, 使企业在激烈的市场竞争中做出正确决策,保持有力的竞争优势。 2 3 数据挖掘的研究现状及其不足 自1 9 8 9 年举行的第十一届国际联合人工智能学术会议以来,由美国 人工智能协会主办的k d d 国际研讨会已经召开了8 次,规模由原来的专题 讨论会发展到国际学术大会,研究重点也逐渐从发现方法转向系统应用, 注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。i e e e 的k n o w l e d g ea n dd a t ae n g i n e e r i n g 会刊率先在1 9 9 3 年出版了k d d 技术专 刊。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也 把数据挖掘和知识发现列为专题和专刊讨论,甚至到了脍炙人口的程度。 与国外相比,国内对d m 的研究稍晚,没有形成整体力量。1 9 9 3 年国家自 然科学基金首次支持我们对该领域的研究项目。目前,国内的许多科研 单位和高等院校竞相开展知识发现的基础理论及其应用研究。其中,北 京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研 究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦 大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位 开展了对关联规则开采算法的优化和改造,南京大学、上海交通大学等 单位探讨、研究了非结构化数据的知识发现以及w e b 数据挖掘。 如今,d m 工具和软件也在各企事业单位及国防科研上得到很好的应 用,并收到明显的效益1 。比如:在银行信用卡和保险行业,预测存贷 中国石油大学( 华东) 硕士论文第2 章数据挖掘的理论及其技术 款趋势,优化存贷款策略:在过程控制质量监督保证方面,协助质量工 程师很快地注意到问题发生的范围和采取改正的措施。数据挖掘应用最 成功的当推市场营销领域,特别是数据库市场营销。在这个领域,数据 挖掘即可以应用于利润方程中的成本项目,也可以应用于收入项目。在 数据库数据挖掘中,数据库搜集的是市场推销过程中争取更多目标客户 的数据。数据挖掘可以节省市场营销的费用,减少推销电话和信函的数 量。在收入方面,数据挖掘被用来发现最有价值的潜在客户。在客户关 系管理中,数据挖掘也正起着导向的作用。d m 能找出产品使用模式或协 助了解客户行为,从而可以改进通道管理( 如a t m ) 。 数据挖掘的这些应用软件有很多相似之处,但数据挖掘作为有目的 活动,每一种软件又都有它们特殊的功能。而且,企业集团彼此之间各 不相同,即使在一个独立的集团内部,各家分公司也都有各自的决策方 案和独特的经营风格,当企业的实际需要和数据挖掘软件对企业的假定 需求符合的比较好,就会令企业满意,否则,就会令企业失望。就像自 动相机一样,软件所能自动实现的仅仅是数据挖掘任务中的一小部分, 拍摄的一刹那相当于对数据集建模的开始到完成的一瞬,实际的建模仅 仅是循环往复的数据挖掘过程中的各个阶段中的一个阶段。对建模前的 准备和建模后的处理,它都无所作为。因此,目前的数据挖掘技术还存 在很多不足。 ( 1 ) 数据挖掘无法从商业的角度定义业务问题。 定义业务问题是成功数据挖掘过程中最有技巧的一个阶段,它需要 对问题进行不断地交流,以得到对问题的正确理解。项目小组在分析数 据的时候必须考虑到企业的需求,而即使是最先进的算法也不能判断出 哪些问题是重要的。 ( 2 ) 数据挖掘无法找到隐含的解决企业问题的有用信息。 一个企业实现数据挖掘的前提和基础是拥有大量、真实的数据积累。 基础数据是企业宝贵的财富,没有数据积累,数据挖掘将无用武之地。 而识别数据的质量,搜集初始数据并存入数据仓库是需要不同领域的人 共同努力的,同时也需要知识管理的支持。 1 2 中国石油大学( 华东) 硕士论文 第2 章数据挖掘的理论及其技术 ( 3 ) 由于数据挖掘技术的局限性,有些有用信息不能更好地适合数 据挖掘工具的建模要求。 建模数据集是用于建立数据挖掘模型的数据,通过数据清理、数据 转换以及添加衍生变量使数据更适合建立模型。通过联机分析处理系统 就可以生成这类衍生变量,从这一角度看,数据挖掘在很多方面要和联 机分析处理系统协同。面对数据进行精加工并提升数据,也需要大量的 准备工作和隐性知识的支持。 ( 4 ) 数据挖掘无法根据模型定制符合市场需求的行动计划并实施。 模型完成后,我们应该将模型产生的结果赋之以行动,而可以赋之 以行动的结果又有不同的表现方式。比如:在建模的过程中,我们可能 已经从数据中产生出新的知识,这将使我们更深入地了解商业活动和我 们的客户,这些新的知识还需要不断地沟通,需要我们的隐性知识发挥 作用。 1 3 中国石油大学( 华东) 硕士论文第3 章知识管理概述 第3 章知识管理概述 3 1 知识管理的产生 知识管理的产生是由管理自身发展与其他环境因素发展变化决定。 随着时代的巨变,传统的管理思想正在发生着翻天覆地的变化。无论是 公司的技术创新还是管理创新,无论是全面质量管理还是财务控制系统, 无论是业务流程重组还是企业外包,或者单靠出色的管理资产和负债比 例,公司已不能获得持久的竞争优势。一种全新的管理思想,即知识管 理应运而生,并被管理界称为第五代管理。 3 1 1 知识管理的产生背景 最早对知识管理进行研究和探讨的是一些发达国家的经济学家和管 理学家。许多经济学的先驱都强调过知识作为现实的生产力对经济发展 的巨大作用。2 0 世纪后,熊彼特等经济学家强调生产技术、企业创新对 经济增长的重大意义。6 0 年代,美国经济学家弗里兹马克卢善提出了 “知识产业”的概念,对它进行分类,指出它的重要作用。到了8 0 年代 以后,新增长理论中明确把知识作为生产要素引入增长模型,将知识作 为经济系统的内生变量,强调依靠技术、知识和人力资本的作用推动经 济的持续发展。而在管理学界,彼得德鲁克在6 0 年代就提出了知识工 作等名词,7 0 年代末,汤姆彼得斯在麦肯锡咨询公司所做的组织效率 研究得出:过去强调的策略、结构等达成效率的因素,在组织中己超过 最高效率点,报酬开始递减。环境的巨变给传统体制的组织带来了新的 要求,许多领域都被新经济所激发,而管理知识的所得是非常可观的, 部分是因为报酬递增的现象,部分是因为新的信息技术,还有部分是因 为智慧财产角色的改变。8 0 年代中期,学习与知识已经成为最现代、最 流行的字眼。知识管理”一词,最初来自彼得德鲁克的一句话“知识 工人是组成新经济体的个体,在这种新经济中硬通货是知识,而知识的 经济化过程是需要管理的”。1 9 8 6 年知识管理( k n o w l e d g em a n a g e m e n t ) 概念首先在联合国国际劳工大会上提出,随后十几年,知识管理的理论 1 4 中国石油大学( 华东) 硕士论文第3 章知识管理概述 和实践飞速发展。2 0 0 1 年被确认为知识管理年。有关知识管理的说法, 从不同的定义出发,有不同的理解,但其实质是不变的。在众多定义中, 有一种观点被引用最多,得到人们的广泛认可,因为它比较完整地概括 了知识管理的必要性、目的、内容和手段,揭示了知识管理的实质。这 种观点认为,知识管理是企业面对日益增长的非连续性的环境变化时, 针对组织的适应性、生存和竞争能力等重要方面的一种迎合性措施。本 质上,它包含了组织的发展过程,并寻求将信息技术所提供的对数据和 信息的处理能力以及人的发明创造能力这两方面进行有机的结合。 知识管理是指以系统的方法发现、选择、组织、摘取信息,并向需 要知识的人传递有用的信息。知识管理的基本活动包括对知识的识别、 获取、开发、分解、使用和存储。显而易见,知识管理不是传统的信息 管理,其重点不是对技术和信息的开发,而是提高个人创新和集体的创 造力;知识管理也不是一门技术,而是各种可行解决办法的一种综合, 是通过知识共享、集体智慧的运用来提高应变和创新能力。知识管理理 论思想涵盖了管理学、信息学、经济学及其他一切与之有关的学科的力 量成分,并且在吸收、容纳、整理和升华了上述有关理论成分的基础上 形成相对独立的理论体系。知识管理不仅是一种新的管理模式,而且是 影响全局的一种全新的管理思想,是一种提高人的行为能力的思维方式。 随着现代技术与经济的迅速发展,知识管理必将广泛存在于社会经济活 动中,对社会活动将产生巨大的影响。 3 1 2 知识管理的技术性 2 0 0 2 年1 月1 5 日,美国知识管理删国家标准颁布并实施,标志着 知识管理的发展进入了一个更加务实,注重操作的新阶段。知识管理作 为一种思想,自觉地被人们利用。人们挖掘知识、创造知识、生产知识, 用知识为自己的产品赋予高附加值。自1 9 9 6 年经济合作与发展组织明确 提出“以知识为基础的经济”后,知识经济逐渐成为替代现行的工业经 济发展模式,在未来全球经济发展中占主导地位的一种新的经济形态。 然而,目前我国经济发展还处于工业化过程中。企业的要素投入仍以劳 动和资本要素为主,技术创新和管理创新的步伐也很慢,企业对信息的 1s 中国石油大学( 华东) 硕士论文第3 章知识管理概述 利用还没有引起足够的重视,企业的管理仍以传统的方式进行,企业的 全球化战略也没有树立起来。当然,很多大型企业,高科技企业已经意 识到这个问题,并认识到知识管理的重要性,开始向知识型企业转变。 由于每个企业实现知识管理的目标、战略都不一样,企业的核心竞争力 也有所差异。所以,企业应该为自己规划一个切合实际的知识管理解决 方案。在这个阶段,知识管理不是概念化的,而是技术性的。 所谓技术性的,并不是说可以把知识管理看作一个i t 项目,而是信 息技术与管理思想、管理制度、管理方式、企业文化紧密的结合体。萨 维奇博士在第五代管理一书中,结合计算机的五个发展阶段把管理 的发展也划分为五个阶段工业时代初期以所有制为核心的第一代管 理,严格等级制度的第二代管理,矩阵型组织的第三代管理,以计算机 网络化为特征的第四代管理,以及这里所定义的“知识网络化”的第五 代管理。然而,我们的管理并没有完全达到矩阵型组织的第三代管理和 以计算机网络为特征的第四代管理。联系现在,2 0 世纪9 0 年代掀起的 以。业务流程重组”为核心的管理革命增加了“知识资源重组”的内涵; e r p 向k r m 发展;“接触管理”和“客户服务”已发展为c r m 的模式。正 如萨维奇博士所说的:“我们是不是正在忙于把第三代、第四代、第五代 计算机技术塞进第二代组织形式严格的等级体系之中”。我们企图通 过引进先进的计算机和网络的技术来突破工业时代组织的局限是行不通 的,因为我们低估了组织的复杂性,计算机化、自动化的努力将现存管 理、操作中的矛盾、混乱、不一致也同时计算机化了。 因此,把知识管理和网络技术相结合来研究数据挖掘,使管理更有 序、更有效率,也使知识网络化管理更有意义,这恰是知识管理的目的, 也是能够实现的。正如库伯所说:“正是由于信息与人类认知能力的结合 才导致了知识的产生

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论