(计算机软件与理论专业论文)数据挖掘在人力资源管理中的应用.pdf_第1页
(计算机软件与理论专业论文)数据挖掘在人力资源管理中的应用.pdf_第2页
(计算机软件与理论专业论文)数据挖掘在人力资源管理中的应用.pdf_第3页
(计算机软件与理论专业论文)数据挖掘在人力资源管理中的应用.pdf_第4页
(计算机软件与理论专业论文)数据挖掘在人力资源管理中的应用.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机软件与理论专业论文)数据挖掘在人力资源管理中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 数据挖掘是一种新兴的信息处理技术,在信息的利用和提取中发挥 着日益重要的作用。论文从数据挖掘的概念和本质出发,详细阐述了数 据挖掘的各种技术方法,深入分析了数据挖掘技术的应用领域,并对数 据挖掘应用中的主要问题进行了探讨。 本文从现代企业管理决策的需求出发,介绍企业决策支持系统的发 展;以人员选拔和绩效考核为例阐述了人力资源决策方面对策及方法; 目的是使企业建立广泛的竞争优势,人力资源管理质量得到显著提升, 以适应现代人力资源管理的需要。 本文力图利用计算机的优势帮助人们及时、准确地得到预测结果。 从而作出正确的判断;并以两个演示程序为例进行实验,效果良好。 关键词:数据挖掘人力资源管理决策支持 d a t am i n i n gi sap r o m i s i n gn e w t e c h n o l o g y t ot r a n s a c ti n f o r m a t i o n ,a n d b e c o m i n ga ni n c r e a s i n gr o l ei nu t i l i z i n ga n de x t r a c t i n gk n o w l e d g e t h i s p a 口e rf k s t i yd e s c r i b e st h ec o n c e p t i o na n dt h ee s s e n c eo fd a t am i n i n g ,a n d t h e nd e c p l yd i s c u s s e st h ec h a r a c t e r i s t i c so fi t sm e t i t o d s t h ea p p l i c a t i o n d o m a i n so fd a t am i n i n ga r ew i d e l ya n a l y z e d a tl a s t ,t h em o s t l yi s s u e si ni t s a p p l i c a t i o na l er e v i e w e d b a s e do nt h en e e d so fm o d e me n t e r p r i s em a n a g e m e n t ,t h i sp a p e rh a s d i s c u s s e dt h ed e v e l o p m e n ta n ds t r u c t u r eo fe n t e r p r i s ed e c i s i o ns u p p o r t s y s t e m ;w i t ht h ep e r s o n n e ls e i e c t e dt oi n v e s t i g a t ew i t hr e s u l t st oe i a b o r a t e t h eh u m a nr e s o u r t :cd e c i s i o n a s p e c tc o u n t e r p l a nf o rt h es t r a t e g y a n d m e t h o d ;t h ep u r p o s ei s t om a k et h eb u s i n e s s e n t e r p r i s e b u i l du pt h e e x t e n s i v ec o m p e t i t i v ea d v a n t a g e ,q u a l i t yo ft h em a n a g c m e n to fh u m a n r e s o u r c e i si m p r o v e do b v i o u s l y , a d a p tt ot h ed e m a n do ft h em o d e mh u m a n r e s o u r c em a n a g e m e n t i nt h i sp a p e r , i 仃yt oh e l pp e o p i ea c c u r a t e l yg e r i n ge s t i m a t er e s u l t , m a k i n gc o r r e c td e c i s i o n ;c o m b i n et ot a k et w op l a yp r o c e d u r ea sa ne x a m p l e s t a r te x p e r i m e n t ,t h er e s u l ti sg o o d k e yw o r d s :d a t am i n i n g h u m a nr e s o u r c em a n a g e m e n td e c i s i o n s u p p o r ts y s t e m 长春理工大学硕士学位论文原创性声明 本人郑重声明:所呈交的硕士学位论文,数据挖掘 在人力资源管理中的应用是本人在指导教师的指导下, 独立进行研究工作所取得的成果除文中已经注明引用的 内容外,本论文不包含任何其他个人或集体已经发表或撰 写过的作品成果。对本文的研究做出重要贡献的个人和集 体,均已在文中以明确方式标明本人完全意识到本声明 的法律结果由本人承担 作者签名:鲻迫磷且望日 长春理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“长春理工大学 硕士、博士学位论文版权使用规定”,同意长春理工大学 保留并向国家有关部门或机构送交学位论文的复印件和 电子版,允许论文被查阅和借阅本人授权长春理工大学 可以将本学位论文的全部或部分内容编入有关数据库进 行检索,也可采用影印、缩印或扫描等复制手段保存和汇 编学位论文。 、 作者签名:越幽年厶堑日 指导导师签名: 匾垒望) 丝序互月幽 1 1 引言 第一章绪论 近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高。 千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等。 这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称 之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题1 1 6 1 。如何 才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息 利用率呢? 要想使数据真正成为一个公司的资源,只有充分利用它为公 司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包 袱,甚至成为垃圾。因此,面对人们被数据淹没,人们却饥饿于知识的 挑战,数据挖掘和知识发现( d m k d ) 技术应运而生,并得以蓬勃发展,越 来越显示出其强大的生命力。 数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起 初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库 进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库 技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍 历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。 1 2 国内外研究现状 目前,国外数据挖掘的发展趋势其研究方面主要有:对知识发现方 法的研究进一步发展,如近年来注重对b a y e s ( 贝叶斯) 方法以及 b o o s t i n g 方法的研究和提高;传统的统计学回归法在数据挖掘中的应 用;数据挖掘与数据库的紧密结创1 6 1 。在应用方面包括:数据挖掘商业 软件工具不断产生和完善,注重建立解决问题的整体系统,而不是孤立 的过程 1 6 1 。用户主要集中在大型银行、保险公司、电信公司和销售业。 国外很多计算机公司非常重视数据挖掘的开发应用,i b m 和微软都成立 了相应的研究中心进行这方面的工作,此外,一些公司的相关软件也开 始在国内销售,如p l a t i n u m 、b o 以及i b m 。 国内从事数据挖掘研究的人员主要在大学,也有部分在研究所或公 司。所涉及的研究领域很多,一般集中于学习算法的研究、数据挖掘的 实际应用以及有关数据挖掘理论方面的研究【1 7 1 。目前进行的大多数研究 项目是由政府资助进行的,如国家自然科学基金、8 6 3 计划、“九五” 计划等。 一份最近的g a r t n e r 报告中列举了在今后3 5 年内对工业将产生 重要影响的五项关键技术,其中数据挖掘和人工智能排名第一。同时, 这份报告将并行计算机体系结构研究和数据挖掘列入今后5 年内公司 应该投资的1 0 个新技术领域1 1 s 1 。 可以看出,数据挖掘的研究和应用受到了学术界和实业界越来越多 的重视。进行数据挖掘的开发并不需要太多的积累,国内软件厂家如果 进入该领域,将处于和国外公司实力相差不很多的起跑线上,并且,现 在关于数据挖掘的一些研究成果可以在i n t e r n e t 上免费获取,这更是 一个可以利用的条件。我们希望数据挖掘能够引起国内实业界更多的重 视,同时也希望能够有更多的国内软件厂商进入该领域,一起促进数据 挖掘技术在中国的应用。 当前,数据挖掘研究正方兴未艾,预计在2 1 世纪还会形成更大的 高潮,研究焦点可能会集中到以下几个方面;研究专门用于知识发现的 数据挖掘语言,也许会像s o l 语言一样走向形式化和标准化;寻求数据 挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便 于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术, 特别是在i n t e r n e t 上建立知识发现服务器,与数据库服务器配合,实现 数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数 据、多媒体数据l l “。但是,无论怎样,需求牵引,市场驱动是永恒的, 数据挖掘将首先满足信息时代用户的急需,大量基于数据挖掘的决策支 持软件工具产品将会问世1 w 。 1 3 研究的目的和主要内容 作为一篇硕士毕业论文,笔者在收集和整理大量的相关资料,弄清 相关的理论、方法、算法等基础上,集中选取了下面几个问题开展相关 工作: ( 1 ) 数据挖掘技术的理论探索:数据挖掘作为一个只有十几年研究 历史的较新研究领域,许多概念和技术是逐步发展起来的。因此,本文 先系统地介绍相关的概念和技术,并力求从不同视点和流派来阐述数据 挖掘的重要概念、发展和应用情况。 2 ( 2 ) 数据挖掘算法研究:如前所述,数据挖掘已经建立了许多独具 特色的挖掘理论体系,但是不论是从应用范围、有效性以及适应性等方 面仍需新的挖掘算法的探索。笔者在充分了解基本概念和主要技术发展 状况的前提下,有选择地进行了重点研究。研究的算法包括:模糊数据 挖掘算法、层次分析法和灰色聚类分析法、多目标最优化算法等。 ( 3 ) 数据挖掘技术在实际中的应用:数据挖掘技术从一开始就是面 向应用的,因此,本文以人力资源管理为例,将上述提到的三种算法应 用到人力资源管理的绩效考核和人员选拔中;同时,设计了两个演示程 序作为实验参考。 1 4 本章小结 本章介绍了数据挖掘研究现状、论文的选题依据、研究背景以及笔 者的主要研究内容等。经过十几年的研究和实践,数据挖掘技术已经融 合了许多学科的最新研究成果而形成独具特色的研究分支。数据挖掘的 研究内容是极其丰富的,笔者在充分了解基本概念和主要技术发展状况 的前提下,有选择地进行了重点研究。这些研究包括数据挖掘理论探索, 模糊数据挖掘理论算法、层次分析法和灰色聚类分析法、多目标最优化 算法的研究,并以人力资源管理为例,详细阐述了数据挖掘技术在实际 中的应用。 3 第二章数据挖掘技术 数据挖掘作为一个只有十几年研究历史的较新研究领域,许多概念 和技术是逐步发展起来的。因此,本章将系统地介绍相关的概念和技术, 并力求从不同视点和流派来阐述数据挖掘的重要概念,发展和应用情 况。 2 1 数据挖掘技术的产生背景 2 1 1 数据挖掘技术的商业需求分析 数据挖掘之所以吸引专家学者的研究兴趣和引起商业厂家的广泛 关注,主要在于大型数据系统的广泛使用和把数据转换成有用知识的迫 切需要【”j 。进入9 0 年代,分布式数据库理论上趋于成熟,分布式数据 库技术得到了广泛应用。目前,由于各种新型技术与数据库技术的有机 结合,使数据库领域中的新内容、新应用、新技术层出不穷,形成了庞 大的数据库家族。应该承认,数据库是目前组织和存储数据的最有效方 法之一1 1 9 j ,但是面对日益膨胀的数据,数据库查询技术已表现出它的局 限性。面对计算机中的海量的数据,人们也处于同样的尴尬境地,缺乏 获取有效信息的手段。因此,随着数据的膨胀和技术环境的进步,人们 对联机决策和分析等高级信息处理的要求越来越迫切。在强大的商业需 求的驱动下,商家们开始注意到有效地解决大容量数据的利用问题具有 巨大的商机;学者们开始思考如何从大容量数据集中获取有用信息和知 识的方法。因此,在二十世纪八十年代后期,产生了数据仓库和数据挖 掘等信息处理思想。 2 1 2 数据挖掘产生的技术背景分析 任何技术的产生总是有它的技术背景的。数据挖掘技术的提出和 普遍接受是由于计算机及其相关技术的发展为其提供了研究和应用的 技术基础。 归纳数据挖掘产生的技术背景,下面一些相关技术的发展起到了 4 决定性的作用: ( 1 ) 数据库、数据仓库和i n t e r n e t 等信息技术的发展:这些丰富 多彩的数据存储、管理以及访问技术的发展,为数据挖掘技术的研究和 应用提供了丰富的土壤。 ( 2 ) 计算机性能的提高和先进的体系结构的发展:计算机芯片技术 的飞速发展,并行处理技术已经逐渐成熟和普遍应用,是支持大型数据 处理应用的基础。这些都使数据挖掘技术的研究和应用成为可能。 ( 3 ) 统计学和人工智能等方法在数据分析中的研究和应用:历经了 十几年的发展,包括基于统计学、人工智能等在内的理论与技术性成果 已经被成功地应用到商业处理和分析中。这些应用从某种程度上为数据 挖掘技术的提出和发展起到了极大地推动作用。从某种意义讲,这些理 论本身发展和应用为数据挖掘提供了有价值的理论和应用积累。 2 2 数据挖掘概念 数据挖掘从本质上说是一种新的商业信息处理技术。数据挖掘技术 把人们对数据的应用,从低层次的联机查询操作,提高到决策支持、分 析预测等更高级应用上。它通过对这些数据进行微观、中观乃至宏观的 统计、分析、综合和推理,发现数据间的关联性、未来趋势以及一般性 的概括知识等,这些知识性的信息可以用来指导高级商务活动。 2 2 1 商业角度的定义 从商业角度看,数据挖掘就是按企业的既定业务目标,对大量的 企业数据进行深层次分析以揭示隐藏的、未知的规律性并将其模型化, 从而支持商业决策活动。数据挖掘有别于机器学习等其它研究领域,从 它的提出之日起就具有很强的商业应用目的。同时,数据挖掘技术只有 面向特定的商业领域才有应用价值。数据挖掘发现的知识都是相对的, 并且对特定的商业行为才有指导意义。 2 2 2 技术上的定义及含义 谈到数据挖掘,不得不提到数据库中的知识发现( k n o w l e d g e d i s c o v e r yi nd a t a b a s e s ) 。我们可以通过分析知识发现与数据挖掘的 关系来了解数据挖掘的技术含义。 ( 1 ) 知识发现看成数据挖掘的一个特例:既然数据挖掘系统可以在 5 关系数据库、事务数据库、数据仓库、空间数据库( s p a t i a ld a t a b a s e ) 、 文本数据( t e x td a t a ) 以及诸如w e b 等多种数据组织形式中挖掘知识, 那么数据库中的知识发现只是数据挖掘的一个方面。这是早期比较流行 的观点,在许多文献可以看到这种说法i 驯。因此,从这个意义说,数据 挖掘就是从数据库、数据仓库以及其它数据存储方式中挖掘有用知识的 过程。这种描述强调了数据挖掘在源数据形式上的多样性。 ( 2 ) 数据挖掘是知识发现过程的一个步骤:许多学者建议对这两个 名词加以区分i 驯,持这种观点的学者认为,知识发现是从数据库中发现 知识的全部过程,而数据挖掘则是此全部过程的一个特定的、关键步骤。 从这种狭义的观点上,我们可以定义数据挖掘是从特定形式的数据集中 提炼知识的过程。目前,人们在数据挖掘算法的研究上,基本属于这样 的范畴。数据到知识的演化过程描述如图2 1 所示。 崩圄国蛔蝤 图2 1 数据到知识的演化过程示意描述 ( 3 ) 知识发现与数据挖掘含义相同:有些人认为,知识发现与数据 挖掘只是叫法不一样,它们的含义基本相同。事实上,在现今的文献中, 许多场合,如技术综述等,这两个术语仍然不加区分地使用着。也有人 说,知识发现在人工智能界更流行;数据挖掘在数据库界使用更多。所 以,从广义的观点,数据挖掘是从大型数据集( 可能是不完全的、有噪 声的、不确定性的、各种存储形式的) 中,挖掘隐含在其中的、人们事 先不知道的、对决策有用的知识的过程【2 1 】。 从上面的描述中可以看出,数据挖掘概念可以在不同的技术层面上 来理解,但是其核心仍然是从数据中挖掘知识。所以,有人说叫知识挖 掘更合适i ”。为了避免引起混淆,本文以下章节均使用数据挖掘的狭义 定义。 2 3 数据挖掘研究的理论基础 谈到知识发现和数据挖掘,必须进一步阐述它们的研究的理论基 础问题。虽然数据挖掘的理论基础问题有待于进一步研究、完善,但是 6 分析它的发展可以使我们对数据挖掘的概念更清楚。经过十几年的探 索,一些重要的理论框架已经形成,并且吸引着众多的研究和开发者为 此进一步工作,向着更深入的方向发展。 结合最新的研究成果,有下面一些重要的理论框架可以帮助我们 准确地理解数据挖掘的概念与技术特点。 2 3 1 模式发现( p a t t e r ndis c o v o r y ) 在这种理论框架下,数据挖掘技术被认为是从源数据集中发现知识 模式的过程【4 j 。这是对机器学习方法的继承和发展,是目前比较流行 的数据挖掘研究与系统开发架构。按着这种架构,我们可以针对不同的 知识模式的发现过程进行研究。目前,在关联规则、分类聚类模型、 序列模式( s e q u e n c em o d e l ) 以及决策树( d e c i s i o nt r e e ) 归纳等模式发 现的技术与方法上取得了丰硕的成果。近几年,也已经开始多模式的知 识发现的研究。 2 3 2 规则发现( r u l ed is c o v e r y ) a g r a w a l 等综合机器学习与数据库技术,将三类数据挖掘目标即分 类、关联及序列作为一个统一的规则发现问题来处理【4 】。他们给出了统 一的挖掘模型和规则发现过程中的几个基本运算,解决了数据挖掘问题 如何映射到模型和通过基本运算发现规则的问题。这种基于规则发现的 数据挖掘构架也是目前数据挖掘研究的常用方法。 2 3 3 基于概率和统计理论 在这种理论框架下,数据挖掘技术被看作是从大量源数据集中发现 随机变量的概率分布情况的过程1 6 】。例如,贝叶斯置信网络模型等。 目前,这种方法在数据挖掘的分类和聚类研究和应用中取得了很好的成 果。实际上,大多数的理论构架都离不开统计方法的介入,统计方法在 概念形成、模式匹配以及成分分析等众多方面都是基础中的基础。 2 3 4 微观经济学观点( m i c r o e c o n o m i cv i e w ) 在这种理论框架下,数据挖掘技术被看作是一个问题的优化过程 1 9 。持这种观点的人认为,如果一个知识模式对一个企业是有效的话, 那么它就是有趣的。有趣的模式发现是一个新的优化问题,可以根据基 7 本的目标函数,对被挖掘的数据的价值提供一个特殊的算法视角,导出 优化的企业决策。 2 3 5 基于数据压缩( d a t ac o m p r e s sio ) 理论 在这种理论框架下,数据挖掘技术被看作是对数据的压缩的过程 i l 。按着这种观点,关联规则、决策树、聚类等算法实际上都是对大型 数据集的不断概念化或抽象的压缩过程。按c h a k r a b a r t i 等人的描述, 最小描述长度( m d lm i n i m u md e s c r i p t i o nl e n g t h ) 原理可以评价一个压 缩方法的优劣,即最好的压缩方法应该是概念本身的描述和把它作为预 测器的编码长度都最小【1 0 l 。 2 3 6 基于归纳数据库( i n d u c t i v ed a t a b a s e ) 理论 在这种理论框架下,数据挖掘技术被看作是对数据库的归纳的问题 1 1 】。一个数据挖掘系统必须具有原始数据库和模式库,数据挖掘的过程 就是归纳的数据查询过程。这种构架也是目前研究者和系统研制者倾向 的理论框架。 2 3 7 可视化数据挖掘c v is u a id a t am i n i n g ) 1 9 9 7 年,k e i m 等对可视化数据挖掘的相关技术给出了综述【6 l 。虽 然可视化数据挖掘必须结合其它技术和方法才有意义,但是,以可视化 数据处理为中心来实现数据挖掘的交互式过程以及更好地展示挖掘结 果等,已经成为数据挖掘中的一个重要方面。 对于特定的研究和开发领域来说,上面所述的理论框架是相互交叉 并且有所侧重的。可见,数据挖掘的研究是在相关学科充分发展的基础 上提出并不断发展的,它的概念和理论仍在发展中。为了弄清相关的概 念和技术路线,仍有大量的工作等待我们去探索和尝试。 2 4 数据挖掘常用的知识表示模式与方法 数据挖掘的目的是发现知识,知识要通过一定的模式给出。人类活 动所涉及数据与知识的关系如图2 2 所示。 8 图2 2 人类活动所涉及数据与知识的关系描述 下面我们分析一下数据挖掘常用的知识表示模式与方法。 2 4 1 广义知识挖掘 广义知识( g e n e r a l i z a t i o n ) 是指描述类别特征的概括性知识。我们知 道,在源数据( 如数据库) 中存放的一般是细节性数据,而人们有时希 望能从较高层次的视图上处理或观察这些数据,通过数据进行不同层次 上的泛化来寻找数据所蕴涵的概念或逻辑,以适应数据分析的要求。数 据挖掘的目的之一就是根据这些数据的微观特性发现有普遍性的、更高 层次概念的中观和宏观的知识。因此,这类数据挖掘系统是对数据的所 蕴涵的概念特征信息、汇总信息和比较信息等的概括、精炼和抽象的过 程。 2 4 2 预测型知识挖掘 预测型知识( p r e d i c t i o n ) 是指由历史的和当前的数据产生的并能 推测未来数据趋势的知识。这类知识可以被认为是以时间为关键属性的 关联知识。从预测的主要功能上看,主要是对未来数据的概念分类和趋 势输出。预测型知识的挖掘也可以借助于经典的统计方法、神经网络和 机器学习等技术,其中经典的统计学方法是基础。相关技术可以在相应 的统计学教科书等找到。 2 4 3 特异型知识挖掘 特异型知识( e x c e p t i o n ) 是源数据中所蕴涵的极端特例或明显区别 于其它数据的知识描述,它揭示了事物偏离常规的异常规律。数据库中 9 的数据常有一些异常记录,从数据库中检测出这些数据所蕴涵的特异知 识是很有意义。例如,在w e b 站点发现那些区别于正常登录行为的用户 特点可以防止非法入侵。特异型知识可以和其它数据挖掘技术结合起 来,在挖掘普通知识的同时进一步获得特异知识。例如,分类中的反常 实例、不满足普通规则的特例、观测结果与模型预测值的偏差、数据聚 类外的离群值等等。 2 4 4 关联知识挖掘 关联知识( a s s o c i a t i o n ) 反映一个事件和其它事件之问的依赖或关 联。数据库中的数据关联是现实世界中事物联系的表现。关联知识挖掘 的目的就是找出数据库中隐藏的关联信息。关联可分为简单关联、时序 ( ,n m es e r i e s ) 关联、因果关联、数量关联等。这些关联并不总是事先知 道的,而是通过数据库中数据的关联分析获得的,因而对商业决策具有 新价值。 关联规则挖掘是关联知识发现的最常用方法。最为著名的是 a g r a w a l 等提出的a p f i o f i 及其改进算法 2 1 。为了发现出有意义的关联规 则,需要给定两个阈值:最小支持度( m i n i m u ms u p p o r t ) 和最小可信度 ( m i n i m u mc o n f i d e n c e ) 。挖掘出的关联规则必须满足用户规定的最小支 持度,它表示了一组项目关联在一起需要满足的最低联系程度。挖掘出 的关联规则也必须满足用户规定的最小可信度,它反映了一个关联规则 的最低可靠度。在这个意义上,数据挖掘系统的目的就是从源数据库中 挖掘出满足最小支持度和最小可信度的关联规则。关联规则的研究和应 用是数据挖掘中最活跃和比较深入的分支,许多关联规则挖掘的理论和 算法已经被提出。 2 4 5 类知识挖掘 类知识( a a s s ) 刻画了一类事物,这类事物具有某种意义上的共同特 征,并明显和不同类事物相区别。 ( 1 ) 分类:分类是数据挖掘中的一个重要的目标和任务,目前的研 究和在商业上应用最多。分类的目的是学会一个分类模型( 称作分类 器) ,该模型能把数据库中的数据项映射到给定类别中。由于数据挖掘 是从源数据集中挖掘知识的过程,这种类知识也必须来自于源数据,应 该是对源数据的过滤、抽取( 抽样) 、压缩以及概念提取等。 目前,有下面一些有代表性的技术被成功应用到分类知识挖掘中: 如决策树,贝叶斯分类贝叶斯分类( b a y e s i a nc l a s s i f i c a t i o n ) ,神经 1 0 网络分类,遗传算法,类比学习和案例学习,粗糙集和模糊集( f u z z ys e t ) 方法等。 ( 2 ) 聚类:聚类是把一组个体按照相似性归成若干类别,它的目的 是使得属于同一类别的个体之间的差别尽可能的小,而不同类别上的个 体间的差别尽可能的大。数据挖掘的目标之一是进行聚类分析通过聚 类技术可以对源数据库中的记录划分为一系列有意义的子集,进而实现 对数据的分析。聚类和分类技术不同,前者总是在特定的类标识下寻求 新元素属于哪个类,而后者则是通过对数据的分析比较生成新的类标 识。当然,数据挖掘中的分类和聚类技术都是在已有的技术基础上发展 起来的,它们互有交叉和补充。 聚类技术主要是以统计方法、机器学习、神经网络等方法为基础 的。作为统计学的一个重要分支,聚类分析已经被广泛地研究和应用。 比较有代表性的聚类技术是基于几何距离度量的聚类方法,如欧式距 离、曼哈坦( m a l l l l a t t a n ) 距离、明考斯基( m i n k o w s k i ) 距离等。目前的数据 挖掘的聚类技术也使用了一些其它技术,如神经网络、粗糙模糊集等。 一些比较有代表性的聚类方法有:基于划分的聚类方法,基于层 次的聚类方法,基于密度的聚类方法,基于网格的聚类方法,基于模型 的聚类方法等。 上面我们介绍了数据挖掘的主要技术和方法。当然,数据挖掘作为 一个多学科交叉研究领域,它的研究范围越来越广泛,我们只能研究它 所要达到的目标和主流技术,不可能包括它的所有方面。 2 5 数据挖掘的流程 2 5 1 数据挖掘环境 数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未 知的,有效的,可实用的信息,并使用这些信息做出决策或丰富知识。 数据挖掘环境主要包括数据库、数据挖掘工具、可视化工具三部分, 如图2 3 所示。 1 1 2 5 2 数据挖掘过程简介 图2 3 数据挖掘环境框图 图2 4 数据挖掘全过程图 数据挖掘过程主要分为五步,如图2 4 所示,各步骤的内容描述如 下: ( 1 ) 确定业务对象:清晰地定义出业务问题,认清数据挖掘的目的 是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问 题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功 的。 ( 2 ) 数据准备: 1 ) 数据的选择:搜索所有与业务对象有关的内部和外部数据信息, 并从中选择出适用于数据挖掘应用的数据。 2 ) 数据的预处理:研究数据的质量,为进一步的分析作准备。并确 定将要进行的挖掘操作的类型。 3 ) 数据的转换:将数据转换成一个分析模型这个分析模型是针对 挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成 功的关键。 ( 3 ) 数据挖掘:对所得到的经过转换的数据进行挖掘。除了完善从 选择合适的挖掘算法外,其余一切工作都能自动地完成。 ( 4 ) 结果分析:解释并评估结果。其使用的分析方法一般应作数据 挖掘操作而定,通常会用到可视化技术。 ( 5 ) 知识的同化:将分析所得到的知识集成到业务信息系统的组织 结构中去。 2 6 数据挖掘未来研究方向及热点 2 6 1 数据挖掘未来研究方向 当前,数据挖掘研究方兴未艾,预计在不久的将来,对它的研究还 会形成更大的高潮,研究焦点可能会集中到以下几个方面: ( 1 ) 发现语言的形式化描述:即研究专门用于知识发现的数据挖掘 语言,也许会像s o l 语言一样走向形式化和标准化。 ( 2 ) 寻求数据挖掘过程中的可视化方法:使知识发现的过程能够被 用户理解,也便于在知识发现的过程中进行人机交互。 ( 3 ) 研究在网络环境下的数据挖掘技术( w e b m i n i n g ) :特别是在因 特网上建立知识发现服务器,并且与数据库服务器配合,实现 w e b m i n i n g ;加强对各种非结构化数据的开采( d a t a m i n i n g f o r a u d i o v i d e o ) :如对文本数据、图形数据、视频图像数据、声音数据乃至综合 多媒体数据。 ( 4 ) 处理的数据将会涉及到更多的数据类型:这些数据类型或者比 较复杂,或者是结构比较独特。为了处理这些复杂的数据,就需要一些 新的和更好的分析和建立模型的方法,同时还会涉及到为处理这些复杂 或独特数据所做的费时和复杂数据准备的一些工具和软件。 2 6 2 数据挖掘热点 就目前来看,将来的几个热点包括网站的数据挖掘( w e bs i t ed a t a m i n i n g ) 、生物信息或基因( b i o i n f o r m a t i c s g e n o m i c s ) 的数据挖掘及其 文本的数据挖掘( t e x t u a lm i n i n g ) 。 ( 1 ) 网站的数据挖掘( w e bs i t ed a t am i n i n g ) :网站的数据格式有 很大一部分来自于点击流,和传统的数据库格式有区别,因而对电子商 务网站进行数据挖掘所做的主要工作是数据准备。目前,有很多厂商正 在致力于开发专门用于网站挖掘的软件。 ( 2 ) 生物信息或基因的数据挖掘:生物信息或基因数据挖掘则完全 属于另外一个领域,在商业上很难讲有多大的价值,但对于人类却受益 非浅。现在很多厂商正在致力于这方面的研究。但就技术而言,还远没 有达到成熟的地步。 ( 3 ) 文本的数据挖掘( t e x t u a l m i n i n g ) :文本数据挖掘并不是一件 容易的事情,尤其是在分析方法方面,还有很多需要研究的专题。 综上所述,只有从数据中有效地提取信息,从信息中及时地发现知 识,才能为人类的思维决策和战略发展服务。也只有到那时,数据才能 够真正成为与物质、能源相媲美的资源,信息时代才会真正到来。 2 7 本章小结 数据挖掘是数据库研究、开发、应用最活跃的分支之一。在国外已 经有了许多领域的应用,而在国内这方面的应用还是刚刚起步。我国是 一个有巨大潜力的市场,相信在不远的将来数据挖掘会迅速普及。本章 系统地介绍了数据挖掘技术的产生、发展和应用前景。从商业和技术角 度阐述了数据挖掘的概念和含义。在查阅了大量文献的基础上,系统归 纳了数据挖掘研究的理论基础,并从数据挖掘的知识表示模式角度归纳 了数据挖掘的主要技术与方法。本章也对数据挖掘的未来研究方向与热 点进行了简要叙述。我们坚信,随着计算机计算能力的发展和业务复杂 性的提高,数据的类型会越来越多、越来越复杂,数据挖掘将发挥出越 来越大的作用。 1 4 第三章总体设计方案 3 1 商业问题定义 从全球看,在企业管理信息系统中,人力资源管理系统是其中最重 要的部分之一。目前尽管国内客户已逐渐意识到人力资源管理的重要性 ,但大部分企业还仍处于人事管理以及“传统”的人力资源管理阶段, 人力资源管理系统的使用率仍比较低。因此建立基于战略发展的人力资 源管理模式和采用先进的技术手段,是目前国内用户急需考虑的问题。 据华信惠悦对国内( 包括香港、台湾地区在内) 2 8 9 家企业的调研显示 j :目前只有4 2 的企业采用了人力资源管理信息系统( 其中采用e r p 内部的人力资源管理模块的占8 ,采用外部人力资源管理软件包的客 户占3 4 ) ;由外部顾问或软件厂商根据客户需求而开发或内部自行开 发的占3 2 ;而2 6 的企业目前还没有应用任何人力资源软件系统。与 澳大利亚6 8 的企业已经采用了人力资源管理系统相比,还有很大差 距。而这也正是h r m s 的市场潜力所在。 从应用的层面看,人力资源管理系统的应用主要在以下几个层面 p 驯:首先是人事档案管理。企业通过软件,实现了人事信息的电子化。 第二层面是人力资源业务处理。包括招聘、员工信息、组织结构、薪酬 福利、考勤、绩效管理、培训等等。目前国内用户大部分处于这一层面, 而其中员工管理、薪资计算等基础功能仍然是企业最看重的功能。第三 是管理层应用。主要是在业务层应用的基础上,实现全面的绩效考核管 理、全流程控制、员工能力发展规划、员工自助服务、数据分析等战略 层面的管理。但目前国内全面应用到这一层面的企业还较少。 从管理的层面看,知识已经成为企业竞争力的源泉。当前的企业管 理已经进入全球化和知识化的阶段。在这个阶段,持续成长成为管理的 目标,知识管理成为管理的主题。面对经济知识化和全球化更加迅速, 企业竞争更加激烈,以及随着知识管理的发展,企业利用信息技术,结 合业务流程建立知识管理系统及其知识库十分迫切和必要。当前企业知 识管理系统的设计方案如图3 1 所示。需要说明的是,本文不是要设计 一个的企业知识管理系统,而是探讨数据挖掘技术在人力资源管理中的 应用;人力资源管理是一门学问,包括很多方面;笔者有针对性的选择 人员选拔和绩效考核两个方面进行研究。 本文利用数据挖掘技术,阐述了人力资源决策方面( 人员选拔和绩 效考核) 对策及方法,能够使企业建立广泛的竞争优势,人力资源管理 质量得到显著提升,以适应现代人力资源管理的需要。 图3 1 企业知识管理系统的设计方案 3 2 系统总体设计 3 2 1 开发软件设计 人员选拔与绩效考核系统从结构上可以分为如下三部分。 ( 1 ) 数据挖掘方法库 1 6 ( 2 ) 数据挖掘和处理:其中包括数采模块、数据挖掘模块、可视化 分析模块和结果生成模块。 ( 3 ) 用户定制系统。 人员选拔与绩效考核系统的结构由七个部分组成,如图3 2 所示 图3 2 人员选拔与绩效考核系统的结构示意图 下面对模块进行一下说明。 ( 1 ) 数据挖掘方法库:方法库中包含了进行数据挖掘过程中所涉及 1 7 的方法,包括以下几个方面:数据评估方法、数据筛选方法、数据结构 分析方法、自变量筛选方法、相关分析方法和建模方法。 ( 2 ) 数据挖掘和处理:这部分由五个模块组成。数采模块是为收集 来自单位人力资源( 即员工) 的数据而设计的,由于每个单位的具体情况 不同,有些数据存放在关系数据库中,有些则保存在实时数据库中,有 些可能尚记录在文件或报表中,本模块将为各种系统提供数据输入接 口。 ( 3 ) 数据预处理模块:对来自单位的数据进行去伪存真的处理,为 数据挖掘提供真实可靠的数据。所谓去伪存真是指去除由于系统故障或 人为因素造成的过失误差等外界因素。 ( 4 ) 数据挖掘模块:从数据中发现知识和寻找规律,该模块与数据 挖掘方法库相连,根据优化问题的要求和所提供数据的情况调用有关的 方法,该模块应与可视化分析模块配合使用,以加快数据挖掘的速度和 提高数据分析的质量。 ( 5 ) 可视化分析模块:将高维空间中的样本点通过降维后映射到平 面上,以便形象、直观、多视角地考察优化区的分布,为数据挖掘专家 寻找优化规律提供重要的人机交互界面。 ( 6 ) 优化结果生成模块:产生各种形式的优化结论。 ( 7 ) 用户定制系统:由于不同单位甚至同一单位的不同部门职责或 性质的不同,这就产生了对软件的要求的差别。然而,设计一个通用的 优化软件来解决各个具体优化问题,这是很难做到的。用户定制系统的 功能就是为每一把“锁”配制一把“钥匙”,即为每一个优化问题“量 体裁衣”,设计和开发专用的在线或离线运行的计算机系统。用户定制 系统的功能是产生最终提交用户的定制软件,我们称这个软件为“运行 软件”。 3 2 2 运行软件设计 如上所述,运行软件是在对优化问题进行系统分析后,通过对收集 的历史数据的挖掘,获得了生产优化结果后为用户定制的运行版软件。 它由四个功能模块和四个公用模块组成,四个功能模块是:数据采集、 建模和模型维护、诊断和预测、操作指导。四个公用模块为:数据挖掘 简易方法库、数据库、模型库、公用程序。其中数据采集、建模和模型 维护、简易方法库这三部分,实际上是上节提到的开发软件的一个简易 版。数据挖掘简易方法库只包含那些适用于本优化项目的方法,供用户 自己建模时使用。数据采集模块仅提供获取员工数据的接口。 数据库用于存放建模时所用的样本点,检验和评价模型所用的样本 点,以及本软件投用后采集的数据。数据库供建模和模型维护、诊断和 预测、操作指导等模块使用。 公用程序模块为系统操作员提供各种辅助图形和工具。可以通过图 形很快找到相关变量的优化操作区。在对数据调整后,可通过有关图形 观察数据对某员工的影响。运行软件的结构如图3 3 所示; 图3 3 人员选拔系统的运行软件结构示意图 3 3 软件实施步骤 本系统实施大体可分为十步,其实施的顺序如图3 4 所示。以下对 这十步作一简要说明。 ( 1 ) 现场调研:对优化对象的整体和存在的问题有大体的了解。 ( 2 ) 初步分析:初步搞清优化的目标和影响的因素。 ( 3 ) 收集数据( 一) :根据初步分析的结果,收集有关数据。 ( 4 ) 数据挖掘( 一) :对数据进行初步挖掘,考察数据结构和优化区 的分布。 ( 5 ) 综合分析:根据初步数据挖掘的结果进一步考察变量,为下一 步工作提出意见。 ( 6 ) 收集数据( 二) :根据以上分析,将遗漏的因素考虑进去后再一 次收集数据。 图3 4 系统实施的步骡 ( 7 ) 数据挖掘( 二) :对数据进行挖掘,建立优化模型,得到优化操 作方案。 ( 8 ) 模型评价和修改:对优化模型和优化操作方案进行评价,并在 现场验证,根据评价和验证的结果修正模型。 ( 9 ) 交实施方案:当将优化生产方案和数学模型经过验证,确认可 用后,提交用户。 ( 1 0 ) 现场安装和调试:最终将定制的计算机系统在现场安装和调 试。 项目完成后,进行测试和考核,并移交用户。 3 4 本系统涉及到的数据挖掘原理 数据挖掘的目的就是从这些数据中寻找规律和发现知识,并用这些 规律和知识指导企业的生产和经营,从而优化生产参数或优化企业经 营,使企业的效益最大化。 本系统所采用的数据挖掘技术是综合了模式识别、人工神经网络、 遗传算法、线性和非线性回归等多种方法,并设计一个合理的数据处理 流程,将这些方法构成有机的统一体,最大限度地挖掘数据中的有用信 息。其数据处理流程及其所用的方法如图3 5 所示。以下对系统数据处 理流程中的主要模块作一简要的说明。 ( 1 ) 数据文件评估:我们知道数据挖掘技术是从数据中发现规律, 数据的质量对应用能否成功至关重要。数据文件评估主要考察所提供的 数据文件是否有足够的信息量,软件中用以下方法进行评价:超多面体 模型评估、最近邻留一法判据和非线性回归判据。 ( 2 ) 数据结构分析:是对所提供的数据结构进行分析,然后对数据 的结构特征作出判断,为以后的自变量筛选、以及采用什么样的建模策 略和建模方法提供依据。本软件中采用以下方法:近邻分析、近线性分 析、时间序列分析等。 ( 3 ) 样本筛选:为了提高数据的可靠性和可分性,对原始数据样本 中的数据进行处理,以便剔除那些假数据。另一方面,还应尽可能将那 些主要因素包含进来,如果在变量中忽视了某个主要因素,会严重影响 数据挖掘的质量,因此要采取措施补充进去。本软件中所用的方法有: 子空间分割、死区分割、离群点删除等。 图3 5 数据处理流程图 ( 4 ) 相关分析:相关分析是对变量之间( 因变量与自变量、自变量 与自变量) 的关系进行分析,以便通过对这些关系的研究找到主要因素, 及其存在的优化区。所用的分析方法有:单因子分析、双因子分析、多 因子分析等。 ( 5 ) 自变量筛选:所谓自变量筛选是指将对优化目标影响不大的因 素剔除,以突出主要因素,并降低求解问题的维数,使应用更为简洁方 便。所用的方法有:投票法、熵法等。 ( 6 ) 建模:根据具体的应用情况不同,可以归纳为:人员选拔问题、 绩效考核问题,其中绩效考核包括个人考核和单位考核两种。本软件所 用的主要方法有:模糊数据挖掘算法、层次分析法和灰色聚类分析法、 多目标最优化算法等。 3 5 本章小结 数据挖掘技术总是与某个商业需求联系在一起的。本章首先简要说 明本次开发的商业问题定义;其次,介绍系统的总体设计方案,包括开 发软件、和运行软件两部分;再次,笔者列出了系统的实施步骤;最后, 笔者介绍了本次开发中涉及到的数据挖掘相关技术,并以数据处理流程 图的形式表示出来。 第四章系统详细设计 4 1 数据准备和预处理 4 1 1 数据收集和准备 笔者用s o ls e r v e r2 0 0 0 建立了一个新的数据库,其数据是从笔者 以前开发人事管理项目的数据库中导入的;笔者对表结构、数据等进行 了相关处理;这些数据就作为待挖掘的数据。 4 1 2 数据预处理 显然,对数据挖掘所涉及到的数据对象必须进行数据处理。笔者主 要从下面几个方面进行了相关工作。 ( 1 ) 选择:选择用于数据挖掘的数据( 源数据的子集) 。这里只是粗 略的把一些冗余或无关的数据除去,或由于资源的限制、费用的限制、 数据使用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论