




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华中科技大学硕士学位论文 摘要 高校人才的引进对学校的发展十分重要,传统的人才识别方式是通过考察引进 人员的定性指标实现的,依靠手工操作很难保证识别结果的全面性、科学性和准确 性。鉴于许多高校都建立了人才数据库系统,应用数据挖掘技术对历史人才数据进 行分析,有助于提高人才识别的准确性并提高识别效率。 数据挖掘中的分类技术是一种常用的预测模式,可用于优秀人才的识别。挖掘 分类模式的方法有很多种,常见的有决策树方法、贝叶斯网络、遗传算法,基于关 联规则的分类方法、粗糙集方法等。其中决策树方法因表示方法直观、较容易转化 为标准的数据库查询、分类模型的精度高等优点在海量数据分析中应用十分广泛。 以决策树分类算法为主要研究对象,对已有的决策树分类算法进行分析,指出 各种算法的优点和不足,并将决策树方法应用于湖北省某高校的人事管理中。论文 给出了一种新的定量的人才识别方法,开发了分类与决策树算法人才识别模块,利 用过去已有的引进人才的经验数据分析提取规则,为以后的人才识别提供合理的、 科学的决策支持。 基于高校人事管理数据库,根据当前高校的实际需求,开发了一个分类应用程 序。对数据分类的实验结果表明,该系统实现了对人才的自动分类,具有较好的分 类运算速度。 关键词:数据挖掘分类决策树人事管理 华中科技大学硕士学位论文 a b s t r a c t t h eb r i n g i n gi no ft a l e n t e ds c h o l a r si so fg r e a ts i g n i f i c a n c et ot h ed e v e l o p m e n to f u n i v e r s i t i e s t h et r a d i t i o n a lw a yo fe v a l u a t i n gt a l e n t e ds c h o l a r sc h a r a c t e r i z e db yc e r t a i n c r i t e r i ac a n n o tg u a r a n t e et h ec o m p r e h e n s i v e n e s st h o r o u g h n e s sa n dv a l i d i t yo f t h er e s u l t s c o n s i d e r i n gt h a tm a n yc o l l e g ea n du n i v e r s i t yh a sb u i l dh u m a n r e s o u r c ed a t a b a s es y s t e m , d a t aa n a l y s i sf o rt h ee x i s t i n gd a t ab a s eo nd a t am i n i n gc a ne n h a n c et h ea c c u r a c ya n d e f f i c i e n c yo nt a l e n t si d e n t i f y c l a s s i f i c a t i o ni nd a t am i n i n gi saf o r mo fd a t aa n a l y s i st h a tc a l lb eu s e dt oe x t r a c t m o d e l sd e s c r i b i n gi m p o r t a n td a t ac l a s s i tc a nb eu s e dt oi d e n t i f yt h et a l e n t e dp e r s o n s t h e r ea r em a n yt e c h n i q u e sf o rd a t ac l a s s i f i c a t i o ns u c ha sd e c i s i o nl r e ei n d u c t i o n , b a y e s i a nc l a s s i f i c a t i o na n db a y e s i a nb e l i e fn e t w o r k s , a s s o c i a t i o n - b a s e dc l a s s i f i c a t i o n , g e n e t i ca l g o r i t h m s , r o u g hs e t sc l a s s i f i e r s d e c i s i o nt r e ec l a s s i f i e r sh a v ef o u n dt h e w i d e s t i n l a r g e - s c a l ed a t am i n i n ge n v i r o n m e n t s t h e r ea r es e v e r a lr e a s o n sf o rt h i s f i r s t , d e c i s i o nt r e eo f f e rav e r yi n t u i t i v er e p r e s e n t a t i o nt h a ti se a s yt ob ea s s i m i l a t ea n d t r a n s l a t et os t a n d a r dd a t a b a s eq u e r i e s s e c o n d ,d e c i s i o nt r e ei n d u c t i o ni ss oe f f i c i e n tt h a t i ti ss u i t a b l ef o rl a r g et r a i n i n gs e t sf u r t h e r m o r e , d e c i s i o nt r e eg e n e r a t i o na l g o r i t h m sd o n o tr e q u i r ea d d i t i o n a li n f o r m a t i o ne x c e p tt h ei n f o r m a t i o nt h a ti sa l r e a d yc o n t a i n e di nt h e t r a i n i n gd a t a f i n a l l y , t h ea c c u r a c yo fd e c i s i o nt r e ec l a s s i f i e r si sc o m p a r a b l eo re v e n s u p e r i o rt ot h a to f o t h e rc l a s s i f i c a t i o nt e c h n i q u e s t h i sa r t i c l ef o c u s e so nt h ei s s u e so ft h er e s e a r c ho fm o s tk i r i d so fd e c i s i o nt r e ei n c l a s s i f i c a t i o na l g o r i t h m ,a n dd i s c l a i m st h ea d v a n t a g ea n dd e f i c i to fa l g o r i t h mo fd e c i s i o n t r e ei nc l a s s i f i c a t i o nw h i c hw em e n t i o ni n t h i sa r t i c l et h ep e r s o n n e lm a n a g e m e n to f c o l l e g ei nh u h e ia d a p t e dt ot h et e c h n i q u eo ft h ec l a s s i f i c a t i o na n dd e c i s i o nt r e e t h e p r e s e n tp a p e rp r o p o s e san e wq u a m i t a t i v em e t h o do fe v a l u a t i o n , w nc l a s s i f i c a t i o na n d r e g r e s s i o nt r e e so fd a t am i n i n ga st h et h e o r e t i c a lb a s i s ,d e v e l o pam o d u l eo ft a l e n t 华中科技大学硕士学位论文 i d e n t i f y t h ec l a s s i f i c a t i o na n dd e c i s i o nt r e e so fd a t am i n i n gi s t od r a wu n d e r l y i n g r e g u l a t i o n sw i t hr e f e r e n c et ot h ee x i a i n gd a t ao ni n t r o d u c t i o n so f t a l e n t e dp e r s o n s ,a n d t h e np r o v i d er e a s o n a b l ea n ds c i e n t i f i cg u i d a n c ef o rt h ep o l i c y - m a k i n go ft h ei m p o r to f t a l e n t si nf u t u r e b a s eo nt h ep e r s o n n e lm a n a g e m e n td a t a b a s ei nc o l l e g e sa n du n i v e r s i t i e s , a c c o r d i n g t ot h ec u r r e n ta c t u a ld e m a n d ,t h i sp a p e rh a sd e s i g n saa p p l i e dp r o g r a mf o rc l a s s i f i c a t i o n a c c o r d i n gt ot h ee x p e r i m e n tr e s u ko fc l a s s i f i c a t i o n , t h i sp r o g r a mh a sag o o dc a p a b i l i t y o f a u t o m a t i ct a l e n tc l a s s i f i c a t i o na n dh i g hr u n n i n gs p e e d k e y w o r d s :d a t am i n i n g ,c l a s s i f i c a t i o n ,d e c i s i o nt r e e ,p e r s o n n e lm a n a g e m e n t 独创性声明 y1 0 1 g 8 2 7 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的 研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人 或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已 在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文储签名:卸和奉 日期: 如占年t 。月每。日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本论文属于 不保密团。 ( 请在以上方框内打“”) 学位论文作者签名:却菇鼋 日期:加 r 年f 。月;。日 指导教师签名: 日期:易石年月多日 华中科技大学硕士学位论文 1 引言 1 1 课题的研究背景、目的和意义 随着现代数据库和网络技术的发展,人们面对的数据量急剧增长。目前数据库 技术可以高效地实现数据的查询、统计等功能,却无法发现数据中存在的关系和规 则,无法根据现有的数据预测未来的发展趋势。为了从繁杂的数据中获取有价值的信 息,数据挖掘技术应运而生。数据挖掘就是从大量的、不完备的数据中,提取出事 先未知的,但具有价值的信息和知识的过程【1 。1 。分类是数据挖掘领域中的重要研究 课题,它要解决的问题是为一个对象或事件归类,既可以使用分类模型来分析已有 的数据,也可以用它来预测未来的数据。分类技术在电子商务、图像处理、模式识 别、文本分类等领域有广泛的应用 3 1 。 人力资源管理作为高校管理重要组成部分,日益受到各个领域的重视。高校人 事管理的重要内容是人才预测与评价,它涉及的因素有人才的总量、人才的学历、 人才的专业分布、人才的年龄以及人才的层次等。其主要内容有:人才的专业结构 预测;人才的层次结构预测 人才的年龄结构预测;人才的学历结构预测;人才的 需求总量预测等。人力资源管理面对着海量数据,迫切需要一种技术来发现有价值 的知识,从而制定人才发展战略,并为其提供决策支持。传统的人才识别方式是通 过考察引进人员的定性指标实现的,依靠手工操作很难保证识别结果的全面性、科 学性和准确性。鉴于许多高校都建立了人才数据库系统,应用数据挖掘技术对历史人 才数据进行分析,有助于提高人才识别的准确性并提高识别效率。 数据挖掘中的分类技术是一种常用的预测模式,可用于优秀人才的识别。挖掘 分类模式的方法有很多种,常见的有决策树方法、贝叶斯网络、遗传算法、基于关 联规则的分类方法、粗糙集方法等。其中决策树方法因表示方法直观,较容易转化 为标准的数据库查询、分类模型的精度高等优点在海量数据分析中应用十分广泛。 分类技术是数据挖掘中非常重要的方法,而人事管理系统也是高校信息共享的基础 华中科技大学硕士学位论文 数据平台。运用分类技术对高校人事系统数据样本进行数据分析,从分析的结果中 发现有价值的数据模式,发现其中存在的关系和规则,可以为高校科学发展提供智 能化策略。 研究数据挖掘中的分类技术,在高校人事管理系统数据库或数据仓库中提取隐 含的、未知的、异常的或有潜在应用价值的信息或模式,可以为制定人事激励制度, 预测和评估最优秀的人才提供科学依据,针对不同类别的教师建立有针对性的人事 激励制度,为领导和职能部门科学决策提供依据。因此,基于分类在高校人事管理 中的应用研究有着重要的意义。 1 2 数据挖掘的研究进展 从2 0 世纪8 0 年代末至今,数据库知识发现( k n o w l e d g ed i s c o v e r y i n d a t a b a s e ,k d d ) 和数据挖掘( d a t am i n i n g ,d m ) 技术得到了很大的发展【4 1 。数据 挖掘,又称数据库中的知识发现,是指从大型数据库或数据仓库中提取隐含的、未 知的、非平凡的和具有潜在应用价值的知识或模式的技术【卯。数据挖掘技术从一开 始就引起国外计算机界的高度重视,数据挖掘的理论研究和应用研究都十分活跃, 我国也逐渐加入了这个研究的潮流。 1 9 8 9 年8 月,在美国底特律举行的第1 1 届国际联合人工智能学术会议的专题 讨论会上,k d d 一词被第一次提出来【6 卅。随后,在1 9 9 1 年、1 9 9 3 年和1 9 9 4 年都 举行了k d d 专题讨论会,来自各个领域的研究人员和应用研究人员,集中讨论数 据统计、海量数据分析算法、知识表示、知识运用等问题,参加人数逐渐增多。1 9 9 5 年在加拿大召开了第届知识发现和数据挖掘国际学术会议,会议发展为国际会 年,并在1 9 9 8 年建立了一个新的国际学术组织a c m s i g k d d ,即美国计算机协会 f a c m ) 下的数据库中知识发现专业组( a c ms p e c i a li n t e r e s tg r o u po nk n o w l e d g e d i s c o v e r ya n dd a t a ) 。从此,由a c m s i g k d d 每年组织召开知识发现与数据挖掘国 际学术会议,k d d 的研究重点也从发现方法逐渐转到系统应用,并且注重多种发 现策略和技术的集成以及多学科之间的渗透i “1 1 1 。1 9 9 7 年第三届k d d 国际学术大 会上开始进行数据挖掘应用的k d d 杯竞赛评奖活动,此后每年都组织针对一定主 2 华中科技大学硕士学位论文 题的数据挖掘工具竞赛评奖活动。 关于数据挖掘的其他重要的国际学术会议还有( i e e e ) i c d m , p k d d ,s i a m d a t a m i n i n g 等,亚太地区也每年召开数据挖掘国际学术会议p a k d d ,1 9 9 9 年在北京召 开的第三届p a k d d 会议空前热烈,收到了1 5 8 篇论文。众多的各种数据挖掘国际 学术会议显示出计算机科学届对数据挖掘的研究非常重视 1 2 - 1 5 i 。 当前,数据挖掘技术已经成为计算机科学届的一大研究热点。美国人工智能协 会主办的k d d 国际研讨会和数据库、人工智能、知识工程等领域的国际学术刊物 都开辟了知识发现专刊,i e e e 的k n o w l e d g ed i s c o v e r yi nd a t a b a s ee n g i n e e r i n g 会刊 首先在1 9 9 3 年出版了k d d 技术专刊,其中5 篇论文代表了当时k d d 研究的最新 成果和动态。同时,在互联网还有不少关于k d d 的电子出版物,其中半月刊 k n o w l e d g ed i s c o v e r yn u g g e t s 最为著名,另一份在线周刊d s ( d e c i s i o ns u p p o r t ) 也在 1 9 9 7 年l o 月出版。在网上,还有一个自由论坛d me m a i lc l u b ,通过邮件人们可 以在上面讨论d m k d 的热点问题1 1 6 - 1 8 j 。 随着数据挖掘技术的日趋成熟和数据挖掘市场需求的增加,国外很多计算机公 司都很重视数据挖掘的开发应用。i n f o r m i x 公司于1 9 9 8 年底收购了在数据挖掘技术 上卓有成效的r e db r i c k 公司。r e db r i c k 数据挖掘在关系引擎中通过创建模型完成, 这些模型在数据库中表现为相应的表,并且这些模型可以通过数据查询语言( s q l ) 象普通的表一样被访问和操作。向模型中插入数据的时候,数据挖掘计算就被执行 了,然后建立含有计算结果的表,通过对后者的考察,对计算结果进行解释,并对 其他数据集合进行预测。另外,m m 公司和微软也成立了基于数据挖掘的研究中心, 并提出了一些基于数据挖掘技术的商业智能解决方案,相关软件也开始在国内销 售,如s a s 、s p s s 、p l a t i n u m 、b o 和m m 等 1 9 - 2 0 j 。 我国的数据挖掘研究开展较晚,直到1 9 9 3 年国家自然科学基金才首次支持该 领域的研究项目,并且当前进行的大多数项目都是由政府资助进行,如“8 6 3 ”计划 等。从事研究的人员大多数主要在大学、研究所,部分在公司。研究所涉及的领域 很多,一般集中于学习算法的研究、数据挖掘的实际应用和数据挖掘理论方面的研 究。如北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究, 华中科技大学硕士学位论文 北京大学也在开展对数据立方体代数的研究,华中科技大学、复旦大学、浙江大学、 中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则挖掘算法优 化的研究,南京大学、四川联合大学和上海交通大学等单位研究了非结构化数据和 知识发现以及w e b 数据挖掘 2 1 0 2 2 i 。 随着数据挖掘研究的不断深入,数据挖掘技术已日渐成熟,它的应用也越来越 广泛【2 ”4 1 。金融、商业零售、电信以及生物医学基因分析等领域已成为数据挖掘的 主要应用领域。 ( 1 ) 生物医学和n d a 数据分析的数据挖掘 人类基因组是研究是目前生物医学研究的焦点。数据挖掘中有许多序列模式分 析和相似性检索技术对于人类基因及排序模式的海量数据,无疑成为基因分析的强 有力的工具并在以下方面起着重要作用:异构、分布式基因数据库的语义集成;基 因序列间相似搜索和比较;关联分析一同时出现的基因序列的识别;路径分析- 发现在疾病不同阶段的致病基因;可视化工具和遗传数据分析等。 ( 2 ) 金融数据分析的数据挖掘 由于金融行业的高风险,在已有数据上的全面分析就成为监测、预测和进一步 决策的前提。数据挖掘在金融业的应用具体包括:为多维数据分析和数据挖掘设计 和构造数据仓库;客户信用预测;目标市场客户的分类与聚类以及金融犯罪的监测等。 ( 3 ) 零售业中的数据挖掘 零售业中的数据挖掘有助于识别客户的购买行为,能够发现顾客购买模式和趋 势,改进服务质量,取得更好的顾客保持力和满意度,提高货品销量比率,设计更 好的货品运输与分销策略,减少商业成本等。 ( 4 ) 电信业中的数据挖掘 电信业中的数据挖掘主要应用有:数据的多维分析;用户模式分析和识别;网 络异常监测;多维关联和序列模式分析等。 数据挖掘任务和数据挖掘方法的多样化给数据挖掘提出了许多挑战性课题。数 据挖掘主要的研究方向和趋势有: ( 1 ) 数据挖掘应用研究 4 华中科技大学硕士学位论文 随着数据挖掘的日益普及,数据挖掘不断探索其它应用领域,如在图像、音频 等多媒体数据上应用;数据挖掘在网络入侵监测中的应用;数据挖掘在w e b 上的 应用等。 ( 2 ) 可伸缩的数据挖掘算法研究 与传统的数据分析方法相比,数据挖掘必须能够有效处理大量数据,而且尽可 能是交互的,由于数据量在不断激增,因此开发针对单独的和集成的数据挖掘功能 的可伸缩算法显得十分重要。一个重要的方向是基于约束的挖掘( c o n s t r a i n t - b a s e d m i n i n g ) 。 ( 3 ) 数据挖掘与数据库、数据仓库和w e b 数据库系统的集成 ( 4 ) 数据挖掘语言的标准化研究 ( 5 ) 数据挖掘的可视化研究 ( 6 ) 对于复杂数据类型进行挖掘的新方法研究 ( 7 ) 数据挖掘中的隐私保护与信息安全 1 3 分类研究及应用 k d d ( k n o w l e d g ed i s c o v e r y i nd a t a b a s e1 是从大量数据中提取可信的、新 颖的、有效的并能被人理解的模式的一种自动化处理过程,通常这个过程可以分为 三个阶段:数据准备、数据挖掘、知识表达,其中数据挖掘是最为重要的一个阶段。 对于数据挖掘而言,其主要任务有:分类、聚类、关联规则、回归分析、模式发现、 路径发现等。 分类是数据挖掘中一种非常重要的方法,它是按照一组数据对象的特征给出其 划分的过程,要求有已知分类的样本数据作为训练集,经过对训练集的学习得到关 于分类的规律,从而对新数据进行分类。聚类与分类的差别在于它不需要训练样本, 是一种无监督的学习。 分类要解决的问题是为一个对象或事件归类,既可以使用分类模型来分析已有 的数据,也可以用它来预测未来的数据。分类的目的是分析输入的数据,通过观察 处于数据源中的数据记录表现出来的特性,为每一个类找到一种准确的描述或者模 华中科技大学硕士学位论文 型,这种描述通常用谓词来表示,由此生成的类描述可以用来对未来的数据进行分 类,这就是预测。可以这样描述分类【1 3 】:给定一个数据记录集合x = ( x i ,x 2 ,k ,y ) 其中x 0 = 1 2 ,n ) 称作预测变量,y 称作目标变量,分类问题就是要找到一个函数: f = f y ,使得分类误差最小。 依据分类所采用的不同模型,主要可分为:基于决策树模型的数据分类;基于 神经网络模型的数据分类;基于统计模型的数据分类;基于遗传算法模型的数据分 类;基于粗燥集模型的数据分类。与其它算法相比,决策树算法原理更容易理解, 计算量不是很大、速度快、容易转换成分类规则、生成的规则可理解性强等 2 5 - 2 6 1 。 近年来,分类技术已被有效地应用于科学实验、医疗诊断、气象预报、信贷审核、 商业预测等领域,取得了良好的效果。 1 4 本文的主要研究内容 本文主要研究了数据挖掘中的决策树分类算法,对目前已有的各种决策树分类 算法,包括i d 3 、c 4 5 等进行了深入的分析和研究,并对各种常用决策树算法的特 点进行了比较分析,指出各种算法的优点和不足。 研究了决策树技术在高校人事管理的预钡9 和评估中的实现。对决策树分类技术 在高校人事管理中的应用作了深入的研究。将数据挖掘中分类与决策树算法应用于 湖北省某高校的人事管理的人才识别模块的开发中。以高校人事管理数据为模型, 根据当前高校的实际需求,基于o l ed bf o r d m 开发了一个分类应用程序。采用分 类方法进行人才识别,使用学校人才引进的历史数据库中积累的大量数据作为训练 集,生成用于人才识别的决策树。利用过去已有的引进人才的经验数据分析提取规 则,为以后的人才识别提供合理的、科学的决策支持。 1 5 本文的组织结构 本文共分五个部分,各部分的内容组织如下: 第一章介绍了课题的研究背景和意义、国内外研究现状、课题的主要研究工作 华中科技大学硕士学位论文 和论文的组织结构。 第二章分析了高校人事管理中的分类算法与技术。介绍了各种常用的决策树分 类算法,包括最有影响的i d 3 、c 4 5 算法等作了深入的分析讨论。关键技术包括选 择测试属性的方法,如何分割样本集,决策树的结构,对连续属性的处理等,并对 各种常用决策树算法的特点进行了比较分析。 第三章高校人事管理系统的分析与设计。对高校人事管理系统作了详细的需求 分析,介绍了实现方法和采用的主要技术,给出了系统的设计目标。 第四章对决策树分类技术在高校人事管理中的应用作了深入的研究,以某高校 人力资源数据为背景,研究决策树技术在高校人事管理的预测和评估中的实现。根 据高校数据仓库系统的特点,进行系统模型设计,详细介绍了数据收集、数据预处 理模块、分类挖掘模块、结果输出等模块的技术实现。 第五章概述论文所做的工作,最后指出了本课题今后的研究方向。 7 华中科技大学硕士学位论文 2 决策树分类算法研究 近年来,随着高等教育事业的飞速发展,高校招生规模以超常规的速度扩大, 高校面临生源急剧膨胀而带来的资源相对紧张问题,教育信息资源的管理变得十分 重要,信息管理是高校管理工作的一个重要研究领域和应用领域。 2 1 高校人事管理与分类技术 人力资源管理是企业( 事业) 单位生存的命脉。高校的人力资源具有明显的特 点,它基本上由五个部分构成:管理人员、教研人员、服务人员、附属部门的工作 人员与离退休人员。其中教研人员是主体,管理人员是关键,服务人员和离退人员 是补充。教研人员中般教学人员居多,满足于课程开设与知识传授的岗位需要; 管理岗位中一般的维特性的管理人员居多,缺乏管理思想与能力,满足于学校的正 常工作的运转;服务人员中文化素质不高,大都是教研人员和管理人员的家属与子 女,对于离退休人员,有的认为是不用组织利用的富余人员,听任自由生活。一这种 结构现状,既不能满足高校跨世纪发展的需要,又引发了许多人力资源的问题:高 精尖教研人员缺乏,而一般老师过剩;行政领导人才缺乏,而一般管理人员过多; 上岗教研人员过少,而非教研人员比例过大;资深教授闲置,而年轻教授负担过重; 教学型教师过剩,而研究型教师不足,一般性教师过多,而艺术性教师偏少;一般 性研究人员较多,而开发应用性研究人员缺乏等。 由于高校人员流动性强,人力资源数据库中积累的信息过多,人事部门对现有 的数据进行客观分析的难度很大。因此基于高校人力资源数据,应用分类技术,无 疑是一种可行的举措,它不仅可以发现有价值的知识,而且可以为管理者提供决策 支持。研究数据挖掘中的分类技术,在高校人事管理系统数据库或数据仓库中提取 隐含的、未知的、异常的或有潜在应用价值的信息或模式,可以为制定人事激励制 度,预测和评估最优秀的人才提供科学依据,针对不同类别的教师建立有针对性的 人事激励制度,为领导和职能部门科学决策提供依据。运用分类技术对高校人事系 华中科技大学硕士学位论文 统数据样本进行数据分析,从分析的结果中发现有价值的数据模式,发现其中存在 的关系和规则,可以为高校科学发展提供智能化策略。 2 2 分类算法简介 分类问题是数据挖掘中最重要的任务之一,有很多算法可以实现分类目的。这 些算法包括:决策树算法、神经网络算法、贝叶斯算法、基于关联规则算法等仁7 1 。 2 2 1 决策树方法 决策树是分类问题最主要的解决方法之一。决策树是一种表现一系列导致类或 值的规则的方法,是一个类似于流程图的树结构,最顶层是根节点,下面每个内部 的节点表示一个属性上的测试,每个分支代表一个测试上的输出,每个叶节点表示 类或类的分布。它可以生成易于理解的规则,可以清晰的显示哪些字段比较重要, 准确性比较高。决策树的生长过程本质是对训练样本集的不断分组过程。决策树上 的各个分枝是在数据不断分组的过程中逐渐生长出来的。当对某组数据的继续分组 不再有意义时,决策树对应的分枝便不再生长,此时生长过程宣告结束,形成了一 棵完整的决策树。决策树生长过程涉及到两个方面问题,第一,如何从众多的输入 变量中选择一个最佳的分组变量;第二,选定分组变量后如何从众多取值中找到一 个最佳的分割阀值。目前几个著名的数据挖掘软件( s a s e m 、s t a t i s t i c a d m 、 c l e m i n t i n 、w i n s e t 等) 中均有若干决策村算法可供选择。用户只需根据需处 理的数据特点选择适当的方法并给定参数即可很容易地构建决策树从而完成分类 功能。 2 2 2 贝叶斯( b a y e s ) 分类算法 贝叶斯( b a y e s ) 分类是统计分类方法,它是一类利用概率统计知识进行分类 的算法【2 引。在许多场合,朴素贝叶斯( n a i v e b a y e s ) 分类算法可以与决策树和神经 网络分类算法相媲美,该算法能运用到大型数据库中,且方法简单、分类准确率高、 速度快。由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值,而 此假设在实际情况中经常是不成立的,因此分类准确率可能会下降。为此就出现了 华中科技大学硕士学位论文 许多降低独立性假设的贝叶斯分类算法,如t a n ( t r e ea u g m e n t e db a y e sn e r o ) 算法。 2 2 3 基于关联规则的分类算法 c b a ( c l a s s i f i c a t i o nb a s e do na s s o c i a t i o n ) 是基于关联规则发现方法的分类算法。 该算法分两个步骤构造分类器。第一步,发现所有形如x l l a x i 2 = c i 的关联规则, 即右部为类别属性值的类别关联规则( c l a s s i f i c a t i o na s s o c i a t i o nr u l e , c a r ) 。第二步, 从己发现的c a r 中选择高优先度的规则来覆盖训练集,也就是说,如是有多条关 联规则的左部相同,而右部为不同的类,则选择具有最高置信信度的规则作为可以 规则【2 9 】。 2 2 4 神经网络 神经网络就是一组相互连接的输入输出单元( 又称神经元) ,单元之间的每个 连接都与一个权重相关联。在网络学习阶段,网络通过调整权重来实现样本与其相 应类别的对应。神经网络训练完毕后,只要把数据输入到己训练好的神经网络输入 端,就可以从输出端直接得到分类结果1 3 0 1 。 神经网络分类过程可以分为训练和分类两个阶段。在训练阶段,首先定义网络 的拓扑结构,再对训练样本中的每个属性的值进行规范化预处理,然后用神经网络 对已预处理的输入进行学习。训练完毕后,用训练好的神经网络对标识样本进行分类。 神经网络法的优点是有较强的抗噪能力,对未经训练的数据也具有较好的预测 分类能力。神经网络的主要缺点是它的知识表示问题,也就是说用加权链连结单元 的网络所表示的知识很难被人理解。此外,神经网络法的学习时间较长,仅适用于 时间容许的应用场合,对于如网络结构等关键参数,通常需要经验方能有效确定。 2 3 分类算法研究与比较 对分类评估和比较的尺度主要有以下四个方面【3 l 】: ( 1 ) 预测的准确度。预测的准确度是使用的最多的一种评价尺度,特别是对 于预测性的分类任务。这涉及模型正确地预测新的数据类的能力。 1 0 华中科技大学硕士学位论文 ( 2 ) 计算的速度和复杂度。计算的速度和复杂度依赖于具体的实现细节和硬 件环境,在数据挖掘中,由于操作的对象是数据量较大或非常大的数据库,所以空 间和时间的复杂度及运算的速度,都是非常重要的问题。 ( 3 ) 模型的可解释性。模型的可解释性非常重要,采用规则表示的分类构造 法就更加易于解释和理解。 ( 4 ) 模型的延展性。即可伸缩性,如果用于海量数据,看是否能有效地构造 模型。 本文选择决策树分类法进行研究,主要基于以下几点考虑: ( 1 ) 决策树方法能够生成可以理解的规则。决策树是以树型结构表示最终分 类结果的,而且还可以生成i f - t h e n 形式的规则,这样接近于人们对现实世界事物的 认识和表示方式。 ( 2 ) 决策树方法的计算量相对来说不是很大。本系统主要是实际应用,因此 工作效率比较重要。 ( 3 ) 决策树方法可以处理连续和离散数据。人力资源管理数据涵盖面较广, 包含的种类也比较多,不仅有定性属性( 即离散型数据) 还有定量属性( 即连续型 属性) 。其中,定性属性占多数。而决策树方法处理离散数据的效果比较好,同时 也可以处理连续型数据。 ( 4 ) 决策树可以清晰的显示出属性的重要程度。决策树是通过计算信息熵选 择分裂属性的,而信息熵正是该属性重要性的度量标量。 综合决策树算法上述特点和高校人力资源结构化特征,本文选择分类技术中的 决策树方法应用于高校人事管理系统。 2 4 高校人事管理中的分类算法 决策树方法的起源是概念学习系统c l s ,然后发展出了多种算法3 2 - 3 5 1 ,例如: c a r t 、a s s i s t a n t 、i d 3 系列等,其中以q u i n l a n 提出的i d 3 系列发展尤为迅速, 应用也较广。q u i n l a n 于1 9 7 9 年提出i d 3 算法,极大地推动了决策树算法的应用, 1 9 9 3 年,q u i n l a n 又在i d 3 的基础上提出了能处理连续属性的c 4 5 算法,从而成为 华中科技大学硕士学位论文 决策树算法的主流。 构造一个决策树分类器,它的输入是一组带有类别标记的例子,构造的结果是 一棵二叉树或多叉树。树的内部接点是属性,边是该属性的所有取值,有几个属性 值,就有几条边。树的叶子节点都是类别标记。 构造决策树的方法是采用自上而下的递归构造。它的构造思路是,如果训练例 子集合中的所有例子是同类的,则将其作为叶子节点,节点内容即是该类别标记。 否则,根据某种策略选择一个属性,按照属性的各个取值,把例子集合划分为若干 子集合,每个子集上的所有例子在该属性上具有同样的属性值。然后在依次递归处 理各个子集。直到符合某种停止条件。 c 45 算法是q u i n l a n 在i d 3 算法的基础上改进而来的,两者相辅相成,因此要 了解c 4 5 就要先了解i d 3 。 i d 3 是q u i n l a n 提出的一种自顶而下( t o p d o w n ) 的决策树生成算法。是一种 根据熵减( e n t r o p yd e d u c e ) l 里论选择最优的描述属性的方法。生成树的思路是对于 集合s ,对于分类c ,找到一个评价函数f ( s ,c ) ,用函数f ( s ,c ) 挑出对分类贡献最 大的属性作为根节点( m o t ) ,以此属性的取值为依据,对应每个取值,在根节点下生 成一个分支,从而将s 划分为s i ( i = 1 ,2 ,n ) 个不同的子集,在s i 上递归的生成树, 直到满足某种停止条件。由此思路,可见问题的关键是如何去找f ( s ,0 。q u i n l a n 提出了基于信息熵来构造评价函数f ( s ,c ) 。 i d 3 算法在每个节点选取最佳分类属性时应用的是最小消息长度原则 ( m i n i m u m m e s s a g el e n g t h ,m m l ) 原则,力图使最后构造出来的决策树编码 长度最小。因此,计算每个节点的熵值和根据属性分类后的熵值,熵值降低最多的 分类就是该节点的最优分类。q u i n l a n 把在该节点的熵减叫做信息增益( i n f o r m a t i o n g a i n ) 。 g a i n ( s , a ) ;基于属性a 对样本集s 排序整理后的熵减 数学公式为: l 。i g a i n ( s ,彳) = e n t r o p y ( s ) - 铷t r o p y ( s ,) ( 2 1 ) 1 2 华中科技大学硕士学位论文 l 。i 公式中:e n t r o p y ( s ) 为按属性a 划分前的熵, 旱砌t r o p y ( s ,) 为按属性 t e v a l u e s ( a ) r l a 划分后剩余的平均熵。两者之差g a i n ( s ,a ) 即是熵减。令g a i n ( s ,a ) 最大的a 即 为最佳划分属性。 i d 3 算法也有其不足之处: ( 1 ) i d 3 利用信息增益作为分类评价函数来选取最优属性,而这种选择标准容 易倾向于选择取值较多的属性,但取值较多的属性并不都是最重要的属性。 ( 2 ) i d 3 只能处理具有离散值的属性,对连续值属性无能为力。这一点对本文 极为重要,本文中的数据集存在大量连续值属性,必须要求采用的决策树算法能够 处理连续值。 ( 3 ) i d 3 算法没有考虑训练集中的缺值问题。 针对i d 3 算法的这三个主要缺点,c 4 5 算法对其进行了一一改进。 ( 1 ) 分类评价函数的改进 c 4 5 对i d 3 最大的改进就是修改了分类评价函数,用信息增益率( i n f o r m a t i o n g a i nr a t i o ) 取代信息增益作为新方法的分类评价函数。作出这一改进主要是解决 1 i ) 3 容易倾向于取值较多的属性这一缺点。 i d 3 选择使g a i n ( s ,a ) 最大的属性a 作为分支属性,这种方法使生成的树平均 深度较小,从而有较快的分类速度。使用这个方案虽然得到了相当好的划分结果, 但是正如上文提到的,它存在一个缺陷:倾向于选择取值较多的属性。这种倾向性 很容易理解,从上面对熵的概念的解释可以很容易看出来:所谓熵减最大,意味着 信息编码的平均长度最短。而选择多值属性,一次把当前节点分裂成越多的子树, 整个树的平均深度显然有越短的趋势。 由于存在对多值属性的这种偏好性,有可能导致得到的决策树预测效果降低。 一个极端情况是,如果有一个属性,它的取值很多,以至于按照它来分类,每个子 树都只分到了一个训练实例。这种情况下,显然按照这个属性划分,会使得整个树 的熵减最大。可是从预测的角度来看,这样得到的树几乎是没有用的。 华中科技大学硕士学位论文 为了弥补这个缺陷,q u i n l a n 在c 4 5 中提出了信息增益率的概念。信息增益率 定义为: g a i n p , a t i o ( x ) = 翥器 ( 2 z ) 其中, 刚m d o ( x ) = 喜斜咄c 斜, 眨, 它表示把t 分成n 部分而生成的潜在信息。 c 45 选择使g a i nr a t i o ( x ) 最大的属性x 作为分支属性,很好地解决了i d 3 的 多值属性偏好问题。 ( 2 ) 离散属性的改进 c 4 5 对i d 3 的另一大改进就是解决y i j i i 练数据中连续属性的处理问题。而i d 3 算法能处理的对象属性只能是具有离散值的数据。 c 4 5 中对连续属性的处理采用了一种二值离散的方法,具体来说就是对某个连 续属性八找到一个最佳阀值t 根据a 的取值与阀值的比较结果,建立两个分支 a = t ( 右枝) ,t 为分割点。从而用一个二值离散属性a ( 只有 两种取值 = t ) 替代a ,将问题又归为离散属性的处理。这一方法既可以 解决连续属性问题,又可以找到最佳分割点,同时就解决了人工实验寻找最佳阀值 的问题。 具体的处理策略为:在某一判断点处,如该节点的集合s 由n 个实例组成,对 于某个连续属性a ,大致分三步进行处理: 实例排序 首先,将该判定节点处所有的实例按连续属性a 的增序排列,得到属性值序列 ( v l ,v 2 ,v n ) 。 生成候选分割点 任何位于和v i + l 之间的分割点都能同样的将s 中所有的实例划分为两类: 属性的取值属于( v 1 ,v 2 ,v i ) 的实例和属于( v i + l ,v i + 2 ,v n ) 的实 1 4 华中科技大学硕士学位论文 例。这样,在a 上有n 1 种可能的分割点。第i 个分割点为( + + 1 ) 2 。 候选分割点的评价和选择 通过对第二步产生的所有分割点进行评价,从中选择一个最好的分割点t a 。 q u i n l a n 评价最好分割点的标准为信息增益,即选择令i n f o r m a t i o ng a i n 最大的分 割点作为最优。 ( 3 ) 缺值问题的改进 构造决
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年传媒行业网络舆情应对能力5G技术下信息传播加速的舆情应对考核试卷
- 2025年物流供应链协同平台搭建与运营物流供应链管理考核试卷
- 混凝土协议书
- 商品房预定协议书
- 农业生产资料供应合同(GF-2000-0151)2025年执行
- 营销方案练习
- 煤炭运输保险合同协议
- 陕西微信二维码营销方案
- 古墓营销方案
- 2025-2030企业考勤管理系统生物识别模块升级需求分析
- 头部手术备皮方法
- 企业内部控制培训课件完整版
- 气瓶检验员考试题库
- 五年级上册生命与健康教案
- 学位申请书单位评语
- 新能源汽车火灾事故处置程序及方法
- 九年级语文上册-谈骨气-吴晗-课件
- 教育专业的大学生职业规划书
- GB/T 6283-2008化工产品中水分含量的测定卡尔·费休法(通用方法)
- 中海油劳动合同范本(标准版)
- 施工机械设备情况及进场计划
评论
0/150
提交评论