已阅读5页,还剩71页未读, 继续免费阅读
(管理科学与工程专业论文)密度算法及其在HRM中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东师范大学硕士学位论文 摘要 随着现代企业的信息化快速发展,信息系统产生的数据量目益增大,从大量 的数据中提取有用信息并非易事。如何有效地利用海量的原始数据分析现状、预 测未来,已成为人类面临的一大挑战,数据挖掘就是为了满足这种需要而产生的。 聚类分析是数据挖掘中的一个重要研究领域,近年来,随着卫星遥感、传感 器网络、高能物理研究等技术的发展,大量的数据被存储在数据库中,这些数据 具有维度高、数据分布稀疏、噪声数据多的特点。在很多应用场合下,这些数据 分布在不同的节点上,如果使用传统的聚类算法从这些分布式数据中提取信息, 就必须把这些数据合并到一个中心站点上。由于传输速度和安全因素的限制,把 各个站点的数据都集中到中心站点上是十分困难的,在某些领域中把数据集中到 一个站点几乎是不可能的,额外开销很大。 k d m e 锄s 算法是基于k m e a i l s 的分布式聚类算法,本文针对k d m e 雒s 算 法在k d m e a n s 在每次迭代过程中站点间要传送大量的数据对象,由于带宽限制、 网络延时等问题导致通信代价很大,尤其在处理大数据集时,通信代价远大于计 算代价,算法总体效率很低等不足进行了改进。改进后的算法能够有效地处理传 递少量的聚簇信息,执行效率很高。并能够有效地解决已有分布式密度算法存在 的对噪音和异常数据处理能力弱、不适应高维数据以及各节点局部聚类结果规模 较大的不足。 在将理论技术应用到实践方面,本文在分析了中国企业现有的绩效评估体系 现状以及现有绩效评估方法缺陷的基础上,根据本人参与开发h i 蝴系统的经验, 将基于改进密度算法的聚类分析方法应用于员工绩效评估中,具体做法为:根据 员工的各种绩效评估指标,首先建立员工绩效评估的聚类分析模型,然后采用改 进密度算法对员工进行聚类。通过聚类,从而对公司的员工有效地进行分类,有 了这些分类,就能为人事规划和人事调整提供有效的决策支持。 本文首先介绍了分布式聚类算法研究现状、绩效管理发展现状,聚类分析的 原理、发展、聚类分析方法和聚类分析的应用,接着介绍了基于密度的分布式聚 类算法研究现状,然后阐述了分布式聚类算法的原理,分析了分布式聚类算法的 山东师范人学硕:卜学位论文 优点和不足,并阐述了现有的几种改进方法。有了以上的理论基础,提出了改进 密度算法以及该算法的聚类分析模型,并给出了相应的算法流程和实现,并进行 了仿真实验,和其他聚类分析算法进行了比较。之后,本文在第三章简要介绍了 人力资源管理理论和绩效评估理论,分析了现有的几种绩效评估方法及其他们的 优缺点。并结合本人的项目开发经验,将改进的密度算法应用在员工绩效评估系 统中,并在第四章实现了一个完整的基于改进密度算法聚类分析的员工绩效评估 系统。通过大量的数据测试以及结果分析发现,本文提出的改进算法是在利用局 部密度算法七一p c l d h d 算法得到聚簇和噪声点集,然后利用k m e a n s 算法生成各 个聚簇的特殊中心点,将这些特殊中心点和噪声数据点集传播给所有从站点,可 以解决数据高维性及其传递数量大的问题。文章最后对整个算法和系统的开发设 计工作做了总结,提出了下一步的工作,并提出了一些展望。 关键词:数据挖掘聚类分析分布式聚类密度算法改进密度算法人力资源管 理绩效评估 中图分类号:t p 3 1 1 山东师范人学硕士学位论文 a b s t r a c t f r o mm ev i e wp o i n to fe c o n o m i c s ,t oo b t a i nt l l ep o s t 舯d u a t ed e g r e e b e l o n g st oa w i lt h er a p i dd e v e l o p m e l l to fm o d e n le n t e 叩r i s e ,d a t ag e i l e r a t e d 舶md i 侬氍n t i n f o 姗a t i o ns y s t e m sb e c o m em o r ea n dm o r e i ti sr e a j l yn o te a s yt oe x t j a c t u s e 如1 i n f o n i l a t i o nf 两ms u c h 锄o u n to fs o u r c e s h o wt ou t i l i z et h eh u g eo 舀n a ld a t at o 眦a _ i y s e c 1 玎? r e ns i t u a t i o n 甑dp r e d i c t 如t u r eo fq u a n t i t i e se 饪l e c t i v e l y ,h a sa l r e a d y b e o o m eag r e a tc h a l l e n g em a tt h eh u 【m 锄b e i n g sh a v ef a c e d d a t am i n i n gi sd e v i s e dt 0 s o l v et h ep r o b l 锄 c l u s t e ra 1 1 a l y s i si sa j li m p o r t a n tr e s e 甜c ha r e ai nd a t a m i n i n g n o w a d a y s ,w i t l lm e t e 咖l o l o g yd e v e l o p m e i l ts u c ha s s a t e l l i t er e m o t e s e n s i n g , s 胁s o r n e 咐o r k s , l l i g h e n e r g yp h y s i c sr e s e a r c h ,l a r g e 锄o u l l to fd a t ai ss t o r e di i lm ed a t a b a s e ,w l l i c h h a v et h ec h a r a c t 嘶s t i c so fh i 曲d i m e l l s i o n ,s p a r s ed i s t r i b 谢o na 1 1 dm a i l yn o i s ed a t a i n m a n ya p p l i c a t i o n s ,m e s ed a t 嬲d i s t r i b u t e o nd i 缅湘n tn o d e s i fy o uw 觚tt o g c t i n f o 肌a t i o n 丘。o mt h e s ed i s t r i b u t ed a t a su s i n gt h em e t h o do f 仃 l d i t i o n a la l g o r i t l l m ,y o u m u s tm e r g e r也e s ed a t 雒 t on l es 锄ec e n t e r b e c a u s eo ft h ec o n s 仃a i n t so f t m s m i s s i o ns p e e da i l ds e c u r i t y i ti sd i 伍c u l tt oc o n c e i l 的t et h ed a t ao fe a c hs i t et 0t h e c c n t e rs i t e i i ls o m ea r e a s ,i ti sa l m o s ti m p o s s i b l et 0c o n c e i l 仃a t et h ed a t as e tt 0o n e s i t e ,t h ea d d i t i o n a lc o s ti sl 孤苫e k d m e a i l sa l g o t h mi sb a s e d0 nt h ed i s t r i b u t e dc l u s t 秭n ga 1 9 0 r i t h mo f k - m e a n s ,t h i sp a p e rd i r e c t t i n gt h el a c k si m o p r o v e dal o t ,s u c ha sk - d m e a n sa l g o r i t h m n e c dt os 肌dm a n yd a t ao b j e c t si l l “e 巧i t e r a t i v ep r o c e s s ,b e c a u s eo fb a i l d w i d m l i m i t a t i o n s , n e t w o r kl a t e n c ya n do m e ri s s u e sc a u s ea l a r g ec o m m u n i c a t i o n c o s t ,e s p e c i a l l yi i ld e a l i n gw i t hl a r g ed a t as e t s ,m ec o m m u n i c a t i o nc o s ti s 衍g r e a t e r t l l a nt h ec o s to fc o m p u t i n g ,a l g o r i m mi sv e r yl o we t s t h ei m p r 0 i v e da l g 嘶t h mc 觚 e f f e c t i v e l yd e a lw i t ht r a n s m i s s i o no fas m a l la m o u l l to fc l u s t e r i n gi n f o 珊a t i o n ,t h e e m c i e n to fi m p l e m e n t a t i o ni sv e 叮i l i 曲i ta l s oc a l ls o v l e l ep r o b l e m so ft l l e d i s t r i b u t e dd e n s i t ya l 鲥t h o m ,s u c ha sw e a ka b i l i t yi nm en o i s e sa n da b n o m a l d a t a s ,n o ts u i t i n gt oh i g l ld i m e i l s i o n a ld a t aa i l dt h el a c k so fl o c a ln o d e c l u s t 硎n gr e s u l t i i i i sl a r g ee t c 山东师范人学顾f :学位论文 i nt h ef a c eo f 印p l y i n gm e o 哆t e c t l n o l o g ) ,t op r a c t i c e ,t h i sp 印e ra n a l y s i sc h i n e s e t e 印r i s e p e r f b 肌a u l c ee v a l u a t i o ns y s t e mo f t h ee x i s t i n gs t a t u s 嬲w e ua sm e t h o d so f p e r f o m l a i l c ee v a l u a t i o nm e m o d ,w i t l l 1 ee x p e r i e n c e st h a tm ea u t h o r sd e v e l o p i n gm e s y s t 锄 o fh i m ,an e wp 晌彻a n c ee v a l u a t i o nm e t h o di s p u t f o n 裥i nt h i s p 印既t h i sm e t h o di s a ne l n p l o y e ep e r f o 咖a 1 1 c ee v a l u a t i o nc l u s t e r i f 培m o d e l ,w h i c h b 硒e do ni m p r o v e dd e n s i t yc l u s t e 矗n ga l g o r i t h m t h ed e t a i lm e m o di sm a t :a t f i r s t ,a c c o r d i n g t 0 e v e r y k i n do f 锄p l o y e e s p e r f o 姗a n c e e v a l u a t i o n i i l d e x ,t h e 锄p l o y c ep e r 】f - o m a i l c ee v a l u a t i o nc l u s t 甜n gm o d e li se s t a b l i s h e d t 量l e i lt l l ee m p l o y e 昭 a r ec l u s t e r e da i l dc l a s s i 6 e db yu s i n gi m p r 0 v e dd e 王l s 时c l u s t 嘶n ga l g o r i t h m a n dm e c l 硒s i f i c a t i o nr e s u hc a no 行醯d e c i s i o ns u p p o r tf o rp e r s o n n e lp r o 黟锄a n da d j u s t i n g i l lt h i sa n i c l e ,t h ea u t h o rf i r s ti n 仃o d u c e sd i s t r i b u t e dc l u s t e 而n ga l g o n t h mr e s e a r c h , p 刊f b m a l l c em 蚰a g 锄e n td c v e l o p m e n t ,a i l dc l u s t e ra 1 1 a l y s i s ,d e v e l o p i l l e n t ,a n dc l u s t e r 锄a l y s i sm e t h o d s 锄dt h ea p p l i c a t i o no fc l u s t e ra n a l y s i s ,t h e i li ti 加的d u c e sd i s t r i b u t e d c l u s t e 曲ga l g o r i t l l l i lb a s e do nd e n s i t y ,锄dp r i n c i p l eo fd i s t r i b u t e dc l u s t 嘶n ga l g o r i m m , t l l es t - e n g t h sa i l dw e a i ( i l e s s e so fd i s 劬u t e dc l u s t 嘶n ga l g o r i t h m 觚a l y s i s ,a n ds e to u t s e v e r a “m p r 0 v e m e n t si ne x i s t i n gm e t h o d s b a s e do na b o v et h e o r i e s ,t h en e wd u s t e r i n g a i l a l y s i sm e t h o d ,讹c hb a s e do ni i i l p r o v e dd e n s i t ya l g o r i t h m ,i sp u tf o 刑a r di nt l l i s p a p e r t 1 1 e i lt h ea u m o rr c a l i z e st h ei i i l p r 0 v e dd e n s i t ya l g o r i t h ma n dd e s i 印锄 即眦l a t o r w i mt h ee i i l u l a t o r ,m ea l g o r i t h mi sc o m p 卸e dw i t l lo t h e rc l u s t e f i l 培a 1 1 a l y s i s a l g o t i t i l l i l s t l l e i l ,i f lc h a p t e r3m ea u t h o ri n t r o d u c e st h eh u m a l lr e s o u r c em a n a g e m e i l t t l l e r i e sa l l de x p a t i a t 懿o nm ef i x e dp o s i t i o no ft l l ep e r f o n n a n c ee v a l u a t i o ni nh u m a n r e s o u r c em a n a g ef i r s t l y ;a n dt h e i la i l a l y s e sm ea d v a n t a g e sa i l dd i s a d v a n t a g e so ft h e c i 】r r e i lp e r f o n i l a i l c ee v a l u a t i o nm e t h o d s a f t e rm a t ,t h ei n t e 掣觚tk n o w l e d g eo fm e 朗叩l o y e ep 曲m l a n c ee v a l u a t i o nc l u s t 嘶n gm o d e li se x p a t i a t e d i i lc h a p t e r4 ,m e a u t h o rr e a l i z e sac o m p l e t ee m p l o y e ep e r f l o m a j l c ee v a l u a t i o ns y s t e m a c c o r d i n g1 a 唱e n u n l b e r so fd a t at e s ta n dr e s u l t 锄a l y s i s ,i ti s a p r o v e dm a tm eh n p r 0 v e dd e n s 时 a l g o r i t h m 、h i c hi sb a s e do nl o c a ld e i l s i t y 七一p c l d h dt og e tc l u s t 甜n ga n dn o i s e p o i n t s ,t h e nu s ek m e a n st og e i l e r a t ea l lm es p e c i a lc e n t e r s ,a n dp a s tt h e s es p e c i a l c e n t e r sa n dn o i s ep o i n t st oa l lt h es l a v es i t e s ,c a ns 0 1 v eh i 曲- d i m e n s i o n a ld a t aa n dt h e i v 山东师范大学硕上学位论文 q u e s t i o n so ft 瑚s m i s s i o nl 鹕en 啪b e rp o i n t sa r l ds oo n f i n a l l y ;t h i sp a p e rs u m m a d e s t h ew h o l ew o r ka i l dp u t sf o 刑a r dt h e 如n h e rw o r ka n de x p e c t a t i o n k e yw o r d s :d a t am i l l i i l 舀c l u s t 嘶n ga n a l y s i s ,d i s t r i b u t e dd a t ac l u s t e r i n g ,d e n s i t ya l g o r i t h m ,i m p r 0 v e dd e n s 时a l g 耐t h m ,h u m 趾r e s o u r c em a l l a g e m e n t ( h r m ) , p e 墒n n a l l c ee v a l u a t i o n c l a s s i f i c a t i o n :t p 3ll v 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得( 注:如没 有其他需要特别声明的,本栏可空) 或其他教育机构的学位或证书使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示谢意。 学位论文作者躲参j 耗砷 导师签字 学位论文版权使用授权书 本学位论文作者完全了解邋有关保留、使用学位论文的规定,有权保留 并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本 人授权邋可以将学位论文的全部或部分内容编入有关数据库进行检索,可以 采用影印、缩印或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在解 密后适用本授权书) 学位论文作者签名: 剀栖乃f 7 导师签 签字日期:2 0 0 歹年6 月罗日 签字日期:2 0 0 山东师范人学硕 :学位论文 1 1 论文研究目的和意义 第1 章绪论 “物以类聚,人以群分 ,聚类分析也正是基于这个出发点的一种数据分析 处理技术。概括来讲,聚类分析是数据在无先验知识无指导下进行无监督分类的 一种数据挖掘技术。通过先进算法的恰当采用,发掘潜藏的有价值的信息,提高 数据分析和解释的质量,也为其它后续数据分析和整理工具对数据的再处理或理 解提供科学的判断依据。聚类分析是一种重要的数据分析技术,同时,聚类分析 作为数据挖掘的一个重要研究方向,现在已经在很多领域中得到广泛的应用,如 电子商务、市场营销、生物学、模式识别、图形图像等领域。通过聚类分析,能 够发现数据的分布模式以及数据之间的相互联系。在市场营销上,聚类分析能帮 助销售人员通过客户的基本信息和购买能力来对客户进行有效的分类,划分出不 同的客户群并提取出相应的客户群特征。在生物学上,聚类分析可以动植物进行 分类,得到不同的生物种群,获得对种群固有结构的认识。 要得到一个好的聚类效果,要根据不同样本的要求选择一个最佳的算法,目 前,对聚类分析算法的研究有很多,有传统聚类算法也有现代聚类算法。比较著 名的有划分法如模糊k 一均值算法、k 一中心点算法,基于密度的方法如o p l i c s 算 法,模糊聚类法如c 均值f c m 算法等。 而在现实环境中,业务的跨地域分布通常导致数据库跨地域分布,多个数据 库通常通过网络连接在一起,数据挖掘的任务有时要同时针对这多个数据库:随 着w w w 应用的日趋普及,i n t e r n e t 已成为当今世界最大的分布数据源,i n t e r n e t 中的数据正以几何级数增长,而且i n t e r n e t 本身就是一个巨大的分布式系统。 如何应用i n t e r n e t 中的庞大数据资源,发现和获取其中有价值的知识,已经成 为人们必须正视的问题。而分布式数据挖掘是在i n t e r n e t 中发现和获取有用知 识的最佳方法之一。分布式数据挖掘为从“海洋数据”中开采有用的知识提供了 有效途径,它将在金融投资、电信、市场营销、气象和灾难预报、科学决策、 i n t e r n e t 信息浏览等方面发挥巨大的作用,具有广阔的应用前景。分布式数据 挖掘的研究是近几年提出的一个新的研究领域,从广义上讲,分布式环境下的数 山东师范人学硕l :学位论义 据挖掘,都可称为分布式数据挖掘。迄今为止,人们对分布式关联规则分析2 3 1 , 分布式分类分析【4 ,5 1 以及分布式聚类分析【6 1 等都已经展开研究并取得了一些成 绩。 传统的聚类算法只适用于集中式数据的聚类。随着网络的广泛应用,大量的 数据将分布存在。由于网络带宽、站点存储量、信息安全及隐私保护等限制,把 不同站点的数据全部集中到某一个中心站点进行全局聚类几乎是不可能的。所有 站点数据集中在一起,数据量会非常庞大,聚类效率会显著降低。已有的聚类算 法大多基于内存,可扩展性较差【7 】,不能有效应用于大数据集。 分布式聚类是传统聚类方法在网络环境下的扩展与改进,能够有效的处理分 散的大规模数据集。即在分散的结点上进行局部聚类分析,通过各个结点问聚类 信息的通信、分析处理得到最终聚类结果。目前,分布式聚类研究较少,现有的 分布式聚类算法大多是传统聚类算法在分布式环境下的扩展与改进,这些方法在 性能和精度上不一而足都存在缺陷。这就促使了我们进一步研究效率更好,精度 更高的基于密度的分布式聚类算法。 现代企业之间的竞争,归根到底是人才的竞争,是人力资源综合素质的较量, 也是人力资源配置优劣的较量。伴随着传统人事管理向现代人力资源管理的发 展,人力资源管理的参谋和咨询、以及在制定和执行企业战略方面的作用同益增 强,越来越多的企业意识到了人力资源在企业核心竞争力方面的作用,人力资源 管理已经成为企业获得竞争优势最有力的工具。如何把人力当作特殊的资源来开 发,使企业在竞争中获得生存和发展,而且能始终保持蓬勃的生机与活力,也就 必然成为现代企业管理的第一要务。 人力资源进行管理的核心就是认识人性、尊重人性、激励人性,以达到“以 人为本、为人服务的目标和境界。对员工激励计划、绩效管理系统和员工参与 决策等方面的研究显示,人力资源管理水平与企业的生产力水平之问有着强烈的 正相关关系。在评价企业生产力水平的诸多标准中,员工的工作绩效是最具有说 服力的标准。所以说对于入力资源管理效果进行评价的唯一标准只能是绩效。 随着计算机技术的飞速发展,在企业应用上,从m r p ( m a n u f a c t u r i n g r e s o u r c e sp l a n n i n g 带0 造资源计划) 至0e r p ( e n t e r p r i s er e s o u r c ep 1 a n n i n g 企 2 山东师范人学硕l 学位论文 业资源计划) ,企业的信息化发展也取得了前所未有的成就。近几年来,e r p 管 理思想和管理理念被逐渐引入我国,e r p 、c r m 、s c m ( s u p p l yc h a i nm a n a g e m e n t 供应链管理) 等先进的信息化新技术在我国的很多大中型企业得到了广泛的应 用。这些技术的应用与实旌,必然为企业经营的各个环节产生深刻的影响。 然而,到目前为止,国内还很少将计算机应用于企业组织及企业员工个人的 绩效评估系统,很多企业还仅限于手工评估,更多的甚至只是流于形式。但是在 企业普遍实施e r p 的高度信息集成化的今天,人力资源管理作为e r p 中重要的一 部分,也要实现与其融合。而传统的绩效评估方法不是缺乏客观性,就是缺乏科 学性。基于这个原因,结合新的绩效评估体系理论和评估方法,利用最新的计算 机技术开发一套应用于企业进行绩效评估的模型和系统,对企业战略发展及员工 个体发展提供指导,这是一种新的研究思路。有鉴于此,本文根据最近两年的研 究,结合前面提出的基于密度的分布式聚类分析模型,并利用现代计算机工具, 依托e r p 中的人力资源管理系统,将该聚类分析模型应用到员工绩效评估分类 中,完成了一个现代化和智能化的员工绩效评估系统,通过聚类分析对员工进行 分类评等。结果表明,这种方法比现有的绩效评估方法更新颖、更客观、更公正。 从而为企业绩效评估提供了一个科学的,有效的平台。 1 2 国内外研究现状 1 2 1 密度算法研究现状 目前提出的有代表性的算法有三种: ( 1 ) d b s c a n 算法:对于一个聚类中的每一个对象,在其给定半径的邻域中包 含的对象个数不能少于某一给定的最小数目,然后对具有密度连接特性的对象进 行聚类。在该算法中,发现一个聚类的过程是基于这样的事实:一个聚类能够被 其中的任意一个核心对象所确定。d b s c a n 算法可以挖掘任意形状的聚类,对数 据输入顺序不敏感,并且具有处理异常数据( 噪点) 的能力。该算法的时间复杂性 为d ( 胛2 ) ;在空间索引如r 水树的支持下,其复杂性为d 0 l o g ,1 ) 。 ( 2 ) 0 p t i c s 算法:0 p t i c s 算法生成数据点处理顺序主要用到了三个方法: o p t i c s 、e x p a n d c lu s t e r o r d e r 和o r d e r s e e d s :u p d a t e 。其中主循环o p t i c s 只是 3 山东师范人学硕i :学位论文 简单的从数据集中取得未被处理的数据点,交由e x p a n d c l u s t e r o r d e r 处理。后 者首先找到主循环送来的数据点的占邻域,设其可达距离为未定义并计算其核心 距离,然后将其加入处理序列。如果该点不是关于占和膨,z 胍的核心点则返回主 循环0 p ,i i c s 取下一个未被处理过的点:否则该点的核心距离小于等于占,算法 迭代的取得当前数据点关于s 和膨,z 鼢直接密度可达的各点。这些由当前核心点 扩展所得的直接密度可达数据点会被插进种子队列o r d e r s e e d 中等待进一步扩 展。种子队列中的各个数据点按照可达距离由小到大排序,此距离是相对于相应 的直接密度可达核心点的。当种子队列非空时,队首数据点被取出作为下一个扩 展对象,查找s 邻域,计算核心距离,然后加入处理序列。如果当前要扩展的对 象是核心点,则可能有更多的待扩展对象加入o r d e r s e e d 中。 向种子队列中插入数据点并处理其可达距离的任务由方法 o r d e r s e e d s :u p d a t e 完成。该方法会计算当前扩展对象到其每个直接密度可达 的邻居点的可达距离,并将其插入o r d e r s e e d 中:如果该邻居点不在队列 0 r d e r s e e d 中则直接按照其可达距离确定位置并插入;如果该点己经在种子队列 中,且新的可达距离小于原值,则按照新值调整该点在队列中的位置。 ( 3 ) k n n c l u s t 算法:密度聚类算法的另一种方式是构建数据空间的密度函 数。这种基于数据空间密度函数构造的方法具有坚实的理论基础,其本源是数理 统计学中的密度估计理论。由给定样本点集合求解随机变量的分布密度函数问题 的解决方法主要包括参数估计和非参数估计两种。参数估计又可分为参数回归和 参数判别分析。但经验和理论说明参数模型与实际的物理模型之间常常存在较大 的差异,这些方法并非总能取得令人满意的结果。由于上述缺陷r o s e n b l a t t 和 p a r z e n 1 提出了非参数估计方法,即核密度估计方法。由于此方法不利用任何 有关数据分布的先验知识,对数据分布不附加任何假定,是一种从数据样本本身 出发的研究数据分布特征的方法,因而在统计学理论和其应用领域如聚类分析中 受到高度重视。 1 2 2 分布式聚类算法研究现状 4 传统的数据挖掘方式是集中式的,在当前很多分布式计算坏境( 例如:因特 山东师范人学硕l :学位论文 网、企业内网、局域网、高速无限网络和传感器网络) 中不能很好工作。分布式 数据挖掘是随着数据挖掘领域的不断延伸而扩展出的一个新领域。目前,分布式 数据挖掘研究较少,现有的分布式数据挖掘算法大多是传统数据挖掘算法在分布 式环境下的扩展与改进。文献隋1 1 1 探讨了分布式数据库环境下聚类的相关问题。 分布式数据挖掘系统按照结构可分为两大类:紧密祸合系统和松散祸合系 统。紧密祸合系统主要是指多处理器的并行系统,即基于共享内存的多处理器并 行模式或有特殊的通信线路连接的分布式非共享的并行系统。在松散藕合系统 中,每个c p u 拥有独立的存储器,相互间通过通信线路来连接,也就是我们所说 的局域网、广域网、互联网等。松散祸合系统按照其组成的计算机种类又可分为 同构型分布式系统和异构型分布式系统。实际上我们更常见的是异构型分布式系 统。 在分布式环境下,影响数据挖掘执行的不仅仅是网络通信模型,数据的分布 也对挖掘策略有着重要影响。根据数据的集中或分散,我们可以采用两种策略, 即任务并行化方法和数据并行化方法。 在任务并行化挖掘中,各处理器面对的是一个数据整体。挖掘任务被划分为 若干子任务分配给各处理器,各处理器根据全局数据独立获得各自的局部知识, 最后将各局部知识合并为全局知识。任务并行化挖掘的优点是各处理器独立完成 各自任务,减少了通信量。它的问题是如何平衡各处理器的负载。解决的办法是 采用多次分配任务的方法,即任务的划分不是一次性的,而是每次根据计算的中 间结果重新划分任务,以使各处理器负载得到平衡。显然,这种办法所付出的代 价是通信开销。因此多次划分的方法较适合紧祸合的分布式系统。 在数据并行化方法中,全局数据被分为若干区域,各处理器有自己的局部数 据。根据不同的网络模型,可以采取两种方法:同步方式和异步方式。在同步的 方法中,各处理器必须同步以构造相同的模式,为达到这一目的,各处理器必须 交换信息同步挖掘。这种方法通信量大,单个处理器的开销较小,较适合紧祸合 的结构。在异步的方法中,各处理器根据本地数据集获得局部知识,然后归并各 , 局部知识以获得全局知识。在这种方式下,各处理器不必多次交换同步信息,通 信量较小,适合松藕合结构。但在这种方式下,归并各局部知识时会带来处理器 的额外开销,它的本地开销要比同步方式大。 5 山东师范人学硕f :学位论文 分布式数据挖掘具有集中式数据挖掘的特性,同时,由于它的分布性,从而 具有了更多新的特点。 ( 1 ) 全局挖掘和局部挖掘 和任何分布式系统一样,在分布式数据挖掘系统中,数据的物理位置可以是 分散的,单个节点的数据在逻辑上是一个整体。对于一个数据挖掘任务而言,如 果它是针对所有数据的,则称为全局挖掘:如果它是针对本地数据,则称为局部 挖掘。对于一个局部挖掘,它既可以独立于全局挖掘,也可以作为全局挖掘的一 部分;而对于一个全局挖掘,它既是一个不可分割的整体,也可以由若干局部挖 掘通过一定的方式组合在一起。 ( 2 ) 全局知识和局部知识 全局挖掘的结果,称为全局知识;局部挖掘的结果,称为局部知识。全局知 识并不是局部知识简单的合并,局部知识必须经过一定方式的组合和调整才能构 成全局知识。任何一部分局部知识的变化,都将影响到全局知识的变化。 ( 3 ) 挖掘部件的分布 这里的挖掘部件可以理解为一个挖掘算法。在分布式数据挖掘系统中,不但 数据、知识是分布存储的,各挖掘部件也可分布。它包括两种情况:各节点有 独立完整的挖掘部件这种情况下,各挖掘部件可以独立完成挖掘任务,获得局部 知识,也可以综合这些局部知识,获得全局知识。各节点只存放部分挖掘部件, 由它们可以构成一个完整的挖掘部件。这种情况下,各节点的挖掘部件不能独立 完成挖掘任务,必须相互配合,共同完成全局知识的获取。 ( 4 ) 挖掘的透明性 对于一个全局挖掘过程而言,它涉及到分布在各节点的数据。而对于一个全 局用户来说,该过程应该是透明的。如果分布式数据挖掘系统是建立在分布式数 据库系统基础之上的,那么,全局挖掘过程由分布式数据库中的全局概念模式支 持,挖掘的透明性是依靠分布式数据库实现的。如果分布式数据挖掘系统是建立 在多个数据库系统之上,即没有全局概念模式的支持,则它必须自己实现挖掘过 程的透明。对于无全局模式支持的情况,挖掘透明性是通过任务的分解和结果的 合并实现的。 ( 5 ) 并行化挖掘 6 山东师范人学硕一卜学位论史 在分布式系统中,数据挖掘算法效率与通信模型和数据的分布密切相关。对 于不同的体系结构,必须采用不同的并行挖掘策略。例如,目前的一些并行数据 挖掘算法,如f o m 等,它们大多是用于多处理器的紧祸合方式,对于松祸合方式, 如在l a n 等环境下,由于带宽、传输延迟等网络参数的不同,这些并行数据挖掘 算法并不适用。因此,在分布式环境中,应根据不同的通信模型,选择适当的数 据挖掘算法。同时,根据数据分布的不同,也应选择相应的并行化策略。 ( 6 ) 知识的增量式更新 当数据发生变化或挖掘时的参数发生变化,都需要更新挖掘结果。如果将挖 掘过程重新运行一遍,代价无疑是非常昂贵的。通常的办法是,充分利用已有的 挖掘结果,只针对改变的部分数据或参数进行挖掘,然后调整修改已有的规则。 在分布式数据挖掘中,知识的更新主要是指对全局知识的更新,主要有两种方式: 根据数据或参数的变化,直接对己有的全局知识进行增量式更新。根据数据 或参数的变化,先对局部知识进行增量式更新,然后根据局部知识的变化,调整 更新全局知识。 ( 7 ) 数据的实时挖掘 分布式数据挖掘中,挖掘是分布在各节点进行的,相对预先收集数据再集中 处理的挖掘方式,功能的分布使分布式数据挖掘系统能适合动态的、变化较快的 数据的分析处理。 通常情况下,一个分布式数据挖掘系统至少应该包含以下功能: ( 1 ) 数据的预处理。主要完成数据的获取和整理工作,包括获取、过滤、翻 译、优化、元数据生成等。 ( 2 ) 任务的解释和分解。主要完成对挖掘任务的解释,并将其划分为若干子 任务,包括接收、解释、策略选择、分解和发送。 ( 3 ) 挖掘的执行。选择并执行分布式数据挖掘算法。 ( 4 ) 规则的合并。主要指将各节点相应挖掘算法所产生的局部挖掘结果通过 适当的方式合并为用户所需的全局知识。 ( 5 ) 挖掘任务的控制。主要是指控制和监视整个数据挖掘任务的执行过程, 通过用户的干预和交互,调整挖掘任务的执行。同时还包括将挖掘任务的执行过 程和当前状态,以可视化的方式呈现给用户。 7 山东师范人学硕i :学位论文 ( 6 ) 规则的后处理。主要是对挖掘的结果进行处理,包括表现、清洗、存储。 ( 7 ) 规则的增量式维护。负责全局知识和局部知识的维护。当数据库上的数 据发生变化时,要根据变化更新局部知识和全局知识,同时,要保证系统全局知 识和局部知识的一致性。 ( 8 ) 其它。除以上各部分功能外,一个分布式挖掘系统还应具备其它一些功 能,如用户管理、故障诊断、任务恢复、安全性等。 j a m 系统是美国哥伦比亚大学s a l v a t o r e s 教授和佛罗里达理工学院 p h i l 工p c 教授等人设计的一个分布式数据挖掘系统,该系统可以从各个独立金 融机构的数据库中挖掘出关于诈骗的知识模式。 1 2 3 绩效管理发展现状 绩效管理在人力资源管理中起着核心作用,近十年一直是管理学心理学家研 究的热门领域,推出了大量的研究著作和实验报告。研究的重点是如何提高绩效 评估结果的精度,保证绩效评估的公平、公正1 2 。14 1 。b a l k i n 和g 0 m e z m e j i a 研 究指出,考核的公平性对员工的绩效、组织行为、工作满意度等起着积极的作用, 面对其他一些负面行为则会起到抑制作用 。 新的绩效评估方法出现在最近几年,一种新型的考评体系3 6 0 度反馈评 价体系被纷纷采用,它是一个组织或企业中各个级别的、了解和熟悉被评估对象 的人员,以及与其往来的内部顾客和外部顾客对其绩效、重要的工作能力和特定 的工作行为和技巧等提供可观的、真实的反馈信息,帮助其找出组织及个人在这 些方面的优势与发展的需求1 6 j7 1 。 现在已有蚁群算法、灰色聚类算法、自组织特征映射网、模糊数学应用于人 力资源管理,采用灰色聚类算法可以增加决策中的客观性,并对于具有相同得分 的人从品质上加以区分,还可以根据不同的要求确定不同的标准进行评判。但自 组织特征映射网存在的缺点为:一方面,没有剔除显性样本点;另一方面,样本 的选择过于单一。模糊数学中采用的是排序法、比较法、回顾分析法、趋势预测 法等方法,由于有些现象是用“模糊”的自然语言描述的,在具体实施时不好定 量化或定性化,主观性较大,如果处理不好,会影响人们的工作积极性。 8 山东师范大学硕1 :学位论文 1 3 论文结构 本文共分5 章,全文组织结构如下: 第一章,引言,简要介绍了论文研究目的和意义,密度算法、分布式聚类算 法国内外研究历史和现状,绩效管理发展现状,以及本文所做的主要工作。 第二章,首先阐述了聚类分析的基本知识,包括类的定义及表示,相似性测 度,类间的测度函数,常用的聚类策略,聚类的一般步骤,聚类分析的方法,并 重点叙述了k 一均值算法的流程和步骤,聚类分析的应用。接着介绍了分布式聚 类算法,主要介绍了基于k m e a n s 的分布式聚类算法和基于密度的分布式聚类算 法的基本原理、研究现状、优点和不足,并阐述了一些改进方法。然后根据笔者 最近两年的研究提出了一种新的方法:改进的基于密度的分布式聚类算法,并设 计了改进的基于密度的分布式聚类算法的聚类分析模型,给出了算法流程和实 现,并进行了仿真实验,和其他聚类分析算法进行了对比。 第三章,首先阐述了将基于改进密度聚类算法的聚类分析模型应用于绩效评 估的原因,然后简要介绍了人力资源管理基本理论,论述了绩效评估在人力资源 管理中的地位和重要性,阐明了绩效评估的相关理论,最后介绍了现有绩效评估 方法及其优缺点,并提出了本文的改进之处。 第四章,首先阐述了怎样确定绩效评估指标,然后依托改进密度聚类算法的 算法实现,将其应用到员工绩效评估分类中,采用a s p n e t 技术、c o m 组件技术 和s q l s e r v e r 数据库开发实现了员工绩效评估系统。 第五章,对本文的所有工作进行了总结,并提出了展望。 9 山东师范火学硕一i :学位论文 第2 章基于改进密度算法的聚类分析研
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 病虫害抗性机制解析-洞察与解读
- 道路交通安全示范课件
- 冬季消防安全主题班会课件
- 《桂花雨》第二课时教学设计
- 2025 三年级数学上册测量拓展提高课件
- 2026届福建省清流县第二中学化学高二第一学期期中达标检测模拟试题含解析
- 2025 三年级数学上册倍的认识合作学习任务卡课件
- 扬州市扬州中学2026届高一化学第一学期期中经典模拟试题含解析
- 2026届上海市宝山区通河中学高二上化学期中学业质量监测试题含解析
- 广西壮族自治区桂林市小学二年级上学期数学期末测评卷
- 2025广东广州市越秀区流花街招聘党建工作指导员1人笔试考试参考题库及答案解析
- 2025年抗菌药培训考试题及答案
- GB/T 21782.4-2025粉末涂料第4部分:爆炸下限的计算
- 冀教版(2024)数学一年级上册第三单元《认识11~20》综合计算练习卷(含解析)
- 2025年宏观经济学试题库及练习题及答案
- 2025黑龙江齐齐哈尔市龙沙区南航街道公益性岗位招聘1人笔试考试参考题库附答案解析
- 调酒师基础考试题及答案
- 高中化学教学质量分析与提升策略
- 2025宁夏交通建设投资集团有限公司校园招聘和社会招聘230人(1号)笔试考试参考试题及答案解析
- 电气安装工程预算表
- 《中国乳腺癌诊疗指南》(2025版)
评论
0/150
提交评论