(计算机应用技术专业论文)数据挖掘在高校人力资源系统中的应用与研究.pdf_第1页
(计算机应用技术专业论文)数据挖掘在高校人力资源系统中的应用与研究.pdf_第2页
(计算机应用技术专业论文)数据挖掘在高校人力资源系统中的应用与研究.pdf_第3页
(计算机应用技术专业论文)数据挖掘在高校人力资源系统中的应用与研究.pdf_第4页
(计算机应用技术专业论文)数据挖掘在高校人力资源系统中的应用与研究.pdf_第5页
已阅读5页,还剩85页未读 继续免费阅读

(计算机应用技术专业论文)数据挖掘在高校人力资源系统中的应用与研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 高校由人事管理到人力资源管理的转变是赢得竞争力的必然趋势。高校人 事管理信息化积累了越来越多的历史数据,迫切需要一种技术来发现隐藏在数 据背后的有价值的信息。数据挖掘的研究为开掘这种数据资源提供了可能,它 能对繁杂的数据进行有效地组织,通过公正客观的统计和分析,快速而正确地 找出隐含的模式,准确地掌握未来动态。 本文针对高校人力资源管理工作的实际需要,对数据挖掘技术、数据仓库 技术在高校人力资源系统中的应用进行了较为深入、系统的研究。 本文首先对回归分析等相关技术进行了研究,结合高校教师人数预测这一 回归挖掘任务,重点分析了基于最t j 、- - 乘法的多元线性回归分析方法,并对多 元线性回归方程和回归系数的显著性检验方法进行了详细论述,进而采用这种 方法设计了高校教师人数回归挖掘算法 本文对经典关联规则挖掘算法进行了研究和总结,详细分析了a p r i o r i 算法 的不足和性能瓶颈,并以此作为突破点改进了a p r i o r i 算法,以用于对师资队伍 结构进行关联规则挖掘。改进算法借助s q l 技术直接生成频繁项集,省去了传 统算法中创建候选集的步骤。另外,改进算法结合具体应用,扩展了布尔型关 联规则挖掘算法,允许用户选择挖掘属性,并在挖掘前不需对现有关系型表结 构进行转换。在对关联规则进行评价时,改进算法在原有“支持度置信度”框 架基础上,加入了影响度,避免了高置信度的误导规则的出现。 本文还探讨了数据仓库的设计、实旌方法,并详细论述了设计、建立高校 人力资源数据仓库的整个过程。通过对现有数据和多维数据建模方法的分析, 本文设计了高校人力资源数据仓库的概念模型、逻辑模型和物理模型,并利用 o w b 工具及s q l 技术完成了数据仓库的构建工作。 最后,本文利用高校人力资源数据仓库提供的良好挖掘环境,将回归挖掘、 关联规则挖掘应用于高校人力资源系统中,建立了高校教师人数预测模型,分 析了教师数据间相互关联的深层信息,为高校师资队伍建设提供了参考和依据。 关键词数据挖掘;数据仓库;回归分析;关联规则 a b s t r a c t i ti si n e v i t a b l ef o ru n i v e r s i t i e st oc h a n g et h ec u r r e n tm a n a g e m e n tw a yt ot h e h u m a nr e s o u r c em a n a g e m e n ti no r d e rt ob ev i c t o r i o u si nc o m p e t i t i o n b e c a u s eo f u s i n gm a n a g e m e n ti n f o r m a t i o ns y s t e m , m a n yu n i v e r s i t i e s a c c u m u l a t e dl o t so f h i s t o r yd a t a , a n du r g e n t l yn e e dnt e c h n o l o g yt og a i nt h ev a l u a b l ei n f o r m a t i o nb y a n a l y z i n gt h ed a t a d a t am i n i n gm a k c st h i sp o s s i b l e i tc a l lo r g a n i z et h ec o m p l i c a t e d d a t aw e l l ,a n dt h e na n a l y z e st h e mf a i ra n do b j e c t i v e l y i tc a nf i n dt h ec o n n o t a t i v e r u l e s ,a n dh o l dt h ei n t e n d i n gt r e n d s w i t ht h er e q u i r e m e n t so ft h eh u m a nr e s o u r c em a n a g e m e n ti nu n i v e r s i t y , t h e t h e s i sl u c u b r a t e dh o wt ou d a t am i n i n g d a t aw a r e h o u s ei nu n i v e r s i t yh u m a n r e s o u r c es y s t e m t h et h e s i sr e s e a r c h e dt h et h er e g r e s s i o na n a l y s i sa n do t h e rr e l a t e dt e c h n o l o g y , w i t ht h er e g r e s s i o nm i i i i n gt a s ko ff o r e c a s t i n gt h en u m b e ro ft e a c h e r s ,t h et h e s i s m a i n l ya n a l y z e dt h em u l t i p l el i n e a rr e g r e s s i o nm e t h o d ,w h i c hi sb a s e do nt h e m e t h o do fl e a s ts q u a r e s ,a n dp r o f o u n d l yd i s c u s s e dh o wt ov e r i f yr e g r e s s i o ne q u a t i o n a n dr e g r e s s i o nt o e 伍c i e n t si no r d e rt oe u s a r et h e ya r em a r k e d a n dt h e nd e s i g n e dt h e r e g r e s s i o nm i n i n ga l g o r i t h mf o rf o r e c a s t i n gt h en u m b e ro f t e a c h e r s t h et h e s i sr e s e a r c h e da n ds u m m a r i z e dt h ec l a s s i c a la s s o c i a t i o nr u l e sm i n i n g a l g o r i t h m , a n a l y z e dt h ea p r i o r ia l g o r i t h mi nd e t a i l ,a n dt h e ni m p r o v e di t t h e i m p r o v e da l g o r i t h mi sa p p l i e dt oa n a l y z et h es t r u c t u r eo ft e a c h i n gf a c u l t y , w h i c h m a d eu s eo fs q lt og e n e r a t et h ef r e q u e n ta g g r e g a t e s ,a n dn oc a n d i d a t ea g g r e g a t e w a sg e n e r a t e d f u r t h e r m o r e ,t h ei m p r o v e da l g o r i t h ma l l o w e du s e r st oc h o o s et h e m i n i n ga t t r i b u t e s a n d 饿;c d n tc h a n g et h et a b l es n u c t u r eb e f o r ea s s o c i a t i o nr u l e s m i n i n g b a s e do nt h e “s u p p o r t - c o n f i d e n c e f r n l e w o r k ,t h ea l g o r i t h ma d d e d i n f e c t i o na si t ss t a n d a r do fe s t i m a t i n ga s s o c i a t i o nr u l e s ,w h i c ha v o i d e db r i n g i n gt h e m i s a d v i s e dr u l e s t h i st h e s i sa l s od i s c u s s e dh o wt od e s i g na n db u i l dt h ed a t aw a r e h o u s e ,d e s c r i b e d t h ep r o c e s s o f d e s i g n i n ga n db u i l d i n gt h eu n i v e r s i t yh u m a nr e s o u r c ed a t aw a r e h o u s e a m p l y t h r o u g ha n a l y z i n gt h ee x i s t i n gd a t aa n dt h em e t h o do f m u l t i d i m e n s i o n a l m o d e l i n g ,t h et h e s i sd e s i g n e dt h ec o n c e p t i o nm o d e l ,l o g i c a lm o d e la n dp h y s i c a l m o d e lo f t h eu n i v e r s i t yh u m a nr e s u u r c ed a t aw a r e h o u s e ,a n db u i l tt h ed a t aw a r e h o u s e b yu s i n go w b a n ds q l i nt h ee n d , w i t l lt h eg o o dm i n i n ge n v i r o n m e n tw h i c hw a sp r o v i d e db yt h e 北京工业大学工学硕士学位论文 u n i v e r s i t yh u m a nr c s o l l r c ed a t aw a r e h o u s e ,t h et h e s i sa p p l i e dt h er e g r e s s i o nm i n i n g a n dt h ea s s o c i a t i o nr u l e sm i n i n gt ot h eu n i v e r s i t yh u m a nr e s o u r c es y s t e m , b u i l tt h e f o r e c a s t i n gm o d e lo f t h en u m b e ro f t e a c h e r s ,a n a l y z e dt h ei n f o r m a t i o no f t e a c h e r s , p r o v i d e dt h er e f e r e n c ef o r t h ec o n s t r u c t i o no f t h et e a c h i n gf a c u l t y k e yw o r d s d a t am i n i n g ;d a t aw a r e h o u s e ;r e g r e s s i o na n a l y s i s ;a s s o c i a t i o nr u l e s i v 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 签名:塑日期:宝! 亟:! ! : 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有 权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:兰鸭 导师 日期:2 立:! ! : 第1 章绪论 1 1 课题研究背景 第l 章绪论 随着信息社会的发展,信息技术正在革命性地影响着我们的生活方式,信 息在一个企业发展中的关键地位得到了越来越多的关注。各行各业获取信息的 能力也越来越强,每时每刻都有潮水般的信息涌现,信息量以指数倍增长。 面对这些“堆积如山”的信息集合,人们希望能够对其进行更高层次的分 析,以便更有效地利用这些信息。目前的数据库系统可以高效地实现数据录入、 查询、统计等,但无法发现潜藏在数据中的有价值的信息,无法根据现有的数 据预测未来的发展趋势,缺乏挖掘数据背后隐藏知识的手段,导致了“数据爆 炸但知识贫乏”的现象。 面对这一挑战,数据挖掘技术应运而生。数据挖掘技术就是从大量的、不 完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人 们事先不知道的、但又是潜在有用的信息和知识的过程【l 】。 数据挖掘一面世,其强大的实用性就得到了人们的认可。美国财富杂志5 0 0 强之一的第一数据公司就在为第一国家银行、美国在线交易、奥马哈保险公司 等著名的金融证券和保险公司提供数据挖掘的产品服务,这些企业在风险控制、 挖掘客户、降低成本方面的年收益数以亿计。近年来,数据挖掘技术的研究成 为了一个热点,并在许多领域得到了应用。在现有的技术中,数据挖掘主要应 用于市场营销、金融投资、真假甄别、产品制造、通信网络管理及互联网应用 等方面【2 】。 目前,数据挖掘的研究主要还是面向商业应用,很少应用于非商业机构, 如教育领域。本文则主要探讨将数据挖掘技术应用到高校人力资源系统中。 1 2 数据挖掘在国内外的研究现状 从数据库中发现知识( 1 ( d d ) 一词首次出现在1 9 8 9 年的第十一届国际联合人 工智能学术会议上。迄今为止,由美国人工智能协会主办的k d d 国际研讨会议已 经召开了8 次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十 人到过千人,研究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技 术的集成,以及多种学科之间的相互渗透。 世界上研究数据挖掘的组织、机构或大学很多。比较著名的如卡内基梅隆 大学( 有机器制造d m 、多媒体数据库咖、互连网d m 三个研究中心) 、斯坦福大 学、麻省理工学院;著名研究机构如a c m 、k d n e t ,n c 蹦。此外,在b t 印俄上 还有不少k d d 电子出版物,其中以半月刊k n o w l e d g ed i s c o v e r yn u g g e t s 最具 权威【3 j 。数据挖掘已成为当前计算机科学界的一大热点。 与国外相比,国内对数据挖掘知识发现( d 艇d ) 的研究稍晚,没有形成整体 力量。1 9 9 3 年国家自然科学基金首次支持对该领域的研究。目前,国内的许多 科研单位和高等院校竞相展开对d m k d 的基本理论及其应用的研究,这些单位包 括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。 其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研 究;北京大学也在开展对数据立方体代数的研究;华中理工大学、复旦大学、 浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联 规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位 探讨、研究了非结构化数据的知识发现以及w e b 数据挖掘 4 1 。 目前,数据挖掘最集中的应用领域包括以下七个方面,而且每个领域又都 有自己特定的应用问题和应用背景p 】: l 、金融:金融事务需要收集和处理大量的数据,通过对这些数据进行分析, 发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商 业兴趣,也可观察金融市场的变化趋势。数据挖掘在金融领域应用广泛。包括 金融市场分析预测、帐户分类、信用评估等。 2 、市场营销:市场业应用数据挖掘技术进行市场定位、消费者分析、辅助 制定市场营销策略等。 3 、零售业:零售业是最早运用数据挖掘技术的行业。目前,主要应用于销 售预测、货架安排、顾客购买行为、零售点的选择、价格分析等。 4 、制造业:制造业应用数据挖掘技术进行零部件故障诊断、资源优化、生 产过程分析等。 5 、司法:数据挖掘也可应用于案件调查、诈骗监测、犯罪行为分析等方面, 这些都可以给司法工作带来巨大的利益。 6 、科学发现:在信息量极为庞大的天文、气象、生物技术等领域中,所获 得的大量实验和观察数据靠传统的数据分析工具难以应付,因此对功能强大的 智能自动分析工具要求迫切,这种需求推动了数据挖掘技术在科学研究领域的 应用发展。 7 、保险业:对受险人员的分类将有助于确定适当的保险金额度。通过数据 挖掘,可以确定不同职业、不同年龄段、处于不同社会层次的人的保险金。保 险公司还可以通过数据挖掘建立预测模型,辨别出可能的欺诈行为,避免道德 风险,减少成本,提高利润。 最近,还有不少d m k d 产品用来筛选因特网上的新闻,保护用户不受无聊 电子邮件和商业推销的干扰,很受欢迎【6 j 。 第1 辛绪论 当前,d m k d 研究正方兴未艾,预计在2 l 世纪还会形成更大的高潮,权威的 g a r t n e r 调查组报告显示,数据挖掘将是今后几年全球范围内重点投资研究的 十大新技术之一,它引起了学术界和工业界的广泛关注,是当今数据库系统研 究和应用领域内的一个热点问题。 尽管如此,数据挖掘技术仍处于探索阶段,还面临着许多挑战性的问题, 如怎样对结构复杂、数据量大的数据进行挖掘,如何提高挖掘质量和效率等。 这些问题为数据挖掘未来的发展提供了更大的空间。 1 3 数据仓库在国内外的研究现状 2 0 世纪9 0 年代以来,数据仓库作为一个新的研究领域得到了广泛的关注, 其主要原因是对数据处理的迫切要求。随着信息处理技术的不断发展,信息的 存储、管理、使用和维护显得越来越重要。现今大部分企业在他们的数据库中 积累了大量的数据,人们已经不再满足于简单的数据操作,而产生了进一步使 用现有数据的需求,也就是利用现有的数据,进行分析和推理,从而为决策提 供依据。将大量的业务数据应用于统计分析,这原本是一个非常简单和自然的 想法,但在实际操作中,人们却发现要获得有用的信息并非想象的那么容易1 7 j : l 、所有联机事务处理强调的是数据更新处理性能和系统的可靠性,并不关 心数据查询的方便与快捷;联机分析和事务处理对系统的要求不同,同一个数 据库在理论上难以做到两全。 2 、业务数据往往被存放于分散的异构环境中,不易于统一查询访问,而且 还有大量的历史数据处于脱机状态,形同虚设。 3 、业务数据的模式是针对事务处理系统而设计的,数据格式和描述方式并 不适合菲计算机专业入员进行业务上的分析和统计。 针对这些问题,数据仓库应运而生。作为一个信息提供平台,数据仓库的 主要作用是从各信息源提取决策需要的数据,加工处理后,存储到数据仓库中, 并为用户提供各种手段从数据中获取信息和知侧”。 数据仓库在国外的应用已较为普遍,并呈现出应用较早、在电子化数据积 累方面比较领先、业务应用较为丰富、业务人员r r 背景较强、有比较完善的管 理和实施等特点。据调查,财富5 0 0 强企业中已经有8 5 的企业建成或正在建 立数据仓库。数据仓库已经与i n t e r n e t 一样,正在成为最侠的i t 增长点。目前, 国外已经有许多数据库厂商提出了数据仓库的解决方案,比如o r a c l e 解决方案、 m i c r o s o f t 的s q ls e r v e r 解决方案等。 近几年来,随着中国市场竞争的加剧和企业信息化的需要,国内的数据仓 库建设得到了迅猛发展,如邮政行业引入数据仓库进行基本业务分析,铁道部 北京工业太掌工学硕学位论文 门引入数据仓库进行客流分析,零售业通过数据仓库进行产品管理分析等。此 外,国内还涌现出不少专门研究e r p 数据仓库,c r m 数据仓库以及e i s 数据 仓库解决方案的公司企业,如用友软件股份有限公司、金蝶公司等。但整体来 讲,由于国内数据仓库的建设和应用起步较晚,与国外相比还有相当的差距, 并呈现出投入大、产出大,应用处于起步阶段,人才匮乏等特点。 且前,高校建立数据仓库的例子还很少见。数据仓库技术在国内高校中的 应用还处于起步阶段。 1 4 课题来源 在新经济时代背景下,竞争的焦点从资金、产品等物化资源的竞争转化为 人才的竞争 4 1 。基于这一时代背景,高等院校的发展进入了机遇与挑战并存的 关键时期。高校的人事制度改革进一步深化,高校人事管理工作已经逐步向人 力资源管理开发和转化,并且已成为高校事务管理的重要方面。这就要求高校 管理层要以通观全局的角度去认清目前形式,充分利用现有的先进技术手段去 解决问题。 我校建立了日益完善的人事管理信息系统,积累了大量的数据。目前,这 些数据的主要用途是向各级管理部门提供各类统计报表和信息查询,但对这些 数据背后所隐藏的知识没有挖掘利用,十分可惜。 基于高校人力资源管理工作量大,工作内容繁琐而又重要等因素,迫切需 要实现信息管理的科学性、系统性。因此在整个高校人力资源系统中,应用数 据挖掘技术对数据分析利用是十分重要、不可或缺的,本课题正是来源于我校 人事处的人力资源系统。 1 5 课题研究意义 高等院校要想在激烈的竞争中取胜,获得跨越式发展必须运用科学的手段 进行决策。因此,建立一个决策支持系统是十分必要的。要求这个决策支持系 统的各项功能除了应满足日常简单的查询、统计、维护,全局统筹规划管理高 校各种信息,协调各部门工作顺利开展以外,还应该能够为高校决策者提供有 关教育形势的瞬时变化、发展趋势以及通过高科技手段来开发历史数据,提取 隐含在其中的、深层次的、有价值的信息,以利于决策的正确性、科学性和有 效性。通过一系列技术挖掘出有价值的知识信息,用于验证和预测高校的各项 资源配比,辅助决策,从而在快速变化的竞争中把握高校的发展方向。 虽然许多高校人事管理部门已经积累了大量的历史数据,但对数据资源缺 乏有效的组织、整理和提取。因此应以高校人事信息库为对象、研究数据挖掘 4 第1 章绪论 技术,以图“透过现象看本质”,挖掘出有价值的信息,如找出影响师资队伍建 设的因素及各因素间的关联关系等,为管理决策提供参考。 目前,数据挖掘理论的研究成果很多,广泛应用于金融业、零售业、电子 商务、保险、远程通讯等领域,并且为这些产业带来了巨大的收益唧。数据挖 掘已经成为信息领域的研究热门之一。但对事业单位的高校来说,对数据进行 挖掘的例子还很少。其实高校中许多政策标准的制定都可以将数据挖掘的结果 作为参考,如师资队伍的结构分析、学科梯队的发展状况、人才评价机制等等。 数据挖掘理论在人事信息中的应用将大大增加管理人员对数据的分析能 力,提高管理水平。利用数据挖掘,实现数据的快速、准确的分析,为高校师 资队伍建设提供参考和依据,从而实现师资队伍的优化。因此,引入数据挖掘 技术,对高校人才数据进行分析将是一种必然趋势,并且应用前景将大为可观。 另外,数据仓库技术的出现及发展,大大简化了数据挖掘过程中数据的整 合与转换,提高了数据挖掘的效率和能力,确保了数据挖掘中数据来源的广泛 性和完整性。同时,数据挖掘技术也成为数据仓库应用中极为重要的内容。 数据仓库、数据挖掘都是方兴未艾的前沿学科,对它们不断学习,研究探 索并应用到高校人力资源管理工作中,使之为高校管理层提供科学合理的决策 依据,为高校跨越式发展起到一个科学的导向作用,具有重要的实际应用价值。 1 6 本文研究的主要内容 本文基于当前高校人力资源管理的具体情况,研究数据挖掘技术在人力资 源系统中的应用与实现。研究的内容主要包括以下两个方面: 1 、针对人事部门现有数据及需求,设计并建立高校人力资源数据仓库,为 数据挖掘提供理想的发现知识的环境。 2 、结合高校自身特点,将回归分析方法,关联分析方法应用于师资队伍分 析及管理的决策支持中,通过设计有效的挖掘算法,建立高校教师人数预测模 型,分析教师信息数据间相互关联的深层信息,为高校师资队伍建设提供参考 和依据。 本文共分五章,具体章节安排如下: 第一章:绪论。本章探讨了课题的研究背景,课题来源及研究意义,并对 数据挖掘技术、数据仓库技术在国内外的研究现状进行了分析。 第二章:数据挖掘和数据仓库技术。本章对数据挖掘、数据仓库及其相关 技术进行了分析研究,并确定了高校人力资源数据仓库的开发生命周期和数据 建模方式。 第三章:数据挖掘算法的研究与设计。本章主要研究了回归分析方法和关 北京工业大学工学硕士学位论文 联分析方法,针对高校人力资源管理工作的实际特点,设计了用于高校教师人 数预测的回归挖掘算法,设计并改进了用于师资队伍结构分析的关联规则挖掘 算法。 第四章:高校人力资源数据仓库的设计与实施。本章通过对数据仓库设计、 实施方法的深入研究,设计并建立了高校人力资源数据仓库。 第五章:数据挖掘在高校人力资源系统中的应用。本章实现了第四章设计 的回归挖掘算法和改进的关联规则挖掘算法,并将这两种算法分别应用到高校 人力资源系统中,建立了高校教师人数预测模型,分析了教师基本信息之间存 在的关联关系。 结论:总结了本课题的研究情况,并对下一步研究提出了设想。 第2 章数据挖掘和致据仓库技术 第2 章数据挖掘和数据仓库技术 2 1 数据挖掘技术的研究 2 1 1 数据挖掘的定义 数据挖掘是- - f l 新兴的学科,它主要是面向决策支持为决策者提供有价 值的信息。数据挖掘作为一种技术,它将传统的数据分析方法与处理大量数据 的复杂算法相结合。 一种比较公认的数据挖掘定义是w j f r a w l e y ,g p i a t e t s k y - s h a p r i o 等人提出 的:数据挖掘,就是从数据中获取正确、新颖、有潜在应用价值和最终可理解 模式的非平凡过程【l o l 。下面是对定义中出现的一些概念的详细解释: 数据:是一组事实f 的集合,它是描述事物有关方面的信息,一般来说这 些数据都是准确无误的。 模式:是一个用语言l 来表示的一个表达式e ,它可以用来描述数据集f 的某个集f e 。只有当表达式e 比列举所有f e 中元素的描述方法更为简单时, 才可以称之为模式。 过程:数据挖掘是一个多阶段的处理过程,它涉及数据预处理、模式提取、 知识评价及过程优化;该过程具有迭代的性质,而“非平凡的”是指其要有一 定程度的智能性和自动性。 有效性:是指发现的模式对于新的数据仍保持有一定的可信度,否则数据 挖掘就毫无意义。 新颖性:经过数据挖掘提出的模式必须是额的。 潜在有用性:是指发现的知识将来有实际效用,如用于决策支持系统里可 以提高经济效益。 可理解性:数据挖掘的一个目标就是将数据中隐含的模式能被用户理解, 目前它主要表现在简洁性上。 其中,有效性、新颖性、潜在有用性和可理解性综合在一起可称之为兴趣 性【l i 】。 2 1 2 数据挖掘的任务 数据挖掘的任务是利用各种算法挖掘出有价值的信息。我们可以将数据挖 掘的任务划分为如下几种类型【1 2 】: 北京工业大学工学硕士学位论文 1 、分类 分类是数据挖掘应用中最常见的一类问题。其旨在根据样本数据寻求相应 的分类规则,然后根据该规则来确定某一非样本个体或对象是否属于某一特定 的组或分类l l 。在这种分类知识发现中,样本个体或对象的类标是已知的。数 据挖掘的任务在于从样本数据的属性中发现个体或对象分类的一般规则,从而 根据该规则对非样本数据对象进行分类。通常,像流失分析、风险管理、定向 广告等商务问题都会涉及到分类问题。 2 、聚类 聚类也被称为无指导分类。其任务是识别在样本中存在的分组,在同一分 组内的样本具有更多类似的属性值【l4 1 。其宗旨是实事求是地按照被处理对象的 特征进行分类( 不是按照人的主观认识进行分类) ,划分依据是“物以类聚”, 有相同特征的对象被分为一组,并以某种度量为标准,在同一组中对象尽可能 相似,不同组中之间的差别尽可能大。 3 、关联分析 关联分析是另一类常用的数据挖掘任务,用来发现描述数据中强关联特征 的模式。所发现的模式通常用蕴涵规则的形式表示。由于搜索空间是指数规模 的,所以关联分析的目标是以有效的方式提取最有趣的模式。 关联模式发现早期主要用于零售业交易数据分析,进行物品更合理的摆放, 最终提高销售量,因此该方法有时也称为“货篮分析”【1 5 】。 4 、回归 回归任务可以解决很多商务问题,与分类任务很相似。它们之间的主要差 异是回归的预测属性为连续变量【1 6 1 。回归技术在统计学领域得到了广泛的研究。 线形回归和l o g i s t i c 回归是两种最流行的方法,其它的回归技术还包括回归树 和神经元网络等。 5 、预测 预测也是一种重要的数据挖掘任务。当分类工作偏向于预测数据分类或发 展趋势时,就称此挖掘工作为预测分析【1 7 】。预测技术在预测过程中,需要考虑 对基本趋势、周期性、噪声滤波等问题的处理。 6 、序列分析 序列分析又称为趋势分析。它的任务是在数据库中寻找基于一段时间区间 的关联模式。序列分析和关联规则非常相似,它们所用的样本数据中,每一个 样本都包含了一个项集或状态集合。其不同之处在于序列分析研究的是项集( 或 状态) 间的转换,表述的是基于时间的关系,而关联规则模型研究的是项集之 间的相关性【1 8 】。在序列分析模型中,先购买计算机再购买音箱,和先购买音箱 再购买计算机是两种不同的序列。而在关联规则中这两种行为都表达了一个同 第2 章数据挖掘和数据仓库技术 样的项集( 计算机,音箱) 。序列分析虽然是一种相对较新的数据挖掘任务,但 这种类型的挖掘变得越来越重要,目前主要应用于w e b 日志分析和d n a 分析。 7 、异常分析 异常分析用于从样本数据中发现与其它样本差别很大的异常数据,也被称 作特例识别。异常分析能被用在很多领域。其中一个最主要的应用领域是信用 卡欺诈识别。其它应用还包括:网络入侵识别、制造事故分析等。目前没有用 于异常分析的标准技术,通常分析人员会在常用算法( 如:决策树、聚类或神 经元网络) 上进行一些改进,以满足异常分析任务的要求。 2 1 3 数据挖掘过程 数据挖掘过程一般可以分为三个主要阶段:数据准备阶段、数据挖掘阶段、 结果表达和解释阶段l 1 ,如图2 - l 所示。 1 、数据准备阶段 数据准备阶段的工作量在整个数据挖掘过程中占的比例最大,通常达到 6 0 左右。这个阶段可以进一步划分成三个子步骤:数据选择、数据预处理和 数据交换l 捌。数据选择主要指搜索所有与业务对象有关的内部和外部数据信 息,并从中选择出适用于数据挖掘应用的数据,形成目标数据。数据预处理对 提取的数据进行处理,研究数据的质量,为进一步的分析作准备,使之符合数 据挖掘的要求。它的主要工作有检查拼写错误,去掉重复的记录,补上不完全 的记录,推导计算缺失数据,完成数据类型转换等等。数据变换主要目的从初 始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。通 过变换将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的【2 ” 2 、数据挖掘阶段 这一阶段进行实际的挖掘工作,即对所得到的经过转换的数据进行挖掘。 首先是算法规划,即根据挖掘任务,选择一种数据挖掘算法。算法的选择直接 影响着所挖掘模式的质量。完成了上述的准备工作后,就可以运行数据挖掘算 法了。除了选择合适的挖掘算法外,其余一切工作都能自动地完成。这个阶段 是数据挖掘分析者和相关领域专家最关心的阶段,也可以称之为真正意义上的 数据挖掘。 3 、结果表达和解释阶段 这一阶段的主要工作是解释并评估挖掘结果。根据最终用户的决策目的对 提取的信息进行分析,把最有价值的信息区分出来。对于数据挖掘阶段发现的 模式还要经过用户或机器的评估,对于存在冗余或无关的模式要将其删除;对 于不能满足用户要求的模式,则需要退回到上一阶段,如重新选取数据、采用 北京工业大学工学硕士学位论文 新的数据变换方法、设定新的参数值,甚至采用其他的数据挖掘算法。另外, 数据挖掘面对的最终用户是人,因此要对发现的模式进行可视化,或者把结果 转换为用户易懂的其他方式 知识 数据工数据叶| + 一结果表达_ 一 准备 i 挖掘 i和解释 i 图2 1 数据挖掘过程 f i g u r e2 - 1p r o c e s so f d a t am i n i n g 2 1 4 数据挖掘算法的组成部分 数据挖掘算法可以分为以下四个部分【2 1 : 1 、模型或模式结构 模型或模式结构决定了从数据中寻找的潜在结构或函数形式。模型是对一 个数据集的高层次、全局性的描述,可以是描述性的,也可以是推理性的模 式是数据的局部特征,或许只支持几条记录或者几个变量,有时模式描绘的是 和一般行为相背离的。 2 、评分函数 评分函数用于根据观察到的数据判断拟合后的模型或模式的质量。评分函 数在反映模型或模式的不同参数化过程的实际效果方面是很重要的。在理想情 第2 覃数据挖掘和数据仓库技术 况下。最佳的评分函数应该精确地反映出特定预钡4 模型的效果,也就是期望模 型所带来的真正效益。 3 、优化和搜索方法 优化和搜索方法用于优化评分函数和对模型或模式结构进行搜索,是所有 数据挖掘算法的核心部分。通常模型或模式是以各种形式的结构来描述的。有 时还带有未知参数。优化和搜索的目标就是决定这些结构和参数值,以使评分 函数达到最优。发现模型中的最佳参数值的任务通常被称为最优问题。从庞大 的潜在模式族中发现感兴趣的模式的任务通常被称为搜索问题。 4 、数据管理策略 数据管理策略是指存储、索引、检索数据的数据管理技术。数据挖掘算法 面对的是海量数据集,这使数据挖掘算法的效率问题变得非常重要。尽管主存 储器技术在迅速地提高。磁盘、磁带存储技术也在提高,但访问海量数据集仍 要付出一定的开销。数据管理策略的目标就是使对数据集的访问尽可能快,使 开销尽可能小。 2 2 数据仓库技术的研究 2 2 1 数据仓库的定义及特点 目前,数据仓库一词还没有一个统一的定义,业界比较公认的一个对数据 仓库的定义是2 0 世纪9 0 年代由美国著名信息工程学家晰l l i 缸 x l n l o n 博士提出 的:数据仓库是面向主题的、集成的、具有时间特征的、稳定的数据集合,用 以支持经营管理中的决策制定过程【2 2 】。数据仓库用于支持决策,面向分析型数 据处理,不同于操作型数据库,具有以下四个特征l : l 、数据仓库的数据是面向主题的。 数据仓库中的数据面向主题,与传统数据库面向应用相对应。主题是一个 抽象的概念,是在较高层次上对操作层数据进行综合、归类、分析、利用的抽 象名词,每一个主题都是决策者所关心的问题口】。在逻辑意义上,主题对应的 是企业中某一宏观分析领域所涉及的分析对象。面向主题是指数据的一种组织 方式,它是在较高层次上对分析对象的数据作完整的、一致的描述,并统一的 刻画分析对象所涉及的数据项及数据项之间的联系。所谓较高层次,是相对于 面向应用的数据组织方式而言的,是指按照主题进行数据组织的方式具有很高 的数据抽象级别。 2 、数据仓库的数据是集成的。 所谓集成,是指数据仓库中的信息不是直接从各个业务部门的处理系统中 北京工业大学工学硕士学位论文 简单地提取出来的,而是根据需求,经过选择与处理后装载到数据仓库中的。 进入数据仓库中的数据必须经过统一和综合。统一是指消除源数据中的矛盾与 冲突:如字段的同名异义、异名同义、数据类型不一致、单位不一致、字长不 一致等。综合是指对源数据进行综合和计算。数据仓库为处理多平台的数据提 供了可靠的标准。 3 、数据仓库的数据是稳定的。 所谓数据的相对稳定性,是指一旦数据被提取到数据仓库以后,一般情况 下,将被长期保留下来,也就是说数据仓库会有大量的插入与查找操作,而删 除与修改操作却很少。 数据仓库中的数据通常是以批量的方式载入与访问的,反映的是一段相当 长时间内的历史数据的内容。数据仓库中的数据在进行装载时是以静态快照的 格式进行的。在产生后继变化时,一个新的快照记录就会被写入数据仓库。这 样,在数据仓库中就保存了数据的历史状况,但在数据仓库环境中并不进行一 般意义上的数据更新。因此,数据仓库管理系统( d w m s ) 较数据库管理系统 ( d b m s ) 的完整性、并发控制技术简单,但由于数据仓库的查询数据量很大, 所以就对数据查询提出了更高的要求,如采用了各种复杂的索引技术【25 1 。 4 、数据仓库的数据具有时问特征。 数据仓库随时间变化而不断增加新的数据内容,即不断生成数据库快照, 经统一集成后增加到数据仓库中。但每次的快照是不再变化的,所以捕捉到新 的变化数据,只不过是生成一个数据库快照增加进去,而不会对原来的数据库 快照进行修改1 2 6 】。数据仓库的数据有存储期限,一旦超过了这个期限,过期数 据就要被删除。但数据仓库内的数据存储期限要远远长于操作型环境中的数据 存储时限。数据仓库中包含大量的综合数据,这些综合数据很多跟时间有关, 如数据经常按照时间段进行综合,或每隔一定的时间段进行抽样等。这些数据 要随着时间的变化不断地进行综合。 2 。2 。2 数据仓库的开发生命周期 传统数据库系统的设计方法是先进行需求分析,然后根据用户的需求进行 数据库设计。这种传统的系统开发生命周期( s d l c ) 常被称为瀑布式开发方法, 其中的每一项活动都是确定的。并且只有一个活动结束后,下一个活动才会被 触发开始口”。如为建立系统,你首先必须理解需求,在需求分析结束后,才能 进入到设计和开发阶段。 与s d l c 几乎相反的另一种系统开发生命周期称为c l d s 。c l d s 由数据 开始,得到数据后,就将数据集成,如果数据有偏差,就检验看看数据存在什 第2 章敦据挖掘和数据仓库技术 么偏差。然后针对数据写程序,分析程序执行结果。最后,系统需求才得到理 解。c l d s 常被称为“螺旋式”开发方法,是典型的数据驱动开发生命周期【2 钔。 在设计数据仓库时,往往不能采用需求驱动的方式。建立数据仓库的目的 是提高企业的竞争力。但是企业用户对怎样提高竞争力没有明确的方法,用户 对数据仓库的概念、数据仓库能实现什么功能也不是非常清楚,所以设计数据 仓库的指导思想不能建立在用户的详细需求上,面应该建立在企业现有数据上, 并在数据的基础上参考用户需求。保证设计出来的数据仓库不仅能满足用户的 现有需求,而且还要满足以后出现的不可预见的需求。这与设计传统的关系型 数据库有着较大区别。 数据仓库是建立在已有数据基础上的,但是在设计数据仓库前关注一下用 户需求还是非常有意义的。因为数据仓库需要提供非常大的数据存储结构和复 杂的数据展示方法,了解用户的需求可以把握住开发的侧重点,而且更容易赢 得用户的支持。 在本文中,高校人力资源数据仓库的设计采用数据驱动和需求驱动相结合 的方法。首先和用户进行沟通,获取一些功能性、方向性的需求,如数据详细 到什么程度等。然后在现有数据的基础上,完成数据仓库的设计实施过程,如 图2 - 2 所示。 图2 - 2 高校人力资源数据仓库开发生命周期图 f i g u r e2 - 2d e v e l o p i n gl i f ec y c l eo f u n i v e r s i t yh u m a nr e s o u l _ c ed a t aw a r e h o u s e 北京工业大学工学硕士学位论文 2 2 3 数据仓库的组成部分 数据仓库系统一般分为六个部分:数据源、数据准备区、数据仓库数据库、 元数据、数据集市和访问工具嗍。 l 、数据源 数据仓库用于为决策者提供信息。为此,数据仓库必须将来自企业中多个 源的数据聚集合并为一致的数据集,以准确地反映企业的业务运作情况和历史 记录。这些数据源包括企业内部数据、市场调查报告及各种文档之类的外部数 据【3 0 】。 2 、数据准备区 数据准备区有时也被称为数据中间存储区,主要任务是对不同的平台数据 进行一致化、标准化的处理f 3 l j 。如将数据转换为数据仓库要求的格式、检查一 致性和引用完整性等。 3 、数据仓库数据库 数据仓库数据库是整个数据仓库环境的核一1 5 ,是存放数据的地方,提供对 数据仓库检索的支持。相对于操作型数据库系统来说,其特点是对海量数据的 支持和快速检索技术。 4 、元数据 元数据是描述数据仓库数据结构和建立方法的数据。数据仓库中的元数据 按其用途分为技术元数据和商业元数据两类【3 2 1 。技术元数据是数据仓库的设计 和管理人员用于开发和日常管理数据仓库时用的数据,包括数据源信息、数据 转换的描述、数据仓库内对象和数据结构的定义、数据清理和数据更新时用的 规则、源数据到目的数据的映射、用户访问权限、数据备份历史记录、数据导 入历史记录和信息发布历史记录等。商业元数据从商业业务的角度描述了数据 仓库的数据,包括业务主题的描述、包含的数据等。 5 、数据集市 数据集市是为了特定的应用目的或应用范围,从数据仓库中独立出来的一 部分数据,也可理解为部门级数据仓库【3 3 】。虽然数据集市可以理解为部门级数 据仓库,但是各数据集市都应该是数据仓库的有机组成部分,各数据集市间应 协调一致。从某种意义上说,数据仓库是有关全局性的,在全组织范围内为各 个部门提供管理、决策支持。而数据集市是局部性的,针对某个具有战略意义 的应用或具体部门级的应用,支持用户利用已有的数据进行管理决策。 6 、访问工具 数据仓库的目的是表现业务信息,供企业的决策者使用。如果没有工具帮 助它分析和评估,包含数亿条数据的数据仓库对决策者将毫无用处。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论