(管理科学与工程专业论文)基于数据挖掘的失业人员再就业预测模型研究.pdf_第1页
(管理科学与工程专业论文)基于数据挖掘的失业人员再就业预测模型研究.pdf_第2页
(管理科学与工程专业论文)基于数据挖掘的失业人员再就业预测模型研究.pdf_第3页
(管理科学与工程专业论文)基于数据挖掘的失业人员再就业预测模型研究.pdf_第4页
(管理科学与工程专业论文)基于数据挖掘的失业人员再就业预测模型研究.pdf_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于数据挖掘的失业人员再就业预测模型研究 摘要 实现充分就业是近年来我国的一个工作重点,虽然各级政府和 社会各界对就业工作十分重视,并探索出许多有益的经验,但随着城 镇化、工业化、经济成分多元化和就业形式多样化,劳动关系将更趋 复杂,就业形势将更为严峻。充分就业是现代国家宏观经济的重要目 标之一。 本文为2 0 0 7 年度浙江省科技厅支撑和引导计划面上项目_ 基 于网格的分布式劳动力市场决策支持系统的核心研究内容,主要研。 究面向劳动力市场决策支持的功能层,即建立符合国内实际情况的劳 动力需求、供给等模型库和方法库。失业人员并不是完全被动的承受 者,有必要从微观层面出发,对个体的选择行为进行剖析。因此,本 文从研究国内外失业理论和发展、我国就业和失业特征、现状、存在 问题和解决办法等入手,通过总结和分析,对我国失业再就业突出问 题:劳动力供需、失业率、再就业困难程度进行了深入探索。应用数 据挖掘等技术和方法构建了基于趋势模式的劳动力供需时间序列预 测模型、基于竞争神经网络的失业预警模型和基于聚类的失业人员再 就业困难程度评分评级模型。 基于趋势模式的劳动力供需时间序列预测模型利用基于趋势模 式的时间序列挖掘算法t t s d m 将时间序列转换成时间子序列数据集 以提取序列模式,进行基于置信度的时序趋势模式预测。基于竞争神 经网络的失业预警模型利用基于l v q 的层次化组合算法s o m l v q 使 分类边界得以收缩而更加准确;而f 1 3 s o m 作为启发式过程初始化 l v q 的权值,提升了l v q 算法整体性能。基于聚类的失业人员再就业 困难程度评分评级模型利用k - m e a n s 聚类算法对评分结果自动聚类, 得到再就业困难程度分级,有效的解决了传统评级方法均方差,分界 值确定难的问题。为了提高聚类性能,解决局部极小解,确定k - m e a n s 聚类算法初值的选取问题,提出一种新的基于距离的初始化方法,它 不需要设定门限,不受数据集的顺序影响,而且对孤立点和噪声有较 强的抑制能力。本文以杭州市劳动和社会保障局人力资源系统数据和 杭州市2 0 0 6 统计年鉴数据为样本输入和局部利用开源数据挖掘软件 w e k a 进行模型实证分析。这些预测预警模型,为帮助失业人员再就业, 提高社会就业率提供了定量分析工具和决策支持服务。 关键词:失业;再就业;时间序列数据挖掘,学习矢量量化;自 组织映射;聚类评级 d a t am i n i n g - b a s e d u n e m p l o y m e d r e e m p l o y m e n tp r e d i c t i o nm o d e lr e s e a r c h a b s t r a c t t h ee m p l o y m e n ta n dr e e m p l o y m e n ta r ek e y s t o n e si nc h i n ai nr e c e n t y e a r s a l ls e c t o r so fs o c i e t ya t t a c h eg r e a ti m p o r t a n c et oe m p l o y m e n t w o r ka n de x p l o r eal o to fu s e f u le x p e r i e n c e b u t 丽t hu r b a n i z a t i o n , i n d u s t r i a l i z a t i o na n de c o n o m i cr e s t r u c t u r i n gp r o c e s s ,l a b o rr e l a t i o n sw i l l b em o r ec o m p l i c a t e d t h i sp a p e ri ss u p p o r t e db ys c i e n c ea n dt e c h n o l o g yd e p a r t m e n to f z h e j i a n gp r o v i n c e i t st h ec o r er e s e a r c ho f ”g r i d b a s e dd i s t r i b u t e d l a b o rm a r k e td e c i s i o ns u p p o r t s y s t e m ”,a n dm a i n l yo nt h el a b o r m a r k e t o r i e n t e dd e c i s i o ns u p p o r tf u n c t i o n sl a y e r t h i sp a p e rb e g i n sw i t h t h er e s e a r c ha n d d e v e l o p m e n to ft h e o r ya b o u tu n e m p l o y m e n t a th o m ea n d a b r o a d ,c h i n a sl a b o rm a r k e tc h a r a c t e r i s t i c s ,s t a t u s ,p r o b l e m sa n d s o l u t i o n s b ys u m m i n gu pa n da n a l y s i n g ,t h ep r o m i n e n ti s s u e so f r e e m p l o y m e n to fu n e m p l o y e es u c ha ss u p p l ya n dd e m a n do ft h e u n e m p l o y e dl a b o r ,t h eu n e m p l o y m e n tr a t e ,t h er e e m p l o y m e n tg u i d a n c e a r ec o n d u c t e di n d e p t h t h i s p a p e r t a k e sd a t am i n i n ga n do t h e r h i i n n o v a t i v e t e c h n i q u e s i n t o a p p l i c a t i o n s i tm a i n l y c o n s t r u c t sa t r e n d b a s e dt i m es e r i e sp r e d i c t i o nm o d e lf o rf o r e c a s t i n gs u p p l ya n d d e m a n do fl a b o r ,ac o m p e t i t i v en e u r a ln e t w o r k b a s e du n e m p l o y m e n t e a r l y - w a r n i n gm o d e la n dac l u s t e r - b a s e dr e e m p l o y m e n td i f f i c u l t i e ss c o r e r a t i n gm o d e l t h ed a t ao ft h eh u m a nr e s o u r c e ss y s t e mo fh a n g z h o ul a b o r a n ds o c i a l s e c u r i t yb u r e a ua n ds t a t i s t i ca n n u a l i so fh a n g z h o ui nt h e 2 0 0 6a r eu s e da st h ei n p u to ft h e s ea b o v em o d e l s t h eo p e n s o u r c ed a t a m 试n gs o f t w a r ew e k ai su s e da st h ee x p e r i m e n tt 0 0 1 t h e s ep r e d i c t i o n m o d e l sa n de a r l y - w a r n i n gm o d e l sp r o v i d eaq u a n t i t a t i v ea n a l y s i sa n d d e c i s i o ns u p p o r tm e t h o d sf o ru n e m p l o y e e st of i n dn e w jo b s i 旺y w o r d s :u n e m p l o y e d ;r e e m p l o y m e n t ;t i m es e r i e sd a t am i n i n g ; s e l f - r r g a n i z i n gm a p ;l e a m i n g v e c t o rq u a n t i z a t i o n ;c l u s t e r - b a s e dr a t i n g i v 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 本人为获得浙江工商大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示谢意。 躲辈筮一日期圳年2 麒日 关于论文使用授权的说明 本学位论文作者完全了解浙江工商大学有关保留、使用学位论文 的规定:浙江工商大学有权保留并向国家有关部门或机构送交论文的 复印件和磁盘,允许论文被查阅和借阅,可以将学位论文的全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制 手段保存、汇编学位论文,并且本人电子文档的内容和纸质论文的内 容相一致。 保密的学位论文在解密后也遵守此规定。 日期:m 9 年 1 月以日 浙江工商大学硕士学位论文基于数据挖掘的失业人员再就业预测模型研究 1 引言 1 1 研究背景与研究意义 如何解决就业问题是经济学的一个重要论题。失业是人力资源的浪费,它导 致的问题是多方面的,比如社会不安定、矛盾激化、犯罪率上升、经济出现恶性 循环等。就业和再就业是近年来我国的一个工作重点,虽然各级政府和社会各界 对就业工作十分重视,并探索出许多有益的经验,但随着我国经济体制改革的逐 步深入,经济结构的不断调整,我国劳动力供大于求的矛盾并没有缓解,就业的 结构性矛盾更加日渐突出。同时,我国失业人口的定义以是否在当地就业机构登 记为标准,登记的劳动力才被统计在失业指标内,而可以肯定的是有相当多的失 业人员没有登记,这就在统计上出现了漏洞。我国对失业率的统计是以城镇职工 为对象的,对农村中的过剩劳动力,特别是涌入城市的“民工则不包括在统计 范围内。这都反映了国家公布的失业统计不能准确的反映失业状况的实际,我国 失业问题可能比统计数字反映出的更要严重。 以往关于失业人员再就业问题的研究,大多将焦点集中于社会保障阀题的 制度层面,关注制度的实施结果和所遭遇的实际问题,即以一种自上而下的视角 来分析社会保障制度的缺漏,而忽视了在政策实施过程中目标对象所具有的实践 能力。失业人员并不是完全被动的承受者,有必要从微观层面出发,对个体的选 择行为进行剖析。本文从研究国内外就业失业理论和发展、我国就业失业特征、 现状、存在问题和解决办法等入手,通过总结和分析,对我国失业和再就业的突 出问题:失业劳动力供需、失业率、再就业困难进行了深入研究。应用数据挖掘 等技术和方法构建了基于趋势模式的劳动力供需预测模型、基于竞争神经网络的 失业预警模型、基于聚类的失业人员再就业困难程度评分评级模型。这些预测预 警模型,为帮助失业人员再就业,提高社会就业率提供了定量分析工具和决策支 持服务。 1 2 研究现状 1 2 1 就业和失业问题 失业的原因是多方面的,具体到不同国家或一个国家的不同经济发展时期, 其主导因素并不完全相同。国际上一般将失业分为以下几类:摩擦性失业,指由 浙江工商大学硕士学位论文基于数据挖掘的失业人员再就业预测模型研究 于劳动力市场功能上的缺陷造成的临时性失业,如新生劳动力找不到工作,工人 转换工作岗位时出现的工作中断等;季节性失业,指由于某些行业生产条件或产 品受气候条件、社会风俗或购买习惯的影响,对劳动力的需求出现季节性变化而 导致的失业;技术性失业,指由于使用新机器设备和材料,采用新的生产技术和 新的生产管理方式,出现局部劳动力过剩而导致的失业;结构性失业,指由于经 济、产业结构以及生产形式和规模的变化,促使劳动力结构进行相应调整而导致 的失业:周期性失业,指市场经济国家由于经济的周期性萎缩而导致的失业n 1 。 1 2 1 1 就业与失业理论 就业问题是工业革命后因雇佣劳动而产生的社会经济现象,它是社会经济发 展到一定阶段的产物。进入资本主义社会后,就业不充分已成为普遍现象,但人们 对失业问题的认识,是随着社会经济的发展,经历了一个认识深化和不断发展的 过程。西方就业与失业理论和政策的演变大致包含以下三个阶段乜3 : 一、靠市场机制自动调节的新古典就业理论。在2 0 世纪3 0 年代前的1 0 0 多年时 间里,西方经济理论把充分就业和资源的充分利用看成是一种常态,把失业视为 暂时现象。该理论认为,在完全竞争的条件下,如果工资可以随劳动力供求变化而 自由涨落,那么通过市场价格机制的自发调节作用,一切可供使用的劳动力资源 都会被用于生产,实现充分就业。即只要工人愿意按现行工资水平受雇于雇主, 就会有工作可做,不会出现“非自愿性”的真正的失业。这一就业的靠市场供求 决定论 主要源于法国学者萨伊的“供给会自己创造需求 的定律,当时就业问 题完全由市场调节。 二、面对大危机,实施政府干预,促进充分就业的凯恩斯有效需求不足的非自 愿失业理论。2 0 世纪3 0 年代,爆发了世界性的大危机,伴随的是生产急剧下降,失 业人数猛烈增加,主要资本主义国家的失业率超过2 0 ,美国在1 9 3 3 年失业率达 2 4 9 。大危机从根本上动摇了资本主义传统自由放任的市场经济发展模式。1 9 3 3 年,美国开始实施“罗斯福新政 ,核心是国家对经济进行干预。与此同时,1 9 3 6 年英国经济学家凯恩斯发表“通论 ,核心内容是总需求决定理论。他从理论上 否定了市场价格机制会自动调节经济实现充分就业均衡的传统,认为失业的原因 在于有效需求不足,要解决失业和危机,关键在于提高有效需求。主张通过国家干 预经济,实现充分就业,认为解决失业问题应成为国家经济政策的主要目标,由此 2 浙江工商大学硕士学位论文基于数据挖掘的失业人员再就业预测模型研究 拉开了政府干预经济活动、解决就业问题的序幕。货币主义代表人物美国学者弗 里德曼指出,充分就业是指在“自然失业率 基础上的就业状态。所谓“自然失 业率 是指在一定时期和条件下的失业率,即与一国潜在产出能力相适应的最高 就业水平。国际上一般将在5 失业率基础上的就业状态称为充分就业。从二战后 n 2 0 世纪6 0 年代,西方主要发达国家政府对经济实施以刺激有效需求为主要内容 的政策,在摆脱经济危机和失业方面取得了积极的成效。 三、面对经济滞胀,关注总供给特别是劳动供给的失业理论。2 0 世纪7 0 年代 至8 0 年代,在两次石油涨价的冲击下,西方主要资本主义国家出现了经济停滞、高 通货膨胀和高失业率并存的现象。“滞胀 现象引发了对凯恩斯政府干预理论的 批判。一些经济学家认为,2 0 世纪7 0 年代与8 0 年代出现的失业问题与3 0 年代的失 业有较大的不同,它主要不是来自有效需求不足的总量失业,而是一种劳动力供 给的结构性失业。所谓结构性失业是指劳动力市场上工人在工种、技术熟练程度、 地区流动等方面不适应雇主的要求,以及劳动市场作用不充分不完善。为此提出 应实行积极的人力政策,重视对劳动力的再培训,完善就业服务,以及通过多种综 合治理政策增加就业需求。 ,jj 西方就业与失业理论,实际上是有关非自愿性失业的理论。在上述理论的指 导下j 、西方各国政府根据各种失业类型,运用多种政策手段,有效地降低失业率, 提高就业水平。 1 2 1 2 我国就业和失业问题现状与特征 ( 1 ) 我国就业和失业现状 根据劳动和社会保障部和国家统计局发布的( 2 0 0 6 年度劳动和社会保障事 业发展统计公报口1 显示,2 0 0 6 年末全国就业人员7 6 4 0 0 万人,比上年末增加 5 7 5 万人。其中,第一产业就业人员3 2 5 6 1 万人,占全国就业人员的4 2 6 ;第 二产业1 9 2 2 5 万人,占2 5 2 ;第三产业2 4 6 1 4 万人,占3 2 2 。年末城镇就业 人员2 8 3 1 0 万人,比上年末净增加9 7 9 万人。其中单位就业人员11 7 1 3 万人,比 上年末增加3 0 9 万人。在城镇单位就业人员中,在岗职工1 1 1 6 1 万人,比上年末 增加3 1 0 万人。全年城镇新增就业11 8 4 万人,有5 0 5 万下岗失业人员实现了再 就业,其中帮助“4 0 5 0 人员等就业困难人员实现再就业1 4 7 万人。年末城镇登 记失业人数为8 4 7 万人,城镇登记失业率为4 1 。国有企业下岗职工基本生活 浙江工商大学硕士学位论文 基于数据挖掘的失业人员再就业预测模型研究 保障向失业保险并轨基本完成。年末全国共有各类职业介绍机构3 7 4 5 0 所,比上 年末增加1 7 0 3 所,其中公共职业介绍机构2 4 7 7 7 所。全年公共职业介绍机构介 绍成功1 8 4 5 万人次,比上年增长2 0 。年末全国共有技工学校2 8 8 0 所,在校学 生3 2 1 万人,比上年末增加4 6 万人。全年技工学校面向社会开展培训3 3 8 万人 次,比上年增长2 3 6 。年末全国共有就业训练中心3 2 1 2 所,民办培训机构2 1 4 6 2 所,全年共开展培训1 9 0 5 万人次,比上年增长1 7 2 。全年共有6 4 5 万失业人 员和下岗职工参加了再就业培训,6 3 万人参加了创业培训。年末全国共有职业 技能鉴定机构7 9 5 7 个,职业技能鉴定考评人员1 6 万人。全年共有11 8 2 万人参 加了职业技能鉴定,比上年增长1 8 ,9 2 5 万人取得不同等级职业资格证书,比 上年增长1 1 。其中取得技师、高级技师职业资格的有2 9 6 万人。年末全国共 有境外就业中介机构4 5 4 家,通过这些机构介绍仍在国外和港澳台地区就业的人 员共1 0 5 万人,其中2 0 0 6 年赴境外就业人数为5 6 万人。年末持外国人就业证 在中国工作的外国人共1 8 万人,持台港澳人员就业证在内地工作的台港澳人员 共7 2 万人。 ( 2 ) 我国失业问题的主要特征 目前,由于经济持续不景气,多数西方发达国家也面临相当严重的失业问 题,但由于我国目前正处于向市场经济体制的转轨时期,在失业问题上有其自身 特有的特征h 1 。 1 ) 失业率与通货膨胀率关系 菲利浦斯理论认为,失业率与工资增长率,或失业率与通货膨胀率之间存 在此消彼涨的反比关系,这也是西方市场经济国家政府治理失业和通货膨胀的一 个理论依据。但我国的实践却并没有证实这一理论。我国在2 0 世纪8 0 年代以来, 当经济增长率和物价都呈上升趋势时期,城镇失业率却并没有降低,而在经济波 动的回落期,在经济增长率和物价上涨率降低时,城镇失业率依然在上升。由于 我国城镇失业主要来自国有部门和集体部门,这表明,固有企业和集体企业处境 艰难的主要原因是体制原因,单纯运用货币扩张政策、扩大需求政策缓解国有和 集体企业困难的效果是不会太显著的。 2 ) 失业的市场化特征明显 失业的市场化特征越来越明显,“下岗分流、实施再就业 强调的是失业 4 浙江工商大学硕士学位论文 基于数据挖掘的失业人员再就业预测模型研究 和下岗人员“自谋职业”,过去那种把国家统一安排、截流进城民工作为解决失 业的主要措施的做法已完全抛弃,用市场手段解决下岗和失业问题已成为目前的 主要措施。但“单位制 的约束依然存在,下岗不表现为失业,是传统“单位制 就业制度和社会保障制度不完善的表现。 3 ) 隐性失业问题 隐性失业是我国一个独特形式。长期以来,我国只注重经济增长速度,采 取的是忽视投资效率的高投入与粗放经营,许多部门积淀了大量的富裕人员,这 等于国家用大量的投资资本把失业者养起来。另外,错误理解了工业化和城市化 的关系,没有制定消化农业剩余劳动力的城市化发展的长期政策,尽管目前国有 和集体部门中大量富裕人员因效益不佳而大量下岗或失业,却依然有大量的富裕 人员存在于国有和集体企业、事业单位和政府部门,加上没有被列入失业率统计 的农业剩余劳动力,这一数字是非常可观的。据有关资料分析,我国目前现有就 业人口中的隐性失业率仍可能高达2 7 。 4 ) “所有制偏好劳与“超预期偏好 现象 随着市场化进程的加快,市场竞争越来越激烈,在这种形势下,我国又出 现了一个奇怪的就业现象:拥有大量下岗职工的企业却雇佣大量的临时工,而临 时工主要来自农村或中小城镇,因此出现了很多大城市中外来务工者远比下岗工 人多的现象。这是一种典型的“所有制偏好”或“超预期偏好 ,为等待有保障 和高工资的工作而宁愿放弃已经出现的低工资工作机会,使许多下岗人员长时期 处于失业状态。 1 2 2 我国失业人员再就业扶持办法与存在问题 1 2 2 1 我国失业人员再就业扶持办法 中华人民共和国劳动和社会保障部自2 0 0 2 年起陆续发布了3 7 项关于就业与 再就业的国家政策法规。例如,关于贯彻落实 的通知,关 于全面推进零就业家庭就业援助工作的通知,国务院关于解决农民工问题的若 干意见、关于下岗失业人员再就业有关税收政策具体实施意见的通知关于 贯彻落实国务院进一步加强就业再就业工作通知若干问题的意见等。这些国家 政策法规和相应的地方政策法规对就业和再就业工作提供了制度层面上的保障 和纲领。 5 浙江工商大学硕士学位论文 基于数据挖掘的失业人员再就业预测模型研究 最新的关于贯彻落实国务院进一步加强就业再就业工作通知若干问题的意 见( 劳社部发 2 0 0 6 1 6 号) 制定了关于再就业扶持政策对象的认定和管理;鼓 励自谋职业和自主创业:鼓励企业吸纳就业;提高灵活就业人员的稳定性;改进 就业服务,强化职业培训;加强就业管理,统筹城乡就业;开展失业调控:建立 社会保障与促进就业的联动机制;强化部门责任,建立完善工作制度十个方面的 具体政策。 1 2 2 2 失业人员再就业扶持办法存在的问题 以杭州为例,在就业促进部2 0 0 7 年4 月发布的杭州市上一轮再就业政策 的总结评估隅3 中总结了各项政策实施效果,评估了各项再就业扶持政策在操作 过程中出现的主要问题及原因分析。例如,税收优惠政策对企业的注册资金、人 数规模、吸纳人数、利润率等均未做出明确规定,导致出现了少数吸纳持证人员 较少的企业享受了较多减免税款等政策效应不明显的现象;行政性收费减免政策 减免的范围太窄,仅局限于规定的8 4 个项目,其中多数项目均是非常见的,对 于从事个体经营的持证人员来说只是“画饼充饥 ,而且所免项目的收费标准均 是相对较低的;公益性岗位补贴政策存在着拓宽公益性岗位范围方面、社区财力 以及岗位隶属部门的问题;职业介绍补贴标准太低、对象范围太窄、申领手续较 繁。这些再就业扶持政策工作中存在的问题严重影响了再就业指导的效果。 综上,尽管“再就业工程”的扶持方式是多样的,但并不能从根本上解决就 业和失业问题。就业困难,一是管理实施上的漏洞,这要靠国家和地方政府强有 力的法规管制;二是由于经济结构方面的原因,不是短时间能够解决的;三是越 来越突出的结构性失业问题,即人和岗位的失衡。 1 3 研究内容与创新点 1 3 1 研究内容 本文为基于网格的分布式劳动力市场决策支持系统项目核心研究内容, 该项目由2 0 0 7 年度浙江省科技厅支撑和引导,主要包括四层:资源层、网络层、 功能层和交互层。资源层包括数据分布和计算分布,数据源可以是分布式环境中 的异构数据库,或者各类文本文件( x m l 格式、c s v 格式、e x c e l 格式) ,算法 可部署到远程节点执行,各个远程计算节点同时存有各自的模型库和方法库;网 络层支持w s r f ,通过g l o b u st o o l k i t4 实现分布式数据访问和计算协同;功能层 6 浙江工商大学硕士学位论文基于数据挖掘的失业人员再就业预测模型研究 包括数据预处理、方法库、模型库和工作流引擎,数据预处理部分具有噪音去除、 规范化等功能,方法库提供了各种分类、聚类和关联方法的典型算法实现,模型 库存放了面向劳动力供给和劳动力需求的各种通用模型,工作流引擎可对各个任 务进行算法编排、参数选择以及节点调度;交互层:主要完成决策人员与系统之 间的交互工作,实现对整个决策支持过程的人机交互管理。 本文主要研究功能层建立符合国内实际情况的劳动力需求、供给的模 型库和方法库,从研究国内外就业失业理论和发展、我国就业失业特征、现状、 存在问题和解决办法入手,通过总结和分析,对我国失业再就业的突出问题:劳 动力供需、失业率、再就业困难进行了深入研究。应用数据挖掘等技术和方法构 建了基于趋势模式的劳动力供需预测模型、基于竞争神经网络的失业预警模型、 基于聚类的失业人员再就业困难程度评分评级模型。本文以杭州市劳动和社会保 障局人力资源系统数据和杭州市2 0 0 6 年统计年鉴数据为样本输入,局部利用开 源数据挖掘软件w e k a 进行模型的实证分析。数据挖掘用户可通过w e k a 集成的 大量算法,执行数据预处理,分类,回归,聚类,关联规则,数据可视化等任务, 并且可使用j a v a 语言,利用w e k a 的架构上开发出更多的数据挖掘算法。这些预 测预警模型,为帮助失业人员再就业,提高社会就业率提供了定量分析工具和决 策支持服务。 1 3 2 创新点 本文结合劳动力市场数据特征,经过实地调研和文献分析,确定了从宏观 层面( 导向性研究) 和微观层面( 个体分析研究) 对劳动力市场数据进行特征分 析。结合我国的国情、实际业务系统数据特征和目前的研究方法,提出三个预测 模型:劳动力供需时间序列预测模型,失业预警模型,失业人员再就业困难程度 评分评级模型。为了提高预测的准确度和与分析主题的契合度,灵活地结合了定 性和定量的方法。 1 3 2 1 基于趋势模式的劳动力供需时间序列预测模型 ( 1 ) 劳动力供需时间序列预测模型 劳动力供需时间序列预测模型用于供和需二方面的预测。从需求角度看, 研究不同行业对失业人员的学历和专长技能提出要求下的招聘人数,据此得到分 行业、学历、专长技能的劳动力需求人数时间序列数据;从供应角度看,研究不 7 浙江工商大学硕士学位论文基于数据挖掘的失业人员再就业预测模型研究 同失业人员在求职的过程中,所具备的自身学历、专长技能两种基本素质和选择 求职的行业,据此得到分行业、学历、专长技能的劳动力供给时间序列数据j 从 不同角度研究劳动力供需时间序列数据的发展趋势,一方面可以帮助失业人员了 解现时招工单位预期需求,以便更好的计划未来的职业发展方向,提高其求职成 功率;另一方面可以帮助招工单位了解本地劳动力的总体情况,掌握不同劳动力 变化因素对于劳动力供应情况的影响;还可以预测职位空缺,可帮助就业指导机 构规划长期职业教育目标和短期职业培训课程。 ( 2 ) 基于趋势模式时序数据挖掘技术t t s d m 本文提出基于时间序列的趋势模式的时序数据挖掘预测方法t t s d m ( t r e n d - b a s e dt i m es e r i e sd a mm i n i n g ) 。t t s d m 对于给定的时间序列,先将时间 序列转换成时间子序列数据第然后从上升的或下降的时间子序列数据集中提取 序列模式,把最近时间子序列看作是时间序列的信息收集器,进行基于置信度的 时序趋势模式预测。将t t s d m 应用于由杭州市劳动和社会保障局人力资源系统 数据库提供的杭州市2 0 0 3 年至2 0 0 7 年劳动力供需时间序列数据的预测上,从技术 分析角度预测劳动力供需的非线性时间序列。实证分析说明,利用t t s d m 预测 劳动力供需的非线性时间序列的预测效果明显优于传统的趋势外推、a r m a ( a u t o r e g r e s s i v ea n dm o v i n ga v e r a g em o d e l ) 、人工神经网络等方法。从这个角度 来看,基于t t s d m 预测劳动力供需时间序列可视为一种应用创新。 1 3 2 2 基于竞争神经网络的失业预警模型 ( 1 ) 失业预警模型 本文借鉴经济预警的理论和方法设计了失业预警模型。通过明确警源,根 据专家经验和定性分析选择预警指标,划分警度和警限,应用预警方法分析警情 几个步骤构建了失业预警模型。 ( 2 ) 基于l v o 的层次化组合算法s o m - - l v q 本文提出的s o l d l v q 结合了自组织映射s o m ( s e l f - o r g a n i z i n gm a p ) 和学习 矢量量化l v q ( 1 e a r n i n gv e c t o rq u a n t i z a t i o n ) 算法各自的优点,利用s o m 和l v q 算法依次训练网络。第一层利用s o m 对网络进行训练,在这个学习过程中,网络 以无监督的方式对输入进行特征提取,目标是选择一个小的并且合理的特征集合, 该集合包含了输入数据的主要信息。第二层利用l v q 对网络进行二次训练,在此 8 浙江工商大学硕上学位论文基于数据挖掘的失业人员再就业预测模型研究 忽略网络输出层的拓扑结构,并在原先训练的基础上指定网络的输出神经元所属 的类别,这个学习过程中进行的是实际分类。经过组合,分类边界得以收缩而更 加准确;而由s 0 1 d 作为启发式过程初始化l v q 的权值,提升了l v q 算法整体性能。 1 3 。2 3 基于聚类的失业人员再就业困难程度评分评级模型 ( 1 ) 失业人员再就业困难程度评分评级指标体系 本文提出的失业人员再就业困难程度评分评级指标体系,是第一次从微观 角度关注失业人员再就业困难程度。该指标体系不是简单的从年龄和残疾状况界 定就业困难对象,而是综合考虑失业人员的生理信息、经济状况、技术专长、个 人素质、工作经历和培训情况对其再就业困难程度的影响。通过定性分析结合定 量分析的方法,确定了指标体系的指标、评分标准、指标权重和评分公式。依据 该指标体系的对失业人员进行细分,为再就业指导工作和再就业援助政策提供了 决策支持,保证了将有限的社会帮助提供给最困难的失业者。 ( 2 ) 基于聚类的评级方法c b r l v l :,构建基于聚类的再就业困难程度评级方法c b r m ( c l u s t e r - b a s e dr a t i n g m e t h o d ) 。c b r m 利用k - m e a n s 聚类算法对评分结果自动聚类,得到再就业困难 程度分级,有效的解决了传统评级方法均方差,分界值确定难的问题。为了提高 聚类性能,解决局部极小解,确定k - m e a n s 聚类算法初值的选取问题,提出一 种新的基于距离的初始化方法,它不需要设定门限,不受数据集的顺序影响,而 且对孤立点和噪声有较强的抑制能力。 1 3 2 4 添加s o m - - l v 0 算法到开源数据挖掘工具w e k a 针对失业预警问题,提出了一个基于l v q 的层次化组合算法s o m - l v o ,并将 该算法添加到数据挖掘软件w e k a 中。w e k a 汇集了当今最前沿的机器学习算法及 数据预处理工具,它为数据挖掘实验的整个过程,包括准备要输入的数据,统计 地评估学习方案,以及可视化输入数据及学习结果,提供了广泛地支持。s o m - l v q 学习算法实现了自适应分类过程,将其加入到w e k a 分类器中,增强了w e k a 分类 器对神经网络方法的支持。 1 4 论文的内容安排 第一章,是论文的引言部分,介绍了论文的研究背景、研究意义、研究现 状、研究内容及创新点等。通过文献回顾,总结了我国目前就业失业问题的发展 9 浙江工商大学硕士学位论文基于数据挖掘的失业人员再就业预测模型研究 现状和再就业指导工作的探索经验;分析了我国就业失业问题的主要特征、形成 原因和各项再就业扶持政策存在的问题。针对矛盾的根源,提出建立面向宏观分 析和微观分析的关于失业人员再就业若干预测模型的迫切需求。 第二章,简要介绍了数据挖掘的基本理论。通过文献分析,主要概述了数据 挖掘的产生、定义、应用范围、常用技术、基本方法论、常用算法等。 第三章,为本文的中心部分,属于宏观层次的导向性研究,建立了基于趋势 模式的劳动力供需时间序列预测模型。具体介绍了国内外研究时间序列的方法和 适用性,时间序列分析和时序数据挖掘基本概念和挖掘算法;在此基础上,设计 了基于趋势模式的劳动力供需预测模型结构,给出输入输出模式,预测结果比较 和解释。 第四章,为本文的核心部分之一,属于宏观层次的导向性研究,提出了基于 竞争神经网络的失业预警模型。具体研究了经济预警理论的发展、预警体系、预 警方法;介绍了s o m 和l v q 的原理,提出了基于l v q 的层次化组合模型s o m - l v q ;应 用该模型预测失业率警度级别:实现了s o l d l v q 模型,并将其加入到数据挖掘工 具w e k a 分类器中。 第五章,为本文的核心部分之二,属于微观层次的个体分析研究,提出了 基于聚类的失业人员再就业困难程度评分评级模型。针对再就业扶持政策中对就 业困难对象界定存在的问题,提出失业人员再就业困难程度指标体系,解释了每 项指标的意义,计算方法,并利用层次分析法确定指标权重,从而得到就业困难 程度评分公式和评分结果。基于聚类评级方法c b r m 利用k m e a n s 聚类算法对评分 结果聚类,得到就业困难程度分级,有效的解决了传统评级方法均方差,分界值 确定难的问题。相对于现有的基于距离的初始化方法,本文提出一种新的基于距 离的聚类初始化方法,此法具有以下优点:一、不需要设置门限;二、对孤立点 和噪声有较强的抑制。应用这一模型进行失业人员再就业困难程度评分评级,可 为不同级别的就业困难人员提供相应的再就业服务,扶持政策。 第六章,结论和展望,概括了全文的主要内容和研究方法,并提出了进一步 的研究方向。 1 0 浙江工商大学硕士学位论文基于数据挖掘的失业人员再就业预测模型研究 2 数据挖掘的基本理论 2 1 数据挖掘概述 2 1 1 数据挖掘概念 2 1 1 1 数据挖掘的产生 早在1 9 8 2 年,趋势大师j o h nn a i s b i t t 在他的首部著作大趋势 ( m e g a t t e n d s ) 2 1 中就提到:“人类正被信息淹没,却饥渴于知识。 计算机硬件 技术的稳定进步为人类提供了大量的数据收集设备和存储介质;数据库技术的成 熟和普及已使人类积累的数据量正在以指数方式增长;i n t e r n e t 技术的出现和 发展已将整个世界连接成一个地球村,人们可以穿越时空般地在网上交换信息和 协同工作。在这个信息爆炸的时代,面对着浩瀚无垠的信息海洋,人们呼唤着一 个去粗取精、去伪存真的,能将浩如烟海的数据转换成知识的技术,数据挖掘 d m ( d a t am i n i n g ) 就是在这个背景下产生的。数据挖掘出现于2 0 世纪8 0 年代后 期,是数据库研究中一个很有应用价值的新领域,是一门交叉性学科,融合了人 工智能、数据库技术、模式识别、机器学习、统计学和数据可视化等多个领域的 理论和技术。 2 1 j 1 :2 数据挖掘的概念 数据挖掘1 是指从数据库的大量数据中提取隐含的、先前未知的并有潜在价 值的信息和知识的过程。从技术角度看,数据挖掘是从大量的、不完全的、有噪 声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是 潜在有用的信息和知识的过程。原始数据可以是结构化的,如关系数据库中的数 据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异 构数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也 可以是归纳的。发现的知识可以用于信息管理,查询优化,决策支持和过程控制 等。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查 询,提升到从数据库中挖掘知识,提供决策支持。从商业应用角度看,数据挖掘 是种崭新的商业信息处理技术。其主要特点是对商业数据库中大量业务数据进 行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识,即从一 个数据库中自动发现相关商业模式。数据挖掘是利用统计学和机器学习的技术, 浙江工商大学硕士学位论文 基于数据挖掘的失业人员再就业预测模型研究 探求那些符合市场、客户行为的模式。目前,数据挖掘己经能够使挖掘技术自动 化,将数据挖掘和商业数据仓库相结合,以适当的形式将挖掘结果展示给企业经 营管理人员。对于数据挖掘的应用不仅依靠良好的算法建立模型,而且更重要的 是要解决如何将数据挖掘技术集成到当今复杂的信息技术应用环境中。其次,还 要有数据挖掘分析人员的参与,因为数据挖掘技术不具备人所特有的经验和直 觉,不能区分哪些挖掘出的模式在现实中是有意义的,哪些是没有意义的。因此, 数据挖掘分析人员的参与是必不可少的。 2 1 2 数据挖掘常用技术 常用的数据挖掘技术可以分成统计分析类、知识发现类和其他类型泓一1 。 2 1 2 1 统计分析类 统计分析( 或称数据分析) 技术中使用的数据挖掘模型有线形分析、非线形分 析、回归分析、逻辑回归分析、单变量分析、多变量分析、时间序列分析、最近 邻算法和聚类分析等技术。在统计中总要涉及足够多的数据,无法清楚数据的意 义和从数据中归纳出模式。因此,必须借助于数学模型为手段,对这些数据进行 归纳、推断和预测,寻找数据间的模式。统计推断分析一般借助统计数学模型完 成,它用己有信息推断未知信息的工作过程,如用过去的资料来推断未来,利用 局部资料来推断总体,利用相关总体的资料进行变量间关系的推断等等。在所有 的数据挖掘的技术中,统计型数据挖掘工具是数据挖掘技术中最成熟的一种,已 经在数据挖掘中得到广泛的应用。 2 1 2 2 知识发现类 知识发现类数据挖掘技术是与统计类数据挖掘技术完全不同的一种挖掘技 术。它可以从数据仓库的大量数据中筛选信息,寻找市场可能出现的运营模式, 发掘人们所不知道的事实。知识发现类数据挖掘技术包含人工神经网络、决策树、 遗传算法、粗糙集、规则发现和关联顺序等。粗糙集r s ( r o u g hs e t ) 理论是近年 来才兴起的用于研究不精确、不确定性知识的学习、表达、归纳的方法。它通过 引入不可分辨关系、等价类、上近似、下近似、属性约简、分辨矩阵等概念考察 知识表达中不同属性的重要性,来确定哪些属性是冗余的,哪些属性是比不可少 的。删除冗余属性进而简化知识表达空间,最终能从数据中挖掘出规则。它的理 论核心是基于知识源对象的分类这一思想的,通过分类找出属性间的关联规则。 1 2 浙江工商大学硕士学位论文基于数据挖掘的失业人员再就业预测模型研究 遗传算法是近几年发展起来的一种崭新的全局优化算法,基于达尔文的进化论中 的基因重组、突变和自然选择等概念。解决问题时,要对待解决问题的模型结构 和参数进行编码,一般用字符串来表示,这个过程就将问题符号化、离散化了。 遗传算法的最大的优点是问题的最优解与初始条件无关,而且搜索最优解的能力 极强。 神经网络是指由大量神经元互联而成的网络,人工神经网络是模拟人类的形 象直觉思维、是在生物神经网络研究的基础上,根据生物神经元和神经网络的特 点,通过简化、归纳、提炼总结出来的一类并行处理网络。人工神经网络以m p 模型和h e b b 学习规则为基础,建立三大类多种神经网络模型。所有神经网络的工 作过程主要分两个阶段:学习阶段和工作阶段。神经网络在学习过程中必须依靠 学习算法,矫正学习过程中的误差或偏离。神经网络从经验中学习,经常用于发 现一组输入数据和一个结果之间的未知联系,和其他方法一样,神经网络先要检 测数据中存在的模式,再对从数据中发现的规则进行概括,最后给出结果。 关联规则发现主要是针对事物型数据库,是与大多数人想象的数据挖掘过程 最为相似的一种数据挖掘形式。在关联规则系统中,规则是“如果怎么样、怎么 样、怎么样,那么就怎么样 的简单形式表示的。根据规则中所处理的值类型, 关联规则可以分成布尔关联规则和量化关联规则两种;根据关联规则集涉及不同 的抽象层次,关联规则可以分成多层关联规则和单层关联规则。特别是对售货数 据,如果对这些历史事物数据进行分析,则可对顾客的购买行为提供极有价值的 信息。 2 1 2 3 其它数据挖掘技术 其他数据挖掘技术中包含文本数据挖掘、w e b 数据挖掘、分类系统、可视化 系统、空间数据挖掘和分布式数据挖掘等。文本数据挖掘和w e b 数据挖掘是近几 年新发展起来的崭新数据挖掘技术。前者主要为了满足非结构化信息的挖掘的需 要;后者则是针对日益发展的因特网技术所带来的大批量网络信息的挖掘。分类 系统应该说也是一种知识发现技术,但是它的实现可以采用各种知识发现类技术 的支持,而且在数据挖掘中具有特殊重要的作用。可视化系统则是为使数据挖掘 能以图形或图像的方式在屏幕上显示出来,且能交互处理。这样,可以清楚地发 现隐含的和有用的知识。空间数据挖掘则是基于地理信息系统的数据挖掘技术。 浙江工商大学硕士学位论文基于数据挖掘的失业人员再就业预测模型研究 空间数据挖掘方法目前主要有空间数据分类、空间数据关联分析和空间趋势分析 等。分布式数据挖掘是基于分布式数据库的,利用分布式算法从分布式数据库中 挖掘知识的技术

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论