基于数据挖掘的网络信息挖掘技术研究_第1页
基于数据挖掘的网络信息挖掘技术研究_第2页
基于数据挖掘的网络信息挖掘技术研究_第3页
基于数据挖掘的网络信息挖掘技术研究_第4页
基于数据挖掘的网络信息挖掘技术研究_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于数据挖掘的网络信息挖掘技术研究

一、采用数据挖掘技术来处理电子档案的筛选过程中随着计算机和网络的快速发展和普及,网络招聘已成为雇主招聘人才的重要方式。招聘人员越来越多地使用计算机和信息技术来支持个人人力资源管理系统来处理电子招聘的评估和过滤,这提高了整个人力资源管理体系的效率。数据挖掘技术,是解决这一问题的较好方法。本文将数据挖掘技术运用于网络电子简历的筛选,并比较了决策树与神经网络两种算法的优劣。二、网络简历样本的获取和预处理1.企业员工招聘工作本文从某人才招聘网站数据库获得简历数据,选取十个热门的岗位(会计、销售工程师、卫生医疗、纺织服装设计、司机、建筑/结构工程师管理人员、美术/图形设计、市场经理、行政/人事人员),每个岗位中抽取50个招聘职位,每个职位抽取20份简历信息,每一份简历及其相应的招聘职位要求构成一个样本。其中10份为企业通过招聘网站发出面试通知的简历(简称A类样本),另外10份为没有被企业通知面试的简历(简称B类样本)。2.基本分类结果考虑到本研究的挖掘目的,本文选取了以下几个应聘者的属性与招聘公司的需求进行匹配,在对数据进行处理后,再应用到数据挖掘工作中。所选择的属性都需要将招聘企业的要求和应聘者的信息相匹配,再进行数据的处理。选择的输入属性是:性别、年龄、籍贯、学历、婚姻状况、工作年限、政治面貌、毕业院校、计算机水平、专业、工作经验,输出属性是:是否被接受面试。由于原始数据库中的数据存在着各种各样现实中不可避免的缺陷,下面将根据所选择的属性分别详述对简历数据所进行的预处理。(1)性别(R_Sex):不需要复杂的处理。(2)年龄(R_Age):本文将应聘者划分为三个年龄段:a.小于或等于三十岁;b.三十到五十岁;c.五十岁以上,修改后的数据变为“<=30”、“30-50”和“>=50”。(3)婚姻状况(R_Married):婚姻状况仅仅分为已婚和单身,因此将数据修改前的FALSE改为单身,TRUE改为已婚。(4)籍贯(R_Place):本文在预处理中,将籍贯与招聘单位所在省份一致的应聘者籍贯取1,其余的为0。(5)工作年限(R_WorkYear):本文将应聘者按照工作年限的长短来划分,修改后数据分别变为“<=5”、“5-10”和“>=10”。(6)学历(R_Education):大致分为博士后、博士、硕士、本科、大专、高中/中专六类,通过观察发现这一属性中存在一些空缺值,因此对这一属性的处理仅仅是把空缺值清除。(7)政治面貌(R_Political):本文将是党员的不做修改,将其他表述一概改为其他。(8)毕业院校(R_School):本文将应聘者的学校分为五类,并收集了大学的排名和院校名称,211重点大学取为1,一般重点大学为2,一般本科院校为3,其他专科和民办院校为4,海外大学为0。(9)专业(R_Specialty):本文将企业对专业的要求提取出来与应聘者简历中的信息做对比,若两者专业相符合则改为符合,否则改为不符合。(10)计算机水平(R_ComputerGrade):本研究将初级程序员用等级1代替,中级用2,高级用3,其余的为0。(11)工作经验(R_Experience):本文提取了招聘者要求中的一些关键字眼与应聘者简历中的描述来做对比,将应聘者的经验划分为三类:有相关经验、有实习经验、无相关经验。(12)接受(Accept):接受与否属性是数据挖掘中唯一的输出属性,A类样本取作为接受,B类样本取为拒绝。三、过滤函数本文主要选取了C5.0决策树算法和神经网络算法在数据挖掘软件Clementine中对预处理后的简历样本数据进行分类挖掘。1.公民的不准确性见表1,2.构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知记录的类别。本文分别抽取了几个岗位中的部分预处理后的数据作为数据挖掘的数据测试集,为决策树算法在招聘简历中的数据挖掘应用做进一步的验证和解释。首先在Clementine中建立Excel来源节点,导入数据,对其进行读取和处理,使其符合Clernentine中的挖掘要求,将数值类型改为读取,在方向列确定输入输出属性。C5.0算法能产生决策树或规则集,并且在决策树的产生过程中它能自动根据最大信息增益进行样本拆分,一直到样本子集不能再拆分为止。因此本文选择C5.0算法来产生规则集,C5.0能支持基于准确性的规则和基于普遍性的规则,基于普遍性的规则会考虑尽可能大的样本量,而基于准确性的规则则更倾向于规则的准确率。如对财务管理职位进行挖掘,可得到如下分类规则:(1)基于准确性的十二个拒绝规则:规则一:如果Sex=女;并且Education=本科;且School=3;且ComputerGrade<=1;且Experience=无相关经验;则拒绝。样本数:19,准确性:95.2%。规则二:若Sex=男;且WorkYear<=5;且Political=党员;并且School>2;且Experience=无相关经验;则拒绝。样本数:16,准确性:88.9%。规则三:如果Education=高中/中专;并且CompurerGrade<=1;则拒绝。样本数:45,准确性:87.2%。规则四:如果Sex=男;且WorkYear<=5;且Education=本科;并且School>2;并且ComputerGrade<=2;并且Experience=无相关经验;则拒绝。样本数:13,准确性:86.7%。规则五:如果Education=高中/中专;并且Specialty=不符合;则拒绝。样本数:27,准确性:86.2%。规则六:如果School<=2;并且Specialty=不符合;并且Experience=无相关经验;则拒绝。样本数:16,准确性:83.3%。规则七:如果Education=大专;并且Specialty=不符合;并且ComputerGrade>1;则拒绝。样本数:45,准确性:83%。规则八:如果Education=高中/中专;并且Experience=无相关经验;则拒绝。样本数:63,准确性:80%。规则九:若Sex=女;并且Age<=30;并且Place=不符合;并且School=3;并且ComputerGrade<=2;并且Experience=无相关经验;则拒绝。样本数:35,准确性:75.7%。规则十:如果Education=初中;则拒绝。样本数:12,准确性:75%。规则十一:如果Education=大专;并且School>2;并且Experience=无相关经验;则拒绝。样本数:35,准确性:75.7%。样本数:212,准确性:70.6%。规则十二:如果Place=符合;并且Education=大专;并且School>3;并且ComputerGrader>1;则拒绝。样本数:68,准确性:68.6%。(2)基于准确性的四个接受规则规则一:如果Married=单身;并且WorkYear=5-10;并且Education=本科;则接受。样本数:8,准确性:90%。规则二:如果School<=3;并且Experience=有相关经验;则接受。样本数:112,准确性:76.3%。规则三:如果Education=大专;并且School>3;并且Computergrade=1;并且Experience=有相关经验;则接受。样本数:56,准确性:72.4%。规则四:如果Specialty=符合;则接受。样本数:566,准确性:50.2%。(3)基于普遍性的两个接受规则规则一:如果R_School<=2;并且R_Speciality=符合;则接受。样本数:69,准确性:80.3%。规则二:如果Experience=有相关经验;则接受。样本数:270,准确性:62.5%。(4)基于普遍性的四个拒绝规则规则一:如果R_School<=2;并且R_Speciality=不符合;并且Experience=无相关经验;则拒绝。样本数:16,准确性:83.3%。规则二:如果Education=高中/中专;则拒绝。样本数:103,准确性:74.3%。规则三:如果R_School>2;并且Experience=无相关经验;则拒绝。样本数:372,准确性:69.5%。规则四:如果R_Political=其他;并且R_School>3;并且ComputerGrade>1;则拒绝。样本数:201,准确性:64.7%。2.模型选择和网络选择相对于决策树来说,神经网络算法需要更多的时间,而且对结果的解释也相对较困难,而且神经网络模型只包含一组权值,了解其中的关系和为什么有效也比较困难。将数据导入Clementine中并与神经网络模型相连接,其方法与决策树算法中一样。考虑到时间和准确性的关系,本文选择了修剪方法。另外,为了预防训练过度,本文选择了样本的50%至60%进行训练。本文希望数据训练的准确性尽量高一些,因此,在模型选择中选择使用最佳网络。节点训练结束后将会产生一个神经网络模型。神经网络算法挖掘的准确性在84%左右。3.算法查准率:f分类算法的分类质量一般可以用查全率和查准率来评价。查准率与查全率反应了分类质量的两个不同方面,须综合考虑,通常可用F1测试值来描述:决策树算法和神经网络算法分别对A、B类样本中部分数据集1、2的挖掘情况比较如下所示:测试样本数:356,训练样本数:713,查准率:79.8%,查全率:75.1%,F1测试值:0.77,用时:1秒。神经网络算法测试样本数:428,训练样本数:713,查准率:83.95%,查全率:80.59%,F1测试值:0.82,用时:5分9秒。测试样本数:500,训练样本数:1000,查准率:81.02%,查全率:79.2%,F1测试值:0.80,用时:1秒。神经网络算法测试样本数:600,训练样本数:1000,查准率:84.56%,查全率:82.34%,F1测试值:0.83,用时:1分33秒。从上文中我们可以知道,决策树算法的原理相对容易为人力资源管理者所理解,也能够得到比神经网络算法更加直观易懂的分类规则。决策树算法计算速度较快,用时较少,神经网络算法花费时间较长。但神经网络算法比决策树算法有更高的整体查准率和查全率,同时F1测试值反映出来的分类质量的二者比较中可见,神经网络算法比决策树算法分类质量要高一些。四、算法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论