基于分类与预测的两段式就业指导系统的分析.doc_第1页
基于分类与预测的两段式就业指导系统的分析.doc_第2页
基于分类与预测的两段式就业指导系统的分析.doc_第3页
基于分类与预测的两段式就业指导系统的分析.doc_第4页
基于分类与预测的两段式就业指导系统的分析.doc_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于分类与预测的两段式就业指导系统的分析 基于分类与预测的两段式就业指导系统的分析 AnalysisonTwoSectionsEmploymentGuidanceSystemBasedontheClassificationandPrediction 吴静WUJing (福州软件职业技术学院计算机系,福州350002) (ComputerEngineeringDeptofFuzhouSoftwareTechnologyVocationalCollege,Fuzhou350002,China) 摘要:本文研究分类与预测技术在学生就业指导中的应用。主要分为入学后的就业指导与求职前的就业指导。利用了决策树模型分析出贡献度最大的分裂属性,对学生进行入学前就业指导。利用基于类平均距离对学生可能就业的单位进行预测,为学生求职时提供有价值的指导信息。 Abstract:Thispaperstudiestheapplicationofclassificationandpredictiontechnologyinthestudentemploymentguidance.Itmainlydividesintotheemploymentguidanceaftertheentranceandbeforeapplyingthejob.Thelargestcontributionsplittingattributesareanalyzedbythedecision-makingtreemodeltocarryouttheemploymentguidancebeforetheentranceofstudents.Itusesthegroupaveragedistancetopredictpossibleemploymentunitsofstudentstoprovidethevaluableguidanceinformationforstudentsinthejobhunting. 关键词:决策树;类平均距离;就业指导 Keywords:decision-makingtree;groupaveragedistance;employmentguidance :TP301.6:A:1006-4311(xx)20-0258-02 0引言 教育部公布的最新数据显示,我国高校毕业生的数量由xx年的114万增加到xx年的727万。为了提高就业率,决策者们很想知道如何培养学生,使其能在就业市场找到理想工作。高职院校一般已建立了比较完善的学生信息管理系统,积累了大量的历史数据。但这些资料都没有或很少被利用,学校在制定学生的培养方式时较少的利用这类信息。如能从这类信息中找到一个一般规律,启发相应管理者注意哪些学生应注重哪些方面,则会起到相当好的效果。对学生的就业指导并不是到学生即将毕业时才进行的工作,应是在学生入学后就立即展开的工作。本文利用分类与预测的数据挖掘的理论和技术应用到“两段式就业指导”实际研究中,使用决策树模型对学生进行入学前就业指导,利用基于KNN分类与预测模型对学生进行了毕业就业指导1。 1数据准备 本文所采用的样本数据主要于福建某高职院校的学生信息。基本的数据表有学生个人情况表、学生成绩表、学生就业登记表。在每种就业单位类型的学生样本抽取若干学生记录组成测试样本数据。 在进行样本选择时,主要从四个维度进行考虑:课程的平均成绩,该维度可以体现学生的平均学习能力;实践成绩与毕业设计成绩,该维度可以体现学生的实际动手能力;英语成绩,该维度可以体现学生第二技能的掌握能力(英语专业学生除外)。样本数据的提取主要数据库语句为:Select*fromView_KNN。 其中,View_KNN是为存放各种类型的学生信息的就业视图,将所有数据作为测试样本。接下来需对一些数据进行数值化处理,以便算法的实现,同时输入每个属性的权值,并选取测试数据,以便接下来的测试工作的实现。 2决策树模型在两段式就业指导中的应用 对于决策模型来讲,所谓的分类就是将对象与预先定义好的类中知识进行学习的完整过程。构造过程是从多个分裂属性中选取一个分裂属性作为根结点2,这是第一个要解决的问题,这主要是依据分裂属性的信息增益来决定。当根结点确定完后,那么接下来是要确定下层的结点应该是哪一个分裂属性,那么这同样是依据分裂属性的信息增益来确定它对分类做的贡献。用同样的方法逐层地确定每层上的分裂属性应该选择哪一个更为合适。以此类推,逐层确定结点,直到整棵树的建立。构造过程中就可以发现贡献度最大的属性,同时也表明了这些属性对学生被不同类型单位录用的决定程度。分裂属性“专业成绩”、“毕业设计成绩”、“英语过级情况”、“实践成绩”3。接下来本文应用公式1为每个分裂属性计算其信息增益。 对如上各分裂属性的信息增益值进行比较,不难发现属性“实践成绩”具有最大增益率,因此选择该属性作为决策树的根结点4。重复以上过程计算出各个分裂属性的信息熵。构造出如图1所示的决策树。现在可以从决策树中只提取国企、外企、私企三类业单位的规则。规则如下:if实践成绩=“优”AND专业成绩=“优”then就业单位=“国企”;if英语过级=“是”then就业单位=“外企”;if实践成绩=“优”then就业单位=“私企”。从以上规则可以分析出,想要进入国企就必须加强专业成绩及实践能力,而想进入外企的学生则应注重外语能力的培养,对私企感兴趣的学生就应增强实践动手能力。学生可根据自未来的就业意向,在大学学习过程中注重自己相应能力的培养。 3类平均距离在两段式就业指导中的应用 最邻近(KNN)分类算法,被称为最简单的数据挖掘算法之一。假设圆要被决定赋予是三角形还是四方形中哪个类,则看圆与所有样本的距离中较近的前K个样本,其中是三角形占的比例大,还是四方形占的比例大。 根据学生的基本情况和个人综合素质分析其被各种单位录用的可能性大,提高被录用的效率,在学生即将毕业求职阶段是十分重要的。预测学生毕业后到哪种类型的单位就业的可能性更大,也是一种分类。同时基于距离的分类方法能够正确的确定对象,在数据模糊或不完整情况下,分类技术仍然能够准确的完成预测。在学生个人信息表和选课记录表中选择出若干起决定因素的素质项。如专业课平均成绩、英语水平、计算机水平、实践能力等作为分裂属性。 由于各个分裂属性在整个空间中所起的份量不同,如果让每个特征向量的权重都相同,那么这样计算的距离结果肯定是不够准确的。就这一不确定,可应用SOM神经网络进行各维的权重计算5。对样本数据进行分析后发现课程平均成绩及毕业设计成绩在各类别中取值基本相同,那么其对结果预测的贡献率相对较低,则分配给其的权重各为0.15。而实践成绩和英语成绩在各类别中取值差异较大,它们具有较强的分类能力,则分配给其的权重各为0.35。通过对各特征属性赋予一定权重之后,假设被预测学生X与样本数据Si(Si表示样本数据中第i个学生)之间的距离计算可通过如下方式完成。如公式2所示。 其中,x1表示学生X的课程平均成绩,x2表示学生X的实践成绩,x3表示学生X的英语成绩,x4表示学生X的毕业设计成绩。si1表示学生Si的课程平均成绩,si2表示学生Si的实践成绩,si3表示学生Si的英语成绩,si4表示学生Si的毕业设计成绩。最后统计样本X与类别Ci的所有样本距离的平均值,距离最近的即为该样本所属的类别。通过已知的测试对象,计算它与样本数据的平均距离,最后通过检验计算结果与测试对象的类型是否一致,来验证算法的准确性。该样本所代表的学生就可到预测出相应类别的单位进行求职,同时被该类单位录用的可能性则会很大。通过对各特征属性对预测贡献的高低设置相应的权重,同时解决了K值难确定的问题。这种基于类平均距离的分类预测方法是原来基于类中心分类预测方法的另一种表现形式。 4总结 本研究通过挖掘学生的就业信息及学生的个人信息及成绩信息,分别基于类平均距离分类方法与ID3方法构建决策树模型,挖掘出隐含的能影响就业率和就业情况的决策因素,通过分析这些信息,能够发现学生哪些方面的素质对于就业单位来讲是最需要的,什么样的学生将来到何种就业单位就业的可能性更大。 参考文献: 1傅莉.数据挖掘在教学评估中的应用D.南京理工大学,xx,09. 2屈志毅,周海波.决策树算法的一种改进算法J.计算机应用,xx

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论