基于Hadoop平台的岗位分析和推荐系统的构建_第1页
基于Hadoop平台的岗位分析和推荐系统的构建_第2页
基于Hadoop平台的岗位分析和推荐系统的构建_第3页
基于Hadoop平台的岗位分析和推荐系统的构建_第4页
基于Hadoop平台的岗位分析和推荐系统的构建_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于hadoop平台的岗位分析和推荐系 统的构建吕太之毕家钦江苏海事职业技术学院信息工程学院摘要:针对当前学生择业难而学校教学无法满足当前社会实际需求的问题,开发基于 hadoop分布式文件平台的岗位分析和推荐系统,借助大数据相关技术,使教师 和学生能及时跟踪就业岗位需要的技能。系统基于大规模数据运算的hadoop分 布式计算平台,使用spring mvc构建系统架构,综合运用webmagic> map/reduce、k-means与canopy算法、相似度推荐算法等技术实现就业岗位的 抓取和分析。关键词:大数据; 岗位推荐;hadoop; k-means; map/reduce;作者简

2、介:吕太之(1979-),男,江苏南京人,高级工程师,研究方向为计算 机应用、职业教育;作者简介:毕家钦(1996-),男,安徽安庆人,研究方向为计算机应用。收稿日期:2017-07-10基金:第二届江苏省高校中青年骨干教师和校长境外研修项目(苏教师20126 号)the cons true tion of job analysis and recommendation system based on hadoop platformlv tai-zhi bi jia-qinschool of information technology, jiangsumaritime institute;a

3、bstract:in view of the fact that the current students,job search is difficult, and the school teaching system cannot meet the needs of the current society, an employment analysis and recommendation system based on hdfs distributed fi1e system is developed to realize the informatization mem agcm ent

4、of graduate cmploym ent. by big data techno logy,it is possible for universities to track the latest skills required for posts. the system development is based on hdfs distributed file system, uses the spring mvc framework, and combines the webmagic, map/reduce programming model, k-means and canopy

5、algorithm, similarity recommendation algorithm in the big data effectively emd effectively to realizes the job capture emd analysis.keyword:big data; employment recomniendation; hadoop; k-nieans; map/reduce;received: 2017-07-100引言大数据技术在云计算之后又掀起了一场新的科技革命,现如今已经在医疗、金 融、交通、教育等行业中广泛应用1-2。近年来,数字化校园的建设在各大高

6、校已经全面落地,许多高校也在此平台上 开发了专属其特点的应用固。但是国家和社会高度关注的毕业生就业难的问题 依旧普遍存在于各大高校中。就江苏海事职业技术学院而言,建校至今,每年学 校推荐来校招聘的企业很多并不符合学生的实际情况,当然也存在学生所学课 程和技能无法满足企业需求的问题,学校对此没有建立一套完整的数字化体系。 针对学校教学内容和企业招聘无法满足学生就职需求的问题,本文开发了岗位 分析与推荐系统,实现了岗位采集、岗位处理、岗位分析与推荐以及岗位展示等 功能,为方便教学管理和毕业生择业提供了一种解决方案。1需求分析本系统操作员分为管理员和普通用户两类用户。管理员可以对企业中的岗位进行 分

7、析来获取岗位发布的数量和对应的技能点,也可以通过学生在校成绩给学生 推荐工作。普通用户可以查看发布岗位数量的变化和对应技能点,也可以查看推 荐结果。用户用例如图1所示。图1用户用例图下载原图2系统设计2.1业务流程本系统分为数据层、逻辑层、表示层,业务流程如下:数据采集、数据处理、分 析推荐、数据展示。业务流程如图2所示。2. 2功能设计大数据岗位分析与推荐系统的主要功能包括数据采集、数据处理、岗位分析与推 荐和数据展示等。系统的功能模块如图3所示。图2业务流程图下载原图图3普通用户能模块图下载原图3技术难点3. 1 map/reduce模型的初始化首先map/reduce模型分为map任务和

8、reduce任务,这两个任务都需要交给用户 来实现4-5。本系统中通过用户定制的map类来实现岗位的规范化,map函数 对接收到的数据依次进行处理,借助canopy算法处理产生一组屮间键值对,map reduce框架会将map函数产生的中间键值对里键相同的值传递给一个reduce函 数。reduce函数在木系统中不需要用户编写且规模很小,一般为1个或者0个。3. 2 k-means聚类算法的实现k-means算法的实现是通过给定若干个簇心,按照就近原则将待分类的样本点 分到各个簇,确定好簇心z后就开始计算点到簇心的距离,将此点聚类到离该 点距离最近的簇心6-7 °最后计算每个聚类中心

9、所有点的坐标平均值,将平均 值作为新的聚类中心。3.3文本文件的向量化 推荐系统通过分析两个成绩,对比向量z间的距离比较相似度,距离越小,相 似度越大。首先需要读取文本文件并保存到数组中,然后将数组转化成hdfs中 可识别和可执行的序列文件,通过将序列文件转化成可变长度的向量文件之后 运行mahout中的相似度推荐算法,计算出距离,分析出结果即可给学牛推荐适 合的岗位8。4系统实现系统开发分为数据采集、数据处理、岗位分析与推荐、数据展示等模块。(1) 数据采集模块通过使用webmagic爬虫框架实现,自定义page processer 和pipeline组件,抓取需要的信息保存到hdfs文件分

10、布式系统中。(2) 数据处理模块通过使用map/reduce编程模型对岗位相关信息进行规范化处 理,并持久化到数据库,页而效果如图4所示。(3) 岗位分析与推荐模块通过分析在校生成绩文件和毕业生就业文件并转化成 向量文件,使用相似度推荐算法比较向量之间的距离,为毕业生推荐合适的就 业岗位,推荐结果如图5所示。(4) 数据展示模块基于d3js可视化技术分别展示了岗位招聘数量变化、岗位对 应技能点和推荐结果。岗位数量变化如图6所示。图4岗位处理效果图下载原图图5岗位推荐图下载原图5结束语大数据作为一门新的技术,已经在各行各业中得到广泛应用。本系统通过结合运 用于大规模数据运算的iladoop分布式

11、计算平台和大数据技术实现了一个以大学 生就业为专题的岗位分析与推荐系统,为解决社会高度关注的大学生择业难问 题提供了思路。基于各种大数据技术,本系统完成了数据采集、数据处理、岗位分析与推荐、数 据展示等功能,但是在使用过程中还是有一定的局限性。其中最主要的缺点就是 岗位采集过程中只能先把需要采集信息的网站全部下载到本地,有规律地展示 到岗位列表z后才能进行采集。课题在后续的研究屮会逐步完善和优化系统功 能。图6岗位数量变化折线图下载原图参考文献1 何清大数据与云计算j科技促进发展,2014, 10 (1) :35-40.2 李学龙,龚海刚.大数据系统综述j 中国科学:信息科学,2015 (1) : 1-44.3 范国渠高校数字化校园整体构建策略与实施d 济南:山东师范大学, 2009.4 方少卿,周剑,张明新.基于nfap/reduce的改进选择算法在云计算的web数 据挖掘中的研究j计算机应用研究,2013 (2) :377-3795 毛典辉基于血p reduce的canopy-kmeans改进算法j.计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论