



版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 数据挖掘中bp神经网络与决策树技术的应用研究 董明明 蒋涛 晏婉晨 宋伟航 谢斌摘 要:大数据时代下,处理已知和预测未知数据的数据挖据技术在社会生活的众多方面得到了大量应用。因此,采用数据挖据中bp神经网络算法和决策树技术对毕业生就业偏好进行了预测研究。研究中首先对两种算法流程进行了介绍,其次应用两种算法分别对扬州大学2017年本科毕业生就业情况进行模拟预测研究,并对两种算法优缺点和结果进行了对比分析。通过模拟预测结果得知,两种算法预测数据均与实际吻合,决策树法更适用于数据数量较少的样本,而当数据量较大时,bp神经网络法得到的预测数据将更准确。关键词:数据挖掘;bp神经网络;决策树;c4.5
2、算法;机器学习中图分类号:tp183;tp311.13 文献标志码:a 文章编号:1673-291x(2018)20-0186-05引言随着信息技术的高速发展,人们日渐依赖计算机技术去解决问题。随着人们对于收集、处理数据的的能力渐渐增强,现时的数据操作技术已不能满足人们的需求,因此数据挖掘就应运而生。目前,对数据挖掘比较公认的定义是w.jfrawley,g.piatetsky-shapiro等人提出的1。数据挖掘自发展到现在为止已经产生了很多种方法2,其中以bp神经网络和决策树算法为代表。神经网络算法是一种应用广泛的数据挖掘办法,因其自身自行处理、分布存储等特性非常适合处理非线性的以及那些以模
3、糊、不完整的知识或数据为特征的问题。bp神经网络即反向传播网络(back propation network)是1986年以rumelhart为首的专家组提出的一种多层前馈网络。它由大量神经元构成,包括三层结构:输入层、隐含层和输出层3。神经网络经过学习训练,通过网络连接权值以及网络函数,建立起数学模型。理论证明含一个隐含层的bp神经网络能以任意精度逼近任何非线性映射关系4,5。决策树技术是机器学习中的一种归纳学习技术,它能够从一组毫无规律的的数据样本集合中推断出决策树6。历史上人们先后提出了id3算法、c4.5算法7、分类与回归树cart算法8、快速可伸缩的分类方法(supervised l
4、earning in quest,sliq)9,10、可伸缩的并行归纳决策树(scalable parallelizable introduction of decision tree,sprint)分类方法11、随机映射随机离散化连续型数据(random projection random discretization ensembles)的算法12。其中,id3算法和c4.5算法通过信息论的方法来进行分类,而cart算法、sliq算法以及sprint算法使用的是gini指数的分类方法。本文将着重向读者介绍c4.5算法。针对高校毕业生数量增加给高校带来的毕业生信息整理问题,本文采用bp神经网
5、络算法和决策树c4.5算法来得到2017届扬州大学数学科学学院毕业生就业模型,并通过比较bp神经网络模型和c4.5算法得到较为精确的毕业生就业模型,利用模型指导大学生有目标、有选择性的学习。一、数据挖掘bp神经网络技术bp神经网络的建立过程包括两个过程:正向传输和反向传输。输入信号经过输入层、隐含层神经元的逐层处理到达输出层,如果输出信号不在预期的误差内,则转向反向传输阶段,通过修改各层神经元之间的权值使得误差减少,再次进入正向传输过程,再三反复直至误差在预期的范围之内。具体算法步骤如下13,14:再轉至步骤4进行,直至每一层的均方差处于设定误差范围。二、数据挖掘决策树技术(一)决策树技术的定
6、义和结构决策树是一种用来预测模型的方法,树结构一般由根节点、中间结点、叶子结点组成,其中决策树中的根节点和中间结点存放数据的属性或者属性集合,叶子节点存放分类的结果。(二)c4.5算法在id3的算法中,决策树分支的决定是由信息增益的大小决定的,因此利用id3算法进行分类时,结果会倾向于分类结果多的属性。因此,j.r.quinlan提出了c4.5算法,使用了信息增益率来对决策属性进行选择。设s是一个包含n个数据样本的集合,该数据集合有l个属性d=d1,d2,dl,则c4.5的算法步骤为15:其中,ti是子集中属性值为i的个数,i=1,2,.,b;nw是数据属性为j的个数,并由此推出信息增益率,其
7、定义为radio(dj)=gain(dj)/split(dj),至此选出信息增益最大的属性dj,则dj为这一层的结点。(5)最后,根据该属性将子集再分类,重复步骤2、3、4,直至到达叶子结点即分类结果,由上而下递归下去,则可以得到完整的决策。三、用人单位对毕业生的偏好研究为了研究用人单位对毕业生的偏好,本文从2017届扬州大学数学科学院毕业生系统中随机抽取了140份数据样本,数据中包含学生的基本信息、课程成绩信息、综合成绩信息、获奖信息、就业信息;对于数据本文进行预处理,删去了与挖掘结果相关性弱的属性,最终留下性别、专业成绩、英语水平、计算机水平、政治面貌、获奖名称、就业单位名称。(一)bp神
8、经网络法在用人单位对毕业生的偏好中的研究使用bp神经网络分析用人单位对毕业生偏好,首先需要将数据进行归一化:对于性别,男为1,女为0;对于获奖情况,有为1,无为0;对于政治面貌,党员为1,非党员为0;对于就业情况:ky、gn、gp、sp、np分别为0.8、0.7、0.6、0.5、0.4、0.3;对于专业成绩、英语水平、计算机水平,则采用归一化公式:接着建立bp网络结构。本文将140个样本数据的前100个数据作为学习样本,后40个作为训练样本,并设定该网络结构为三层,输入层有6个节点,输出层一个节点。在三层网络结构中。输入层神经元个数m、输出层神经元个数m和隐含层神经元个数l有以下近似关系:其中
9、,a为0,10之间的的正整数。因此,本例中隐含层中神经元个数在区间3,12内。运用matlab2016a来对样本中100个数据建立神经网络,通过多次训练比较不同隐含层神经元个数得到的不同mse(mean square error)即均方差,得到隐含层数量为8时,训练而得的神经网络的均方差最小,达到了,如图 1。在迭代次数为207次时得到最小均方差0.008 811 8神经网络训练成功后,利用剩下的40个数据对神经网络数据进行预测值检验,从表1可以清楚地看到,预测所得的就业结果与实际结果较为相近,准确率为84.21%。实验结果表明,通过bp神经网络可以对毕业生信息中毕业生就业情况作出较为准确的预
10、测。(二)决策树法在用人单位对毕业生的偏好中的研究接下来本文使用c4.5的方法建造就业信息决策树。首先需要将原毕业生信息表中”专业成绩”、”英语水平”、”计算机水平”进行进一步泛化:以70、85为区间划分点,将成绩泛化为优(大于或等于85)、良(大于70小于85)、差(小于70)。“就业单位等级”是类别标识属性,“英语水平”、“性别”、“专业成绩”、“获奖情况”、“计算机水平”、“政治面貌”是决策属性。数据挖掘c4.5决策树算法建造决策树的方法如下。共有140个样本,gn、gp、sp、bp、dy、ky对应的样本数分别为d1=54,d2=4,d3=23,d4=4,d5=11,d6=44。首先算出
11、总样本的期望信息,接着算出每个决策属性对应的信息增益率。这里以性别的信息增益率为例:性别分成“男”“女”两种,统计男生的就业情况,gn为13人、gp为2人、sp为8人、bp为3人、dy为6人、ky为15人;统计女生的就业情况,gn为41人、gp为2人、sp为15人、bp为1人、dy为5人、ky为29人。则性别是“男”的期望信息为i(d11,d21,d31,d41,d51,d61) = i(13,2,8,3,6,15)=2.299;性别是“女”的期望信息为 i(d12,d22,d32,d42,d52,d62)= i(41,2,15, 1,5,29) =1.885。下面算出性别的信息期望是e(性别
12、)=47/140i(c11,c21,c31.c41,c51,c61)+93/140i(c12,c22,c32,c42,c52,c62)=2.024,因而“性别”对应的信息增益为gain(性别)=i(d1,d2,d3,d4 d5,d6)-e(性别)=0.040。经划分,性别分裂信息是split(性别)=0.920,由此得到的性别信息增益率是ratio(性别)=gain(性别)/split(性别)=0.043。同理,可以得到其他属性对应的信息增益率,专业成绩为 0.198,政治面貌为0.057,英语水平为0.119,计算机水平为0.062,获奖情况为0.064。至此,由于专业成绩最高,为0.198
13、,因此得到决策树的根节点是专业成绩。同理,经过matlab编程,可得决策树每一分枝的属性增益率,并根据得到的属性增益率得到决策树,如图47所示。四、结论运用bp神经网络和决策树算法分别对用人单位对毕业生偏好和于本科生借书偏好进行模拟预测,得到用人单位对毕业生偏好的的神经网络和决策树,通过它们的构成,可以得到如下结论。1.bp神经网络和决策树算法对用人单位对毕业生的偏好和本科生结束偏好预测得到的结论都与实际情况吻合。2.决策树适用于数据数量较少的样本,当数据数量比较多时,运用bp神经网络得到的结果更为清晰。3.在处理多个属性的数据样本时,神经网络更具优势,结论也更加直观。4.决策树可以保持属性的
14、不变性,而神经网络需要将离散属性转换为数值属性。参考文献:1 agrawal r,psaila g,wimmers el,et al.querying shapes of histories.in proc.of the vldb conferencem.1995.2 邵峰晶,于忠清.数据挖掘原理与算法m.北京:中国水利水电出版社.3 m oller mf.a scaled conjugate gradiential gorithm for fast supervised learningj.neural networks,1993,(6):525-533.4 王小川,史峰,郁磊,等.matl
15、ab神经网络43个案例分析m.北京:北京航天航空大学出版社,2013.5 kardan a a,sadegh.h,ghidary.s.s,et al.prediction of student course selection in online higher education institutes using neural networkj.computer&education;,2013,65;1-11.dol;10.1016/pedu.2013.001.015.6 iqball m r a,rahman s,nabill s i,et al.knowledge based decisi
16、on tree construction with feature importance domain knowledge c.international conference on electrical & computer engineering.ieee,2013:659-622.7 quinlan j.r.discovering rules by induction from large collections of examplesj.in expert system in the micro electronic age,1979:27-37.8 breiman l,friedma
17、n j,olshen r a,et al.classification and regression trees m.belmont wadsworth,1984.9 metha m,rissanen j,arawal r.sliq:a fast scalable classifier for data mining a.in edbt96 avignon,france c,1996.10 chandra b and paul p valghese.fuzzy sliq decision tree algorithm.ieee trans on systems,2008,38(5):1294-1301.11 shafer j,rawal r,metha m.sprint:a scalable parallel classifier for data mining a.international conference on very large data base c.1996.12 amir ahmad,gavin browm.random projection random discretization
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年鹤壁淇县人民医院招聘聘用制专业技术人员33人考前自测高频考点模拟试题及答案详解(典优)
- 2025年上海奉贤区教育系统事业单位编外用工招聘143名模拟试卷及完整答案详解
- 2025年甘肃农业大学招聘博士专职辅导员16人模拟试卷及答案详解1套
- 2025年泰山财产保险股份有限公司河南分公司社会招聘模拟试卷及参考答案详解1套
- 2025中电建水电开发集团有限公司电力营销专业财务资金管理专业管理岗位招聘4人笔试历年参考题库附带答案详解
- 绵阳光子科创产业发展有限责任公司面向区内公开选聘员工笔试历年参考题库附带答案详解
- 浙江国企招聘2025杭州钱塘新区城市发展集团有限公司社会招聘22人笔试历年参考题库附带答案详解
- 呼和浩特市城市燃气热力集团有限公司招聘58名工作人员笔试历年参考题库附带答案详解
- 2025陕西西安中星测控有限公司招聘28人笔试历年参考题库附带答案详解
- 2025重庆建工第二建设有限公司招聘5人笔试历年参考题库附带答案详解
- 2025年合肥市社会化工会工作者招聘34人笔试备考试题及答案解析
- 非婚生子女法律抚养权协议范本
- 2025年新版中层副职面试题及答案
- 蜂窝组织炎护理小讲课
- 智慧树知道网课《工业机器人技术基础》课后章节测试满分答案
- (一检)泉州市2026届高三高中毕业班质量监测(一)数学试卷(含标准答案)
- 纤维转盘滤布滤池运行维护技术说明
- 2025至2030中国无烟产品行业发展趋势分析与未来投资战略咨询研究报告
- 2021年全球工作场所状况报告 State of the Global Workplace 2021 Report
- 球墨铸铁管-施工方案(3篇)
- (正式版)DB35∕T 2242-2025 《户用光伏发电系统安装技术规范》
评论
0/150
提交评论