数据挖掘在实际生活中的应用_第1页
数据挖掘在实际生活中的应用_第2页
数据挖掘在实际生活中的应用_第3页
数据挖掘在实际生活中的应用_第4页
数据挖掘在实际生活中的应用_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘在学生学习成绩中的应用小组成员:说明 由于我们小组分析的是上一学年我们计商两个班级的学习成绩与奖学金获得情况,因此涉及到了学生的一些个人信息。我们小组全体成员一致承诺:我们获得的数据(通过辅导员老师获得)仅用于本门课程的数据分析所用,对大家的姓名、学号、成绩等敏感信息已做过处理,保证大家的隐私不被泄露。希望各位能够予以理解!选题背景近年来,随着高校的不断扩招,学生人数大幅增加,给高校学生管理、教学工作带来了严峻考验。传统的教学管理手段已经不能满足高校的快速发展。现阶段许多高校对学生的成绩、学生的信息基本还停留在传统的、简单的数据库管理和查询阶段,不能发挥其应有的作用。就以学生成绩为例,

2、教师对学生的成绩知识做一个简单的优、良、中、差的考核,并不考虑影响学生学习成绩的因素,有些可能是主观因素,有些可能是客观因素。如果某些客观因素比如学习环境、师资力量等不能很好地解决,将严重影响学生的学习成绩,制约学生的发展,而且严重阻碍了学校教育教学发展的脚步。因此,通过数据挖掘等技术理性的分析学生成绩等关键信息,提高教学质量与水平,是广大师生最关心的问题之一。数据挖掘数据挖掘又称为数据库中的知识发现(KDD),是从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。数据挖掘的任务是从大量的数据中发现对决策有用的知识,发现数据特性以及数据之间的关系。利用贝叶斯分类器分析奖学金

3、概率问题 奖学金作为一种激励机制,在人才培养过程中发挥非常重要的导向作用,其目的是为了引导和鼓励学生刻苦学习、奋发向上,促进学生全面素质提高和个性健康发展。为了了解我们计商两个班级上一学年奖学金获得情况,进而考评上一学年我们电子商务系教学成果以及各位同学的学习成绩情况,我们小组利用贝叶斯分类器的方法进行了分析。贝叶斯分类器的分类原理:贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。贝叶斯公式:p(X,Y)=p(Y|X)p(X)=p(X|Y)p(Y)变换式:其中,X和Y在分类中可以分别表示样本的属

4、性集合类别。p(X,Y)表示他们的联合概率,p(X|Y)和p(Y|X)表示条件概率,p(Y|X)是后验概率,p(Y)称为Y的先验概率。 已知通过辅导员老师获得2012-2013学年计商两个班级学生奖学金获得情况统计数据如表1和表2 所示:表1 A1班奖学金获得情况表2 A2班奖学金获得情况已知A1班总人数39,由表1可看出获得奖学金人数为22,获得奖学金的概率约为0.56已知A2班总人数36,由表2可看出获得奖学金人数16,获得奖学金的概率约为0.44A1、A2两个班级总人数为75,奖学金获得者38人,其中A1班占奖学金获得者的比例为58%,A2班占奖学金获得者总人数的比例为42%。.根据以上

5、数据可以得到奖学金获得概率及获奖人数占两个班级获奖总人数的比例,如表3所示:班级奖学金概率获奖人数占两个班级获奖总人数的比例10计商A10.5658%10计商A20.4442%表3 奖学金获得概率及所占比例通过以上数据,我们解决以下两个问题:(1) 随机从两个班级中选出一个学生是奖学金获得者的概率是多少?(2) 随机从两个班级中选出一个学生,已知该学生是奖学金获得者,则此学生来自哪个班级的可能性最大?假设X表示“选出的一个学生是奖学金获得者”,Y=i,(i=10计商A1,10计商A2)表示“选出的学生是来自班级i”,则问题就转换为求解p(X)与p(Y=i|X)。由表3得到后验概率为:P(X|Y

6、=10计商A1)=0.56,P(X|Y=10计商A2)=0.44先验概率为:P(Y=10计商A1)=58%,P(Y=10计商A2)=42%由全概率计算公式得出:P(X)=P(X|Y=10计商A1)P(Y=10计商A1)+P(X|Y=10计商A2)P(Y=10计商A2)=0.56*0.58+0.44*0.42=0.3248+0.1848=0.5096因此,随机从两个班级中选出一个学生是奖学金获得者的概率是0.5096。下面我们求解p(Y=i|X),根据贝叶斯定理可得: 由公式可以计算出该获奖学生来自10计商A1班级的概率为: 同理可得,该获奖学生来自10计商A2班级的概率为: 通过以上分析计算不

7、难得出结论: 随机从两个班级中选出一个学生,已知该学生是奖学金获得者,则此学生来自10计商A1班级的可能性最大。聚类分析中的k-means算法在学生奖学金等级划分中的应用k-means算法是常见的基于划分的聚类方法,其中相异度基于对象与类中心(簇中心)的距离计算,与簇中心距离最近的对象可以划分为一个簇。此算法的目标是每个对象与簇中心距离的平方和最小。根据对奖学金获得者学生的学习情况分析可知:获奖等级与该学生平时去图书馆的次数、平时上课迟到次数、上课座位前后、参加竞赛次数、宿舍评分等因素有关。比如,图书馆能为同学们提供安静的、舒适的学习环境,同时能够提高学生学习的自觉性,因此常去图书馆的同学学习

8、成绩一般都比很少去图书馆学生学习成绩要好,相应的拿到奖学金的概率越大,拿到奖学金的等级也越高。其他因素类似,这里不一一详细用文字来描述。首先定义五个变量(每学期均按16周计算):一学期去图书馆次数(每周按七天计算,上限112次):一学期迟到次数(每周按四天计算,上限64次):一学期座位在前排次数(每周按四天计算,上限64次):一学期参加各类竞赛次数(每学期上限5次):一学期宿舍平均评分(上限20分)根据奖学金获得者获奖等级情况分析可知,能够拿到一等及以上奖学金的指标为:96-112;:0-2;:60-64;:3-5;:19.5-20学生1112160119.52106364219.533434

9、8119.5485264119590162018.5656139120727452118.5873053118910719117表4 根据不同获奖等级选取的学生信息在以上给定的9个样本中选择3个样本:1号样本代表能够拿到一等及以上奖学金6号样本代表能够拿到非一等及以上奖学金9号样本代表不能够拿到奖学金计算每一个样本与这三个样本的距离:1第一次聚类结果:学生与学生1的距离与学生6的距离与学生9的距离10-21378.5148.539233.559.5432.55612752659.5131.56-0-79746.554.5848.5341059-0表5 第一次聚类结果把以上距离最小的样本归入相应

10、的类:根据第一次聚类结果数据不难看出,样本1、2、4、5、8几组数据比较接近,样本3、6、7数据比较接近。因此,将以上样本划分为三类。第一类由样本1、2、4、5、8组成,第二类由样本3、6、7组成,第三类由样本9组成。第一类:=(112+106+85+90+73)/5=93.2=(1+3+2+1+0)/5=1.4=(60+64+64+62+53)/5=60.6=(1+2+1+0+1)/5=1=(19.5+19.5+19+18.5+18)/5=18.9第二类:=(34+56+27)/3=39=(3+1+4)/3=2.7=(48+39+52)/3=46.3=(1+1+1)/3=1=(19.5+20

11、+18.5)/3=19.3第三类:=10=7=19=1=17新的样本中心:新中心第一类93.21.460.6118.9第二类392.746.3119.3第三类10719117表6 新的样本中心第二次聚类:学生2与新样本的距离:学生3与新样本的距离:学生4与新样本的距离:学生5与新样本的距离:学生7与新样本的距离:学生8与新样本的距离:第二次聚类结果:学生与第一类的距离与第二类的距离与第三类的距离10-218.483.2143.53747.259.5412.364.412756.470.2131.56-0-776.619.854.5830.143.8105.99-0表7 第二次聚类结果 观察以上

12、部分计算结果,第二次聚类和第一次聚类结果相同(其余计算部分省略),即第一类还是由样本1,2,4,5,8组成,第二类由样本3,6,7组成,第三类由样本9组成。此时整个聚类过程结束。综上计算分析得出结论: 第一类为最有可能拿到一等及以上奖学金,第二类为可能拿到非一等及以上奖学金,第三类为拿不到奖学金者。小组成员分工情况姓名工作任务A主题选定,参与讨论,数据计算录入B主题选定,参与讨论,PPT制作C主题选定,参与讨论,内容修改D主题选定,参与讨论,数据计算录入E主题选定,参与讨论,PPT制作、讲解(组长)组织讨论,主题选定,数据处理,内容策划,文档撰写小组成员学习感言:(组长):经过一学期商务智能这

13、门课程的学习,使我们从刚开始对商务智能、数据挖掘概念的学习,到后来利用数据挖掘的一些方法去分析足球队成员的组成情况、加上最后两周上机实验的练习以及最终的期末大作业,使我们对数据挖掘有了一个更深层次的了解并能够利用它进行一些实际问题的分析与解决。在整个学习过程中,虽然我们小组有几名同学在实习,但是有问题时我们还会通过网络、电话、邮件等方式一起进行讨论,一起完成任务。A:通过这学期对商务智能这门课程的学习,我了解到了如何对目标对象进行数据挖掘和利用贝叶斯分类器分析问题等。这学期的学习还包括了很多商务智能相关的技术以及软件的运用,使自己受益良多,让我的商务智能相关技术知识丰富了不少,也提高了我的软件

14、操作能力,利用数据之间的联系,可以找出数据之外的隐含信息,对于我来说,这种能力至关重要,在以后走向社会时,有一个别人不会的技能,增加了自己的竞争力。感谢小组成员的密切配合,让我们可以把小组作业的工作顺利的完成。B:通过这学期对商务智能这门课程的学习,我了解到如何对目标对象进行数据挖掘和利用贝叶斯分类器分析问题等知识。在这次的小组作业中我们在选定了学生成绩分析,但是设计到理论和计算的时也非常仔细,组长组织大家讨论选定了题目后按照步骤进行计算,完成文章后大家进行修改和讨论,我制作了PPT。上完这门课后我对商务智能的概念、商务智能的应用、数据挖掘的概念、聚类分析等又有了一个新的认识,之前上课没听懂的

15、知识点通过这次作业弄明白了。C:在这次的小组作业中我们在选定了贴近生活的成绩分析,但是设计到理论和计算的时也非常仔细,组长组织大家讨论选定了题目后按照步骤我对文章内容进行审查修改,在组长处理好数据后也进行核对。因为我这学期申请了免听没有随堂听课,所以在小组作业时也是在请教同学、求助组长下完成的,这里也要感谢他们在周末时牺牲自己时间来来帮助我。在完成作业过程中,我意识到数据挖掘的应用可以让分析的结果更加具有说服力,因为在分析的过程中有真正的数据和论点支持着。另外我对商务智能的概念、商务智能的应用、数据挖掘的概念、聚类分析等有了一个新的认识。D:经过一学期对商务智能这门课的学习,我们学到很多在外面

16、学不到的东西,比如数据挖掘我们在做足球队的小组题目是就充分发挥了数据挖掘的作用。在学习了这门课后我也可以把所学的知识运用到生活中,特别是我现在做的工作当中,这也可以使我们在工作方面比别人多一份技能,在此也要感谢老师对我们实习的同学照顾,也感谢组长对我们的耐心工作。E:在本门课程的学习过程中,学到了非常多的新知识,有关于数据挖掘和商务智能锁带给电子商务发展新的契机和基础,另外在参与大作业讨论时,通过对学生奖学金分析,与组员组长之间的讨论,也收获了很多。包括对聚类分析的方法,贝叶斯分类器的分类原理等知识点的掌握,由于该门课程过程比较艰难,有较多的理论和数理知识背景,但在组长的带领下,我们小组认真的

17、完成老师布置的每次小组作业,希望能在最后大作业获得好的成绩!致谢最后,借此机会,感谢这门课程的任课老师某某老师,感谢您一学期以来对我们的辛勤教导!特别感谢我们小组的其他每一位成员(A,B,C,D,E)在小组讨论、小组作业中的辛勤付出!感谢在这门课程上给予我们小组帮助的每一位热心同学!谢谢你们!参考文献:【1】商务智能(第二版),赵卫东,清华大学出版社,2011.3。【2】数据挖掘技术在学生成绩分析中的研究及应用,5is67,/p-.html,2012-06-07 12:29 。下午13:0017:00度。全体员工都必须自觉遵守工作时间,实行不定时工作制的员

18、工不必打卡。打卡次数:一日两次,即早上上班打卡一次,下午下班打卡一次。打卡时间:打卡时间为上班到岗时间和下班离岗时间; 因公外出不能打卡:因公外出不能打卡应填写外勤登记表,注明外出日期、事由、外勤起止时间。因公外出需事先申请,如因特殊情况不能事先申请,应在事毕到岗当日完成申请、审批手续,否则按旷工处理。因停电、卡钟(工卡)故障未打卡的员工,上班前、下班后要及时到部门考勤员处填写未打卡补签申请表,由直接主管签字证明当日的出勤状况,报部门经理、人力资源部批准后,月底由部门考勤员据此上报考勤。上述情况考勤由各部门或分公司和项目文员协助人力资源部进行管理。3.

19、1.2.5手工考勤制度手工考勤制申请:由于工作性质,员工无法正常打卡(如外围人员、出差),可由各部门提出人员名单,经主管副总批准后,报人力资源部审批备案。参与手工考勤的员工,需由其主管部门的部门考勤员(文员)或部门指定人员进行考勤管理,并于每月26日前向人力资源部递交考勤报表。参与手工考勤的员工如有请假情况发生,应遵守相关请、休假制度,如实填报相关表单。 外派员工在外派工作期间的考勤,需在外派公司打卡记录;如遇中途出差,持出差证明,出差期间的考勤在出差地所在公司打卡记录;3.2加班管理3.2.1定义加班是指员工在节假日或公司规定的休息日仍

20、照常工作的情况。A现场管理人员和劳务人员的加班应严格控制,各部门应按月工时标准,合理安排工作班次。部门经理要严格审批员工排班表,保证员工有效工时达到要求。凡是达到月工时标准的,应扣减员工本人的存休或工资;对超出月工时标准的,应说明理由,报主管副总和人力资源部审批。 B因员工月薪工资中的补贴已包括延时工作补贴,所以延时工作在4小时(不含)以下的,不再另计加班工资。因工作需要,一般员工延时工作4小时至8小时可申报加班半天,超过8小时可申报加班1天。对主管(含)以上管理人员,一般情况下延时工作不计加班,因特殊情况经总经理以上领导批准的延时工作,可按以上标准计加班。员工加班应提前申请,事

21、先填写加班申请表,因无法确定加班工时的,应在本次加班完成后3个工作日内补填加班申请表。加班申请表经部门经理同意,主管副总经理审核报总经理批准后有效。加班申请表必须事前当月内上报有效,如遇特殊情况,也必须在一周内上报至总经理批准。如未履行上述程序,视为乙方自愿加班。员工加班,也应按规定打卡,没有打卡记录的加班,公司不予承认;有打卡记录但无公司总经理批准的加班,公司不予承认加班。原则上,参加公司组织的各种培训、集体活动不计加班。加班工资的补偿:员工在排班休息日的加班,可以以倒休形式安排补休。原则上,员工加班以倒休形式补休的,公司将根据工作需要统一安排在春节

22、前后补休。加班可按1:1的比例冲抵病、事假。3.2.3加班的申请、审批、确认流程加班申请表在各部门文员处领取,加班统计周期为上月26日至本月25日。员工加班也要按规定打卡,没有打卡记录的加班,公司不予承认。各部门的考勤员(文员)负责加班申请表的保管及加班申报。员工加班应提前申请,事先填写加班申请表加班前到部门考勤员(文员)处领取加班申请表,加班申请表经项目管理中心或部门经理同意,主管副总审核,总经理签字批准后有效。填写并履行完审批手续后交由部门考勤员(文员)保管。部门考勤员(文员)负责检查、复核确认考勤记录的真实有效性并在每月27日汇总交人力资源部,逾

23、期未交的加班记录公司不予承认。已经很久没有写日志了,最近有一种特别强烈的写日志的想法!可是思绪一直都被各种考试,各种复习围攻着,无法脱身。今天,我终于忍不住了!就算文章写的再烂,再不堪入目我也要写点东西。(或者说,阿里手贱,不写点东西就过不好周末。哈哈!)仔细想想,不知道写什么,大概各位看到有些人这个题目都不懂什么意思吧!那就对了!(你要是看懂了,我岂不是很没面子,嘻嘻!)不过,说实话吧!我也不知道是什么意思,只是觉得这三个字,我喜欢!率性而为,意识随波逐流。就是我写文章的习惯,改不了,也不会改。这也是为什么咱高中时,作文从未被表扬过的原因!想起了高中就想起了我的兄弟姐妹们,呵呵!还是那句不厌其烦的话“想你们了”。每次夜深人静,或者单独一个人的时候,总是会怀念我的那些小伙伴们。或许他们也有这样的,相同的感受吧!其实,现在想想,有些人,我都想不起什么模样,叫不出名字了。就像,有些人,从我们的生命中匆匆走过,我们却从来不记得,或者,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论