数据挖掘在实际生活中的应用.doc_第1页
数据挖掘在实际生活中的应用.doc_第2页
数据挖掘在实际生活中的应用.doc_第3页
数据挖掘在实际生活中的应用.doc_第4页
数据挖掘在实际生活中的应用.doc_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

郑重声明:这是我们小组全体成员的集体原创劳动成果,仅供参考,未经允许严禁任何人窃取数据挖掘在学生学习成绩中的应用小组成员:说明 由于我们小组分析的是上一学年我们计商两个班级的学习成绩与奖学金获得情况,因此涉及到了学生的一些个人信息。我们小组全体成员一致承诺:我们获得的数据(通过辅导员老师获得)仅用于本门课程的数据分析所用,对大家的姓名、学号、成绩等敏感信息已做过处理,保证大家的隐私不被泄露。希望各位能够予以理解!选题背景近年来,随着高校的不断扩招,学生人数大幅增加,给高校学生管理、教学工作带来了严峻考验。传统的教学管理手段已经不能满足高校的快速发展。现阶段许多高校对学生的成绩、学生的信息基本还停留在传统的、简单的数据库管理和查询阶段,不能发挥其应有的作用。就以学生成绩为例,教师对学生的成绩知识做一个简单的优、良、中、差的考核,并不考虑影响学生学习成绩的因素,有些可能是主观因素,有些可能是客观因素。如果某些客观因素比如学习环境、师资力量等不能很好地解决,将严重影响学生的学习成绩,制约学生的发展,而且严重阻碍了学校教育教学发展的脚步。因此,通过数据挖掘等技术理性的分析学生成绩等关键信息,提高教学质量与水平,是广大师生最关心的问题之一。数据挖掘数据挖掘又称为数据库中的知识发现(KDD),是从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。数据挖掘的任务是从大量的数据中发现对决策有用的知识,发现数据特性以及数据之间的关系。利用贝叶斯分类器分析奖学金概率问题 奖学金作为一种激励机制,在人才培养过程中发挥非常重要的导向作用,其目的是为了引导和鼓励学生刻苦学习、奋发向上,促进学生全面素质提高和个性健康发展。为了了解我们计商两个班级上一学年奖学金获得情况,进而考评上一学年我们电子商务系教学成果以及各位同学的学习成绩情况,我们小组利用贝叶斯分类器的方法进行了分析。贝叶斯分类器的分类原理:贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。贝叶斯公式:p(X,Y)=p(Y|X)p(X)=p(X|Y)p(Y)变换式:其中,X和Y在分类中可以分别表示样本的属性集合类别。p(X,Y)表示他们的联合概率,p(X|Y)和p(Y|X)表示条件概率,p(Y|X)是后验概率,p(Y)称为Y的先验概率。 已知通过辅导员老师获得2012-2013学年计商两个班级学生奖学金获得情况统计数据如表1和表2 所示:表1 A1班奖学金获得情况表2 A2班奖学金获得情况已知A1班总人数39,由表1可看出获得奖学金人数为22,获得奖学金的概率约为0.56已知A2班总人数36,由表2可看出获得奖学金人数16,获得奖学金的概率约为0.44A1、A2两个班级总人数为75,奖学金获得者38人,其中A1班占奖学金获得者的比例为58%,A2班占奖学金获得者总人数的比例为42%。.根据以上数据可以得到奖学金获得概率及获奖人数占两个班级获奖总人数的比例,如表3所示:班级奖学金概率获奖人数占两个班级获奖总人数的比例10计商A10.5658%10计商A20.4442%表3 奖学金获得概率及所占比例通过以上数据,我们解决以下两个问题:(1) 随机从两个班级中选出一个学生是奖学金获得者的概率是多少?(2) 随机从两个班级中选出一个学生,已知该学生是奖学金获得者,则此学生来自哪个班级的可能性最大?假设X表示“选出的一个学生是奖学金获得者”,Y=i,(i=10计商A1,10计商A2)表示“选出的学生是来自班级i”,则问题就转换为求解p(X)与p(Y=i|X)。由表3得到后验概率为:P(X|Y=10计商A1)=0.56,P(X|Y=10计商A2)=0.44先验概率为:P(Y=10计商A1)=58%,P(Y=10计商A2)=42%由全概率计算公式得出:P(X)=P(X|Y=10计商A1)P(Y=10计商A1)+P(X|Y=10计商A2)P(Y=10计商A2)=0.56*0.58+0.44*0.42=0.3248+0.1848=0.5096因此,随机从两个班级中选出一个学生是奖学金获得者的概率是0.5096。下面我们求解p(Y=i|X),根据贝叶斯定理可得: 由公式可以计算出该获奖学生来自10计商A1班级的概率为: 同理可得,该获奖学生来自10计商A2班级的概率为: 通过以上分析计算不难得出结论: 随机从两个班级中选出一个学生,已知该学生是奖学金获得者,则此学生来自10计商A1班级的可能性最大。聚类分析中的k-means算法在学生奖学金等级划分中的应用k-means算法是常见的基于划分的聚类方法,其中相异度基于对象与类中心(簇中心)的距离计算,与簇中心距离最近的对象可以划分为一个簇。此算法的目标是每个对象与簇中心距离的平方和最小。根据对奖学金获得者学生的学习情况分析可知:获奖等级与该学生平时去图书馆的次数、平时上课迟到次数、上课座位前后、参加竞赛次数、宿舍评分等因素有关。比如,图书馆能为同学们提供安静的、舒适的学习环境,同时能够提高学生学习的自觉性,因此常去图书馆的同学学习成绩一般都比很少去图书馆学生学习成绩要好,相应的拿到奖学金的概率越大,拿到奖学金的等级也越高。其他因素类似,这里不一一详细用文字来描述。首先定义五个变量(每学期均按16周计算):一学期去图书馆次数(每周按七天计算,上限112次):一学期迟到次数(每周按四天计算,上限64次):一学期座位在前排次数(每周按四天计算,上限64次):一学期参加各类竞赛次数(每学期上限5次):一学期宿舍平均评分(上限20分)根据奖学金获得者获奖等级情况分析可知,能够拿到一等及以上奖学金的指标为:96-112;:0-2;:60-64;:3-5;:19.5-20学生1112160119.52106364219.5334348119.5485264119590162018.5656139120727452118.5873053118910719117表4 根据不同获奖等级选取的学生信息在以上给定的9个样本中选择3个样本:1号样本代表能够拿到一等及以上奖学金6号样本代表能够拿到非一等及以上奖学金9号样本代表不能够拿到奖学金计算每一个样本与这三个样本的距离:1第一次聚类结果:学生与学生1的距离与学生6的距离与学生9的距离10-21378.5148.539233.559.5432.55612752659.5131.56-0-79746.554.5848.5341059-0表5 第一次聚类结果把以上距离最小的样本归入相应的类:根据第一次聚类结果数据不难看出,样本1、2、4、5、8几组数据比较接近,样本3、6、7数据比较接近。因此,将以上样本划分为三类。第一类由样本1、2、4、5、8组成,第二类由样本3、6、7组成,第三类由样本9组成。第一类:=(112+106+85+90+73)/5=93.2=(1+3+2+1+0)/5=1.4=(60+64+64+62+53)/5=60.6=(1+2+1+0+1)/5=1=(19.5+19.5+19+18.5+18)/5=18.9第二类:=(34+56+27)/3=39=(3+1+4)/3=2.7=(48+39+52)/3=46.3=(1+1+1)/3=1=(19.5+20+18.5)/3=19.3第三类:=10=7=19=1=17新的样本中心:新中心第一类93.21.460.6118.9第二类392.746.3119.3第三类10719117表6 新的样本中心第二次聚类:学生2与新样本的距离:学生3与新样本的距离:学生4与新样本的距离:学生5与新样本的距离:学生7与新样本的距离:学生8与新样本的距离:第二次聚类结果:学生与第一类的距离与第二类的距离与第三类的距离10-218.483.2143.53747.259.5412.364.412756.470.2131.56-0-776.619.854.5830.143.8105.99-0表7 第二次聚类结果 观察以上部分计算结果,第二次聚类和第一次聚类结果相同(其余计算部分省略),即第一类还是由样本1,2,4,5,8组成,第二类由样本3,6,7组成,第三类由样本9组成。此时整个聚类过程结束。综上计算分析得出结论: 第一类为最有可能拿到一等及以上奖学金,第二类为可能拿到非一等及以上奖学金,第三类为拿不到奖学金者。小组成员分工情况姓名工作任务A主题选定,参与讨论,数据计算录入B主题选定,参与讨论,PPT制作C主题选定,参与讨论,内容修改D主题选定,参与讨论,数据计算录入E主题选定,参与讨论,PPT制作、讲解(组长)组织讨论,主题选定,数据处理,内容策划,文档撰写小组成员学习感言:(组长):经过一学期商务智能这门课程的学习,使我们从刚开始对商务智能、数据挖掘概念的学习,到后来利用数据挖掘的一些方法去分析足球队成员的组成情况、加上最后两周上机实验的练习以及最终的期末大作业,使我们对数据挖掘有了一个更深层次的了解并能够利用它进行一些实际问题的分析与解决。在整个学习过程中,虽然我们小组有几名同学在实习,但是有问题时我们还会通过网络、电话、邮件等方式一起进行讨论,一起完成任务。A:通过这学期对商务智能这门课程的学习,我了解到了如何对目标对象进行数据挖掘和利用贝叶斯分类器分析问题等。这学期的学习还包括了很多商务智能相关的技术以及软件的运用,使自己受益良多,让我的商务智能相关技术知识丰富了不少,也提高了我的软件操作能力,利用数据之间的联系,可以找出数据之外的隐含信息,对于我来说,这种能力至关重要,在以后走向社会时,有一个别人不会的技能,增加了自己的竞争力。感谢小组成员的密切配合,让我们可以把小组作业的工作顺利的完成。B:通过这学期对商务智能这门课程的学习,我了解到如何对目标对象进行数据挖掘和利用贝叶斯分类器分析问题等知识。在这次的小组作业中我们在选定了学生成绩分析,但是设计到理论和计算的时也非常仔细,组长组织大家讨论选定了题目后按照步骤进行计算,完成文章后大家进行修改和讨论,我制作了PPT。上完这门课后我对商务智能的概念、商务智能的应用、数据挖掘的概念、聚类分析等又有了一个新的认识,之前上课没听懂的知识点通过这次作业弄明白了。C:在这次的小组作业中我们在选定了贴近生活的成绩分析,但是设计到理论和计算的时也非常仔细,组长组织大家讨论选定了题目后按照步骤我对文章内容进行审查修改,在组长处理好数据后也进行核对。因为我这学期申请了免听没有随堂听课,所以在小组作业时也是在请教同学、求助组长下完成的,这里也要感谢他们在周末时牺牲自己时间来来帮助我。在完成作业过程中,我意识到数据挖掘的应用可以让分析的结果更加具有说服力,因为在分析的过程中有真正的数据和论点支持着。另外我对商务智能的概念、商务智能的应用、数据挖掘的概念、聚类分析等有了一个新的认识。D:经过一学期对商务智能这门课的学习,我们学到很多在外面学不到的东西,比如数据挖掘我们在做足球队的小组题目是就充分发挥了数据挖掘的作用。在学习了这门课后我也可以把所学的知识运用到生活中,特别是我现在做的工作当中,这也可以使我们在工作方面比别人多一份技能,在此也要感谢老师对我们实习的同学照顾,也感谢组长对我们的耐心工作。E:在本门课程的学习过程中,学到了非常多的新知识,有关于数据挖掘和商务智能锁带给电子商务发展新的契机和基础,另外在参与大作业讨论时,通过对学生奖学金分析,与组员组长之间的讨论,也收获了很多。包括对聚类分析的方法,贝叶斯分类器的分类原理等知识点的掌握,由于该门课程过程比较艰难,有较多的理论和数理知识背景,但在组长的带领下,我们小组认真的完成老师布置的每次小组作业,希望能在最后大作业获得好的成绩!

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论