基于数据挖掘的高考招生预测系统_第1页
基于数据挖掘的高考招生预测系统_第2页
基于数据挖掘的高考招生预测系统_第3页
基于数据挖掘的高考招生预测系统_第4页
基于数据挖掘的高考招生预测系统_第5页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于数据挖掘的高考招生预测系统

1考试预测系统随着教育制度的改革,高校的招生方式也发生了很大变化。为了避免填报志愿时错报、高报、低报的现象,有必要设计一个高考预测系统,预测当年的高考录取分数线和学校的最低录取分数线,供家长和考生参考,以提高考生被录取的机率。2web挖掘的概念随着Internet应用的逐渐普及,WWW已经发展成为一个基于Internet的、全球连接的、分布的、多平台的交互式图形超文本信息系统。它用多种协议传输和显示驻留在世界各地计算机中的多媒体信源,为用户提供了一个极具价值的信息源。而Web挖掘是从数据挖掘的角度发展而来的。数据挖掘指的是从大型数据库或数据仓库中提取隐含的、潜在有用的、易被理解的知识的过程。将数据挖掘与WWW相结合,即得到了Web挖掘的概念。Web挖掘就是从WWW资源上抽取有趣的、潜在有用的模式及隐含信息的数据挖掘过程。一般地,Web挖掘可以分为三类:Web内容挖掘(WebContentMining)、Web结构挖掘(WebStructureMining)和Web使用挖掘(WebUsageMining)。Web挖掘是一个较新的研究领域,针对不同的挖掘类型和挖掘任务,可以使用不同的挖掘方法。对于现有的挖掘方法,文献提出一种能够从Web中发现迁移模式的模型g-序列;文献给出一个可训练的信息抽取系统WebKB;文献提出一种新的在电子商务环境下对Web访问信息和在线零售信息进行挖掘的方法。3web数据库分析针对丰富的Internet信息源,利用数据挖掘机,把关于高考和招生的网页从Internet挖掘到本地硬盘;利用基于关键字的Web数字信息挖掘方法,分析所有Web页面,挖掘有效数据,存储到数据库;预测系统读出历史数据,展示数据,然后做出趋势图,并对未来几年的分数线做出预测。3.1系统架构图13.2系统功能模块(1)web搜索模块该模块是预测模块的数据基础。利用基于关键词的Web数字信息挖掘方法分析存储在数据库中的Web页面,挖掘出有效数据存储到数据库中。(2)传统激励机制:传统各地区和科类,对话之年、生活时间和所动物该模块主要分为本专科分数线预测模块和学校最低分数线预测模块。分数线预测模块根据用户选择的地区和科类,展示所选地区和科类的历年分数线,描绘各种发展趋势图(图2),还可以根据用户输入的具体年份预测该年的分数值;学校最低分数线预测模块根据用户选择的某大学的学校名称,展示近几年这些大学在山东省的最低录取分数线,并做出所选大学的最低录取线的各种趋势图。3.3系统流程(1)Web挖掘流程图(图3)(2)预测模块流程图(图4)4系统的关键和实现4.1基于密钥的web数据信息挖掘方法利用数据挖掘机挖掘到的所有Web页面都以文件的形式存储在本地硬盘。为了挖掘网页有效数字信息,首先就需要分析这些页面源文件。4.1.1通过过滤把背景信息纳入页面目前大部分的Web页面文件都采用HTML格式,所以在挖掘数字信息之前需要进行必要的预处理。首先扫描HTML源文件,过滤掉那些与页面正文内容不相关的格式信息。例如页面中〈STYLE〉开头的文档风格设定和一些与正文无关的标签;〈SCRIPT〉开头的嵌在页面中的脚本程序等都应该过滤掉,只保留〈BODY〉…〈/BODY〉之间的部分,这样就得到了页面文件的主要内容。通过过滤无用信息,可以缩小扫描范围,从而减少分析数字信息的工作量。4.1.2复合关键词的逻辑组合因为系统是针对高考招生的,所以关键字即数据字典主要有以下几种形式:(1)单个关键词。由单个的字或词语构成。例如“年”、“地区”、“山东师范大学”。(2)复合关键词。鉴于高考信息的准确性,我们不考虑模糊关键字,只考虑复合词,也就是多个关键词的逻辑组合。利用汉语中的关系词“与”、“和”、“或者”等与上述的单个关键词构成复合关键词。4.1.3生成数据库表搜索上面得到的长汉字串,找出其中的所有数字,每搜索到一个数字,读出它后面的单位,然后到临时单位表中遍历,如果正好与表中的单位匹配,那么从这个数字开始分别向前、向后各搜索10个汉字;如果这些汉字中存在关键词,那么分析判断关键词是否与数字相匹配,如果匹配,那么把关键词和对应数字一同存入预先建立的数据库表中。用上述方法得到的数据存储到数据库之前,要与标准统一的数据进行关联、比较、聚类等操作,使数据具有自动纠错能力,从而完成数据的统一。4.2基于误差的处理方法回归分析方法是用数理统计的方法确定变量之间相关关系的,通过对数据进行直线或曲线拟合找出变量间的合适数学表达式(回归方程)的一种方法。处理这些大量的貌似无任何规律的数据,不仅占用大量内存,而且数据处理速度太慢。在误差允许的条件下,利用计算机进行曲线拟合和回归分析,将使数据的处理和分析变得迅速而容易。即采用曲线拟合的方法来确定哪种曲线能够最恰当地描述所采集的观测数据,并利用计算机对各种可能的曲线方程进行计算,求出各曲线的回归系数,从而选取最佳曲线模型进行预测。4.2.1小二乘拟合曲线的拟合原理鉴于影响每年各市地的分数线的因素较少,我们采用多项式曲线拟合。对于给定的n年数据对(x1,y1),(x2,y2),…,(xn,yn)(xI<xI+1)用m-1次多项式p(x)=b1+b2x+…bm×m-1(m<n)进行曲线拟合。其中x表示年份,y表示分数线。按照最小二乘法原理,拟合曲线的要求是使Q-m∑i=1[Ρ(x)-yi]2取极小值,即δQσbi=0;将上几式合并后展开,可得如下正则方程:[∑nxi∑Xi⋯∑xim-1∑Xi2⋯∑xim⋯⋯⋯∑xim-1∑xim⋯∑xi2m-2][b1b2⋯bm]=[∑yi∑xiyi⋯∑xm-1iyi]从上式可以看出,正则方程的系数矩阵A的m×m个元素中,只要计算其中的第一行和第m列就可以,其他所有元素都可以从这些元素赋值。第一行元素的值为:a11=na1j=n∑i-1xij-1j=2,3,⋯‚m}而第m列元素的值为:ajm=m∑i-1xim+j-2j=1,2,⋯‚m第m+1列元素a(j,m+1)按下式计算:ajm+1=m∑i-1xij-1yij=1,2,⋯‚m系数矩阵的其余元素,按aij=ai-1,j+1i=2,3,⋯,mj=1,2,⋯,m-1}的关系给予赋值。用高斯消去法解出多项式的系数,即可以得到分数线的曲线函数表达式。4.2.2回归模型的建立如果要预测某个学校的最低分数线,那么我们要考虑以下几个元素:第一志愿录取数,一志愿最低分;第二志愿录取数,二志愿最低分;第三志愿录取数,三志愿最低分;调剂数;总录取最低分。因此,我们考虑运用多元线性回归分析。多元线性回归模型为:yp=α+k∑j=1βjxjp+εp‚p=1,2,⋯,n其中,εp~NID(0,σ2),即它们为独立同分布的正态随机变量;k表示变量个数。此模型用矩阵表示如下:Y=[y1y2⋯yn]X=[1x11x21⋯xk11x12x22⋯xk21x1nx2n⋯xkn]β=[β0β1⋯βk]B=[b0b1⋯bk]ε=[ε1ε2⋯εn]e=[e1e2⋯en]其中β0=α,b0=a。使用以上矩阵符号,线性回归模型可表示为:Y=Xβ+ε估计值为:ˆY=XB残差为:----∧残差平方和为:SSe=e′e=(Y-XB)′(Y-XB)=(Y′-B′X′)(Y-XB)=Y′Y-B′X′Y-Y′XB+B′X′XB=Y′Y-2Y′XB+B′X′XB注意:上式中每一项均为一个数字,而不是一个矩阵。对B求偏导,得:∂SSe∂B=-2X′Y+2X′XB令上式等于0,得正规方程:X′XB=X′Y∴B=(X′X)-1X′YB的期望和方差为:E(B)=E[(X′X)-1X′Y]=(X′X)-1X′·E(Y)=(X′X)-1X′·E(Xβ+ε)=(X′X)-1X′·(Xβ+E(ε))=(X′X)-1·′X′Xβ=β即:B为β的无偏估计。D(B)=D[(X′X)-1X′Y]=(X′X)-1X′·D(Y)·X(X′X)-1=(X′X)-1X′·I·α2·X(X′X)-1=α2(X′X)-1(∵Y的各分量独立,且方差均为α2)上述矩阵主对角线上的元素是b0,b1,…,bk的方差,其他元素是各回归系数bj两两之间的协方差,因此可写为:D(B)≜5政策的预测及所需预测本文

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论