数学建模—高等教育信息推荐模型_第1页
数学建模—高等教育信息推荐模型_第2页
数学建模—高等教育信息推荐模型_第3页
数学建模—高等教育信息推荐模型_第4页
免费预览已结束,剩余12页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、竞赛题目(在AB上打勾):AB竞赛队编号(参赛学生不填写) :_目录 3 3 6 12 13 13 14 15 16高等院校教育信息化推荐模型摘要LSA:,LSA123 4画同义词,同义词可对应相同或相似的主题。5、降维可去除部分噪声,使特征更明显。关键词:教育信息推荐模型、奇异值分解法、LSA方法、 Spearmancoefficient相关系数一、问题的提出1、问题背景:21 世纪是信息时代,随着信息技术越来越广泛的应用,互联网已经成为我们日常生活中必不可少的工具,而传统教育体系所暴露出来的弊端也日益明显,例如严重受到地域限制, 教育资源分配不均, 相互之间交流不够等, 为使之适应对教育发

2、展的新要求,建设更好的教育信息平台来满足学生互联网学习的需求,教育体系信息化改革刻不容缓。 由于教育信息化表现出快捷高效、 节约成本,不受地域时间限制、 资源共享,交流开放等优势, 所以在教育教学及管理的各个领域都开始推出各种形式的信息教育平台,例如远程教育,网站管理,网课、论坛等很大程度上促进了教育信息化的发展, 然而,目前的教育信息体系还是不够完善的,例如信息推荐体系这一块被严重忽略, 而现有的推荐体系仍存在推荐准确率不够高,推荐方式单一等一系列的问题, 因此建立出合理的数学模型来完善教育信息推荐体系是一项迫切等待解决的工作。2、需要解决的问题:(1)建立信息推荐的指标体系,确定信息推荐的

3、变量(2)建立高等学校信息推荐模型(3)就信息推荐模型设计推荐算法(4)给有关部门写一封信,推介你们的信息推荐模型。二、问题的分析及假设通过读题可知, 有效信息推荐是目前教育信息化的重要问题,我们需要明确信息推荐的指标以及其推荐变量, 然后为高等院校建立合理有效的信息推荐模型,设计其相应的算法,最后向相关部门推介我们的模型。1、信息推荐的指标体系为了提高信息推荐模型的准确度, 我们的评测指标主要有包含以下四个方面的内容:(1)满意度 O:即用户的需求被满足的程度。满意度是用户的一种心理状态,它能够反映推荐的信息和用户的期望之间的契合程度,用数学式量化表示如下:O= exp(a1*x1+ a2

4、*x2+ a3 *x3+ a4 *x4)(其中,x1 是下载率、 x2 是点击率、 x3 是停留时间、 x4 是分享率, a1,a2,a3,a4 分别是各自的权重,令 a1=,a2=,a3=,a4= ,这里我们假设用户的行为无出错。 )注: O值越大,用户满意度越高。(2)准确率:信息推荐的准确性也是评价此体系的一个重要指标,可以有效的提高用户的搜索效率。 我们这里用精确率P 和召回率 R 来评测信息推荐的准确性1 。假设:系统检索到的相关信息( A)系统检索到的不相关信息( B)相关但是系统没有检索到的信息(C)不相关且没有被系统检索到的信息(D)则:精确率 P:P=A/(A+B), 0&l

5、t;P<1召回率 R:R=A/(A+C), 0<R<1精确率 P 越大,说明检索到信息越准确,但检索范围相对较窄;召回率R越大,说明检索到的信息比较全面,但准确度会降低。综合考虑,我们用这两个指标进行调和后的指标 F 来反映信息推荐的准确率。F=( 2+1)?当 =1 时, F=2?2 ?(?+?)?+?注: F 越大,准确率越高。( 3)覆盖率:信息的覆盖率可以验证资源是否有效的传送给了用户, 我们采用信息熵 H 和基尼系数 G来量化这一指标 2 。假设,信息 i 的流行度是已知的。p(i)=b(i)/ b(i),H=- p(i) log p(i),G= 1 (2j-n-1

6、)p(i?-1j )( b(i) 为信息 i 的流行度, i j 是按照信息流行度 p() 从小到大排序的信息列表中的第 j 条信息)注: H和 G越小,覆盖率越高。( 4)实时性 T:因信息具有更新速度快的特点,所以信息推荐的实时性更显得尤为关键。实时性反映所推荐给用户的信息是否是最新最有参考价值的。T=vff=m/n( v 是推荐列表的变化率, m是新信息的数量, n 是所有推荐信息的总数量)注: T 越大,实时性越高。以上的评测指标可以通过在线或离线来计算。对于以上四个评测指标, 我们对不同用户的评测标准进行了问卷调查, 通过数据分析,给出了各个指标的权重,满意度是,准确率是,覆盖率是,

7、实时性4.504.3894.404.304.2224.204.104.0284.003.944系列 13.903.803.70是。满意度0.2550.243准确率0.238覆盖率0.265实时性图(一)各指标的平均得分(5 分制)图(二)各指标的比例2、信息推荐的变量外生变量 :用户个体差异、网站建设用户个体差异:由于用户个人的文化水平,个人喜好,搜索习惯,对搜索内容的熟悉程度等的差异会对教育推荐的指标体系造成一些影响。网站建设:现在的浏览器五花八门、 种类繁多,其网站建设质量也良莠不齐,有好多网站为了追求商业利益,更是商业捆绑, 推荐一些用户不需要的广告娱乐八卦等垃圾推送信息, 有些网站甚至

8、其本身就存在着一些系统漏洞等问题,这无疑对用户高校的获取有用推送信息造成干扰, 对教育信息推荐的指标体系造成一定负面影响。内生变量:信息资源建设 , 如学术网站,期刊杂志,选修综合课(包括校内课程与网络公开课)学术网站:作为用户获取信息的直接来源,其应该保持应有的学术严谨性,直接决定着用户获取信息的满意度、准确率、覆盖率、实时性。对信息推荐体系起这至关重要的作用。期刊杂志 : 市场上形形色色的期刊杂志百花齐放,竞争激烈,彼此之间也拉开了档次,用户的认可度也在很大程度上受到其知名度的影响,然而,无论是哪个档次的期刊, 其收纳的文章都是层次不及的,只是比重有差异罢了, 而由于认可度所带来的弊端暴露

9、了出来, 例如不能以批判理性的思维去辨别认可度高的期刊,更容易对认可度低的期刊产生偏见。另一方面,当今社会,期刊杂志已经成为了人们茶余饭后, 休闲娱乐,候车等人时打发时间的不二之选,而且人们也乐于将自己喜欢的期刊杂志推荐给亲朋好友,或是坚持追某一系列的期刊杂志,所以期刊杂志也是构成信息推荐体系的重要组成部分。选修综合课: 选课系统作为高校教务管理系统中必不可少的一部分, 然而,选修综合课推荐系统还不够完善, 学生很难高效准确的找到与自己的兴趣安好一致的课程,因此加强选修综合管理系统建设, 会显着影响到信息推荐体系的评价指标。决策变量:用户需求3、确定主要的信息推荐方式:网络信息推荐。三、 模型

10、的建立与求解(一)理论方法介绍1、奇异值分解法 3特征值分解是一个有效提取矩阵特征的方法, 但是它只是对方阵而言的。 在现实的世界中, 我们看到的大部分矩阵都不是方阵, 而奇异值分解法能适用于任意的矩阵。分解方式如下:AUVT( 1)假设 A 是一个 n *m 的矩阵,那么得到的向量是正交的,称为左奇异向量) , 是一个U 是一个 n * m 的方阵( U里面的 n* m 的矩阵(除对角线的元素外都是 0,对角线上的元素称为奇异值) , V T(V 的转置 ) 是一个 n* m 的矩阵( V 里面的向量是正交的,称为右奇异向量) ,即Am* n U m* m * Vn* n T( 2)m* n

11、在很多情况下, 前 10%甚至 1%的奇异值的和就占了全部的奇异值之和的99%以上了。所以,我们也可以用前 r 个奇异值来近似描述矩阵, 这里定义一下部分奇异值分解:Am* n U m* rV T r * n(6)r* rr 是一个远小于 m、n 的数,这样矩阵的乘法形式如下:Am* nU m* r * Vr * nT(7)r * r右边的三个矩阵相乘的结果将会是一个接近于A 的矩阵, r 越接近于 n,相乘的结果越接近于 A。2、LSA法4LSA(latent semantic analysis)潜在语义分析,也被称为LSI(latentsemantic index),是 Scott Dee

12、rwester, Susan T. Dumais等人在1990 年提出来的一种新的索引和检索方法。 该方法和传统向量空间模型一样使用向量来表示词和文章,并通过向量间的关系 ( 如夹角 ) 来判断词及文档间的关系。(二)模型的建立假设:信息资源系统自动获取。采用奇异值分解法和LSA方法相结合建立模型, 以用户查找文章的行为为例,假设用户需求为“文章” ,其输入为“关键词” 。1、分析关键词与文章之间的关联性,建立关键词- 文章矩阵 X。假设有 m个关键词, n 篇文章, X 就是一个 m*n 的矩阵。其中,第i 行、第j列的元素是 Xij ,是第 i 个词在第 j 篇文章中出现的次数。下边以m=

13、12,n=9为例:100100000011010000110000000101000200011200000X=010100001010010000001000000010010000000001110000000111000000011观察这个矩阵,第一个词(b1)和第二个词( b2),他们没有在某篇文档中共同现过,他们的关系使用Spearman coefficient相关系数来计算。具体代码及结果如下:即得到 b1 和 b2 的相关系数为,说明它们两者的相关性不大。2.对 X 进行奇异值分解。T分解公式为 X=USV,代码及结果如下:矩阵 U 的每一行代表的是一个关键词,每一列表示一个语义

14、相近的词类,元素 Uij 表示的是第 i 个词和第 j 个语义的相关性,数值越大越相关。矩阵 V 的每一行代表一篇文章,每一列表示一个主题,元素Vij 表示的是第i 个文章和第 j 个主题的相关性,数值越大越相关。矩阵 S 表示的是词的语义和文章的主题的相关性,数值越大越相关。因此,通过奇异值分解, 我们不但可以得到词的语义分类和文章的分类,而且得到了每个词的语义和文章每个主题之间的相关性。3、对奇异值分解后的矩阵进行降维,构建潜在语义空间。对关联矩阵进行重构, 然后选取 S 矩阵中最大的两个值, 作为重构矩阵的条件,即 X=U(:,1:2)*S(1:2,1:2)*V(:,1:2)'。

15、U的第一列表示每一个词的出现频繁程度,虽然不是线性的,但是可以认为是一个大概的描述; V 的第一行表示每一篇文章中的出现词的个数的近似;S 表示的是U 和 V 之间的重要程度,数字越大越重要。形成的潜在语义空间如下:4. 计算语义空间的b1 和b2 的 Spearman coefficient系数代码及结果如下:可以看到 b1 和 b2 虽然在原始文章中并没有共同出现, 但他们的相关联程度竟然达到了。5、判断是否进行推荐通过上面的分析,我们发现表面上并没有直接联系的关键词和文章可能也存在深层次的关联。因此 ,我们采用上述模型计算关键词和文章的语义相关系数,通过这个数据对比,来决定文章是否进行推

16、荐。 这里,我们设定相关系数大于时,就进行推荐,算法如下:row=size(y,1);%获取重构矩阵的大小x=1:row;num=;z=0;%用来存储相关性大于num的文章所代表的的行号coeff=zeros(1,row);for i=2:rowcoeff(i)=corr(y(1,:)' , y(i,:)' , 'type' , 'Spearman');if(coeff(i)>num)z=z,i;endEnd通过这样的选择,就可以得到和第一篇文章相关性较强的文章,而这些文章就是我们所要推荐给用户的。6、模型优化将第 3 部分中的矩阵 U 和

17、 V,投影到一个平面上,可以得到关键词和文章的分布图,代码及结果如下:clearclclsi=0,0,1,1,0,0,0,0,0;0,0,0,0,0,1,0,0,1;0,1,0,0,0,0,0,1,0;0,0,0,0,0,0,1,0,1;1,0,0,0,0,1,0,0,0;1,1,1,1,1,1,1,1,1;1,0,1,0,0,0,0,0,0;0,0,0,0,0,0,1,0,1;0,0,0,0,0,2,0,0,1;1,0,1,0,0,0,0,1,0;0,0,0,1,1,0,0,0,0;U,S,V=svd(lsi);y=U(:,1:2)*S(1:2,1:2)*V(:,1:2)'lu=si

18、ze(U,1);lv=size(V',1);scatter(U(:,2),U(:,3)holdonscatter(V(:,2)',V(:,3)')legend('point1', 'point2')holdonfori=1:lucircle(U(i,2),U(i,3),abs(U(i,3)holdonendfunction =circle(x,y;r)rectangle('Position',x-r,y-r,2*r,2*r,'Curvature',1 1 )axisequalend图(三)图(三)中,每一个

19、红色的点,表示一个关键词,每一个蓝色的点,表示一篇文章,这样我们可以对这些词和文章进行聚类。按聚类出现的效果, 可以提取文章集合中的近义词, 这样当用户检索文章的时候,就可以用语义级别 (近义词集合)去检索了。这样一来就减少了检索次数和存储量。(三)模型的总结在此模型中我们首先构建了用户行为(关键词)与信息资源(文章)之间的关系矩阵,接下来利用奇异值分解法和LSA法得到了一个语义空间矩阵, 该矩阵可以反映那些在表面上看起来没有关系的关键词与文章之间的相关性,进一步的计算了 Spearmancoefficient系数,并利用 Spearmancoefficient系数的大小判断文章是否推荐给用户

20、, 最后对模型进行了优化。 上述模型的具体过程都是以用户输入关键词查找文章为例说明的,为了适用于高校教育信息化的其他方面,只需要将模型中的关键词换为用户的其他具体行为, 文章换为其它信息资源。 下面给出了一般情形的模型算法流程图:开始是否构建用户行为与信息资源的的关系矩阵否是图(四)计算 Spearman coefficient相关系数>a”,其中 a<1,a 的上边算法流程图中,判断相关系数时即“相关系数确定值根据具体情况给,理论上要求接近1。因为, a 的值越接近 1,相关性越大,推荐的信息的质量就越高。相关系数 >a奇异值分解,构建语义空间四、效绩评价针对教育信息推荐体

21、系待完善的问题,我们从满意度、准确率、覆盖率、实时性四个方面建立了信息推荐指标体系, 然后通过问卷调查, 做图表汇总并分析相关数据,得出了各个指标的权重,满意度是,准确率是,覆盖率是 ,实时性是。并且进一步确定了外生变量 : 用户个体差异、网站建设;内生变量:信息资源建设,如学术网站,期刊杂志,选修综合课(包括校内课程与网络公开课) ;决策变量:用户需求。在此基础上我们采用奇异值分解和 LSA方法建立信息推荐模型, 通过一系列算法得出了在字面上看起来没有任何联系的关键词与文档实际上其潜在的深层次相关性达到, 验证了这一模型取的了显着的效绩, 更加深入准确的剖析出了搜索关键词和期望文档之间的潜在

22、联系,在很大程度上提高了信息模型的满意度、准确率、覆盖率、适时地性等评价指标。为进一步完善模型,我们还对模型的功能做了优化,使信息推荐模型的更好的满足用户的需求, 促进我过教育现代化的发展步伐。五、预测评估根据模型所取得的效绩,在未来几年,教育推荐体系的效率和准确性将有很大的提高,而且其功能将会进一步被完善,教育信息化将迎来前所未有的创新性改革,大量的云计算将会运用于教育信息化, 为教育信息化提供更加广阔的空间。有望形成“人人皆学,处处能学、时时可学”的国家现代化教育发展目标。更好的实现教育信息化对学生全面发展的促进作用。对深化教育领域综合改革的支撑作用和对教育创新发展、 均衡发展、优质发展的

23、提升作用。 形成具有国际先进水平、信息技术与教育融合创新发展的现代化教育信息体系。六、信息推荐方案针对目前教育信息化过程中的一些待解决的问题,我们对信息推荐这一模块,通过收集数据, 数学计算等方式建立了一套可以完善信息推荐功能的模型,经过算法检验,证明我们所建立的模型表现出很好的效绩,并且形成了信息推荐方案如下:第一、严格规范评价指标,全面提高信息推荐质量。采用多种形式,从各个方面全面的对信息推荐体系进行评价,并且打分排名, 这样有利于规范这个网络平台的信息推荐体系的建设, 并且在竞争压力的推动下, 也有利于促进各网络平台信息推荐平台不断的创新完善其功能,从满意度、准确率、覆盖率、实时性等各方

24、面全面的提高信息推荐质量。第二、加强用户需求分析,进一步提高信息推荐准确率。 对用户需求的分析,不应该知识停留在浅显的字面分析, 而应该运用我们上面建立的模型, 运用数学算法,客观的用数据结果给出搜索关键字于用户期望的文档之间潜在的深层次联系,并高效准确的为用户推荐其期望的文档, 提高信息推荐的准确率, 优化信息推荐体系的功能。第三、拓宽信息推荐体系的引用, 提高教育信息现代化的整体水平。 虽然教育信息推荐体系是主要针对教育信息的, 在互联网如此发达的时代, 整个信息现代化的发展形成了一个巨大的网络, 各个领域的信息发展又是相互之间紧密联系,相互影响,荣辱共存的。所以应该讲此推荐体系的应用进一

25、步推广到社会发展的各个领域,只有整个社会的信息化水平总体提高了, 教育信息化水平才能进一步提高。不然,教育信息化水平仍然是受到社会总体信息化水平的制约。第四、做好信息推荐体系的监督工作, 营造健康严谨的网络推荐环境。 应该对系统推荐的信息进行初步过滤筛选, 屏蔽不健康的、 包含商业广告的、 正确性没有权威保障的、 以及娱乐八卦、头条热点等随意推送的一些垃圾骚扰信息然后再推送给用户, 这样就提高了推送效率和质量, 并且保障了健康严谨的网络推荐环境。七、模型的评价与推广模型中采取的评价指标及相关数据来源于问卷调查, 有较高的可靠性和代表性,能够全面的、客观的、有效的评价各项指标的权重。奇异值分解法

26、和 LSA方法的优势: 1、应用条件易得; 2,不在局限于计算方阵,可以适用于任意矩阵,更加具有普适意义。 3 相比传统向量空间,潜在语义空间的维度更小,语义关系更明确。局限性:无法获取用户文章的评价值, 仅仅是通过用户检索的关键词来给用户推荐文章,这样的方法会导致用户在下一次搜索时, 上一次就筛选过的文章又会出现在推荐选项中, 若要对模型进行优化处理, 首先要考虑的问题就是需要如何避免文章的重复推荐, 下一步对模型的构思是利用其他算法, 来对用户行为进行学习,通过对用户搜索行为的记录,分析之后来推荐出更适合于用户的文章。推广:用奇异值分解法和 LSA方法建立的模型, 不仅可以解决高等学校教育

27、信息化发展过程中推荐体系存在的一些问题, 还可以解决商品购买推荐、 旅游攻略、最佳路径推荐、求职岗位推荐等问题,具有普适意义,应用范围广泛,功能全面。附:给有关部门的信尊敬的各位领导 :您好!我们是西北师范大学的学生, 在此向您推荐我们小组针对高等学校教育信息推荐体系所建立的数学模型并提出具体的信息推荐方案。首先,感谢您在繁忙之余能抽空来浏览我们的方案,也渴望您能够提出宝贵的意见,对此我们将非常感谢。下面简洁的介绍下我们的方案。十八大以来,信息化以成为重要的国家战略,然而,目前的教育信息体系还是不够完善的, 还存在资源分配不均、 资源共享较少, 值得关注的是信息推荐体系这一块被严重忽略, 现有的推荐体

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论