大数据背景下数字资源智慧服务门户的构建及关键技术研究_第1页
大数据背景下数字资源智慧服务门户的构建及关键技术研究_第2页
大数据背景下数字资源智慧服务门户的构建及关键技术研究_第3页
大数据背景下数字资源智慧服务门户的构建及关键技术研究_第4页
大数据背景下数字资源智慧服务门户的构建及关键技术研究_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、    大数据背景下数字资源智慧服务门户的构建及关键技术研究    2.蚂蚁算法蚂蚁算法是受自然界中蚂蚁觅食行为的启发而提出的一种算法,marco dorigo于1992年在他的博士论文中引入8。算法依赖于一种称为“信息素”的化学物质,该物质在每只蚂蚁行径过程中不断释放、随着时间推移又不断挥发,觅食的蚂蚁以其为标准倾向选择浓度分布高的路径,找到食物后,再按原路返回蚁巢。经过一段时间后,行径蚂蚁越多、路程越短的线路上积累的信息素就越多,而其他较长的线路,由于长时间没有蚂蚁经过,信息素就会不断挥发并最终消失,最终所有的蚂蚁都会选择从蚁巢到食物源最近的线路。数

2、据抽取中获得抽取规则的过程即由resultpage生成的dom标签树的根节点这一“蚁巢”到各目标字段这些“食物”的最短路径确定,这与利用正反馈机制搜索的蚂蚁算法来确定到目标源的最短路径有着异曲同工之妙,也为我们数据抽取规则的获取提供了一种新的思路。3.数据抽取规则提取resultpage集合由html代码进行描述,它采用各类约定的标记符标识文档的不同内容。分析该页面的html代码发现:各组相同字段的数据记录通常由相同的html标记符集合进行描述,各组不同字段的数据记录由相似的html标记符进行描述且出现在网页的相邻区域。分析由预处理模块处理生成的dom标签树发现:各字段的数据记录以子树形式存在

3、,所要抽取的数据记录在dom树上的深度相同,它们均为包含别名库中字段信息且拥有同一个父亲节点的兄弟节点。为避免算法陷入局部最优解,数据抽取模块中引入的蚂蚁算法将读取m棵dom标签树信息作为路径信息,同时在每棵dom树的不同节点上随机投放n只蚂蚁。蚂蚁k从起始点出发,在每个路径分叉口选择信息素浓度高的节点行驶直至发现食物,找到食物后返回初始节点,以蚂蚁k行驶访问过的节点数及次数为路径标准,按公式(1)更新各节点信息素浓度。i(t+n)=i(t)+1/dij (公式1)其中i(t)表示节点i在t时刻信息素浓度,dij为蚂蚁k从起始节点i出发到目标资源所在dom树节点j时经过的节点数,1/dij表示

4、这一过程中节点i从蚂蚁k身上获得的信息素浓度。9当dij值越大时表示经历的路程越长,此次累加的信息素浓度就越小,反之越多。为避免信息素的无穷尽累加,按公式(2):i(t+n)=(1-)·i(t)定期对各个节点的各类信息素进行挥发,其中1-是信息素残留因子,的取值范围为:0,1)。依据对生成的dom标签树的分析,字段抽取的规则可以由数据块的公共子树和各字段的节点标签组成,其中公共子树的规则抽取算法主要描述如下:输入:别名库nik,resultpage页面集m,初始蚂蚁数n遍历m棵resultpage的dom解析树,得到的路径表达式treth(m);循环m棵树循环n只蚂蚁树k上节点tk,

5、i非叶子节点循环匹配别名库字段nik(u)按照公式(1)更新蚂蚁k从节点i到j的信息素浓度更新节点j的u食物素浓度:bj(u)=bj(u)+1/dij比较节点tk,i的相邻节点信息素浓度,蚂蚁移向较大的节点按照公式(2)执行信息素定时挥发叠加不同树上相同节点的同型信息素:k,i=k-1,i+k,i计算treth中的路径总数记入count;循环i=1至count循环j=i+1至count对每个树节点ti,比较与该节点相邻节点tj的信息素的大小;追加每层的拥有最大的子树至最大信息树t中析取最大信息树t的路径规则exrule;输出:路径规则exrule、节点食物浓度bj(u)数组和最大信息树t;对此

6、函数输出的数据块公共树路径规则exrule和节点食物浓度bj(u)数组、最大信息树t,结合抽取的数据记录在dom树上的深度相同且为拥有同一个父亲节点的兄弟节点这一特性,对每个食物u比较最大信息树t的子节点间兄弟节点的食物浓度,将拥有最大食物浓度的节点j追加至exrule,记作exrule(u),表示数据字段u的抽取规则,数组exrule(u)即为该页面的抽取规则。五、实验效果评价实验采用云数据中心提供的5台4*2核cpu、内存为8g、硬盘为300g的虚拟机器,在ubuntu10.10上的操作系统部署hadoop1.0及jdk1.6,并以百兆以太网来构建模拟实验环境。由于智慧资源服务门户在实际运

7、行中将不仅仅包含本校各类资源系统数据,还需囊括各类兄弟院校或是互联网中发现的资源平台数据,因此需短期自动完成这些海量资源数据的采集集成,以顺利推广智慧资源服务门户,数据抽取的准确性和抽取的速度将是智慧资源服务平台成功与否的关键,所以试验在性能测试中将着重关注获取数据抽取规则的准确性和耗时。实验统计数据表明人工抽取方法保持在人均10分钟获得4个页面的抽取速度,引入改进后的蚂蚁算法10分钟内可以保持在240个左右,在抽取规则的获取耗时上有着非常显著的减少;随着蚂蚁投放数量和resultpage页面集的增加,改进后的蚂蚁算法通过提取的抽取规则获得的抽取数据可以达到95.3%的召回率和96.8%的准确

8、率。同时,我们依照实验测试结果和系统功能分别对传统资源模式、智慧资源服务门户模式与智慧校园资源模式从资源融合成本、资源数量、智慧学习支持、使用管理、资源安全可靠性能等多个方面进行了比较(如表1所示)。表1 三种资源模式下的效果比较比较对象传统资源模式智慧资源服务门户模式智慧校园资源模式资源融合成本成本高耗时长成本低耗时短成本高耗时短资源数量单一系统资源互联网资源系统资源本单位资源个性化学习不支持支持支持使用管理独立管理统一管理统一管理安全可靠性可靠性差高可靠性高可靠性智慧资源服务门户功能上接近于智慧校园资源模式但不受校园区域限制,理论上可以涵盖互联网上资源系统的资源。资源融合及资源数量上,传统

9、资源模式各系统以信息孤岛形式独立运转,若以资源联盟方式构建资源共享将会耗费较高的人力成本和时间成本,因此后续的持续更新维护在实际推广中也较难持久;智慧资源服务门户采用自动发现、用户推荐资源网站和智能抽取资源数据的方式完成了以较低的人力和财力成本获得海量资源,后续的更新维护也较少依赖于人工。同时相较于传统模式下系统用户的信息和行为数据无法相互支撑的孤岛特性,智慧资源服务门户模式由于资源的丰富性、聚集的用户信息及其行为数据的海量交互性,将为智慧学习所需的各种服务提供强有力的支持。六、结束语构建整体可交互的教学资源服务门户是推进智慧学习的前提,资源的种类和数量则是其能否成功推广的有力保证,针对目前各

10、高校由于受到建设经费、工期等的局限,数字资源智慧服务门户提出了以现有高校、互联网存在的系统平台为目标进行信息的自动抽取,为资源门户奠定了前期资源基础。作为一个拥有以自动发现目标资源系统并且无需对方提供技术支持的数据抽取模块,数字资源智慧服务门户理论上可以实现与物联网中所有的资源平台的互通有无,为智慧学习提供海量数字教学资源;同时,集成各系统资源后大量用户的加入及海量行为数据的聚集,也将为智慧学习提供的个性化学习、智能推送等功能提供辅助决策的大数据支撑。数字资源智慧服务门户的构建为各高校致力于实现智慧校园资源平台建设提供了一种快捷、低成本的有益尝试,但在实际应用推广中由于资源的抽取涉及其他资源网

11、站各类资源的版权问题,为保证后续优质数字教育资源建设的持续发展,还需要对诸如此类的问题开展进一步的讨论。参考文献:1程艳,曾燕,李春雷.云大数据时代我国公平教育重构j.江西社会科学,2014 (10):248-252.2国家教育信息化十年发展规划(2011-2020年).中国教育和计算机科学网eb/ol.2012-3-30.3冯翔,吴永和,祝智庭.智慧学习体验设计j.中国电化教育,2013(12):14-19.4祝智庭,贺斌.智慧教育:教育信息化的新境界j.中国电化教育,2012(12):5-13.5陈巧,胡新平,袁红.基于云服务的教学资源大平台的构建j.现代教育技术,2011(3):112-115.6龙赛琴.云存储系统中的数据布局策略研究d.广东:华南理工大学,2014:48-55.7傅颖勋,罗圣美,舒继武.安全云存储系统与关键技术综述j.计算机研究与发展,2013(1):136-145.8colorni a, dorigo m, maniezzo v. an investigation of some properties of an ant algorithma. proc. of the parallel problem solving from nature conference (ppsn 92)c. brussels, belgium: elsevier pu

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论