高职教育专业教学资源分析_第1页
高职教育专业教学资源分析_第2页
高职教育专业教学资源分析_第3页
高职教育专业教学资源分析_第4页
高职教育专业教学资源分析_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

高职教育专业教学资源分析摘要:笔者详细研究了高职教育专业教学资源搜索引擎的设计与实现,利用分布式爬虫技术,对互联网上的教学资源信息进行爬取、去噪、提炼,获得有效的信息进行保存。同时,建立教学资源的搜索平台,方便学生快速检索网络教学资源。目前,互联网+教育已十分普及,我国网校也达上千家。网校多以考试辅导、专业技能培训为主。此外,还有些人文教育平台,而针对高等教育的平台的建设,目前国内还在起步阶段。目前,国内主要有网易云课堂、慕课网等等平台,这些平台的资源较为分散,学生在寻找相关资料时,也比较费时,影响了学习的积极性和效率。利用搜索引擎的相关知识,搜集互联网上相关的高职教育专业的教学资源,能够有效帮助学生快速找到目标资料。同时,应用积累的数据,建立高职教育专业网络教学资源数据仓库。此外,还可以积累搜索关键词的频率,掌握最受欢迎的学科或学习资料,为教学资源的再生提供方向与引导。1 专业教学资源搜索引擎需求分析研究高职教育专业教学资源搜索引擎的主要目的是帮助解决高职院校学生学习资源不集中、大部分学生搜索学习资料的能力有限等问题。高职教育专业教学资源搜索引擎的研究,主要是根据学生输入的搜索内容,将内容进行分割成关键字,利用关键字去各大教学资源站点进行爬虫,将爬出网页资源进行分析,提取网页中的视频资源和其他学习资源,提取资源包含资源下载地址和资源的详细信息。搜索将互联网上的教学资源信息进行爬取、去躁、提炼,获得有效的信息进行保存。各类网页信息的特征不相同,针对不同的网页信息,信息提炼方法也不同。具体的研究目标可以总结如下:(1)建立完备知识库类别;(2)实现资源的共建共享;(3)进行 Web 集成,展示搜索的教育资源;(4)资源检索,为使用者提供资源库中资源的多种检索功能。2 系统设计2.1 分布式爬虫架构设计这个模块主要分成两个子模块,爬虫模块和信息分类和提取模块,下面主要介绍爬虫模块。爬虫模块指的是对不同的站点内网页信息进行数据釆集,该部分主要包括爬虫控制模块和爬虫节点模块。(1)爬虫控制模块主要负责对爬虫节点的控制工作,其主要有四个职责:任务调动分配、监测状态、设置参数、通信控制。(2)爬虫节点模块具有网页下载、URL 排重和存储(链接管理)、网页解析、数据存储等功能。具体的分布式爬虫架构如图 1 所示。2.2 爬虫爬行搜索策略网页爬虫算法最常见的爬行策略是广度优先遍历和深度优先遍历,它们都是基于图的遍历算法。2.2.1 深度优先遍历算法爬虫节点输入开始的 URL-A 获取网页,分析网页并获取网页中的一个 URL-B,再分析根据 B 获取的网页,并获取一个 URL-C,直到网页中没有UR,然后不断处理不同的链路。然而,随着层次的深入,网页的价值和 PageRank 都会随之下降。这表示价值越高的网页距离种子网页越近,层次越深则其价值越低。2.2.2 广度优先遍历算法从起始网页 A 开始,先抓取该页面的所有页面,然后从页面 A 中选择一个,继续抓取该页面的所有 URL,然后在页面 A 重新选择一个 URL,如此抓取页面中的所有链接页面。本系统的爬虫主要使用广度优先遍历算法,首先,互联网的网页相互连通,最大的链接深度可以达到 17层。因此,从网页 A 到网页 B 会存在多条路径,需要考虑最短路径的问题,若使用深度优先,会有从低 PageRank 值到高 PageRank 值的过程的情况出现,计算 PageRank 的值比较复杂。而广度优先可以很方便实现并行操作,对于同一个网页上的链接可以通过并行操作提高爬行速度。2.3 分布式任务调度策略分布式任务调度数据采集有三种方式:动态、静态和独立。爬虫节点间相互独立是不切实际的,如果采用动态任务分配的模式,爬虫任务集合的划分比较简单,容易维护,确保节点资源最大化被运用到,但是如果考虑到各个爬虫节点机器性能间的差异,动态分配会增加爬虫节点和控制节点的通信数据量,节点的网络带宽负载会过大。静态任务分配模式的思想是根据初始的机器节点的数量,将所有的任务分成 N 个子集,之后将任务子集提前根据机器性能手动分布相应的爬虫节点,任务分配,节点各自执行各自的任务,互不干涉。静态任务分配的策略有:基于站点名称、基于 URL、随机划分。本研究中采用的按站点进行任务划分的静态划分方式是三种方式中最佳的。2.4 资源管理平台网络教学资源共享平台是高校数字化学习体系的一部分,高职教学资源库具有强大的资源查询与管理功能。我的资源库模块,可以集中、方便地维护个性化资源。快速浏览模块,可以查询所有资源库的资源,包括开放课程与精品课程中的预置资源及专题库中的本校自建资源。开放课程&精品课程模块,可以查询系统中预置的资源(提前爬虫入库的资源),包括全球开放课程、全国精品课程、清华精品课程、视频资源等。专业资源模块可以查看本校各院系专业所关联专题库中的资源。通知公告模块,用于管理资源库首页公布的通知公告。专题库模块,供本院校建设、管理自建的校本资源。统计信息模块,提供详细的资源使用及用户信息统计功能,方便管理人员快速了解资源库应用情况。资源上传模块,提供多种方式给各用户为资源库添加资源,包括上传资源和对资源进行编目两部分。系统设置模块,用于管理员对资源库的基础数据进行设置,承担资源库基础结构维护的任务。用户管理模块,用于管理员添加和删除用户、管理用户角色。3 系统实现3.1 中心控制节点详细设计中心控制节点功能主要包括:增加爬虫节点,删除爬虫阶段,分配任务给爬虫节点,配置节点运行参数,协调爬虫节点之间的工作,监测节点状态,保证系统的运行稳定。控制节点主要有四个模块,它们分别是:任务调度模块、状态监控模块、爬虫参数设置、通信模块。3.2 爬虫节点详细设计爬虫节点爬虫功能结构如图 2 所示,一个爬虫节点主要模块有两个:爬虫模块和节点通信模块。其中,爬虫模块的子功能有:网页下载功能、网页解析功能、链接管理功能以及数据存储功能。4 结语利用搜索引擎技术建立高职教育专业教学资源库,并利用搜索到的数据建立教学资源数据仓库,帮助学生快速找到需要的学习资源。研究中采用了分布式爬虫技术,充分使用任务搜索策略和任务调度策略。利用控制节点将任务均分到爬虫

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论