



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 08-07-20 15:14:00 作者:孙韬 编辑:Studa_hasgo122【摘要】课程信息垂直搜索引擎,即在课程信息这个特定的领域里,让用户能搜索到最精准 最全面的结果。本文利用 Google 发现“学校-学院-教师-课程”路径,利用 HTMLParser 进行 基于 WEB 页面结构的课程元数据信息抽取。为了做到信息的最准确,为每个学校的每个学 院都编写了包装器 (解析页面并将得到的元数据内容的
2、抽取器)。在精确的课程领域元数据 信息支持下,本搜索引擎支持简单检索、元数据高级检索、导航等综合的检索功能。 关键词:垂直搜索;搜索路径;元数据抽取;包装器 Abstract This paper proposes a Vertical Search Engine aiming to provide the most accurate and comprehensive results in the specific field of course information. After finding search paths by Google according to the order
3、"university - school - teacher - Course", we use HTMLParser to extract metadata information based on web page structures. Different wrappers (analyzing web pages and extracting metadata information) for different schools are written for the sake of accuracy. By the support of precise metad
4、ata information, this search engine supports integrated search functions, such as simple retrieval, metadata advanced search, and navigation. Keywords: vertical search; searching path; metadata extraction; wrapper 1引言 随着因特网(Internet)和万维网(World Wide Web)技术的发展,全球共享学习资料和 知识使得传统意义上的教育向远程教育和自主学习转变,这就需要提供
5、对学习资源的全球共 享和在线访问,需要为资源的拥有者提供学习资料发布和共享的支持,需要为学习者提供获 取知识的有效手段。 但是,由于因特网具有较大的自由性,教课老师可以按照任意形式在因特网上发布其与 课程有关的信息;没有固定、标准的信息发布格式,且信息发布主要注重视觉效果,缺少语 义信息;信息源变化频繁,信息源的和产生没有规律性。因此,如何在海量的、多变的、缺 乏固定格式的因特网学习资源中查找需要的课程信息,并将这些信息快速而准确地抽取出 来、进行有效的整合并提供高质量的服务,具有重大的科研价值和现实意义。 课程信息垂直搜索引擎,通过对课程网页的元数据信息进行自动提取和结构化的组织, 使用户通
6、过关键字搜索能得到最全面最精准的学习资源,为高校教师、学生等教育领域用户 提供更好的服务。 目前有三种爬虫能分析基于内容/基于链接的网页,并把对这些网页的分析与图搜索算 法相结合。1. 广度优先搜索的爬虫(breadth-first search spider) 1,按照图遍历算法 BFS 来工 作。由于最重要的页面往往含有指向其他页面的大量链接,breadth-first search spider 在有效 组织的网站中有很高的抓取效率和准确率。2. 页面权重爬虫,结合了基于链接的分析与基 于遍历的算法,采用了 Junhoo Cho 和他的实验室成员发明的算法2。3. Hopfield Ne
7、t Spider, 将 Web 看作为一个加权单层神经网络,然后利用包含激活扩散算法的爬虫来完成信息发现 和检索的工作3,4。 命名实体识别(Named Entity Recognition,NE)作为信息抽取中的子任务,其主要目的 是从文本中检测出专有名词并进行分类,如人名、地名、公司名、日期等。很多知名研究机 构都致力这方面的研究,多个国际会议也举办了命名实体识别的评测活动,如 MUC5、 CoNLL6、ACE7、SIGHAN8等。 就本文而言,实体“课程”包括以下属性:课程名称、学院、学校、教师、教师主页 URL, 课程链接以及课程简介。本文的 NE 识别方法为基于 WEB 页面结构分析
8、的包装器。 本文介绍了构建课程信息垂直搜索引擎的基本理论和实用方法。先利用 Google 按照“学 校-学院-教师-课程”发现搜索路径,然后利用 HTMLParser 编写包装器进行基于 WEB 页面结 构分析的课程元数据信息抽取。 第 2 节介绍了本文的总体思路与核心算法,重点介绍了抓取网页的基类,并以卡耐基- 梅隆大学的生态环境研究学院为例,具体叙述了专门为该学院编写的包装器。 第 3 节评测了算法的查全率,查准率和 F-度量,分析了本文算法的性能。 第 4 节简单介绍了本文涉及的实现技术。 最后,对本文的性能和扩展做了小结,指出了针对本文改进和发展的方向。 2.1 利用 Google 发
9、现搜索路径 课程的自然组织形式为从大学、学院、教师再到课程或者从大学、学院直接到课程。因 此,本文利用 Google AJAX Search API 以及 Google 的高级搜索语法按以下两种顺序之一来 发现课程信息: (1) 学校学院教师课程 (2) 学校学院课程 如图 1 所示,为本文设计的基于 Google 的路径发现页面有两个输入框,keyword 和 site。 用户分别输入关键字后,利用 Google AJAX Search API ,将 site 的 值 提交给 GwebSearch.setSiteRestriction,将 keyword 的值提交给 GwebSearch.e
10、xecute,得到 Google 返 回的搜索结果。由于本文只需要搜索路径,因此只显示和保存 URL 地址(result.unescapedUrl), 通过 XMLHTTPRequest 发送给服务器,在服务器端保存需要的 URL 地址。 Google 的 高级搜索语 法 9“inurl:someKeyword” , 表 示只搜 索 URL 地址中含 有 “someKeyword”的页面。“-filetype:someType ”,表示过滤文件类型为“someType”的结果。 “intitle:someKeyword”, 表示只搜索页面标题中含有“someKeyword”的页面。“key1
11、OR key2” 表示搜索包含关键字“key1”或者“key2”的结果。 图 1 基于 Google API 的页面 通过对各个学啊院的观察,可以发现以下两个重要规律:1.集中含有课程信息的页面 URL 地址中含有关键词“course”或者“courses” 2.集中含有教师信息的页面 URL 地址中含有关键 词“faculty”。基于以上两个规律,按以下步骤来发现搜索路径,其中(3)(4)的搜索结果以 txt 形式保存于服务器上,为包装器提供路径。 2.2 WEB 页面的分析和信息提取 基于 WEB 页面结构分析的包装器利用 Apache 的开源项目HTMLParser,使用的版
12、 本为 1.6。HTMLParser 是一个简单而功能强大的 Java HTML 解析器库,可以分析和处理 WEB 文档的内容,包括一些通用的服务器端标签。 基类主要包括三个函数: (1) insert(),向 Lucene 的索引插入课程信息的函数 (2) count(),统计 Lucene 的索引收录的项(document)的数目,以便看出一次运行添加了 多少个课程 (3) getDescription(String url),通过分析指定 link 在 Schedule Of Classes 的 WEB 页面结 构来获得课程简介,算法伪代码见图 2:(4)1. 根据 2.1 获得的 UR
13、L 地址初始化 HTMLParser 的分析器 parser,设置编码方式 2. 根据 WEB 页面结构选择适合的 Filter,比如本页面要提取课程简介,则该节点必定含有关键词 Description,因此选用 StringFilter coursefilter = new StringFilter("Description") 3. NodeList nodelist =过滤得到的所有 Description 节点 4. if (nodelist.size() = 0) /dexcription 不存在,相当于本页不存在,因为只要页面存在就必定含有 Descriptio
14、n 结点 return null; /说明本 URL 地址的页面不存在 5. else(dexcription 存在) 重置 HTMLParser 的 parser,根据 WEB 页面结构选择更加精确的 filter /通过对页面的源码分析发现课程简介的源码组织方式都为 /<P><font size="2" face="helvetica,arial">课程简介</font> /因此设置用 AndFilter 将 filter 设置为必须同时满足三个条件 AndFilter andfilter =结点名为<font>
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 材料力学与智能材料性能应用拓展重点基础知识点
- 材料疲劳断裂预测研究进展重点基础知识点
- 行政法理论的基本原理试题及答案
- 半地下仓库火灾应急预案(3篇)
- 跨文化管理与经济政策试题及答案
- 消防火灾应急预案预演(3篇)
- 计算机程序开发中的风险评估试题及答案
- 资源分配不公的经济原因探讨试题及答案
- 客房火灾报警应急预案(3篇)
- 2025年法学概论考试的法律思维模式与试题及答案
- 降本增效理念在建筑中的应用试题及答案
- 提高安全意识共建平安校园
- 2025年高考作文备考之热点时事素材资料
- 2025安徽蚌埠市龙子湖区产业发展有限公司招聘22人笔试参考题库附带答案详解
- 华为笔试题目大全及答案
- 产业研究报告-中国水环境监测行业发展现状、市场规模及投资前景分析(智研咨询)
- 偿二代下我国财险公司偿付能力影响因素的深度剖析与实证研究
- 清代文学教案
- 【MOOC】理解马克思-南京大学 中国大学慕课MOOC答案
- JGT266-2011 泡沫混凝土标准规范
- 德州信息技术中考备考样题4综合
评论
0/150
提交评论