文本信息检索技术.doc_第1页
文本信息检索技术.doc_第2页
文本信息检索技术.doc_第3页
文本信息检索技术.doc_第4页
文本信息检索技术.doc_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

期末课程论文论文标题:基于文本信息检索技术课程名称:信息检索技术课程编号:1220500学生姓名:学生学号:所在学院:计算机科学与工程学院学习专业:计算机科学与技术课程教师: 2013年7月 4日文本具有与平台无关、支持基于内容的联想式超链接信息组织方式以及多媒体化的人机界面,因此成为Interact上信息组织、存储与发布的主要方式之一。但是,由于文本是一种非结构化文档,一般仅适合于信息的浏览和导航,而无法像数据库那样实现基于主题、关键词、内容等的信息检索。其次,一张主页至少对应一个以上的文件,当信息规模较大时,不仅文件数量巨大,而且文件间存在的错综复杂的链接关系也难以维护在数字化图书馆、多媒体课件资源以及ICP(Intemet ContentPmvider)网站构造等应用中,这种情况尤为突出因此,如何实现超文档的规范化管理,并提供基于主题和全文的检索功能,已经成为数字图书馆、多媒体远程教育中课件资源管理以及ICP服务的一个重要问题。目前,实现文本信息的全文检索,一般有以下两种解决途径: 采用Web服务器自带的索引服务器,如Microsoft IIS自带的Index Server,这种方法只能实现字符串匹配查询,无法实现按主题查询,效率低下,无法跨平台,也无移植性;通过将非结构化的文本文件集转换成结构化数据库,并对数据库中文本记录的特征字段进行标引。形成完整的文本数据库在此基础上开发相应的基于web的检索引擎,实现对超文本查询的目的。本文在分析文本信息检索功能需求的基础上,提出了一种将非结构化的超文本转换为结构化数据库的模型,并且提出了一种支持文本信息全文检索的解决方案,在数字图书馆系统和多媒体远程教育系统的课件资源管理与检索中得到了实际应用和验证。功能需求与模型一般地,对于一个规模较大的超文本信息群,应向用户提供以下检索功能。(1) 信息分类.通过对信息进行分级、分类组织, 为用户提供信息源选择的功能,以便为用户导航或 查询界定检索范围.对于范围过大的信息群,有必要 采用二级甚至多级分类,使用户在进行具体检索前 通过逐级选择信息类别达到缩小检索范围的目的。(2) 组合条件.为用户提供不同源信息的组合检 索,例如用户可以根据主题、作者、关键词、日期等栏 目,提出综合检索要求。(3) 全文检索.根据用户设定的条件,在全文范 围内进行检索,并可按照检索词的特定指标评价检 索匹配度,并实现检索结果的全文显示。(4) 逐级检索.在信息检索中,首次检索可能因 为条件不够精确而导致检索结果信息量过大,用户 裔要在此基础上进行二次或多次检索,而每次检索 都是以上次结果作为本次检索范围,以逐步缩小信 息量.逐级检索技术对于用户而言,还具有启发作 用,根据每次得到的中间结果.适时调整检索方向, 达到逐步求精检索目标的目的。(5) 结果处理.对于最终获得的检索结果,除了 提供显示功能外,还应提供保存、Email转发、打印等功能。为了满足以上需求,需要解决以下两个问题:一 是如何将非结构化的超文本信息集转换成结构化的 数据库;二是在结构化转换的基础上如何实现全文检索。首先,将超文本文件集转换成超文本数据库,除 了要满足无损性、可还原性等要求外4,为了实现 对超文本数据库的有效管理,并且支持超文本信息 查询,还应该具备以下功能。(1) 特征标引.允许工作人员对转换后的超文本 记录进行特征标引,如关键词、主题词、摘要、作者、 日期等。因为这些信息都是Web用户查询所需要 的,但转换程序无法从超文本文件中直接获取这些 信息.(2) 安全刪除与替换.当刪除(或替换)超文本数 据库中的一条记录时,系统将自动判断该记录对应 的超文本是否和其他记录对应的超文本相关联。如存在关联,则给出瞢告,如果确认刪除,则由系统自 动更新与此超文本相关的链接。(3) 链接关系查看.以树状或网状形式反映出某 一超文本和其他超文本文件之间的链接关系,工作 人员可以一览全局。由此,可以得到如图1所示的超文本结构化转 换与全文检索的实现模型。超文本检索引擎的原理为了有效说明超文本检索引擎的实现原理,先对超文本检索问题进行形式化描述超文本信息集可以用有向图H=(N,E)表示,其中N 为超文本结点集,即HTML文件集,E表示结点间的链接关系,又n = | N丨|,进一步定义以下术语及符号。 (1)超文本文件地址:=URT(HTML) (2)超文本地址集U:U =所有HTML文件对应的地址= (3)超文本获取操作 :web浏览器根据地址Ui获得网页HTML文件的操作表示为 = (4)链接关系L():对于任意结点P N,可能存在若干指向其他结点的链接,设为 (),则 ()=( ),( ),( )式中:( )表示存在从 指向 的超链接。(5)链接关系集L(N):表示整个超文本信息集中的链接关系集合, = 由此,可以将超文本信息集进一步表示成为 图1 超文本结构化转换与全文检索的实现(6) 措词提取操作 :表示从 对应的HTML文件中提取其中有关检索的措词,如主题词、关键字、题名、作者甚至正文等信息,记作 , 式中表示主页的措词(7) 措词集T:表示超文本信息集H 的所有措词的集合,表示为 措诃关联: ,若 ,且 ,则表示措词t与网页,相关即用户以措词t检索时,网页将是检索结果之一。设集合P=HTML文件,E表示超文本链接关系集,U=HTML文件对应的HTML,则,且 式中表示浏览器使用URL地址u“获取Web服务器上的网页文件P的操作超文本检索引擎是指对于用户提交的查询条件,能够根据某种匹配规则,自动检索出与条件要求相吻合的所有超文本文件,并且将检索结果返回给用户。一般地,在超文本信息集中,有多个网页和措词t相关联,记式中: 表示以措词t检索超文本信息集的结果; 表示措词获取函数的逆函数,即检索函数超文本检索引擎是在对超文本信息集H 进行链接关系分析和措词提取的基础上通过以下操作实现的 , , 即当Web用户通过浏览器给出措词t(即设定条件),检索引擎将根据匹配规则从超文本信息集中检索出所有与之吻合的网页,同时获取这些网页的地址。 超文本检索的实现(1)网页措词提取 通过机器人程序定期自动遍历指定的Internet站点以获取相关的Web页面,并存储于本地机器中再通过“超文本结构化分析与转换程序”建立超文本数据库,并从超文本中获取各种措词,存人数据库,作为超文本数据库的检索信息其实现过程如图2所示图2 超文本收集与结构化转化流程(2)查询条件的构造由系统根据特征信息生成查询条件的结构框架,用户键人相应的措词由系统自动生成查询条件(如SQL语句)提交给超文本检索引擎。(3)匹配规则或检索算法一般地匹配包括精确匹配、模糊匹配和智能匹配3种设用户对措词C提出检索条件p,措词C的值域为,则精确匹配成功可表示为, 使得,而模糊匹配成功则可表示为,使得,智能匹配是指利用语义关联等方法,对用户的一个检索条件,能检索出多个与措词近义的信息其形式化描述如下:设,表示所有与措词相近的措词集 ,则智能匹配成功可,使得 (4)查询结果的生成与处理将查询结果以列表或报告的形式显示,并向用户提供电子邮件转发、打印、保存等功。(5)逐级查询与结果复用web检索是基于http协议,但该协议的无记忆性使得Web服务器无法区分两次检索请求之间的相互关系,同一用户的逐级检索请求被看成没有联系的两次请求在一段时间内记录用户的会话过程,根据用户的特征信息为用户建立单独的存储空间,存放两次检索的中间结果。对于用户k提交的特定检索请求,检索引擎将进行以下处理(1)对于新检索请求,从信息全集空间内检索出结果,返回给用户,同时建立该用户本次检索的临时空间。(2)对于逐级检索请求,将检索目标指引到对应的临时空间内,在缩小的空间内检索,结果返回,同时用本次结果选代上次的临时空间。上述处理可形式化描述如下,设信息全集空间为,用户的某个检索 对应的临时空间为式中: 表示由全集空间生成的第1次的临时空间临时空间迭代算法可描述为 对于超时不用的临时空间,由监控程序负责释放。应用和结论基于上述模型及算法,设计实现了基于Web的全文检索引擎,该引擎在鲁迅图书馆数字化网络信息系统和中国文献保障体系(CALLS)西北地区文献中心-西安交通大学钱学森数字化图书馆建设中得到了实际应用在鲁迅图书馆建立了古桥、戏剧和黄酒等8个特色文化数据库在钱学森图书馆建立了钱学森生平事迹全文数据库和自动化学科文献数据库,记录数近l0万条。实际应用表明:基于Web的逐级全文检索引擎,在将非结构化的超文本转换成结构化的数据库,并建立相应的措词索引数据库的基础上,能够实现 基于主题、关键词、作者、日期、出处、自由词等多种 方式的信息检索服务,并能实现条件复用,支持用户 进行逐级检索,实际应用是成功的.值得指出的是, 本文所提出的解决方案有较强的通用性,例如,可以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论