




已阅读5页,还剩62页未读, 继续免费阅读
(计算机应用技术专业论文)领域搜索引擎语义检索模型的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉理工大学硕士学位论文 摘要 面对网络上海量的信息,搜索引擎已经成为我们获取网络信息的主要入口。 目前的搜索引擎主要采用基于关键词的匹配来获取w e b 上的相关信息。但是, 一方面w e b 上信息的巨大数量及其丰富多样的特点使得采用该方式将得到大量 与需求无关的信息,另一方面,基于关键词匹配的检索无法对检索的语意充分 表达也造成了搜索引擎对用户查询需求的“误解”,进一步影响了使用搜索引擎查 询信息的准确率。 评价一个搜索引擎的两个指标是查全率( r e c a l l ) 和查准率( p r e c i s i o n ) 。而 对于当前的搜索引擎来说,面对网络中海量的信息,每一次搜索所返回的信息 量已经通常都会非常的巨大,但是返回信息与用户的期望之间的查准率却无法 尽如人意。本文从可以提高这两个指标为目标,以可以提高查找信息准备的聚 焦搜索为基础,设计和实现了一个完整的语意检索模型。 首先,应用当前的聚焦爬虫、专业词库等技术,对信息有针对性的采集及 过滤,从而在一定程度保证了所采集信息相关度的相对集中。 然后,利用已采集信息中较为典型的数据作为分析的数据源,获取一定语 境之下词语同现的基本数据,构建同现二维表,并通过相应的处理来优化二维 关系表。 在进行信息的检索时,主要利用相关二维表所体现的词语之间的关系,从 而使搜索引擎具备一定的理解能力,从语义上进行信息的查询,提高搜索引擎 查询的准备度。 本文通过对a p a c h e 全文检索系统l u c e n e 源码的剖析和实践,理解l u c e n e 的系统组织结构、基本数据类型、索引内存结构以及索引数据库的文件结构; 在对l u c e n e 重要类u m l 类图进行分析后,深刻理解其索引过程以及索引方式, 掌握了索权重的控制和索引优化的方法与增量索引方法,实现了领域搜索引擎 的检索部分功能。 最后,本文通过以上述方法构建的系统进行性能分析,得到了一个较好的结 果。 关键词:搜索引擎,信息检索,聚焦搜索,词语同现 武汉理工大学硕士学位论文 a b s t r a c t t r a d i t i o n a lk e y w o r d - b a s e ds e a r c he n g i n e st h a tt r yt oc o l l e c ta n di n d e xa l lt h e w e bp a g e su s u a l l yr e t u r nm a n yr e s u l t st h a tu s e r sd o n tc a r eas o l u t i o nt ot h i sp r o b l e m i st oc o l l e c tt h er e l e v a n ti n f o r m a t i o nb yu s i n gm a c h i n el e a r n i n ga l g o r i t h ma n d i n t e r a c t i o nw i t hb s e r s t i l i si sc a l l e df o c u s e dc r a w l i n g i tc a nb eu s e dt oi m p r o v et h e r e l e v a n c ea n du pt od a t eo ft h eq u e r yr e s u l t s o nt h eo t h e rh a n d ,g e n e r a l - p u r p o s e s e a r c he n g i n e st a k el e s sc a r eo ft h er e l a t i o nb e t w e e nt h ew o r d sw h e r ec o - o e 圮u r r e n c e t os h o wt h em e a n , a n ds oc a n tk n o wt h en e e do fu s e rw e l l r e c a l la n dp r e c i s i o na r et w om a j o rg u i d e l i n e sf o re v a l u a t i n gt h ep e r f o r m a n c eo f s e a r c he n g i n e s i nt h i st h e s i s ,w es t u d yf o c u s e dc r a w l i n ga n dc 0 一o c o j , l t e n c ew o r d s t e c h n o l o g yt h a tc a l li m p r o v et h e s et w og u i d e l i n e s f i r s t l y , w eb u i l dt h ec o - o c c u r r e n c em a t r i xb yt y p i c a ld a t a s e c o n d l y , s e c o n d l y , t ot h ed i f f e r e n ti n p u tb yu s e r s ,w ec a np r o v i d et h ed i f f e r e n t s o l u t i o n st om a k em o r ep r e c i s er e s u l t f u l l t e x ti n d e xa n du s e rq u e r yi n t e r f a c ea r ea l s oi m p o r t a n tc o m p o n e n t si ns e a r c h e n g i n e i nt h i st h e s i sw es t u d yt h et h e o r yo fi n f o r m a t i o nr e t r i e v a l ,a n dd e s c r i b ea f u l l t e x ti n d e xs y s t e mt h a ts u p p o r tc h i n e s ew o r ds e p a r a t i o na n dd o c u m e n ta b s t r a c t g e n e r a t i o nb a s e do nl u c e n e w ea n a l y z et h es o u r c ec o d eo fl u c e n ei na p a c h e 觚l t e x ts e a r c hs y s t e m , a n d m a s t e rt h es y s t e ms t r u c t u r e ,t h eb a s ed a t at y p e , t h ei n d e xs t r u c t u r ei nm e m o r y , t h e s t r u c t u r eo fi n d e xf i l ei nl u c e n es y s t e m a f t e ra n a l y z e dt h eu m lc h a r to ft h e s i g n i f i c a n tc l a s si nl u c e n e ,w eu n d e r s t a n dt h ep r o c e s so fi n d e x i n ga n dt h em e a s u r eo f i n d e x i n ga n dm a s t e rt h em e a s u r e o f c o n t r o l l i n gi n d e xw e i g h ta n do p t i m i z i n gi n d e x f i n a l l y ,i nt h i st h e s i sw ei n t r o d u c et h ei n t e g r a t i o no fc r a w l e r , t e x tc l a s s i f i e ra n d f u 1 1 - t e x ti n d e x e r , s oa st oc o n s t r u c taf u 1 1s e a r c he n g i n e t m ss e a r c he n g i n ec a l lb e u s e df o rs t u d ya n dd e v e l o p m e n to f w e bm i n i n ga n ds e a r c h i n g k e yw o r d s :s e a r c he n g i n e ,i n f o r m a t i o nc r a w l i n g , c 0 一o c c b i t e n c ew o r d s ,s e m a n t e m e n t i i 独创性声明 本人声明,所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文巾不包含其他 人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 研究生签名: 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部内容, 可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 研究生签名:塑囝圣j 导师签名 泐,c 够 , 、 、, 武汉理工大学硕士学位论文 第1 章引言 i n t e r n e t 的一个重要功能就是实现资源的共享,然而,随着因特网的迅猛发 展、w e b 信息的增加,在w e b 巨大的信息量面前,用户要想得到自己所需要 的信息,就像大海捞针一样,搜索引擎的出现恰好解决了这一难题,它通过为 用户提供信息检索服务来帮助用户获得有效的信息。搜索引擎的出现和发展在 一定程度上满足人们需要的同时,也面临着更多的挑战。目前,如何使搜索引 擎具有智能,具有一定语义理解的能力,以提高搜索结果的准确性,成为计算 机工业界和学术界争相研究、开发的对象。 本章首先对目前搜索引擎发展的情况进行简单概述,之后,对传统搜索引擎 的特点与不足进行分析,并根据当前搜索引擎的发展趋势,提出本文构建领域 中基于词语共现的搜索引擎的方案。 1 1 搜索引擎发展现状 通过利用超文本和多媒本技术,w e b 成为了网络信息的主要平台,任何人都 可以方便地浏览、获取或者提供信息。仅仅十余年,互联网的发展速度、网络 规模、技术水平、用户数量、应用领域及其对社会经济发展、信息文化的传播 和交流、对政府管理方式等方方面面产生的影响,都足以令世人震惊。目前它 已经成为人们获取知识的主要手段。 根据c n n i c 的最新调查统计,中国已有2 1 亿的网络用户,w w w 站点l , 5 0 3 ,8 0 0 个【l 】。海量的网页在为人们提供包罗万象、无比丰富的信息资源的同 时,也向人们提出了如何快速从信息海洋中获取所需信息的挑战。 搜索引擎正是为了解决这个“迷航”问题而出现的技术。搜索引擎以一定的策 略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用 户提供检索服务,从而起到信息导航的目的。如今,搜索引擎已成为人们在互 联网上检索w e b 上相关信息的主要手段。据调查,访问搜索引擎已经成为8 8 的w e b 会话的第一步瞄j 。 随着技术的发展,从1 9 9 5 年问世以业,搜索引擎从第一代目录式单语种搜 索引擎,经历了第二代的机器人多语种搜索引擎,发展到现在第三代的混合式 武汉理工大学硕士学位论文 跨语言智能搜索引擎。在查询方面,已经从原来的基于浏览式搜索、关键语搜 索和全文搜索,逐步朝更贴近自然语言的智能化方向发展【3 1 。 1 2 搜索引擎的定义 搜索引擎f 4 】【5 】( s e a r c he n g i n e ) 实际是个专用的w w w 服务器,它拥有庞大 的索引数据库,收集了全世界成千上万个w w w 主页的文字信息。为了收集这 些信息,有个自动搜索程序( r o b o r t 、s p i d e r 、c r a w l e r 等) 沿着w w w 的超链 接,经常搜索整个w w w 上的主页,然后为这些主页的文字建立索引并送回集 中管理的索引数据库,索引信息包括文档的w w w 地址,每个文档单字出现的 频率、位置等。 1 3 搜索引擎的分类 理想的信息检索要求快速、准确、全面。人们为了实现这些要求,开发了多 种技术,传统搜索技术大致可分为3 类:全文检索( t e x t r e t r i e v a l ) 、数据检索( d a t a r e t r i e v a l ) 和主题检索( s u b j e c tr e t r i e v a l ) 【6 】【7 】1 8 】。 ( 1 ) 全文检索 把用户查询请求以关键词的形式与全文中的每一个词进行比较,而不考虑查 询请求与文档语义上的匹配。这种检索方式主要基于词频分析技术。比较有代 表性的是g o o g l e 和百度。这种方式因为只是针对文本的匹配,检出信息量大、 毋须人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进 行筛选。 ( 2 ) 数据检索 主要针对结构化信息系统,查询要求和数据都遵循一定的格式,具有一定的 结构,允许对特定的字段检索,例如:疾病= “肝炎”。比较有代表性的是各种商 业数据库。数据检索依赖于编码的质量,检索花费大,检出的信息相对准确, 但容易漏检相关的数据,具有很大的局限性。 ( 3 ) 主题检索 以人工方式或半自动方式收集信息,对文档访问后,编写文档描述,将之添 加到合适的事先确定好的主题类别中。用户从提供的最基本的几个大类的入口, 一级一级地向下访问,即可得到较为满意的结果。基于主题分类进行检索,比 较有代表性的是ya l l o o 。主题检索的优点在于可以使原来不很明确的信息需求, 2 武汉理工大学硕士学位论文 随着层次类目列表提示从而变得逐渐清晰。缺点是检索花费的时间较长,对新 出现的概念没有适合的相关类目可用于检索。 这三种检索方式的查询都无法挖掘信息之间的内在联系,结果往往产生大量 毫无相关的信息,同时又可能丢失重要的信息。对于用户真正的检索要求,或 者难以用“关键词”忠实表达,或者由于不同的表达习惯、不同的学科领域对相同 的概念有不同的表达方式,这样都使得检索结果不能准确、全面地反映用户的 需求。 上述信息检索困难的实质在于传统信息检索技术缺乏知识处理能力和理解 能力。人们认识到必须将信息从目前基于关键词层面提高到基于知识( 可概念) 层面,从而提出了知识检索的概念。知识检索强调的是基于知识的、语义上的 匹配。目前知识检索,特别是面向w e b 信息的知识检索是信息检索研究的重点。 1 4 搜索引擎发展的趋势 为了解决w e b 信息检索中存在的各种问题,就需要搜索引擎更加智能化、 专业化,具体表现为使用户以自然语言进行查询,搜索引擎能很好的理解用户 的输入,并且根据已有信息有效的判断出用户的意图,同时又能对w e b 海量数 据中存在的信息和知识进行提取,找到最匹配的结果返回给用户,使得搜索引 擎更有效的满足用户的需求【9 】。 ( 1 ) 智能搜索 搜索引擎的智能化方向发展是毫无疑问的。智能搜索引擎是根据目前搜索引 擎的发展趋势,除提供传统的全网快速检索、相关度排序等功能外,还提供用 户角色登记、用户兴趣自动识别、内容的语义理解、定制化信息过滤和推送等 功能,为用户提供一个真正个性化、智能化的网络信息搜集工具。 智能搜索引擎利用神经网络、决策树、关联规则、范例推理、模糊聚类、粗 糙集、隐马尔科夫模型等技术实现分布式并行检索,以数据挖掘与知识实现为 主要手段,加上自然语言理解技术,对检索结果进行进一步的分析,滤掉与用 户需求不相关或弱相关的信息,从而提高系统性能和检索的精度与效果 【l o 】【l l 】【1 2 】【1 3 】。 ( 2 ) 领域搜索 万维网上信息的多样性及海量化,使搜索引擎的信息处理变得非常的复杂。 为了提高搜索引擎查找信息的效率,提高返回信息的准确度,目前人们提出了 领域搜索引擎( 专业搜索引擎) 的概念。 3 武汉理工大学硕士学位论文 领域搜索引擎所指的是搜索引擎在信息采集时只集中于某一领域中的信息, 由于信息内容集中,信息相关度较高,从而降低了搜索引擎在信息处理中的复 杂度,提高了搜索引擎返回信息的准确度【1 4 】。 领域搜索引擎的信息采集通常采用信息过滤的方式【1 5 】( 即爬虫在采集回数据 之后,由一过滤数据库对信息进行过滤,只保留该领域的数据信息) 或主题爬 虫的方式【1 6 1 ( 即爬虫在进行信息采集时,先对要采集的站点及其信息进行判断, 并将与该领域无关的信息放弃) 。 在清华大学校园网的范围内( w w w t s i n g h u a e d u c n 及其下二级域名) ,在“计 算机”主题上进行聚焦搜索。我们采用网页收获率( r a t eo fh a r v e s t i n gr e l e v a n t p a g e s ) 的概念来衡量实验结果,我们比较了使用聚焦策略和宽度优先策略两种 情况下的相关网页收获率,聚焦搜索策略采用n a i v eb a y e s 分类算法。实验从一 组相同的种子u r l 开始,图1 1 的曲线描述了这两种策略的效果。结果表明, 使用聚焦策略的爬行器其相关网页收获率可以稳定在一定的水平上,而宽度优 先搜索的收获率则迅速下降到接近o 【1 7 1 。 , 融t 6o fr e l a a n tp a 撇 图1 1w e b o b c r a w l e r 聚焦搜索实验结果 通过与特定领域相关知识的过滤,使得索引数据库中的信息更加集中,从 4 武汉理工大学硕士学位论文 而使信息的处理有效信更强,返回信息的准确率得以一定的提高。 1 5 搜索引擎中存在的问题 人们把搜索引擎发展中真正能提供给用户服务的系统分成了三代,第一代以 目录搜索引擎y a h o o 和a l t a v i s t a 为代表;第二代以g o o g l e 技术为代表的全文搜 索引擎:而第三代搜索引擎是指正在研究的,更加智能的未来搜索引擎1 1 3 1 。就目 前的搜索引擎而言,主要存在的不足有: ( 1 ) 搜索结果存在着大量的与用户需求信息不一致的现象 ( 2 ) 目前的搜索引擎主要采用关键词匹配的方式来进行信息的检索,割裂 了词语语境的理解,造成了对词语语义理解的不准确 ( 3 ) 搜索引擎中对多媒体( 图象和声音) 的搜索技术还仅停留于对这些文 档中文本识别的搜索,对文档的内容和情节还不能搜索 ( 4 ) 对搜索质量的好坏没有一个统一的评价,从另一个方面也促使了网络 中不量信息的传播。 ( 5 ) 现有的搜索引擎在信息获取方式上不是实时的,而是按照一定周期从 i n t e r n e t 网上抓取网页。然而i n t e m e t 网上的信息是在不断更新和变化的,搜索引 擎不能抓取到及时的网页常导致搜索结果中的链接常是无效的,或者内容是过 期的内容。 ( 6 ) 用户对信息的搜索往往是在个人知识领域中查找其相关的信息,而不 是要找其i n t e r n e t 上的所有相关的信息。然而现有搜索引擎是将i n t e m e t 网上的 所有网页按照一个符合常规的切分关键词的模式对网页进行处理,将其按类存 放在公用的数据库中,基于关键词的搜索引擎常把不是用户关心的信息返回给 了用户。 。 1 6 本文的主要研究内容 本文针对在网络大量信息中进行搜索中所关注的信息准确率的问题,在对国 内外搜索引擎的发展与现状进行研究和分析的基础上,基于开源项目l u c e n e 的 分析,通过词语同现构建语境来理解词语语意的原理,构建语义检索模型。 l u c e n e 是a p a c h e 软件基金会j a k a r t a 项目组的一个子项目,并不是一个完整 5 武汉理工大学硕士学位论文 的全文索引系统,而是一个用j a v a 写的全文索引引擎工具包,它提供了多个a p i 函数和灵活的数据存储结构,可以方便嵌入到各种应用中实现针对应用的全文 索引,检索w 。 l u c e n e 作为一个优秀的全文检索引擎,其系统结构具有强烈的面向对象特 征。首先是定义了一个与平台无关的索引文件格式,其次通过抽象将系统的核 心组成部分设计为抽象类,具体的平台实现部分设计一为抽象类的实现,此外 与具体平台相关的部分比如文件存储也封装为类,经过层层的面向对象式的处 理,最终达成了一个低耦合高效率,容易二次开发的检索引擎系统。 6 武汉理工大学硕士学位论文 第2 章系统架构分析与设计 目前,搜索引擎技术按信息标引的方式可以分为目录式搜索引擎、机器人搜 索引擎和混合式搜索引擎;按查询方式可分为浏览式搜索引擎、关键词搜索引 擎、全文搜索引擎、智能搜索引擎;按语种又可分为单语种搜索引擎、多语种 搜索引擎和跨语言搜索引擎等。本系统定位于使用机器人( r o b o t ) 爬行器、跨 语言的领域搜索引擎。 首先,常规搜索引擎的基本构架分为三大部分:搜索部分、数据处理部分和 查询部分【2 0 】【2 l 】f 翻。 搜索部分大致包括:爬行器( 搜索器) 、u r l 解析器、爬行控制器等模块; 数据处理部分包括:索引器( 标引器) 、索引数据库、检索器等模块;查询部分 则包括:用户接口、分析器和词典库等模块。 图2 1 为常规搜索引擎的基本构架,系统首先由爬行器即自动的收集程序收 集网页的内容;然后由索引器将收集回来的内容进行分析,建立一个索引;再 由查询器响应用户的检索请示,用户输入关键字后,搜索器要用这个检索词与 图2 1 传统搜索引擎基本结构 建立的索引器匹配,匹配后作相关性排序;最后通过界面将排序结果送给用户。 本模型的需求,要开发具有自然语言语义理解能力的搜索引擎,必须在传统 搜索引擎的结构上加以改造达到当用户输入时可以有效查找用户所需信息的目 的。 对此,本模型的基本思路是:一、根据爬行器所获信息进行分析,构建词语 同现矩阵;二、对用户的输入利用同现矩阵进行关键词添加;三、通过多词语 7 武汉理工大学硕士学位论文 境的实现来有效的返回与用户查找最匹配的内容。 2 1 搜索器 搜索器的功能是在互联网中漫游,发现和搜集信息。它常是一个计算机程序, 日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因 为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免 死链接和无效链接。按照搜集信息的策略,分为: 从一个起始url 集合开始,顺着这些url 中的超链( h y p e r l i n k ) ,以宽 度优先、深度优先或启发式等方式循环地在互联网中发现信息。 将w e b 空间按照域名、p 地址或国家域名划分,每个搜索器负责一个子空 间的穷尽搜索。 至于,搜索器的技术原理,可以把它们分成三大主要类型【1 5 1 :基于r o b o t 的搜索引擎、目录( d i r e c t o r , 也叫做c a t a l o g ) 和m e t a 搜索引擎。本系统采用的 是基于r o b o t 的搜索引擎并从一个起始u r l 集合开始搜集信息的策略 本系统的搜索器是一个利用r o b o t ( 也叫做s p i d e r 、w e bc r a w l e r 或w e b w a n d e r e r ) 的程序自动访问目标u r l ,提取其中的信息( 比如:网页) ,并根据网 页中的链接进一步提取其它网页,或转移到其它站点上。r o b o t 搜集的网页被加 入到搜索引擎的数据库中,供用户查询使用。r o b o t 从一个事先制定好的u r l s 列表中,r o b o t 访问了一个网页后,会对它进行分析,提取出新的u r l s ,将之 加入到访问列表中,如此递归地访问w e b 。 由于支持多种数据源,所以,系统定义的u r l 其实是一个抽象意义的u r l , 它可以是w e b t i p 地址、文件目录、新闻组服务器,也可以是数据库地址,甚至 是一个专用系统,如c r m 系统。 此外该搜索允许搜索的数据格式类型并没有限制,包括格式化的x m l 文档, 数据库表;半结构化的h t m l 文档;以及非结构化的n e w s g r o u p 文章、字处理 文档、多媒体二进制数据。 因此,系统定义了一个抽象的c r a w l e r 类,根据需要可以派生多种子类,如 f i l ec r a w l e r , h t t pc r a w l e r , n n t pc r a w l e r , d bc r a w l e r 和c u s t o m i z e dc r a w l e r 等,并且在搜索器和索引器之间,增加了一个中间层,称为预处理模块,该模 块的作用是针对每种不同类型的文档,调用与之对应文档转换器( c o n v e r t e r ) , 8 武汉理工大学硕士学位论文 将原始文档转换成一种统一的自定义的x m l 文件,以供索引器进一步加工。 搜索器的实现采用分布式、并行计算技术,以提高信息发现和更新的速度, 也就是说搜索器可运行在多台机器上,每台机器上可有多个查询器,同时进行, 互不干扰,提高效率。 2 2 索引器 索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文 档以及生成文档库的索引表。 索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如 作者名、u r l 、更新时间、编码、长度、链接流行度cl i n kp o p u l a r i t y ) 等等; 内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内 容索引项可以分为单索引项和多索引项( 或称短语索引项) 两种。单索引项对 于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符( 空格) ; 对于中文等连续书写的语言,必须进行词语的切分。 在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的 区分度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论 法和概率法。短语索引项的提取方法有统计法、概率法和语言学法。索引表一 般使用某种形式的倒排表( i n v e r s i o nl i s t ) ,即由索引项查找相应的文档。索引 表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相 邻或接近关系( p r o x i m i t y ) 。 索引器可以使用集合式索引算法或分布式索引算法。当数据量很大时,必须 实现即时索引( i n s t a n ti n d e x i n g ) ,否则不能够跟上信息时急剧增加的速度。索 引算法对索引器的性能( 如大规模峰值查询时的响应速度) 有很在影响。搜索 引擎的有效性在很大程度上取决于索引的质量。 2 3 检索器 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询 的相关度评价,对将要输出的结果进行排序,并实现某用户相关性反馈机制。 检索器常用的信息检索模型有集合模型、代数模型、概率模型和混合模型四种。 9 武汉理工大学硕士学位论文 本系统的检索系统是基于集合模型的基础上,通过对数据分析,获取同现矩 阵。进而产生相关检索的词的语境,达到有效返回查询值的效果。 2 4 用户接口 用户接口为用户提供方便的查询接口,用户不需对复杂的搜索引擎的语法进 行研究,只需以关键词的形式将查询需求输入。系统将根据用户的输入,进行 同现矩阵的查找,添加相应的同现词,然后在数据库中进行查找,将结果返回。 2 5 自然语言检索 自然语言处理是研究如何能让计算机理解并生成人们日常所使用的( 如汉 语、英语) 语言,使得计算机懂得自然语言的含义。自然语方处理研究在电子 计算机问世之初就开始了,并于5 0 年代初开展了机器翻译试验。到了6 0 年代 乔姆斯基( c h o m s k y ) 的转换生成语法得到广泛的认可,生成语法的核心是知识 结构规则,分析句子结构的过程就是利用规则自项向下或自底向上的句法树生 成过程。 由于认识到生成语法缺少表示语义知识的手段,在7 0 年代随着认知科学的 兴盛,研究者又相继提出了语义网络、c d 理论、格框架等语义表示理论。这些 语法和语义理论经过各自的发展,逐渐开始趋于相互结合。到8 0 年代一批新的 语法理论脱颖而出,具有代表性的有词汇功能语法( l f g ) 、功能合一语法( f u g ) 和广义短语结构语法( g p s g ) 等【2 3 】【2 4 】f 2 5 1 。 这些基于规则的分析方法可以称之为自然语言处理中的“理性主义”( 规则方 法) ,其基本概念是:“有限语方规则覆盖无限语言现象”,现有的手段基本上掌 握了单个句子的分析技术,但还很难覆盖全面的语言现象,特别是对于整个段 落或篇章的理解还无从下手。 与“理想主义”相对的是“经验主义”的研究思路,主要是指针对大规模语料库 的研究。语料库是大量文本的集合,采集到以后未经处理的生语料,通过词法、 句法、语义等多层次的加工才能使知识获取成为可能。加工的方式就是在语料 中标注各种记号,标注的内容包括每个词的词性、语义项、短语结构、句型和 句间关系等。随着标注程度的加深语料库逐渐熟化,成为一个分布的、统计意 1 0 武汉理工大学硕士学位论文 义上的知识源。利用这个知识源可以进行许多语言分析工作如根据从已标注语 料中总结出的频度规律可以给新文本逐词标词性,划分句子成分等。 在本文中,采用的信息处理思路即首先利用典型站点作为信息处理的基础, 通过对典型数据进行分析,来获得数据同现的矩阵,基于同现矩阵进而对用户 输入进行同现词添加,提高用户查询的准确性。 2 6 运行机制 搜索引擎有多种运行机制,通常可以分为以下三种: 1 ) 集中式搜索引擎【2 6 1 通常由三部分组成:客户端、数据库、获取网络信息的r o b o t ,客户端查询 数据库,r o b o t 则帮助扩充和更新数据库。这是一个独立的单结构搜索引擎。 2 ) 多体搜索引擎唧 这是一种建立于各种集中式搜索引擎之上的网络信息搜索工具,它根据用户 的查询要求,启动多个集中式搜索引擎查询用户需要的信息,并对所有返回结 果进行核查、整理、综合,然后返回给用户。它是一个由不同独立分支组成的 系统。 3 ) 代理( a g e n t ) 搜索引擎【2 8 l 在收到用户提出的查询请求后,先在本地数据库内搜索;如果找不到用户需 要的信息,则再向某一个集中式的搜索引擎发出请求,得到查询结果后,将结 果再返回给用户的同时存入本地数据库以备下一次查询。 在本系统中,对搜索引擎运行机制的设计思想的核心是通过合理的结构与运 行机制使系统性能和服务质量达到一定的水平。根据网络信息搜索的特点和网 络现状,并充分考虑了搜索引擎的发展趋势,提出了以下设计准则: 4 ) 采用分布式体系结构 由于现有的搜索引擎系统大都采取集中式结构,但在运行中普遍面l 临同一类 问题,如:不能合理地利用网络带宽,既要为大量用户提供查询服务,又要随 时对大量的数据进行更新,这将形成网络瓶颈。此外所有用户查询一个中心数 据库会给系统带来很大负担,集中式系统还存在安全性、可靠性的问题。 为了解决以上问题,选用分布式的系统结构,各个节点拥有自己的子系统 ( i n s t a n c e ) 。每个子系统既可以是一个内容准备系统,负责信息,建立索引,也 武汉理工大学硕士学位论文 可以是查询系统供用户查询,当然也可以两者并存,查询和数据准备系统处于 同一节点上【2 9 1 。 按照设计,各个节点,负责查询号本地信息,各子系统之间可以相互协作, 构成分布式的搜索引擎系统。这样的设计具有合理的带宽分配和系统负载分配, 各个区间的用户都将具有较快的查询速度,而且系统的安全性和可靠性也将更 有保证。 ( 1 ) 数据集小型化 现在大多数著名的搜索引擎系统,大我向着大而全的方向发展,力争将自己 的搜索范围扩大到整个i n t e m e t ,然而由于数据库规模庞大,为了提高查询速度 往往牺牲了信息质量,而且这样的系统需要性能极高的硬件环境。对于当前的 用户而言,最在意的是查询的查准率,而不仅仅是召回率。也就是说,我们并 不一定需要得到所有符合查询要求的信息。对于一次查询,大型搜索引擎一般 会得到成千上万条符合要求的信息,而人们只会浏览其中的几十条。因此对于 用户来说,能够返回成千上万条信息的搜索引擎与只能返回几百条信息的的搜 索引擎并没有什么区别,提高信息质量才是关键。基于以上几点考虑,提出了 数据集小型化、细粒度的原则。 将每个节点的数据集分类,针对不同主题的数据由不同节点负责,而每个节 点内部,也将数据按照使用频度划分为多个子区域,用户经常查询的信息、很 少查询的信息和几乎不查询的过时信息。在满足绝大多数用户查询要求的前提 下,优先查询使用频度最高的数据子集并限制数据库的规模。这样可以提高查 询的速度并且不会系统负担太重。对于一些本地数据库不能满足的查询要求, 系统将求助于其他搜索引擎获取查询结果。 ( 2 ) 有选择地协作 各个节点的搜索引擎之间如何协作是分布式体系结构系统设计时需要解决 的重要问题。这个问题主要包括两个具体问题:一、本地搜索引擎何时需要其 他搜索引擎的帮助;二、需要其他搜索引擎帮助时,向哪些搜索引擎发出帮助 请求。很直观地,希望当本地搜索引擎无法满足用户需求时,系统将自动地求 助于其他搜索引擎,而希望系统能够选择最有可能满足用户查询请示的搜索引 擎,向它们发出请求。这样才能建立各搜索引擎之间有效的合作。 1 2 武汉理工大学硕士学位论文 第3 章词语共现检索的构建 目前人们在搜索引擎的使用过程中,关注点已经从搜索的召回率转为准确率 上。现在的主要搜索引擎,针对用户的查询,常常返回上万条甚至上百万条检 索结果,而对于用户,如此多的返回结果不可能一一浏览,而用户为了获取自 己所需的信息,不得不花费大量的时间在搜索引擎返回的结果中进行二次查找。 而在查询过程中,用户使用的查询词太单一是结果不准确的一个重要原因,据 统计,约有6 0 的用户在进行查询时只使用一个查询关键词【3 0 】。 通过添加查询条件,可以在一定程度上提高查询的准确率【3 1 1 ,但是,合适的 附加查询条件的选择是一个难点;也可以通过相关类别的专业知识来对需处理 的问题进行指导性划分 3 2 1 ,但由于网络内容量太大,内容太杂,使本方案处理 结果也不很理想。 在自然语言处理中,如何识别词语的歧义是一个难点,为了有效的进行词语 含义的识别,提出了基于词语同现的排歧方法及相应实现系统。通过词语同现 有效的进行语意表达的特点,来进行语意识别 3 3 1 1 3 4 3 5 11 3 6 1 3 7 1 。 本文将通过对典型网站数据进行分析( 中国教科研网,w w e d u c n ) 来获得 在领域之中词语同现的矩阵,并基于此矩阵,将为用户的输入进行相关的处理, 从而来提高查询的准确率。下面我们将介绍词语同现矩阵的基本实现算法: 30 1 关联矩阵的建立 通过数据集的输入,对输入数据进行处理,以词库为指导将输入页面切分为 一系列关键词,词w i 与词w j 在同一页面出现,则相应矩阵中的值加l ,这 样,我们就可以得到一个词语同现的矩阵。其算法如下: 算法1 同现矩阵的生成 p o i n t _ p a g e = f i r s t _ p a g e ( t e s t - p a g es e o 从网页痒中获取页面 多e n ( p o i n tp a g e 【咒功 w o r d _ l i s t = s p l i t ( p a g e ) ; 1 3 武汉理工大学硕士学位论文 w h e n ( w o r d _ l i s t n u l l ) x f ( w o r d _ f & w o r d ) l v i j j j j r + : i n d e x ( n i l j , p a g e ) ;基于商现关联n q 为页面建立索引 p o i n t _ p a g e = n e x t ( t e s t - p a g es e o ; 3 2 同现关联的检验 在同一页面中出现的词汇一般具有一定的语义相关度,词语之间存在一定的 语义关联【3 6 1 。但在同现的词语之中,也存在一些偶然情况,这些词语的同现的 特征是出现机率很低,并不具有必然的语义联系,因此,可以通过检验,将不 稳定的词语同现的值删除。在此,我们通过设定一个边界值来对关联进行检验。 算法如下所示: 算法2 词与词之间关联值有效性的检验 伤矿:掣 n 【i 】【j 】 l f ( ! c o n y 囝) t h e n n 嘞m = o :翡 l 除不稳定词语关联的值 d e l e t ei n d e x ( n i j , p a g e ) ;黯除基于不稳定关联值所建立的索引 注:o 值是我们为了检验关联可靠性所设立的边疆值 3 3 主题词的识别 在语义的表达中,同现的词语有着不同的重要性。有一些词汇起着核心的 标识作用3 7 】【3 8 】,它们在语义的表达中起着重要的作用,而且我们可以通过词语 之间的关联值的判断,识别出相应语义的主题词。算法如下所示: 1 4 武汉理工大学硕士学位论文 算法3 主题词的识别 i n i j * w e i g h t j = l 1 n i 】d r w e i g h t i = l j = l s u p 是w o m t 的司信度w e i g h t 显示了在页面的不同位置( 如标题、关键字、 主体内容、链接文字) 。该词所具有的不同权重 i fs u p o t h e n c o r e _ w o r d i = l : 注;0 是我们为7 检验该词是否是主题词而设定的边界值 3 4 基于词语同现的语义搜索引擎模型的应用理论分析 下面,我们针对搜索引擎在日常使用中的不同应用,对本模型进行理论上 的探讨 ( 1 ) 单一词汇的查询 据 2 2 】表明的数据,6 0 的搜索引擎的查询是单一词汇的查询。由于单一词 汇很难表达充分的语义,从而导致了用户所获数据内容的不准确。例如,用户 想从i n t e r n e t 上查找一些关于如何制作牛肉的菜谱,我们在百度中输入关键词“牛 肉”,所得到的却是大量牛肉产品的信息。 为了提高查询的准确率,可为查询的关键词添加适当的修饰词以提高搜索 要求的明确度,也有研究在这方面做了一定的努力f 2 3 】,但恰当的修饰词的选择 是一件很困难的事情。 在本模型中,我们通过以所描述的算法,选择出了相应一系列的主题词, 并通过其生成的过程可以保证主题词与用户输入的关键词之间存在着一定的语 义联系,所以我们可以通过为查询关键词添加适当主题词的方法来加强用户查 询的语义,从而提高返回的信息的精确率。例如,我们希望查找的是关于“牛肉” 的菜谱,我们输入查询的关键词“牛肉”,系统根据当前的语义,添加关键字“菜 谱”、“疯牛病”等信息,搜索引擎在索引库中查找与“牛肉一菜谱”、“牛肉疯牛 病”等相匹配的信息,并分类返回给用户,这样我们就可以从得到的关于“牛肉” 1 5 武汉理工大学硕士学位论文 各类信息中先分类来浏览,将我们不感兴趣的,与“牛肉”菜谱无关的信息掉过, 从而有效的实现了信息的过滤,快速的收到我们所需要的信息。 ( 2 ) 多词的查询 在许多情况下,用户也会向搜索引擎输入多个关键词,通过多个关键词来明 确查询的目的。也即,期望搜索引擎在多个词语之间使用“与”运算来建立与多个 词语相关联的查询。而目前的通用搜索引擎( 如百度,g o o g l e 等) ,在处理多词 输入的查询时,明显采用的是“或”运算,在返回的查询信息中不仅包含了含有所 输入多个词汇的数据,更多的是含有其中某几个词汇的数据,从而使返回的信 息量虽大,但准确率很低,用户不得不在大量返回的信息中进行二次搜索。例 如,当前我们向百度中输入“软件”、“测评”两个关键字,百度的返回信息中主要 是一系列关于“软件”的信息,然后是一些关于“人力资源测评”的信息,而我们所 期望得到的关于软件测评的信息却混杂在这些信息之中,我们必须在返回信息 中进行二次查询来获得我们所要的信息,不仅费时,也费不少精力。 而事实上,通过查询时多词的输入,用户欲查询信息的语义已经表达的相对 明确,在处理该类查询时,充分利用多词之间的语义联系,可使查找返回的信 息准确。仍以“软件”、“测评”为例,在用户输入查询时,搜索引擎查找只与两词 同现关系相关联的数据并返回,这样可以充分屏蔽无关的信息,从而可以准确 反映用户查询语义,提高返回数据的准确度,提高了搜索引擎查询的效率。 ( 3 ) 长句查询 由于目前的通用搜索引擎都是基于关键词的查询,对于用户输入的长句,通 常在词库中没有相应的数据与之匹配( 有少数与热门问题相关的内容除外) 。通 用搜索引擎常采用的办法是将长句切分为着干关键词,然后用类似多词查询的 方法来进行查询( 如,我们输入“山西省各地市人均收入情况”到百度中,会得到 关于“山西省”的一些信息,关于“人均收入”的信息) ,信息返回量大( 上例共返 回6 5 0 0 篇相关内容) ,却没有用户所要的信息。为了更好的理解用户输入的语 义,应该充分利用长句中关键词之间的强语义,通过词语同现,将相应的数据 返回给用户。可以达到理解语义,提高返回信息准确率的效果。 仍以上例为例,我们通过对词语同现矩阵,在网络中只查找与关键字“山西 省”、“各地市”、“人均收入”几个关键字共同相关连的信息,将无关信息进行过 滤,最后仅得到1 3 2 篇与我们所要信j 息有关的页面。 1 6 武汉理工大学硕士学位论
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论