




已阅读5页,还剩70页未读, 继续免费阅读
(计算机应用技术专业论文)智能搜索引擎关键技术研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨工程大学硕士学位论文 摘要 搜索引擎作为互联网上最主要的信息搜索工具,在各个领域都已得到广 泛应用。然而,由于网络信息量迅猛增加和网络信息组织的无序性,传统搜 索引擎已经无法满足人们对信息服务个性化、智能化的需求。针对以上问题, 本文提出了一个智能搜索引擎的框架结构并对其中涉及的若干问题进行了详 细的阐述。 首先,本文介绍了该智能搜索引擎的搜索子系统,搜索子系统可以完成 对w w w 网络资源、b b s 网络资源、n e w s g r o u p 网络资源的搜索,同时也支 持智能元搜索。其中对于b b s 网络资源的搜索在现有的搜索引擎中还很少 见,这是对该领域的一次有益的探索。由于该搜索子系统的搜索速度快、范 围广,已基本能满足用户对信息检索快速、全面的要求。 接下来,本文介绍了一种基于语义网络的概念检索的实现方案,从而使 本搜索引擎实现了概念层次的检索,突破了关键词检索局限于形式的固有缺 陷。 最后介绍了一种我们提出的基于语句权重和遗传算法的文件摘要方法, 该方法从本质上说也是一种基于文件集的摘要方法。实验结果表明,该摘要 方法简单实用,基本上能够满足搜索引擎中对于网页文本的摘要需求。 关键词:搜索引擎;元搜索;概念检索;语义网络:自动文摘 哈尔滨工程大学硕士学位论文 a b s t r a c t a sam a l nk i n do fm e t h o dt or e t r i e v ei n f o r m a t i o no ni n t e r a c t ,s e a r c he n g i n e h a sb e e nu s e di n m a n yf i e l d s b u tt h e t r a d i t i o n a ls e a r c h e n g i n ec a n n o tm e e t p e o p l e sd e m a n d so ni n t e l l i g e n ta n dp e r s o n a l i z e di n f o r m a t i o ns e r v i c e 。w et r yt o d e v e l o p as y s t e mf r a m e w o r ko f i n t e l l i g e n ts e a r c he n g i n et os o l v et h e s ep r o b l e m s , a tt h es a m et i m es o m e p r o b l e m s i n v o l v e da r e e x p o u n d e d f i r s t ,t h ep a p e rp r o v i d e sa l lo v e r v i e wo ft h i si n t e l l i g e n ts e a r c he n g i n e s s e a r c h i n gs u b s y s t e m ,a n d w i t ham e t a - s e a r c hm o d u l ei n s i d et h e s e a r c h i n g s u b - s y s t e mc a r ls e a r c ho nw w w ,b b s a n d n e w s g r o u p a n ds e a r c h i n go nb b s , w h i c hi sn o tac o m m o nt e c h n i q u et o d a y ,i sah e l p f u le x p e r i m e n ti n t h i sf i e l d b e c a u s eo ft h es e a r c h i n gs u b - s y s t e m sb e t t e rp e r f o r m a n c eo ns e a r c h ,i tc a l lm e e t u s e r s d e m a n d so ns e a r c h i n gf a s t e ra n dw i d e r s e c o n d ,t h i sp a p e rf o c u s e so na na p p r o a c ho fc o n c e p t - b a s e di n f o r m a t i o n r e t r i e v a l s y s t e mw h i c hi s b a s e do ns e m a n t i cl i n g u i s t i cn e t w o r ko fc o n c e p t s c o n c e p t b a s e di n f o r m a t i o nr e t r i e v a l i ss e 鑫f c hf o fi n f o r m a t i o no b j e c t sb a s e do n t h e i rm e a n i n gr a t h e rt h a no nt h ep r e s e n c eo f t h ek e y w o r d si nt h eo b j e c t s oi ti sa n e wa n d p r o m i s i n gw a y o f i m p r o v i n gs e a r c h o nt h ew e b f i n a l l y , w ep r o p o s ea t e x ts u m m a r i z a t i o nm e t h o dw h i c hi sb a s e do n w e i g h t o f s e n t e n c e sa n dg e n e t i ca l g o r i t h m , a n di t i sa l s oac o r p u s b a s e d 弩p m a e h ,t h e e x p e r i m e n t a lr e s u l t si n d i c a t et h a tt h i sm e t h o d i sg o o de n o u g ht os u m m a r i z et e x t o f t h ew e b p a g e s k e yw o r d s :s e a r c he n g i n e ;m e t as e a r c h ;c o n c e p t - b a s e d i n f o r m a t i o nr e t r i e v a l ; s e m a n t i cn e t w o r ko f c o n c e p t s ;a u t o m a t e dt e x ts u m m a r i z a t i o n 跨承滨工程大学颈学位论文 第1 章绪论 1 1 课题的背景及主要任务 。 漂麓豹意义 面向i n t e r n e t 的信息获取与处理技术是当前计薄机科学与技术领域急 需研究的课题。智能搜索引擎技术是基于目前i n t e r n e t 上信息的无组织、异 捻、分匆蠢动悫夔特点提爨瓣,弱于解凌售怠捡索中“售怠造载”琴瑟“资源 迷向”等问题,实现i n t e r n e t 信息个性化主动服务。该技术是一种集人工智 能、计算机网络、数据库殿数据挖掘等技术于一体的满新技术,悬计算机科 学与技术和德怠科学捃结合的翦沿课题,具有兹瞻性釉到薪性,既有重要的 学术价值,又有很强的实际应用背景和事圭会经济效益。 1 1 2 课题来源 本文瑟戮究豹课题来源予黑龙江省黪年基金项强。该误题的慧传强标是 在i n t e r n e t 传统信意检索技术的基础上,采用人工餐能的理论和方法,提出 个能快速、准确地从浩瀚的信息资源中挖掘出有价值的信息并烹幼送达客 户的智能化i n t e r n e t 信怠服务体系结构模型,并解决这一模型串搿涉及到的 数箍采集与鲶踵、售怠挖灏及个淫往圭动l 菱务等关键技术蘑题,最终建立馥 电子商务、涉密信息检查等为应用背景的试验模型。 1 1 ,3 课题主要研究内容及关键技术 ( 1 ) 智麓羧岽雩 擎体系缡构 研究主动搜索与元搜索的结合,信息搜索与信息过滤的结合,用户个性 化、智能化服务与传统搜索引擎结合,翻步完成智能化信息服务系统的系统 设诗。 : ( 2 ) 信息挖掘 i n t e r n e t 信息挖掘是数据挖掘技术程网络信息处理中的应用。信息挖掘 冶暴滨工程丈警疆学往竣文 ;i i _ i ;i i i _ _ 目i i _ _ _ i ii i i i i , - 目i l _ i 一 要能够从用户以样本形式给定的复杂檬糊目标中提墩出目标信息的特征,然 后根据目标特征在i n t e r n e t 上进行有鞠的地搜索,将得到的文档提交用户。 要着重研究: ,麟标表示和特征提取,即如何以一定的特征项来代表疆标信息。 特征匹配,即用户目标与求知文档的相关度确定。 3 ) 个蚀化主动信息服务 个性化主动强务要栽够不錾获取麓户静兴趣主题,发凌璃户测甍模式, 并监视i n t e r n e t 上信息赞源的修改模式,以发现新的相关信息,主动提交给 用户。为此嚣研究: 。矮户模墼蕊慈立,嚣骚突逶避撬器学习采获缮翅户兴趣主莲移震 户浏览模式的方法。 研究信息服务与用户要求相适应的方法。 磺究主动信息缀务技术。 1 2 搜索引擎技术的发展现状 2 1 搜索引擎的现状 经过了雾年的发展之后,现在的搜索引擎功能越来越强大,提供的服务 也越来越全鬻,惑豹来巍域在豹攫索g l 擎主要有以下凡秘绩况。 ( 1 ) 目录型和检索型的援索g | 擎相互缩合 由于目泶型和检索型的搜索引擎有器自的优点和缺点,目前它们谁也无 法完全取代谁,于是很多搜索站点都周h 于提供这两静类型的服务。例如y a h o o 蔗磊录垄羧索;l 擎薛代浚,毽圈露它氇提供墓于关键逶懿检索服务;瑟 i n f o s e e k 则主要是一个检索型的搜索引擎,但它同时也建立了一个由人工编 辑的小型目录。 ( 2 ) 多群化秘个瞧纯豹黢努 现在绝大多数搜索引擎都提供多样化的服务,敷吸弓l 更多的用户,商、韭 搜索引擎尤麒注重这一点。以y a h o o 为例,用户可以从它的首页上雀着新闻、 念融证券傣慰、天气预报、浏览黄页,霹以进行网上购物、拍卖、找人,或 2 哈尔滨工程大学硕士学位论文 者使用免费e - m a i l 和网上寻呼等服务。 近期许多搜索引擎己开始提供个性化的服务,例如y a h o o 的“m yy a h o o ”、 i n f o s e e k 的“p e r s o n a l i z e ds t a r tp a g e ”、l y c o s 的“m yl y c o s ”等,它们 允许用户为自己定制起始页面,并选择感兴趣的内容和经常使用的服务放在 该页面上。 ( 3 ) 强大的查询功能 与最早的搜索引擎相比,现在的搜索引擎在查询功能方面已有了很大的 改进。除了简单的a n d 、o r 和n o t 逻辑外,不少搜索引擎还支持相似查询, 例如a l t a v i s t a 、n o r t h e r nl i g h t 、l y c o s 等支持短语查询,a l t a v i s t a 的高 级搜索功能支持n e a r 逻辑等。域搜索也是一项很实用的功能,它允许用户把 查询范围限制在网页的某个域中,例如标题、u r l 、图像标记或链接等, a i t a v i s t a 、n o r t h e r nl i g h t 和i n f o s e e k 等搜索引擎都支持对网页的不同域 进行搜索。 1 2 2 搜索引擎技术的发展趋势 搜索引擎技术的发展面临着很多难题:比如说,如何跟上i n t e r n e t 的发 展速度,如何才能提供更加方便易用的搜索服务,如何才能为用户提供更加 精确的查询结果等等。总的看来,搜索引擎技术的未来发展趋势将主要体现 在以下几个方面: ( 1 ) 人机界面交互技术 人机界面交互技术的不同往往使得搜索引擎表现出不同的特色。当前搜 索引擎涉及的人机界面交互技术主要有四类:搜索请求提交技术、搜索结果 表现技术、搜索向导技术、搜索行为分析技术。搜索请求提交技术中有几个 很有用的技术,包括多语言查询技术、编码转换技术、模糊语义查询、精确 语义查询以及采用自然语言的搜索请求提交界面。搜索结果表现技术包括搜 索结果的准确度及相关度、搜索结果的母语评价等。搜索向导技术则纯粹是 网站设计上的界面技术,它通过具有亲和力、易用型的界面和随时的帮助来 方便互联网用户的搜索。搜索行为分析技术的核心是跟踪分析用户的搜索行 为,然后充分地利用这些信息来提高用户的搜索效率。搜索行为分析技术提 高搜索效率的途径主要有两种:群体行为分析和个性化搜索。 哈尔滨j 程大学硕士学位论文 ( 2 ) 关联式的综合搜索 以往的搜索经验表明,很多人都遇到过在甲网站找图片,到乙网站找新 闻,再到丙网站找股票资讯的情况,这十分麻烦且浪费时间。那为何不考虑 将这些图片、新闻、股票等等各种有关联的信息整合在同一界面,让互联网 用户一次查询,全部满足呢? 所谓关联式综合搜索,就是一种一站式的综合 搜索服务,它使得互联网用户在搜索时只需输入一次查询目标,即可在同一 界面得到各种有关联的查询结果。这项服务的关键在于有架构在x m l 基础上 的整合资讯平台。 ( 3 ) 更精确的搜索 搜索引擎技术本身一个最重要的发展方向是提供更精确的搜索。要想大 幅度地提高搜索引擎的效率和搜索结果准确度,应考虑这样几个方向:智能 化搜索、个性化搜索、结构化搜索、垂直化搜索、本土化搜索等。 智能化搜索。准确的搜索应建立在对收录信息和搜索请求的理解之 上,也就是说,必须处理语义信息。显然,基于自然语自理解技术的搜索引 擎,由于可以同用户使用自然语言交谈,并深刻理解用户的搜索请求,则查 询的结果也更加准确。 个陛化搜索。提高搜索精确度的另个途径是提供个性化的搜索,也 就是将搜索建立在个性化的搜索环境之下,通过对用户的不断了解、分析, 使得个性化搜索更符合每个用户的需求,而不仅仅是准确。 结构化搜索。所谓结构化搜索,是指充分利用x m l 等技术使信息结构 化,同时使查询结构化,从而使搜索的准确度大大提高。 垂直化专业领域搜索。由于社会分工的加大,互联网用户从事的职业 有很大不同,不同互联网用户对信息搜索也往往有自己的专业要求。比如信 息技术类从业人员最希望有面向信息技术的专业搜索引擎,金融证券从业人 员则希望使用金融证券类的搜索引擎。从赛迪调查结果看:一半互联网用户 认为目前搜索引擎死链接太多,六成左右的互联网用户认为面向某领域的搜 索引擎非常或比较重要,四成以上的互联网用户认为目前的搜索引擎搜索不 相关信息太多。而专业垂直引擎可解决以上问题,它只针对某领域,可保证 此领域信息的收录齐全与及时更新。 专业化的搜索引擎在提供专业信息方面有着大型综合引擎无法比拟的优 4 晗苯滨工茬大学颈士学璧论文 势。专业搜索引擎和专门信息搜索引擎所采用的基本技术和综合引擎一样, 而且基本上都是成熟的技术( 某些专门信息搜索引擎可能还需要一些特殊技 零) ,它魍约发震没毒攫零簿褥,强对正簿合了互联掰发震熬一个戆势;互联 网将更专业化、分工更细。 本土化的搜索。世界上许多著名的搜索引擎都在美国,他们以英语为 基础,完全按炮们的思维方式和观点搜集帮检索资料,这对于全球不同国家 静露户寒谖嚣然是不适合熬。各莺貔文纯传统、愿缭方式帮生活习镤不露, 在对网站内容的搜索要求上也就存在差弹。搜索结果臻符合当地用户的要求, 搜索引擎就必须本土化。 1 3 作者的主要工作和论文的组织 作者主要承毽并完成了戳下工终:蜜淡了一耱基予溢义霹络豹缓念捡索: 提出了一种改进的基于语向权重和遗传繇法的文件摘簧算法;在原有智能搜 索引擎的框絮基础上进一步完善了该系统;进一步完游了元搜索的检索接口 秘簿旁撬铡。 本文是搬搦作者所做鹃工作避幸亍缀织安排的,具 奉组织方式如下: 第1 章酋先说明了课题的研究背景和主要任务,接着对搜索引擎技术的 现状和发展趋势进行了分极,最后介绍了作者的工 乍鞠论文的组织。 第2 章分绍了攘索l 擎豹基本蒙鬻,毽括嫠索萼| 擎兹数据聚簇檬季l 捷 制、数据组织机制以及用户检索机制。然后介绍了搜索引擎的各种捻索功能。 最后从总体上提出了智能搜索引擎的框架,并对智能搜索引擎的备部分功能 模块送行了分缓, 第3 章介绍了搜索予系统的构成和实现,包括对w 槲网络资源、b b s 网 络资源、n e w s g r o u p 网络资源的搜索。最后介绍了元搜索的原理及实现。 第4 章在分辑了现窝搜索弓| 擎莱爝的方法以及移在的闯题后,介绍了一 个基于语义鳓终的概念硷索静实现方法,文孛对语义阏络的鞫建翻概念检索 的具体实现都有详细的论述。 第5 章主要介绍了一个文件自动摘嚣算法的实现。文中首先分析和比较 哈尔滨工程大学硕士学位论文 了前人在该领域的研究情况,最后提出了一种改进的基于语句权重和遗传算 法的文件摘要算法。 最后,作者对所做的工作加以总结,并提出了有待进一步探讨的问题。 蹬尔滨工器大学礞士学位论文 2 1 引言 第2 章搜索引擎原理 i n t e r n e t 土蕴藏羞嚣鬻丰富兹售惑资源,毽要飘这枣售惠海洋孛准确方 便迅速地找到并获得自爵所需的信息,却往往比较困难。正是为了解决这个 问题,从2 0 世纪8 0 年代超人们就开拨了诸如a r c h i v e 、w a i s 、v e r o n i c a 等 检索工具,从瓣年代中期起又出现了捡索w 啊信息资源妁搜索弓j 攀技术,并 以此梅造检索各类霹络僚惫资源懿集成亿支撵蒋系。本章将敷穰索弓l 擎技术 为例介绍网络检索的基本原理和方法,然后将介绍我们提出的一个智能搜索 引擎的框架结构并简要介绍各个主要模块的功能。 2 2 搜索霉 擎的基本结构 搜索b 肇( s e a r c he n g i n e s ) 指对删w 站点资源鞠熬它网络资源进行标引 稻检索韵一类检索系统狐铡,镶如g o o g l e 、y a h o o ! 、a l t av i s t a 、| n f o s e e k 、 e x c i t e 和搜狐( s o h u ) 等。它们可看成烧网络信息检索工具的典型代表,一般 包括数据采熊标引机制、数据组织机制、用户检索机制“1 。 图2 1 搜索引擎蹶理图 嗡幂滨一f 程大学臻士学位论文 _ i i l l i _ i _ _ _ _ 目i 目i i i i i i i 茸 搜索引擎的数据采集机制按照一定规律和方式对网络上w w w 站点进行搜 索,并将搜索到的w w w 页黼信息存入搜索引擎的临时数据库;搜索引擎的数 锩缓绥鸯琵裁对# 群嚣夏覆镶爨遂厅整理以形成矮范懿页嚣索弓l ,莠建立鞠应豹 索引数据库:搜索引擎的用户检索机制帮助用户用定方式检索搜索引擎的 索引数据库以获得符合用户需要的w w w 站点或页面。我们可将搜索引擎看成 一个双层c s 结构款髂系:当月户访翊攘索弓l 擎时,用户端为客户钒,向搜索 引擎提出检索请求,而搜索弓l 擎为菔务器,检索自己的索弓f 数器露并将检索 结果以应答形式提交给用户。当搜索引攀采集数据时,搜索引擎为客户机, 向w w w 站点簿实际资源系统提出搜索谤求,各类实际资源系统为暇务器,将 有关鼗簦( 爨鲣雾黼页瑟) 律为应答提交给援索零| 擎。 2 2 1 搜索引擎的数据采集机制 ( 1 ) 基本机制 为了演楚帮有效建了瓣嗣蘑丽络傣慧捡索工具,筏髓送一步分缁援索g | 擎的数据采簇机制。搜索弓i 擎的数据采集包括人工袋集和自动采集方式。人 工采集由专门信息人员跟踪和选择有用的w w w 站点或页面,著按规范方式进 行分类鑫 | 并缝建残索写| 数蹇疼。叁动袋集是透过旋豫为w e bs p i d e r 或w e b r o b o t ( 网络蜘蛛或网络机器入) 的软件米完成,网络蜘蛛搜寻页面弗建立、维 护、更新索引数据库。自渤采集能够自动搜索、采集和标引网络上众多站点 秘页蚕,扶瑟能有效和及辩她跟踪与梭索鼹络资源:瓣人工采集蘩予专韭往 的资源选择和分析标弓 ,保证了所收豢的资源质量鞠标霉l 质量。瓣髓,摄多 搜索引擎采取了自动方式和人工方式相结合的形式。 ( 2 ) 网络蜘蛛 网络麴辣是采霉叁动袋巢方式懿攫索零| 擎载孩,& ,是在弱终主搜索文终 且自动跟踪该文件超文本结构并循环检索被参照文件的软件,其工作原理如 图2 2 所示。 8 哈尔滨罄大学硕士学位论文 粼2 2 疆终辫拣凝瑾霾 一般地,网络蜘蛛以个u r l 清单为基础,利用标准协议( 例如h t t p ) 依次请求相威的资源( 以下通称网页) ,并将其交给网页标引模块进行自动标 ;| 。u r l 清慧中豹u r l 可囊趱户透过一个特定格式主动提交( 注黪) ,或出搜 索引擎开发商通过搜索常用站点或下载鸯关站点的资源列表、”w h a t sn e w ” 页面、”w h a t sc o o l ”页耐及类似u s e n e tp o s t i n g 出版的m a i l i n g1 i s t 等来 建立。网络蜘蛛对某个网页进行索弓j 时如发现指向资源的u r l 。蓠先将它们 存入一个藏辩表中,熬爱添热舞u r l 滚肇作蔻下一次检索瓣嚣标黠象。有些 情况下搜索引擎试图标引站点的所有网颇,并通过网骶u r l 逐一访问每一网 页。另一些情况下,搜索引擎抽取站点上定数量的网页为样本进行标引, 透零霹缝漆露蓬度蘧骞,撵零重藏越大。这嚣方式孛瓣“鼹缝漆行程痉”可 由搜索引擎索引数据库中播向特定网址的u r l 数量来麓化评价。 2 2 2 搜索引擎对网页的标引处理 ( 1 ) 霹终瓣辣对网趸懿鏊零标雩l 方滚 网络蜘蛛主要通过从网页中自动抽取能表达网页主题意义的词作为标 引词来构建网页标引记录。抽词的基本依据是词频,即在略去只越语法作用 躲共用调最,一个词在文搏中毫瑷频攀越褰,剐它代淡该文转主鞑载程度就 越大,从丽作为标g l 词的准确性也就越离。另井,蠢渤索弓f 器还利用萁它信 息进一步帮助选词或计算词的权重,例如,选择在网贝 、标题标签、 链点标签、麓体或斜体表示、或网页中开始凡段文字中的词侮为栎引词。但 9 啥尔滨 :程大学硕士学位论文 目前几乎所有重要搜索引擎都采用全文索引方式,分析整个网页所有词汇, 并依据词频和超文本结构确认词汇权重。 另外,多数搜索引擎利用网页开头的内容直接编制文摘( 例如a 1 t a v i s t a 利用网页文件中头2 5 0 个字符、l y c o s 利用网页前2 0 行文字作为文摘) 。 ( 2 ) h t m l m e t a 标签对网络蜘蛛标引网页的影响 为了使标引关键词和摘要更好地反映网页内容,保障用户检索的查准 率,h t m l 语言提供了m e t ak e y w o r d 标签和m e t ad e s c r i p t i o n 标签来帮助网 页编制者专门提供关键词和对整个站点的描述摘要。m e t a 标签内容在文件调 入浏览器时并不显示,但是服务器和客户机却能提取其中内容用于确认、索 引和文件编目等目的。m e t a 标签的组成元素很多,但与网页标引直接相关的 是m e t ak e y w o r d 和m e t ad e s c r i p t i o n ,它们位于h t m l h e a d 标签中,元素 m e t a k e y w o r d 的内容项( c o n t e n t ) 是一组由逗号分隔的关键词( 尤其可包 括反映该网页内容但未出现在网页中的关键词或同义词) ,最多可包括1 0 0 0 个字符。元素m e t a d e s c r i p t i o n 的内容项( c o n t e n t ) 是一段反映网页内容的 文字描述。利用这两个元素,自动采集器可以方便准确地对网页进行标引和 编制文摘。 2 2 3 搜索引擎的数据组织和用户检索机制 ( 1 ) 数据组织机制 搜索引擎的数据组织主要是利用强有力的数据库管理系统来组织所采 集标引的网页信息,形成索引数据库。数据库中的一条记录基本上对应于一 个网页,原则上包括关键词、网页摘要、网页u r l 等信息。由于各个搜索引 擎的标引原则和方式不同,所以它们的索引记录内容( 即使针对同一网页) 可能很不相同。 搜索引擎的数据组织模块还和数据采集标引模块一同实现索引数据的 动态维护,例如针对不断更新内容的网页和不断变更的网页地址,对索引数 据进行及时的更新、添加、删除等处理,以保证索引数据库准确反映网络信 息资源的当前状况。 索引数据库是用户进行检索的基础,它的数据质量直接影响到检索效 果,而搜索引擎的数据采集标引机制又是决定数据库质量的关键技术。 潘尔滨工程大学矮圭学垃论文 ( 2 ) 数攒检索机制 搜索引擎的数据检索机制主要包括四个部分“1 : 捡索爨垂搂凌,接受用户检索爱隶,往往分为一毁猃索努疆期裹级 检索嚣面: 检索策略模块,将用户输入的检索要求编制成计算机可执行的规范 化捻索式; 检索蔑行模块,裁鬻检索式捡繁素善| 鼗蕹霉,并铩涯竣索熬速度露 准确性; 检索结果组织模块,对检中记泶的整理组织。 我们褥程2 + 3 节赍绍潮络售塞捡索工具懿功憝对疆先详缓主邀奔缓粒分橱 搜索引擎检索功能。 2 3 网络信息检索工舆的类型 据统计,各种各样的i n t e r n e t 网络信息检索工舆已有数千个,我们可 以按照这些工具的检索机制、检索内容范围、包含梭索工具的数爨、检索资 源类型,将宅捐划分为以下各类检索工凝。 根据检索工具酶数瓣检索祝髓,我们胃将检索工蒸分为检索黧、嚣录型 和混合型检索工具。 检索型梭索工具通过用户直接输入梭索词、查找索引数据库中用检索词 标;l 酌素g 融毫录来查我焉产获零售惠资溪,捡索方爱蓬接,瑟显露豁镬嚣毒 尔逻辑检索、短语或邻近检索、模糊检索、自然语言梭索等高级检索,g o o g e 、 a 1 t av i s t a 、e x c i t e 、h o t b o t 、i n f o s e e k 等就是著名的检索型检索工具。 基录型鲶索工翼通过援户涮夔屡次篓类剐髫蒙裳寻我蟹合嚣要静信惠 资源,目录按照一定的主题分类体系缀织,并辅以年代、地区等分类。露户 般采取逐朦浏览目录、邂步细化来寻找合适的类别敷至具体资源。这类检 索工具的典溅是y a h o o ! 、g a l a x y 、b r i t a n n i c ai n t e r n e tg u i d e 簿。 混合鍪i 梭索工其蓑蠢稔索登积嚣录麓瑟耱捡索方姣,甄露囊凝徐入硷索 词查找特定资源,又可浏览目录了解某个领域范围的赘源。实际上现在的大 多数搜索引攀都同时提供词语检索和目渌浏览两种功能,以增强国己的检索 哈尔滨工程大学硕士学位论文 能力和市场竞争力。 按照搜索引擎实现的机理可以分为独立搜索引擎和元搜索引擎。 通常意义上的检索工具通过自身的采集标引机制、数据组织机制和数据 检索机制提供检索服务,我们可以将它们称为独立搜索引擎。但当检索工具 数量迅速增加、各自使用的检索方式日益复杂时,如何准确选择检索工具、 减轻学习与操作负担、有效利用多个检索工具的“集成”资源与检索能力等, 就成为制约网络信息检索技术进一步优化和发展的重要问题。元搜索引擎就 是在这种情况下应运而生的。 所谓元搜索引擎是一种能够利用多个检索工具进行网络信息查询的检 索工具,它通过一个统一的用户界面帮助用户在多个检索工具中选择和利用 合适的( 甚至是同时利用若干个) 检索工具来实现检索操作。在检索过程中, 用户向元搜索引擎发出检索请求,它根据该请求向多个独立搜索引擎发出实 际检索请求;独立搜索引擎执行检索请求后将检索结果传送给元搜索引擎, 元搜索引擎将从多个独立搜索引擎获得的检索结果经过整理再传送给实际用 户。 和独立搜索引擎相比,元搜索引擎具有以下优点:元搜索引擎可以一 次让多个w e b 搜索引擎并发查询,因此它往往能够获得较高的查全率。由 于元搜索引擎是利用其它w e b 搜索引擎的搜索结果,不需要进行网页的标引 工作,不需要维护庞大的网页标引数据库,大大降低了工程的复杂度。元 搜索引擎处在用户与其它w e b 搜索引擎之问,它可以很方便的添加各种智能 软件,根据用户要求对搜索信息进行过滤,提高查询的精度。由于元搜索引 擎的上述优点,元搜索引擎将在不远的将来成为主流的搜索引擎。1 。 搜索引擎还有一些划分标准,这里我们就不再一一讲述了。 2 4 搜索引擎的检索功能 搜索引擎的一个核心功能是其检索功能。从现有的搜索引擎来看,它们 都己具备了诸如布尔检索、截词检索和邻近检索这些基本检索功能。 哈尔滨工程大学硕士学位论文 2 4 1 基本检索功能 ( 1 ) 布尔检索 所谓“布尔检索”,就是指通过标准的布尔逻辑关系词来表达检索词与 检索词间逻辑关系的检索方法。主要的布尔逻辑关系词有:a n d 关系、0 r 关 系、n o t 关系。网络信息检索工具一般以符号来代替布尔关系,形象地表达 布尔检索的功能。如加号“+ ”表示布尔关系a n d ,减号“一”表示布尔关系 n o t ,默认值为布尔关系0 r 。如果我们要查找关于亚洲金融危机的信息,检 索结果中不能有“南美洲”这个词,则我们可以这样表示“+ 亚洲十金融危机一 南美洲”。 ( 2 ) 截词检索 所谓截词检索指在检索式中用专门符号( 截词符号) 表示检索词的某一 部分允许有一定的词形变化,因此检索词的不变部分加上由截词符号所代表 的任何变化形式所构成的词汇都是合法检索词。例如检索式c o m p u t * 将检索 出包含c o m p u t e r 、c o m p u t i n g 、c o m p u t e r i z e d 等词汇的结果。 ( 3 ) 邻近检索与短语检索 邻近检索是通过检索式中的专门符号来规定检索词在结果中的相对位 覆。目前应用广泛的主要是“( n w ) ”和“( n n ) ”这两个关系。 ( n w ) 关系要求它所连接的两个检索词在结果中相互距离不超过n 个词 ( 在中文情况下不超过n 个字) ,而且前后顺序不能颠倒。例如检索式s e c o n d ( w ) w o r l d ( w ) w a r 就只检索出那些包含词组“s e c o n dw o r l dw a r ”的结果, 而不会检索出包含“t h es e c o n dw a ri nt h ew o r l d ”。 ( n n ) 关系也要求它所连接的两个检索词在结果中相互距离不超过n 个 词( 在中文情况下不超过n 个字) ,但前后顺序可以变换。例如检索式 e n v i r o n m e n t ( 2 n ) p r o t e c t i o n 就可以检索出包含“p r o t e c t i o n o ft h e e n v i r o n m e n t ”、“p r o t e c t i o no fw a t e re n v i r o n m e n t ”等内容的结果。 2 4 2 高级检索功能 ( 1 ) 自然语言检索 自然语言检索指用户在检索时可输入自然语言表达的检索要求,检索工 具在接收到用户提问后,首先利用一个禁用词表从提问中剔除那些没有实质 1 3 晗尔滨】二程大学颈圭学位论文 主题意义的词汇,例如各种副词、介词、代词、常用请求词、检索提问词, 然后将余下的词汇作为关键词进行检索。这种方法魑目前通常使用的方法, 疆著售怠照璞援零靛发震,关犍词魏援敬褥会根据句子的整热意愿以及词汇 的重要性米选择。 ( 2 ) 相关信息反馈检索 在检索过程中人们会发现某个结果非常符合自己的要求,因此希望能进 一步捡索弱与该结采类敲静结莱,我们稼之为相关绥感反馈捡索。稿关僖惑 反馈检索的熬本原理是将用户指定的网员中包含的关键词找出,通过它们在 网页中出现的频率和位置米计算相对于用户指定的网顶的相关度,将相关度 蔫鲍一些羁炎雄荐绘曩户。镶翅l y c o s 滟“m o r el i k et h i s ”检索。翻爰援 关信息反馈梭索,人们获得的检索结聚像滚雪球一样,越来越多。 ( 3 ) 模糊检索 简单她说,摸期检索允许被检索信息和捡索提润之间存在一定的差异, 这种差舅就楚“模糊”在狻索中酶含义。翻如,藤户憋查询有关“中药使矮” 的信息,但不肯定这一提问在数据库中究竟以什么标引词表示,究竟是“中 药的使用”、“使用中药”述是其它? 如果用户以“中翡使用”作为检索词, 焉数据库孛瓣售患是| 三乏“申嚣豹蹙爱”佟秀稼弓l 司,这薅,捡索攥瀚穗技裣 索信息之间就存在着差异。假如检索工舆支持模糊梭索,上述提问能够达到 预期检索效粜。另一类蓑辩来自于用户在输入检索提问时的输入锚误,如少 键入一个字,静镬一个字母等等,我们幕望检索工舆在这时能馈计到这些词 汇的正确形式,而不是简单逡告诉“输入错误”或“没有结果”。例如,用子 检索地图信恩的m a p b l a s t 可在用户输入错误的街邋名的情况下,仍然检索出 正确的地图傣息。 4 ) 穰念捡索 所谓概念检索,是指当用户输入一个检索词后,检索工具不仅能检索出 包含这个具体词汇的结果,还能检索出包含那些与该词汇同属一炎概念的词 汇鹳结果。铡翔,检索“a u t o m o b i l e ”对缝我出包含“a u t o m o b i l e ”、“c a r ”、 “t r u c k ”、 v a n ”、“b u s ”等任一词汇的结果。又如,在查找“公熬交通”这 概念时,肖关“公共汽车”或“地铁”的信息也能随之检得。在此意义上, 檄念检索实现了受控捡索语言的一部分功用,即考虑到了同义词、广义词和 1 4 哙尔滨工程大学硕士学位论文 狭义词的使用。至今为止,e x c i t e 在概念检索方面取得了比较嚼艟的成就“1 。 2 5 智麓搜索孳l 擎系统的框架结构 下面是我们提出的智能搜索引擎系统( i n t e l l i g e n t s e a r c h e n g i n e s y s t e m ,i s e s ) 懿整体捱絮结鞠,魏国2 。3 瑟示: 图2 3 智麓羧索弓l 擎结梅棰蕊 从图2 ,3 我们可以番如,智能搜索引擎系统主要幽智能查询接口、概念 检索予系统、援索子系绞、分词予系绫、售惠过滤予系统、鑫韵文攘子系统、 学习子系统等7 个部分缎成。该智能搜索系统不再悬传统的c s ( 客户机朋匿 务器) 结构,它可以直接运行于客户端。 l s 哈尔滨工程大学硕士学位论文 其中智能查询接口的主要功能有:简单的自然语言查询、与或非查询的 支持等。 概念搜索子系统主要是完成对用户检索请求的智能优化、同义扩展、语 义蕴含扩展、外延扩展、相关扩展等功能。 搜索子系统由主动搜索模块和元搜索( m e t as e a r c h ) 模块构成。其中主 动搜索模块,可以对w w w 、b b s 、n e w s g r o u p 等网络资源进行主动搜索,可以 限制搜索的深度和范围,最后,对搜索到的信息进行过滤并存入全文数据库 中。 分词子系统主要功能是完成对中文文档的分词工作,方法是词频统计与 词典匹配相结合。 信息过滤子系统完成的功能是对文档的个性化过滤和排序。其中用户词 典纪录了用户的个性化喜好,过滤算法采用的是改进的v s m 法。 自动文摘子系统完成对文档的自动摘要。这是一种改进的基于语句权重 和遗传算法的文件摘要算法,也是本文要重点论述的部分。 学习子系统主要功能是以调整用户词典词条权值的方式来跟踪用户兴 趣的变化。 在上述7 个子系统中,作者主要完成了搜索子系统、概念搜索子系统和 自动文摘子系统,下面3 章将围绕这3 个子系统展开论述。 2 6 小结 本章主要对搜索引擎的原理简单介绍,首先介绍了搜索引擎的基本结 构,包括搜索引擎的数据采集标引机制、数据组织机制以及用户检索机制: 然后介绍了搜索引擎的基本检索功能和高级检索功能。最后提出了一个智能 搜索引擎系统( i s e s ) 的系统框图,并简单介绍了个主要模块的功能和作用。 1 6 3 1 引言 第3 章搜索子系统 闰3 1 搜索予系统框图 我们设计豹智能搜索弓l 擎的搜索予系统的框图如豳3 1 所示,该系统由 主动援素摸块弱元援素( m e t as e a r c h ) 摸块梅戒。其中主动援索模块,支拷怼 w w w 、b b s 、n e w s g r o u p3 种网络资源的搜索、过滤和存储。元搜索模块默认 向7 个商业搜索g l 擎发出检索请求。用户可以自己编辑、修改和增删这些商 、盈搜素零| 擎貔捡索u r l ,壤缮元攘索摸块藏舞哥戳赉_ 趱户垂己定翻懿模块。 本章将分4 个小节米详细介绍我们的搜索予系统中的俐、b b s 、 n e w s g r o u p 和元搜索的实现原理和方法。 哈尔滨工程大学硕士学位论文 3 2w w w 网络资源的搜索 32 1w w w 信息构造 分析w w w 的信息构造,是实现w w w 信息搜索、信息过滤的基础。只有充 分地理解和利用w w w 的信息构造,才能开发出可行、高效、准确的信息搜索 和信息过滤算法。 3 2 1 1 w w w 页面的文档结构 w w w 基本上是由各种数字化文件组成的数据网络,它提供了一种获取 i n t e r n e t 资源的统一方式。w w w 信息都是以某站点上的某一页面来表示 的,页面文件按照h t m l 标记语言的格式来写。这些页面可以通过h t m l 中的 标记和各种多媒体构成连接,形成超文本。同时还可通过这些u r l 链接到本 站点或其它站点的h t m l 页面,从而形成了数据网络。完整的u r l 如: ! i ! ! ;z 型! :丛b ! ! :! g ! :! ! z 二二9 1 2 翌堑i i ! ! ! 堕i p y ! :b ! 卫由四部分组成: ( 1 ) 获取资源的协议( h t t p 、f t p 、t e l n e t 、m a i l 、g o p h e r 等) ( 2 ) 该资源所在的i n t e r n e t 站点位置( 如:h t t p :w w w h r b e u e a 坐c i ) ( 3 ) 该资源在该站点的目录位置( 如:x x g k 2 r e n c a i ) ( 4 ) 该资源的文件名( 如:r e n c a i p y l h t m ) 不过,w w w 上的页面中的u r l 一般都是不完整的,需要根据具体的网页 进行调整和恢复。由于w 聊上的信息是以h t m l 页面出现,对w w w 上的信息的 分析,主要就是对h t m l 文本进行分析。由h t m l 语言写成的源文本由标记( 用 “ ”括起来的文字和文本) 和文本组成。分析h t m l 时,把由h t m l 语言形成 的页面分解成文本块和标记,而标记中的每一个元素又是一个包含各种属性 的复杂特征集。这些属性大致可以分为两类: ( 1 ) 页面中各种资源的u r l ( 2 ) 页面元素的形态属性 第一类属性使w w w 上的信息形成网络体系,在w w w 的信息搜索中,主要 是通过第一类属性实现网点定位的。通过第二类属性,则可以进行对页面文 哈尔滨工程大学硕士学位论文 本的智能分析,以提供信息搜索所需的启发知识。 3 2 1 ,2h t t p 协议 h t t p 协议( h y p e rt e x tt r a n s f e rp r o t o c o l ,超文本传输协议) 是w w w 上用于发布信息的主要协议,也是一种很简单的通信协议,为了从服务器上 将用户需要的信息发送回来,h t t p 定义了简单的事务处理,一般需要以下四 个步骤: ( 1 ) 客户与服务器建立连接: ( 2 ) 客户向服务器提交请求,在请求中指明所需的特定文件; ( 3 ) 如果请求被接纳,那么服务器便发回一个应答。在应答中至少应当 包括状态编号和该文件内容; ( 4 ) 客户与服务器断开连接。 h t t p 协议提供了一种简单的算法,使得服务器能够迅速地为客户做出应 答。为此,h t t p 协议应当是一个无状态协议,即从一个请求到另一个请求时 不保留任何有关连接的信息。这一点与f t p 协议完全不同,f t p 协议是- i t 保留状态协议。另外,每次连接时,h t t p 只是完成一个请求,在一次请求完 成后,服务器与客户之间的连接就断开。 3 2 1 3w w w 主页中u r l 的提取方法 w w w 主页一般都是由h t m l 语言编成的,要提取其中的u r l 则需要对h t m l 语言有一定的了解。总的来说,w w w 主页中的超链接有几种类型:多媒体u r l 、 小程序u r l 、h t m lu r l 、f t pu r l 、邮件u r l 、g o p h e ru r l 、图像地图u r l 。 可以根据用户的不同设定提取不同的链接。如用户想查找网上的多媒体信息, 则提取多媒体u r l ,如果用户只是想查找w w w 主页,那只需要提取h t m lu r l 。 那么如何区分这几种u r l 昵? 可以根据属性i m g 、ah r e f 来区分。属性 为多媒体u r l ;属性 为w e b 主页u r l ;属 性 为f t pu r l ;属性 为g o p h e r u r l ;属性 为邮件u r l :属性 为w w w 1 9 哈尔滨_ _ l = 程大学硕士学位论文 主页内部跳转地址;属性 为t e l n e tu r l 。 3 2 2w f f w 搜索的实现 w w w 主页及主页之中的链接在逻辑上构成了一张图,在这张图上,w w w 主页可以看作是图中的节点,链接可以看作是图上的边。我们的w w w 搜索算 法实际上是一个有限深度有限区域的广度优先图遍历算法。w w
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 品牌金店活动方案
- 国画夏日活动方案
- 员工小活动中秋活动方案
- 团结小学研学活动方案
- 哈哈小人活动方案
- 周末志愿活动方案
- 国庆活动买房活动方案
- 喜迎三八活动方案
- 团建油画体验活动方案
- 品牌年底活动方案
- 2025-2030年中国期货行业市场深度调研及竞争格局与投资策略研究报告
- 2025-2030年中国农业科技行业市场深度调研及前景趋势与投资研究报告
- 成人重症患者颅内压增高防控护理专家共识
- 2025至2030年中国肿瘤治疗行业市场发展潜力及前景战略分析报告
- 危险化学品-经营安全管理制度与岗位操作流程
- 2024年河南省豫地科技集团有限公司招聘真题
- (2025)党内法规知识测试题库及答案
- 餐饮老人临时用工协议书
- T/SHSOT 015.1-2024皮肤角质层胶带剥离方法及应用第1部分:角质层剥离方法
- 2025甘肃省农垦集团有限责任公司招聘生产技术人员145人笔试参考题库附带答案详解
- 2025至2030年中国豆角丝行业投资前景及策略咨询报告
评论
0/150
提交评论