(计算机软件与理论专业论文)中文智能搜索引擎.pdf_第1页
(计算机软件与理论专业论文)中文智能搜索引擎.pdf_第2页
(计算机软件与理论专业论文)中文智能搜索引擎.pdf_第3页
(计算机软件与理论专业论文)中文智能搜索引擎.pdf_第4页
(计算机软件与理论专业论文)中文智能搜索引擎.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

列川大学碟士论文 x 6 547 2 4 中文智能搜索引擎 计算机软件与理论专业 研究生:陈鑫指导教师:常致全 摘要 随着i n t e r n e t 网上的知识登几何级数式的增长,搜索s l 擎作为一个查谲用 户所震信息豹工其,其作翻性越来越受到人们的重视;1 7 蘸,一个优秀髂搜索 弓i 擎能够大大地提高一个网站的点击率,搜索弓i 擎已经成为一个网站的门户。 简单地讲;搜索引擎通过个称之为“网络蜘蛛”的程序,将网页上的内容接 一定的方式存放在自己的数据库里,并昼夜不停地维护、更新着该数据库,当 用户提交查询时,就从自己的数据库中找出与该关键字信息,并返回给用户。 与其它的技术一样,搜索引擎的发展也离不开对其理论基础的研究。本文 在对检索模型分析的纂础上,重点对当前流幸亍的搜索弓l 擎中的几大技术( 知识 库的建立、中文切分、自动文攥的生成、检索结架的撑序、多级智能检索 弋理 的实现) 的原理、实现进行了分析和探讨; 目前,全文本搜索技术作为一衬比较成熟的技术,其套全率方厩已经做得 比较好,但它的查询精度确有待进一步提高,究其原因是:“中文切分”和“自 动文摘的生成”这二项技术有待突破,本文中,对“中文切分”提出了切分算 法加局部调熬技术,对“自动文摘的生成”提出了“概念化的文档摘簧”,以 期能够起到抛砖弓| 玉的作用。 智能化是搜索引擎豹发展方囱,当前。这方肉的研究还处予超步、探索阶 段,某些方面在理论上还骺要裔所突破,本文最震一章对搜索葶l 擎将来的发展 方向进行了展望。 【关键词】搜索引擎、智能化搜索引擎 艇鲻大学硬女论文 c h i n e s es e a r c h e n g i n e b a s e d0 1 1i n t e l l i g e n c e c h e n x i n ( c o m p u t e r s o f t w a r ea n d t h e o r y ) d i r e c t e db yp r o f e s s o rc h a n g z h i q u a n a b s t r a c t w i m r i s i n go f t h ei n t e r n e t sk n o w l e d g eo nt h ew a yo fg e o m e t r i cs e r i e s ,t h e s e a r c he n g i n e w h i c hi sl o o k e da sat o o lt h a tt h eu s e rg e ti n f o r m a t i o nw i t hi t , i t s f u n c t i o nh a db e e nr e g a r d e d a tp r e s e n t ,ae x c e l l e n ts e a r c he n g i n ec a ni n c r e a s et h e n u m b e ro ft h ew e bs i t e sa c c e s s i n gl a r g e l ya n dw a st h e 溉bs i t e sa p p e a r a n c e s i m p l y , w i t ht h ep r o g r a m t h a ti ti sn a m e da s n e t w o r ks p i d e r , t h es e a r c he n g i n e s a v et h en e t w o r k si n f o r m a t i o i li n t ow o nd a t a b a s eo nad e f i n e dm a n n e ra n dt h e d a t a b a s ei sm a i n t a i n e da n du p d a t e da l ld a y w h e nt h eu s e rp u ti nas e a r c h 。t h e s e a r c he n g i n ew i l lf i n dt h ei n f o r m a t i o nt h a ti sc o r r e l a t e dt h eu s e r sk e yf r o mi t s o w nd a t a b a s ea n dt h er e s u l tw i l lb er e t u r n e d a st h eo t h e rt e c h n o l o g y , t h es e a r c he n g i n e sd e v e l o p m e n tg o l r i mi t st h e o r y s s t u d y o nt h eb a s eo f t h es e a r c h m o d e l sa n a l y z e ,t h i sa r t i c l ea n a l y z ea n dd i s c u s st h e p r i n c i p l ea n di m p l e m e n to ft h ef a s h i o n s e a r c he n g i n e ss e v e r a lt e c h n o l o g y , f o r e x a m p l e i n n e m e t sb u i l d i n g ,c h i n e s es y n c o p a t e ,a u t o - b r i e f sb u i l d i n g ,t h es e a r c h r e s u l t sr a n ka n ds e v e r a ll e v e li n t e l l e c t i v es e a r c ha g e n t n o w , r d l - t e x ts e a r c hi sam a t u r et e c h n o l o g y i t ss e a r c h st h ea l la n dt h eo n ei s s u c c e s s 。b mi t sa c c u r a c yi sl a c k + i nf a c t , t h et w ot e c h n o l o g i a s ( c h i n e s es y n c o p a t e a n da u t o - b r i e f sb u i l d i n g ) s h o u l db eb r o k et h r o u g h t oc h i n e s es y n c o p a t e ,t h i s p a p e rb r i n g sf o r w a r d an e w t e c h n o l o g yt h a tt h ep a r t i a la d j u s tw i l lb eb r o u g h ti n t o e f f e c ta f t e rt h ec h i n e s ei ss y n c o p a t e da n dt h en o t i o n a ld o c u m e n tb r i e fi s p u t f o r w a r dt oa u t o b d e f f sb u i l d i n g h o p et h eb e r e rt h e o r yt ob eb r o u g h tf o r w a r d i n t e l l i g e n c ei sad i r e c t i o no f t h es e a r c he n g i n e sd e v e l o p m e n t 。n o w , i t ss t u d y 四川太学稍士论文 s t u d y i sd u r i n gb e 番臻遗gs t e pa n ds o m e 瞧e o r yn e e dt ob eb r o u g h tf o r w a r d ,t h el a s t c h a p t e r f o r e c a s tt h es e a r c he n g i n e sd e v e t o p m e n l k e y w o r d :s e a r c h e n g i n ei n t e l l i g e n ts e a r c he n g i n e 1 1 搜索引擎产生及背景 随着i n t e r n e t 网的迅猛发展,各种信息正以几何级数的方式增长;信息 的增多固然使用户可以得到更全面的信息,但同时也使得用户在网上查找自己 所需的信息如同大海捞针。因此,就必须利用各种技术和方法对网络信息资源 进行有效地组织、管理,以便用户能够及时、准确地得到自己所需的信息。搜 索引擎技术恰好解决了这一难题。 搜索引擎( s e a r c he n g i n e ) 是随着w e b 信息的迅速增加而发展起来的, 第一代真正基于w w w 的搜索引擎诞生于1 9 9 4 年初,到1 9 9 5 年,商业化的搜索 引擎开始大规模开发,其第一代产品的代表厂商包括y a h o o ! 、e x c i t e 、 i n f o s e e k 、a l t a v i s t a 等,并从典型的目录式分类结构发展到全文搜索引擎、 图形图像搜索及元搜索。它们的出现在一定程度上解决在信息的海洋里“迷 航”的问题。 第二代搜索引擎的产品有i n k t o m i 、a s k j e e v e s 、g o o g l e 等,与第一代相 比,第二代在搜索速度、针对多种语言信息的扩展等方面有所改进,在以自然 语言为查询语言方面也做了一些探索。在这一代的产品里,大量地应用的人工 智能方面的技术。 目前的搜索引擎产品大多属于第三代,在这一代里,解决文件格式问题是 一个方向,这就要求搜索引擎不仅能识别t x t 文件,也要能够识别p p t 、w o r d 、 p d f 、电子邮件等文件;另一个方向是把p 2 p 技术应用到网页的检索中,这样 通过共享所有硬盘上的文件、目录乃至整个硬盘,用户搜索时无需通过w e b 服 务器,不受信息文档格式的限制,即可达到传统目录式搜索引擎无可比拟的深 度。 总之,搜索引擎是以一定的策略在互联网中搜集、发现信息,对信息进行 理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。 搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎 四川大学硕士论文 站点也被美誉为“网络门户”。搜索引擎技术因而成为计算机工业界和学术 界争相研究、开发的对象。 1 2 什么是搜索引擎 目前,关于搜索引擎的说法很多,国内还没有一个明确的定义。一般而言, 我们可以从广义和狭义上去理解。从狭义的角度来说,搜索引擎由信息收集 软件、索引数据库和查询接口三部分组成。信息收集软件从一个已知的文档 集中读取信息,并检查这些文档的链接指针,找出新的信息空间,然后取回这 些新空间中的文档,将它们加入到索引数据库。查询接口通过索引数据库为用 户的查询请求提供服务。即搜索引擎指的是基于某种技术在整个网上自动执 行网页全文搜索的网上指南工具。 从广义的角度上讲,搜索引擎是因特网上的一类网站,这类网站与一般的 网站不同的是它是提供查询、搜索的网站,或称查询站点、导航站点,即因特 网上具有检索功能的网页。从这点上说,搜索引擎分为两种,一种是分类目录 型的检索,它将因特网上的信息资源,如网址、描述主题、字顺或时间顺序 汇总整理,形成图书馆目录一样的分类树型结构目录,用户通过逐级浏览这 些目录来找寻自己需要的网址或相关内容:另一种是基于关键词的检索,这 种方式用户可以用逻辑组合方式输入各种关键词( k e y w o r d ) ,搜索引擎计算 机根据这些关键词寻找用户所需资源的地址,然后根据一定的顺序( 如字母排 列、时间、相关级别等) 反馈给用户包含此关键字词信息的所有网址和指向这 些网址的链接。现在的发展趋势是以基于关键字的检索为主、分类目录型检索 为辅。基于关键字检索的功能强大、维护成本低廉,但实现技术比较复杂,该 论文以这种搜索引擎为讨论对象。 这里需要指出的是,基于关键词检索的搜索引擎是建立在关键宇匹配( 无 论是布尔型,还是非布尔型) 基础上的,这里所说的关键字就是一个能独立表 达意思的字( 或词) ;比如,一篇文档中有这样一句话:“他回家去了”,若是 以“他”或“回家”为关键字进行搜索,是可以搜索到这篇文档的,但是,若 用“家去”为关键字进行搜索,却什么都搜索不到,这是因为“家去”这二个 2 四川大学硕士论文 字符在中文里是不能表达任何意义的。 1 3 检索工具的分类 w w w 资源检索工具通常有以下几种类型 1 3 1 机器人搜索引擎 它的特点是利用一个称为r o b o t ( 也叫做s p i d e r 、w e bc r a w l e r 或w e b w a n d e r e r ) 的程序自动访问w e b 站点,提取站点上的网页,并根据网页中的链 接进一步提取其它网页,或转移到其它站点上。r o b o t 搜集的网页被加入到搜 索引擎的数据库中,供用户查询使用。 基于r o b o t 的搜索引擎由三个主要部分构成:r o b o t 、i n d e x 和搜索软件。 r o b o t 从一个事先制定好的u r l s 列表出发,这个列表中的u r l s 通常是从以往 访问记录中提取出来的,特别是一些热门站点,很多搜索引擎还接受用户提 交的u r l s ,这些u r l s 也会被安排在列表中供r o b o t 访问。r o b o t 访问了一个 网页后,会对它进行分析,提取出新的u r l s ,将之加入到访问列表中,如此 递归地访问w e b 。 i n d e x 是一个庞大的数据库,r o b o t 提取的网页将被放入到i n d e x 中以便 建立索引,不同的搜索引擎会采取不同方式来建立索引,有的对整个h t m l 文 件的所有单词都建立索引,有的只分析h 喇乙文件的标题或前几段内容,还有 的能处理h t m l 文件中的m e t a 标记或其它不可见的特殊标记。 基于r o b o t 的搜索引擎一般要定期访问大多数以前搜集的网页,刷新 i n d e x ,以反映出网页的更新情况,去除一些死链接,网页的部分内容和变化 情况将会反映到用户查询的结果中,这是基于r o b o t 的搜索引擎的一个重要特 征。 i n d e x 在建立索引时,一般会给网页中每个关键词赋予一个等级值,表示 该网页与关键词之间的相关程度。当用户查询一个关键词时,搜索软件将搜索 i n d e x ,找出所有与关键词相符合的网页,有时候这些网页可能有成千上万, 等级值的用途就是作为一种排序的依据,搜索软件将按照等级值从高到低的 四川大学硕士论文 顺序把搜索结果送回到用户的浏览器中。 不同的搜索引擎在计算等级值时使用了不同的方法,但它们都以关键词在 网页中出现的位置和频率为基本依据,例如,关键词出现在标题中的网页可能 比只出现在其它地方的网页更符合要求,关键词出现在网页的前面可能比只出 现在网页的后面更符合要求,同一个关键词出现多次的网页又可能比只出现一 两次的网页更符合要求,把这些因素综合起来考虑便可得出一个计算等级值的 公式。不过,绝大多数搜索引擎都没有只按照上述因素来确定计算公式,它们 还加入了一些特殊考虑,例如,e x c i t e 能检查是否有很多链接指向同一个网 页,如果是的话,它就把这个网页的等级值稍微提高一些,理由是这样的网 页一般都具有更大的访问量。 尽管各个搜索引擎都有一套复杂的等级值计算公式,但仅仅依靠一个数值 并不能真正反映出网页的质量,事实上,有些网页在设计时就考虑到了i n d e x 的特点,故意使用一些技巧让自己得到很高的等级值,以便能排在查询结果的 前列,达到提高访问量的目的。 搜索软件提供一个用户接口,当用户输入关键字时,它使用该关键字到在 预先建立好的i n d e x 数据库中检索出相应的文档( 或u r l ) ,然后按照一定的排 序规则将搜索结果显示给用户。 1 3 2 目录式搜索引擎 它与基于r o b o t 的搜索引擎所不同的是,目录式搜索引擎的数据库是依靠 专职编辑或志愿人员建立起来的,这些编辑人员在访问了某个w e b 站点后撰写 一段对该站点的描述,并根据站点的内容和性质将其归为一个预先分好的类 别,把站点的u r l 和描述放在这个类别中,当用户查询某个关键词时,搜索软 件只在这些描述中进行搜索。很多目录也接受用户提交的网站和描述,当目录 的编辑人员认可该网站及描述后,就会将之添加到合适的类别中。 目录的用户界面基本上都是分级结构,首页提供了最基本的几个大类的入 口,用户可以一级一级地向下访问,直至找到自己感兴趣的类别,另外,用户 也可以利用目录提供的搜索功能直接查找一个关键词,不过,由于目录式搜索 引擎只在保存了对站点的描述中进行搜索,因此站点本身的动态变化不会反映 4 题姐太学颈士论文 到攘索缝菜孛来,这魂爨鑫录斌援索孳l 辇与基予r o b o t 靛援裳萼l 鼙之漓熬大 区剃。 鸯予嚣最式攘索零l 攀是依靠太王来译徐令潮结耱痰客,嚣我爱户麸嚣荣 搜索键捌瓣结果往往魄肤基予r o b o t 的搜索引蘩樽到的缱果鼹矮参考价值,瞧 宅嚣要露支出各擎辩天方缀藏豹绦护酞辍,鼗露髓或漆魄较蒜。 1 3 3 嚣搜索萼l 擎 元拽索弓 鬻瞧潮徽m u l t i p l es e a r c he n g i n e ,宅静特点爨率砉著没有襻放 嬲菠缓惑熬数撰库,当用户煮谗一个关键词时,j 兹把用户的焱询请求转换成其 它搜索碍i 擎能够接受的命令格式,并行地访问数个搜索孳i 擎涞奁询这个关镳 蔼,舞恕这整搜索孳l 辇逐西鼹缭慕经过登邂茬辫返鏊绘矮户。 严格懑义上来讲,m e t a 搜索引攀只能算悬一种搜索孳 擎代避,丽不是黧正 静凌索举l 萃。多数嚣搜索弓l 蘩在鳃壤其窀搜索孳l 攀靛返疆维暴辩,哭褥彀籀每 令搜索葶l 肇鹣绦暴枣嚣嚣豹i 0 5 0 条,势将这然条嚣会并在一起返麟给髑户, 戮越最殿结果煎数豢w 靛会遴少予蛊接在个羧索孳l 擎上遴稃壹找雳褥戮的 数鐾,遮藏是为静么缀多i n t e r n e t 用户帮喜欢使用元搜索引烬来查挽信惑的 原露 嚣搜索零l 擎实瑗麓寒建辕篷攀,毽霆窀塞豢蹇静鼹鬻愁,铡热多数冤篷 索引擎都只能访闻少数几个搜索碍 擎,并怠遵常不支持这些搜索引辇的商缀搜 索功蘸,在鲑璞逻辑餐诲时瞧常常会密襞错诿。 农逡尼串梭索童熊串,鼹录戏搜索引擎量裔艘本赢、傣愚蠢少的缺点。但 絮静僚怠准确遮一德患是秀三者掰无法溆擞静,簸在一定黥领域,一定懿露瀛, 宅氆会皱使用:捉黪人搜索弓l 擎是当前备神搜索引擎的主流;但随蔫网络信息 爨的不翳增加,单的搜索引蘩融经难融满足熊簧求。结合隧录式搜索萼l 擎、 魏嚣天攘索零| 笨煞谨势, ;l 嚣臻索萼;擎藏心熬多凄鼗理攫鬃攀 擎是攘索萼j 擎鹃 麓震商向; 四j l l 大学硕士论文 1 4 搜索写i 擎的组成及工作过程 搜索引擎在执行用户的查询时并不真正珧搜索甄联嘲上的每一个网页,它 搜索豹实际上是预先整爨好的嗣页索弓 数据库。对一个普通酶搜索引蘩丽言, 一般由搜索器、索弓l 器、检索嚣和用户接口蒋蹬个部分缎成。 1 4 1 搜索鼹 搜索糕戆功能是在曩联髓审漫游,以偻发现和搜集售惠。它零零悬一个曩 夜不停地运行的计算机襁序。宦要尽可能多、尽可能快地搜集各种类型的新信 患秘定期囊凝已经搜集逛豹l 妥镶塞,酸保证攥户及瓣褥到鬏薪镕惫襄避免死逡 接、无效遣接。 蠢蘸攫集蓿慧的策珞宥两释: 1 ) 、从一个起始u r l 集合开始,顺着这些u r l 中的趁链( h y p e r l i n k ) ,以 宽度优先、深度优先或扁发式方式循环地在赢联网中发现信息- 这些越始u r l 可以是任爨的u r l ,但常常是一些 # 鬻滚霉、包食缀多链按的站点( 如y a h o o l 、 新浪等) 。 2 ) 、爆w e b 空润按域名、l p 遮缝竣藿家域名进行越分,每个缝素嚣受蠢一 个予空间的搜索。 搜索器搜集瓣信怠类鼙多种多样,苞捂h t m l 、x m l 、n e w s g r o u p 文章、p d f 文件、字处理文楼、多媒体信息。搜索器的实现常常用分布式、并行计算技 术,以提高信息发现和受新的速度。商监搜索弓1 擎的信息发现可珏达到每天几 百露网页。 。4 ,2 索孳l 器 素弓l 嚣夔珐是理鼹搜索嚣襞搜索熬售惠,扶孛撼取瞧素荨l 顼,潮予表嚣 文耥以及擞成文档库的索引表。 素雩 器曹先瓣搜索劐懿痿爨进行篌悫袋处理,嚣受援索嚣谤滴到浆楚不麓 组织形式的数据信息,如各种数据库、不同文件系统以及网络w e b 页嘲等等e 四川大学硕士论文 在预处理过程中,不同格式的文档( 如m i c r o s o f tw o r d 、w p s 、t e x t 、h t m l 锋j 都将被转换成统一的标准格式一文本文档。 在预处理后,就可以对信息建立索引,一般地,建立信息索引包含下面,: 个步骤: 1 ) 、词的切分和词法分析 在汉语里,词是信息表达的最小单位,在西文语言里,单词是表达信息p 最小单位。而汉语不同于西方语言的是,其句子的语词间没有分隔符( 空格) 因此需要进行语词切分。汉语里词的切分常存在歧异性、模糊性,如句子“仨 用户满意”可切分为“使用户满意”,也可能被错误地切分为“使用户瓣 意”。因而需要利用各种上下文知识解决语词切分的歧异性和模糊性。此外 还需要对词进行词法分析,识别出各个语词的词干,以便根据词干建立信息囊 引。 2 ) 、进行词性标注及相关的自然语言处理 在切分的基础上,利用基于规则和统计的方法进行词性标注、识别重要巨 短评结构。目前,比较常用的方法是:在基于“短语结构语法”和“齐夫率。 的基础上,再使用“复杂特征集”、“词汇主义”、“统计语言模型”等方i ! - 2 。 3 ) 、建立检索项索引 需要注意的是:全文检索l i k e k e y w o r d 。若使用这种搜索方式: 其搜索过程就变成类似于一页页翻书的遍历过程了,这样在响应时间、搜索洋: 准确度等方面都远远不能满足用户的需要。一般使用排好序的关键词列表,愿 于存储关键词= = 文章编号( 或u r l ) 的映射关系,也即用倒排文件的方式建立糟 索项相关信息( 如表1 所示) 。相关信息一般包括“检索项”、“检索项所在。 件位置信息”以及“检索项权重”。例如,检索项“计算机”的位置信息为“,。 档d 中第n 段第m 旬第w 词”。这样,在信息检索时,用户可以要求在查询 中,检索项t 1 和检索项t 2 位于同一语句或同一段落中。检索项索引的建立” 则是要易于文档信息的更新处理。 表1 :典型倒排检索项列表 铡川犬学硕士论文 t e r m ld o c i ,f r i l :d o c j ,w t j l ;:d o c m ,w t m l t e r m 2d o c i ,w t i 2 :d o c k ,y r k 2 ;d o c n ,孵n 2 t e r m sd o c j ,w t j s :d o c m ,w t m s ;一;d o c p ,w t p s 索引项套客观索弓i 项和内容索引项两种:客观项与文档的内容无茨,如作 者名、u r l 、更新时间、编码、长度等等;内容索引项是用来反映文档内容的, 如关键词及其权重、短谱、单字等等。内容索引项可以分为单索弓l 项和多索引 项( 或称短语索引项) 两种。单索引项对于荚文来讲是荚语单词,比较容易提 取,因为单词之间有天然的分隔符( 空格) :对干中文等连续书写的语畜,必 须进行词语的切分( 对字进彳亍索弓l 或攫索是无任何意义的) 。 在建立索引泔,一般要给每个索引项赋与一个粳值,以袭示该索引项对文 档的区分度,同时用来计算密谲结栗的相关液。使用的方法一般有统计法、信 惠论法和概率涪。 索弓| 表一般使用菜种形式的翻捧表( i n v e r s i o nl i s t ) ,帮由索弓| 项套我耜 应的文稻。索弓| 表墩记录索芍l 璜在文档巾出现的傻登,黻便检索器计算寨弓i 矮之闽豹榛舔或接落关系( p r o x i m i t y ) 。 索雩l 器霹戮傻焉集中式索弓 算法或分蠢式索号f 髯法。鹭羧据蠢缀大辩,必 绥实凌秘时裳弓| ( i n s t a n ti n d e x i n g ) ,秀则不镶够跋上镕愚蠢惫剧壤撩懿逮 度。索孳l 算法对索雩l 器姻蛙裁( 拯大壤模峰蠖查询瓣蛉响应速度) 鸯缀大魄影 螭。一个搜索弓l 擎鲍套效蝗在缀大毂发上取决予索弓l 数矮量。 1 。4 3 棱亲器 检索嚣的功能是根据用户输入的查询关键字在索引库中快速检出文档,进 行文档寿查询的相关度评价,对将簧输出的结栗迸彳予摊捧,并实现菜种厢户相 关性反馈机制检索器常用的信息稳索模鼙有布尔模垄、商量空间模登、税率 毫 四川大学硕士论文 模型和混合模型四种。 信息检索评价的标准是信息检索的精度和召回率。信息检索的精度为检索 结果中相关信息文档数与查询结果总数之比。信息检索的召回率为实际检索出 的相关信息文档数与信息库中总的相关信息文档数之比。为了提高搜索引擎的 性能和方便用户,常使用以下一些技术: 1 ) 、查询扩展处理 查询扩展处理是为了提高信息检索的召回率。这种处理根据同义词词典和 语义蕴涵词典扩展查询检索项。同义词扩展,如“计算机”和“电脑”指同 一概念;因而查询“计算机”同时也要查询“电脑”,反之亦然。主题蕴涵 扩展( 也即是下位词扩展) 是指不但要查询检索词,而且还要查询其中所包含的 子概念。比如,主题词“艺术”包括“电影”、“舞蹈”、“绘画”等等。 “电影”又包括“故事片”、“记录片”等。因此,查询“艺术”当然包括 “电影”、“舞蹈”、“绘画”以及其下的子概念。 2 ) 、利用向量空间模型实行相关查询反馈处理 利用向量空间模型实行相关查询反馈处理是为了提高信息检索的精度。即 用户从初次查询的结果中,选择内容重要的文档或文档片断,让搜索引擎依 据所选文档的特征,重新进行查询,从而提高查询精度。 3 ) 、智能代理 搜索引擎除了被动搜索外,也可利用智能代理技术进行主动信息检索。信 息检索系统智能用户代理,可根据用户事先定义的信息检索要求,在网络上 实时监视信息源,如指定w e b 页面的更新、网络新闻、电子邮件、数据库信息 变化等。并将用户所需的信息,通过电子邮件或其它方式,主动提供给用 户。用户无须反复搜索所需信息,这样将大大减少用户检索信息的时间。 4 ) 、信息分类和摘要 为了方便用户从查询结果中选择所需信息,搜索引辇可将提供给用户的文 档信息按照文档内容进行分类,并为每一篇文档产生简短摘要。 搜索引擎根据文本检索项的统计特征,对查询结果进行分类和摘要。例 如,用户查询检索项“计算机”,相应的结果分类也许为“分类1 ”:“网 络”、“系统”、“路由器”等;“分类2 ”:“市场”、“产品”、“销 9 四川大学硕士论文 售”等:以及其它分类。分类的目的是便于用户找到相关信息。 1 4 4 用户接口 用户撩口的作用是接收用户输入的查询字段、显示黉询结果、提供用户相 关戆反馈梳裁。变要懿瓣静是方便焉产镬雳搜索等| 擎,嵩效率、多方式逢鼓羧 索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交氨的理 论籁方法,潋充分逶应入类静思维习惯。用户输入接口可以分为简单接口和 复杂接口鼹种。 简单按口只摄供用户输入瓷诲串的文本框:复杂接翻可以让用户对查询滋 行黻铡,皴逻辑遮算( 奄、或、菲;+ 、一) 、相近关系( 相邻、n e a r ) 、域攥 范围( 如e d u 、c o m ) 、出现位置( 如标题、内容) 、信息时间、长度等等。 器蘸一些公司;整梳构歪在考虑制定奁谗选瑷熬摭臻。 简单地说,对于各种搜索鼍i 擎,它们的工作过程包括以下兰个方面: ( 1 ) 派出“潮页搜索程謦”在阏童搜寻所有信怠,并将它稍带回搜索亏i 擎。 ( 2 ) 将信息进萼亍分类整理,建立搜索引辈数据库。 ( 3 ) 通过w e b 服务器端软件,为用户提供浏览器界筒下的信息查询。 1 5 搜索引擎的特点 l 、倍息服势的综合性由于采用了知识库导航,搜索引擎将面貌一新, 绘孀声箍侠菱全覆蔓综合熬绩患骚务,在这里,僚惠检索哭是髂患缀务戆一帮 分。 2 、嵇患服务酶蓍辘性新谓管能来餐知识,有综合知谖库俸为背景, 信感检索髑导航服务将更智能。知识麾( i n n e r n e t ) 中的避害层颇知识肖助予烬 决”表达麓异。问题,例如,只梁定义计算机、。电子计葬杌、电脑是同义 关系裁可以滇狳用户悫予使弱不弱戆诞表达羼一攒念恧带来懿捡索爨滩。另一 方词,根据i n n e r n e t 的常识性的和本体论层次知识对用户的裔询进行相关性 联惩,摄供摹l 导糟产迸行下一步查镶懿线索。这撵一步一步逡在与鬟户兹交 互过程中诱导用户。表达出他真正想找的东西,从而实现对查询的智能导 l o 四川大学硕士论文 航。这种逐步求精的策略解决了信息检索中忠实袭达的难题。至于多语种 绩惑捡索溺蘧,瞧透过诺言屡褥蠢其继层甏翡诲调作焉采解决。 3 、信息服务的个性化i n n e r n e t ( 知识库) 可以存放与具体用户相关的知 识( 溺户的专韭兴趣、购买力等) ,搜索g l 擎将利用这些懿识来为用户撼供个傲 他豹信息服务。 4 、具有支持a g e n t 的能力由予w e b 服务器端有综含性知识库,为智能 a g e n t 款滚魂提供了基皴。铡翔,涯动在客声蠛懿a g e n t 霹辩崩户正凌测览豹 网员进行童动观察,分析内容,根据服务器端的知识库来推荐内容相j 琏的其 德瓣页供髑产参考。 5 、具有与电予商务灵活结合的能力i n n e r n e t ( 知识库) 也可以存放与电 子商务相关的各稀知识霸信息,或者与电予商务撼供商的关系数据库相糅合, 方便地实现电予导购”。 四川大学硕士论文 第二章信息检索模型 现在所使用信息检索模型是使用索引术语( 可作为关键词) 来描述数据库 中的每一篇文档( 也即是所谓的全文信息检索) 。这样,一篇文档就可以用一个 个的关键词来表示,但是每一个关键字与这篇文档的相关性是不一样的,故, 用户输入关键字,就可以得到包含该关键字的文档及该关键字与每一篇文档的 相关度。一般来说,索引术语大部分是名词。因为名词的语义很容易识别,而 形容词、副词和连接词经常以补语的形式出现,因此很少被用作索引术语。 信息检索系统的核心是搜索引擎,它需要从纷繁复杂的大量信息中,筛选 出符合用户需求的信息例如,用户希望从信息库中查询有关计算机网络产品 销售方面的信息,如果查询出的结果为计算机软件产品方面的信息,则不能满 足用户的需求。根据搜索引擎查找相关信息方式的不同,可将信息检索分为: 布尔逻辑模型、模糊逻辑模型、向量空间模型以及概率模型等。 2 1 布尔型信息检索模型 是最简单的信息检索模型,用户可以根据检索项在文档中的布尔逻辑关系 提交查询,搜索引擎根据事先建立的倒排文件结构,确定查询结果。标准布尔 逻辑模型为二元逻辑,所搜索的文档要么与查询相关,要么与查询无关。查询 结果一般不进行相关性排序。如查询“计算机”,只要文档中出现关键词“计 算机”,则全部包含在查询结果中,若未包含“计算机”一词,则该文档不会 被命中。为了克服布尔型信息检索模型查询结果的无序性,在查询结果处理中 引进了模糊逻辑运算,将所检索的数据库文档信息与用户的查询要求进行模糊 逻辑比较,按照相关的优先次序排列查询结果( 一般是依据关键字出现在该文 档中出现的频率) 。例如,查询“计算机”,那么出现“计算机”较多的文档 将排列在较前的位置。 布尔( b o o l e a n ) 模型是基于集合论和布尔代数的一种简单检索模型。由于 集合的定义是非常直观的,b o o l e a n 模型提供了一个信息检索系统用户容易掌 1 2 四川大学硕士论文 握的框架。然而,布尔( b o o l e a n ) 模型存在着一些缺陷: 第一:它的检索策略是基于二元判定标准( b i n a r yd e c i s i o nc r i t e r i o n ) 。 例如,对于检索来说一篇文档只有相关和不相关两种状态,缺乏文档分级 ( r a n k ) 的概念,故,也就不能将用户最需要的文档排在最前面,从而限制了 检索功能。 第二:虽然布尔表达式具有精确的语义,但常常很难将用户的信息需求 转换为布尔表达式,实际上大多数检索用户发现在把他们所需的查询信息转 换为布尔时并不是那么容易。 除掉上述缺陷,b o o l e a n 模型仍然是文档数据库系统中的主要模型。 b o o l e a n 模型定义索引术语只有两种状态,出现或者不出现在某一篇文档中, 这样就导致了索引术语的权重都表现为二元性。假设查询串q 是一个传统的布 尔表达式,k 。是q 的分离形式,假设g “是掣耐的任何一种分离形式,文档 她g ) :告臧阮) 概阮皖) ) 如果s i 坍p j ,q j 51 ,b 。l e a n 模型表示文档d ,与查询串相关( 但可能不属 于查询结果集) ,否则就表示与文档d ,不相关。 四川太学硕士论文 2 。2 翔量空闫模型 向擞模型认识到布尔模型中的= 元权重的局限性,从而提出了一个邋含部 分匹配的框架,用梭索项的向量空闯来表示用户的查询要求秘数据库文档信 息。它在查询串鞠文档之闻分配绘索弓 术语饕二元的毅重,这些术语校警反映 了数据库中的每篇义档与用户递嶷的查询串的相关度,并将凌询返回的结果文 档集按照相关度的降序排列,所以向量模型得到的文档是部分地匹配查询串。 向量横整的往点京予摄据秩( r a n k ) 返毯静络聚集要鼗蠢尔模墼返强静缝暴集 在感觉上更加符合检索用户的需舞。假设序偶对晦,d ,j 的权重礓、f 是准确 静,嚣二元的( 瓢表示关键字i ,d ;表示文挡i ) 。更迸一步,在套谗宰孛的索弓l 术语也被赋予权莺。假设心j 魑序偶对( 七 ,g ) 的权重,且m o 。查询向量 g 2 ( w t 季比,孪w 毛譬) ,t 表示鼗爨纛孛素雩l 拳谶瓣数嚣。窝寒窳模 型中的一样,文档d j 的向量矗j2 ( w l 、f ,w 。、w “j 。因此,文档d j 和型中的一样,文档d j 的向量 ,、1 、,。4 v h 。因此,文档d j 和 弱产燕谗事浚t 缝囱量楚形式滚示磐霆2 + l 掰示。该囊鬈模鍪诗算逡文糖秘 关于旋询串q 的相必度,即向量“一“g 的相关性,这种相必性可以通过余弦 ( c o s i n e ) 法则被爨住: c o s 妇( d ,q ) = 1 4 最黔霭 _iq一悖 一x t b 四川大学硕士论文 q 图2 1口的余弦值即为。o s i w ( 由,鼋) 其中p j i 和旧l 是文档和查询向量的范数( n o r m s ) 。元素| g l 并不影响 返回的结果文档集,因为它对数据库中所有的文档都是一样的。 元素p j l 在文档空间中提供标准化。因为u j 40 ,w j ,f - 0 ,所以 c o s i 开口特d ,j ( o ,1 ) 。这样该向量模型根据查询的相关度来标记文档的秩,而 在布尔模型中文档相对于查询串,只有相关和不相关两种状态。因此即使有 的文档只是部分匹配查询串,由于它相对于查询串具有较高的相关度,也会 被返回。为了计算文档的秩,我们首先需要知道定义索引术语权重的方法。 索引术语的权重可以通过多种方法获得,在这里,我们讨论一下基本情况。 假设存在一个对象集c 和一个描述模糊的集合a ( av a g u ed e s c r i p t i o no fa s e t ) ,简单聚类算法的目的是将对象集c 分成两个集合:与集合a 相关的对 象的集合和与集合a 无关的对象的集合。这里“模糊描述”表示我们不能确定 那些对象属于集合a 。例如构造一个汽车的集合a ,“w h i c hh a v eap r i c e c o m p a r a b l et ot h a to fal e x u s4 0 0 ”。由于不知道术语c o m p a r a b l e 的确切 含义,因此不能准确的来描述集合a 。大多数聚类算法会根据这些对象的属性 将他们分成不同的类。例如,癌症病人可以被分为以下五类:晚期、早期、 转移( m e t a s t a s i s ) 、已诊断( d i a g n o s e d ) 、和恢复。这样就能决定一个新 的癌症病人应该属于上述五类中的哪一类。下面我们讨论简单的聚类问题, 即数据库中的文档相对于给定的查询串是相关还是不相关。 在s a l t o n 的著作中把信息检索问题看作一个聚类问题。我们把数据库中 的文档集作为对象集c ,把用户的查询串定义为那个模糊描述的集合a 。在这 种情况下,信息检索问题可以被简化成为判断数据库中的哪些是属于集合a 四川大学硕士论文 的,哪些不属于集合a 的问题。在聚类问题中需要解决两个主要的问题。首先 要确定集合a 的特征是什么,这种功能应该能较好的描述集合a 中的对象。其 次要确定c 中剩余的对象区别于集合a 中对象的特征。第一个集合的特征为量 化提供了内聚相关度,而第二个集合则为量化提供了内聚的相异度。 在向量模型中,内聚相关度的量化是通过计算术语七 在文档吐中的出现 频率来实现的。这些术语的频率( 矿) 表现了术语反映文档内容的程度。此 外,内聚的相异程度的量化是通过计算术语与在集合中所有文档的出现频率 的倒数来实现的,用洌( i n v e r s e d o c u m e n tf r e q u e n c y ) 来表示。使用冽。的 目的是,在许多文档中出现的术语对区分查询串与文档是相关还是不相关时 是没有多大用处的。在信息检索问题中,好的聚类算法,即最有效的术语权 重方案应该尽量平衡这两种要素。 假设n 为数据库中的总的文档数,播i 表示数据库中出现索引术语七j 的文 档数,两t j 为术语七i 在文档毛中出现的次数。则术语畅在文档中d l 的规格 化频率几为: ,兰! ! 。1 7 m a x x ;f r e q ? j r r 黜表示在文档函中出现的单词数。如果术语与在文档吐中没有出 现,则 ,:。进一步,定义谳为术语南的倒置文档频率,且i 奶叫。g 等。 则术语墨相对于文档吐的权重w j 。 ,x l o g 署。这种术语权重的算法称为 烈川大学硕士论文 扩一毳莎算法。霹予套逮末语静投藿,s a i t 。n 辩b u e k l e y 绘掇了这释一令公式: 叫+ 兰鼍】l 。g 等一慨赫术语嘧的频 率。 向量模型的优点在于: 1 ) 术语权重的算法提高了捻索的性能; 2 ) 部分嚣黎豹繁臻整褥检索麓缝莱文爨察更接近期户豹检素嚣零o 3 ) 根据结果文耥对于查询率的相关度通过c o s i n er a n k i n g 公式对结果文 档进彳予排序: 2 3 概率信息梭索模型 基于贝叶斯概率论原理的概率模型不同于布尔和向量嫩间模型,它利用相 关爱续豹霆纳学习方法,获取隳嚣遵数;绘宠一令爱户熬豢章霹事,据瓣予该枣 存强一个包含所裔相关文档的集合。我们把这样的集合看作是一个理想的结果 文档祭,在给出懋想结果集后,我们能很容易得到结果文梢。这样我们可以把 查询处理番幸# 是对理想结果文樾爨属性的处疆。闻题是我们并不能确切蟪知道 这些满性,我稍掰知道的是存在索弓 寒语来袭示这些磊瞧。由于在查询期满这 些属性都是不可见的,这就需鬻在初始阶段来估计这些属性。这种初始阶段的 估计允许我们对茵次检索的文档集合返回理想的结果集,并产生一个初步的概 率攘述。走了提麓疆慈绩暴集熬箍述壤率,系统嚣要每震产送行交互式搽撵。 具体处理过程如下:用户大致浏览一下结莱义档,决定哪赡是相关的,哪些是 不相关的;然后系统利用该信息萤新定义理想结果集的概率描述:重复以上操 作,魏会越来越接避寞正鲍结浆文档集。 概率模墅燕簇予戳下理论:给定一个羽声羽查诲串譬移集合审静文挡4 , 概率模型来估计用户查询串与文档。j 相关的概率。概率横型假设这种概率只 决定于查询串和文档。更进一步说,该模型假定存在一个所有文档的集令,即 穗瓣予查询串譬爨冬结罴文毯予集,这羲理恕熬蔡会鬟r 袭零,集会孛豹文档是 1 7 西川大学硕士论文 被预料与查询串相关的。这种假设存在着缺点,因为仇没有明确定义计冀相关 发麴概率,t 箍将绘出这秘概率蛇定义。 在概率模型中索引术语的权熬都是二元的,例如:飞,鼍( 0 ,1 ) ,w 4 仨( o ,1 l 。 磨询串可是索引术谮集合的子集。设r 烧相关文档集合( 初始的猜测集合) , 灵是r 的补集( 非相关文档的集合) 。雄渖j j 表示文档d ,与查询串窖相关的 概率,尹润弓) 表示文档d ,与查询串鼋不相关的概率。文档蠢j 对于查询串 蝴:砘萄矧a 。麟 ,、芦瓴旧p ( r ) 粥掣,潭户雨翮 芦蛾| 习代表从相关文档集含r 中随机选取文档d ,的概率。p 往) 袭示觚簸个 集合串麓橇选褒一麓文档佟隽耱关交挡豹概率。娄骰定义妒瓴誊) ,p 。 毽羹瓣予集会孛赝蠢瓣交掇尹馨) 窝爹泛) 是穗霜戆,翳熬, 咖m 渊 骰设索雩| 术语麓裾互猿立静置| j : ,、r ;韬,p 融枣) 一;缸轴尹氛l 固 洲屿埠卜瓦意研弼瓦阑 p ( 七l 陋) 袭示集合r 中随机选取的义档中出现索弓l 术语麒的概率,p 瓴l 矗) 表示集合r 中随机选取的文档中不出现索引术语k - 的概率,类似定义了 芦沁f ) ,p 瓴滓) 敬对数,根据p 瓴| 固+ 尹麓 r ) = 1 ,我稍滠后可以得到: 1 8 四川太学硕士论文 翻嗨翻一喜k 融凳啪g 菩器, 这烘在概率模烈中计算相关魔的一个关键的表达式。由于我们在开始时并 不翔邋集合r t 嚣魏磐矮设诗一令锈嫠纯诗箕尹如固窝p 筑旧垂冬算法。 肖许多方法可以计算它们的假,下面将具体讨论一种简单的算法。在查

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论