(计算机应用技术专业论文)概念检索若干关键技术的研究.pdf_第1页
(计算机应用技术专业论文)概念检索若干关键技术的研究.pdf_第2页
(计算机应用技术专业论文)概念检索若干关键技术的研究.pdf_第3页
(计算机应用技术专业论文)概念检索若干关键技术的研究.pdf_第4页
(计算机应用技术专业论文)概念检索若干关键技术的研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机应用技术专业论文)概念检索若干关键技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 信息检索是电脑中最基础最重要的应用之一。但以往的信息检索 基本都是基于关键词匹配的,只要发现某个文档( 网页) 中含有这个 关键词,就将该文档( 网页) 作为查询结果返回给用户。因为在基于 关键词匹配的检索过程中参与匹配的是关键词的外在形式,而不是它 们所表达的概念,所以很少能完全地反映用户需求,因此,在词检索 过程中,人们被迫要求扩展到同义词检索,实际上就是要求应让概念 检索来替代词检索。概念检索突破了关键词匹配局限于表面形式的缺 陷,从词所表达的概念意义层次上来认识和处理用户的检索请求。 概念检索与传统的信息检索相比,有着如下优点:1 打破了关键 词障碍,把信息检索从目前的关键词层面提高到概念层面;2 概念 检索能提供较好的自然语言接口;3 概念检索具有较高的人机交互 水平。 本文对概念检索中的若干关键技术进行了研究,在以下几个方面 取得了一些成绩和突破。 1 讨论了概念的定义及其与表述形式间的关系,提出了概念网 ( c o n c e p t n e t ) 的结构组织,以主题词表为基础,结合同义词词 林、知网、金山词霸的相关词汇,建立了一个蕴涵“属、分、代、参、 用”关系的概念网。并且对基于概念网的检索提问扩展和基于概念网 的语义联想检索进行了研究,使得信息检索系统具有较高的人机交互 水平。 2 对全文索引的存储结构进行改进,t 将维( f i e l d ) 的概念加入 索引项。实现了常用查询概念的索引库,进一步提高了检索系统的性 能。还利用索引项中维的概念提出了检索提问中日期项的处理方法。 3 对检索结果定序算法进行了研究,通过对服务器的访问日志 , 进行信息挖掘,提出了基于用户反馈的网页重要度的评定算法,使得 检索结果更加符合用户的需求。 基于以上的研究,作者与实验室的其他同学合作实现了一个原型 系统。该原型系统的特点是易于移植配置,支持多种检索方式,支持 h t m l 文档,t x t 文档等多数据源,具有多元排序功能,并对索引 过程和检索缓存做了优化。 关键词:概念检索,概念网,索引结构,定序算法 i i r e s e a r c ho ns e v e r a lk e yt e c h n o l o g i e si n c o n c e p t u a lr e t r i e v a l a b s t r a c t i n f o r m a t i o nr e t r i e v a li so n eo ft h em o s ti m p o r t a n ta p p l i c a t i o n so f c o m p u t e r p r e v i o u si n f o r m a t i o nr e t r i e v a li sm o s t l yb a s e do nk e yw o r d s m a t c h ,i e i fad o c u m e n tw h i c hh a v et h ek e yw o r d si sf o u n d ,t h i s d o c u m e n tw i l lb er e t u r n e d b e c a u s et h em e a n i n go fw o r d s ,i e c o n c e p t ,i s n o tm a t c h e di nk e yw o r d sr e t r i e v a l ,t h er e t r i e v a lr e s u l tm a yn o tb ew h a t u s e rn e e d s i nt h ek e yw o r d sr e t r i e v a lu s e ru s u a l l yu s es y n o n y m yw o r d s t or e t r i e v e ,i e c o n c e p t u a l r e t r i e v a l c o n c e p t u a lr e t r i e v a l c a nh a n d l e u s e r s q u e r yf r o mt h ec o n c e p tl e v e l c o n c e p t u a l r e t r i e v a lh a ss o m e a d v a n t a g e sa g a i n s t t r a d i t i o n a l i n f o r m a t i o nr e t r i e v a l :1 i ti m p r o v e si n f o r m a t i o nr e t r i e v a lf r o mt h ew o r d l e v e lt oc o n c e p tl e v e l 2 i tc a np r o v i d en a t u r a ll a n g u a g ei n t e r f a c e 3 i t c a ni n t e r a c tw e l lw i t hu s e r t h i st h e s i sc o n d u c t sr e s e a r c ho ns e v e r a lk e yt e c h n o l o g i e si n c o n c e p t u a lr e t r i e v a la n dh a ss o m ea c h i e v e m e n t a sf o l l o w s : t h i st h e s i si n t r o d u c e st h ed e f i n i t i o no fc o n c e p ta n dt h er e l a t i o n b e t w e e nc o n c e p ta n dw o r d i td e s i g n st h ea r c h i t e c t u r eo f c o n c e p t n e ta n dc o n s t r u c t st h ec o n c e p t n e t a l s o ,i tr e s e a r c h e s t h ea p p l i c a t i o no fc o n c e p t n e ts u c ha st h eq u e r ye x t e n s i o n i i i 2 3 t h i st h e s i si m p r o v e st h es t o r es t r u c t u r eo fi n d e xl i b r a r y , a n d i n t r o d u c e sf i e l dt ot h ei n d e xi t e m i ti m p l e m e n t st h ei n d e x l i b r a r yo ff r e q u e n t l yu s e dc o n c e p t a l s o ,i tp r e s e n t st h ew a yt o h a n d l et h ed a t eo fu s e rq u e r y t h i st h e s i s p r o p o s e s a p a g er a n k i n ga l g o r i t h mb a s e do n f e e d b a c kb ya n a l y z i n ga c c e s sl o go fs e a r c he n g i n e t h ea u t h o ri m p l e m e n t sap r o t o t y p es y s t e mo fc o n c e p t u a lr e t r i e v a l , w h i c hi s p o r t a b l e ,s u p p o r t sm a n yq u e r ym e t h o d s ,s u p p o r t sm a n yd a t a s o u r c e s ,h a v ep l o yr a n k i n ga n do p t i m i z et h ei n d e xa n dr e t r i e v a lp r o c e s s k e yw o r d s :c o n c e p t u a lr e t r i e v a l ,c o n c e p t n e t ,i n d e xs t r u c t u r e ,p a g e r a n k i n g i v 上海交通大学 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容外, 本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。 对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:褒恙稚 日期:j 。) 年0 月f 丫白 上海交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅。本人授权上海交通大学可以将本学位 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存和汇编本学位论文。 ,广 保密哦在上年解密后适用本授权书。 本学位论文属于 不保密口。 ( 请在以上方框内打“”) 学位论文作者签名:垄东趟身 指导教师签名 日期:口。# d 月l ¥日日期:2 口口5 年 上海交通人学硕上学 觅论文概念检索菪干关键技术的研究 第一章绪论 1 1 课题的研究背景与意义 n w i e n e r 说:“信息是人们在适应外部世界并使这种适应反作用予外部世界 的过程中,和外部交换内容的名称。”现代秘学认为:信息乃是人类生存的三大 基础( 物质、能量、信息) 之一。 众所周知,人类思维的本质就在于对存储的语言等信息进行检索、分析、整 理、联结、合并、加工等等运算。因此,可以说:“人的大脑就是一个高级的信 息加工系统;而信息检索乃是人类智慧活动的基础,是人类的最重要的活动之 一。”赉于信息检索是人类愚维的基础,是人脑的最基本最重要的活动之一,也 是电脑中最基础最重要的应用之一。i l 】 现在我们的社会和整个世界,正处在信息爆炸的时代。信息每时每刻都在不 断地增加和更新,这种速度已经超出了人类自身的处理能力。譬如,据不完全统 计,全世界第年出版的图书有8 0 万种以上;科技期刊近8 万种,发表的期刊论 文在6 0 0 万篇以上;提出的专利说鹱书1 0 0 力种左右;国际会议文献i 万种以上; 技术标准逾2 0 万件。科技文献平均每7 8 年增长l 倍。信息增长势头之迅猛使 我们每天都可能遇到前所未有的复杂情况,需要我们学会去处理。如何快速、方 便、有效地从信息的海洋中找到需要的信息逐渐成为越来越重要的问题。 随着计算机应用的普及和计算机网络的快速发展,信息的存在方式发生了深 刻的变化,各种电子形式的信息也正在以惊人的速度递增。进入二十世纪九十年 代,尤其是w w w 流行之后,信息逐渐从图书馆搬到i n t e m e t 上,从油墨转移成 电、磁、光信号。随着i n t e m e t 的快速发展,i n t e m e t 上的信息正在以惊人的速度 递增。2 0 0 1 年10 月1 4 日o n l i n ec o m p u t e rl i b r a r yc e n t e r 公布的统计数据表明, i n t e m e t 上现有霹站数已达8 ,7 4 5 ,0 0 0 个。时至2 0 0 2 年1 1 月,仅g o o g l e 搜索 引擎索引的页面数就高达3 ,0 8 3 ,3 2 4 ,6 5 2 个。1 2 1 近年来,我国的互联网在技术和规模上也得以空前速度发展。据c n n i c 2 0 0 1 年4 月公布的“中国互联网络信息资源数量调查报告,大陆的中文网站数量己 达2 3 8 2 4 9 个,中文页面数为1 5 9 ,4 6 0 ,0 5 6 。互联网已成为当今时代最主要的 信息载体之一。1 3 面对大量的信息,人们越来越迫切需要找到合适的检索工具来发掘它们。于 是i n t e m e t 上出现了众多搜索引擎( s e a r c he n g i n e ) 。搜索弓| 擎就是在i n t e r n e t 上 提供信息检索服务的计算机系统。搜索引擎以能够提供快捷准确的检索功能的特 性,成为当前用户赖以获取信息的主要工具。根据2 0 0 2 年7 月公布的“第十次 t 海交通大学硕士学 亟论文概念榆索若干关键技术的研究 中国互联网络发展状况统计报告玲表明:8 2 2 的用户通过搜索引擎获知新网站, 是寻找新网站的第一途径。网民最常使用的网络服务中,搜索引擎占6 3 8 ,仅 次于电子邮件。其中用户获取、浏览的中文信息占所有信息的比例:8 1 4 。用 户获取、浏览的图内信息占所有信息的比例:7 1 4 。 3 1 1 1 1 国内外搜索引擎的历史与现状 在互联网发展拐勰,网站相对较少,信息查找眈较容易。然而伴隧互联阐爆 炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大 众信息检索需求的专业搜索网站便应运丽生了。 现代意义上的搜索引擎的祖先,是1 9 9 0 年由蒙特利尔大学学生a l a ne m t a g e 发明的a r c h i e 。虽然当时w o r l dw i d ew e b 还未出现,但网络中文件传输还是相 当频繁的,而且蠢于大量的文件散布在各个分散的f t p 主枫中,查询起来菲常 不便,因此a l a ne m t a g e 开发了一个可以以文件名查找文件的系统,于是便有了 a r c h i e 。 a r c h i e 工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网 上的文件,然后对有关信息进行索弓l ,供使用者以一定的表达式查询。由于a r c h i e 深受用户欢迎,受其启发,美国内华达s y s t e mc o m p u t i n gs e r v i c e s 大学于1 9 9 3 年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除了索引文件 外,已能检索网夏。 当时,“机器人”一词在编程者中十分流行。电脑“机器人 ( c o m p u t e rr o b o t ) 是指某个能以人类无法达到豹速度不间断地执行某项任务的软件程痔。由于专f j 用于检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去,因此,搜索引擎的 “机器入”程序就被称为“蜘蛛”程序。 世界上第一个用于监测互联网发展规模的“机器人”程序是m a t t h e wg r a y 开发的w o r l dw i d ew e bw a n d e r e r 。刚开始它只用来统计互联网上的服务器数量, 后来刚发展为能够检索嚼站域名。 与w a n d e r e r 相对应,m a r t i nk o s t e r 于1 9 9 3 年1 0 月创建了a l i w e b ,它是 a r c h i e 的h t t p 版本。a l i w e b 不使用“机器入”程序,丽是靠阚站主动提交信息 来建立囱己的链接索引,类似于现在我们熟知的y a h o o 。 随着互联网的迅速发展,使褥检索所有新出现的网页变得越来越困难,因此, 在m a t t h e wg r a y 的w a n d e r e r 基础上,一些编程者将传统的“蜘蛛”程序工作原理 作了些改进。其设想是:既然所有网页都可能有连向其他网站的链接,那么从跟 踪一个网站的链接开始,就有可能检索整个互联网。到1 9 9 3 年底,一些基于此 原理的搜索引擎开始纷纷涌现,其中以j u m p s t a t i o n 、t h ew o r l dw i d ew e bw o r m 4 上海交通人学硕上学位论文 概念检索若干关键技术的研究 和r e p o s i t o r y b a s e ds o f t w a r ee n g i n e e r i n g ( r b s e ) s p i d e r 最负盛名。 然而j u m p s t a t i o n 和w w ww o r m 只是以搜索工具在数据库中找到匹配信息 的先后次序排列搜索结果,因此毫无信息关联度可言。两r b s e 是第一个在搜索 结果排列中引入关键字串匹配程度概念的引擎。 最早现代意义上的搜索引擎出现于1 9 9 4 年7 胃。当时m i c h a e lm a u l d i n 将j o 妇 l e a v i t t 的蜘蛛程序接入到箕索引程序中,创建了大家现在熟知的l y c o s 。同年4 月,斯坦福( s t a n f o r d ) 大学的两名博士生,d a v i df i l o 和美籍华人杨致远( g e r r y y a n g ) 共同剖办了超级冒录索弓| y a h o o ,并成功地使搜索雩| 攀的概念深入人心。 从此搜索引擎进入了高速发展时期。目前,豆联网上有名有姓的搜索引擎已达数 百家,其检索的信息量也与从前不可同曰嚣语。比如最近风头正劲的g o o g l e , 其数据库中存放的网页已达3 0 亿之巨! 随麓互联网规模的急剧膨胀,一家搜索弓 擎光靠自己单打独斗已无法适应目 前的市场状况,溺此现在搜索引擎之间开始出现了分工协作,并有了专业的接索 引擎技术和搜索数据库服务提供商。象国外的i n k t o m i ,它本身并不是直接面向 用户的搜索弓| 擎,但向包括o v e r t u r e 、l o o k s m a r t 、m s n 、h o t b o t 等在肉的其饱 搜索引擎提供全文网页搜索服务。国内的百度公司也属于这一类,搜狐和新浪用 的就是它的技术。因此从这个意义上说,它 | 、! 是搜索弓| 擎的搜索弓l 擎。【4 1 目前在搜索引擎中比较有代表性的是: g o o g l e :由两个斯坦福大学博士生l a r r yp a g e 与s e r g e yb r i n 于1 9 9 8 年9 月 发明,g o o g l ei n c 予1 9 9 9 年创立。2 0 0 0 年7 月份,g o o g l e 替代i n k t o m i 成为 y a h o o 公司的搜索引擎,同年9 月份,g o o g l e 成为中国网易公司的搜索引擎。9 8 年至今,g o o g l e 已经获得3 0 多项业爨大奖。g o o g l e 支持多达1 3 2 种语言,包括 简体中文和繁体中文;g o o g l e 网站只提供搜索引擎功能,没有花里胡哨的累赘; g o o g l e 速度极快,据报导有1 0 0 0 0 多台服务器,2 0 0 多条t 3 级宽带。 特点:其有庞大的数据库,提供全面的结果信息,例如,文章的闩期,大小 等等。可搜索大多数网站,快速有效的搜索到自己所需内容,是一个快速、强大 的搜索弓| 擎,它具有足够的响应能力来处理任俺极度复杂的搜索,用户界蘧相当 友好。g o o g l e 还具有一些很好的小功能,如自动纠错,具有一定的大写、名词 识别能力等曙l 。 y a h o o :w w w 最著名的查询系统,与n e t s c a p e 公司关系很密切,m i c r o s o f t 公司也选择它作为其传播媒介。y a h o o 的最大特色是提供优秀的主题浏览工具, 对网点信息按主题建立分类索引,按字母顺序歹| j 出1 4 个大类,每个大类所包含 的子类有精炼的描述,每个子类有数以千计的相关的i n t e r n e t 网点信息。1 9 9 6 年 还引入了o p e n t e x t 兹索弓| 和检索孳| 擎,鑫此检索结果还包括其提供熬网点地址, 对新增加的网点有图标指示。 上海交通夫学硕十学位论文 概念榆索若十关键技术的研究 特点:其用户乔面容易使焉,有很好的主题墨录导航,速度快,箕搜索选项 有简单搜索和高级搜索,在世界性的新闻组网络系统范围中进行搜索,y a h o o 将 会告诉你在哪个霹录中可以找到蹶需信息,然后提供给你一个两行的有关网站的 描述。【5 】 o p e n f i n d :o p e n f i n d 创立于1 9 9 8 年一月,其技术源自于由吴异博士所领导 的国立中正大学g a i s 实验室。在2 0 0 0 年y a h o o ! 与g o o g l e 签订全球搜寻引 擎合作协议之前,y a h o o ! c h i n e s e 的搜寻引擎即是使用o p e n f i n d 的服务。 o p e n f i n d 研发出的o p e n s c a l e 技术,可以在更少的硬件资源下,达到更大的信 息处理能力。o p e n s c a l e 的技术包含了两大部分,首先,设计了一个具有高延伸 性的主从式结构( s c a l a b l ec l i e n ts e r v e ra r c h i t e c t u r e ) ,霹提供离效率的分散式运算 能力。在此结构下,单一个s e r v e r 可更有效率地服务更大量的c l i e n t s ,以增加 整体系统的效能。其次,研发了一个最佳化的索引查询演算法与资料结构,只 要藉由极少量的电脑磁盘存取次数( d i s ki o ) ,即可得到所需的查询结果。 特点:1 多元排序功同一b ( p o l y r a n k t m ) :可提供更灵活性、更贴近使用者需 求的摊痔功能,除了预设按照符合程度的方式排穿外,使用者还可以针对自己的 需求选择比如网页大d 、( s i z e ) ,更新时间( d a t e ) 等不同的条件进行排序。2 新鲜 网页( w h a t sn e 嫡:提供使黑者搜寻最近雯新的网页瓷料。有别于一般搜寻引擎 需要每隔一段时间之后才做大规模的资料更新。3 我的搜寻( m y s e a r c h ) : 使用 者只要订阅自己感兴趣的搜寻关键字,系统会每天自动比对新进的网页资料,将 当天符合使蔫者订阅的相关瘸页搜寻结果,主动e m a i l 到指定的信箱中。4 更 大的资料涵盖量( l a r g ec o v e r a g e ) :在过去近一年的时间中,o p e n f i n d 已累积抓取 了超过3 5 亿页的网页。5 更高的执行效麓( h i g he f f i c i e n c y ) :截至罄前为止, o p e n f i n d 仅使用7 0 台p e n t i u m 档次的机器来建鼹这个测试站。其中,一台 p e n t i u mi i i 搭配四颗1 2 0g bi d e 硬盘的机器,即可处理超过一亿三千万个嬲 页量,且可提供小于一秒内的搜寻回应速度。 【6 j 百度:2 0 0 0 年1 月,酉度公司在中国成立了她的全资子公司一百度网络技术 ( 北京) 有限公司。爱前全国已有3 6 家大型网站采用了百度芬| 擎,包括薪浪、 搜狐、2 6 3 ,t o m ,炎黄在线,c h i n a r e n ,赛迪网,清华大学,2 1 c n 等, 可见 其影响力。百度搜索中文有时较g o o g l e 还有一定的优势。更薪速度要快些。 特点:百度在中国各地和美国均设有服务器,搜索范围涵盖了中国大陆、香 港、台湾、澳门、新加坡等华语地区以及北美、欧洲的部分站点。百度搜索引擎 拥有目前世界上最大的中文信息库,总量达到6 0 0 0 万页以上,并且还在以每天 几十万页的速度快速增长。l j 6 上海交通入学硕士学位论文 概念榆索若干关键技术的研究 1 1 2 搜索引擎组成部分及其主要技术 一个搜索弓| 擎由搜索器( r o b o t ) 、索引器( i n d e x e r ) 、检索器( q u e r ys e r v e r ) 和用户接口( u s e ri m e r f a c e ) 等四个部分组成。 1 搜索器 搜索器的功能是在i n t e r n e t 中漫游,发现和搜集信息。它常常是个计算机 程序,日夜不停地运行。尽可能多、尽可能快地搜集各种类型的新信息,同时因 为i n t e m e t 上的信息更新很快,所以还要定期更薪已经搜集过的l 舀信息,以避免 死连接和无效连接。搜索器常用的遍历算法有深度优先搜索和广度优先搜索等。 搜集的信息类型多种多样,包括h t m l 文本、x m l 文本、字处理文档( 如w o r d , p d f ) 、多媒体信息等。搜索器的实现常用分布处理和并行计算技术,以提高信 息发现和更新的速度。 2 索引器 索引器的功能是理解搜索器所搜索的信息,从中抽取出索弓l 项,用于表示文 档以及生成文档集的索引库。索弓| 库一般使用某种形式的倒排文档( i n v e r s i o n f i l e ) ,即由索引项定位相应的文档。索引库也可能要记录索引项在文档中出现的 位置,以便检索器计算索引项之间的相邻或接近关系( p r o x i m i t y ) 。索引器可以 使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现即时索引 ( i n s t a n ti n d e x i n g ) ,否则不能够跟上信息量急剧增加的速度。 3 检索器 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询 的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈枫制。 检索器常用的信息检索模型有向量检索模型、集合论模型、概率检索模型和统一 模型【。 4 用户接口 用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。 主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、 及时的信息。用户接口的设计和实现使用人机交互( c o m p u t e rh u m a n i n t e r a c t i o n ) 的理论和方法,要充分适应人类的思维习惯。 1 。1 。3 搜索引擎技术未来的发展趋势 搜索引擎已成为一个新的研究、开发领域。因为它要用到信息检索、人工智 能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理 等多领域的理论和技术,所以具有综合性和挑战性。又因为搜索引擎有大量的用 7 上海交通人学硕i 学位论文 概念榆索若干关键技术的研究 户,能为魇户提供信息检索服务,有很好的经济价值,所以引起了世界各国计算 机科学界和信息产业界的高度关注,目前的研究、开发十分活跃,并出现了很多 值得注意的动向。 1 十分注意提高信息查询结果的精度,提高检索的有效性。 用户在搜索引擎上进行信息查询时,并不十分关注返回结果的多少,而是看 结果是否和自己的需求吻合。对予个查询,传统的搜索引擎动辄返阐几十万、 几百万篇文档,用户不得不在结果中筛选。解决查询结果过多的现象目前出现了 以下凡种方法:是对返暖的查询结果进行r a n k 计算,寻找最权威豹页面、摊 名最前的页面提交给用户,r a n k 计算方法多种,但超链结构忡3 分析最基本、最 重要的方法。二是通过各种方法获得用户没有在查询语句中表达出来的真正用 途,包括使用智能代理跟踪用户检索行为,分析用户模型秘3 ;使用相关度反馈机 制,使用户告诉搜索引擎哪些文档和自己的需求相关( 及其相关的程度) ,哪些 不相关,通过多次交互逐步求精。三是用文本分类( t e x tc a t e g o r i z a t i o n ) 技术将 结果分类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。 四是进行站点聚类或内容聚类( c l u s t e r ) ,减少信息的总量。五是提闻深入,用 户在开始时也许不是很清楚自己的需求,通过进一步提问可以使查询结果更加符 合用户的需求。【l 嬲 2 定题式搜索引擎 i m e m e t 规模的迅速扩张使得定题式搜索引擎具有重要的现实意义,定题式 搜索弓| 擎提供某领域、某一大类主题的搜索功能,因此少( 相对于整个i n t e m e t ) 而精( 相对于某一特定主题) 。主题式搜索引擎需要特殊的r o b o t 采集算法来采 集感兴趣主题的文档,其健的文档则尽量不暴集和少采集,因羹艺对r o b o t 的主题 式采集算法对页面的主题应有一定的识别,尤其是访问页面之前就能识别出这些 更面是否和主题相关,可以决定是否采集他们或者制定页面采集的优先顺序,因 而大大节约网络带宽、提高采集效率。卡内基梅隆( c m u ) 的c o r a 搜索引擎h 订 就是一个专门采集各大学计算机系网站上的论文的专题搜索引擎 ( h t t p :c o r a 。w h i z b a n g 。c o m ) 。 3 采用分布式体系结构提高系统规模和性能 搜索零| 擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有 千秋。但当系统规模达到一定程度( 如网页数达到亿级) 时,必然要采用某种分 布式方法,以提高系统性能。搜索弓l 擎的各个组成部分,除了用户接团之外,都 可以进行分布:搜索器可以在多台机器上相互合作、相互分工进行信息发现,以 提高信息发现和更新速度;索引器可以将索弓1 分布在不同的机器上,以减小索引 对视器的要求;检索器可以在不同麴视器上进行文档的并行检索,以提离检索昀 速度和性能。 8 t 海交通人学硕 :学使论文概念枪索若干关键披术的研究 4 。基子智髭代理鼹信患过滤秘个性化簸务 信息智能代理使用自动获得的领域模型( 女n w e b 知识、信息处理、与用户 兴趣相关憨信息资源、领域缝织结构) 、鲻户模型( 鲡蔫户背景、兴趣、行为、 风格) 知识进行信息搜集、索引、过滤( 包括兴趣过滤和不良信息过滤) ,并自 动地将用户感兴趣的、对用户有用的信息提交给用户。智能代理具有不断学习、 适应信惠帮震户兴趣动态变化静能力,默丽能够提供定制赧务( c u s t o m i z a t i o n ) 和个性化服务( p e r s o n a l i z a t i o n ) 。智能代理可以在用户端运行,也可以在服务 器端运行。 5 交叉语言检索的研究和开发 交叉语言信怠检索是指用户用母语( 如汉语) 提交查询,搜索零| 擎在多静语 言( 如英语、法语、德语、日语) 的数据库巾进行信息检索,返回能够阐答用户 问题的所有语言的文档。如果再加上机器翻译,返回结果可以朋母语显示。该技 术蠢嚣还处于初步研究阶段,主要熬嚣难在于语言之润在表达方式帮语义对应上 的不确定性( 如依赖于上下文、一字多义) 。但对于经济全球化、i n t e m e t 跨越 国界靛今天,无疑具有穰重要筻意义。 6 搜索引擎技术和其它信恩技术的相互借鉴 翦文已经指出,搜索譬| 擎是一个综合性缀强酶领域,必然要使焉信惑技术其 它领域的理论和技术。搜索引擎面对的是因特网上时刻处于动态变化的海量信 息,在计算机的发展史上,我们从来没有处理过如此大规模的数据,原有的理论 瘸技术盛须进行耦应豹改造才麓加以有效的利蔫,才栽解决好搜索雩l 擎西对靛褥 题。另一方面,搜索引擎使用的技术也可以被其它领域的应用所使用。例如搜索 弓| 擎是基予检索技术匏应耀,它的鬻户模型和菲基于检索技术酶应焉 ( n o n s e a r c h t e c h n o l o g y 。b a s e da p p l i c a t i o n s ) 的用户模型有很大的不同。但它们 会面对很多共同瓣阀题。例查曩菲基于检索技术鲍应用都要提供某种形式的过滤服 务,如信息选径( r o u t i n g ) 、分类( c a t e g o r i z a t i o n ) 、聚类( c l u s t e r i n g ) 、抽 取( e x t r a c t i o n ) 、摘要( a b s t r a c t i o n ) 、事件检测( e v e n td e t e c t i o n ) 等等,而 这释黢务在援索弓 擎系统中也要提供,这两静系统所属技术熬褶互借鉴将有助予 更好地解决各自领域的问题。 1 1 4 智能化的搜索引氅 现在的搜索零| 擎的一个发展方向就是正在开始结合一些信息论、概率统计、 数据挖掘和人工智能的算法,研究从客户端( 根据用户的习惯、嗜好、背景) 到 服务臻( 根据菇惠的零| 周率、可售度、售怠量耋魂地簿选信息款方法,以达至 智能地、简捷地提取信息。 9 上海交通大学硕士学位论文 概念检索若干关键技术的研究 智能信息检索正在成为信息检索研究的热点闯题。智麓信惠检索涉及信息检 索和人工智能技术,应用在如下方面: 1 概念信息检索:美国著名的人工智能专家s c h a n k ,k o l o d n e r 和d e j o n g 在1 9 8 1 年发表的( ( c o n c e p t u a li n f o r m a t i o nr e t r i e v a l ) ) 一文中建立了概念信息检索 的理论框架,并且指导了他们的概念信息检索系统c y f r 的开发。【1 2 】 2 ,检测和跟踪:其露标是从按时间顺序的新闻流中检测到新事件并不断跟 踪感兴趣的事件。y a n g 概述了相关的信息检索和机器学习技术,扩展了现有的 有指导学习和无指导的聚类算法,文档可以根据内容和事件的时间段进行分类。 她们采用r e u t e r s 和c n n 的新闻来评价自己的算法,发现凝聚的( a g g l o m e r a t i v e ) 文档聚类算法对检测回顾事件很有效,焉带时间窗口的单遍聚类则能有效地发现 新事件。当仅有很少的训练样本时要进行事件追踪,k n e a r e s tn e i g h b o r 分类算法 和决策树方法是有效的。【l 3 w w w 土的查找、过滤与导航:d u n i am l a d e n i c 对智能a g e n t 技术进行了 调查,涉及信息检索、机器学习、自然语言处理等。比较了两种智能a g e n t 常用 开发方法基予内容的和协作的。在第一种方法中,志容( 例如文本) 扮演了 重要角色:在第二种方法中,则需要多种知识资源( 如某些用户) 。 1 4 】 4 超文本浏览:f r a n c i sc r i m m i n s 提出了两阶段分析工具来访问和研究网站 内容。第一阶段使用m e t a s e a r c h e r ,它使用伪反馈来自动扩展查询。第二阶段使 用数据挖掘工具,用于文献目录。【l 副 5 ,文本分类:s h o l o mw e i s s 提出了薪的文本挖掘算法,使用适成性重取样 策略( a d a p t i v e r e s a m p l i n g ,b o o s t i n g ) 来训练决策树分类器。也适用于e m a i l 的 定制分发。 t 6 1 6 多媒体信息检索:m a d i r a k s h id a s 等提出了一个系统,可以适用臼然语言 ( 颜色名称) 或类似图形蠢询( 给出图形样例) 来检索图形。u ” 1 1 。5 概念检索 目前大多数搜索引擎采用的全文检索技术基本都是基于关键词匹配的。只要 发现某个文档( 嘲页) 孛含有这个关键词,就将该文档( 网页) 作为查询结果返 回给用户。 比如,一个用户要查询有关计算机的信息,他输入“计算机”作为关键词, 所得到的结果中一定都含有“计算机”。僵“计算机”实际上是用户头脑中某个 概念的一个名称。它还可叫做“电脑”、“微机”等等。由于词形上的差异往往不 能完全满足关键淄匹配的要求,因此它们并来在结果中出现。 因为在基于关键词匹配的检索过程中参与匹配的是关键词的外在形式,而不 j :海交通人学硕上学位论文概念检索若干关键技术的研究 是它们所表达鲶概念,所以经常出现检索不全的情况。由于词检索韵局限性眈较 大,很少能完全地反映用户需求,因此,在词检索过程中,人们被迫要求扩展到 圊义词检索,实际上就是要求应让概念检索来替代词检索。概念检索突破了关键 词匹配局限于表面形式的缺陷,从词所表达的概念意义层次上来认识和处理用户 的检索请求。【1 8 】【1 9 】1 2 0 】f 2 i 】【2 2 】 概念是对象的本质在入脑中的映象。概念可由不同的词、词组乃至字串等表 述出来。词是概念的一种表述形式,它不仅不是唯一表述形式,而且人们往往用 不囝的谪表述同一个概念。譬如,“中国城市孛用之最广的交通工具 这个概念 就可用“自行车 、“脚踏车 、“单车”或“b i c y c l e ”等表述出来。 概念检索与传统的信息检索相比,有着如下优点:f 4 6 】【4 8 j f 4 9 】f 5 0 】1 5 1 1 1 概念检索打破了关键词障碍。由于传统的信息检索只是通过关键词的出 现与否来检索文献,因此只能检索出那些显式地包含用户指定词条的文档。概念 检索把信息检索从县前基于关键词层面提高到基于概念层面,从而在一定程度上 解决了这个问题。 。2 概念检索能提供较好的自然语言接掰。传统的信息检索的检索语言专门 性很强,有着特别的规定和规则,用户必须经过学习才能掌握运用。因此,它在 人机交互方面有较大的局限性。概念检索可以采用自然语言提问,在入机交互上 较好地改善了信息检索系统的用户友好性。 3 概念检索具有较高的人机交互水平。由于传统的信息检索采用规范化的 检索用语,因丽入机交互受到限制,停留在清单式的水平上。在概念检索中,焉 户和系统之间可以用自然语言进行交互式对话,彼此利用信息的反馈来达到用户 的提问与系统的圈答之间的匿配。戮1 ( 4 礁 一些搜索引擎例如m a g e l l a n , 2 4 j 开始在关键词检索的基础上引入基于概念的 检索( c o n c e p ts e a r c h ) 。它利用了词条在概念上的相关性,因此可以检索出那些 并不显式地包含用户指定词条,但是却包含其同义词或者下位词的文档。例如, 用户向m a g e l l a n 查询“r o b o t 时,m a g e l l a n 除了返回包含“r o b o t ”的结果,还 会找到提及“c r a w l e r ”,“s p i d e r ”,“w a n d e r 抒等词条的结果。这样,既方便了用 户请求的输入,也提高了信息检索的召回率。 e x c i t e t 2 5 】搜索引擎也是采用概念检索技术设计豹。在e x c i t e 搜索引擎输入检 索词“e l d e r l yp e o p l ef i n a n c i a lc o n c e r n s ”,系统可将“e c o n o m i cs t a t u so fr e t i r e d p e o p l e ”和“也ef i n a n c i a lc o n c e r n so f s e n i o rc i t i z e n s 等与检索词概念一致的信息 作为返回结果,可见系统自动将“e l d e r l yp e o p l e 与“r e t i r e dp e o p l e ”和“s e n i o r c i t i z e n s ”,“f i n a n c i a lc o n c e r n s ”与“e c o n o m i cs t a t u s ”进行了概念匹配。由于概念 检索具有智能化检索的一些特性,因此,备受检索餍户的青睐。 上海交通大学硕一 j 学位论文 概念榆索若干关键技术的研究 1 。2 本文主要研究内容 本文主要对概念检索中靛若予关键技术进行研究,包括概念圈的设计组织, 索引库的改进,以及排序算法的研究。 本文首先对概念豹定义和概念与表述形式闽关系进行了探讨,研究了概念网 的组织结构,以及它在检索提问扩展和语义联想检索中的应用。接下来对现有的 索引库结构做了改进,引入维( f i e l d ) 的概念,实现了常用查询概念鼹,研究了 检索提澜中蠢期顼的处理方法。最后对服务器豹访问弱意进分析,提蠢了基于用 户反馈的网页重要度的评定算法。 1 3 主要研究成果和章节安排 本文的主要骈究成果是根据本文的研究内容构建了一个概念网,并且实现了 一个概念检索的原型系统。本文的章节安排如下: 第一牵“绪论 回顾了信息检索的发展历史与现状,并指戡概念检索的重要 性。最后阐述了本文的主要研究内容和章节安排。 第二章“概念检索摸型 首先引入概念的定义帮概念与表述形式阕的关系, 接下来介绍讨论了w o r d n e t ,h o w n e t 和主题词表的设计组织。在此基础上,提 出了本文概念网( c o n c e p t n e t ) 的结梅组织,并且研究了概念网在概念检索孛的 应用,主要是在自然语言提问中的概念扩震和基于概念网的语义联想检索。 第三章“索引库存储结构的改进 在研究倒排文档结构的基础上,提出了对 索弓l 文件结构豹改进,将维的概念勰入索弓l 顼,并且实现了常用查谗概念的索弓| 库,提出了检索提问中日期项的处理方法。 第四章“检索结集定穿算法斡磷究格首先介绍常髑v s m 算法和p a g e r a n k 算 法,主要研究对服务器访涧日志中的信息挖掘,提出了基于用户反馈的网页重要 度的算法。 第五章“原型系统的构造与实现 介绍了原型系统的各个模块和它的特点。 第六章“总结与展望”对全文工作进行了总结,并提出下步的工作展望。 1 2 上海交通大学硕士学位论文概念枪索若干关键技术的研究 第二章概念检索模型 实现概念检索的关键是建立个概念网( c o n c e p t n e t ) 。概念是人类思维中 楣对深层酶载义攀元,它与使黑什么语言来表述是没有太多关系鲢,是霹变的。 它的变化体现在:1 可使用不同的语言来表达同一概念;2 同一概念在同一种 语言中也可有不圊的表述。为了表示概念并对概念进行运

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论