(系统工程专业论文)智能搜索引擎系统的分析设计与开发.pdf_第1页
(系统工程专业论文)智能搜索引擎系统的分析设计与开发.pdf_第2页
(系统工程专业论文)智能搜索引擎系统的分析设计与开发.pdf_第3页
(系统工程专业论文)智能搜索引擎系统的分析设计与开发.pdf_第4页
(系统工程专业论文)智能搜索引擎系统的分析设计与开发.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(系统工程专业论文)智能搜索引擎系统的分析设计与开发.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 搜索引擎是指在万维网中主动搜索信息并能自动索引且提供查询服务的一 类软件系统。随着i t 的迅速发展,各种各样的网站也层出不穷。各大网站都面 临着网站内部信息检索的问题,如何设计一个通用的、有效的检索模式是一个重 要的问题。目前搜索引擎的研究和应用已经取得了巨大的进步和发展,但是从当 前搜索引擎实际的现状来看,仍然存在下述几个问题有待去进一步研究:搜索引 擎对自然语言的理解处理程度不够高:搜索引擎在通用模式的设计上需要规范; 搜索引擎的搜索结果评价方法需要改进。 针对以上存在的问题本论文的主要工作如下: 1 本文设计了智能搜索引擎的框架并且实现了大部分功能,给出了适合中小 型网站站内检索的通用的搜索引擎模式。 2 在检索接口处采用了自然语言理解处理的方法,提高了搜索引擎的智能 性。 3 针对不同用户的不同要求提出针对个性化的用户服务,给出新的排序算 法,并对用户信息进行挖掘处理。 4 在文章摘要中提出了快速提取文章摘要算法,并且取得良好的结果。 本智能搜索引擎具有广泛的应用价值,学术价值。对于目前一些中小型网站 都没有自己的站内搜索引擎,一些个别的具有检索功能的网站,也主要是对网站 后台数据库的简单检索,如果发生了元数据的更改,或者网站内部链接的拓扑结 构发生了变化检索就会失效。本文的智能搜索引擎可以很好的解决以上问题。 关键词:搜索引擎;全文检索;分词:自然语言 a b s t r a c t s e a r c he n g i n ei sak i n do fs o f t w a r et h a tc a na c t i v e l ys e a r c hi n f o r m a t i o ni n w o r l d w i d e w e ba n dc a na u t o m a t i ci n d e xa n dp r o v i d es e a r c h i n gs e r v e r w i t ht h e q u i c kd e v e l o p m e n to fi t a l lk i n d so fw e b s i t e sw e r eb u i l to n ea f t e ra 1 1 0 t h e ne a c h w e b s i t ef a c e st h ep r o b l e mo ft h ei n t e r n a li n f o r m a t i o na c q u i s i t i o n i ti sa ni m p o r t a n t p r o b l e mh o w t o d e s i g nag e n e r a la n de f f e c t i v e l ys e a r c hm o d e t h er e s e a r c ho ft h e s e a r c h e n g i n e h a so b t a i n e dt h ee n o n n o u s d e v e l o p m e n t ,b u tc u r r e n t l yt h e s e a r c h e n g i n e s t i l lh a saf e wp r o b l e m sa sf e l l o w :s e a r c he n g i n e s c a p a b i l i t y o fn a t u r a l l a n g u a g eu n d e r s t a n d i n gi sn o te n o u g ht of i tt h en e e d s s e a r c he n g i n e ss u m m a r yo f r e t u r nt ot h ec u s t o m e rn e e dt o i m p r o v e s e a r c he n g i n e sr e s u l te v a l u a t i o nm e t h o d n e e dt oi m p r o v e i no r d e rt os o l v e 也e s e p r o b l e m s t h i st h e s i sf o c u s o nt h i sa i m sa sf o l l o w s : 1t h i s p a p e rg a v eaf r a m e w o r k o f i n t e l l i g e n c es e a r c he n g i n ea n d r e a l i z e dp a r t so f f u n c t i o n s t h i sp a p e rg a v eam o d e lo fi n t e l l i g e n c es e a r c he n g i n e ,i tc a nf i tf o ra n y s m a l ls c a l e dw e b s i t et oi n f o r m a t i o na c q u i s i t i o n 2w bu s en a t u r a ll a n g u a g eu n d e r s t a n d i n g t e c h n i q u e a tt h ei n t e r f a c eo ft h es y s t e m t oi n c r e a s et h ei n t e l l i g e n c eo f t h es e a r c h e n g i n e 3t h i ss y s t e mc a l lp r o v i d ep e r s o n a l i z es e r v e rt oa d a p tt h ed i f f e r e n tr e q u e s to ft h e d i f f e r e n tc u s t o m e r ,a n dg a v en e wa l g o r i t h mo fs o r tq u e r yr e s u l t s ,a n dc a nm i n e c u s t o m e r si n f o r m a t i o n 4t h i sp a d e rp r e s e n t e daf a s ts t m a m a r ye x t r a c ta l g o r i t h m t h i si n t e l l i g e n c es e a r c he n g i n eh a st h ee x t e n s i v ea p p l i c a t i o nv a l u e n o wm o s to f t h es m a l l s c a l e dw e b s i t e sd o n th a v et h ec a p a b i l i t yo fi n f o r m a t i o nq u e r y , s o m eo n l y h a v et h es i m p l ef u n c t i o nt os e a r c hi n f o r m a t i o nf r o md a t a b a s e i ft h em e t a d a i a c h a n g e d o rt h e t o p o l o g i cc h a n g e dt h e s e a r c hf u n c t i o nw i l lb ei n v a l i d a t e t h ei n t e l l i g e n c e s e a r c he n g i n ec a nb eg o o ds o l u t i o na b o v e p r o b l e m s k e y w o r d s :s e a r c he n g i n e ;f u l lt e x ti n d e x ;w o r d s e g m e n t ;n a t u r a ll a n g u a g e i i 智能搜索引擎系统的分析设计与开发 1 引言 1 1 问题提出 2 0 世纪末是万维网开始膨胀的时期,它的发展速度是十分j 凉人的。据统计, 万维网已经连通了世界上几乎所有的国家,并且万维网正在急速发展。目前,万 维网已经成为世界上最大的信息源,成为全球范围内科研、教育、商业和社会、 新闻、学校和专业机构介绍、图书及娱乐等信息的集大成者。万维网信息量的急 剧增加所带来的最直接的问题就是:面对如此庞大的世界级数据源,网络用户如 伺从这些浩如烟海的资源中找到符合自己需求的信息。这已经成为如何有效地利 用万维网信息的最大障碍之一。随着信息量的增长,人们越来越多地关注如何开 发和利用这些资源,高效地定位特定信息变得越来越重要。为了帮助用户在万维 网卜搜索自己需要的信息,计算机专家和信息管理专家开发出了万维网信息检索 工具搜索引擎1 5 j 。 搜索引擎是指在万维网中主动搜索信息并能自动索引且提供查询服务的一 类软件系统。它通过使用网络搜索软件( 又称网络搜索机器人) 或网站登录等方 式,将互联网上大量网站的页面收集到本地,经过加工处理而建成数据库,从而 能够对用户提出的各种查询作出响应,提供用户所需的信息。搜索引擎的出现使 得在数秒钟内检索出大量的文献成为可能1 6 】。 目前搜索引擎的研究和应用已经取得了巨大的进步,但是从当前搜索引擎实 际的现状来看,仍然存在下述几个问题有待去进一步研究。 1 ) 如何建立一个通用的、有效的、广泛适用的模式 随着i t 的迅速发展,各种各样的网站也层出不穷。各大网站内部也面临着 网站内部信息检索的问题,如何设计一个通用的、有效的检索模式是一个重要的 问题。现在大多数中小型网站都没有提供对网站的内部信息检索的功能:还有一 些网站是针对内部数据库给出了一些简单的查询功能,但是不能对网站进行全文 检索。如果网站的内部数据库结构或者超级链接的拓扑结构发生变化,这种简单 的检索功能就会失败。这就提出了一种要求,能不能设计一种通用的,适合于任 何网站的搜索引擎呢? 如果能设计一个这样的搜索引擎,将会大大提高网站的信 息利用率,并能给用户带来更多的方便并且节省网站建设费用。 现在的j 2 e e 技术中,已经把j a v a m a i l 和j m s ( j a v a 消息服务) 技术作为一 智能搜索引擎系统的分析设计与开发 言理解方面的功能。自然语言理解的优势在于,一是使网络交流更加人性化、智 能化,二是使查询变得更加方便、直接、有效。 3 ) 搜索引擎的评价方法需要改进 对于现在的搜索引擎,如果输入一条普通的词语,搜索出来的结果是庞大的 几万共至几十万条,这么多的结果中需要建立一种完善的评价体系对结果进行评 价,把最有可能是用户需要的结果返回给用户。目前主要有两种评价方法a ) 基于 链接评价的搜索引擎是基于这样种认识,一个网页的重要性取决于它被其它网 页链接的数量,特别是一些已经被认定是“重要”的网页的链接数量。但是由于 互联网是在一个商业化的环境中发展起来的,一个网站的被链接数量还与它的商 、推广有着密切的联系,因此这种评价体制在某种程度上缺乏客观性。b ) 基于访 问大众性的搜索引擎它的基本理念是多数人选择访问的网站就是最重要的网站。 根据以前成千上万的网络用户在检索结果中实际所挑选并访问的网站和他们在 这些网站上花费的时间来统计确定有关网站的重要性排名,并以此来确定哪些网 站最符合用户的检索要求。因此具有典型的趋众性特点。这种评价体制与基于链 接评价的搜索引擎有着同样的缺点。 1 2 搜索引擎研究综述 1 2 1 国内外搜索引擎研究的背景和进展 现代意义上的搜索引擎的祖先,是1 9 9 0 年由蒙特利尔大学学生a l a n e m t a g e 发明的a r c h i e 。虽然当时w o r l dw i d ew e b 还未出现,但网络中文件传输还是相 当频繁的,而且由于大量的文件散布在各个分散的f t p 主机中,查询起来非常 不便,因此a l a n e m t a g e 想到了开发一个可以以文件名查找文件的系统,于是便 有了a r c h i e 。 a r c h i e 工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网 上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。由于a r c h i e 深受用户欢迎,受其启发,美国内华达s y s t e mc o m p u t i n gs e r v i c e s 大学于1 9 9 3 年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除了索引文件 外,已能检索网页。 当时,“机器人”一词在编程者中十分流行。电脑“机器人”( c o m p u t e r r o b o t ) 是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门 用于检索信息的“机器人”程序像蜘蛛一样在网络间爬来爬去,因此,搜索引擎 智能搜索引擎系统的分析设计与开发 的“机器人”程序也被称为“蜘蛛”程序。世界上第一个用于监测互联网发展规 模的“机器人”程序是m a t t h e w g r a y 开发的w o r l d w i d e w e b w a n d e r e r 。刚开始 它只用来统计联网上的服务器数量,后来则发展为能够检索网站域名。 与w a n d e r e r 相对应,m a r t i nk o s t e r 于1 9 9 3 年1 0 月创建了a l i w e b ,它是 a r c h i e 的h t t p 版本。a l i w e b 不使用“机器人”程序,而是依靠网站主动提交 信息来建立自己的链接索引,类似于现在我们熟知的y a h o o 。 随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此, 在m a t t h e wg r a y 的w a n d e r e r 基础上,一些编程者将传统的“蜘蛛”程序工作原 理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从 跟踪一个网站的链接开始,就有可能检索整个互联网。到1 9 9 3 年底,一些基于 此原理的搜索引擎开始纷纷涌现其中以j u m p s t a t i o n 、t h ew o r l dw i d e w e bw o r m ( g o t o 的前身,也就是今天o v e r t u r e ) ,和r e p o s i t o r y - b a s e d s o f t w a r ee n g i n e e r i n g ( r b s e ) s p i d e r 最负盛名。 然而j u m p s t a t i o n 和w w ww o r m 只是以搜索工具在数据库中找到匹配信息 的先后次序排列搜索结果,因此毫无信息关联度可言。而r b s e 是第一个在搜索 结果排列中引入关键字串匹配程度概念的引擎。 最早现代意义上的搜索引擎出现于1 9 9 4 年7 月。当时m i c h a e lm a u l d i n 将 j o h n l e a v i t t 的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的l y c o s 。同 年4 月,斯坦福( s t a n f o r d ) 大学的两名博士生,d a v i d f i l o 和美籍华人杨致远( g e r r y y a n g ) 共同创办了超级目录索引y a h o o ,并成功地使搜索引擎的概念深入人心。 从此搜索引擎进入了高速发展时期。目前,互联网上有名有姓的搜索引擎已达数 百家,其检索的信息量也与从前不可同日而语。比如最近风头正劲的g o o g l e , 其数据库中存放的网页已达3 0 亿之巨! 随着互联网规模的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目 前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索 引擎技术和搜索数据库服务提供商。像国外的i n k t o m i ,它本身并不是直接面向 用户的搜索引擎,但向包括o v e r t u r e ( 原g o t 0 ) 、l o o k s m a r t 、m s n 、h o t b o t 等 在内的其他搜索引擎提供全文网页搜索服务。国内的百度也属于这一类,搜狐和 新浪用的就是它的技术。因此从这个意义上说,它们是搜索引擎的搜索引擎即元 搜索引擎( m e t a - s e a r c he n g i n e ) 阶l 。 智能搜索0j 擎系统的分析设计与开发 1 2 2 分词技术的研究 1 2 2 1 分词原理 在中文搜索引擎丌发的过程中,为了提高其智能性往往需要加入自然语言处 理的功能,汉语处理的首要问题就是分词。汉语中的分词技术是我国计算机科学 研究的重要课题之一,它是自然语言理解的基础。所谓分词就是把一句话或一篇 文章中的词逐个切分出来。由于汉语中的词的划分界限没有形式上的定义,这就 给计算机“分词”带来了巨大的困难。计算机处理语言的过程中首先是分析语句 中包含的词语,在根据这些词相应的信息进行解决问题1 1 7 】【1 8 】。 近年来,国内众多研究机构已经在计算机汉语文本自动分词方面进行了大量 的研究,并取得了很多成就。二十年来,已经提出了许多分词算法。我们可以将 现有的分词算法分为三大类:基于字符串匹配的分词方法、基于理解的分词方法 和基于统计的分词方法1 1 9 1 。 1 ) 基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一 个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配 成功( 识别出一个词) 。按照扫描方向的不同,串匹配分词方法可以分为正向匹 配和逆向匹配:按照不同长度优先匹配的情况,可以分为最大( 最长) 匹配和最 小( 最短) 匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和 分词与标注相结合的一体化方法。常用的几种机械分词方法如:正向最大匹配、 逆向最大匹配、最少切分( 使每一句中切出的词数最小) 。 还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最 大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配 和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配, 遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为 1 1 6 9 ,单纯使用逆向最大匹配的错误率为1 2 4 5 f 2 0 l 。但这种精度还远远不能满足 实际的需要。由于分词是一个智能决策过程,机械分词方法无法解决分词阶段的 两大基本问题:歧义切分问题和未登录词识别问题。实际使用的分词系统,都是 把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高 切分的准确率。 种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串 中识别和切分出一些带有明晁特征的词,以这些词作为断点,可将原字符串分为 智能搜索引擎系统的分析设计与开发 较小的串再来进机械分词,从而减少匹配的错误率。 另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策 提供帮助并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地 提高切分的准确率。 2 ) 基于理解的分词方法 通常的分析系统,都力图在分词阶段消除所有歧义切分现象。而有些系统则 在后续过程中来处理歧义切分问题,其分词过程只是整个语言理解过程的- d , 部 分。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信 息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控 部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义 信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需 要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种 语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试 验阶段。 3 1 基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的 次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好 的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计, 计算它们的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程 度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料 中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词 方法。但这种方法也有定的局限性,会经常抽出一些共现频度高、但并不是词 的常用字组,例如“这”、“之一”、“有的”、“我的”、“许多的”等,并且对常 用浏的识别精度差,时空开销大。实际应用的统计分词系统都要使用部基本的 分词词典( 常用词词典) 进行串匹配分词,同时使用统计方法识别一些新的词, 即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点, 又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。 这些算法各具特色,需结合具体的应用领域进行综合利用。已见诸报道的研 究成果如:北京航空航天大学计算机系的c d w s 分词系统,山西大学的现代汉 语自动分词及词性标注系统,北京大学计算语言学研究所的汉语切分与标注软 件,清华大学s e g 分词系统和s e g t a g 系统,哈工大统计分词系统,杭州大学 改进的m m 分词系统,m i c r o s o f t r e s e a r c h 汉语句法分析器中的自动分词,等等【2 1 】。 蛩能搜索引警系统的分析设计与开发 这些切分与标注软件大都通过大量跨领域文本的测试,具有较为稳定的性能 表现。在搜索引擎中,如果用户输入不是关键词而是长句子时,我们当然希望将 句子切分为单词,以利于更好的进行信息抽取。因此,设想构造一个规模较小的, 能够较好识别领域词汇的小型分词子系统。在构造自动分词子系统时,以人工分 词得到的语料库为标准。统计各类词汇出现的概率,构造词典。在分词时处于性 能考虑,采用了较简单的最长匹配法分词规则。经过测试,自动分词的结果完全 能够满足信息检索的需求吲一【2 3 j 。 1 2 2 2 自动分词算法 正向最大匹配法是最早提出的自动分词方法,它的基本思想是先取一句话的 前六个字查字库,若不是一个词,则删除六个字的最后一个字再查,这样一直查 r 去,至找到一个词为止。句子剩余部分重复此工作,直到把所有的词都分出为 止。逆向最大匹配法也一样,不同的是它是从句子的最后六个字开始的,每次匹 配不成功时去掉汉字串中最前面的一个字。两法思路清晰,易于计算机实现,但 由于试图用相对稳定的词表来代替灵活多变,充满活力的词汇。把词库搜索作为 判词的唯一标准,因而具有很大的主观性和局限性。另外,这两种方法实际上否 认了语言中的歧义现象【2 4 j “ 2 6 】。 正向最大匹配法处理完后才去逆向最大词法重新处理,这样就可以发现分词 中出现的歧义分法。例如阻下旬子:句予1 :当中华人民共和国成立的时候。句 子2 :今天真热。如果用正向最大词匹配法分词,第二个句子的结果是:“今天i 真热”,切分是r f 确的。但第一个句子的结果却是:“当中l 华人l 民l 共和国l 成立i 的时候n 显然,“当中华人民共和国”是歧义的字段,这里的切分是错误的。 如果采用逆向最大词匹配法进行分词,第一个句子的结果是“当1 中华人民共和 国i 成立i 的| 日寸候”,切分是汇确的。但是第二句的结果是:“今l 天真i 热”,“今天真 热”又是歧义字段。因此,本文采取了双向结合的办法处理分词。在有歧义的句 子时,我们将才采取语义理解处理。 1 2 3 自动文摘的研究 概括介绍一篇文章的内容可以有多种方式,其中最主要的方法就是做文摘。 文摘是准确全面地反映某一文章中一i l , 内容的简洁连贯的短文,与索引相比更能满 足信息获取的要求。现在很多搜索引擎都返回给用户一些简单的文摘,通过这些 7 一 智能搜索引擎系统的分析殴计与开发 文摘用户来决定是否浏览该网站。 自动文摘的概念是由l u h n l 2 7 j 首先提出的。当时,自动文摘并未引起人们的 足够重视。但随着近年来万维网的迅速普及,信息量激增,信息的自动化处理成 为一个亟待解决的问题。在此时代背景下,自动文摘越来越引起人们广泛的兴趣。 自动文摘包括三个步骤( 见图1 1 ) 。文本分析过程寻找最能代表原文内容的 成分。转换过程通过摘录或概括的方法压缩文本;最后一步是重组原文内容,生 成文摘。文摘的用途和它所面向的读者群,决定了文摘输出时对原文内容的再现 形式。自动文摘原理图: 图1 1 自动文摘原理图 f i g1 1t h ep r i n c i p l eo f a u t o m a t i c a b s t r a c t 文本分析和转换这两步对充分表示原文十分重要,我们的重点放在这上面。就目 前的自动文摘的研究状况而言,既有采用符号、规则的基于知识的方法,也有基 丁二词频及话语形式等文本表层特征的统计学方法;面向特定领域的自动文摘似乎 不难实现,而建立个通用的文摘系统却几乎不太可能。另外,文摘的评估也是 一个难题。因为许多文摘系统采用了基于知识的方法,可移植性和可维护性就成 了测试文摘的主要指标。可移植性衡量文摘系统用于耨领域时所付出的代价,包 括系统的顺应性和可替代性:可维护性指系统的可变性和可分析性。因文摘较索 引复杂的多,对句法分析的评价也是一个很重要的方面幽i 。 近年来在自动文摘中应用统计的方法正成为一个趋势。统计的方法独立于领 域知识和语言知识,通过识别重要的主题项来抽取包含这些主题项的上下文相关 句,并以此来构建摘要,应用范围比较广泛。自动文摘使用统计的方法可追溯到 l u h n 。当时自动文摘和文章索引关系紧密。基于统计方法的自动文摘在1 9 9 7 年 由计算语言学协会组织的智能化文摘研讨会中受到了极大关注并予以立项。 智能搜索0j 擎系统的分析设计与开发 识别文章的主旨在信息抽取的研究中,一直以词或短语在文章或语料库中出 现的频率作为识别主题的重要指标。主题词成为构建文摘的基础。有重要意义的 词和短语能反映文章的内容,可以构成粗略的文摘( 基于关键词的文摘) 。短语, 特别是名词短语被认为是语义信息的重要载体。计算文章中词和短语权值的方法 有多种。生成文摘时先将句子巾的重要词聚类,然后按权值对句子进行排序,再 根据排序结果依次选取权值较大的句子构成文摘。当这种方法用于基于用户提问 的文摘时,排序应以提问项为基准。 由于中文信息处理的困难以及现代信息技术发展阶段的限制,我国对自动文 摘的研究起步较晚,8 0 年代后期才开始。在形式特征方面,汉语和西文主要区 别是汉语词间没有空格,而真正负载信息的是词而不是字,因而存在自动分词问 题。同时,汉语的词汇极为丰富,同一个概念可以用很多不同的词汇表达,这给 词频统计带来了一定的困难。在语言的深层结构方面,汉语也有着自己的特点。 比如,汉语缺乏词形的变化,增加了句法分析的难度:汉语有一些特殊的句式, 如兼语、连动等。我国研究者针对汉语特点进行了不懈的努力,取得了可喜的成 就一i 二海交通大学王永成教授从8 0 年代末就开始研究自动摘录技术,1 9 9 7 年研 制了o a 中文文献自动摘要系统。其关键技术有三:1 ) 构造关键词词典;2 ) 从 文献的有关部位( 如前言、结束语) 中自动摘取包含关键词词典中的词的句子作为 候选文摘句,并根据其中包含的词典词的个数、相距远近、句子在文中的部位等 信息加权,然后再根据文摘长度的要求来选择权值较大的作为文摘句:3 ) 对文 摘句进行去毛边、排序、润色而生成文摘口9 1 。 8 0 年代末,东北大学姚天顺刚教授和香港城市理工大学联合开展了t 中文 全文自动摘要系统”的研究,该系统采用脚本知识表示,通过与用户交互获取文 摘。复旦大学吴立德教授等研制的自动文摘系统分析了篇章段落之间的语义联 系,建立了语义网,具有定的篇章理解能力,并能对任意文章给出任意长度的 摘要。 复旦大学吴立德教授等研制的自动文摘系统分析了篇章段落之间的语义联 系,建立了语义网,具有一定的篇章理解能力,并能对任意文章给出任意长度的 摘要【3 【 。 哈尔滨工业大学王开铸f 3 2 】教授等人提出了偏重于篇章物理结构的“篇章计算 模型”,并于1 9 9 2 年研制了一个基于篇章理解的军事领域自动文摘实用系统 m a t a s ( m i u i t a r y a r e at e x ta u t o m a t i c aa b s t r a c ts y s t e m ) 。该系统考虑了句子之间 的语义联系,但是系统不能自动判断段落的文体,需要人工干预。由于文体将直 智能搜索引擎系统的分析设计与开发 接影响到该系统中篇章的形式化表示,所以该系统提出的方法难以实现。北京邮 电大学的钟义信教授多年从事信息科学领域的教学和研究工作,倡导用“全信息” 的理论指导自动文摘的研制了 :发。在他的带领下,先后实现了面向计算机病毒方 面的g l a n c e 系统,面向新闻报道的n e w s 系统,以及面向神经网络学习算法领域 的l a d i e s 自动文摘系统。 近几年,从事自动文摘的企事业单位不断增加,彼此间的交流与合作也在增 多。例如,i b m 中国研究中心和大陆微软公司都在研制中文自动文摘的产品。 信息时代的飞速发展,对于自动文摘的研究工作者既是机遇也是挑战。回顾自动 文摘四十余年的发展历史,我们有理由相信自动文摘必将会在不远的将来为人类 做出应有的贡献。 1 3 本文研究的思路及要展开的工作 本文通过对现有的搜索引擎存在的问题进行研究分析,构建了一个智能搜索 引擎系统。 本文第一章是对现有的搜索引擎存在的问题进行提出,并对搜索引擎的发展 历史和背景进行介绍,然后对构建搜索引擎的关键技术进行了综述。 第二章是对智能搜索引擎系统进行分析和设计。主要给出了系统的总体设计 并且介绍了系统各个功能模块的主要功能。最后介绍了系统的整体工作原理。 第三章是系统的实现。主要是详细的介绍了智能搜索引擎系统各个功能子模 块的设计的难点和实现的方法。主要包括网络机器人的实现;自动文摘算法的提 出以及在搜索引擎系统的实现和应用:全文检索功能的实现;智能检索接1 :3 的实 现;排序器的设计和实现等。 第四章是试验结果。通过对本智能搜索引擎的实际应用来检验本系统的性 能。 智能搜索引擎系统的分析设计与开发 2 搜索引擎系统分析和设计 2 1 系统的框架 设计一个智能搜索引擎系统主要目的是针对中小型网站能进行自动信息检 索建立排序文件,同时为用户提供快速信息查询服务,帮助用户检索到自己需要 的知识。一个搜索引擎主要由网页搜索模块、文件索引模块、用户查询模块三大 部分构成,这是一个搜索引擎必备的三部分功能。本文设计的搜索引擎扩展了这 三大功能。 一个智能搜索引擎系统需要良好的硬件支持和软件支持。针对第一章中所分 析的现有搜索引擎存在的三大问题:如何建立一个通用的、有效的、广泛适用的 模式问题:提高搜索引擎对自然语言的理解问题;搜索引擎的评价方法的改进问 题。本文从硬件和软件两个方面进行了仔细地分析,设计了一个功能强大的搜索 引擎系统,具体硬件框架和软件框架参见下面两节。 本系统具有如下特性: 可移植性:采用j a v a 技术具有良好的可移植性,j a v a 语言是现在应用最广 泛的丌发语言,它可以在w i n d o w s ,l i n u x 等不同平台上运行,用j a v a 语言开发 本系统可以使本系统直接在不同的平台上应用。 可扩展性:采用分布式设计的方案。在硬件的设计上本论文采用了索引服务 器和查询服务器分离开,这样可以保障系统良好的扩展性,当系统负载增加的时 候可以扩展服务器来采用分布式的应用来解决上述问题。 可定制性:用户可以根据需要更改系统,使它适合自己需要的专业搜索引擎, 用户- 以通过增加和删减系统的功能。 智能性:采用中文自然语言处理的方法,本系统通过对用户输入的文字进行 分析后确定检索策略。 提供个性化的服务:本系统通过挖掘闩志进行用户行为学习,进行个性化的 服务,不同的用户对相同的输入可以检索到不同结果。 基于上述特性,本系统具有如下优点: 检索全面:支持全文检索,满足不同层次需求。 智能搜索:采用人工智能、自然语言处理、语料库语言学等方面的技术,通 过运用灵活的常识性联想功能。 个性查询:针对不同的用户进行用户信息挖掘,进而提供给用户个性化的查 1 _ f j j 结果。 智能搜索哼 擎系统的分析设计与开发 准确摘要:通过列文本篇章结构的分析自动生成更准确的文章摘要。 通过以上对本文智能搜索引擎系统的分析以及和对现有搜索引擎的比较,我 们可以看出本文在设计思路和实现方法上与一般的搜索引擎都有很大不同。本文 的系统重点放在了系统的设计模式上和智能性上。本文的设计模式是采用j a v a 技术对现有的基于j a v a 技术的全文检索工具包和h t m l 分析器的工具包重新封 装,采用通用接1 3 组件模式给出一套完整的搜索引擎接口。本文给出这套接口规 范可以供搜索引擎在j 2 e e 平台下的规范化研究。本系统另外一个鲜明特色就是 智能接口的设计和开发,它使搜索引擎具有了智能性方便了用户的检索。 2 2 系统硬件拓扑结构分析 一个高效的智能搜索引擎系统,需要有先进的硬件配置支持。该智能搜索引 擎系统需要查询服务器和索引服务器来支持并提高系统的工作效率。这里给出一 个智能搜索引擎系统的硬件拓扑结构图如图2 1 。通过该图我们可以了解系统的 硬件构成及功能分配。 图2 1 系统硬件拓扑图 f i g2 1t h es y s t e m sh a r d w a r et o p o l o g i ef i g u r e 智能搜索引擎系统的分析设计与开发 系统中主要的硬件是查询服务器和索引服务器,各个服务器分担不同的任务 和职责。当系统的用户增加的时候可以通过增加服务器分担负载来提供服务。其 中索引服务器主要是存放分布式网络机器人,由于网络资源浩如烟海所以必须由 许多个网络机器人同时工作才能尽可能的采集信息,这就需要多台服务器多个机 器人并行工作来完成。查询服务器主要是检索用户通过网络通信对它的连接,由 于基于t c p i p 的网络连接程序每增加一个用户就会消耗大量的内存资源,这就 要求查询服务器具有良好的性能,同时具有可扩展性等要求。 2 3 系统的软件模块分析 通过前面的系统分系,本文设计了一个功能强大的搜索引擎。图2 2 是本搜 索引擎的系统原理图。搜索引擎主要由四大部分组成。l 网页搜索模块,2 网页 索引模块,3 查询模块,4 用户界面。其中网页搜索模块是由网络机器人构成; 网页索引模块是由全文检索系统和索引文件构成:查询模块是由排序器和知识库 构成:用户界面是由用户注册、用户登陆、用户信息库、字典文件、智能接口构 成的。系统通过网页搜索模块对所需检索的网站的页面进行搜集,网页索引模块 则是对这些内容进行排序处理建立索引,查询模块是智能的给用户提供查询服 务。 四大模块的主要功能分析如下: 1 ) 网页搜索模块分析 网页搜索模块主要是由图2 2 中的网络机器人和知识库构成。在互联网上各 个w e b 站点间的数据传输都遵循h t t p 协议,只要按照该协议向w e b 服务器 发出请求( g e t ,p o s t ,h e a d ) ,服务器就会根据请求做出回答,在正常情况 下将会返回h t m l 文档及其相应信息。网页搜索模块的核心部分网络机器人 ( r o b o t ) 是一种软件程序,它能自动的从网上漫游,从一个或者一组u r l 开始 访问该u r l 并进行本地索引,同时记录该u r l 所指h t m l 文档中的所有新的 u r l 锚链( a n c h o r ) ,然后再以这些新的u r l 为起点继续进行本地索引,直到没 有满足条件的新的u r l 为止。 2 ) 网页索引模块分析 智能搜索引擎系统的分析设计与开发 图2 2 智能搜索引擎原理图 f i 9 2 2i n t e l l i g e n c es e a r c he n g i n ep r i n c i p l ed i a g r a m 全文索引系统,高效检索系统的关键是建立一个类似于科技索引一样的反向 索引机制,将数据源( 比如多篇文章) 排序顺序存储的同时,有另外一个排好序 的关键词列表,用于存储关键词= ; 文章映射关系,利用这样的映射关系索引: f 关键词= = 出现关键词的文章编号,出现次数( 甚至包括位置:起始偏移量,结 束偏移量) ,出现频率1 ,检索过程就是把模糊查询变成多个可以利用索引的精确 查询的逻辑组合的过程。从而大大提高了多关键词查询的效率。 自动摘要是中文信息处理的一项关键技术。所谓自动摘要就是利用计算机从 原始文献中提取文摘。现有的自动摘要方法主要有自动摘录、基于理解的自动摘 智能搜索引擎系统的分析设计与开发 要、信息抽取和基于结构的自动摘要。 3 ) 奁询模块分柄 查嘲模块主要是由上图2 2 中的智能接口、字典文件、全文检索系统和排序 器构成。该模块的主要功能就是根据用户提交的查询请求在索引文件中检索相关 信息。陔模块还主要包括智能接口和排序器。现在的搜索引擎只能对关键词进行 全文检索。这就需要搜索用户对所需要查询的资源具有高度抽象和概括的能力, 而普通搜索用户希望用描述式语言对搜索资源进行刻画,这样没有自然语言处理 的搜索引擎就很难处理此类问题。 排序器就是对检索到的网页集合中优先把最有价值的网页提供给用户。因而 排序器也就是一个综合评价网页网站的文本评价系统。由于此类评价和用户的偏 好等有着直接的关系。例如同样对一个词语“树”,艺术家会希望从美学的角度 来评价它,而植物学家则会从它的生长,属于什么种类等角度评价它,而对木匠 则会从它的材质等角度来评价它。现在的搜索引擎对搜索结果的评价则是一个固 定的评价方法,无论你是艺术家、植物学家还木匠搜索树的排序结果都是同一个。 这就提出对搜索结果的个性化排序的要求,排序器需要对用户的知识结构和偏好 程度等多方面因素综合评价排序结果。本文的搜索引擎正是利用了对网站的基本 信息和用户的信息进行挖掘后来综合排序给出用户满意的排序结果。 4 ) 用户界面分析 r o r “ 登陆 ) 、 气 查询 ) ( 搜索刷站 ) , 、 ( 建立索5 1 ) 图2 3 系统的用例图 f i g2 3s y s t e m su s e re x a m p l ef i g u r e 智能搜索,i i 擎系统的分析设计与开发 用户界面就是用户和搜索引擎直接扣交道的部分。一个优秀的搜索引擎要从 多方多角度为用户考虑。用户可以基于b s 或者是c s 模式界面对搜索引擎进行 使j | 刊。本搜索引擎为了挖掘用户信息所以在用户界面中提供给用户注册的功能。 本智能搜索引擎可以针对不同的用户来提供不同的服务。系统的用户主要可 以分为两种即普通用户和系统管理员。图2 - 3 是系统的用例图,从图2 3 我们可 以看出系统对不同用户提供的服务是不同的。对于普通用户系统可以提供用户注 册、登陆、查询等服务;对于系统管理员系统提供的服务为有目的的选择网站进 行搜索和对搜索到的网站内容建立索引。这些包括了索引目录更新策略和系统安 全维护等问题,这些工作主要由系统管理员来完成。 2 4 系统自 j - r 作原理 本系统如果从用户和管理员的角度来分主要有两个功能模块:l 系统自动进 行信息搜索模块,2 是给用户提供查询信息的服务模块。 信息搜索系统的工作流程是: 1 ) 指定网站进行信息搜索 2 )提取网站的所有内部的u r i 3 ) 提取u r l 的页面信息( 去掉标签语言) 4 )建立索引 这部分工作主要本系统管理员进行控制和维护的。管理员要定期指定对某些 需要检索的来更新索引文件。由于网站的内容是不断的更新变化的比如新闻、b b s 等上的信息随时随地的在变化。如果搜索引擎系统要想提供及时准确的信息查询 服务,就要有策略的对网站进行遍历。例如现在著名的g o o g l e 、百度等搜索引 擎一般是2 0 多天对索引库进行更新一次。 本文是面对中小型网站设计的搜索引擎系统,因此灵活性比较大,可以根据 实际情况来制定更新策略。 用户提供查询信息的服务部分的流程比较简单,它主要的目的是给用户提供 服务帮助用户获得有用的信息或知识。它的主要流程是: 1 ) 用户登陆注册 2 )用户输入查询信息 3 )返回给用户有用的信息 智能搜索引擎系统的分析设计与开发 2 5 系统的开发环境及配置 为了实现本系统,通过对现有的技术和应用软件的分析。本系统采用如下的 开发环境: 刀:发语言主要采用j a v a 语言开发; 应用服务器采用a p a c h et o m c a t 4 1 : 数据库采用的m y s q l 4 0 1 5 ; 全文检索工具包采用l u c e n e l 3 ( j a k a r t al u c e n e 是一套免费的开放源代 码,由a p a c h ej a k a r t a 开发) ; r o b o t 采用h t m l p a r s e r 工具包进行开发: 汉语词典1 0 万条。 智能搜索引擎系统的分析设计与开发 3 搜索引擎系统的实现 3 1 网络机器人的设计 3 1 1 网络机器人的原理 网络内部的页丽之问通过u r l ( 统一资源定位) 互相连接,构成了一个非 常复杂的图。图3 1 是一个简单的网页连接图。要建立一个全面的搜索引擎必 须对嘲站内部的u r l 进行系统而全面的遍历。这是由一个搜寻程序r o b o t 来完 成。搜寻程序能利用h t t p 协议来读取w e b 页面并沿着h t m l 文档中的超链接 在w w w 上进行自动漫游,同时按照用户的要求自动访问资源。这里可将w w w 作为一个有向图来处理,将每一个页面看作图中的一个节点,将页面中的超链接 看作图中的有向边。因此,可以使用有向图

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论