(计算机应用技术专业论文)基于lucene搜索引擎的中文全文信息检索技术的研究.pdf_第1页
(计算机应用技术专业论文)基于lucene搜索引擎的中文全文信息检索技术的研究.pdf_第2页
(计算机应用技术专业论文)基于lucene搜索引擎的中文全文信息检索技术的研究.pdf_第3页
(计算机应用技术专业论文)基于lucene搜索引擎的中文全文信息检索技术的研究.pdf_第4页
(计算机应用技术专业论文)基于lucene搜索引擎的中文全文信息检索技术的研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机应用技术专业论文)基于lucene搜索引擎的中文全文信息检索技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华东师范大学硕:论文基于l u c e n e 搜索引擎的中文全文信息检索技术的研究 摘要 随着网络信息资源的急剧增长,人们对于如何快速有效地从海量的网络信息 中,抽取出对其有价值的、潜在的信息,使之能有效地被应用在管理和决策中给 予了越来越多的关注。信息检索技术帮助用户从海量的信息中提取出他们所需要 的有用信息,节省了用户的时间,提高了用户的工作效率。信息检索中的中文检 索与西文检索在实现的机制和原理上基本一致,但由于汉语本身的特点,必须引 入对于中文语言的处理技术,而中文分词技术就是其中很关键的部分。 论文首先阐述了与中文全文信息检索相关的关键技术,包括:信息检索的概 念、中文分词算法的概念、文档相关度排序算法的概念。论文系统地比较分析了 四种主要的中文分词算法:基于字符串匹配的分词方法、基于理解的分词方法、 基于统计的分词方法和基于语义的分词方法,总结了它们各自的优缺点及其在中 文分词各个评价因素上的优劣特性。论文在l u c e n e 原有文档相关度排序算法的 基础上,采用了基于用户行为的二次检索p a g e r a n k 以及主页加分方式,改进了 原有的排序算法。 论文的主要工作是基于l u c e n e 搜索引擎,设计并实现了一个中文全文信息 检索原型系统。提出了对于算法和系统的各种改进,即索引预处理、关键词提示 的操作优化、引入停止词分词算法、正向最大匹配算法的改进、逆向最大匹配算 法的改进。通过实验,将改进后的词典分词方法与l u c e n e 的自动切分方法:一 元分词法和二元分词法进行比较后,验证了基于本文提出的改进的词典分词方法 的优势。论文采用了基于用户行为的二次检索,p a g e r a n k 以及主页加分方式, 改进后的文档相关度排序算法利用了用户对文档的主观评价,显著地提高了搜索 系统的准确度。 最后,论文对基于l u c e n e 搜索引擎的中文全文信息检索系统的实现方法进 行了总结,并对未来进一步的研究工作进行了展望。 关键词:l u c e n e 搜索引擎;中文分词;文档相关度排序;全文信息检索 华东师范大学硕1 :论文某于l u c e n e 搜索引擎的中文全文信息检索技术的研究 a b s t r a c t w i t ht h er a p i dg r o w t ho fn e t w o r ki n f o r m a t i o nr e s o u r c e s ,m o r ea n dm o r e a t t e n t i o nh a sb e e np a i do nh o wt oe x t r a c tp o t e n t i a l l yv a l u a b l ei n f o r m a t i o nf r o ma m a s s i v en e t w o r k o fi n f o r m a t i o nq u i c k l ya n de f f i c i e n t l ys ot h a ti t c a 1 lb ea p p l i e di nt h e m a n a g e m e n ta n dd e c i s i o n - m a k i n ge f f e c t i v e l y i n f o r m a t i o nr e t r i e v a lt e c h n o l o g yc a l l h e l pu s e re x t r a c tu s e f u li n f o r m a t i o nt h e yn e e df r o mam a s so fi n f o r m a t i o n i tc a ns a v e u s e r st i m ea n di n c r e a s et h e i rp r o d u c t i v i t y t h em e c h a n i s m sa n dp r i n c i p l e so f i n f o l m a t i o nr e t r i e v a lf o rc h i n e s el a n g u a g ea n dw e s t e r nl a n g u a g e sa r eb a s i c a l l y c o n s i s t e n t ,b u tb e c a u s eo ft h ec h a r a c t e r i s t i c so fc h i n e s el a n g u a g ei ni t s e l f , s o m e c h i n e s el a n g u a g ep r o c e s s i n gt e c h n o l o g i e sm u s tb ei n t r o d u c e d ,a n dc h i n e s ew o r d s e g m e n t a t i o nt e c h n o l o g yi sav e r yc r u c i a lp a r t f i r s t l y , t h i sa r t i c l ee l a b o r a t e dt h ek e yt e c h n o l o g i e sr e l a t e dt oc h i n e s ef u l l t e x t i n f o r m a t i o nr e t r i e v a l ,i n c l u d i n g :i n f o r m a t i o nr e t r i e v a lc o n c e p t ,c h i n e s es e g m e n t a t i o n a l g o r i t h mc o n c e p t ,d o c u m e n tr e l e v a n c es o r ta l g o r i t h mc o n c e p t t h ea r t i c l e s y s t e m a t i c a l l yc o m p a r e da n da n a l y z e df o u rk i n d so fm a i nc h i n e s es e g m e n t a t i o n a l g o r i t h m :s e g m e n t a t i o na l g o r i t h mb a s e do ns t r i n gm a t c h i n g ,s e g m e n t a t i o na l g o r i t h m b a s e do nu n d e r s t a n d i n g , s e g m e n t a t i o na l g o r i t h mb a s e do ns t a t i s t i c sa n ds e g m e n t a t i o n a l g o r i t h mb a s e do ns e m a n t i c t h e i rr e s p e c t i v ea d v a n t a g e sa n dd i s a d v a n t a g e sa p p l i e d t oc h i n e s ew o r ds e g m e n t a t i o na r es u m m a r i z e dt h o r o u g h l y o nt h ef o u n d a t i o no ft h e l u c e n eo r i g i n a ld o c u m e n tr e l e v a n c es o r ta l g o r i t h m ,t h ea r t i c l ep r o p o s e da ni m p r o v e d s o r t i n ga l g o r i t h mb yu s i n gp a g e r a n kf o rt h es e c o n d a r ys e a r c hb a s e do nu s e rb e h a v i o r a sw e l la sb ya d d i n ge x t r ap o i n tf o rt h eh o m ep a g e t h em a i nt a s ko ft h et h e s i si st h ed e s i g na n di m p l e m e n t a t i o no fac h i n e s e f u l l t e x ti n f o r m a t i o nr e t r i e v a lp r o t o t y p es y s t e mb a s e do nt h el u c e n es e a r c he n g i n e i t p r o p o s e dv a r i o u sk i n d so fi m p r o v e m e n tr e g a r d i n gt h ea l g o r i t h ma n dt h es y s t e m , n a m e l yt h ei n d e xp r e t r e a t m e n t ,t h ek e yw o r dp r o m p t so p e r a t i o no p t i m i z a t i o n ,t h e i n t r o d u c t i o no fs t o pw o r ds e g m e n t a t i o na l g o r i t h m ,t h ei m p r o v e m e n to ft h eb i g g e s t m a t c h i n ga l g o r i t h ma n dt h er e v e r s i o nb i g g e s tm a t c h i n ga l g o r i t h m t h r o u g ht h e e x p e r i m e n t ,a f t e rt h ec o m p a r i s o no ft h ei m p r o v e dd i c t i o n a r ys e g m e n t a t i o nm e t h o d a n dt h el u c e n ea u t o m a t i cs e g m e n t a t i o nm e t h o d :o n ee l e m e n ts e g m e n t a t i o nm e t h o d i i 华东师范大学硕士论文基于l u c e n e 搜索引擎的中文全文信息榆索技术的研究 a n d t w oe l e m e n t ss e g m e n t a t i o nm e t h o d ,t h es u p e r i o r i t yo ft h ei m p r o v e dd i c t i o n a r y s e g m e n t a t i o na l g o r i t h mp r o p o s e db yt h ea r t i c l ei sv e r i f i e d t h r o u g ht h e u s e r s s u b j e c t i v ea p p r a i s a lo fd o c u m e n t sb yu s i n gp a g e r a n kf o r t h es e c o n d a r ys e a r c hb a s e d o nu s e rb e h a v i o ra sw e l la sb ya d d i n ge x t r ap o i n tf o rt h eh o m ep a g e ,t h ei m p r o v e d d o c u m e n tr e l e v a n c es o r t a l g o r i t h me n h a n c e dt h ea c c u r a c yo ft h es e a r c hs y s t e m s i g n i f i c a n t l y f i n a l l y , t h et h e s i ss u m m a r i z e st h ed e s i g na p p r o a c h e sa n dt h ei m p l e m e n ts t e p sf o r t h ec h i n e s ef u l l - t e x ti n f o r m a t i o nr e t r i e v a ls y s t e mb a s e do nl u c e n es e a r c he n g i n e ,a s w e l la st h ed i r e c t i o nf o rf u r t h e rr e s e a r c ha n di m p r o v e m e n t k e yw o r d s :l u c e n es e a r c he n g i n e ;c h i n e s ew o r ds e g m e n t a t i o n ;d o c u m e n tr e l e v a n c e s o r t ;f u l l t e x ti n f o r m a t i o nr e t r i e v a l i i i 学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研究工作及 取得的研究成果。据我所知,除文中已经注明引用的内容外,本论文 不包含其他个人已经发表或撰写过的研究成果。对本文的研究做出重 要贡献的个人和集体,均已在文中作了明确说明并表示谢意。 作者签名:二珏龃日期:笾弓世 学位论文授权使用声明 本人完全了解华东师范大学有关保留、使用学位论文的规定,学 校有权保留学位论文并向国家主管部门或其指定机构送交论文的电 子版和纸质版。有权将学位论文用于非赢利目的的少量复制并允许论 文进入学校图书馆被查阅。有权将学位论文的内容编入有关数据库进 行检索有权将学位论文的标题和摘要汇编出版。保密的学位论文在 解密后适用本规定 学位论文作者签名:耳哟争i 习 导师签名:会露记 日期:型烨 日期:垫哆i 华东师范大学硕十论文基于l u c e n e 搜索引擎的中文全文信息榆索技术的研究 第一章绪论 1 1 研究背景及意义 随着计算机技术的发展,个人计算机的普及以及全球办公自动化,社会信息 化程度大大提高,各行各业在信息化建设方面都有了比较深入的发展,随之而来 的是网络信息资源的急剧增长,人们对于如何快速有效地从海量的网络信息中, 抽取出对其有价值的、潜在的信息,使之能有效地被应用在管理和决策中给予了 越来越多的关注。信息检索技术帮助用户从海量的信息中提取出他们所需要的有 用信息,节省了用户的时间,提高了用户的工作效率,正在成为计算机科学界和 信息产业界竞相研究、开发的对象,各种新技术纷纷应用到搜索引擎中。 信息检索( i n f o r m a t i o nr e t r i e v a l ) n 1 ,通常指文本信息检索,包括信息 的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。 从历史上看,信息检索经历了手工检索、计算机检索到网络化、智能化检索等多 个发展阶段。目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对 象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、 更新快、分布广泛、管理相对松散的w e b 内容,信息。 从广义的角度上讲验1 ,搜索引擎指的是在网络上专门提供查询服务的一类网 站,它以一定的策略( 可以是搜索软件也可以是人工) 在互联网中搜集、发现信 息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信 息导航的目的。 从狭义上的角度来说口1 ,一个搜索引擎主要是由搜索器( c r a w l e r ) ( 信息收 集软件如蜘蛛机器人) 、索引器( i n d e x e r ) 、检索器( s e a r c h e r ) 和用户接i z i ( u i u s e r i n t e r f a c e ) 等四个部分组成的,即搜索引擎指的是基于某种技术在整个网络上自动 执行网页全文检索以备用户使用的网上指南工具。它的工作流程如图1 1 所示。 华东师范大学硕士论文基于l u c e n e 搜索引擎的中文伞文信息榆索技术的研究 键i 返 受i 嬲 夯i 结 弼i 聚 控索器c r a w l e r 摩蟾酬匕型娑竺 离 l h li 囱 返l 彘 题缩存赭 索引搀序 黎五 肇墨 篷虿 匹譬 强国 币 解上所 袈r j l 豁i n d e x e r 图1 1 搜索引擎的工作流程图 简单来说,搜索引擎的工作原理可以看作四步:从网络上自动抓取网页一建 立索引数据库一在索引数据库中进行搜索一将返回结果进行处理后返回给用户。 全文搜索引擎是真正意义上的搜索引擎,也就是我们刚才所说的狭义上的搜 索引擎。它通过一种计算机爬虫程序( s p i d e r ) ,时刻不停的从互联网上抓取各 种网页,压缩存储在自己的数据库中,等用户输入查询条件时,即在数据库中检 索出与之相匹配的相关记录,最后将搜索出的相关记录按一定的顺序返回给用 户。 虽然中文搜索引擎与西文搜索引擎在实现的机制和原理上基本一致,但由于 汉语本身的特点,必须引入对于中文语言的处理技术,而中文分讧j 技术就是其中 很关键的部分。因此,中文全文信息检索技术的研究具有较高的学术理论意义和 重要的实用价值。 1 2 国内外研究现状 1 2 1 中文分词算法研究现状 众所周知,西文是以词为单位的,词和词之间是靠空格隔开,而中文是以字 为单位,句子中所有的字连起来才能描述一个意思,把中文的汉字序列切分成有 意义的词,就是中文分词。跟西文的提取词根技术类似,中文分词技术是处理中 文所特有的技术,中文分词的好与坏直接影响到信息检索的精度。目前在自然语 言处理技术中,中文处理技术涉及诸多复杂的技术难点,许多西文的处理方法中 文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息 处理的基础,搜索引擎则是中文分词的一个重要应用。其他的比如机器翻译、语 音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。现有的中文分 词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于 2 华东师范大学硕上论文基于l u e e n e 搜索引擎的中文伞文信息检索技术的研究 统计的分词方法。 分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再 高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页, 如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索 引擎来说,分词的准确性和速度,二者都需要达到很高的要求。目前研究中文分 词的大多是科研院校,而真j 下专业研究中文分词的商业公司除了海量科技以外, 几乎没有。科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力 量毕竟有限,看来中文分词技术要想更好的服务于更多的产品,还有很长的一段 路要走。 跟英文的提取词根技术类似,中文分词技术是处理中文所特有的技术,中文 分词的好与坏直接影响到信息检索的精度。自动分类( 聚类) 在信息组织、导航方 面非常有用,其目的是帮助人们更好的发现、组织、表示信息,提取知识,满足 信息检索的高层次需要,有助于用户快速评价检索结果的相关程度。文本关联规 则技术,特别是对文本频繁项挖掘,能给用户在对信息检索需求转为搜索关键词 时提供帮助,从而给信息检索的人机交互方面增加了友好的一面。 1 2 2 信息检索研究现状 信息检索h 1 ,通常指文本信息检索,包括信息的存储、组织、表现、查询、 存取等各个方面,其核心为文本信息的索引和检索。从历史上看,信息检索经历 了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。 信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容 扩展到开放、动态、更新快、分布广泛、管理松散的w e b 内容;信息检索的用 户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业 人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的 要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。 互联网的发展明显地促进了信息检索技术的发展和应用,一大批搜索引擎产 品的诞生,为网民提供了很好的快速信息获取和网络信息导航工具。搜索引擎技 术中普遍采用了全文信息检索技术,而l u c e n e 的出现,使得搜索引擎开发者可 以简单、快捷,并且有针对性地实现相当强大的搜索功能,因此,受到了越来越 多的关注,得到了越来越广泛的使用。 3 华东师范大学硕十论文基于l u c c n e 搜索引擎的中文全文信息检索技术的研究 1 3 论文的主要工作及组织结构 1 3 1 论文的工作 论文结合中文分词与l u c e n e 搜索引擎,提出改进的中文分词算法和优先度 排序算法,并实现一个原型系统中文全文信息检索系统。本文的主要内容如下: ( 1 ) 通过对基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词 方法和基于语义的分词方法这四种中文分词算法的研究,总结了各个方法的 优缺点及其在中文分词各个评价因素上的优劣特性。 ( 2 ) 在l u c e n e 原有的基础文档评分算法的基础上,结合与用户行为相关的用户二 次检索方式,根据用户的点击量对点击量多的文档进行适当加分,形成改进 后的文档相关度排序算法。 ( 3 ) 通过索引预处理和关键词提示的操作优化改善了系统,对正向最大匹配t r i e 树递归算法的终止条件进行改进,使能够切分出整句的专有名词,并且引入 了停止词切分方法,结合正向最大匹配算法与逆向最大匹配算法,消除了歧 义,提高了切分的准确度。 ( 4 ) 通过实验,改进后的文档相关度排序算法利用了用户对文档的主观评价,显 著地提高了搜索系统的准确度;将改进后的词典分词方法与l u c e n e 的自动切 分方法:一元分词法和二元分词法进行比较后,验证了基于本文提出的改进 的词典分词方法的优势。 1 3 2 论文的组织结构 第一章绪论。主要阐述了论文的研究背景、目标、意义和国内外研究现状 等,并介绍了本论文的主要工作和组织结构。 第二章中文全文信息检索关键技术。主要介绍了与中文全文信息检索相关 的关键技术,包括:信息检索的概念、中文分词算法的概念、文档相关度排序算 法的概念。 第三章中文分词算法。简单介绍了中文分词算法的研究现状,详细阐述了 四种主要的中文分词算法:基于字符串匹配的分词方法、基于理解的分词方法、 基于统计的分词方法和基于语义的分词方法。研究和分析了它们各自的优缺点, 并总结了这四种方法在中文分词各个评价因素上的优劣。 第四章文档相关度排序算法。介绍了文档相关度的评分机制,指出查全率 和准确度是衡量一个优秀搜索引擎的两个重要标准。并且在原有文档相关度排序 4 华东师范大学硕十论文基于l u c e n e 搜索引擎的中文伞文信息检索技术的研究 算法的基础上,采用了基于用户行为的二次检索p a g e r a n k 以及主页加分方式,改 进了原有的排序算法。 第五章基于l u c e n e 的中文全文信息检索系统的设计与实现。主要介绍了基 于l u c e n e 搜索引擎的中文全文信息检索原型系统的设计与实现,包括:建立多种 索引模块的设计实现、搜索界面模块的设计实现、高级搜索模块的设计实现、中 文分词模块的设计实现。同时,也提出了对于算法和系统的各种改进,即索引预 处理、关键词提示的操作优化、引入停止词分词算法、j 下向最大匹配算法的改进、 逆向最大匹配算法的改进。最后通过实验数据的分析对比验证了改进的有效性。 第六章总结和展望。对基于l u c e n e 搜索引擎的中文全文信息检索系统的实 现方法进行了总结,并对未来进一步的研究工作进行了展望。 华东师范大学硕士论文 基于l u e e n e 搜索引擎的中文全文信息榆索技术的研究 第二章中文全文信息检索关键技术 2 1 信息检索概述 信息检索起源于图书馆的参考咨询和文摘索引工作,从1 9 世纪下半叶首先 开始发展,至2 0 世纪4 0 年代,索引和检索成已为图书馆独立的工具和用户服务 项目。 随着1 9 4 6 年世界上第一台电子计算机问世,计算机技术逐步走进信息检索 领域,并与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时情报 检索系统相继研制成功并商业化,2 0 世纪6 0 年代到8 0 年代,在信息处理技术、 通讯技术、计算机和数据库技术的推动下,信息检索在教育、军事和商业等各领 域高速发展,得到了广泛的应用。d i a l o g 国际联机情报检索系统是这一时期的信 息检索领域的代表,至今仍是世界上最著名的系统之一。 信息检索一词出现于2 0 世纪5 0 年代,又称信息存储与检索、情报检索,是 指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息 的过程和技术。也就是说,包括“存”和“取”两个环节和内容。狭义的信息检 索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也 就是我们常说的信息查询( i n f o r m a t i o ns e a r c h 或i n f o r m a t i o ns e e k ) 。 信息检索方法包括:普通法、追溯法和分段法。 ( 1 ) 普通法是利用书目、文摘、索引等检索工具进行文献资料查找的方法。运用 这种方法的关键在于熟悉各种检索工具的性质、特点和查找过程,从不同角 度查找。普通法又可分为顺检法和倒检法。顺检法是从过去到现在按时间顺 序检索,费用多、效率低;倒检法是逆时间顺序从近期向远期检索,它强调 近期资料,重视当前的信息,主动性强,效果较好。 ( 2 ) 追溯法是利用已有文献所附的参考文献不断追踪查找的方法,在没有检索工 具或检索工具不全时,此法可获得针对性很强的资料,查准率较高,查全率 较差。 ( 3 ) 分段法是追溯法和普通法的综合,它将两种方法分期、分段交替使用,直至 查到所需资料为止。 2 2 中文全文信息搜索引擎 搜索引擎按其工作方式主要可分为三种1 ,分别是全文搜索引擎( f u l lt e x t 6 华东师范人学硕士论文 基于l u c e n e 搜索引擎的中文伞文信息检索技术的研究 s e a r c he n g i n e ) 、目录索引类搜索引擎( s e a r c hi n d e x d i r e c t o r y ) 和元搜索引擎 ( m e t as e a r c he n g i n e ) 。 全文搜索引擎1 是真正意义上的搜索引擎,它通过一种计算机爬虫程序 ( s p i d e r ) ,时刻不停的从互联网上抓取各种网页,压缩存储在自己的数据库中, 等用户输入查询条件时,即在数据库中检索出与之相匹配的相关记录,最后将搜 索出的相关记录按一定的顺序返回给用户。 保存在数据库中的记录数据,从类型上可以分为两种。其一是结构化数据, 如字符、日期、数值、货币等,这些数据都是具有有限长度或固定格式的数据; 其二是非结构化数据,也叫全文数据,如简历、简介、论文等,这些数据都是以 不定长、非固定格式保存的字符型数据。 现有的数据库系统,都是以结构化数据为检索的主要目标,因为实现相对简 单。比如数值检索,可以建立一张排序好的索引表,以二分法实现查找,速度很 快。但对于非结构化数据,即全文数据,要想实现检索,相对难度要大的很多了。 因此,中文全文搜索引擎的主要目的,就是实现对大容量的非结构化中文信息的 快速查找。 目前,实现全文信息检索有两大基本方案,词索引和字索引。 字索引n 1 ,以汉语单字为索引单位的检索算法。这种方法往往会引起多查的 错误。 词索引1 ,以单词为索引单位的检索算法。西文又是以单词为语言要素,每 个西文单词之间都有一个空格。因此,在对全文数据库建立索引的时候,按照单 词划分建立索引,是既简单又自然的。我国最开始引入全文检索技术的时候,是 汉化西文的数据库系统,因此也就自然使用了词索引技术。但由于中西文环境中 语素的不同特点,使得中文全文信息检索必须要解决分词的问题。 2 3l u c e n e 搜索引擎 a p a c h el u c e n e 阳1 是一个开放源码的全文索引检索引擎,它并不是一个完整 的全文检索应用,而只是一个用j a v a 编写的全文索7 1 搜索引擎工具包,利用它 可以很方便地为j a v a 软件加入全文检索功能,嵌入到各种应用中,就犹如为汽 车加入发动引擎一样,并且使用者可以随时根据自己的需要制定其功能。 l u c e n e 的a p i 接口设计的比较通用,输入输出结构类似于数据库的表= 记 录- 字段,所以很多传统的应用的文件、数据库等都可以比较方便的映射到 l u c e n e 的存储结构接口中。总体上看,可以把l u c e n e 当成一个支持全文索引的 7 华东师范大学硕十论文基于l u e e n e 搜索引擎的中文伞文信息检索技术的研究 数据库系统。 l u c e n e 最核心的特征是通过特殊的索引结构实现了传统数据库不擅长的全 文索引机制,并提供了扩展接口,以方便针对不同应用的定制。 大部分的搜索引擎都是用b 树n 们结构来维护索引,索引的更新会导致大量 的y o 操作,l u c e n e 在实现中,对此稍微有所改进:不是维护一个索引文件,而 是在扩展索引的时候不断创建新的索引文件,然后定期的把这些新的小索引文件 合并到原先的大索引中( 针对不同的更新策略,批次的大小可以调整) ,这样在 不影响检索的效率的前提下,提高了索引的效率。 l u c e n e 是一个面向对象设计的典范: 所有的问题都通过一个额外抽象层来方便以后的扩展和重用,可以通过重新 实现来达到自己的目的,而对其他模块并不需要; 简单的应用入口s e a r c h e r , i n d e x e r ,并调用底层一系列组件协同的完成搜索任 务; 所有的对象的任务都非常专一。比如搜索过程:q u e r y p a r s e r 分析将查询语句 转换成一系列的精确查询的组合( q u e r y ) ,通过底层的索引读取结构 i n d e x r e a d e r 进行索引的读取,并用相应的打分器给搜索结果进行打分排序 等。所有的功能模块原子化程度非常高,因此可以通过重新实现而不需要修 改其他模块。 除了灵活的应用接口设计,l u c e n e 还提供了一些适合大多数应用的语言分析 器实现( s i m p l e a n a l y s e r , s t a n d a r d a n a l y s e r ) ,这也是新用户能够很快上手的重 要原因之一。 基于l u c e n e 的全文信息检索系统主要是由数据抽取、语言分析、建立索引、 查询分析、结果排序和用户界面模块组成。首先,数据抽取模块对源数据( 包括 文本文档、数据库、p d f 文档、w o r d 文档、e x c e l 文档) 进行文本抽取后把源数 据转换成为l u c e n e 能够识别的数据结构,并进行语言分析,以判断是否应该分 词和存储,再根据转换后的数据建立索引文件。当完成索引的构建后,对用户输 入的查询信息进行语言分析,利用查询分析器对查询的请求进行分析,并从索引 文件中按一定的排序规则调整来获取最后的结果集。该l u c e n e 系统结构如图2 1 所示: 华东师范大学硕十论文 基于l u c e n e 搜索引擎的中文伞文信息检索技术的研究 图2 1l u c e n e 系统结构图 2 4 中文分词算法概述 分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。把中文 的汉字序列切分成有意义的词,就是中文分词。我们知道,在英文的行文中,单 词之间是以空格作为自然分界符的,而中文只是字、旬和段可以通过明显的分界 符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划 分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。英文是以词 为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连 起来才能描述一个意思。 中文分词技术属于自然语言处理技术范畴n ,对于一句话,人可以通过自己 的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解? 其处理过程就 是分词算法。 中文分词算法的研究已经取得了一定的进展,但由于中文的独特性,至今还 没有完美的分词算法。中文分词算法的进一步完善应该在已经取得的成绩的基础 上,结合使用多种方法,并引入新的模型和技术,通过不断探索,使中文分词算 9 华东师范大学硕士论文 基于l u c e n e 搜索引擎的中文全文信息检索技术的研究 法越来越完善。 2 5 文档相关度排序算法概述 文中的“相关度川屹1 是指信息检索系统针对用户的查询从文档集中检出的文 档与查询之间的一种匹配关系。 信息检索的核心是在文档集中为用户检出最相关的子文档集,或者按检出文 档的相关程度进行排序,作为对检索用户所提出查询的回应。 定义“相关度有两个角度n3 1 :系统角度的相关和用户角度的相关。 信息检索的主要工作简而言之就是提取文档内容特征项的过程。有两种主要 应用,一是用检索系统来查询结构化的信息,如早期检索系统所能提供的文档作 者、标题、关键词( 需要预先提取) 等。对于较为复杂的非结构化文档则要费许 多功夫,现有的多数检索系统依靠着复杂的数学和统计计算,通过一些函数得出 文档向量、相关概率等等数据。这些模型的提出都是建立在这样一种假设之上, 即从文档中提取的文档表示或者相关概率都可以是相对固定的。 系统角度的相关一般有两种比较方式。其一是在文档本身固有的特征信息如 词频等等与用户提交的查询表达式中固有的特征信息之间进行比较。典型做法是 在文档集中寻找出现了查询表达式中的索引项的文档;其二是在从文档中抽取的 “主题 与用户查询表达式中体现的“主题”之问做比较,即首先计算文档中各 索引项的权值,再按权值大小进行排序,以此为依据确定文档的主题词。 系统角度相关过于偏重检索活动的一个方面而忽视了另一个方面。随着检索 系统日益广泛的应用,特别是由于近几年来互联网络的急剧膨胀,研究者投向用 户的目光越来越多了。人们开始更多地思索人机交互过程中人的因素。相关度判 断的不确定性是由多种原因造成的,但基本上集中于用户的主观因素上。信息检 索研究者的观点从虽然简单但引起很多争议的系统角度相关,转向了强调用户的 认知过程与信息需求的用户角度相关。 从用户角度讨论相关大体上就是观察用户对检索结果的反应,是系统输出向 用户需求的投射。相关度被认为是用户方面的属性。研究者们用了许多意义相近 的词来描述这种反应,实际上是描述相关度概念内涵的各个不同侧面。 2 6 本章小结 本章主要介绍了与中文全文信息检索相关的关键技术,包括:信息检索的起 源和方法,中文分词算法的处理过程和其独特性,文档相关度排序算法中相关度 1 0 华东师范人学硕士论文基于l u c e n e 搜索引擎的中文全文信息检索技术的研究 的概念,以及系统角度的相关和用户角度的相关的定义。 华东师范大学硕士论文 基于l u c c n e 搜索引擎的中文全文信息检索技术的研究 第三章中文分词算法 3 1 中文分词算法的研究现状 中文分词发展至今,遇到了很多的困难,主要有两方面:歧义识别和新词识 别。 3 1 1 歧义识别 歧义n 钔是指同样的一句话,可能有两种或者更多的切分方法。例如:“玩具 和服装 可以分成“玩具”,“和 ,“服装或者“玩具 ,“和服”,“装”。这种 称为交叉歧义。像这种交叉歧义十分常见,如果在此不能够正确的切分,那么最 终会导致给出用户错误的搜索结果。又例如:“把手 一词可以作为“门的把手 坏了中的一个词汇被切分出来,也可以在“把手抬高一点”中时被切分出来。 这种称为组合歧义。交叉歧义相对组合歧义来说还算比较容易处理,组合歧义就 必需根据整个句子来判断了,如果交叉歧义和组合歧义计算机都能解决的话,在 歧义中还有一个难题,是真歧义。 消除歧义的主要方法有三类: 基于记忆的歧义消解:通过把所有的歧义词汇记录下来,遇到歧义之后到歧 义词库中查询,但是这种方法只对伪歧义有用。 基于规则的歧义消解:根据汉语的语法规则,进行词性标注后,消除歧义。 这钟算法需要机器学习方面的支持。 基于统计的歧义消解:构建词图,在词图上寻找统计意义上的最佳路径。 3 1 2 新词识别 新词n 田( 又叫做未登录词) 是指没有包含在分词词典中的,但是从语义上来 说确实是词语的。例如中国人名,地名,机构名,翻译人名,缩略词,网络词汇, 专业词汇等。新词识别特别困难,因为很多的新词没有边界,有的新词的构成单 元本身就是一个词语。通常每一类词汇都要构造一种特殊的算法实现分词的需 要。依据内部构成规律和外部环境,实现分词。对于搜索引擎来说,分词系统中 的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重 要标志之一。 1 2 华东师范人学硕上论文基于l u c e n e 搜索引擎的中文全文信息检索技术的研究 3 2 中文分词经典算法的分析和比较 现有的分词算法可分为四大类:基于字符串匹配的分词方法、基于理解的分 词方法、基于统计的分词方法和基于语义的分词方法。 3 2 1 基于字符串匹配的分词方法 这种方法又称作机械分词方法、基于字典的分词方法。它是根据一定的策略 把待分析的字串与一个“充分大的”机器词典中的词条进行匹配。如果在词典中 找得到某个字符串,则匹配成功,即识别出一个词。此方法有三个要素:文本扫 描顺序、匹配原则和分词词典。文本扫描顺序有正向扫描、逆向扫描和双向扫描 三种。匹配的主要原则有最大匹配、最小匹配、最佳匹配和逐词匹配。 最大匹配法( 删) 。该方法的基本思想是:按照一定的策略将待分析的字串与 一个“充分大的”机器词典中的词条进行匹配,假设词典中的最长词条所含字数 为i ,则取被处理文本当前字符串序列中的前n 个字符作为匹配字段,在分词词 典中查找,如果词典中有这样一个n 字词,则匹配成功,匹配字段被作为一个词 切分出来;若词典中找不到这样的一个n 字词,则匹配失败,去掉匹配字段最后 一个字,剩下的字符作为新的匹配字段,再匹配下去,直到匹配成功为止。 逆向最大匹配法( r m m ) 。该方法的分词过程与m m 法基本相同。不同的是从句 子或文章的末尾开始处理,每次匹配不成功的时候去掉前面的一个汉字。 最佳匹配法( o m ) 。该方法分为正向最佳匹配法和逆向最佳匹配法。该方法的 基本思想是:在词典中按词频的大小顺序对词条进行排列,从而缩短对分词词典 的检索时间,达到最佳的效果,降低了分词的时间复杂度,加快了分词速度。其 实,这种方法只是一种对分词词典的组织方式,而不是一种纯粹意义上的分词方 法。o m 法分词词典中的每条词的f j 面因为有必须指明长度的数据项,因而其空 间复杂度有所增加。该方法对提高分词精度没有影响,只是降低了分词处理的时 间复杂度。 逐词遍历法。该方法是按照由长到短递减的顺序把词典中的词逐字搜索整个 待处理的文本,直到把全部的词都切分出来为止。也就是说,不管文章有多短, 词典有多大,都要将词典遍历一遍。这种方法效率较低,大一点的系统一般都不 会使用。 设立切分标志法。切分标志分为自然和非自然。自然切分标志是指文章中所 出现的非文字符号,比如标点符号等;非自然标志是指利用词缀和不构成词的词, 华东师范大学硕士论文基于l u c 君n o 搜索引擎的中文全文信息检索技术的研究 比如单音词、复音节词以及象声词等。在分词时,先找出切分标志,把句子切分 成一些较短的字段,然后再用最大匹配法和逆向最大匹配法进一步把词切分出 来。这种方法的缺点是:要额外消耗时间来扫描切分标志,还要花费存储空间来 存放非自然切分标志( 除了标点符号之外) ,使切分算法的时间复杂度和空间复杂 度都大大地增加了,然而切分的正确率并没有得到提高。 有穷多层次列举法。该方法的基本思想是:将待处理材料中用标点符号区分 的语言片断作为处理对象,先处理具有特殊标志的不用查找词表的字符串,如标 点符号、阿拉伯数字等,再用环境词表确定是否属于1 5 类可列举的词,即判断 一个词能否组成多音词,比如双音词、三音词、四音词、五音词。最后判断是否 为单音词,这样就把一个个较大语段划分成了较小的语段。这种方法实际上是切 分标志法的一种变形。 二次扫描法。该方法的基本思想是:取待处理文本中两个切分标志之间的部 分作为样本串,在分词词典中检查是否有这样一个词,若它前两个汉字和该样本 串相同,则取样本串的前三个汉字作为匹配串,重新在分词词典中查找以匹配串 为子串的词,如果有,那么重复下去,一直进行到n 个汉字为止,其中n 为分词 词典中的最长词所含的汉字个数,则切分出一个n 字词;如果没有,则完成了一 次扫描;去掉匹配串的最后一个汉字,作为新的匹配串进行第二次扫描。第二次 扫描使用r m i v l 或m m 法。 并行分词方法。该方法的基本思想是:借助于一个含有分词词库的管道,分 步进行比较匹配过程,每一步可以有多个词进入管道同时与词库中相应的词进行 比较,由于有多个词同时进行比较匹配,所以分词速度可以得到大幅度提高。 联想匹配法。该方法的基本思想是:首先将词库进行划分,把词库分为虚词 词库和实词词库。每一个词库按词的长短划分为一字词词库、双字词词库、三字 词词库、四字词词库、五字词词库和多字词词库。在切分词的过程中,先切取单 个词汇,将其与实词词库和虚词词库中的一字词库进行匹配比较,再运用联想匹 配法,将单个词的联想词进行最大切分匹配,这样即完成了一次切分,以下皆同。 采用联想匹配法,能够解决切分中重复切分匹配和断章取义的现象。 3 2 2 基于理解的分词方法 该方法又称基于人工智能的分词方法。其基本思想是在分词的同时进行语 义、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论