




已阅读5页,还剩130页未读, 继续免费阅读
(计算机应用技术专业论文)基于统计的nlp技术在中文信息检索中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 中文信息检索是信息检索领域的一个重要分支。尽管中文信息检索的技术和 研究已经取得了相当多的成果,但目前中文信息检索的效果却并不乐观。本文就 中文信息检索的几个主要问题,在n l p 技术的基础上,利用统计学和代数学方 法,从词语层和文档层对信息检索中文档和文档集的处理方法进行了深入研究。 本文首先从理论上对中文信息检索索引单位的选择做了详细分析,改进了传 统的最大匹配分词算法,一定程度上解决了切分歧义的问题,同时在改进算法中 引入了一种基于统计的窗口移动扩展方法,简单而有效地改善了未登录词的识别 问题。 信息抽取已成为制约信息检索性能的一个瓶颈,而关键词提取则是信息抽取 的一个重要环节。本文针对中文,实现了基于z 2 统计的单文档关键词提取算法, 其主要基础是词与词之间的共现次数的统计,并使用z 2 统计量来衡量两个词语 之间的关联。同时改进了传统的k e a 算法,扩展了标示关键词的特征,实现了 基于朴素贝叶斯理论的中文多文档关键词提取模型。 文本分类是对信息检索中的文档集进行组织的一项关键技术。本文首先对文 本分类算法进行了研究,探讨了文本特征抽取方法,其中综合考虑了频度、分散 度和集中度三项指标,设计并实现了一种新的特征抽取算法,使得选出的特征项 整体优化。另外,提出了一种基于向量空间模型的词共现模型,并将通过该模型 统计出的共现词信息应用于文本分类研究中。上述技术都在一定程度上提高了文 本分类系统的性能。最后,本文把分类技术应用到了信息检索中的用户查询歧义 消除方面,实现了一个分类检索系统,使用户可以快速获取自己真正需要的信息。 针对高维词一文档矩阵所造成的高存储空间和运算时间开销,本文将线性 ( l s i ) 和非线性( i s o m a p 、s i e ) 维数约减算法引入到高维文档数据的降维处理 中,并在文档聚类方面对三种算法处理后的数据进行了性能比较。实验结果表明, 采用了局部嵌入技术的s i e 算法取得了与l s i 相当的性能,优于全局优化的 i s o m a p 算法,并且降维处理时的运算复杂度也大大降低。 最后,本文实现了基于n 层向量空间模型的w i n d o w s 上的信息检索系统。 该系统对w e b 文档采用了一种分层处理机制,重点改进了w e b 文档中的关键信 息的权重计算。 关键词:中文信息检索,n l p 技术,统计学,中文分词,关键词提取,文档 分类,聚类 a b s t a c t c h i n e s ei n f o r m a t i o nr e t r i e v a l ( c 1 r ) i sa ni m p o r t a n tb r a n c ho fl n f o r r n a t i o n r e t r i e v a l ,a n dh a sa c h i e v e dr a p i dd e v e l o p m e n ti nr e c e n ty e a r s h o w e v e r t h e r ea r e s t i l ls o m ei s s u e sn e e dt ob es t u d i e df u r t h e rf o ri m p r o v i n gt h ee f f e c t i v e n e s sa n d e f f i c i e n c yo ft o d a y sc i rs y s t e m t h i sp a p e ru s e st h en l pt e c h n o l o g i e sb a s e do n s t a t i s t i c sa n da l g e b r a , s t u d i e st h ep r o c e s s i n gm e t h o d sf o rd o c u m e n t ( s ) a tt h ew o r d l e v e la n dd o c u m e n tl e v e l ,a n dp r e s e n t ss o l u t i o n sf o rs e v e r a lk e yp r o b l e m si nc i r t h i sp a p e rf i r s tp r o v i d e sad e t a i lt h e o r e t i c a la n a l y s i so nt h ec h o i c eo fi n d e x i n g u n i ti nc i r a n di m p r o v e st h et r a d i t i o n a lc h i n e s es e g m e n t a t i o na l g o r i t h mb a s e do n m a x i m u mm a t c h i n g ,w h i c hs o l v e st h es e g m e n t a t i o na m b i g u i t yp r o b l e mt oac e r t a i n d e g r e e i na d d i t i o n ,aw i n d o wm o v i n ga n de x p a n d i n gm e t h o db a s e do ns t a t i s t i c si s i n t r o d u c e dt ot h i ss e g m e n t a t i o na l g o r i t h m ,w h i c hs i m p l ya n de f f e c t i v e l yi m p r o v e st h e i s s u eo f t n l k n o w nw o r d si d e n t i f i c a t i o n i n f o r m a t i o ne x t r a c t i o n ( i e ) h a sb e e nab o t t l e n e c kr e s t r i c t i n gt h ep e r f o r m a n c eo f i rs y s t e m ,i nw h i c hk e y w o r de x t r a c t i o ni so n eo fi m p o r t a n tf a c t o r s t h i sp a p e r p r e s e n t sas i n g l e d o c u m e n tk e y w o r de x t r a c t i o na l g o r i t h mb a s e do nz 2 s t a t i s t i c t h i s a l g o r i t h mu s e st h ec o o c c u r r i n gi n f o r m a t i o nb e t w e e nw o r d st og e taz 2s t a t i s t i ct o m e a s u r et h e i rr e l a t i o n a l s o ,t h i sp a p e ri m p r o v e st h et r a d i t i o n a lk e aa l g o r i t h m , e x t e n d st h ef e a t u r e su s e di ni d e n t i f y i n gk e y w o r d s ,a n di m p l e m e n t sam u l t i d o c u m e n t s k e y w o r d e x t r a c t i o nm o d e lb a s e do nn a i v eb a y e st h e o r y t e x tc l a s s i f i c a t i o ni sak e yt e c h n i q u ef o ro r g a n i z i n gd o c u m e n ts e ti ni r t h i s p a p e rf i r s ts t u d i e st h et e x tc l a s s i f i c a t i o na l g o r i t h m s ,d i s c u s s e sh o wt oe x t r a c tf e a t u r e t e r m s ,a n di m p l e m e n t san e wf e a t u r ee x t r a c t i o na l g o r i t h m i na d d i t i o n ,t h i sp a p e r p r o v i d e saw o r dc o o c c u r r e n c em o d e lb a s e do nv e c t o rs p a c em o d e l ( v s m ) ,a n d a p p l i e st h ew o r dc o - o c c u l t c n c cr e s o u r c e so b t a i n e db yt h i sm o d e lt ot e x tc l a s s i f i c a t i o n , a n di m p r o v e st h ep e r f o r m a n c eo ft e x tc l a s s i f i c a t i o ns y s t e mf i n a l l y , t h i sp a p e ra p p l i e s t h ei d e ao f c l a s s i f i c a t i o ni n t or e d u c i n gu s e r s q u e r ya m b i g u i t yi ni r ,a n di m p l e m e n t sa c l a s s i f i c a t i o ns e a r c hs y s t e m ,w h i c he n a b l e su s e r sq u i c k l ya n da c c u r a t e l yg e tt h e i r r e q u i r e di n f o r m a t i o n f o rr e d u c i n gt h eh i g hm e m o r ya n dt i m ec o s tf o rp r o c e s s i n gh i g h - d i m e n s i o n a l t e r m d o c u m e n tm a t r i x ,t h i sp a p e ri n t r o d u c e sl i n e a r ( l s i ) a n dn o n l i n e a r ( 1 s o m a p ,s i e ) d i m e n s i o nr e d u c t i o na l g o r i t h m si n t ot h ep r o c e s s i n go fh i g h d i m e n s i o n a ld o c u m e n t d a t a ,a n dc o m p a r e st h e i r sp e r f o r m a n c ei nd o c u m e n tc l u s t e r i n g e x p e r i m e n t a lr e s u l t s s h o wt h a ts i e a l g o r i t h ma d o p t i n gl o c a l e m b e d d i n gt e c h n o l o g y a c h i e v e sa c o m p a r a t i v ep e r f o r m a n c ew i t hl s i ,a n di sb e t t e rt h a ni s o m a pa l g o r i t h mu s i n gg l o b a l o p t i m i z a t i o nt e c h n o l o g y f i n a l l y , t h i sp a p e ri m p l e m e n t sa ni rs y s t e mb a s e do nn 1 e v e lv s mo nw i n d o w p l a t f o r m t h i ss y s t e mu s e sah i e r a r c h i c a ls c h e m ei np r o c e s s i n gw e bd o c u m e n t s a n d p r i m a r i l yi m p r o v e st h ew e i g h tc o m p u t a t i o nf o rk e yi n f o r m a t i o ni nw e bd o c u m e n t s k e yw o r d s :c h i n e s ei n f o r m a t i o nr e t r i e v a l ,n l pt e c h n o l o g y ,s t a t i s t i c s ,c h i n e s e s e g m e n t a t i o n ,k e y w o r de x t r a c t i o n ,t e x tc l a s s i f i c a t i o n d o c u m e n tc l u s t e r i n g 图表目录 图2 1 一个简单的信息检索系统框架 图2 2 利用s m a r t 系统进行信息检索的基本步骤一 图2 3 对应三点不同召回率时精度计算示例 图2 4 等级聚类方法的操作流程 图2 - 5 聚类结果的树状图表示 图2 - 6 动态聚类法工作流程图, 图2 7 文本分类流程图 图3 1 2 第一类中文分词方案细分图 图3 2 最大匹配分词法的切分流程 图3 - 3 词典中词条的存储结构 图3 - 4 利用窗口移动扩展识别未登录词 图3 5n t c i r 中的一条查询语句 图3 - 61 1 点p ,r 曲线( r e l a x e d 标准) 图3 71 1 点p r 曲线( r i g i d 标准) 图3 - 8 未登录词对查询和文档相似度的影响 图4 1 部分高频词的频率分布 图4 ,2 词w 与部分高频共现分布( 无偏差) 图4 。3 词w 与部分高频共现分布( 有偏差) 图4 ,4 算法模型 图4 5 不同训练集大小下的性能比较( 严格匹配) 图4 6 不同训练集大小下的性能比较( 近似匹配) 图5 1 文本分类系统结构框图 图5 2 模型实现流程 图5 ,3 系统结构设计 图5 - 4 系统的初步检索结果 图5 ,5 用户选择相关类别后系统的检索结果1 , 图5 - 6 用户选择相关类别后系统的检索结果2 图6 1 矩阵爿的奇异值分解 图6 2 矩阵爿的近似矩阵a 图6 3k = 1 0 时各种算法聚类结果的熵值比较 图6 4k = 2 0 时各种算法聚类结果的熵值比较 m b伸姗列m”孙弛弭硒筠甜钙耶舛鲐甜勰乃wm瑚吲粥肼 图6 5k = 3 0 时各种算法聚类结果的熵值比较9 4 图6 - 6 各种算法聚类结果的熵平均值比较9 5 图6 7 三维空间中的两点a 和b 9 6 图6 罐在采用s i e 和i s o m a p 算法进行降维处理后,b 点的位置变化9 6 图6 - 9 聚类数增大时熵和f m e a s u r e 值的变化趋势9 7 图7 1 实验系统的组织结构图1 0 3 图7 2h t m l 的基本组成结构1 0 4 陶7 3 基于n 层v s m 的w i n d o w s 平台上的信息检索系统1 1 1 图7 4 n 层v s m 与传统v s m 的检索性能比较( :4 ,w 2 :3 ,w 1 ;2 ,w :) 1 1 2 4 1 图7 5n 层v s m 与传统v s m 的检索性能比较( w = 8 ,w 2 :4 。w 3 :2 w 4 :1 ) 1 1 2 图7 - 6n 层v s m 与引入信息熵的检索性能比较】1 3 图7 7 查询扩展前与查询扩展后的检索性能比较1 1 4 表3 1 一般规则 表3 2 特殊规则 :莨3 3 不同长度的索引词在全部查询语句中所占的比例一 表3 - 4m m s 的分词结果 表3 5w r s 的分词结果 表3 - 6w s 的分词结果 表3 7 不同分词算法的分词性能及对信息检索结果的影响 表4 1 单文档关键词提取结果 表4 2 训练集的词语特征项的离散化表一 表4 3 特征项在各个离散化区间的分类概率值, 表4 - 4 与初始k e a 算法的比较 表5 1 特征抽取算法性能比较一 表5 2 分类算法性能比较 表5 3 部分共现特征词对( 已按类别分类) 表5 - 41 2 0 0 篇文档集的分类结果 表5 53 0 0 0 篇文档集的分类结果 表5 - 6y a h o o 的分类信息 表6 1 词语在文档中出现情况的一个实例 表6 2 测试集r e 0 的描述信息 表7 。ln 层向量空间模型与传统向量空间模型的算法复杂度比较 於拍始勰鸲粥钉铊舛舒阳仍体鲍叭 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得墨壅本鲎或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:确越忸签字日期:谚年6 月f 莎同 学位论文版权使用授权书 本学位论文作者完全了解墨洼盘鲎有关保留、使用学位沧文的规定。 特授权苤壅盘茔可以将学位论文的全部或部分内容编入有关数据库进行榆 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 鹚丝慢 导师签名:) 可乙膨 签字日期:挑年月1 譬日签字日期:易。f 年( ) 月 扩日 天津大学博士学位论文 第一章绪论 第一章绪论 1 1 课题研究背景、目的和意义 从2 0 世纪6 0 年代末至今,互联网已经从只有几个节点的实验装置发展成为 一个巨大的全球化信息空间,其信息总量至今仍在以惊人的速度不断膨胀。据统 计,目前互联网上的信息总量每4 - 6 个月就会翻一番。面对如此浩瀚的信息海洋, 人们很难从中迅速有效地提取出所需信息,出现所谓的“信息迷向”的现象。如 何帮助用户准确有效地找到需要的信息也就成为一项重要的研究课题,w e b 信息 检索技术在这种背景下应运而生【1 _ 3 1 。 信息检索的研究领域涉及三个方面,即内容分析、结构分析及结果评价。内 容分析主要是以适合计算机处理的格式描述文档或查询的内容;结构分析则在予 挖掘文档之间或文档与查询之间的关联程度,以改善检索策略的效率和效能;而 结果评价则是对检索结果在精度和召回率两个指标上进行统计意义上的评估。 信息检索一般是指文件信息检索。信息检索的目标在于根据用户的查询,榆 索出所有相关的文档子集,同时尽可能地摒弃那些似乎相关但实际上并不相关的 文档。因此在分析和设计一个信息检索系统时,最关键的问题是如何精确而有效 地表示文档主题和用户查询需求,以及如何对两者进行匹配计算。长期以来,人 们一直是以关键词为基础进行信息检索的,并将其逐步地发展和完善。但这种方 法仍存在些缺陷,主要表现在以下几个方面【4 9 】: 1 传统的检索系统不具备语言分析的能力,往往会在用户查询上产生诸多歧 义,造成检索精度降低; 2 在系统反馈回的大量检索结果中,用户真正需要并愿意深入浏览的内容则是 少而又少: 3 系统反馈的文档只是包含查询中关键词的篇章段落,用户需要进一步打开链 接才能了解文档的内容,这将占用用户大量的时间。 4 大多数检索系统提供的查询扩展项只是在原有关键词基础上的简单扩充,与 用户的实际需求并无多大关系。造成这种现象的主要原因在于没有一个充分 而合理的查询扩展资源支持。 人们为了实现“智能”的信息检索,采用了基于知识库的方法以及机器学习 等多种技术。基于知识库的方法为用户提供了内容分析和推理的能力,并使信息 检索系统能够回答某个领域范围内的问题。但是,即便是对于一个小型的领域来 天津大学博士学位论文 第一章绪论 说,利用所有可能的规则建立一个全面的知识库也是不切实际的【1 0 】。机器学习 方法则是通过训练语料或者实例来获取知识的,其中涉及的技术包括归纳学习算 法、符号学、遗传算法以及神经网络等1 0 - 1 2 。机器学习方法通过训练语料中的 正例和反例,来获取相关文档的共同特性【1 3 】。此类系统有助于对用户查询的中 闯结果的分析,并向用户推荐其它可能相关的文档。但是机器学习方法强烈地依 赖于训练实例,由此可能产生某些结果偏差。 理想的信息检索系统应该是这样的:用户能够自由地表达查询需求,系统能 够理解用户查询中内在的、复杂和微妙的含义,并对查询和文档做出合理的表示 以进行精确的匹配计算 1 4 1 6 1 。这正是基于自然语言处理( n l p ) 的信息检索系 统所追求的目标。因此近年来,人们将研究重点转移到了n l p 技术上,以期能 够通过对句子、段落以及整篇文档的逐级理解,提高信息检索系统的性能指标。 与传统的方法相比,运用了n l p 技术的信息检索系统具有以下优点 【1 7 2 0 : 】 在文档集的预处理阶段,可以利用n l p 技术对文档进行表示和存储,形成 一个知识库。如果对信息内容能够进行广泛而深入的分析,那么在将来更具 智能的信息检索系统中,知识库就会表现出更大的潜力; 2 用户进行查询时可以使用一旬话或一段文本来清楚、准确地描述自己的信息 需求,这既符合人类的思维习惯,也有助于解决查询歧义的问题。另外,采 用n l p 技术而建立的查询扩展资源更为合理,可以同时提高信息检索中的 精度和召回率两个指标; 3 基于n l p 技术的信息检索系统可以以优化的匹配选择算法完成用户查询和 文档集的相似度计算,能够从多种角度判断两者之间的相关性,并改善了文 档的排序,从而把更佳的检索结果提交给用户; 4 自动摘要是n l p 技术中一个重要课题,如果提交给用户的检索文档能够以 摘要的形式显示,那么将会大大节省用户的浏览时间; 5 n l p 中的文本分类和聚类技术有助于更合理地组织文档,便于用户准确地 定位自己的查询需求。在本文中,我们即通过文本分类的方法,对消除用户 查询歧义问题进行了探讨。 实现智能化信息检索离不开n l p 的研究成果。事实上,信息检索和n l p 都 属于计算语言学( c o m p u t a t i o n a ll i n g u i s t i c s ) f 2 1 2 2 的研究范畴。计算语言学主 要是利用计算机技术处理自然语言信息,对人类语言活动中的信息进行发现、提 取和加工等过程的研究。自然语言是描述人类思维的工具,对于机器而言,对自 然语言的理解从某种意义上讲是十分困难的。尽管如此,计算语言学经过半个多 世纪的曲折发展,仍然取得了一系列阶段性的研究成果 2 3 2 4 1 。 天津大学博士学位论文 第一章绪论 信息检索作为信息处理最直接的应用之一,不仅具有广泛的学术价值,同时 也具有巨大的市场潜在价值,日益得到了学术界以及商界的广泛重视和支持。随 着计算机运行能力的不断增强,信息处理技术的不断发展和优化,更加智能化、 更具有应用前景的信息检索系统也将逐见端倪。 1 2 国内外研究现状 1 2 1 n l p 技术的理性主义和经验主义方法 2 5 在n l p 技术上一直存在两种方法的争论,即理性主义( r a t i o n a l i s m ) 和经 验主义( e m p i r i c i s m ) 。前者是先依据某种语言理论建立语言模型,再从语言模 型构造规则系统,所以也称为基于规则的方法。这种方法在很长时间里曾经一直 是n l p 的主流。后者是在调查和分析大规模语料的基础上,用统计学的方法处 理自然语言。目前,这种方法已经成为n l p 的主流。到2 0 0 0 年,经验主义的方 法在自然语言处理的许多分支领域得到了应用。 经验主义认为基于规则的方法存在以下缺陷,一是通过内省方式得到的语言 规则往往有脱离语言实际的可能:二是规则的灵活性较差,容易忽略语言中那些 经验性的、小粒度的知识,难以覆盖各种复杂纷繁的语言现象:三是当需要添加 新的规则时,必须注意协调与已有规则的关系,避免规则之间产生矛盾。为了突 破规则方法的局限,人们采用了一种基于语料库和统计学的方法,对大规模非受 限的自然语言进行统计分析,从语料库的大量真实文本中直接获取各种语言规律 和语言知识。另外,经验主义的方法还能够借助更多的语言材料来检验传统的理 论语言学依靠手工搜集材料的方法所得出的各种结论。 n l p 研究越来越多地采用了基于语料库和统计学的方法,并且获得了一定 程度的成功 2 6 2 8 。基于统计的n l p 技术已成为当前的主流方向,丽基于语法 规则的信息检索方法至少现在还难以在计算机上以量化的方式实现。虽然此类方 法在某些信息处理的细节上有所应用,但并不广泛。实际上,本论文的一些工作 也主要是基于统计方法或者其它数学方法的。 1 2 2 基于n l p 技术的信息检索的研究现状 近十年来, c l p 技术取得了巨大进展,特别是在基于文档的信息检索、信 息抽取以及机器翻译等领域。在信息检索中应用n l p 技术的目标在于:通过建 立可计算的语言模型,改进对文档的理解和表示,这样人们就可以编写计算机可 天津大学博士学位论文 鞲一章绪论 信息检索作为信息处理最直接的应用之一,不仅具有广泛的学术价值,同时 也具有巨大的市场潜在价值,日益得到了学术界以及商界的广泛重视和支持。鹱 着计算机运行能力的不断增强,信息处理技术的不断发展和优化,更加讶能化 更具有应用前景的信息检索系统也将逐见端倪。 1 2 国内外研究现状 1 2 1n l p 技术的理性主义和经验主义方法 2 5 在n l p 技术上一直存在两种方法的争论,即理性主义( r a t i o n a l i s m ) 和经 验主义( e m p i r i c i s m ) 。前者是先依据某种语言理论建立语言模型,再从语言模 型构造规则系统,所以也称为基于规则的方法。这种方法存很长时闻里曾经直 是n l p 的主流。后者是在调查和分析大规模语料的基础上,用统计学的方法处 理自然语言。翻前,这种方法已经成为n l p 的主流。到2 0 0 0 年,经验主义的方 法在自然语言处理的许多分支领域得到了应用。 经验主义认为基于规则的方法存在以下缺陷,一是通过内省方式得到的语言 规则往往有脱离语言实际的可能:二是规则的灵活性较差,容易忽略语言中那些 经验性的、小粒度的知识,难以覆盖各种复杂纷繁的语言现象;三是当需要添加 新的规则时,必须注意协调与已有规则的关系,避免规则之间产生矛盾。为了突 破规则方法的局限,人们采用了一种基于语料库和统计学的方法对大规模非受 限的自然语言进行统计分析,从语料库的大量真实文本中直接获取各种语言规律 和语言知识。另外,经验主义的方法还能够借助更多的语言材料柬检验传统的理 论语言学依靠手工搜集材料的方法所得出的各种结论。 n l p 研究越来越多地采用了基于语料库和统计学的方法,并且颚得了一定 程度的成功 2 6 2 8 。基于统计的n l p 技术已成为当前的主流方向,丽基于语法 规则的信息检索方法至少现在还难以在计算机上以量化的方式实现。虽然此娄方 法在某些信息处理的细节卜有所应用,但并不广泛。实际上,本论文的一些t 作 也主要是基于统计方法或者其它数学方法的。 1 2 2 基于n l p 技术的信息检索的研究现状 近十年来,n l p 技术取得了巨大进展,特别是在基于文档的信息检索、信 息抽取以及机器翻译等领域。在信息检索中应用n i j p 技术的目标在于:通过建 立可计算的语言模型,改进对文档的理解和表示,这样人们就可以编写计算棚。可 立可计算的语言模型,改进对文档的理解和表示,这样人们就可以编写计算机c j j 天津大学博士学位论文 第一章绪论 信息检索作为信息处理最直接的应用之一,不仅具有广泛的学术价值,同时 也具有巨大的市场潜在价值,日益得到了学术界以及商界的广泛重视和支持。随 着计算机运行能力的不断增强,信息处理技术的不断发展和优化,更加智能化、 更具有应用前景的信息检索系统也将逐见端倪。 1 2 国内外研究现状 1 2 1 n l p 技术的理性主义和经验主义方法 2 5 在n l p 技术上一直存在两种方法的争论,即理性主义( r a t i o n a l i s m ) 和经 验主义( e m p i r i c i s m ) 。前者是先依据某种语言理论建立语言模型,再从语言模 型构造规则系统,所以也称为基于规则的方法。这种方法在很长时间里曾经一直 是n l p 的主流。后者是在调查和分析大规模语料的基础上,用统计学的方法处 理自然语言。目前,这种方法已经成为n l p 的主流。到2 0 0 0 年,经验主义的方 法在自然语言处理的许多分支领域得到了应用。 经验主义认为基于规则的方法存在以下缺陷,一是通过内省方式得到的语言 规则往往有脱离语言实际的可能:二是规则的灵活性较差,容易忽略语言中那些 经验性的、小粒度的知识,难以覆盖各种复杂纷繁的语言现象:三是当需要添加 新的规则时,必须注意协调与已有规则的关系,避免规则之间产生矛盾。为了突 破规则方法的局限,人们采用了一种基于语料库和统计学的方法,对大规模非受 限的自然语言进行统计分析,从语料库的大量真实文本中直接获取各种语言规律 和语言知识。另外,经验主义的方法还能够借助更多的语言材料来检验传统的理 论语言学依靠手工搜集材料的方法所得出的各种结论。 n l p 研究越来越多地采用了基于语料库和统计学的方法,并且获得了一定 程度的成功 2 6 2 8 。基于统计的n l p 技术已成为当前的主流方向,丽基于语法 规则的信息检索方法至少现在还难以在计算机上以量化的方式实现。虽然此类方 法在某些信息处理的细节上有所应用,但并不广泛。实际上,本论文的一些工作 也主要是基于统计方法或者其它数学方法的。 1 2 2 基于n l p 技术的信息检索的研究现状 近十年来, c l p 技术取得了巨大进展,特别是在基于文档的信息检索、信 息抽取以及机器翻译等领域。在信息检索中应用n l p 技术的目标在于:通过建 立可计算的语言模型,改进对文档的理解和表示,这样人们就可以编写计算机可 天津大学博士学位论文 第一章绪论 执行的程序,从而执行涉及自然语言的各类任务。 人们已经对基于n l p 技术的信息检索进行了广泛而深入的探讨,有许多重 要的国际会议都涉及到这一问题。在一般性的信息检索中,n l p 技术己应用到 其中的三个领域,即自然语言接口、文档处理和知识获取1 2 9 1 。自然语言接口使 用户在查询时能够输入一段自然语言式的文本,从而便于用户精确定义自己的信 息需求;文档处理是通过一定的工具对词、短语和句子进行分析,表示出词语之 问的关系,由此可进行受控词语的替换和扩展 3 0 1 ;知识获取则是采用数据挖掘 的方法,对文档中有用的信息进行抽取。甚至在问答系统中,也采用了基于n l p 的信息检索技术,以从分布于多个文档的片断信息中自动收集答案【3 1 】。实际上 n l p 技术己可用于信息检索过程中的所有阶段,不仅包括上述的文档处理阶段, 而且也包括对用户查询的处理以及两者之间的匹配计算。在查询处理阶段,n l p 可通过查询扩展等相关反馈技术,更准确地理解用户的查询需求;在匹配计算阶 段,n l p 技术则可以在结构层和语义层( 而非词语层) 进行相似度计算和排序 计算,从而提供更高的灵活性和准确性。 综观目前的研究,n l p 技术在信息检索中的应用可分为两个层次,即词语 层和上词语层。首先,从词语层上看,采用的n l p 技术包括自动分词、识别“功 能词”( f u n c t i o nw o r d ) 和“内容词”( c o n t e n tw o r d ) 、识别复合短语以及专有名 词和未登录词,等等。这些技术已应用到以下四个方面,即s t e m m i n g ( 原形化 或词干提取) 算法、机器可读词典的开发、词语索引( 3 2 3 5 】以及词义消歧 3 6 】, 其中词义消歧是许多语种,尤其是类似中文的连续字符语言,都无法避免的问题 3 7 3 8 。其次,在上词语层,n l p 技术应用到的领域则包括概念表示、句法分 析和语义分析等。同时,自动文本分类和自动摘要技术作为n l p 的重要分支, 也被引入到信息检索系统里,以帮助提高检索的效率和准确度 3 9 - 4 1 1 。特别值得 注意的是,信息检索与机器翻译结合,形成了跨语言信息检索( c r o s s l a n g u a g ei r ) 的研究方向,即用某一种语言提出检索要求,计算机在其他语种的文档中检索, 再把得到的检索结果翻译成用户指定的语种 4 2 - 4 5 1 。 从目前来看,大多数“智能”信息检索系统中所采用的n l p 技术基本上都 是基于统计方法的。在人们对语言的机制还缺乏系统了解,还没有种适合信息 处理的语言理论可以应用的时候,统计方法实际上是一种依靠“量”来获取“质” 的策略。也就是说,它认为大量语言现象的统计规律能够确切地反映语言的内部 结构规律和认知规律。然而,这正是它有待证明的东西,因为在实际操作中,即 使是完全不用规则的、基于统计的语言信息处理系统,也不可能完全避开使用语 言表层的结构性信息和规律。比较好一点的办法也许是把两种方法结合起来,取 长补短,互为补充。目前已有不少系统采用了这种思路。比如,用规则分析句子 天律大学博士学位论文 第一章绪论 的句法结构( 有些语言现象用规则处理比较方便) ,而用基于语料库的统计方法 处理词语关系、文本类别等问题。 中文信息检索作为信息检索领域的一个重要分支,最早见于7 4 8 工程中的汉 字情报检索。根据中文的特点,n l p 技术应用到了中文信息检索的以下几个方 面 4 6 :( 1 ) 词语切分和词性标注;( 2 ) 句法及语义分析,包括句法成分的识别 与标注、关键词提取等;( 3 ) 概念标注与分析;( 4 ) 语义知识表示;( 5 ) 词典与 知识库,等等。早期中文信息检索的研究由于受语料资源的限制,主要集中在内 地、香港、台湾以及新加坡等实际使用中文的地区。进入九十年代,中文信息处 理的研究开始在全球范围内升温,中国、美国、日本、澳大利亚等国家的一些研 究机构、大学以及企业( 如微软、i b m 、i n t e l 、松下、东芝) 也纷纷开始了中文 信息检索的研究工作。目前,中文信息检索的研究已经取得了一定的成果,人们 提出了多种中文信息检索理论和算法 4 7 - 4 9 1 ,并实现了一些实用化的系统。 尽管中文信息检索的技术和研究已经取得了相当多的成果,但我们应该注意 到,目前的中文信息检索的效果却并不乐观。当用户输入查询后,一般的中文信 息检索系统会在较短的时间内相对高效地为用户返回一批查询结果,但是在这些 结果中,大部分都是冗余信息,用户还必须花费大量时间进行人工筛选( 实际l : 对于其它语种也存在同样的问题) 。另外,如前所述,由于中文复杂的句法结构 和语法结构,信息检索系统在处理用户查询时往往会产生许多歧义,这将大大降 低系统的性能。如何通过一种简单而有效的方式消除用户查询歧义,也是一个亟 待解决的问题。 本文针对中文的特点以及传统n l p 技术存在的若干问题,主要讨论了以下 几方面的内容:( 】) 中文分词效果对信息检索究竟有何影响;( 2 ) 如何实现单文 档和多文档的关键词抽取;( 3 ) 如何通过文本分类消除用户蠢询歧义;( 4 ) 在文 本聚类中,线性和非线性维数约减算法是否会产生不同的聚类效果;最后,在 s m a r t 系统1 的基础上,建立了一个基于向量空间模型的w i n d o w s 平台上的信 息检索系统。 1 3 本文主要研究工作和创新之处 本文工作主要集中在对信息检索中的文档或文档集处理技术的研究方丽。针 对中文语料,采用统计方法和代数方法,以向量空间模型为基础,从词语层以及 1 s m a r t 信息检索系统最早是出s a l t o n 于二十世纪六十年代后期实现的基于v s m 的信息检索系统,其最根 本的目的是为信息检索研究提供一个测试平台包括了建立索引、检索和评价等基本功能。但该系统是基 于l i n u x 平台的,而且是以命令行的形式进行操作,接口不够友好。 一5 一 天津大学博士学位论文 第一章绪论 文档层上对信息检索中应用到的n l p 技术进行了一些研究。 本文主要研究工作和创新之处如下: 1 对信息检索中,文档索引单位的选择做了详细的分析,并提出了种基于统 计的窗口移动扩展方法,简单而有效地改善了未登录词的识别问题。对中文 分词中的最大匹配算法做了一些改进,定程度上解决了切分歧义的问题。 同时,在分词结果对信息检索性能的影响方面做了系统的研究,实验表明, 最大匹配识别出的短语和最小匹配识别出的基本词语相组合,能够产生最佳 的检索效果; 2 关键词抽取是信息抽取的一个重要环节。本文针对中文的特点,分别实现了 基于z 2 统计的单文档关键词提取算法和基于朴素贝叶斯理论的多文档关键 词抽取算法。在单文档关键词提取中,考查了词与词之间的共现关系,并以 z 2 统计量来衡量两个词语之间的关联,从而确定出文档中的关键词。这种方 法更接近于自然人读文章领会关键词的过程,具有一定应用价值。在多文档 关键词提取中,改进了传统的k e a 算法,新增了一个可标示词语是否为关 键词的特征值口v b ri n t e r v a l 。实验表明,新增的特征值使提取出的关键词的 准确率有了明显的提高。同时,在该算法中,标示关键词的特征值是可以扩 展的,这为进一步改进算法的性能提供了很大的空间。 3 文本分类是信息检索过程中具有较大实用价值的关键技术。本文结合已有的 文本信息描述和特征抽取方法,综合考虑了频度、分散度和集中度等三项指 标,设计并实现了一种新的特征抽取算法,使得选出的特征项整体优化。实 现了传统的基于类中心分类法的文本分类系统,通过分析该方法存在的问 题,提出并实现了二二级分类模式的文本分类系统。提出了一种基于向量空间 模型的词共现模型,并将通过该模型统计出的共现词信息应用于文本分类研 究中,提高了文本分类系统的性能。另外,本文把文本分类技术应用到了用 户查询歧义消除方面,实现了一个分类检索系统,能够使用户快速确认或得 到自己真正需要的信息。 4 对于一个大规模的文档集来说,如何实现高维文档向量的降维是一个重要的 研究课题。本文采用了传统的l s i 算法对标准测试集进行了降维处理,同时 在文本聚类方面对降维后数据进行了分析。另外,本文首次将两种非线性降 维方法i s o m a p 和s i e 引入到了高维数据的降维处理中,实验结果表明,采 用了局部嵌入技术的s i e 算法取得了与l s i 相当的性能,优于全局优化的 i s o m a p 算法,并且降维处理时的运算复杂度也大大降低。同时,实验发现聚 类结果的熵值评价指标并不适合针对同一数据、不同聚类数的比较,而 f 。m e a s u r e 值在此种情况下更为适用。 天津大学博士学位论文 第一章绪论 5 实现了基于n 层v s m 的w i n d o w s 上的信息检索系统。在这个系统中,可以 对v s m 中的关键步骤进行算法改进和实验,并保留这些结果。根据这些分 析结果,在进行不同的信息检索工作时,就可以选择比较合适的方法来进行, 从而提高信息检索的性能。 1 4 论文结构 本论文内容共分为八章:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 热带气旋最大强度分析模型的评估
- 2025至2030中国阴道保湿剂行业发展趋势分析与未来投资战略咨询研究报告
- 2025至2030中国水电行业项目调研及市场前景预测评估报告
- 2025年智能可穿戴设备技术创新在野生动物保护监测中的应用前景
- 一例肠梗阻患者的个案护理
- 离婚自愿放弃所有财产净身出户全面协议书
- 安全管理承包合同:加油站消防安全责任承包协议
- 离婚协议书打印模板离婚纠纷调解与执行服务
- 创新型科技企业研发团队人员主体变更合作协议
- 2025至2030中国轻石脑油行业项目调研及市场前景预测评估报告
- DDI领导力学习地图
- 顾正田医生:子宫内膜异位症不孕处理
- 城乡规划管理与法规系列讲座城市规划依法行政案例
- 控制论与维纳
- 《红色旅游发展问题研究开题报告(含提纲)》
- GB/T 12718-2001矿用高强度圆环链
- 2023年山东省春季高考机械专业知识试题
- 舞蹈教学课件第五单元-中外舞蹈名作赏析
- 2023年中国外运股份有限公司招聘笔试模拟试题及答案解析
- 肱骨近端骨折Neer分型及治疗课件
- 中职数学基础模块上册课件-
评论
0/150
提交评论