(计算机软件与理论专业论文)基于概念的信息检索模型研究.pdf_第1页
(计算机软件与理论专业论文)基于概念的信息检索模型研究.pdf_第2页
(计算机软件与理论专业论文)基于概念的信息检索模型研究.pdf_第3页
(计算机软件与理论专业论文)基于概念的信息检索模型研究.pdf_第4页
(计算机软件与理论专业论文)基于概念的信息检索模型研究.pdf_第5页
已阅读5页,还剩89页未读 继续免费阅读

(计算机软件与理论专业论文)基于概念的信息检索模型研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 一直以来,在自然语言处理领域存在着两种截然不同的理论,即理性主义和 经验主义。理性主义强调的是基于规则的语义分析,它试图寻找一种百分之百解 决问题的途径;而经验主义则依靠已经存在的语言事实,通过统计的方法来追求 利益的最大化。 本论文从理性主义自然语言处理出发,根据概念依存理论和复杂特征集提出 了概念的动态特征集表示方法,简单的分析了利用合一运算构建动态特征征集的 过程,提出了一种将概念特征集应用于信息检索的匹配理论,初步探讨了基于该 理论的信息检索的实现,通过匹配过程的深入分析得出文档与查询语句相匹配的 充要条件是文档必须蕴含查询语句所包含所有概念基并且必须与查询语句中的概 念基之间关联关系相匹配的结论。 由于概念的动态特征集匹配理论与其他理性主义方法一样,面临着维护庞大 的规则集等众多问题。所以本文转向通过统计自然语言处理寻找一种实现上述结 论的最佳方法,最终提出了基于段语言模型的信息检索实现模型。 段语言模型对传统的统计语言模型在两个方面进行改进: 首先针对概念基在语言中可以对应多个词汇,而查询语句中的词汇仅仅是其 特例的情况,本文引入了相关词表的概念,在相关词表中维护了每个概念基对应 的所有可能的词汇表示,在构建语言模型时不只是根据查询语句的词汇,而是通 过查询语句中概念基的所有相关词汇,这就有效的提高了检索结果的召回率。 其次针对查询语句中概念基之间的联系无法确定的问题,本文提出根据一个 窗口来统计相关词汇的出现频率,而不是整篇文档。因为如果一个小窗口中相关 词汇大量出现,那么这些相关词汇构成与查询语句中概念基之间相同联系的概率 将会增加。本文中采用段作为窗口大小。 以此为基础本文提出了两种具体的段语言模型,即一元段语言模型和二元段 语言模型,对模型中的相关词集合、模型推导、模型平滑、参数估计、模型实现 等问题作了深入的研究,并通过实验确定了各个参数的估值范围。 论文最后将段语言模型与传统语言模型的实验结果作了对比分析,结果显示: 段语言模型较传统的语言模型在准确率和召回率上都有显著提高。 关键词:概念基,统计语言模型,信息检索,段语言模型 t a b s t r a c r a b s t r a c t s i n c ea l w a y s ,t h e r ea r et w ok i n d so fe n t i r e l yd i f f e r e n tt h e o r i e si nt h en a t u r a l l a n g u a g ep r o c e s s i n gf i e l d ,n a m e l yr a t i o n a l i s ma n de m p i r i c i s m t h ee m p h a s i s o f r a t i o n a l i s mi sr u l e b a s e ds e m a n t i ca n a l y s i s ,a n di ta t t e m p t st of i n da na b s o l u t e l y e f f e c t i v es o l u t i o nt op r o b l e m s b u tt h ee m p i r i c i s md e p e n d su p o nt h el a n g u a g ef a c t st h a t a l r e a d ye x i s ta n da c h i e v e st h em a x i m u m b e n e f i tt h r o t i 曲s t a t i s t i c a lm e t h o d s t h i sp a p e re m b a r k so nf r o mr a t i o n a l i s mn a t u r a ll a n g u a g ep r o c e s s i n ga n d p r o p o s e st h em e t h o do fe x p r e s s i n gc o n c e p tu s i n gt h ed y n a m i c a t t r i b u t es e ta c c o r d i n g t ot h et h e o r yo fc o n c e p t u a ld e p e n d e n c ya n dc o m p l e xa t t r i b u t es e t t h e nt h ep a p e r b r i e f l ya n a l y z e st h ep r o c e s so fc o n s t r u c t i n gt h ed y n a m i ca t t r i b u t es e tv i au n i f i c a t i o n , p r o p o s e st h em a t c h i n gt h e o r y t h a t c o n c e p t u a l a t t r i b u t es e tc a nb e a p p l i e dt o i n f o r m a t i o nr e t r i e v a l ,a n db a s i c a l l yd i s c u s s e st h er e a l i z a t i o no fi n f o r m a t i o nr e t r i e v a l b a s e do nt h i st h e o r y f i n a l l yt h ep a p e rc o n c l u d e st h a tt h en e c e s s a r ya n ds u f f i c i e n t c o n d i t i o nt h a tad o c u m e n tm a t c h e saq u e r yi st h a tt h ed o c u m e n tm u s tc o n t a i na l lt h e c o n c e p t u a lb a s e st h a ta p p e a r i nt h eq u e r ya n db ec o n s i s t e n tw i t ht h er e l a t i o n s h i pa m o n g c o n c e p t u a lb a s e si nq u e r y b u ti ti sf o u n dt h a tt h em a t c h i n gt h e o r yo fc o n c e p t u a ld y n a m i ca t t r i b u t es e th a s t of a c em a n yp r o b l e m ss u c ha st h em a i n t e n a n c eo fah u g er o l es e t ,j u s ta sm a n yo t h e r r a t i o n a l i s mm e t h o d s t h e r e f o r et h i sa r t i c l es w i t c h e st ot h es t a t i s t i c a ln a t u r a ll a n g u a g e p r o c e s s i n ga n ds e e k st h eb e s tw a yt oi m p l e m e n tt h ea b o v ec o n c l u s i o n f i n a l l yan e w l a n g u a g em o d e ln a m e ds e c t i o nl a n g u a g em o d e li n t h ei n f o r m a t i o nr e t r i e v a lf i e l di s p r o p o s e d t h es e c t i o nl a n g u a g em o d e lm a k e st h ei m p r o v e m e n to nt h et r a d i t i o n a ls t a t i s t i c a l l a n g u a g em o d e li nt w oa s p e c t s : f i r s t l y ,a i m e da tt h es i t u a t i o nt h a tt h ec o n c e p t u a lb a s ec a np o s s i b l yc o r r e s p o n dt o m a n yw o r d si nl a n g u a g e ,b u tt h ew o r d si nq u e r ya r em e r e l yi t sp a r t i c u l a rc a s e s ,t h i s p a p e rh a si n t r o d u c e dt h ec o r r e l a t i o nv o c a b u l a r yt a b l e i tc o n t a i n s a l lt h ep o s s i b l e w o r d st h a tm a yc o r r e s p o n dt oe a c hc o n c e p t u a lb a s e w h e nc o n s t r u c t i n gt h el a n g u a g e m o d e l ,n o to n l yt h eq u e r y sw o r d sa r ec o n s i d e r e d ,b u ta l s oa l lt h ew o r d sc o r r e s p o n d i n g t 1 、a 丑s t r a c t t ot h ec o n c e p t u a lb a s e st h a ta p p e a ri nt h eq u e r ya r et a k e ni n t oa c c o u n t t h u st h es e a r c h r e s u l tr e c a l lr a t ei se f f e c t i v e l yi n c r e a s e d s e c o n d l y , a i m e da tt h ep r o b l e mt h a tt h er e l a t i o n s h i pb e t w e e nt h ec o n c e p t u a l b a s e sc a n n o tb ed e t e r m i n e d ,t h i s p a p e rp r o p o s e s t h a tt h es t a t i s t i c a lo c c u r r e n c e f r e q u e n c yo ft h ec o r r e l a t i v ew o r d ss h o u l db ec a l c u l a t e dn o ta c c o r d i n gt ot h ee n t i r e d o c u m e n tb u tt h r o u l g l law i n d o w b e c a u s ei ft h ec o r r e l a t i v ew o r d sm a s s i v e l ya p p e a ri na s m a l lw i n d o w , t h e nt h ep r o b a b i l i t yo ft h a tt h er e l a t i o no ft h ec o r r e l a t i v ew o r d si st h e s a m ea st h eo n eb e t w e e nt h ec o n c e p t u a lb a s e si nt h eq u e r yw i l lb ea b l et oi n c r e a s e i n t h i sp a p e rs e c t i o n sa r eu s e da sw i n d o w s u p o nt h eb a s i sm e n t i o n e da b o v e ,t h i sp a p e rp r o p o s e st w os p e c i f i cm o d e l so f l a n g u a g e ,n a m e l yu n i g r a ms e c t i o nl a n g u a g em o d e la n db i g r a ms e c t i o nl a n g u a g e m o d e l at h o r o u l g hr e s e a r c hi sd o n ei nt h ef i e l do ft h ec o r r e l a t i v ew o r ds e ti nt h em o d e l , m o d e ld e d u c t i o n ,m o d e ls m o o t h ,p a r a m e t e re s t i m a t i o na n dm o d e li m p l e m e n t a t i o n t h ep a p e rf i n a l l yd e t e r m i n e st h er a n g eo fp a r a m e t e r s v a l u e st h r o u 曲e x p e r i m e n t a l d a t aa n da l s om a k e st h ec o m p a r i s o na n da n a l y s i so nt h ee x p e r i m e n t a lr e s u l t so ft h e s e c t i o nl a n g u a g em o d e la n dt h et r a d i t i o n a ll a n g u a g em o d e l i ti ss h o w e dt h a t :t h e r ei s r e m a r k a b l ee n h a n c e m e n to na c c u r a c ya n dt h er e c a l l i n gr a t e t h ec o n c l u s i o nf o rt h i s p a p e rt o g e t h e rw i t ht h ef u r t h e rr e s e a r c hc o m e st ot h ee n do ft h ep a p e l k e yw o r d s :c o n c e p t u a lb a s e ,s t a t i s t i c a ll a n g u a g em o d e l ,i n f o r m a t i o nr e t r i e v a l s e c t i o nl a n g u a g em o d e l i i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:蛔塞盛日期:2 口。,年f , q 2 日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:捣宝氆导师签名:盥! 銎墨叁 日期:矽口,年月2 日 第一章引言 第一章引言 信息检索( i n f o r m a t i o nr e t r i e v a l ,i r ) 用于通过特定的算法或模型从文当中搜 索有价值的信息,它是自然语言处理( n l p ) 的一个重要的应用领域,同时信息检 索系统的特殊要求又区别于传统的自然语言处理,因为它覆盖了统计学领域的知 识,以前这些领域在自然语言处理中并不是特别受关注。近年来自然语言处理中 的“量化”方法再次成为研究的热点,随之而来的是各个领域间相关性的日益增 强。 1 1 研究背景 由于以互联网为主体的信息高速高速公路的不断普及和发展,信息技术已经 渗透到我们社会生活的各个角落,正以前所未有的速度和能力改变着人们的生活 和工作方式,人们正处于一个“信息爆炸”的时代。一方面,互联网上蕴涵的海 量信息远远草果人们的想象;另一方面,面对信息的汪洋大海,人们往往感到束 手无策,无所适从,出现所谓的“信息过载”和“信息迷向”的现象,要在这样 的信息海洋里查询信息,无疑就像大海捞针一样,在这种情况下搜索引擎技术就 应运而生了。 搜索引擎以一定的策略在互联网中搜集发现信息,对信息进行理解、提取、 组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索服务是所 有互联网用户中使用最多的服务之一,在百度组织的一次搜索引擎调查上可以看 到,有7 8 的网民只要需要查询信息就会首先使用搜索服务,有4 5 2 7 的网民在 常去的网站找不到所需信息时会使用搜索服务,只有1 0 7 的网民很少使用网上搜 索。可见搜索引擎在用户中备受欢迎,已经成为主要的互联网服务内容之一。随 着人们对搜索服务的日益依赖,搜索引擎市场无疑将是一个巨大的潜在市场。据 统计2 0 0 5 年中国搜索引擎市场规模达到了9 4 亿元人民币,百度公司在纳斯达克 的成功上市更是缔造了中文搜索引擎的神话。 但是,日益增长的搜索服务需求和因之而来的巨大的市场规模同不甚令人满 意的搜索服务质量之间的矛盾日益突出。在使用搜索引擎的过程中经常会有这样 的体验:想查的东西查不着,不相关的东西却很多。用户在搜索引擎上进行信息 电子科技大学硕士学位论文 检索时,并不关注返回结果的多少,而是看与自己的需求是否吻合。对于一个查 询,目前的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在其中仔细筛 选,并不能达到搜索服务的一步到位。同在百度的搜索调查中可以看到,有6 3 8 的用户感觉目前的搜索服务只能基本满足要求,2 1 0 7 的用户觉得一般,1 1 8 7 的用户感觉基本不能满足要求,而觉得完全能满足需求的只有l 4 7 ,而完全不能 满足要求的确有1 7 3 。可以看到,目前用户对搜索服务的满意度还不是十分乐观, 搜索服务的质量还有待提高。调查显示,用户感觉目前搜索服务有待改进的方向 集中在两个方面: ( 1 ) 相关性信息太多。搜索引擎返回的相关网页太多,用户很难快速准确的定 位到所需的信息。例如,用户在g o o g l e 上输入几个关键字,它有可能返 回成千上万个网页,用户将浪费很多时间在这些网页中查找自己所需要的 信息。 ( 2 ) 无法以几个关键词的简单组合来表达检索需求。因为人们的检索需求往往 是非常复杂而特殊的,通过简单的几个关键词组合用户都没有将自己的检 索意图表达清楚,搜索引擎自然也无法找出令客户满意的答案了。 上述难题在目前的搜索引擎中都无法彻底解决,因为当前的搜索引擎都是基 于关键词为基础的索引、匹配算法,该算法尽管简单易行,但毕竟停留在语言的 表层,而没有触及语义,因此检索效果很难进一步提高。这就促进了信息检索的 技术的进一步发展。 信息检索研究的目的是寻找从文档资料中获取可用信息的模型和算法,信息 检索的传统问题是需要用户输入一个需求信息的查询字段,系统恢复包含所需信 息的文档列表,这一类问题称为特定信息的检索问题( a d h o cr e t r i e v a lp r o b l e m ) 【1 】。 更通俗的说,信息检索就是根据用户输入的查询条件,从海量的信息库中找出用 户所需要的信息,这类信息包括文本、图形和语音等。本文研究的内容是基于文 本的信息检索。 1 2 信息检索模型概述 在信息检索中最重要的部分是信息检索模型的建立。模型是采用数学工具, 对现实世界某种事物或某种运动的抽象描述,面对相同的输入,模型的输出能够 无限的逼近现实世界的输出。信息检索模型采用四元组表示: m = ( d ,q ,f ,r ( q ;,d 瑚 ( 公式1 - 1 ) 2 第一章引言 其中m 表示检索模型;d 代表文档集的机内表示;q 代表用户需求的机内表 示;f 为文档表示、查询表示和他们之间的模型框架;r ( q i ,d j ) 代表给q u e r yq i 和 d o c u m e n td i 评分。信息检索模型决定于下面的因素: f 1 1 从什么样的视角去看待查询式和文档。 f 2 1 基于什么样的理论去看待查询时和文档的关系。 ( 3 ) 如何计算查询时和文档之间的相似度。 1 2 1 布尔模型 在信息检索领域最早出现的是布尔模型,它在二十世纪六七十年代得到了较 大的发展,出现了许多机遇布尔模型的商用检索系统,如d i a l o g ,s t a i r s , m e d l a r s 等。布尔模型是基于特征项的严格匹配模型,它首先建立一个二值变 量的集合,这些变量对应于文本的特征项,文本用这些特征项来表示,如果出现 相应的特征相,则特征变量置t r u e ,否则置f a l s e 。文本与查询的匹配规则与布尔 运算相同。 其主要优点是:速度快;易于表达一定程度的结构化信息。缺点是:把布尔 模型作为文本的表示很不精确,不能反映特征项对于文本的重要性,缺乏定量的 分析;过于严格,缺乏灵活性,更谈不上模糊匹配,这往往忽略了许多满足用户 需求的文本。 1 2 2 空间向量模型 在同一阶段出现了空间向量模型,c o r n e l lu n i v r e s i t y 的p r o f s a l t o n 和他的学生 成为这个领域的先驱。他们在1 9 6 8 年提出了向量空间模型,使用由词语构成的向 量来表示文档与查询条件的信息,并研制了基于向量关键模型的s m a r t 试验系 统【2 【3 】。用户无需构造布尔逻辑组合的查询条件,只需输入重要词语、短语、语句 甚至一段文章,检索系统能根据用户提交的查询条件构造查询向量,按照在检索 词构成的向量空间中查询条件和文档向量间的余弦相似性排序后得到检索结果, 这样也就实现了查询条件与文档间的部分匹配。 空间向量模型的优点在于:将文本和查询简化为项及权重集合的向量表示, 从而把检索操作变成向量空间上的向量运算,其权重计算可以通过简单的频数统 计来完成,通过向量的分析,匹配文本和查询。在这个基础上,引入各种成熟的 统计方法,更大程度地挖掘文本中潜在的语义信息。其缺点在于项之间线性无关 3 电子科技大学硕士学位论文 的假设,此外,将复杂的语义关系归结为简单的向量结构,丢失了许多有价值的 线索。 1 2 3 概率模型 概率模型是在1 9 6 0 年由m a r o n 和k u h n s 提出,之后被称为模型1 ;之后1 9 7 6 年r o b e a s o n 和s p a r c kj o n e s 等提出了概率检索模型2 ;再后来t u r t l e ,f u h r 和 r o b e r s t o n 又提出了了统一化模型,称为模型3 ,它主要是提高了文献的排序精度【4 】。 概率模型是基于概率排序原则:对于给定用户查询q ,对所有文本计算概率,并 从达到小进行排序,概率公式为p ( r i d ,q 1 。其中r 表示文本d 与查询o 相关。另 外采用r 表示文本d 与查询q 不相关,有p ( r d ,q ) 十p ( r i d ,q ) = 1 ,也就是用二值 形式判断相关性。 概率模型的优点是可以按照他们相关概率递减的顺序来计算秩。缺点是开始 时需要猜想把文本分为相关和不相关两个集合,一般来说很难达到,另外这种模 型实际上没有考虑索引术语在文档中的频率( 因为所有的权重都是二元的) ,而索 引术语都是相互独立的。 1 2 4 潜在语义索引( k s i ) 模型 潜在语义索引l s i ( l a t e n ts e m a n t i ci n d e x ) ,或潜在语义分析l s a ( l a t e n t s e m a n t i c a n a l y s i s ) 5 】是由s t d u m a n i s 等人在1 9 8 8 年提出的。l s i 将自然语言中的 每个文档视为词汇为维度的空间中的一个点,认为个包含语义的文档出现在这 种空间中,它的分布绝对不是随即的,而是服从某种语义结构。同样地,也将每 个词汇视为以文档为维度的空间中的一个点。文档是由词汇组成的,而词汇又要 放到文档中去理解,体现了一种“词汇一文档”双重概率关系。l s i 不苛求语言学 方面的知识,通过奇异分解导出文本中词与词之间的某种内在关系,同时,l s i 还体现了紧凑的优点,因为很多稀疏空间向量的维数都远远大于1 5 0 ,而l s i 通常 可以降低到1 5 0 维左右。但是l s i 的速度比传统的检索算法满,因为算法本身就 需要高阶矩阵的运算,其计算量太大,和概率统计模型相比,其性能并没有提高 很多。 1 2 5 语言模型( l m ) 语言模型研究本身最初是利用统计技术计算词汇间的依赖关系以帮助语音识 4 第一章引言 别系统提高识别率。在二十世纪八十年代后期,语言模型开始被应用到其他相关 领域。在1 9 9 8 年,p o n t e 和c r o f t 首次提出了将统计语言模型和信息检索相结合的 新思路【“。这个模型假设用户头脑中有一个能够满足他所需要的理想文档,用户从 这个理想文档中抽取词汇作为查询条件,用户所选择的查询条件词汇能够将这个 理想文档同文档集合中其他文档区分开来。这样的查询条件可以看作是由理想文 档生成的能够表整改理想文档的文本序列。p o n t e 给出的研究思路是:首先估计每 篇文档的词汇概率分布,然后计算从这个分布抽样得到查询条件的概率,并按照 查询条件生成概率来对文档进行排序。 语言模型与传统的信息检索模型相比不同之处主要为两点: ( 1 1 基本思想完全不同。在传统的信息检索概率模型中,文档d 和检索q 的相 关度排序函数定义为事件r ( 文档是否满足检索要求1 的概率,即 f ( q ,d ) = p ( r i d ) ,这里的相关度排序函数定义虽然比较直观,但是相关性是 一个抽象的概念,该定义本身没有也无法具体给出r 的定义,所以该模型 在理论上有很大的模糊性;而在语言模型中,相关度排序函数泽定义为由 文档的语言模型生成检索的概率,即f ( q ,d ) = p ( q l d ) ,建立在统计语言模型 理论的基础上,定义明确,便于操作。 ( 2 1 具体实施方法不同。传统的概率模型由于没有也无法对相关性做出明确的 定义,因此一般需要在检索中,首先给定带有相关性标记的文档作为建立 模型的基础,在实际中,要针对每个检索给定学习数据,几乎不可能;而 语言模型可咀基于每个文档直接计算出相关度排序函数,从而有效的解决 上述问题,同时语言模型还可以为传统概率模型形成初始检索。 1 2 6 基于本体论的信息检索模型 随着自然语言语义研究的深入以及w o r d n e t 等字典工具的日益成熟,近来提 出了基于本体论的信息检索模型。s t u d e r 将本体定义为“本体( o n t o l o g y ) 是共享 概念模型的明确的形式化规范说明”。在这个模型中首先建立需要建立领域本体, 它提供了某个专业学科领域中概念的词表以及概念间的关系,是某一领域的知识 表示。基于本体的检索过程为:用户想信息检索系统提出检索申请;信息检索系 统产生一个界面和用户交互,界面接受用户提出的查询关键字后,系统查询本体 库,从中找出该关键字的各个领域,然后将其领域以及在该领域下的关键字的含 义罗列给用户;用户此时根据自己的意图,在界面上确定所需查找的领域及含义; 5 电子科技大学硕士学位论文 系统将经过本体规范后的请求交给全文搜索引擎进行检索;全文搜索引擎检索后 返回给用户信息。该模型解决了从查询语言到检索语言之间转换过程中出现的语 义损失和曲解等问题,保证在检索过程中能够有效的确定用户的查询意图,获得 预期的检索信息。 1 3 本文动因 在自然语言处理中,一直存在着两种截然不同的理论,即理性主义理论和经 验主义理论。这两种理论有一个明显的分水岭:理性主义理论的基本出发点是追 求完美,企图以思辨去百分之百地解决问题;经验主义则追求一种残缺之美,在 承认只能百分之九十地解决问题的前提下,以统计手段来追求利益的最大化。 语言包括语法,语义和语用三个方面,其中语法是构成句子的各个记号之间 的组合规律,语义表示按照各种表示方法所表示的各个记号的特定含义,语用表 示各个记号所出现的行为中,它们的来源、使用和影响。如果只考虑语法,这种 意义上的语言就是形式语言。在形式语言领域,文法是在建立在字母表上的一套 规则集,而语言则是符号取自字母表的字符串的集合,语言中的任何字符串都能 够由文法产生。根据c h o m s k y 文法理论,文法分为四种,即无限制文法、上下文 有关文法、上下文无关文法和正则文法,这四种文法由分别对应了四种自动机, 即图灵机、线性有界自动机、下推自动机和有限状态自动机。在计算机出现以前 就已经证明所有的可计算问题都可通过图灵机进行计算。所以理性主义在语法方 面所追求的最终目标是是否存在一组有限的文法产生式的集合,而一种语言能够 由该文法产生。从语言认知或者纯粹的语言学理论研究的角度来看,这种可能性 是有的,但是从目前的研究来看,那种可能性即使存在那样的规则集,也不可能 构造出来,无论是采用人工或是机器。另外任何语言都在飞速的发展着,新的词 组和新的用法不断涌现,所以即使构造出那样的规则集,也需要不断的维护和完 善,这在目前也不可能达到。 在这种情况下经验主义方法的出现也就事在必然了,而且从目前的发展来看 经验主义方法在很多领域都表现出良好的效果。然而经验主义方法一开始就是建 立在基于大规模语料库的统计论基础之上,基于概率的统计论方法一个主要特征 是它可以无限制的逼近事实但是不可能完全成为事实,要想无限制的逼近事实一 方面需要建立恰当的模型,另一方面也需要足够大的语料库作为基础。问题在于 由于自然语言的纷杂多样性,那么多大的语料库才是足够大。比如b a h l 从i b m 的 6 第一章引言 l a s e r p a t e n t t e x t 语料库中得到了一个1 ,5 0 0 ,0 0 0 个词的训练语料,在这个语料库上 进行训练之后,使用从相同语料库得到的测试文本进行测试,结果实测试语料中 却有2 3 的三元词( 即三个词的连接) 在i ) i 练语料中没有看到【”。 由于规则方法的不可构造和经验方法的先天不足造成目前这两行种方法都不 可能达到自然语言处理的完美状态,这两种方法可以比作挖隧道一样,从两个不 同的角度向一个共同的目标掘进1 7 j 。虽然近十年以来基于字词的统计语言模型总体 上比较流行,但是当前的发展显然已经接近饱和,正处于快速成长之后的一个相 对平稳的时期,面临新的瓶颈。可以预见,之后自然语言处理的一个新的格局是 在研究和应用两个层面上打通理性主义和经验主义之间的“壁垒”,实现两者的有 机融合。这也是目前自然语言处理领域的一个正快速发展的方向。 本文的动因即基于此出,即通过研究找到在信息检索过程中实现理性主义和 经验主义的结合之处,并通过结合提高概率检索的效率。 1 4 本文的研究内容 在本论文中,我们以概念基理论为基础从理性主义方法和经验主义方法两个 不同的角度和层面来开展相关的研究工作并获得一定的成果。本文的主要工作总 结如下: ( 1 ) 提出了基于概念的动态特征集的匹配理论。通过对概念依存理论和特征集 理论的学习,建立了一个新的基于概念的动态特征集匹配模型。采用该模 型对信息检索过程进行简要分析,提出了一个简单实现,并对实现过程中 的难度作了分析,最终得出结论。 ( 2 ) 提出段语言模型。根据理性主义分析得出的结论,对传统语言模型进行改 造,提出新的段语言模型。阐述了模型的基本原理,对模型的建立和推导 过程作了详细地说明,实现了模型中涉及到的算法。 ( 3 ) 通过实验数据,系统的分析了段语言模型中各个参数对检索结果的影响, 估计得出参数的最佳值范围,之后对段语言模型与传统语言模型的检索效 果做出对比,得出结论。 1 5 本文组织结构 本论文的内容分为六章,各个章节的内容简要描述如下 7 电子科技大学硕士学位论文 第一章分析了本文的研究背景,提出信息检索模型的概念,并对当前检索模 型进行简要的介绍,给出了研究的动机,确定了论文的研究内容并介绍了论文的 组织结构。 第二章首先介绍自然语言的语法分析、语义分析和概念分析等分析过程,接 着以概念依存理论为基础提出并深入探讨了概念动态特征集的匹配理论以及利用 该理论实现信息检索的过程,得出概挣 生的结论。 第三章介绍了一些本文涉及到的基本的概率知识,对信息检索中的语言模型 的建立过程,参数估计和平滑技术做出了详细说明,并简要的介绍了当前的几种 改进模型,介绍了模型评测技术,提出本文的评测标准。 第四章是关于段语言模型的研究。我们首先阐述了段语言模型的基本原理, 然后描述了相关词表的建立过程,之后对一元段语言模型从模型推导、模型平滑、 参数估计和模型实现的角度详细的说明了其建立和实现的过程,最后简要的提出 了二元段语言模型,对其相关技术做了简单介绍。 第五章是对段语言模型的实验和结果分析,其中通过大量实验数据说明段语 言模型中的各个参数对检索效果的影响,对参数估值范围提出建议,之后对一元 段语言模型、二元段语言模型与传统的语言模型的检索效果做出了对比和分析。 第六章总结了本文的工作,并提出有待于进一步开展的研究工作方向。 8 第二章基于动态特征集的信息检索 第二章基于动态特征集的信息检索 信息检索的本质就是查询式和文本的类比问题,按照h a l l e 的观点,两个类比 物是否真正匹配成功,应从三个层次来考察:一是结构对应;二是语义对应;三 是语境对应。结构表示两个类比物的源和目标是否一致,语义是指语义类的预定 义编码,语境与上下文有关。所以要达到检索效率有质的提高必须对查询语句和 文本在语义和语境的层面上进行分析,统计模型只能摹仿语义而不能实现语义, 而理性主义分析方法要求的就是语义的完全理解。 2 1 自然语言理解 自然语言理解( n l u ) ,也称为计算语言学,它是研究如何利用计算来理解和 生成自然语言的学科。对自然语言语言的理解包括理解自然语言的语法信息,语 义信息和语用信息三个方面,语法分析只能提取语言的结构,语义分析能够得到 语言的内容,语用分析才能理解语言所代表的价值。针对信息检索,我们认为能 够实现到语义分析层面就能得到理性结果。 2 1 1 语法分析 语法分析是自然语言处理的基础,它主要完成两个任务。 第一是确定输入的结构。一般来说,语法分析包括对句子中词的处理,重点 在于识别句子中的中心动词,以及动词的主语、宾语以及它们的修饰词或短语修 饰等。通常可以用画语法树的方式描绘,称为分析树。 第二是语法结构的规范化。就是恢复句子中被省略的信息。比如:“试验证明, 语言模型达到的效果比概率模型的更好。”需要转换为“试验证明,语言模型达到 的效果比概率模型达到的效果更好”。 从形式上考虑语言是一个句子的集合,其中每个句子是该语言词汇表v 中一 个或多个符号( 词) 的字符串。文法就是这个句子集合的优先的形式说明。对不 同的语言而言,它句子的个数可以是有限几个,也可以是成千上万。说明一种语 言有两种等价的方法,就是自动机和文法。自动机接受符合该语言词法的一系列 词,并进行状态转换检验,然后再输出。文法主要是采用产生式,这是形式语言 q 电子科技大学硕士学位论文 和自然语言领域广泛采用的方法,成为产生式文法或者短语结构文法。 一个短语结构文法可以由四部分组成【8 j : g = ( n ,t ,s ,p )f 公式2 - 1 ) 其中n 为非终结符集合,其中的符号可以继续往下推导:t 是终结符的集合, 其中的字符不能往下推导,t 中的字符构成的串就成为句子,n 和t 的并集构成 词汇表v ;s 是开始符号,是一个特殊的非终结符,切推动必须从s 开始;p 是 产生式的集合,每个产生式都形如a b ,a 是v 中的一个或多个符号序列,但是 必须至少包含一个非终结符,b 是v 中零个或多个符号序列。 文法包含上下文无关文法、上下文有关文法和无限制文法,从语法分析的历 史来看,在2 0 世纪5 0 年代后期和6 0 年代初上下文无关文法占主要地位,在6 0 年代中期早期转换文法开始发展,在7 0 年代就开始了扩展的上下文无关分析起的 研究。可以看到自然语言文法的发展已经历了半个世纪,但是由于自然语言的复 杂性目前还没有一种文法能够生成一种语言中的所有句子。 在语言学中,由单词构成短语,再由短语按照主语、谓语、宾语等构成句子, 在自然语言文法中也有类似的结构,它的非终结符是所有单词( 在英语中为单词, 在汉语中为字或词组) ,由单词根据词性构成短语,再由短语构成句子。表2 1 给 出了一个词类的实例。 表2 - 1 词类表 词类简称词类全称举例 n 名词报纸,习惯,标题,正文,记者 t v 系动词是,有 v 动词读,写,看 p 介词在,往,为了 a d j 形容词 大,小,丰富的,美日目的 d 副词极为,非常,很 根据文法理论,可以构造一个上下文无关的短语结构文法,把词类定义成一 个产生式集合: n 一报纸i 习惯l 标题l 正文 v 一读l 写i 看 一个或多个词汇可以构成短语,用文法表示就是: n p n l a d j n p 1 n 第二章基于动态特征集的信息检索 v p v l t v 上式中n p 为名词性短语,v p 为动词性短语。最后短语构成句子表示为: s n p v p s n p v p n p s 为开始符号,上面第一个产生式反映了语言学中的主谓结构,第二个产生式 反映了主谓宾结构。 用短语结构文法分析一个句子,就是要找到一个推导,即一个产生式序列, 引导从起始符号到整个句子。推导过程通常表示为一棵分析树。如果句子是二义 的,就有几个推导,几棵分析树。例如句子:“记者看报纸”的推导就是: s = n pv pn p = nv pn p = 记者v pn p = 记者vn p = 记者看n p = 记者看n = 记者看报纸。 对应的分析树如图2 - 1 所示。 s 小 n pv p nv 记者看 图2 - 1 上f 文无关推导树 分析器分为自顶向下和自底向上两种,一个自顶向下的分析器构造的是从顶 部开始,它的推导过程是从起始符号一直到句子。相反的,一个白底向上的分析 器构造树从底( 树叶) 开始,推导过程是由句子应用规约一直到起始符号。 关于上下文无关的语法分析器最大的也是最早的研究是k u n o 和o e t t i n g e 9 】的 哈佛预期分析器。预期分析器是一个用g r e i b a c h 正则式【1 0 j ( 每个产生式右箭头一 个符号必须是终结符) 写的、上下文无关的自顶向下分析器。这个分析器是上下 文无关分析器中最成功的,而且还清楚地指出,自然语言文法用上下文无关形式 描述是不够的。所以出现了扩充的上下文无关文法,这类文法包含纽约大学的s a g e r 和他的同事开发的受限语言【1 1 ,以及w o o d s 提出来的扩充转换网络【1 2 1 。这两种文 冲】l n 电子科技大学硕士学位论文 法使得分析能力进一步提高,但是与理性状态都还有很大距离。 2 1 2 语义分析 语义分析就是确定句子的含义,研究自然语言的语义,就是要找到一种合式 定义的带有简单语义的形式语言。因此语义分析就是如何从自然语言映射到这种 形式语言的问题。这种形式语言必须具有一些特点,比如没有二义性,具有间接 的解释和推理规则,具有该句子所确定的逻辑结构,而这些特点自然语言都不具 备。 传统的语义分析采用两种制式表示的方法,即逻辑表示和语义网络的表示方 法。在语义网络中,节点表现为自然语言的词和短语的概念。一个节点与其他节 点连接的弧称为语义关系。这里的概念并不是单词本身,而是该词语短语的本质 词义;语义关系是句子中动词和他们的主语、宾语、介词短语等等之间的关系, 再加上次的类别、形态和修饰关系等,语义网络建立在表层结构和深层格结构基 础之上。 表层结构是指有序的线性结构,它显示句子前段信息、主题与后段心系内容 之间的“语法语用关系”,即“主述关系”。如句子“刚才小明给了小王一个苹果。” 的表层结构如图2 2 所示( 图中的词形简写请参考附录1 ) 。 盥噬尘旦给工尘王二尘壬墨。 tnva snmqn l jl j l 一 状语主语谓语 图2 - 2 表层结构 深层格的思想源于传统语法中格的概念,句子的语义可以由格的词尾曲折变 化来表示,几乎不靠词序。其基本思想是认为一个简单旬都有一个深层结构,而 这个结构是以某个动词与一个或多个名词词组组成的,每个名词词组都以一定的 关系与动词相关联,这些关系被称为“与语义有关的句法关系”【1 3 】。主要的格如 表2 2 所示。 1 2 第二章基于动态特征集的信息检索 表2 - 2 主要格描述 a g e 施事格表示事件的发起者。 o b j 受事格表示动作的承受者或状态、谓语句中的状态。 l o c 处所格 表示动作或状态发生的场所。 i n s t 工具格表示该动作所使用的工具。 每个句子在以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论