(管理科学与工程专业论文)基于统计模型的汉语句子主干分析.pdf_第1页
(管理科学与工程专业论文)基于统计模型的汉语句子主干分析.pdf_第2页
(管理科学与工程专业论文)基于统计模型的汉语句子主干分析.pdf_第3页
(管理科学与工程专业论文)基于统计模型的汉语句子主干分析.pdf_第4页
(管理科学与工程专业论文)基于统计模型的汉语句子主干分析.pdf_第5页
已阅读5页,还剩82页未读 继续免费阅读

(管理科学与工程专业论文)基于统计模型的汉语句子主干分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术大学研究生院硕士学位论文 摘要 当前随着互联网的快速发展 信息急剧膨胀 如何管理和查找信息成为信息 科学一个难题 自然语言处理的句法分析所研究的不仅仅是如何获取句子的结构 还要研究在句法分析的各个层面如何利用句法分析的技术实现有效的信息组织和 管理 以及精确的信息查询 句子主干分析是自然语言处理中的关键性问题之一 其主要任务就是自动识 别句子的主干成分 汉语句子主干分析问题的解决对于机器翻译 信息抽取和自 动文摘等自然语言处理领域都有着极其重要的意义 本文首先分析汉语句子主干分析的现状 指出汉语句子主干分析的困难和汉 语句子主干分析的语法和语义意义 通过对汉语句子主干的语法特性进行分析 本文把最大熵模型引入句子主干分析 最大熵模型具有简洁 通用的优点 能够 灵活的选择语言特征 它把语言模型和计算模型分开 使用最大熵模型可以不用 关心语言内部的细节 本文经过分析汉语句子主干的语法 语义特征 选择了适 合于主干分析的特征集合 鉴于汉语句子之间成分的相关性 本文在最大熵模型 的基础上提出一种多层最大熵模型 该模型的底层最大熵模型利用句子里的上下 文特征识别主干词候选项 高层最大熵利用底层最大熵模型的计算结果结合句子 内的远距离特征和句子之间关系来对底层最大熵模型识别到的主干词候选集进行 分析并得到最终的分析结果 本文在最大熵模型进行识别之前 利用汉语语法对分词和词性标注后的句子 进行预处理 包括句子的断句 单旬和复句的划分 简单的词组和短语识别 为 最大熵模型提供主干候选集 由于缺少标注了主干的训练语料 本文提出一种基于语境相似度的最大熵模 型的平滑算法 通过比较汉语词的上下文 得到词之间的语境相似度 利用语境 相似的词对训练语料中未出现的词进行平滑 以提升模型在小语料的情况下的性 能 实验证明本文利用多层最大熵模型对汉语句子进行识别的方法是有效的 在 只有比较小的训练语料的情况下 模型取得比较高的识别准确率 在本文方法的 基础上可以进一步进行组块的分析 本文提出的平滑算法也可以应用到隐马尔科 夫模型等统计语言模型中去 关键词 浅层分析主干分析多层最大熵模型语境相似度 第i 页 国防科学技术大学研究生院硕 学位论文 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e t t h eq u a n t i t yo fi n f o r m a t i o nr i s e sa l s o r a p i d l y h a tp a r s i n gi nn a t r u a ll a n g u a g ep r o c e s s i n g n l p s t u d yi sn o tj u s to n l yh o w t og e tt h es t r u c to ft h es y n t a c t i cb u ta l s oh o wt or e a l i z ee f f e c t i v ei n f o r m a t i o n o r g a n i z a t i o na n dm a n a g e m e n ta n da c c u r a t ei n f o r m a t i o nq u e r y s k e l e t o np a r s i n gi sak e yp r o b l e mi nn l p t h em a i nt a s ko fs k e l e t o np a r s i n gi st o i d e n t i f yt h es k e l e t o no fas e n t e n c ea u t o m a t i c a l l y c h i n e s es k e l e t o np a r s i n gh a s s i g n i f i c a n tm e a n i n gi nm a n yd o m a i n si nn a t r u a ll a n g u a g ep r o c e s s i n gl i k ea u t o m a t i c t r a n s l a t i o n i n f o r m a t i o ne x t r a c t i o n a u t o m a t i cs u m m a r ya n ds oo n i nt h i st h e s i sw ef i r s tp r e s e n ts o m eb a c k g r o u n d so fc h i n e s es k e l e t o np a r s i n g t h e n w ed i s c u s st h es e m a n t i ca n ds y n t a xm e a n i n go fc h i n e s es k e l e t o np a r s i n g a n dw ea l s o p o i n to u tt h ed i f f i c u l t yo ft h i sp r o b l e m a f t e ra n a l y s i n gt h es y n t e xc h a r a c t e ro ft h e s k e l e t o no ft h ec h i n e s es e n t e n c e s w ei n t r o d u c et h em a x i m u me n t r o p y m e w h i c hi sa c u r r e n ts t a t i s t i c a lm o d e le s p e c i a l l yi nn l pf o rc h i n e s es k e l e t o np a r s i n g m ei sam o d e l w h i c hi ss i m p l e r e u s a b l ea n dc a ns e l e c tt h el i n g u a lf e a t u r e sn e a t l y t h et h e o r yo fm e f r a m e w o r ki si n d e p e n d e n to fa n yp a r t i c u l a rn a t u r a ll a n g u a g et a s k w es e l e c tt h ev e r y f e a t u r e sf o r 匝b ya n a l y s i st h es e m a n t i ca n ds y n t a xf e a t u r e so ft h es k e l e t o n b e a e a u s e o ft h ei n t e r r e l a t i o no ft h es k e l e t o ni nt h es a m ec o n t e x t t h i st h e s i sp r e s e n tam u t i l a y e r m a x i m u m e n t r o p ym o d e lf o rt h es k e l e t o np a r s i n g i nt h i sm o d e lt h el o w l a y e rm ep a r s e s k e l e t o nb yt h ec o n t e x tf e a t u r e sw h i l et h eh i g h 1 a y e rm ep a r s es k e l e t o nb yb o t ht h e r e s u l to f t h el o w l a y e rm ea n dt h ef e a t u r e sb e t w e e ns e n t e n c e s b e f o r ep a r s i n gb ym u t i l a y e rm e w es e g m e n tt h ec h i n e s es e n t e n c ea n dl a b e lt h e p a r t o f s p e e c h o ft h ew o r d i d e n t i f y p h r a s e w h i c hm a yb et h es k e l e t o no ft h e s e n t e n c e w ea l s oc l a s s i f yt h es e n t e n c eb ys e n t e n c ea n dc l a u s es e n t e n c e a f t e rt h e s e p r o c e s s e sw oc a ng e tt h ec a n d i d a t es e to ft h es k e l e t o n f o rt h el a c ko ft h ec o r p u sw h i c hl a b e lt h es k e l e t o n w ep r e s e n tas m o o t hm e t h o d b a s e do nt h ec o n t e x ts i m i l a r i t yb e t w e e nw o r d sm e w eg e ts i m i l a r i t yb yc o m p a r i n gt h e c o n t e x to ft h ew o r d s a n dt h e ns m o o t ht h ew o r dw h i c hn o tp r e s e n ti nc o r p u sb yt h em o s t s i m i l a rw o r d st oa d v a n c et h ep e r f o r m a n c eo fm o d e lu n d e ras m a l lc o r p u s 砀er e s u l t ss h o wt h a to u rm e t h o di se f f i c i e n tf o rc h i n e s es k e l e t o np a r s i n g 朊 a c h i e v ev e r yh i g hp r e c i s i o nu n d e ras m a l lc o r p u s 肫c a nd oc h u n kp a r s i n gb a s eo n s k e l e t o np a r s i n g a n dw ec a na l s ou s et h es m o o t hm e t h o db a s e do nt h ec o n t e x ts i m i l a r i t y i no t h e rs t a t i s t i c a ll a n g u a g em o d e li u s tl i k eh i d d e nm a r k o vm o d e l k e yw o r d s s h a l l o wp a r s i n g s k e l e t o np a r s i n g m u t i l a y e rm a x i m u me n t r o p y c o n t e x ts i m i l a r i t y 第i i 页 国防科学技术大学研究生院硕十学位论文 表目录 表4 1 原子特征模板 4 5 表4 2 复合特征 4 6 表4 3 高层最大熵模型的原子特征 4 8 表4 4 高层最大熵模型的复合特征 4 9 表4 5 名 1 o 时的测试结果 5 0 表4 6 五 1 5 时的测试结果 5 0 表4 7 名 2 0 时的测试结果 5 0 表4 8 名 2 5 时的测试结果 5 1 表5 1 语境相似度计算训练参数 5 8 表5 2 权重计算 5 9 表5 3 语境相似计算比较 5 9 表5 4 非平滑的最大熵模型2 0 0 0 句测试结果 6 l 表5 5 非平滑的最大熵模型5 0 0 0 句测试结果 6 l 表5 6 非平滑的最大熵模型8 0 0 0 句测试结果 6 1 表5 7 非平滑的最大熵模型1 0 0 0 0 句测试结果 6 1 表5 8 平滑的最大熵模型2 0 0 0 句测试结果 6 l 表5 9 平滑的最大熵模型5 0 0 0 句测试结果 6 1 表5 1 0 平滑的最大熵模型8 0 0 0 句测试结果表 6 l 表5 1 l 平滑的最大熵模型1 0 0 0 0 句测试结果表 6 l 表6 1l c m c 取样范畴表 6 7 表6 2 句子主干标注规范 6 9 表6 3 试验结果 7 0 表6 42 0 0 0 句测试结果 7 0 表6 55 0 0 0 句测试结果 7 1 表6 68 0 0 0 句测试结果 一7 1 表6 710 0 0 0 句测试结果 7 l 第1 v 页 国防科学技术大学研究生院硕 学位论文 图目录 图4 1 多层最大熵模型句子主干分析系统框架 5 1 图5 1 主语识别结果对比 6 2 图5 2 谓语识别结果对比 6 2 图5 3 宾语识别结果对比 6 2 图6 1 系统结构图 6 4 图6 2 预处理模块内部流程图 6 4 图6 3训练模块内部流程图 6 5 图6 4 分析模块内部流程图 6 6 图6 5 兰开斯特汉语语料库结构 6 7 图6 6 计算所机器翻译树库结构 6 8 图6 7 语料规模对于模型的影响试验结果 7 1 第v 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研 究成果 尽我所知 除了文中特别加以标注和致谢的地方外 论文中不包含其他人已 经发表和撰写过的研究成果 也不包含为获得国防科学技术大学或其它教育机构的学 位或证书两使用过昀材料 与我一同工作的弼志对本研究所做的任何贡献均已在论文 孛终了锈确酌说明并表示谢意 学位论文作者签名 磊期 睹年 二月 学位论文版权使用授权书 彳日 本人完全了解国防科学技术大学有关保留 使用学位论文的规定 本人授权国 防稃学技术大学可以保留并囱国家有关部门或机构送交论文的复印件和电子文档 允 许论文被查阕和借阕 可以将学位论文的金部或部分内容编入有关数据库进行检索 可以采用影印 缩印或扫描等复制手段保存 汇鳊学位论文 保密学位论文在解密后适用本授权书 学位论文题疆 学位论文作者 作者指导教娜 国防科学技术大学研究生院硕 学位论文 第一章绪言 1 1 研究背景 我们处在一个高速发展的信息时代 随着i n t e m e t 的飞速发展 互联网网页和 各种电子文档的数量迅速增加和更新 信息的数量级从9 0 年代初的m b 过渡到现 在的t b 而且随着电子图书馆的日益普及以及文本数据库在各个领域的广泛应用 越来越多的信息表现为电子文本 面对如此庞大而且急剧膨胀的信息海洋 如何 高效地组织和管理这些信息 并快速 准确 全面地从中查找用户所需要的信息 是当前信息科学与技术领域面临的一大挑战 一方面是需要对文本信息进行高效 的组织和管理 另一方面是对信息进行精确而快速的查找 如当我们对计算机说 查找2 0 0 8 年发生的死亡人数在2 0 0 人以上在中国发生的影响恶劣的安全事故 时 计算机不光要能查找2 0 0 8 年发生在中国 死亡人数超过2 0 0 的安全事故 还 要能从中筛选出 影响恶劣 的事件 这就意味着计算机能够理解和处理人类语 言 人可以用人类语言和计算机交互 这样的挑战推动和促进了自然语言处理的 发展 自然语言处理的目的就是让计算机能像人类一样处理和使用人类语言 它是 一门与语言学 计算机科学 心理学 数学 控制论 信息论 声学 自动化技 术等多种学科相联系的 边缘交叉性学科 l 自然语言处理包括了以下几个层次 词法分析 语法分析 语义分析和语用分析 词法分析研究如何将一个词分解为 词素的组合 从而导出词的意义 语法分析根据语法学所提供的关于语法结构的 规则 推导出一个语句的所有可能的语法结构 语义分析就是根据语义学的理论 推导出语句的意义 并且将意义形式化地表达出来 从而使计算机能够在此基础 上进行推理 语用分析通过上下文来加强对语句的理解 对应到中文的处理层次 为 分词 词性标注 语法分析 语义分析和语用分析 目前词法分析已经相对 成熟 自然语言处理的最终目标是进行完善的语用分析 而语法分析是语用的基 础 虽然有人提出直接用语义分析代替语法分析 但大部分人仍认为语法分析是 达到语用分析这个目标的一条必由之路 2 汉语语言处理与其他西方语言不同 有 许多特殊之处 目前 汉语主要按照词 句子和篇章三个层次来开展研究 句子 的处理在这三个层次中具有承上启下的作用 所以句子的处理是一个中心课题 就目前来说 句子处理以自动分词为基础 以句法分析和语义分析为核心 由于自然语言的灵活性和复杂性 使得完全的句法分析成为自然语言处理中 一项十分困难的工作 按照自然语言语法对语言结构进行划分 分为词 短语和 句子3 个不同层次的语法单位 前一层的分析错误会影响后面的分析 错误层层 第1 页 国防科学技术大学研究生院硕士学位论文 叠加 导致句法分析正确率低 因此 人们提出了浅层句法分析 浅层句法分析 识别出句子中确定性较强的部分分析结果 降低了完全句法分析的难度 浅层分 析是自然语言处理中出现的一个新的语言处理策略 3 1 它的任务是在不需要深层次 语言和语义知识的前提下 识别句子中的某些特定成分 作为一种预处理手段 浅层句法分析可以大大降低短语划分和短语分析处理的复杂性 使句法分析任务 在某种程度上得到简化 在机器翻译 信息提取 信息检索 专有名词识别等方 面有非常重要的意义 句子的主干分析是浅层句法分析的一个难题 它是指通过分析得到句子的主 语 谓语 宾语这样的句子主干 对句子 熵 n 是 v 物理学 n 中 f 的 w 一个 m 概 念 n 句子主干分析就是把熵 是 概念这几个主干分析识别出来 由于充当句 子主干的词类很多而且结构复杂 所以用计算机对句子的主干进行识别是一件很 困难的事 事实上主干分析不仅是自然语言处理领域的难题 在语言学界有关句子主干 的争论一直没有停止过 各种主干分析的方法也层出不穷 在自然语言领域里 句子的主干分析一般方法是先做组块分析 然后在组块分析的基础上分析句子主 干 但是由于当前组块分析的精度不高 这种句子主干分析方法的准确度比较低 本文通过分析汉语句子主干的语法特征 认识到充当句子主干的词的词性和 结构相对固定 因此本文提出一种基于多层最大熵模型的统计句子主干分析方法 该方法通过提取句子中主干词的上下文特征建立多层最大熵模型 经过在标注了 主干的语料上训练得到模型的参数 然后利用多层最大熵模型来进行句子主干的 分析 1 2 句子主干分析的意义 1 2 1 汉语句子主干的语法与语义功能 句子主干是一个句子的最核心的基本成分 无条件地缺失主干会导致语句的 语法错误 让人无法理解 汉语句子的主语不仅仅是简单地回答 谁 什么 的问题 句子的主语往往能表达多种语义角色 4 主语可以作为句子中的施动者和 受动者 苏惠敏在文献 4 中的研究认为汉语句子的主语主要充当施动者 充当受 动者的可能性要比施动者小很多 在英汉俄三种语言中 担任主语这一句法功能 的参与项都可以自由表达 施动者 这一语义角色 但是在表达其他诸如 受动 者 受益者 自然力 工具 等语义角色时却受到不同程度的限制 邢福义先生1 5 j 把主语概括为六种 施事主语 受事主语 用事主语 于事主语 断 事主语 描写主语 用主语的语义类型来表示其所受到的谓语内容的规约 第2 页 国防科学技术大学研究生院硕士学位论文 由于主语充当的语义角色 主语对于文本篇章的理解具有重要的作用 主语 和话题的关系是语言学界争论不休的话题 6 石毓智甚至说 主语与话题的问题 是汉语语法研究中的核心课题之一 受到重视程度之高 讨论的范围之大和时间 之长 然而迄今为止分歧之严重 没有其他问题可与之相比 7 1 本文作者作为 一个语言学的门外汉并不打算涉足其中 但从主语和话题这两者之间的争辩可见 二者之间密不可分的关系 主语脱离一定的话题就不可能存在 没有话题句子就 没有陈述的对象 而没有主语 话题就没法得到具体的描述 张新华认为主语就 是一个句子的支点 而句子是一个支点控制的指示域 支点是其他实体及其活动 方式的定位根据1 6 主语是句子谈论的 主题 主语和谓语中心词之间的关系是句中最重要的 关系 谓语在句子中语义角色比较固定 主要用来陈述主语怎么样 是什么 做 什么 从句法分析的角度来讲 谓语是一个句子的核心所在 处于整个句子的支 配地位 环境和参与项是动词的从属成分 4 这就是谓语中心论 句法分析经常采 用谓语中心法对句子进行分析 8 从上述分析看出句子主干对于句子的分析和理解具有非常重要的语法和语义 意义 在词 句子 篇章的三层结构中具有承前启后的作用 1 2 2 汉语句子主干分析在自然语言处理中的作用 句子主干分析作为浅层句子分析的一部分 在分词和词性标注后对句子主干 分析具有十分重要的作用 本文的主语 谓语 宾语与组块分析中的名词短语 动词短语中的中心名词和中心动词是一致的 一 句子主干是整个句子所描述的主要对象 句子的其它成分都是对主干进 行修饰 说明 识别了句子的主干 降低了后续句法分析的难度 对句子 语法分析 根据 语法学 所 提供 的 关于 语法结构 的 规则 推导 出 一个 语句 的 所有 可能 的 语法结构 其句子主干为 语法分析推导出语法 结构 中心词语法分析 语法结构 中心动词推导 其他语法成分都修饰主干 可以在主干的基础上识别出不同的组块 当明确了句子的主干后 句子的结构就 变得清晰了 后续的分析和相关的应用就能把错误局限于局部的语句组块 二 自动文摘通常把句子当作词的线性序列 充分考虑词频 位置 句法结 构等因素 句子主干分析提供了清晰的句子结构 同时缩小了词的计算范围 可 以主要考虑作为句子主干的词 同时可以把关键的成分提取出来而不用把整个句 子都摘下来 三 对要索引的文档进行句法分析得到句子主干 可减少信息检索的范围 提高检索速度和精确度 现有的全文检索都是对整个文本内容建立索引 而一个 第3 页 国防科学技术大学研究生院硕士学位论文 文本的主要信息主要在句子的主干 对整个文本建立索引不仅消耗存储空间还增 加检索所消耗的时间 如果我们对句子的主干和它的主要修饰成分进行索引 就 能提高检索的效率 检索的结果可以按照检索词在句中是否充当主干来排序 四 信息抽取的目的是要以自动化的方式来撷取文本中的结构化或半结构化 的信息 信息抽取技术并不试图全面理解整篇文档 只是对文档中包含相关信息 的部分进行分析 如从文章中抽取地理实体及其位置信息 长沙市是湖南省省会 位于湖南省中北部 是我国历史文化名城之一 总 面积l1 8 1 8 平方公里 总人口5 5 9 4 4 万 长沙市地处湘江下游 居洞庭之南 衡 岳之北 踞华中腹地 扼南北要冲 素有 荆豫唇齿 黔粤咽喉 之称 抽取 长沙市位于湖南省中北部 地处湘江下游 居洞庭之南 衡岳之北 踞华中腹地 扼南北要冲 这样的信息 首先要识别 长沙市 是 位于湖南 省中北部 句的主语 是 位于湖南省中北部 所描述的对象 五 指代消解 指代消解不仅在信息提取i e i n f o r m a t i o ne x t r a c t i o n 中起着 重要的作用 在文本总结 问答系统和多语处理等方面的作用也越来越明显 9 而 指代消解首先必须要确定先行语和指代语 通过对语料的观察 我们发现一般的 先行语和指代语都在句中充当句子主干 当我们确定了句子主干就不难确定先行 语和指代语 如 长沙市位于湖南省中北部 地处湘江下游 居洞庭之南 衡 岳之北 踞华中腹地 扼南北要冲 这是自古以来的兵家必争之地 该语段的前面一句的主语是 长沙 第二旬的主语是 这 这里的 这 就是长沙的指代语 1 3 句子主干分析的相关研究 1 3 1 句法分析的相关研究 句子主干分析属于浅层句法分析的范畴 完全句法分析与浅层句法分析的区 别在于二者目的不一样 浅层句法分析的目的是识别句子中的部分成分和结构 完全句法分析的目的是获取整个句子完整的句法结构 浅层句法分析是完全句法 分析遇到瓶颈时人们提出的一种句法分析策略 浅层句法分析通过识别句子中的 部分句法结构来降低完全句法分析的难度 也就是说浅层句法分析最终是为完全 句法分析服务 下面本文分别介绍完全句法分析的发展和有关浅层句法分析的研 究现状 在浅层句法分析的研究现状中主要介绍有关句子主干分析方面的一些研 究和成果 1 3 1 1 完全句法分析的研究 早期的句法分析工作开始于2 0 世纪5 0 年代 1 9 5 0 年w e a v e r 的 查字典 第4 页 国防科学技术大学研究生院硕士学位论文 机器翻译原型系统的失败使人们认识到机器翻译的过程需要更高水平的知识表示 方法 由此展开了句法分析的研究 1 0 1 句法分析的研究大体分为两个途径 基于 规则的方法和基于统计的方法 在句法分析的研究中 基于规则的方法一直是句法分析的主要方法 从5 0 年 代开始 出现了一些有代表性的以规则为基础的系统 5 0 年代末到6 0 年代初 c h o m s k y 的转换语法和形式理论为下一代的自然语言处理提供了一种新的解决方 案i l 如s a d s a m 利用c h o m s k y 形式化理论生成的可以处理大约1 7 0 0 个词和 有限的英语语法的句法分析器 但s a d s a m 效率较低 对词汇和语法有过多的 限制 6 0 年代自然语言处理的主要技术是关键词和模式匹配方法 比如b a s c b a l l 系 统 s i r 系统 s t u d e n t 系统都采用了在文本中查找简单的模式或者某种正则表达 式的方法 1 2 1 模式的特点是 模式中包含的语言现象都可以得到较好的处理 但 是一旦遇到模式中没有考虑的语言现象 就只能做缺省处理 而缺省的效果往往 较差 因此在处理大领域的语言问题时 模式的方法难以胜任 7 0 年代初 w o o d s 提出了转移扩张网络 a u g m e n t e dt r a n s i t i o nn e t w o r k a t n l 增加了正则表达式的能力 同时克服了用有限状态机表达上下文无关文法时 存在的限制 然而a t n 方法严格依赖于特定的应用领域 移植非常困难 在这期 间 上下文无关文法 c o n t e x t f r e eg r a m m a r c f g 由于有高效的分析算法而成为 广泛使用的自然语言句法分析方法 i 但是c f g 处理自然语言时有生成能力过强 的缺陷 使用它进行句法分析容易产生多种有歧义的分析结果 而上下文无关文 法的消歧能力比较弱 由于上下文无关语法的缺陷 在8 0 年代初期句法分析领域相继出现了一些新 的语法理论 如广义短语结构语法 中心语驱动的短语结构语法 词汇功能语法 等 1 1 1 它们将语法规则与词汇的复杂属性描述结合起来 采用了特征结构这种形 式来表达复杂的语言学知识并采用合一算法进行规则的推导 这在一定程度上提 高了对自然语言的描述能力 近些年来 国内的句法分析有了一定程度的发展 提出了一些模型 但目前 的现状还不容乐观 句法分析的结果还远远不能满足中文信息处理中各种应用的 需要 和国外相比 国内还是有很大差距 清华大学周明等在1 9 9 4 年提出了一种基于依存文法的融合语料库 规则方法 和统计方法的汉语分析模型 1 3 1 该模型的特点是将依存文法分析看作是与词性标 注过程等价的一个基于统计的标注过程 朱胜火 周明等在1 9 9 8 年提出了一种概 率上下文无关文法分析算法 1 4 1 周强在1 9 9 7 年介绍了一个汉语概率分析器 其中 采用了匹配分析算法 并于1 9 9 9 年提出了利用局部优先信息对汉语分析算法进行 第5 页 国防科学技术大学研究生院硕士学位论文 优化的新方法 通过利用从语料库中自动获取的结构优先关系数据作优先判断依 据 而局部优先信息则利用了从语料库中自动获取的结构优先关系数据 此方法 使目前的汉语概率分析器的整体效率提高了近3 0 t 1 5 1 6 1 中国科学院计算技术研究所张浩 刘群和白硕综合运用规则和统计的方法 做了一个结构上下文相关的概率句法分析器 1 6 它针对概率上下文无关文法 p r o b a b i l i s t i cc o n t e x t f r e eg r a m m a r p c f g 独立性假设的局限性 并在p c f g 的基础上提出了三个逐层递进的与结构上下文相关的概率句法分析模型 它们考 虑了分析树当中每个派生结点的结构上下文条件 它采用了c h a r t 分析算法 在宾 州中文树库和一个短句树库上进行了实验 东北大学张明杰 朱靖波 姚天顺等 基于 d a t a o r i e n t e dp a r s i n g d o p 技术实现面向数据的句法分析1 1 7 j 面向数据 的分析技术首先于1 9 9 0 年提出 该处理技术一个显著的特点是完全依赖于包含大 量语言现象的标注语料库 而不需要任何形式文法 当输入一个新的句子时 系 统通过对语料库中片段单元的组合运算来组合分析过程 根据所有片段单元的共 现频率来评估最有可能性的分析结果 朱靖波等以d o p 为框架 利用基于相似的 概率评估技术来实现汉语句法分析 l 引 其中 对于输入汉语语句 首先需要经过 词汇层与词性层两层初选 然后对于己构建的知识源 获取输入语句的片段组合 形式 最后 对输入语句与初选结果进行相似性评估 完成输入语句的组合分析 过程 显然 这种技术方法需要构建大规模语料库 并且语料内容应覆盖尽可能 多的领域和各类复杂度的句子 这是一项非常大的工程 1 3 1 2 浅层句法分析的研究 和完全句法相比 浅层句法分析的历史就比较短 a b n e y 1 9 l 在1 9 9 1 年最早提 出了一个完整的组块描述体系 对组块给出了权威性的定义 他把组块定义为从 句内的一个非递归的核心成分 这种成分包含中心成分的前置修饰成分 而不包 含后置附属结构 a b n e y 还强调组块是按照严格的句法形式定义的 而非语义的 功能性的 同时他还提出了这种观点 上下文无关文法足以描述组块的结构 a b n e y 在文献 1 9 中提出了组块分析 也就是现在的浅层句法分析 3 组块分析在国际会议 c o n l l 一2 0 0 0 c o m p m i o n f ln a t u r a ll a n g u a g el e a r n i n g 上作为共同任务 s h a r e d t a s k 被提出l z o j 在汉语浅层句法分析方面 李文捷 2 l 等用短语边界与词性标记对共现概率的 方法研究汉语中最长名词短语的识别 首先在训练集中统计名词短语起始和名词 短语终止两个概率矩阵 然后根据这些概率信息在输入句的词性标记对之间插入 名词短语起始标记和名词短语终止标记 并对标记进行匹配处理 张国煊等 2 2 用 简单的互信息方法划分短语边界 郭志力等 2 3 1 用互信息方法确定汉语 的 字短 语的边界 孙宏林 2 4 j 用规则方法识别汉语动宾结构 以及用线图分析算法实现了 第6 页 国防科学技术大学研究生院硕士学位论文 实语块的分析 刘长征 2 5 j 采用规则方法识别由名词序列构成的名词块 朱靖波 2 6 j 从完全没有任何标注的生语料库中 采用n a 假设自动构造带标注的训练数据 利用基于多特征的相似评估技术自动获取名词短语结构规则 所获取的短语结构 规则具有概率属性 可用于分类检索等应用中的名词短语抽取 赵军1 2 7 j 给出了汉 语基本名词短语的形式化定义 并通过抽取基本名词短语句法组成模板 与体现 上下文约束条件的n 元模型结合起来 形成了汉语基本名词短语识别的新模型 实验证明该模型的性能优于单纯基于词性标记的n 元模型 谭咏梅1 2 8 基于机器学 习对汉语进行浅层分析 通过条件随机域和支持向量机对汉语句子中的组块进行 识别 李素建用最大熵模型进行组块分析 2 0 于浚涛使用最大熵模型对汉语的介 词短语进行识别 都取得了不错的效果 删 郭艳华等以依存语法为语言模型的基础 对句法分析进行了研究 提出了一 种句子分析策略1 3 0 分析在两个级别上进行 一级是基于中心动词和其它成分间 的约束关系 实现句子成分过滤 完成句子主干成分提取 另一级是上下文级 将语法 语义和语境信息一体化 结合依存语法确定汉语句子中各成分间的依存 关系 但它只考虑了中心语由动词担当的情况 齐浩亮等提出一种面向特定领域 的汉语句法主干分析方法 3 l 该方法中包括浅层句法分析 模板匹配两个关键环 节 形成用模板表示的句法主干 在浅层句法分析中 使用了级联的隐马尔可夫 模型进行了短语的归并 而后以已有的汉语句子模板为基础 进行模板匹配以达 到句法主干分析的目标 该方法在体育新闻领域实验得到比较好的效果 但是该 方法局限于一个领域 对于模板要求较高 很难得到推广 李国臣等用最大似然 估计对谓语候选词充当谓语的概率进行近似计算 3 2 1 在小规模语料库上进行测试 取得一定的效果 该方法对于特征的选取比较粗糙 选用的统计模型也比较简单 导致识别的结果精度不高 吴雪敏通过改进谓语中心法 根据汉语句子的成分与 词类的关系 对汉语句子进行分析 得到一个汉语句子分析的系统 8 但该方法过 分依赖规则 只能对一些汉语语法现象进行分析 张益民提出一种基于的扩充多 层有限状态自动机模型结合错误驱动的机器学习方法1 3 3 该方法利用错误驱动的 方法改进多层有限状态自动机模型实现了有效可训练的快速汉语部分句法分析 薛永增等在面向体育领域的句子翻译中采用句子模板技术分析句子的主干瞰j 实 验表明在体育领域语料测试中 该方法能够抓住原文的关键信息 在可懂度上优 于全译 其忠实度也令人满意 该策略在机器翻译现有技术水平下解决了对含有 较多长句的体育领域文本进行有效翻译的难题 但是该方法只面向特定领域 具 有很大的局限性 许威 3 5 等认为汉语语义分析在确定一个多动词句子的句子主干等方面有一定 的困难 于是提出了句子的完整语义性概念 通过对语义完整性在句子中的具体 第7 页 国防科学技术大学研究生院硕士学位论文 表现形式 语义完整块的介绍 分析了句子的完整语义性的特点 尝试利用语 义完整性在汉语的多动词句中找出句子的主干 并提供一个递归算法加以描述 并据此建立了一个基于语义完整性的递归模型来确定句子主干 该方法依赖于知 识库 实效性仍然有待试验的验证 周强等提出汉语句子的功能块自动分析 3 们 通过对功能块描述特点的深入分 析 提出了两种不同分析模型 边界识别模型和序列标记模型 并使用不同的机 器学习方法进行了计算模拟 通过两种模型分析结果的有机融合 充分利用了两 者分析结果的互补性 对汉语句子的主谓宾状四个典型主干功能块的自动识别取 得了较好的实验结果 周强在该方法中采用基于统计的方法基于s v m 模型对功能 块边界进行确定 在此基础上利用条件随机场进行识别 实验证明这两个模型的 组合分析效果不错 1 3 2 句子主干分析的难点 句子主干分析属于汉语浅层分析的范畴 是汉语语言学里的一个难题 而汉 语相对于其他语言特别是英语 又有它自己的特点 进行句子主干分析面对的主 要困难有 一 汉语自身的复杂特性造成的困难 汉语在世界上属于汉藏语系 是一种孤立语 汉语在历史上先后吸收和同化 了匈奴 鲜卑 突厥 契丹 满 蒙古 梵语等语言里面的许多成分 2 0 1 汉语具 有以下的特点 1 汉语的独一无二的特色 完全使用由象形文字演化而来的方块汉字 2 词语没有形态标记 汉语是以字为基本单位 词之间没有明显的标记 词 本身也没有明显的形态标志 所以中文信息处理的基础课题和特有的问题 就是中文分词 分词本身的也有一定的错误率 3 7 1 这无疑降低了后续处 理的实际效果 3 结构松散 比如 我上街买菜 看见一个人 穿着一件军大衣 打了卖菜 的一巴掌 脸都肿了 4 语法灵活 即缺乏狭义的形态 汉语句子中各个成分之间的关系主要靠词 序 词之间的意合 虚词 5 语义灵活 一方面语法的灵活主要来源于语义的灵活 另一方面同一结构 可以表达不同的意思 同一意思可以用不同结构表达 6 现有的自然语言处理理论和技术大多都是以英语为研究对象语言发展起 来的 而汉语无论在语音 文字表示 还是在词汇 语法 语义及其语用 等各个层面上 都与之存在着很大的差异 这就无法直接套用西方已成熟 第8 页 国防科学技术大学研究生院硕十学位论文 的理论和技术 汉语无疑是计算模型比较不发达的语言 汉语语法理论基 本都是来至于西方 二 词性标注的误差 由于汉语词的切分和词性标注存在误差 句法分析一般在词性标注的基础上 进行分析 词性误差导致句子分析的效果降低 三 句子主干成分的复杂性 汉语中可能担当主干成分的有 句子 名词 代词 数量词 动词 各种词 组 如 他 杀人 是 你 逼 出来 的 我国人多 是好事 他想要的就 是你的这本书 四 缺少训练语料库 汉语至今还缺少大的用于浅层句法分析的语料库 目前只有美国宾州大学的 中文树库可以直接用于主干分析 其他的语料必须先进行一定的手工标注才能使 用 而宾州树库本身的规模不大 对于基于统计的句子主干分析来说远远不够 并且宾州树库不是免费的 1 4 当前句子主干分析存在的主要问题 经过对相关工作的分析 本节对汉语句子主干分析方面的研究工作的不足和 问题进行总结 以阐述文本所做的工作 从现状研究中看出当前在汉语句子主干 分析方面的研究不是很多 主要存在的问题有 一 过度依赖组块分析 现有的句子主干分析主要是在句子的组块识别的基础上进行 而组块分析的 精确度不高导致主干分析的结果准确率较低 二 脱离汉语篇章 没有充分利用句子和句子之间的信息 句子和句子之间的词具有很大的相关性 当前句子讨论的事物或者话题 在 接下来的句子里很可能继续讨论 句子中的名词和动词受各种修饰成分的影响会 改变在句子中充当的成分 这种句子之间和词之间的信息对于主干分析十分重要 当前的句子主干分析没有充分利用这方面的信息 要么就单个句子进行分析 要 么对句子主干中的某个主干成分进行分析 这样的分析具有很大的局限性 三 利用句子模板 只面向特定领域 模板技术主要用于机器翻译 一个句子模板只适用于某个的特定句型 当把 该技术应用于全部汉语的主干分析时 句子模板的数量会急剧增加 而且句子结 构变化多端 灵活多样 模板不可能覆盖所有的句子 另外模板的建立依赖制定 模板的人的语言学知识 这限制了模板的应用 四 依赖于中心动词而不是主干成分之间的关系 第9 页 国防科学技术大学研究生院硕十学位论文 谓语中心论认为谓语是句子的核心 围绕谓语进行主干分析是有道理的 但 是汉语句子的中心动词并不像英语的中心动词那样容易识别 而且一个句子可能 有多个核心动词 所以这样的方法也有很大的局限性 1 5 1 本文所做工作 1 5 本文的工作和论文结构 本文基于统计语言模型对汉语句子主干分析进行研究 主要是利用统计模型 对汉语的句子主干即主语 谓语 宾语等主要成分进行分析和识别 由于汉语的复杂性 如果不利用句子的其他成分提供的信息 直接对句子的 某个成分进行识别是很困难的 而试图一次性分析整个的句子所有成分也不容易 目前 句子主干分析的主要方法是先做组块分析 在识别了句子中的所有短语组 块的基础上分析句子的主干 由于组块识别的误差比较大 所以这种方法不仅计 算量大 精度也不高 3 本文的关于主干分析的思路是只对短语进行简单处理 然后直接对句子主干 进行分析 这样就避开组块分析的困难 而且在确定句子主干之后 可以在此基 础上对各种短语组块进行分析 不但能降低组块分析的难度 而且符合汉语语言 学的句法成分分析习惯 本文采用最大熵模型对句子主干分析问题建模 并在最大熵模型的基础上提 出一种多层最大熵模型 经过多层最大熵模型的叠加对句子主干进行分析 方法 就是按照最大熵模型的原理对影响句子的主干词的上下文特征进行统计分析 给 特征赋予一定的权重 权重表示特征对当前词充当或者不充当句子主干的贡献的 大小 当对句子进行分析时 通过特征和特征的权重来计算当前词作为主干词的 概率 本文的主要工作如下 1 深入了解和研究当前对于汉语句子浅层分析的相关理论和方法 深刻地认 识到汉语句子主干分析的重要理论意义和实用意义 针对当前句子主干分 析存在的问题 提出句子的主语 谓语 宾语一体化识别的策略 充分利 用汉语句子提供的信息 和主语 谓语 宾语三者之间的关系来识别句子 主干 2 把最大熵模型应用于句子主干分析 并在最大熵模型的基础上提出一种多 层最大熵模型 经过多层最大熵模型的叠加对句子主干进行分析 本文在 汉语语言学的基础上分析句子主干的语法特征和上下文 选取合适的特征 建立多层最大熵模型 并对现有的最大熵模型的特征选择方法进行改进 第1 0 页 国防科学技术大学研究生院硕士学位论文 提出双阀值过滤的特征选择算法 减少了最大熵模型在特征选择时的计算 量 该项工作对应于本文的第四章 3 针对小语料库带来数据稀疏的问题 本文提出一种基于语境相似度的平滑 算法 用语境相似的词来估计在语料库中没有出现的词的概率 并把该平 滑算法运用到多层最大熵模型中去 该项工作对应于本文的第五章 4 由于缺少能用于句子主干分析的语料库 本文参考语言学的研究和现有的 汉语树库标注规范 经过对大规模真实语料的观察和统计 制定了汉语句 子主干标注规范 然后对中科院计算所机器翻译树库和英国兰开斯特大学 汉语平衡语料库进行机器标注和人工校正 建立了一个小规模的主干标注 语料库 该项工作主要在本文第六章体现 1 5 2 本文的组织结构 根据本文的研究工作 论文内容组织如下 第一章绪言 介绍本文所作研究的背景和意义 相关研究和本文所作的工作 以及句子主干分析的主要困难 分析了汉语主干分析的现状和存在的问题 第二章理论背景 介绍和本文研究相关的理论背景 主要介绍了自然语言处 理的发展和现状以及计算语言学的主要研究方法 还介绍了几种常用的语言模型 及数据平滑方法 最后对汉语语言学的几种析句方法进行分析 第三章汉语句子的预处理 为了对汉语句子进行主干词的分析 需要对句子 进行相应的预处理 主要包括分词和词性标注 短语的简单识别和处理 单复句 的识别和处理 并对汉语句子中的主干词的语法特征进行分析 为最大熵模型建 模的特征获取打下基础 第四章基于多层最大熵模型的句子主干分析 介绍

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论