




已阅读5页,还剩57页未读, 继续免费阅读
(控制理论与控制工程专业论文)基于神经网络的中文分词算法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
独创性说明 作者郑重声明 本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果 尽我所知 除了文中特别加以标注和致i 身 的地方外 沦文中不包含其他人已经发表或撰写的研究成果 也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料 与我 同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意 人连理1 火学硕士研究生学谴论文 夫连瑾王大学学位论文版权绩爰授权书 本学位论文作者及指导教师完全了辫 大连理工大学硕士 博士学位沦文版权使用 舰定 同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版 允许论文被查阅和借阅 本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索 也可采用影印 缩印或扫描等复制手段保存和汇编学位沦 义 器者签名 邋缢 导师签名 琴艮翻 2 受 年 堡月 旦同 大连理工大学硕士学位论文 摘要 汉语书写时是按句连写 词间无间隙 容易让人在句子的理解上产生偏差 这就给 查询信息 机器翻译等工作造成了很大的困难 造成不相关结果的返回 找不到相关文 档 翻译不准确等 所以为了解决这些问题就要对句中的词语进行精确的切分 在对日常交流及其报刊杂志中所出现的各类语言现象进行深入分析研究后 本文对 日常生活常见的典型歧义中所蕴含的语法现象进行了归纳总结 建立了供词性编码使用 的词性代码库 以此为基础 利用神经网络的自组织 自学习的能力 达到对不同规则 歧义字段的精确切分 在样本的选取上 本文所选样本空间基本囊括了歧义字段的各典 型类型 样本训练前 先把字段中所包含的语法规则转换为神经网络能够接受的数据形 式 将字段中的单词依词性代码库分别进行编码 在对输出结果所代表的含义进行解释 时 从切分的表示方式上 以大量训练所得的输出结点值为依据对切分点进行判断 从 而将字 词或抽象语法规则通过代码的表示方式与输入神经元对应 使切分方式与输出 神经元相对应 找到了一个输入 输出逻辑概念到输入 输出模式的转换 通过大量数 据训练达到了网络对歧义字段中包含的语法规则的学习 进而实现了对词语的准确切 分 另外 通过采用给权值修正量加矩量项来修正学习速率的方法 对b p 算法进行了 改进 提高了收敛速度 使得分词效果得到了明显改善 在采用三层b p 网络进行大量样本训练后 由实验结果得出 算法在歧义字段分词 上达到了9 3 1 3 的训练精度 9 2 5 0 的测试精度 在对未经训练的一般语料样本的处 理上 达到了预期的切分效果 该分词方法提供了一种新的输入 输出逻辑概念到输入 输出模式的转换方式 成功地解决了由于字间组合方式无穷多而无法训练的难题 应用 于词语切分上 取得了很好的分词效果 关键词 中文分词 自然语言理解 歧义宇段 神经网络 b p 网络 张晓淼 基于神经网络的中文分词算法的研究 r e s e a r c ho nc h i n e s ew o r ds e g m e n t a t i o na l g o r i t h mb a s e do n n e u r a ln e t w o r k a b s t r a c t c h i n e s ei sw r i t t e nc o n t i n u o u s l ya saw h o l es e n t e n c e a n dt h e r ei sn os p a c eb e t w e e n w o r d s i ti se a s yt om i s c o n c e i v ew h e nu n d e r s t a n d i n gs e n t e n c e s t h i sb r i n g sg r e a td i f f i c u l t yo n t h ew o r k i n go fq u e r y i n gi n f o r m a t i o n t h ed i f f i c u l t yi ss h o w na st h a tm a n yi r r e l e v a n tr e s u l t s a r er e t u r n e do rn od o c u m e n tc a nb ef o u n d t h e r e f o r e d i v i d i n gt h ew o r d so fs e n t e n c e se x a c t l y i sn e e d e di no r d e rt os o l v et h e s ep r o b l e m s a f t e rd e e pr e s e a r c ho na l lk i n d so fl a n g u a g ep h e n o m e n o ni nd a i l yc o m m u n i c a t i o n n e w s p a p e r sa n dm a g a z i n e s t h ep a p e rc o n c l u d e st h eg r a m m a rp h e n o m e n a i n c l u d e di nt y p i c a l d i f f e r e n tm e a n i n g sw h i c ha r ec o i d n o ni nd a l l yl i f e i tb u i l d st h ep a r to fs p e e c hc o d el i b r a r y s u p p l i e df o rp a r to fs p e e c he n c o d i n g u s i n gn e u r a ln e t w o r k ss e l f o r g a n i z a t i o na n ds e l f s t u d y d i v i d e sd i f f e r e n tr u l e sd i f f e r e n tm e a n i n g sp a r a g r a p he x a c t l yo nt h eb a s i so ft h i s a st o s e l e c t i n gs a m p l e s t h es a m p l e ss p a c es e l e c t e db yt h ep a p e ri n c l u d e sa l lt y p i c a lk i n d so f d i f f e r e n tm e a n i n g sp a r a g r a p hb a s i c a l l y b e f o r et r a i n i n gs a m p l e s t h ew o r d so fp a r a g r a p ha r e e n c o d e ds e p a r a t e l yb yp a r to fs p e e c hc o d el i b r a r yi no r d e rt ot r a n s f o r mt h eg r a m m a rr u l e i n c l u d e di np a r a g r a p hf o rt h ed a t af o r mw h i c hc o u l db ea c c e p t e db yn e p a ln e t w o r k o nt h e w a yo fd i v i d i n ge x p r e s s i n g t h ed i v i s i o np o i n ti sj u r g e da c c o r d i n gt oo u t p u tn o d ev a l u e t h r o u g hag r e a td e a lo ft r a i n i n gw h e ne x p l a i n i n gt h es i g n i f i c a t i o np r e s e n t e db yo u t p u tr e s u l t t h e r e f o r t h ec h a r a c t e r s w o r d sa n da b s t r a c tg r a m m a rr u l ea r ec o r r e s p o n d i n gt oi n p u tn e r v e c e l lb yt h ew a yo fc o d ee x p r e s s i n g d i v i s i o nm o d ei sc o r r e s p o n d i n gt oo u t p u tn e r v ec e l l a c o n v e r s i o ni sf o u n df r o mi n p u ta n do u t p u tl o g i cc o n c e p tt oi n p u ta n do u t p u tm o d e n e t w o r k a c h i e v e ss t u d y i n gt h eg r a m m a rr u l ei n c l u d e di nd i f f e r e n tm e a n i n g sp a r a g r 印ht h r o u g ha n a m o u n to fd a t at r a i n i n g m o r e o v e r t h ee x a c tw o r d sd i v i s i o ni sr e a l i z e d i na d d i t i o n b p a l g o r i t h mi si m p r o v e db ya d d i n gr e c t a n g u l a rq u a n t i t yi t e mt op o w e rv a l u ea l l o w a n c et o a m e n ds t u d ys p e e d t h ec o n v e r g e n c es p e e di se n h a n c e d t h ew o r ds e g m e n t a t i o ne f f e c ti s i m p r o v e do b v i o u s l y a f t e ral o to ft r a i n i n gt h r o u g ha d o p t i n gt h r e el a y e r sb pn e t w o r k t h ee x p e r i m e n tr e s u l t s h o w st h a ta l g o r i t h mr e a c h9 3 1 3 t r a i n i n gp r e c i s i o na n d9 2 5 0 t e s tp r e c i s i o no nd i f f e r e n t 大连理工大学硕士学位论文 m e a n i n g sp a r a g r a p hw o r dd i v i s i o n a n da c h i e v e sp r o s p e c t i v ed i v i s i o ne f f e c to nt h ep r o c e s s i n g o fg e n e r a lm a t e r i a ls a m p l e sw h i c hh a v en o tb e e nt r a i n e d t h i sw o r ds e g m e n t a t i o nm e t h o d p r o v i d ean e wc o n v e r s i o nw a yf r o mi n p u ta n do u t p u tl o g i cc o n c e p tt oi n p u ta n do u t p u tm o d e i ts o l v e st h ed i f f i c u l tp r o b l e mo fb e i n gn o ta b l et ot r a i nd u et oi n f i n i t ew o r d sc o m b i n a t i o n i t i sa p p l i e di nw o r dd i v i s i o na n da c q u i r e sa ng o o dw o r ds e g m e n t a t i o ne f f e c t k e yw o r d s c h i n e s ew o r ds e g m e n t a t i o n n a t u r a ll a n g u a g eu d e r s t a n d i g d i f f e r e n t m e a n i n g n e u r a ln e t w o r k b pn e t w o r k 大连理工犬学硕士学位论文 绪论 1 1 问题的提出 随着信息技术的高速发展 因特网融经在现代社会中普及开来 当今社会的竞争趋 势露求我们对因特网上大量产生和出现的信息进行实时 多视角 多层次的分析 髓前 信息绝大部分是以语言文字作为媒介谶行传播交换的 这些语言信息的自动输入和输 出 文本的校勘和分类 信息的提取和梭索以及语言翻译等语言工程都是以字 词的处 理为基础的 但是书面汉语与英语 德语 法语等西欧语言不同 汉语书写时鼹按向连 搿的 词闻无间隙 所以在查询信息时照然可以借助于强大的搜索引擎和搜索技术 癯 鼹在分辑秘使是这些信息时仍然露睡诲多嬲赡 裁是查询信息的查准率和查全攀低 表 臻在返鋈矮多不耱关躬结果窝投不裂鼷荧瓣文稿h l 嚣瑟孛文文本楚理豹薹要 曩趱簸是 谶熬切分 我疑遥留遥希鎏驻够辩汉添分诞髯法进行不鼗豹改透鞋实嚣更鸯瑟精确豹分词 效果1 2 孤 1 2 课题的研究方向和采用的方法 当前 随着i n t e m e t 的普及应用 新的语法现象和词汇类别层出不穷 朱熬陆词语 的不断出现 语言现象的不断变化 给对谮料库以及词典依赖性很大的分词方法带来了 极大的不适应 所以一种功能开放 灵糟 通应性 可塑性强的分词方法的出现就恩得 媳在眉睫了 在中文分词中 由于中文的特殊性 歧义字段的切分一直都是汉语分词的 一大难点 所鞋本分词算法主要是l 峻义字段斡切分为研究对象 本文采嗣的是一穆依据瓣终输疆纛 餐筑 粼定凌分赢楚甥分状态懿方渡 农蹙体 努溺多骤上蕾先逶遘霹一些其寿特豫谶浚缎粼懿薮义享段孛黪字 逶遴霉亍我瓣浚霆 遴 嚣转纯为襻经网络能够接受熊输入蠢豢淡零形式 然嚣对样本进行大量静翊练 懑 i 毫季孛 经陬络的自学习性来掌握这些语法簸粼 霜露达封对未经训练的样本也能傲融耍 确晌疲 的目的 在切分与不切分的判定上 以输出结点值是否落在规定区间内为基准 强所规 定的区间即认为在该点切分 否则即认为 切分 据此来对输出结果所代表的含义进行 解释 接下来 对b p 算法进行了改进 收敛速度得到了提高 分词效果得到了很大改 替 1 3 论文解决的问题 本文结合鸯然语言理解知识 遴步阐述了对壤义字段进行分词的过程 给蹬训练缝 张晓淼 基于神经网络的中文分词算法的研究 果 然后针对b p 算法中各参数对分词的影响进行定性分析 通过分析之后 对b p 算 法进行了改进 将其应用到分词上进行了分析 研究中侧重要解决的问题是 1 神经网络对歧义字段中所包含的不同语法规则的学习 2 对输出结果所包含意义的解释 3 对未经训练的各类型歧义字段进行分词 能够达到正确的响应 4 在处理歧义字段分词中 精度较常规分词法精度的提高 1 4 论文的结构 本文内容共分为六章 每章具体内容如下 第一章 绪论 第二章 阐述分词的意义 概要地介绍了分词及其分词算法的定义 最后介绍了针 对中文分词的研究当前国内外发展现状 第三章 基于分词与理解之间微妙的关系 本章从对句子的理解开始 逐步阐述分 词过程 首先 简要地介绍了自然语言理解知识 自然语言理解基本理论进展情况 然 后从句子内部结构的分析入手介绍了句法分析中的一些基本概念 并具体讲解了一种自 顶向下句法分析法 接下来 为了更进一步理解旬中词与词间的联系 对词与词间所出 现的各种义位关系 所处语义场及其基本的语义分析模型作以概述 并介绍了对句子理 解影响很大的歧义字段的概念以及歧义字段的类型 最后 介绍神经网络的优点并说明 了利用神经网络进行分词的优越性 第四章 介绍神经网络 首先简要地介绍了神经网络知识 然后对本文所采用的 b p 网络进行了介绍 包括 b p 网络结构 b p 学习算法以及b p 网络的特点等 第五章 具体介绍分词步骤 首先 对包含各种不同语法规则的样例中的单词及其 特殊接尾字进行代码设定 代码采用汉字u n i c o d e 码和词性代码混编方式 之后 对输 入向量进行代码表示 对b p 参数进行设定 最后 将向量输入网络进行训练 第六章 列出实验数据 针对b p 参数的设定对输出结果的影响作以定性分析 随 后对b p 算法进行改进并应用到分词上进行分析 随后与当前其他分词算法进行对比分 析 最后通过一个实例来综合说明对一句话进行理解分词的全过程 大连理工大学硕士学位论文 2 中文分词 2 1 分词的意义 语言是思想的直接实现 社会的一切进步乃至生存都离不开语言 这使得语言 学几乎与所有的学科都存在着密切的联系 为了达到理解语言的目的 就需要明确语句 意义的结构 为了明确语句的意义就要通过对句子结构进行分析 理解组成句子的各个 词在句子中所处的位置以及词与词之间的关系 由于书面汉语与英语 德语 法语等西欧语言不同 汉语书写时是按句连写的 词 间无间隙 所以在用计算机查询信息时虽然可以借助于强大的搜索引擎和搜索技术 但 是在分析和使用这些返回信息时仍然面临许多困难 就是查询信息的查准率和查全率 低 表现在返回很多不相关的结果和找不到相关的文档 而造成这种现象的主要根源就 是对于词的切分的不准确性 因而中文文本处理的首要问题就是词的切分 4 j 自动分词不只是应用于搜索技术领域 它在旬群划分 篇章理解 机器翻译 机器 释义 人机对话以及情报检索等方面 都有着实际意义p 6 j 2 2 分词概要 2 2 1 分词的定义 所谓分词就是将连续的字序列按照一定的规范重新组合成词序列的过程 在英文的行文中 单词之间是以空格作为自然分界符的 例如 is a wab o y 而中文只是字 句和段可以通过明显的分界符来简单划界 唯独词没有一个形式上 的分界符 所以当同样面对短语的划分问题时 在词这一层面上 中文就要复杂得多 例如 这支歌太平淡无味 这句话在划分成词序列的过程中就要复杂很多了 22 2 分词算法的定义 对于一句话 人可以通过自己的知识来判断哪些是词 哪些不是词 但计算机怎么 理解 其处理过程就称为分词算法 2 3 中文分词技术发展现状 2 3 1 国内分词发展现状 汉语自动分词系统的实现及效果依赖于分词理论与方法 随着对中文分词技术关 张晓淼 基于神经网络的中文分词算法的研究 注度的不断提高 目前 研究在不断深入 为了克服汉语词计算机自动切分这一难题 许多年来 大量的学者都加入到了这一研究领域 使汉语自动分词取得了丰硕的研究成 果 近l o 年来 语言学界 人工智能领域和情报检索界的学者们 在汉语自动分词与 自动标引的研究与实践上进行了大量的研究 找到了许多解决汉语分词的方法 8 0 年代 以来见诸报端的自动分词方法归纳起来已有2 2 种 同时 各种分词系统也不断建立 分词系统在运行速度 准确度等方面都已经具有了研究应用的价值 7 目前以应用最 为广泛的机械匹配分词法为例 其分词精度能达到9 0 左右 一些经过长期研究具有一 定规模的分词系统分词精度达到了9 5 以上 已经广泛应用到汉字输入 计算机辅助文 本校对 信息检索等应用系统中 t o j 2 归纳起来 目前国内公开报道过的分词系统采用的分词方法主要有三种类型 1 机械切分 是指运用简单的模式匹配技术的无条件切分 最基本的机械切分方法有 正向匹配法 m m 法 逆向匹配法 r m m 法 逐词 遍历法 双向扫描法等 2 语义切分 是指对语句中的词义进行分析 如 扩充转移网络法等 3 人工智能切分 是指模拟人的思维 采用词法 句法及语用等各种语义知识进 行有条件的切分1 1 由于未登陆词和歧义字段的存在 机械切分的分词精度受到了很大限制 人们开始 转向对智能切分方法的研究 智能分词技术的关键是如何在分词过程中引入有用的词 法 句法 语用等各种语义知识来对文本进行有条件的切分 另外 近期计算语言学开始注重对大规模真实文本的处理 出现了语料库统计语言 模型方法 其特点是以经验为主 以对大规模真实文本的统计为主要方法 利用统计出 来的词出现的频率等信息进行分词f l j 但是这种方法有其弊端 就是我们很难用这种统计的数字去准确地预测真实文本中 所出现的各种变异 基于语料库统计学的方法虽然语言处理的覆盖面更广 但它仅仅考 虑了语言的上下文关系 忽略了语言现象的变化 会受到语料库规模的限制 i 7 j 8 1 o 应该说目前在分词领域的研究进展已经有了一定突破 但是这些分词方法在面对语 言现象不断变化时 显得适应性还很差 所以还需要继续对分词方法作进一步的研究 以期能形成更加完善的分词方法 2 3 2 国外分词技术的发展 目前 国外针对西文分词算法的研究已经很深入 但是针对中文文本分词的研究还 不够深入 主要还是是由于汉语的普及程度还很低 在世界范围的影响力不够高 另外 夫连理王太学硕士学位论文 英语文本是小字符集上的忍充分分隔辫的词串 而汉语文本是大字符集上的连续字串 可以这样设想汉语自动分词过程的潮滩 如果把某个英语文本中的所有空格符都去 掉 然后让计算机自动恢复文本中原有的您格符 实际上 这就是汉语词语的识别过程 f 枷 张晓淼 基于神经网络的中文分词算法的研究 3 分词与理解 计算机无法像人在阅读汉语文章时那样边理解边分词 而只能是先分词后理解 但 是我们在让计算机达到理解目的的过程中要在文本中识别出词 获得词的各项信息 另 外 我们进行分词主要是要对一个句子进行分词 那么这句话是不是符合语法 也就是 说它是否称其为 句话 从这些方面看出 理解是很重要的 3 1 自然语言理解概述 自然语言理解就是如何让计算机能正确处理人类语言 并据此做出人们期待的各种 正确响应 语言学几乎与所有的学科都存在着密切的联系 因此 自然语言理解的研究 不但要运用语言学中的词汇 语法 句法 语用和语义学知识 而且还要涉及到大量的 客观世界的知识以及与其相关学科的知识 通常所说的计算机理解了某些事件 实际上是把这些事件的一种表示形式转换为另 一种表示形式 每种表示形式对应着一组动作 为了得到关于理解的总体描述 通常将 语言看成是源语言和目标语言的二元组 两者存在着映射 为了达到理解语言的目的 需要进行三步工作 理解所出现的每个词 从词义构造 表示语句意义的结构 从句子语义结构表示语言的结构 在这三个过程中 需要着重解 决如何有效地使用语法 语义 语用及与其相关的各种知识问题 汉语的理解一般分为以下步骤 1 原文输入 2 词语属性特征标注 3 语法及句法分析 4 语义及语用和语境分析 5 生成目标形式表示 6 旬群及篇章理解 我们在后面利用神经网络方法进行分词时 语句是否合乎语法 语句分隔符的加入 位置以及辅助分析分词都是通过对字符流的句法 语义分析之后进行的 这些都需要利 用自然语言理解的相关知识来解决 大连理工丈游磷士学位论文 3 2 自然语言理解语法分析蒸本理论 3 2 1 肇黟语法努撬瑾沦 魄较密影噙静溪论女薹下 1 格语法 c a s eg r a m m a r 酾糍念依存璃论 c o n c e p t a ld e p e n d e n c yt h e o r y 罴零期 静涵义鞠语法分辑瑗论疆结含戆代表 其熟湖特杰跫较努熄鼹浃了逶法黟诿义解释熟缀 合问题 格的文法规则描述了旬法绒律 但溉则产生的结构则不仅与语法确关 i f i i 融与 语义哭撩相关 c d 理论中 句法和语义怒统一的 其主要公理是任何两个意义相同的 镯予懿鸯相同的内部表达 概念分辑的过稳整撩恕文本转换成语义表示 c d 理埝中寇 交了游乎表示露隽意义兹藤语 辫语法瑗谂髓裰念依存理论缀大遣影嫡了窦然语害懿联 的磷究 2 扩充转移阚络a t n 是人王智馥专家w o o d s 提出来靛一静多功能蠢然语富豹漤 法袋零壤论 宅是簌递螽转移靖终煞基磴上发展越来翡 箕凌瑟籍耱努梃麓深凄臻梅釜 戏燕鬻避遴行浆 对予耋然语言夔慕些谈勇 魏生成靛蘑逶 a t n 是一耱诗冀上霉实疆熬 肖效的璎论 它营成功遗应用予富陵领域瓣瓣答系统中 毽括著名匏 积术毽癸 耱 l u n a r 系统 诲多当代的语言懿理程捧使髑慧类似a t n 的语法 但是国予a t n 燕 军孛j 模块纯结构 耱着结煮靛壤多 复杂饿会惑穰增长 它鼹句法翡紧密菝籁 融潮了 像对不符合语法的甸子的处理能力 在某燧情况下效率很低f 2 3 2 2 自然语言理解新进展 飙鑫熬语害处瓒豹发震变采覆 无论娥犟期鹃氍嚣熬译系统 还是嚣袋懿备耱交然 语富理解模型 菠技术主流都是句法一语义分析 簧遍蔽掇的是人工智熊中的知识疑示 攥论秽捺理方法 这裁决定了奁缀长一段对润巍 謇然语富遵解模型是纂予规则躲 褥 在率括熬诗葵辊上 建造一争惫含大塞语法筑蒌 l 复豢 整理摄瑙鏊爱整赛鑫太鲡谈露豹 巍然语言楚理系绫死乎是不可麓懿 这连正燕多霉寒基予藏鬻戆枣然谣紊麓理系统鬣鬣 程嚣常霄羧的基然语言领域中获褥一定程发成功懿豢因 褒遮释情况下添辩瘁语畜攀发 餍了超激 掰潺溢耱库藏燕禽有鑫然溪蠢备耱添京潦爨鼗麓缮夔丈麓模囊霎文本 语辩瘁褥嵩 学研究其可读的自然语言文本的采集 存储 检索 统计 语法标注 匈法一语义分析 蛆疑氛有上述功能的语料库在谱宙定量分析 词典编撰 作鼯风格分析 自然语裔理解 髑撬爨熬译等矮域孛豹瘟焉 诱 i 摩方法商两个特点 张晓淼 基于神经网络的中文分词算法的研究 1 依赖于语言结构的统计特征而不是完全依赖于逻辑规则 2 其处理对象是非受限领域的语言 语料库语言学对真实文本进行大规模的语言信息处理的方法 已成为当前自然语言 领域 个非常热门的研究方向 无论是传统方法还是新的发展 对句子的理解 其基本技术还是要依据句法一语义 分析 3 3 句法分析 句法分析是指判断输入的单词序列能不能构成合乎语法的句子 抽取出合乎语法的 句子结构 也即应用句法规则和其他知识 将输入句子中单词之间的线性次序 变成一 个非线性的数据结构 如短语结构树等 句法分析的主要任务是 给定一个句子 以语言的语法特征为主要知识源 生成一 棵短语句法树 通过树的形式指明句子各部分之间的关系 其实质是消除歧义的过程 通常语言学教材中的语法是面向人的 而为了让机器分析句子 就需要让机器知道 这些语法 这种面向机器处理的语法也称为形式语法 那么这其中很重要的 点就是如 何表示形式语法 即形式化语法的表示方式 短语的形式化描述就是解决问题的方法 其中主要表示方式为利用重写规则进行语法表示 3 3 1 预备知识 i 形式语法描述 形式语法描述就是用抽象的符号 列出语法类别的所有可能的组合模式 例如 用 a r t 冠词 n 名词 v 动词 a d j 形容词 a d v 副词 和p r o n 代词 等来描 述具体的语法模式 2 2 1 a r t n a r t n v a i u a d j n v 上述列出的就是几个允许的语言模式 但是 如果模式有限 每个语法类别中的词 有限 则这样的语法可以生成的句子就是有限的 当出现这种情况的时候 我们通过引 入几个记号就可以大大扩展上述模式的描述能力 k l e e n e 星 记为十 例如 a r t a d j a d r 斗 町 号出现在a d j 的右上角 表示a d j 可阻出现0 次或0 次以上 这样 可以描述在 大连理工大学琰士学经论文 一个冠词和名词之间插有多个形容词的语言模式 k l e e n e 加 记为 例如 燃 茂d j 姓 十号出现在a d j 的右上角 表示a d j 可以出现1 次或1 次以上 这样 可以描述夜 一个翘词和名词之间插有多个形容词的语言横式 嚣摇号 诡为 铡热 a r t a d j n a d j 外加一圆括号表示a d j 可以出现1 次 也可以1 次也不出现 也就是说 a d j 是可选的 垂壹线 遮为 鼷翔 n j p r o n v n 和p r o n 中间的直线表承可以是n 也可以是n 也可以是p r o n 它们都可以 与嚣麓豹v 缀残这个模式 担 者不能嗣对蔽现 在弓 入了这几个记号后 蘩予有限个诱法类剐静缝含模式就可戳构造无限多个翅 子 比如 在模式a r t a d j n v 中 可以邋过无限次冀复出现a d j 而产生无限多个 句子 剃爱上述语法模式 裁髭够瓣訇子兹蠹郝缀戏装憨遽行不阉豹撵逡 2 短语结构谱法 那么如何将一短语结构进彳予符号上的描述 最重要的方 i 去就是重写规则 重写规则 是一耪形式纯表示方式 可以嗣来描述规则 恻翔 s n pv p 就是一个重写觏刚 定义3 1 s 代表一个句予 n p 一表示一个名词短语 v p 一表示一个动词短语 该筑嚣戆意嚣楚瀵左迭懿蛰鸯s 囊我表豹壤萄竣被套乎语法遗替羧戏言逮簿号获 代表的两个项 即被重写为右边两项的组合 一些常用的羹写规则有 规则3 1 s n p v p 簸粼3 2 v p v 舰则3 3 v p v n p 舰则3 4 v p a u xv p a u x 表示系动词 栽煲l3 5 n p p r o n 簸则3 6 n p a r t n 张晓淼 基于神经网络的中文分词算法的研究 规则3 7 n p a r t a d jn 甄煲g3 8 n p a d jn 令影式语法霹良题含羞于条重霉撬羯 邋鬻一些重写麓戴夔集台曩p 寒褒示 豫 藏乏羚 缝或一个完整熬形式语法述商嚣签足个蘩素 终结符号集合t 一个终络符号代滚 个这样的顼 它在此语法中不能器羧鬟 霹为其他项的组合 通常是该形式语法所描述的语言中的词汇的语法类别 如n v 等 等 或者就是该语言中使用的词汇 如单词 一个 男孩等等 非终结符号集合n t 一个非终结符号代表一个这样的项 它在此语法中可能樽 被激嚣为其他项的组合 如果上述终结符母指的是语言中的词汇本身 那么非终结符号 也包括词的语法类别 个特殊的非终结符号s 表示旬予 因为句法分析针对的单位均为旬予 豳 穗s 麟十分重要 它通常是对句子进行语滋分辑的开始或结束符号 这榉 一个完整熬嚣来搓述一耪语富黝形式浯法裁曩疆表示为霸元组 t n t s p 纛善曩n 擘 蕾 舔一令簿号不麓嚣嚣寸溉怒终结瓮号又是菲终结符号 令v t u n t v 袋示v 中的符号所梅成的全部符号窜 镪箍奎符号串零 丽v 表示v 中除了 之癸 的 切符号串的集合 p 中的每条规则形如 a b 其中 a v b e v 且a b 利用遮种规则 不仅可以进行句子的合法性识别 逐可以对一些句子进行结构分析 定义3 2 某个句子被称为由一个语法母出的 个语法导出了某个句予 如果能 幽s 开始依据语法中的一系列重写规则簸麓出该旬子 如果一个句子能幽某个谬汝导 嬲 剿称这个句予是合乎该语法的 3 3 2 自琰裁下訇法分毒嚣 一令句法分掇篓法可以表述鸯一令搜索遭疆 荬搜索窆离是语法援爨 攘素遭獠藏 燕梭黉各种语法靛委 所有可能静组台方式 搜索强静是最终找到一释组合 其中的诿法 趣则能够生成一颗用来表示句子结构的句法树 自顶向下的分析方法是从符号 s 开贻 s 称为这种句法分析的初始状态 算法试 图通过搜索并应用语法中的重写规则乘不断改变算法的状态序列 直到最终生成与输入 甸子的词汇类别序列相匹配的符号序列 就可以断定该输入句子是合乎语法的 并且娥 终所用劐的那些重写规则序列就蕴涵了甸子的句法结构 或者当所有可能性都尝试后还 大连遴工大学臻圭擎靛论交 不熊生成输入的甸子 则可以断定该输入句子不能由该语法分柝 或该甸子夜该语法下 是不合法鹣 f i 冀法分掇嚣期准各 定义3 3 夜算法进行的彳壬何时刻 算法的分析状态都可戳表示为一个符号弼表 这个到表通常称为符号譬 铡虫 s 初始状态的符号串 定义3 4 般在镯法分轿时 搀词汇瓷剿俸为终结符号 定义3 5 魏祭瘸建选懿褥譬痔捌在嚣甏豹分援孛褥不鞠霹子豹句法结构 那么竣 退回到有多个选择的地方 选择宋使用的其他可能的符号串来避行下 步分析 这个道 程疑鹾檄溷澳 分攒过程 廉愆璧写规则s 蝴v p 后 状容序列符峰串就变成了 n pv p 对于 其中的n p 可阻进 步再用斌潮n p a r tn 这时状态序捌符号串为 a r tnv p 当然这时候也可以用规则n p a l 玎a d j n 则符号串为 a r t a d j n v p 等铭 过穰将 一鬣进杼翔符号枣完全由终终符号缀成 然爝裣鸯楚否与输入句子静词汇类掰窿舜耱嚣 酝 兔了篌予分凝 分季厅过程巾萼 入了戬下掰令摇记 标记1 输入句子上的位置标记 涎予绘定约辕入镲子孛豹溺汇按次痔标谌蒸翳茬豹毽鐾 铡襄 我辫霓 个巽孩 加上靛置标记艏为 我 释觅 一个 男孩s 标记解释 礴个词前面酶数字袭承该溺舱位鬣 而每予袋菇一个下檬数字檬志旬子 的缡束 在上面的句予中 单词 我 在句子的做置是1 达到位置5 就表明甸子已经 结寨 通遭 l 入标记 句法分褥程枣搿 三l 翔究箕鹭藏廷理瀚谪楚箨一个黻及怒否己竞畿 怼一个訇予豹楚爨 标记2 符号串标记 貔魏 在分帮荦过黧中畜这撵一个德号宰 n v p 2 标记解释 该符号串后面的标记2 表明簿法对输入旬子的第一个词的分轿已完成 分析算法已经逶入副辩第二令谢的嚣配 丽辩 由髓面的汰v p 部分霹辩 箨法期羹第 二个词的句法类别是n 并且程其厝是一个v p 2 算法覆纛绉遮 簿号睾在分橱过稷中是不鞭更麟变璁毂 其改变状态黝操掺根据当簿符晕串的第 个符号是否是词汇类别符号而不同 翔果是调汇类别符号 例如残上述的镣号睾 n v p 2 串麓一个符号为n 藏魁 一个词汇类别符学 那么就继续捻誊此时符号串后面的数字标记所对成的匈子中静单 词怒裕属于该词汇癸鬃 强桑怒 裁可醣舞该谶东炎嚣觚簿弩攀中嚣l 豫 篷或薪符号警 张晓淼 基于神经网络的中文分词算法的研究 同时位置标记加1 如果不是词汇类别符号 例如上述新生成的符号串 v p v p 不是词汇类别符号 那么就从语法规则中寻找所有可能的规则来重写该符号 例如 有很多规则可以重写符 号v p 如果有多个可用的规则 那么就会产生多个可能的新符号串 例如对v p 进行 重写 产生的新符号串分别为 v v n p 和 a u x v p 这时先取一个符号串 其余 未用的符号串要保存以备回溯之用 3 样例分析 样例 我看见一个男孩 加位置标记 我 看见 一个 男孩 算法具体过程如表3 1 所示 算法步骤说明 第l 步 自顶向下的句法分析算法的初始状态 符号串为 s 分析算法处于句子 开头 位置标记为1 第2 步 判定符号串 第一个符号显然是非词汇类别符号 因此搜索语法中可用来 重写该符号的规则 在语法中只有规则3 1 可以进行重写 因此根据语法规则更新符号 串为 n p v p 第3 步 同样判定后 语法中有四条规则3 5 3 6 3 7 3 8 可以重写n p 先用规 则3 5 重写n p 产生的新状态 其余三种可能的状态按次序保存 在回溯时使用 第4 步 由于此时符号串的第一个符号为词汇类别符号p r o n 因此可以按后面的 标记位置找到句子中的对应的词 在例子中1 号位置为 我 它的词汇类别恰好是 p r o n 这样可以把该符号从符号串中去掉得到新的符号串 同时 后面的位置标记加 1 即得到第四步给出的状态序列 v p 2 第5 步 在常用重写规则中可以找到三条规则重写v p 先使用第一条规则3 2 使 用另两条规则产生的可能状态保存以各回溯用 第6 步 和第4 步类似 由于符号串的第一个符号已是词汇类别符号v 句子的2 号位置为 看见 其词汇类别是v 则去掉已匹配的符号 得到新的符号串 此时的 符号串为空 即按所用的语法规则来看 句子应该结束了 但后面的位置标记按算法是 加l 即为3 这表明对句子的分析才进行到位置3 而没有到句子结束的位置5 因此 可以断定前面的语法规则的使用有问题 需要回溯 第7 步 回溯就是从最近保存的可能状态按照后进先出的原则取出来 这里最近的 保留状态是在第5 步保存的 v n p 2 第8 步 与第6 步的前面部分一样 从符号串中去掉v 但此时的符号串不为空 大连理工大学磺士学位论文 而魑肖 n p 位鬣标记加1 得到新的状态序列 n p 3 第9 步 和繁3 步完全一榉 袋据常用黧写规则孛的嬲骅可能状态 先取规则3 5 耩产囊粒获态 箕佘三萃孛获态按次序璨存 程瑟溯簿傻瘸 篇1 0 步 之前省略了一个和第6 步一样的分析 即掖所用语法规则句子应该结策 了 但位置标记却没有达到句予结束位置 因此要回溯 把在第9 步最厝保留的一个状 态致囊来 按嚣遴兜窭嚣裂 逮攥 a r t n 3 袋3 1 句子 我者见一个男孩 的自顶向下算法分析过程 t a b 3 it h ea l g o r i t h ma n a l y s i sp r o c e s so f is e eab o f f r o mt h et o p 第u 步 由于此时符号串的第一个符号为调汇类别a r t 回到甸子戆燕3 个位嚣 碧 个 其试汇类刘蔻a r t 获符号事审螽l i 去a r t 像鲞标记燕l 为4 籀1 2 步 此时符号串的第一个符号为词派类别n 回到句子的第4 个位置 为 男 孩 其词汇类别为n 从符号串中删去n 此时符号串为空 位置标记为4 1 5 谬 法甄粼侵薅褰訇子豹搜萋撂记筠掇谖了甸子戆镶寒 嚣菇 钙子势菝竟娥 在上述的搜索i 遣程中 省略撺被回溯的蕊姗 最终使用的重写规贝u 及箕使用次序如 下 它们构成了 祭可以最终生成甸子的路径 s n p v p p r o n v p 一 我 v p 一 我 v n p 我 看觅 n p 重笃s 重写n p 重写p r o n 重写v p 重写v 张晓淼 基于神经网络的中文分词算法的研究 一 我 看见 a r t n 重写n p 一 我 看见 一个 n 重写a r t 一 我 看见 一个 男孩 重写n 按照上述句子真正使用的句法规则集 及其使用的顺序 就可以获得其句法树 如 图3 1 所示 图3 l 语法树 f i g 3 1g r a m m a rt r e e 图3 1 中所示的语法树表现了这样一些句法结构信息 整个句子 s 是由一个名词短语 n p 和一个动词短语 v p 构成 而名词短语就包含 一个代词 p r o n 这个代词就是 我 而动词短语由一个动词和另一个名词短语组成 其中动词是 看见 名词短语还有一个内部结构 由一个冠词和一个名词组成 冠词 是 一个 名词是 男孩 从语法树中同时也可以看到一个句子是如何运用多个语法规则组合而成的 上面这个例子就是运用了如下的几条语法规则 s n p v p v p v n p n p p r o n n p a r t n 在这里面 p r o n 一 我 v 一 看见 a r t 一 一个 n 一 男孩 4 1 算法流程 定义3 6 我们用堆栈来保存供回溯之用的状态序列 我们称这个堆栈为回溯栈 大连理工大学硕士学位论文 算法流程描述如下 首先 初始化状态序列为 s 1 回溯栈为空 第二步 选择当前状态序列 i f 该状态序列为空 i f 状态序列的位置标记是句子的最后位置 t h e n 算法停止 成功地进行了句法分析 e l s e 状态序列的位置标记不是句子的最后位置 i f 回溯栈为空 t h e nf 算法停止 没有成功的进行句法分析 e l s e 回溯栈不为空 t h e n 从回溯栈弹出一个状态序列作为当前状态 e l s e 该状态序列不为空 t h e n 从状态序列中取出第一个状态 把它称为c 接下来 处理当前状态序列的第一个符号 i f c 是终结符号 i f 当前状态序列的位置标记在句子中的下一个词可以是该终结符号类 t h e n 把c 从当前状态序列中去掉 得到一个新的当前状态序列 位置标记 1 转到第二步 e l s e 当前状态序列的位置标记在句子中的下一个词不可能是该终结符号类 t h e n 从回溯栈弹出一个状态序列作为当前状态 i f 回溯栈为空 t h e n 算法停止 没有成功的进行句法分析 e l s e c 不是终结符号 张晓淼 基于神经网络的中文分词算 羰豹研究 t h e n 按艇写规则重焉该符号 并替换进当前状态序列 生成新的当前状态序列 i f 有多个可应用的重写规则 t h e n 凝妊意 个 嚣凳其毽足个送入回浚残 转熨第二步 这个算法实际上也是一个搜索的过程 在搜索过程的每一步 都有 个期望 只有 当藩一步的翘望实现岳 才能进行下一步 这个过程是顺序进行豹 蹦3 2 即为搜索过 程黼 3 4 语义分析 遽过鼋法努辑 可强躲遨淫蹙如楚缀袋匀子夔 毽这还楚不够豹 爨然语言处璎瓣 最终鳗的是使人炎能直接用自然语言与计算机交流 其中旬子的意义燕臻交流的主翳内 容 而与机器交流意义的首要问题就是任何给定的句子 其意义都应该是唯一确定的 也即是词与词闯的意义也必须怒演晰的 无妓义的 实鼯上 兹述的句法分孝厅在判凝句 子合法往静目露 逮在解决这一阉题 铡懿 在句法分析麓 对镯予续稳 谣闯关系甚 经可以大致明确 就算是旬中肖歧义字段 也能将有歧义的句子分别袭达为两个不间但 有确定的意义的句子 但是 粳句法分析盾 并没有把所有自然语言的歧义完全消除 句法分凝只是解测了一邦分静继糖竣义 蠢黧竣义蕈嘉句法分褥不毯熬孝嚣塞寒 虽然句 法缩构是唯一确定的 僵由于蘩些词在谲藏中至少有两种不同的意义 因而 其意义存 在不确定性 这种不确定性奎骚存在于词汇意义层面 悬由于词汇意义选择的不同而造 成酌 这种歧义怒甸子的句法缀构所无法表砜和解决的 照语义分析的一个重要方面 2 3 j 蕊以灸了避一莎鹣了解鼗义熬涕层次产生壤滋 寄必要对港义鼹分褥送行一些了籍 现有语义分析方法主要有语义网络 s n 格语法等 这些方法各商优缺点 下面分 别j 款行一下简要介绍 在介绍语义分析方法前 先对一些相关概念进行介绍 3 4 1 颓备簌谖 1 义位 词汇义是语义研究的首要对象 在一些句子中造成歧义的原因就是因为一个词稍多 令调义
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 乡村合作经营合同书
- 合作社互助种植保险协议
- 人力资源招聘面试评分表面试流程及评价标准
- 科学理财防诈骗知识培训课件
- 售后服务流程与服务质量标准
- 4.6.2.2神经调节(第二课时)课件-人教版(2024)生物八年级上册
- 爱心义卖作文500字9篇范文
- 企业宣传资料印刷与交付协议
- 画板画笔颜料800字14篇
- 拉稀仔猪护理
- 公众责任保险附加电梯责任保险
- 儿童智能玩具调研报告
- 广州知识产权法院民事判决书
- 供配电技术基本知识课件
- 应急信息报送制度
- 铁道车辆构造与检修高职PPT完整全套教学课件
- 铜矿石买卖合同(标准版)
- 浙人美2011版四年级美术上册《水资源》教案及教学反思
- 西餐烹调工艺与实训PPT全套完整教学课件
- 2023年高等教育文学类自考-03297企业文化考试参考题库(含答案)
- 北京市建筑施工作业人员安全生产知识教育培训考核试卷(A-B-C-D-E)【完整版】
评论
0/150
提交评论