NLG自然语言生成(搜集的内容)

上传人：简*** IP属地：湖北上传时间：2020-04-01 格式：DOC 页数：17 大小：886KB 积分：9.6 举报 版权申诉

已阅读5页，还剩12页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1 自然语言生成自然语言生成是人工智能和计算语言学的分支它的重点在于建成一个计算机系统这个系统能生成用英语或其他人类语言表示的可理解文本它的输入是一些非语言表示的信息它会利用相关的语言知识和领域知识来自动地生成文件报告说明帮助信息以及其它类型的文本 buiding natrual language generation systems 1 1 自然语言生成与自然语言理解事实上自然语言生成是自然语言处理的一部分自然语言处理大体包括了自然语言理解和自然语言生成两个部分自然语言理解是需要消除输入语句的歧义来产生机器表示语言而自然语言生成的工作过程与自然语言理解相反即它是从抽象的概念层次开始决定如何用语言来表示这个抽象的概念通过选择并执行一定的语义和语法规则生成文本自然语言生成综述自然语言处理即实现人机间自然语言通信或实现自然语言理解和自然语言生成是十分困难的 ambiguity 例如一个中文文本从形式上看是由汉字包括标点符号等组成的一个字符串由字可组成词由词可组成词组由词组可组成句子进而由一些句子组成段节章篇无论在上述的各种层次字符词词组句子段还是在下一层次向上一层次转变中都存在着歧义和多义现象即形式上一样的一段字符串在不同的场景或不同的语境下可以理解成不同的词串词组串等并有不同的意义一般情况下它们中的大多数都是可以根据相应的语境和场景的规定而得到解决的也就是说从总体上说并不存在歧义这也就是我们平时并不感到自然语言歧义和能用自然语言进行正确交流的原因但是一方面我们也看到为了消解歧义是需要极其大量的知识和进行推理的如何将这些知识较完整地加以收集和整理出来又如何找到合适的形式将它们存入计算机系统中去以及如何有效地利用它们来消除歧义都是工作量极大且十分困难的工作这不是少数人短时期内可以完成的还有待长期的系统的工作以上说的是一个中文文本或一个汉字含标点符号等串可能有多个含义它是自然语言理解中的主要困难和障碍反过来一个相同或相近的意义同样可以用多个中文文本或多个汉字串来表示所以一个中文文本或一个汉字含标点符号等串可能有多个含义同样也是自然语言生成的主要困难和障碍 WAPEDIA 因此自然语言的形式字符串与其意义之间是一种多对多的关系其实这也正是自然语言的魅力所在从自然语言理解的角度看我们必须消除歧义即要把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示而从自然语言生成的角度看我们也要消除歧义从抽象概念生成符合语义语法语用的无歧义文本所以不论从哪方面看自然语言的魅力都给我们带来了巨大的困难历史上对自然语言理解研究得较多而对自然语言生成研究得较少但这种状况近年来已有所改变 1 2 自然语言生成的研究从20世纪40年代算起自然语言处理的研究已经接近有70年的历史而自然语言生成正是在自然语言处理的发展中逐渐清晰化的其中一个部分大概兴起于70年代早期在 1983年 1993年这十年期间自然语言生成的研究取得了令人瞩目的成就自然语言生成迄今已走过了近四十年的历程在这段时间里从事该领域研究的专家们不断提出新的理论和方法设计出新的生成模型使语言生成的研究不断取得新的进展目前语言生成的研究侧重于以下几个方面在特定的语法理论框架内更加广泛深入地处理语言现象如生成系统在同一语法环境下生成多语言例如英国大学的多语种生成系统包括英语德语日语法语荷兰语西班牙语上海交通大学的多语言天气预报发布系统面向实际应用的开发如国内有北京交通大学和北京颐和园的导游系统中国科技大学的机器人足球现场解说系统以及人机接口等国外的有英国大学所设计的在线文件剪接系统在生成过程中对所要表达的信息进行语义和句法方面的聚合亦是目前研究重点之一当前语言生成的研究方向主要是在语言表示形式信息内容规划以及语言生成模型等方面自然语言生成的研究将继续在诸多语言学科计算机领域和其他学科的通力协作下获得新的成果自然语言生成综述 2 自然语言生成的内容传统来说自然语言生成的任务大致分为两个个部分内容选择即应该表达什么以及内容表示即怎样去表达但随着自然语言生成的发展我们还应解决一个问题那就是为什么要用这种方式表达所以提出了更为标准的自然语言生成结构它由三部分构成内容文本规划也称宏观规划句子规划微观规划和句子实现标准自然语言生成结构见图1 Natural Language Generation 图1 自然语言标准生成结构事实上还没有一个已实现的自然语言生成器完全的体现了图1中所有的模块目前试验性的尝试来完成这一结构的自然语言生成器有 ERMA Clippinger 1974 和 PAULINE Hovy 1988 而大多数的自然语言生成器在不同的安排下只包含这一结构中的某些阶段而已如 Reiter 1994 和 De Smedt Horacek and Zock 1995 Natural Language Generation 2 1 自然语言生成体系结构下面对自然语言生成体系结构的三个基本模块进行介绍自然语言生成综述 Natrual Language Gneration Requirment for construction Natural Language Generation Microplanning with Communicative Intentions The SPUD System 2 1 1 内容规划内容规划的任务主要包括内容确定和结构构造两个方面内容确定的功能是决定生成的文本应该表示什么样的问题而结构构造则是完成对已确定内容的结构描述即用一定的结构将所要表达的内容组织起来并决定这些内容块是怎样按照修辞方法互相联系起来的以便更加符合阅读和理解的习惯通俗讲就是输入是一个或多个交互目标像 DESCRIBE HOUSE 15 或 MOTIVATEGOING ON VACATION 12 之类的这种抽象的概念经过内容规划输出通常会是树结构或者是一个有着更加详细的内容命题的列表这些命题会用像 and therefore however 这样的连接词连接起来当然每个命题都包含着一个单子句所应该包含的信息比如初始目标是 DESCRIBE HOUSE 15 那么它被简单扩展后应该是像 GENERATE HOUSE IDENTIFIER GENERATE ADDRESS INTRODUCE FLOORPLAN ELABORATE GENERATE GROUND FLOOR and GENERATE TOP FLOOR and GENERATE BASEMENT 这样的 2 1 2 句子规划通常内容规划并没有完全指定输出文本的内容和结构句子规划的任务就是进一步明确定义规划文本的细节具体包括选词 Lexicalization 优化聚合 Aggregation 指代表达式生成 Referring Expression Generation 等工作选词模块在应用中特定信息必须根据上下文环境交互目标和实际因素如人的知识背景或作强调等特定处理用词或短语来表示选择特定的词语法结构以表示规划文本的信息意味着对规划文本进行消息映射有时只用一种选词方法用来表示信息或信息片段在多数系统中允许有多种选词方法优化聚合模块为了能够消除句子间的冗余信息增加可读性以及能从子句构造更复杂的句子在句子规划中应用了聚合技术通常按照粒度区分有句子词汇语义修辞和概念等聚合即决定内容规划输出的结构怎样才能映射到像句子和段落那样的语言结构聚合就是使用修改联合短语以及其它语言结构等方法来将信息打包到较少的句子中当然这可能会使得这些句子反映的信息更为复杂一些聚合依赖一些应用操作这些操作的作用是会检测将要表达的信息之间的联系比如有的信息会重复指向共同的参与者如 Doe is a patient DOE is a female 这样就要组织相关材料信息到一个嵌套的语义结构了得到 Doe is a female patient 指代表达式生成决定什么样的表达式句子或词汇应该被用来指代特定的实体或对象在实现选词和聚合之后对指代表达式生成的工作来说就是让句子的表达更具语言色彩对已经描述的对象进行指代以增加文本的可读性句子规划的输出是文本描述 Text Specification 但其仍然不是最终输出文本仍有句法词法等特征需进一步处理一般文本描述的层次结构仍然对应于逻辑结构需经过文本实现系统实现逻辑结构向物理结构段落章节的映射才能最终生成文本也就是说句子规划的基本任务涵括确定句子边界组织材料内部的每一句话规划句子交叉引用和其它的回指情况选择合适的词汇或段落来表达内容确定时态模式以及其它的句法参数等即通过句子规划理想化的输出应该是一个子句集列表且每一个子句都应该有较为完善的句法规则但是事实上自然语言是有很多歧义性和多义性的各个对象之间大范围的交叉联系等情况也就造成了句子规划是一个很难的任务这点很多做过相关实验的学者都已经指出过针对句子规划的许多子任务如果要一起很好的完成是不容易的所以有一种考虑是单独或者只着重考虑其中几个子任务这样的研究也是早已存在相比之下现在已经较少人研究完成所有句子规划子任务的了 2 1 3 句子实现句子实现主要包括语言实现和结构实现两部分具体地讲就是将经句子规划后的文本描述映射至由文字标点符号和结构注解信息组成的表层文本生成算法首先按主谓宾的形式进行语法分析并决定动词的时态和形态再完成遍历输出其中结构实现完成结构注解信息至文本实际段落章节等结构的映射语言实现完成将短语描述映射到实际表层的句子或句子片段 3 SPUD 系统基础了解了自然语言生成的大致过程应该看到句子规划问题是比较复杂又为重要的句子规划就像一个装满特殊任务的包一样而这些任务又各自调用它们自己的表示方法和算法所以比如像选词聚合指代表达式生成这些任务都是用系统的而又复杂的方法进行交互作用但是这些交互也给集成异构的句子规划进程带来了挑战 Microplanning with Communicative Intentions The SPUD System 相对的也有考虑对句子规划使用统一方法的研究而不是像上面所描述的那种集成异构如 SPUD Stone et al 2003 SPUD sentence planning using description 就是在整个句子规划的过程中对临时信息 provisional utterance 使用同一种表示方法并利用这种表示方法给出一个单独的决策策略而不是像传统上的句子规划那样不同的子任务有自己的表示方法和算法 SPUD 这个框架的关键就是生成器中临时信息 provisional utterance 的解释意图 intended of interpretation 的表示 SPUD 将这种表示叫做交际意图 communicate intent 同时强调句子规划是一个协商的过程即对句子规划而言临时意图能引导和约束规划中进一步的推理 Bratman 1987 Pollack 1992 SPUD 中交际意图的具体表示是与一种语言结构相关联的这个语言结构拥有关于它所包含意义的指向而这些意义表明了在当前的语境中这个结构怎样描述各种各样的广义信息 generalized individuals 这样就可以通过交际意图的具体表示与语言结构之间的联系来关联相关应用领域的具体信息交际意图的具体表示拥有句子规划作出决策所需的所有信息比如它会记录指代表达式 referring expressions 转变为非歧义形式的过程它还能表明给定的结构和意义怎样才能用修饰词加以修饰阐述这样多个信息片就能在一个单一的表达式中被组织起来等因此有了交际意图模型 SPUD 能同时地补充一个不完整句子的句法语义以及语用并能逐步评估掌握句子规划子问题相互作用的进展情况使用交际意图来进行句子规划意味着要通过对语法推导进行搜索来同时构建一个话语 utterance 和它的解释而能将有意义的决策打包在一起并允许逐步修改评估这些决策的语法形式会有助于这个搜索所以 SPUD 使用了 LTAG the lexicalized tree adjoining grammar formalism 形式同时使用像逻辑编程和约束满足等这样的技术会有助于为给定的语言形式决定交际意图 SPUD 的重点在于句子规划它是基于交际意图的它的整个过程结构如下图2 基于交际意图的句子规划微规划的对话结构 conversational architecture 3 1 SPUD 基础举例说明例子 1 Slide coupling nut onto elbow to uncover fuel line sealing ring 使用依赖关系树表示这一话语 utterace 图3 例 1 关系树为了表示交际意图需要三个组成成分 1 话语 utterace 怎样添加有关于交际目标的信息 2 怎样增加与对象特性有联系的约束 3 怎样建立参与者角色 the status of participants 与谈话中的指向 referents in the discourse 之间的关系即 Assertion 是语法规则在树种每个元素的体现它用于更新话语 utterance 的意图 Presupposition 旨在用共享的领域知识表现话语 Pragmatic condition 表现描述参与者角色 the status of participants 以及话语中的指向 referents in the discourse 所以经过一系列基于领域知识和语法语义以及语用的假设与设计图3可表示为这些都是对元素的解释约束接下来给出交际意图表示的一般规范图4 交际意图的一般规范之后例 1 再经过进一步的设计与设定如定义一些新的函数还有采用领域表达和语言表达等领域表达分别是盒装表达式 boxed expression 和下划线表达式 underlined expression 它们分别表示对已有记录的更新和记录中已经有的功能之后得到以下结果图5 例 1 中 slide 的交际意图图5中的边表示语言表达与领域表达之间的推理连接所以句子规划经过考虑语法以及领域知识得到的初步交际意图便呈现出来图6 例 1 的交际意图就像图2所展示的内容规划是综合规划管理器下面的多个子任务中的一个一旦内容规划给出了一些更新那么对话管理器就要将这些更新作为句子规划的输入相应的句子规划模块会生成一些交际意图表示这些交际意图表示阐述了一个达到这些更新的方法这个方法是通过使用一个具体语言形式的话语 utterance 来达到这些更新的句子规划会依据语法和一个广义知识库构建这个交际意图的表示这个知识库指定了系统的私有领域知识以及关于领域的所有背景信息而这些信息是所有参与者都可以共享的句子规划生成的交际意图返回到对话管理器中对话管理器不仅能将这个交际意图推进到实现模块而且还能将它作为协调过程的一般资源有了以上的背景知识我们可以给出 SPUD 系统的关键图6 给出的结构不仅给对话管理器提供了资源也给句子规划自己提供了资源例子 1 中句子规划开始于对话管理器给出的任务在一个可认知的方法下这一话语 uterance 是有助于更新的即 move 是 next 的并且它的 purpose 是 uncover 句子规划器可以通过给临时的交际意图表示一次添加一个解释元素来达到这些要求如第一步添加如图5中 slide 的结构在每一个步骤中句子规划器都可以使用这些话语解释来推进解决像词汇选择聚合和指代表达式的相互关联的问题图7就提供了一些这样步骤的简单示意图图7 例 1 的初始阶段的句子规划示意图通过之前的介绍我们发现了能确定 NLG 中指代意图的一般方法通过添加预先假定的关系来扩充一个话语的内容以上只是介绍了 SPUD 系统中句子规划大致过程当然后期会有别的处理如句法结构形态结构文法推论等但是大致的前提基础如上所述 SPUD 系统是将句子生成作为一个规划问题在解利用贪婪算法和先到先进 head first 的算法作为规划基本算法最后输出一个 plan 可以达到交际目标 4 近期改进近来有基于 SPUD 基本思想作出改进的方法如论文 Sentence generation as a planning problem 中提到的改进下面介绍此文中具体改进这个方法也是将生成语句这个问题编码为规划问题将包含语义和语用信息的 TAG 语法的句子生成问题转换为基于 PDDL 的规划问题但和以往的系统不一样的是它将重点放在了每个单词所做的贡献上这些贡献包括对所要求生成的语句的句法语义和语用上作出的语法特定的贡献本文刻意避免对话语 utterance 像协调理性行为一样进行推理早期的系统就是这样做的本文避免这样为的是能够得到一种更简单的逻辑文章解决的问题是围绕指称表达式 REs 的生成的它开发了一个针对 distractor 后面会介绍的生命周期的新的观点这样会生成更简洁的 REs 另外这个方法还跟之前系统不一样的是它不像别的系统将句子生成问题分为句子规划和生成两个步骤解决而是只用一个综合步骤解决句子生成问题 4 1 图8 例 2 图8展示了例 2 的过程如图8a 所示是通过替代和附加都是 TAG 的主要操作来合并元素树这些操作的结果是如图8b 所示的推导树图8c 则展示了最后的结果表示现在来考虑从上到下地构造如图8c 的推导树过程如图8 所示很明显过程开始于一个空的推导树目的将要生成一个 S 层的表达式为了满足这个目标首先往空树上添加了 likes 树将它作为推导树的根但是这样做后会引入两个新的未满足的 NP 层的替代节点即这棵树还是不完整的接下来我们又用 NP 层的树 mary 和 rabbit 来放到这两个替代节点上虽然这个动作满足了所有的替代节点但是如图 rabbit 树又引入了一些附加 adjunction 约束而这个约束是我们必须通过毗连 the 辅助树才能满足的之后就得到了一个语法推导树当然我们是可以自由地继续添加辅助树的比如图8a 中添加的 white 树如上所述的过程我们可以看出其实推导树的生成本质上是一个规划问题对于规划问题我们是知道的它需要状态以及可以从一个状态到另一个状态的动作解决规划问题其实就是找到一个完整的动作序列这个序列可以从初始状态一直到满足目标状态本文过程中状态是由非满足的替代节点非满足的强制性附加约束以及在一些推导树中添加动作可作用的节点来表示的对于动作是每个动作添加一个单独的元素树到推导树上移除一些开放节点当然同时也引入一些新的开放节点初始状态是由空推导树以及为给定的根 category 生成一个表达式所需的要求组成而目标状态是将现有的推导树规划为语法上完整的树 4 2 语义角色这个方法是需要推导树中每个节点都有自己单独的名字这样的名字对区分非满足的替代节点和附加节点之间的不同是必要的因此方法中引入了语义角色以图 8中例 2 为例假定给根节点取名为 self 还有角色 ag 和 pat 另外引入索引确保一个节点一个名字比如 likes 树的索引是1且树中替代节点的语义角色分别为 ag 和 pat 那么给 likes 推导树添加元素树的规划动作就要求用这个元素树去替代 likes 树 NP 层的名为1 ag 的替代节点以及另一个也是 NP 层的名为 1 pat 的替代节点 4 3 PDDL 编码现在将语法 LTAG 推导树的生成问题编码为 PDDL 在这个模式下一个规划状态被定义为有限的谓词逻辑原子的集合这些谓词逻辑是取得真值动作 action 有很多个参数还有一个 precondition 和一个 effect 这两个都是逻辑公式 PDDL 允许对可以作为 precondition 和 effect 的公式进行扩展 Precondition 中的 subst A s 表示根类别为 A 的初始树有一个替代节点的标志为 u 即说对于一个对替代节点进行替代的动作它的前提条件就是 subst A s 如果当前树有这么一个替代节点 u 那么就可以应用这个动作了同样的道理对于辅助树的操作也是一样的不过要求的前提条件是 canadjoin A s 这里还有一个区别对于初始树它的替代动作的结果是从规划状态中消除 subst 条件即 subst A u 而对于辅助树它的附加动作的结果是影响 mustadjoin A u 它表明这个被附加 adjoin 元素树的附加节点可以不用再进行附加操作了但是也可以继续进行附加操作即不作必须进行附加操作的硬性规定了就像图8a 例 2 中已经有 the 附加在上面了就算后来不附加 white 也符合了句法要求但也可以依据生成语句的后继要求继续附加之前提到过动作的应用会为节点引入新的身份因此我们使用目前规划的步骤数作为索引给初始状态引入一个原子 step 1 然后给每个元素树引入一个 step k 这里 k 是规划规模的最大上限图9展示了一些动作图9 图8中语法的一些动作由上所述最后的目标状态应该含有以下状态 A u subst A u A u mustadjoin A u 然后我们就可以将这些动作初始状态以及目标规定放到任何现成的规划器获得像图 10显示的规划图10 对图9中动作的规划 4 4 以上是最基本的句子生成到规划问题的介绍接下来我们扩展这个编码来处理语义和指代表达式 4 4 1 为了将规划器像 TAG 的语句实现 surface realization 算法那样使用我们将语义内容 semantic content 附给每一个元素树并要求语句要达到某个特定的交际目标这里也会用到知识库知识库中只用树来表示信息比如我们定义 likes 树的语义内容形如 like self ag pat 知识库也是有限的原子集合比如包含 like e m r 和 rabbit r 等交际目标是知识库的子集如 like e m r 针对交际目标对其每一个元素 P a1 an 都在初始状态添加 cg P a1 an 相应的在目标上添加 P x1 xn cg P x1 xn 另外为每一个有 n 个语义角色作为参数的动作赋予参数 x1 xn 对知识库中每一个元素 P a1 an 在初始状态下都添加 skb P a1 an 然后定义一个函数 id 它将语义角色映射到节点标志比如它将 self 映射到 u 将别的角色 r 映射到 i r 接着再定义一个函数 ref 它将函数 id 的输出映射到参数 x1 xn 上如 ref u x1 为了获得元素树 t 的第 i 个动作对交际目标的贡献我们在每个元素树的语义内容的每个 P r1 rn 的 effect 中添加一个影响 cg P ref id r1 ref id rn 我们通过给每个语义内容元素的动作一个前提条件 skb P ref id r1 ref id rn 来严格表示只表达真值语句为了能确定以后的指向内容保持跟踪节点标志和对象 individuals 之间的联系对每个动作都为语义角色 r 除了 self 增加一个影响 referent id r ref id r 下面就是 likes 的元素树完整的计划不仅对应着语法推导树还能达到所有的交际目标 4 4 2 指代表达式因为一个指代表达式必须允许 hearer 能独立地确定意图指向所以我们分别记录跟踪 hearer 的知识库像之前提到的 skb P a1 an 一样这里使用了一个原子 hkb P a1 an 另外假定语用信息形式是 pkb P a1 an 这里我们将用到三个语用谓词 hearer new 表明 hearer 不知道这个对象 individual 的存在并且不能推导出它 hearer old 意思与 hearer new 相反 contextset 一个意图指向的 contextset 是指 hearer 可能混淆的所有的对象 individual 集合例说 b 是 a 的 context set 我们在初始状态中使用原子 pkb contextset a b 除了语义内容我们还给每一个元素树的语法上配备了语义要求和语用条件语义要求是一个原子集合它给元素树提供了一个前提条件这个前提条件可以帮助 hearer 确定它的参数指代的是什么比如 likes 就有一个严格要求是它的 agent 必须是动物这就简化了 hearer 的选择方便指代表达式的生成由于在推导过程中引入的每个替代节点都会引入一个新的指代表达式这意味着我们能通过引入这个指代表达式的替代节点的身份来区分这些指代表达式所以对每个指代表达式 u 给出一个原子 distractor u x 这个 distractor u x 在一些规划状态中的存在意味着目前的推导树信息量还不足以允许 hearer 单独地确定 u 的意图指向有种情况是有个 a 是另一个对象它不是我们需要的那个意图指向但它又符合我们目前为止构造的部分指代表达式这样就可能会出现错误偏差那么我们就为了确定所有指代表达式的唯一性给规划目标添加 u x distractor u x 图11和图12给出了例 2 的扩展语法和一些相应动作图11 扩展语法例子图12 对应于图11中语法的一些动作还有很多问题需要考虑看了关于 NLG 的这些论文方法以及它的挑战之处认为要把它作为规划问题处理那么问题一是用什么语法形式表示像论文 Microplanning with Communicative Intentions The SPUD System 中的 LTAG 像论文 Sentence generation as a planning problem 中的 LTAG 转换到 PDDL 然后作为规划输入这些表现形式是否就是最好的表现形式了问题二是怎样才能保证给出的逻辑状态是尽量的包含所有语义语用并符合所有应有句法的 NLG 中有很多子任务子问题如内容规划句子规划句子规划中还有聚合指代表达式选词等等很多是否能改进这些个别货几个子问题效果就会更明显问题三是规划问题将状态动作作为输入放到规划器那么这个规划器又应该怎样设计才对这些形式的状态和动作效果最为好 SPUD 使用贪婪算法和 head first FF 使用启发式算法等等是否能设计一个更为妥当的规划器使用的算法专门针对这个 NLG 领域的这些状态动作呢目前最多的考虑应该在后两个问题上吧自然语言处理是计算机科学领域与人工智能领域中的一个重要方向它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法因此这一领域的研究将涉及自然语言即人们日常使用的语言包括中文英文俄文日文德文法文等等所以它与语言学的研究有着密切的联系但又有重要的区别自然语言处理并不是一般地研究自然语言而在于研制能有效地实现自然语言通信的计算机系统特别是其中的软件系统因而它是计算机科学的一部分语言是人类区别其他动物的本质特性在所有生物中只有人类才具有语言能力人类的多种智能都与语言有着密切的关系人类的逻辑思维以语言为形式人类的绝大部分知识也是以语言文字的形式记载和流传下来的因而它也是人工智能的一个重要甚至核心部分用自然语言与计算机进行通信这是人们长期以来所追求的因为它既有明显的实际意义同时也有重要的理论意义人们可以用自己最习惯的语言来使用计算机而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言人们也可通过它进一步了解人类的语言能力和智能的机制实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义也能以自然语言文本来表达给定的意图思想等前者称为自然语言理解后者称为自然语言生成因此自然语言处理大体包括了自然语言理解和自然语言生成两个部分历史上对自然语言理解研究得较多而对自然语言生成研究得较少但这种状况近年来已有所改变无论实现自然语言理解还是自然语言生成都远不如人们原来想象的那么简单而是十分困难的从目前的理论和技术现状看通用的高质量的自然语言处理系统仍然是较长期的努力目标但是针对一定应用具有相当自然语言处理能力的实用系统已经出现有些已商品化甚至开始产业化典型的例子有种数据库和专家系统的自然语言接口各种机器翻译系统全文信息检索系统自动文摘系统等自然语言处理即实现人机间自然语言通信或实现自然语言理解和自然语言生成是十分困难的造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性 ambiguity 一个中文文本从形式上看是由汉字包括标点符号等组成的一个字符串由字可组成词由词可组成词组由词组可组成句子进而由一些句子组成段节章篇无论在上述的各种层次字符词词组

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

NLG自然语言生成(搜集的内容)

文档简介

温馨提示

最新文档

评论

NLG自然语言生成(搜集的内容)

文档简介

温馨提示

最新文档

评论

相关文档