(计算机应用技术专业论文)基于限定领域的问句相似度.pdf_第1页
(计算机应用技术专业论文)基于限定领域的问句相似度.pdf_第2页
(计算机应用技术专业论文)基于限定领域的问句相似度.pdf_第3页
(计算机应用技术专业论文)基于限定领域的问句相似度.pdf_第4页
(计算机应用技术专业论文)基于限定领域的问句相似度.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(计算机应用技术专业论文)基于限定领域的问句相似度.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

天津师范大学硕士学位论文 摘要 问答系统为人们提供了自然语言的人机交互方式,相对于传统的关键词方式 搜索引擎来说,其具有显著的优势。在受限领域,基于问题库的问答系统在对问 题答案的定位上,有更准确,快捷和高效的特点,在日常生活的各个领域,有着 非常重要的应用前景,是当前研究的热点问题。本文围绕台球领域自动问答系统 实现过程中的领域知识库构建、问题库的的收集和组织、相似问句的查找及答案 提取等关键核心技术进行了一系列的研究和探讨,实质性工作和取得的主要成就 如下: l 、对现有的自动分词方法进行分析,并根据限定领域的特点,选择适当的 分词算法并进行适当的设计。 2 、对词语间的语义相关度的计算方法和中文的句法进行了比较详细的研究, 对本系统的进一步发展打下了比较坚实的基础。 3 、对中文语句的相似度计算进行了深入的研究,对比了现有比较成熟的问 句相似度算法的优缺点,并针对限定领域的特点,提出了一种针对台球领域的问 句相似度计算方法,并将它应用到面向台球领域的自动问答系统中。 4 、设计并实现了面向台球领域的自动问答系统。构建了领域知识库和领域 问题库,采用本文所提出的基于关键词的倒排索引的问句相似度计算方法,进行 问句相似度的计算,实现系统的自动问答。面向台球领域的自动问答系统的测试 结果表明了此方法可行,有比较好的实用效果。 关键词:问答系统、问题集、台球领域、自动分词、问句相似度计算 天津师范大学硕士学位论文 a b s t r a c t q u e s t i o na n s w e r i n gs y s t e mp r o v i d e st h eh u m a n m a c h i n ei n t e r f a c eb y m e a n so fn a t u r a l1 a n g u a g e c o m p a r i n gt ot h et r a d i t i o n a ls e a r c he n g i n e w h ic hisb a s e do nt h ek e y w o r d ,q u e s tio na n s w e rin gs y s t e mh a sp r o m in e n t a d v a n t a g e s i nt h er e s t r i c t e dd o m a i n ,q u e s t i o na n s w e r i n gs y s t e mo nt h e q u e s t i o n1 i b r a r yi sm o r ea c c u r a t e , s i m p l ya n de f f i c i e n c ya tl o c a l i z a t i o n t ot h eq u e s t i o n a n s w e r ,i ne a c hd o m a i no fd a i l y1 i f e ,i ti st h ek e yp r o b l e m o fp r e s e n tr e s e a r c ha n dw i l lb eab r i l l i a n ta p p l i c a t i o ni nt h ef u t u r e t h i sp a p e rd o s eas e r i e so fr e s e a r c hw h i c hr e s o l v em e t h o do fak n o w l e d g e b a s ec o n s t r u c t e di nt h ed o m a i n ,m e t h o do fq u e s t i o n a n s w e rr e t r i e v a l , t h e c 0 1 l e c t i o na n do r g a n i z a t i o no fq u e s t i o n1 i b r a r yi nt h er e s t r i c t e dd o m a i n , q u e s t i o nc l a s s i f i c a t i o ni nt h ei m p l e m e n tp r o c e s so fq u e s t i o na n s w e r i n g s y s t e mb a s e do nb i l l i a r d sd o m a i n t h em a i nw o r k si nt h i sp a p e ra r ea s f o l l o w s : f i r s t l y ,a n a l y s e dt h ee x i s t i n gm e t h o d so fc h i n e s ew o r ds e g m e n t a t i o n a n da c c o r d i n gt ot h et r a i t so fr e s t r i c t e dd o m a i n ,s e l e c t e dt h ea p p r o p r i a t e m e t h o do fc h i n e s ew o r ds e g m e n t a t i o na n da l s od e s i g ni t s e c o n d l y ,s t u d i e dt h em e t h o do fc o m p u t i n gs e m a n t i cs i m i l a r i t yb e t w e e n c h i n e s ew o r d sa n dt h ec h i n e s eq u e s ti o ns e n t e n c ep a t t e r n si nd e t a il , t h is s t u d i e s1 a i das o l i df o u n d a t i o nf o rt h ed e v e l o p m e n to ft h eq u e s t i o n a n s w e r i n gs y s t e m t h i r d l y , h a sc o n d u c t e dt h et h o r o u g hr e s e a r c ht oc h i n e s es e n t e n c e s i m il a r i t yc o m p u t a t i o n ,h a sc o n t r a s t e dt h ee x i s t i n gq u i t em a t u r e i n t e r r o g a t i v es e n t e n c es i m i l a r i t ya l g o r i t h mg o o da n d b a dp o i n t s ,a n da i m s a tt h ed e f i n i t i o nd o m a i nt h ec h a r a c t e r i s t i c , p r o p o s e do n ek i n di nv i e w o ft h e p i n g p o n g d o m a i n s i n t e r r o g a t i v e s e n t e n c e s i m i l a r i t y c o m p u t a t i o n a lm e t h o d , a n da p p l i e si tf a c ei nt h ep i n g p o n gd o m a i n a u t o m a t i ci n t e r r o g a t o r r e s p o n d e rs y s t e m f o u r t h l y ,d e s i g n e d a n dh a sr e a li z e d f a c et h ep i n g p o n gd o m a i n i i 天津师范大学硕士学位论文 a u t o m a t i ci n t e r r o g a t o r r e s p o n d e rs y s t e m h a s c o n s t r u c t e dt h ed o m a i n k n o w l e d g el i b r a r ya n dt h ed o m a i nq u e s t i o ns t o r e h o u s e , u s e sb a s e do nk e y w o r dr e v e r s ei n d e xi n t e r r o g a t i v es e n t e n c es i m i l a r i t yc o m p u t a t i o n a l m e t h o dw h i c ht h i sa r t i c l ep r o p o s e d ,c a r r i e so nt h ei n t e r r o g a t i v es e n t e n c e s i m i l a r i t yt h ec o m p u t a t i o n , r e a l i z e ss y s t e m sa u t o m a t i cq u e s t i o na n d a n s w e r h a di n d i c a t e df a c et h e p i n g p o n g d o m a i n sa u t o m a t i c i n t e r r o g a t o r r e s p o n d e rs y s t e m st e s tr e s u l tt h i sm e t h o di sf e a s i b l e ,h a s t h eq u i t eg o o dp r a c t i c a le f f e c t k e y w o r d :q u e s t i o na n s w e r i n gs y s t e m ,q u e s t i o nl i b r a r y ,b i l l i a r d sd o m a i n , c h i n e s ew o r ds e g m e n t a t i o n ,s e n t e n c es i m i1 a r i t yc o m p u t a t i o n i i i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我 所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研 究成果,也不包含为获得:苤垄! 至莲盘堂或其它教育机构的学位或证l ;而使川过的材料。 与我一同:i f :作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 签名: 蚴日期:丛幽 学位论文版权使用授权书 本人完全了解天津师范大学有关保留、使用学仿论文的规定,即:学校有权将学位论文 的全部或部分内容编入有关数据库进行检索,并采川影印、缩印或扫描筹复制手段保存、汇 编以供夯阅和借阅。同意学校向国家有关部fj 或机构送交论文的复印件利磁盘。 ( 保密的论文在解密后应遵守此规定) 签名:蚴 导师签名:矢近日期:趁幽 天津师范大学硕士学位论文 第一章绪论 1 1论文的背景研究 问答系统( q u e s t i o na n s w e r i n gs y s t e m ) 是指能够对计算机用户输入的使 用自然语言描述的闷句做出回答的计算机程序n 1 。问答系统集自然语言处理、信 息检索、知识表示为一体,正同益成为国际上研究的热点。它既能够让用户用自 然语言提问,又能够为用户返回一个简洁、准确的答案,而不只是一些基于关键 词的似是而非的答案。因此,问答系统和传统的依靠关键字匹配的相关的检索系 统相比,能够更好地满足用户的检索需求,更准确地找出用户所需要的答案,具 有方便、快捷、高效等特点心1 。 早在上世纪6 0 年代人工智能研究刚开始的时候,人们就提出了设计一种让 计算机用自然语言来回答人们的问题的系统,即自然语言问答系统。问答系统在 上世纪8 0 年代的自然语言处理领域曾风靡一时,因为t u r i n g 实验告诉人们如果 计算机能够像人一样与人进行对话,就可以认为计算机有智能,所以研究者们为 了探索语言理解技术,纷纷研究自然语言问答系统。但是由于当时的条件限制, 所有的实验都是在非常受限的领域,甚至是固定段落上进行的,所以自动问答一 直被限制在特殊领域的专家系统。此后,由于大规模文本处理技术的兴起,问答 系统的研究受到了冷落d 1 。 最近几年,随着网络和信息技术的快速发展,同时人们想更快地获取信息的 愿望也重新促进了自动问答技术的发展。有越来越多的的公司和科研院所参与自 动问答技术的研究,比如微软和i b m 等公司。在每年一度的文本信息检索( t r e c ) 会议上,自动问答( q u e s t i o na n s w e r i n gt r a c k ) 是最受关注的主题之一,越来 越多的大学和科研机构参与了t r e c 会议的q u e s t i o na n s w e r i n gt r a c k 【4 1 。在2 0 0 0 年l o 月召开的a c l 2 0 0 0 国际计算语言学学术会议上,有一个专题讨论会,题目 是“o p e n d o m a i nq u e s t i o na n s w e r i n g ”。目前,国外已经开发出一些相对成熟 的问答系统。麻省理工学院开发出问答系统s t a r t ,从1 9 9 3 年开始发布在 i n t e r n e t 上,网址为h 主主卫;么么墨主垒! 主:璺墨垒i ! :虫i 主:里鱼坚么,可以回答一些有关地理、 历史、文化、科技、娱乐等方面的简单问题。例如用户提问“h o wm a n yc o u n t r i e s i nt h ew o r l d ? ”,s t a r t 系统将会回答“ih a v ei n f o r m a t i o na b o u tt h ef o l l o w i n g 2 6 3c o u n t r i e si nt h ew o r l d ”。另外还有其他比较成熟的问答系统像a n s w e r b u s , 一l 一 天津师范大学硕士学位论文 它是个多语种的自动问答系统,不仅可以回答英语的问题,还可以回答法语、西 班牙语、德语、意大利语和葡萄牙语的问题瞄1 ,其网址为 h t t p :m i s s h o o v e r s i u m i c h e d u “z z h e n g q a n e w 。l a s s o 6 1 系统是运用自然 语言处理方法分析使用者输入的问句,将问句依其型态加以归类,并提取出问句 的中心焦点后,从大量文件中找出符合使用者需求的答案出来。国内也有一些高 校和研究机构对自动问答系统进行研究,中科院计算所、哈尔滨工业大学、复旦 大学、北京理工大学、香港科技大学等。但是整体来说,参与中文自动问答技术 研究的科研机构比较少,而且基本没有成型的中文自然语言问答系统。 自然语言问答系统的人机界面、精确性和实时性是汉语自然语言问答系统的 三大研发目标口1 。其中,精确性是自然语言问答系统的首要目标。为了达到这一 目标,在用户问句处理方面,需要对用户输入的问句进行正确的分词和词性标注、 同义词扩充、名实体标注、句法分析、语义分析、答案类型标注等等处理,对于 领域文本知识库也要进行同样的处理。尤为重要的是,需要一个综合考虑用户问 旬与文本片断的语言语义信息,精确计算用户问句与文本库中句子的相似度大小 的方法,使得蕴含答案的句子获得一个相对较高的计算结果,较早的返回给用户, 从而提高信息检索系统的精确性,并提高答案自动抽取的精度和效率。句子相似 度的计算是自然语言问答系统的核心所在,其计算方法的精确性和实时性关系到 整个系统的精确性和效率。 在自动问答系统中句子相似度的计算是一个最重要的理论基础。问答系统中 很多地方都需要用到语句相似度的计算,自动问答系统中旬子相似度的计算大致 可分为两类:问题与问题之间的相似度计算和问题与答案之间的相似度计算。在 问题库中需要用到问题与问题之间的相似度,在答案抽取模块中需要用到问题和 候选答案之间的相似度,甚至在答案抽取模块中的多文档自动文摘也要用句子相 似度来对句子进行聚类。本文主要的研究对象是用户提出的问题与问题库中问题 之间的相似度。 1 2问答系统现有的类型国1 随着国内外越来越多的机构投入到问答系统的研究,目前自动问答技术已经 取得了一定的成绩,出现了许多优秀的问答系统,其现有类型主要有:聊天机器 人、基于知识库的问答系统、问答式检索系统,以及基于自由文本的问答系统等。 2 - 天津师范大学硕士学位论文 1 2 1 聊天机器人 f 1 9 6 6 年实现的“e 1 i z a ”是第一个聊天机器人,它运用自然语言以聊天的方 式与人交互。e l i z a 扮演一个心理学者的角色,往往用反问来应对用户的提问。 1 9 7 3 年,有人做了模仿精神病人的图灵测试的实验,所编的程序为p a r r y ,p a r r y 没有语法分析部分,只是通过大约6 0 0 0 条模式匹配规则来实现它的功能,但能 够成功地欺骗很多人。近年来出现的聊天机器人,多是以通过“图灵测试 为目 的参加“l o e b n e r ”比赛的程序,如a l i c 素 w 2 第二个条件表示第一基本义原描述式反映了一个概念的最主要特征,所以它 的权值一般定义的较大,要大于0 8 。根据公式3 2 可以得到两个概念之间的语 2 8 - 天津师范大学硕士学位论文 义相似度。知网中一个词语往往有多个概念,对于两个汉语词语w 和w 2 ,如果 w 。有n 个义项( 概念) :c u ,c m ,c l n w 。有i n 个义项( 概念) :c 舯c :。, c 扫。我们规定,词语w 。和w :的相似度为各个概念的相似度之最大值,也就是说: 跏( 彤,) = m 强跏( c l ,c 2 ,) l = i n ,= i 脚 公式3 3 这样,我们就把两个词语之间的相似度问题归结到了两个概念之间的相似度 问题。 - 2 9 天津师范大学硕士学位论文 第四章中文问句特性分析及中文句法处理 4 1 句法分析简述 4 1 1 经典的形式句法理论 句法分析的主要任务是把句子中的词语序列映射为句法成分的层次结构,句 法分析是在词法分析的基础上进行,词法分析的正确性影响句法分析的正确性。 任何句法分析都有一个按某种语法形式和符号约定的规则库,这是句法分析的基 础,目前句法分析主要以下几种语法类型: 1 、短语结构语法 美国语言学家乔姆斯基在2 0 世纪5 0 年代创造了形式语法,是用数学方法研 究自然语言和人工语言的语法理论n 引。在形式语法中,一共定义了4 类语法,这 类语法统称为短语结构语法( p h r a s es t r u c t u r eg r a 舳a r ,p s g ) 。一个p s g 形式定 义如下: g = 巧,只s 其中,v ,是终结符词汇集,它包含的词是语言中的最小单位。v n 是非终结符词汇 集,包括一些用以表示文法的中间符号。巧u 合称为词汇表v 。p 是产生式规 则集,每个产生式可以表示为q p ,q 是v 中一个或多个符号构成的序列,b 是v 中零个或多个符号构成的序列。s 是文法的起始符号,s v 。 2 、扩展转移网络 1 9 6 9 年美国人工智能专家w a w 0 0 d s 推出了扩展转移网络( a u g m e n t e d t r a n s i t i o nn e t w o r k ,a n t ) 模型n 8 6 | ,是自然语言语法多功能表示及语言自动分 析的方法。转移网络有识别语句的功能,如果决定从一个状态转移到另一个状态 的输入不是一个个字母,而是一个个的词,那么转移网络就可能用来识别自然语 言中的短语和句子。从句子中抽象出一个共同的结构形式,可以使一个网络识别 多个同类的句子。 2 、词汇功能语法 词汇功能语法( l e x i c o nf u n c t i o ng r a m m a r ,l f g ) 认为句子由两个相互独立 的层次来描述,即成分结构层次和功能结构层次n 7 1 8 1 。成分结构层次描述句子成 分之间满足的规则,功能结构层次描述句子的主语、谓语等部分要满足的语法功 - 3 0 天津师范大学硕士学位论文 能关系。这种语法功能关系体现为特征结构的一致,特征结构由属性和属性值的 偶对 来表示。只有同时满足两个层次的规则要求才能形成成 功的分析。 4 、功能合一文法 m k a y 于1 9 8 5 年提出功能合一文法( f u n c t i o n a lu n i f i c a t i o ng r a 姗a r ,f u g ) n 7 博1 。功能描述由一组描述元组成,每一个描述元表示为e = 缸p ;,可以是一 个“属性一值”偶对,也可以是另一个功能描述。功能合一文法系统使用复杂特 征集来定义词汇、句法规则、语义规则。整个句子的描述,通过合一运算把几个 功能描述合并为一个功能描述。f u g 的优点在于它把语言看作一个传递和负载信 息的符号系统,认为句子的信息可以由更小的单位,如词汇或短语合并而得到, 这种合并可以用合一运算来实现。合一运算既包括了语法规则的信息,也包括语 义合法性判断,因此它把句子的语法结构和语义表示较好地结合起来。 4 1 2 句法分析常用算法 4 1 2 1 基于上下文无关文法( c f g ) 的分析方法 虽然各种语法形式相差很大,不过在句法分析的过程中采用的基于规则的分 析算法都是类似的。常用的句法分析算法有n 力n 引:自顶向下算法、自底向上算法、 左角分析算法、c y k 算法、m a r u c s 确定性分析算法、e a r l e y 算法、t b m i t a 算法 ( g r l 算法) 、c h a r t 算法等。其中,白底向上分析和自顶向下分析算法是最基本 的算法,但实际运用效果不理想,t o m i t a 算法和c h a r t 算法是目前应用得较为 广泛的句法分析算法。 1 、自顶向下分析算法。 该算法是自顶向下回溯算法的分析方法,它逐个地枚举推导直至找到一个能 生成输入句子结构的推导。自顶向下的分析假定一个节点可以替换为下面的节 点,从根到叶,逐步分枝,从抽象到具体,从整体到部分,寻找与叶子相匹配的 句法结构。 2 、自底向上分析算法。 这种方法是从句子的单词序列出发,以自底向上的方式建立一些局部分析, 又具体到抽象,一步步地归并,最后到达根节点s 。因此它首先应该使用n 、v 、 m 等最具体的改写规则,按照规则中箭头所指的反方向使用规则。 3 1 - 天津师范大学硕士学位论文 3 、c h a r t 算法。 线图分析( c h a r r t p a s r n i g ) 算法的主要思想是在分析调度器的控制下,每次 尽可能选择最佳的成分边进行组合扩展,从而迅速得到句子的最佳分析树,分析 效率较高。c h a r t 算法中最重要的数据结构是“线图”( c h a r t ) 和“日程表” ( a g e n d a ) 。线图是把词与词之间的问隔作为节点,把词和短语当作连接节点的边。 日程表是一个边的集合,用于存放己经产生,但还没有加入到c h a r t 中的边。 c h a r t 分析的过程是一个不断产生新边的过程,每一条新产生的边首先放到日程 表中。 4 1 2 2基于概率上下文无关文法( p c f g ) 的分析方法 自然语言灵活多变,以上下文无关文法为基础构造的规则系统必定是有歧义 的。歧义消解成为句法分析中的一个重要问题。单纯依靠文法形式的改进来改造 无歧义的文法规则系统,在目前看来非常困难。由于难以利用文法规则系统本身 来消除歧义,因此依靠另外的手段来从多个分析结果中选出最优解。基于大规模 的真实语料库进行概率统计是目前最常用的方法,其基本过程是n 明啪1 :构造一个 合适的语言概率模型,利用大规模的真实语料对模型中的基本参数进行训练,然 后在此概率模型中对每个句法结果( 通常是句法结构树) 进行评分,并以这个分 值作为优选的依据。这样,在语言概率模型中,句法歧义消解的问题就转化为对 句法结构树进行评分的问题。 概率型上下文无关模型是上下文无关文法( c f g ) 的扩展,一部概率上下文无 关文法和普通的上下文无关文法的区别在于:在概率上下文无关文法中,每条产 生式规则都拥有一个概率值。概率上下文无关文法可形式定义为下面的四元组: g = ( ,尸) 其中,v x 是非终结符号的集合,= 1 ,2 ,” ;v t 是终结符号的集合, 巧= 加1 ,w 2 ,w y ;n l 是文法的开始符号;p 是一组带有概率信息的产生式所 组成的集合,每条产生式形如【一f 7 ,尸( jf ) j ,7 斗f 是普通的上下文 无关规则,p ( 。寸f 7 ) 是产生式的概率,并且p ( 7 专f 7 ) = 1 ,即左部相 同的所有产生式的概率之和为1 。 令。= w 1w 2 w 卅为一个句子( 终极符号串) ,若给定概率上下文无关文法 - 3 2 - 天津师范大学硕士学位论文 g ,句法分析的任务实际上就是在众多可能的分析树中寻找一棵具有最大概率值 的分析树t ,这个过程通常用下面的公式描述: f = 鹕m a ) 【尸( f l w 加,g ) 一棵分析树的概率是得到该分析树所用到的产生式的概率的乘积。t 代表句 子w ,。的一棵分析树,假设为得到该分析树,共用到n 条产生式规则 硝专f 。( 后= 1 刀) ,则分析树t 的概率为: p o ) = 卫p ( 以寸f ) 概率上下文无关文法在句法排歧方面的能力有限,因为概率上下文无关文法 评价分析树时倾向于给那些使用了高频规则的句法树以较高的概率值,如果句法 树中使用了低频规则,概率值会较小,另外,利用概率上下文无关文法去评价一 棵分析树,没有考虑词对结构的影响。 4 2 中文特性分析及其句法处理 4 2 1 中文特性分析 作为一种孤立语( 分析语) ,汉语的根本特点是缺乏严格意义上的形态标志和 形态变化。同西方语言相比,汉语的句法分析将面临以下困难洲乜: 1 、汉语句子需要分词,易产生歧义切分。 中文文本是“字”的字符串,文章内的词与词之间没有任何区分字符。但是 字与字组合成词,是有一定组合规律的,这些规律,有的是相对确定的,有的在 不同的意境会有不同的切分规则,十分复杂,常常会产生歧义问题。有两种不同 的类型:固有歧义和组合歧义。 固有歧义是根据不同意境所出现的分词歧义,如“物理学是一门基础科 学”和“物理学起来很难”,其中“物理学 的切分。 组合歧义切分是指某个字段,它本身并不组成一个词,但是它在不同语境的 条件下,产生不同的组合切分。如“他的确切地址在这儿和“这块肉 的确切的不错”中的“的确切”。 这是汉语处理中非常突出的问题,几乎找不到一个通用的解决这种歧义现象 的方法,常常只是一个词一个词地个别处理,使个性规则大幅度增加,造成了汉 语分析的一个难题。 3 3 天津师范大学硕士学位论文 2 、谓语的组成问题 西方文字谓语一般只能由动词组成,而汉语的谓语可以是动词,例如:“主 任回来了 ;可以是形容词,如“恩情比海深”;还可以是名词,如“这马一只 眼 。 3 、多动词联用问题 动词的个数,英语中每个谓语只能使用一个“f i n i t ev e r b ”。汉语可不同, 可以有多个,如:“我忘了带钥匙 ,( if o r g e tm yk e y ) ;我倒了一杯茶给他喝。 ( io f f e r e dh i mac u po ft e a ) 4 、中心谓语动词的确定 汉语句子中的中心动词难以确定,如:“讨论的目的是为了制定教学改革计 划 ,又如“这是开发建设发展有特色的民族工业”。迄今为止,还没有一个对汉 语通用的确定中心动词的有效的方法。 5 、主语和施事问题 一般说来,主语和施事是一致的,如:“我吃饭”。主语是“我”,动作的发 出者,是施事。但常常有这样的反常现象:“老头晒太阳 、“肉夹模”,不是“老 头晒了太阳”,而是“太阳晒了老头”,也不是“肉夹模”,而是“模夹肉 。 6 、形态变化问题 西方语合一般通过词本身的形态变化来表达语法意义( 性、数、时一等) 。而 汉语就没有这种形态变化。例如:ih a v ew r i t t e nt h el e t t e r ( 我写了信) ,i 锄 w r i t i n gal e t t e r ( 我正在写信) 。同样都是行为动词“写”,汉语只有一个“写 字,英语则用词形变化来表示己经完成和正在进行的时态。 由于自然语言的特点,给计算机的自然语言处理带来很大的困难,在句法分 析中就涉及到以上诸方面的影响。 4 2 2 中文句法分析中的困难 由于汉语言的特性,中文信息计算机处理中的句法分析的困难主要体现在处 理中的歧义问题,完整的中文句法分析包括词法和句法两个语言层次,两个层次 都

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论