(语言学及应用语言学专业论文)现代汉语中“MQN1的N2”语串的组合型歧义研究——面向信息处理的汉语语法研究的一个个例.pdf_第1页
(语言学及应用语言学专业论文)现代汉语中“MQN1的N2”语串的组合型歧义研究——面向信息处理的汉语语法研究的一个个例.pdf_第2页
(语言学及应用语言学专业论文)现代汉语中“MQN1的N2”语串的组合型歧义研究——面向信息处理的汉语语法研究的一个个例.pdf_第3页
(语言学及应用语言学专业论文)现代汉语中“MQN1的N2”语串的组合型歧义研究——面向信息处理的汉语语法研究的一个个例.pdf_第4页
(语言学及应用语言学专业论文)现代汉语中“MQN1的N2”语串的组合型歧义研究——面向信息处理的汉语语法研究的一个个例.pdf_第5页
已阅读5页,还剩172页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中 文 提 要 本文把现代汉语中的 “ m q 十 n , 十 的 + n z ” 语串作为考察对象, 研究语串内部组合型 歧义的排歧知识问题, 是一种语言木体的个例研究。 主要考察确定语串内部边界的语言 知识,为中文信息处理对语串作句法分析提供语言知识支持。 第一章阐述了本文要研究的主要问题、 选题的缘由、 选题的意义以及进行研究的理 论基础及分析方法。 第二章主要分析了语串内部边界歧义排歧知识的多层级性特点。真实文本中的 m q + n , + 的 + n 2 ” 语串可以 是合法形式,也可以 是不合法形式, 有内 部边界 歧义。消 除语串内部边界歧义要用到不同层级的语言知识, 这些知识主要有不合法形式中语串 外 动词、 介词 、 名词及其他词项对语串 内的“ m q 十 n , ” 或n 2 . n 、 的n a ”的 句法语义 地 位起制约作用的知识; 合法形式中语串内q与n的量名组配属性知识、 “ _的n ” 框架 中 “ n , 的n s ”不组配的知识,语串内外词项间的语义关联模式的知识、世界知识及书 面上的外部标号的知识等。 本章还对语义关联模式中的七 种语义关系类型进行了详细的 讨论。最后提出,这种多层级的知识可以作为语串内部边界歧义排歧知识分析的 框架。 第三、 四、 五章则用这个框架对真实文本中的三个语串 子集合“ 一个n , 的n z “ 一 种n , 的n s ”和 “ 一些n 】 的n 2 ” 进行具体分析, 详细讨论了框架中的不同 侧面 在各语 串子集合中的具体表现, 包括不合法形式中制约语串内部边界的知识, 合法形式中量词 “ 个” 、 “ 种” 、 “ 些”与n的量名组配属性的知识、 “ _的n ” 框架中“ n 的n z ” 不组配 的知识, 语串内外词项间的语义关联模式的知识、 世界知识及书面上的外部标号 的知识 等制约语串内部边界的情况。 第六章是结语,包括结论、创新点及不足之处,并提出了一点展望。 关键词:语串合法形式不合法形式内部边界组合型歧义内部边界歧义 排歧语言知识多层级的排歧知识系统语义关联模式世界知识 ab s t r a c t t h is d i s s e rt a t i o n is a n o n to lo g i c a l s t u d y o n th e s e q u e n c e o f w o r d s m q + n , + d e ( 的 ) + n 2 i n c o n t e m p o r a r y c h i n e s e . i t s u r v e y s l i n g u i s t i c k n o w l e d g e t h a t c a n b e u s e d t o r e s o l v e t h e i n t e rn a l b o u n d a ry a m b i g u i t y o f t h i s s e q u e n c e . t h i s s t u d y i s o n l y o n e e x a m p l e o f i t s k i n d a n d t h e p u r p o s e o f i t i s t o p r o v i d e a l i n g u i s t i c k n o w l e d g e s u p p o rt f o r c h i n e s e i n f o r m a t i o n p r o c e s s i n g ( c i p ) , o r , t o b e e x a c t , f o r c h i n e s e s e n t e n c e p a r s i n g t h e f i r s t c h a p t e r i s a n i n t r o d u c t i o n . i t d e t e r m i n e s t h e m a i n t a s k o f , g iv e s r e as o n s f o r a n d e x p l a i n s t h e v a l u e s o f t h i s r e s e a r c h , i t a l s o o u t l i n e s t h e t h e o r ie s t h a t t h i s re s e a r c h i s b as e d o n t h e s e c o n d c h a p t e r d e s c r i b e s a h i e r a r c h i c a l s y s t e m o f l i n g u i s t i c k n o w l e d g e t h a t c a n b e u s e d f o r t h e r e s o lu t i o n o f b o u n d a ry a m b i 酗t i e s w i t h i n s e q u e n c e s o f w o r d s . i n a u t h e n t i c t e x t , t h e s e q u e n c e o f w o r d s m q + n l + d e ( 的 ) + n 2 c a n b e gr o u p e d in t o t w o c a te g o r ie s : t h e g r a m m a t ic a l s e q u e n c e a n d t h e u n gr a m m a t i c a l o n e . i t i s a s e q u e n c e w i t h i n t e rn a l b o u n d a ry a m b i g u i ty . t h e d i s a m b i g u a t i o n o f t h e in t e rn a l a m b i g u o u s b o u n d a r i e s n e e d a h i e r a r c h i c a l s y s t e m o f l i n g u i s t i c k n o w l e d g e . t h i s s y s t e m o f k n o w l e d g e m a i n l y i n c lu d e s ( 1 ) a t t r i b u t e s o f v e r b s , p r e p o s i t i o n s , n o u n s a n d o t h e r s fr o m o u t s i d e t h e s e q u e n c e a n d t h e i r s t r u c t u r a l r e l a t i o n s w i t h t h e mq + n t o r n 2 , n 2 + d e ( 的 ) + n , in u n g r a m m a t i c al s e q u e n c e s o f w o r d s ; ( 2 ) c o m b in a t i v e p r o p e r tie s b e t w e e n q ( q u a n t i f i e r s ) a n d n ( n o u n s ) , ( 3 ) u n - c o m b i n a t i v e p r o p e rt i e s b e t w e e n n , a n d n 2 i n t h e c o n t e x t o f -d e ( 的) n , - ( 4 ) m o d e ls o f s e m an t ic r e la t i o n s b e t w e e n p a rt s o f t h e s e q u e n c e o f w o r d s m q + n l + d e ( m ) + n 2 a n d w o r d s o u ts id e o f it ,( 5 ) w o r ld k n o w le d g e an d ( 6 ) k n o w l e d g e a b o u t s o m e m a r k s i n w r i t t e n l ang u a g e w h e n t h e s e q u e n c e i s g r a m m a t i c al . s e v e n m o d e l s o f s e m ant i c re l a t i o n s b e t w e e n p a r ts o f t h e s e q u e n c e o f w o r d s m q + n l + d e ( 的 ) + n 2 an d w o r d s o u t s i d e o f t h e s e q u e n c e a r e d i s c u s s e d i n d e t a i l s w it h r i c h e x a m p l e s . i t i s p r o p o s e d t h a t t h i s h i e r a r c h i c a l s y s t e m o f l i n g u i s t i c k n o w l e d g e b e u s e d a s a f r a m e w o r k i n t h e anal y s i s o f d i s a m b ig u a t i o n o f i n t e rn a l a m b i g u o u s b o u n d a r i e s w i t h i n t h e s e q u e n c e . w i t h t h e p e r s p e c t iv e o f t h i s f r a m e w o r k , t h e t h i r d , f o r t h an d f i ft h c h a p t e r s r e s p e c t i v e l y g i v e c a r e f u l o b s e r v a t i o n s t o t h r e e s u b s e t s e q u e n c e s f r o m a u th e n ti c t e x t, t h e y a r e y i g e ( 一个) + n ,+ d e ( 的 ) + n 2 , y i- z h 6 n g ( 一 种 ) + n t+ d e ( 的 ) + n 2 an d y lx i e ( 一 些 ) + n , + d e ( 的 ) + n 2 . a ll t h e a s p e c t s o f t h e h i e r a r c h i c al s y s t e m o f l i n g u i s t i c k n o w l e d g e t h a t m a y h a v e r e p r e s e n t a t i o n s i n t h e t h r e e s u b s e t s e q u e n c e s a r e d i s c u s s e d i n d e t a i l s , i n c l u d i n g k n o w l e d g e t h a t d e t e r m i n e s t h e i n t e rn a l b o u n d a r i e s w i t h i n t h e u n g r a m m a t i c a l s e q u e n c e s and t h o s e i n g r a m m a t i c a l o n e s l i k e c o m b i n a t i v e p r o p e rt ie s b e t w e e n q u an t ifi e r s g e ( 个 ) , z h 6 n g( 种) , x ie ( 些 ) a n d n ( n o u n s ) , u n - c o m b i n a t i v e p r o p e rt i e s b e t w e e n n , a n d n 2 i n t h e c o n t e x t o f -d e ( 的 川” , m o d e l s o f s e m an t i c r e l a t i o n s b e t w e e n p a rt s o f t h e s e q u e n c e a n d w o r d s o u t s i d e o f i t , w o r l d k n o w l e d g e a n d k n o w l e d g e a b o u t m a r k s i n w r i tt e n l a n g u a g e . t h e s i x t h c h a p t e r i s t h e c o n c l u s i o n , d i s c o v e r i e s a n d s h o r t c o m i n g s o f t h i s re s e a r c h , s o m e p r o s p e c t s f o r f u rt h e r s t u d y a r e a l s o g i v e n . k e y w o r d s : s e q u e n c e o f w o r d s , g r a m m a t i c a l s e q u e n c e , u n g r a m m a t i c a l s e q u e n c e , i n t e rn a l b o u n d a ry w i t h i n s e q u e n c e , s t r u c t u r a l a m b i g u i t y , i n t e rn a l b o u n d a ry a m b i g u i t y w i t h i n s e q u e n c e , d i s a m b i g u a t i o n , l i n g u i s t i c k n o w l e d g e , h i e r a r c h i c a l s y s t e m o f k n o w l e d g e f o r d i s a m b i g u a t i o n , m o d e l s o f s e m a n t i c re l a t i o n s , w o r l d k n o w l e d g e 第一章 引 言 1 .释题 “ 语串” 是指一组词项 所形成的线性序列, 如: “ 一个女性的世界” / “ 一种精神的 力量”/ “ 一些孩子的想法” 等分别是由五个词项所形成的线性序列,经过分词和词性 标注之后,下一步计算机要对这样的语串作句法分析。 m q + n l + 的 + n”中 的m q是数量组合, 本课 题 研究 把m限 制为“ 一” , q是量 词, n , . n 2 分别是先后出现的名词项, 整体表示由“ 数词十 量词+ 名词项 i + 的十 名词项2 ” 所形成的语串。 本课 题重点分析语串“ m q + n , + 的 + n 2 ”内 部第 一层句法关系的 边界 确定时的 歧义 问 题。 确定句法关系的边界是句法分析的主要任务之一。 就语串的 第一层句法关系的 边 界而言, 有两种可能的 情况, 第一种情况是第一层句法关系的边界在“ 的” 和n 2 之间, 即, ( m q + n l + 的) + n 2 , 下文中我们称为a形式; 第二种情况是第一层句法关系的 边 界在q与n , 之间,即, m q + ( n ,+ 的 + n 2 ) ,下文中 称为b 形式。 有时一个m q + n i+ 的十 n 2 语串有a和b两种可能,就产生了一种组合型歧义。 有些组合型歧义是可以 在语言学知识的基础上化解的。 如 “ 一个社会性的问题” 语串,从线性组配的可能性上说,可以是 “ 一个/ 4 f 会性的问题” 。也可以是 “ 一个社 会性的/ 问 题” 。根据语言学的知识, “ 带 性后缀的名词不与 个组配” ,因此, 语串“ 一个社会性的问 题” 的 边界形式就可得到确定, 即 句法分析时, 该语串只能分析 成 “ 一个/ 社会性的问题” ,不能分析成 “ 一个社会性的/ 问题” 。 简单地说, 本文的研究就是要尽量揭示真实文本中的一个语串个例本身所蕴涵的语 言知识,为信息处理提供语言知识支持。 2 .选题缘由 2 . ,中文信息处理的重要战略地位 计算机技术与语言学关系非常密切, 在信息时代有着重要作用( 冯志伟, 2 0 0 1 序言) 。 中国工程院院士陈力为在给清华大学出版社和广西科学技术出版社出 版的中文信息处 理丛书所写的序言中, 阐释了中文信息处理所具有的重要战略地位: 我们要成为世界强 国, 就不能 不把语言文字信息处理技术作为高 新技术的一 个重点来发展, 在世界一流高 本文中的词项,是二项组配中的一个组配项, 既可以是词,也可以 是词的组合 第一章 引 言 1 .释题 “ 语串” 是指一组词项 所形成的线性序列, 如: “ 一个女性的世界” / “ 一种精神的 力量”/ “ 一些孩子的想法” 等分别是由五个词项所形成的线性序列,经过分词和词性 标注之后,下一步计算机要对这样的语串作句法分析。 m q + n l + 的 + n”中 的m q是数量组合, 本课 题 研究 把m限 制为“ 一” , q是量 词, n , . n 2 分别是先后出现的名词项, 整体表示由“ 数词十 量词+ 名词项 i + 的十 名词项2 ” 所形成的语串。 本课 题重点分析语串“ m q + n , + 的 + n 2 ”内 部第 一层句法关系的 边界 确定时的 歧义 问 题。 确定句法关系的边界是句法分析的主要任务之一。 就语串的 第一层句法关系的 边 界而言, 有两种可能的 情况, 第一种情况是第一层句法关系的边界在“ 的” 和n 2 之间, 即, ( m q + n l + 的) + n 2 , 下文中我们称为a形式; 第二种情况是第一层句法关系的 边 界在q与n , 之间,即, m q + ( n ,+ 的 + n 2 ) ,下文中 称为b 形式。 有时一个m q + n i+ 的十 n 2 语串有a和b两种可能,就产生了一种组合型歧义。 有些组合型歧义是可以 在语言学知识的基础上化解的。 如 “ 一个社会性的问题” 语串,从线性组配的可能性上说,可以是 “ 一个/ 4 f 会性的问题” 。也可以是 “ 一个社 会性的/ 问 题” 。根据语言学的知识, “ 带 性后缀的名词不与 个组配” ,因此, 语串“ 一个社会性的问 题” 的 边界形式就可得到确定, 即 句法分析时, 该语串只能分析 成 “ 一个/ 社会性的问题” ,不能分析成 “ 一个社会性的/ 问题” 。 简单地说, 本文的研究就是要尽量揭示真实文本中的一个语串个例本身所蕴涵的语 言知识,为信息处理提供语言知识支持。 2 .选题缘由 2 . ,中文信息处理的重要战略地位 计算机技术与语言学关系非常密切, 在信息时代有着重要作用( 冯志伟, 2 0 0 1 序言) 。 中国工程院院士陈力为在给清华大学出版社和广西科学技术出版社出 版的中文信息处 理丛书所写的序言中, 阐释了中文信息处理所具有的重要战略地位: 我们要成为世界强 国, 就不能 不把语言文字信息处理技术作为高 新技术的一 个重点来发展, 在世界一流高 本文中的词项,是二项组配中的一个组配项, 既可以是词,也可以 是词的组合 新技术企业纷纷在中国设立 “ 中国研究院” ,争先把 “ 中文信息处理”作为重中之重的 时候,我们要抢占中文信息处理这个高新技术发展的制高点 詹卫东2 0 0 0 c 、俞士汉等 2 0 0 3 ) . 陆俭明呼吁,中文信息处理面临着严峻的国际挑战,如果我们还是上面不重视, 下面不团结、 不合作, 那么, 这个中文信息处理的“ 制高点” 不要几年就会被外国公司 或研究机构所占 领。 这绝不是危言耸听,而是严峻的现实 ( 詹卫东 2 0 0 0 c 序) 。中 文信 息处理作为一个高新技术的重点,已经列入国务院批准的“ 国家中长期科学技术发展纲 领” 中 。 作 为 信 息 处 理 的 基 b 之 一, 面向 信 息 处 理 的 语 言 本 体 研 究 也 就 有 了 战 略 地 位 的 意义。 2 . 2中文信息处理已取得的成绩 计算机自1 9 4 6年问 世以 来,已 有了 长足的发展, 正向 智能 机方向前进。中 文信息 处理也从2 0 世纪5 0 年代就己开始了, 半个世纪来, 取得了可喜的成绩, 顺利解决了汉 字输入与显示 ( 字处理)问题,计算机自 动分词和词性标注 ( 词处理)问题也己 基本解 决, 机器可 读的 语法属性电 子 词典( n e w, m a c h i n e - r e a d a b l e d i c t i o n a ry ) 己 经研制 成功, 并在实用系统中效果良 好, 可以 在语法属性系统基础上使用的语义分类系统、 动词论旨 结构系统等语义关系系统也在研制之中。 其他语言的信息处理研究成果对中文信息处理 也有重要的 借鉴与推动作用。目 前,中 文信息处理研究已开始进入句处理2 阶段,句处 理 的 主 要 任务 就是 句法分 析( s e n t e n c e p a r s in g ) , 也 就 是正 确 地分 析 句中 词项间 的 边界、 关系、层次。 基于句法规则的、 概念网络的、语料库统计的或语义计算的各种句处理策 略正竞相被运用到句处理实用研究之中。 这些成绩为中 文信息处理的进一步发展打下了 良好的基础。 2 . 3现阶段遇到的关键问题 然而, 以 上成绩离解决中 文信息处理的 全部问 题还有很远的 距离, 中 文信息处理还 存在着大量的各种理论和实践方面的问 题需要解决。冯志伟结合汉英机器翻译的实际, 把汉语自 动分析中关键的特点和难点归纳为词汇分析方面的8 个问 题, 结构分析方面的 1 0 个问题,语义分析方面的4 个问 题,共计2 2 个问 题 ( 冯志伟, 2 0 0 1 ) . 词汇方面的8 个问题是: 词词连写,自 动分词问题; 兼类词丰富,自 动词性标注问 题; 汉语名词无单复数标志问题: 汉语动词无明显的时态标志问 题; 丰富的离合词问 题: 汉语形容词的比 较方式多样,而用于比较的 “ 比、跟、有、没有、像、不如、越来越” 2 如 果以处理对象的单位大小为指标, 宏观地看, 注 ( 词 处理阶段) 也有了 基本可以 实用的成果, 结构进行自 动分析的 阶段,包括划定短语边界、 不同 深度的分析。见 詹卫东2 0 0 0 c 第2 页。 中文信息处理技术己 经走过了 字处理阶段, 分词和词性标 目 前可以认为是进入到句处理的前期阶段,即如何对短语 分析短语结构的内部句法关系、给出结构成分间的关系等 新技术企业纷纷在中国设立 “ 中国研究院” ,争先把 “ 中文信息处理”作为重中之重的 时候,我们要抢占中文信息处理这个高新技术发展的制高点 詹卫东2 0 0 0 c 、俞士汉等 2 0 0 3 ) . 陆俭明呼吁,中文信息处理面临着严峻的国际挑战,如果我们还是上面不重视, 下面不团结、 不合作, 那么, 这个中文信息处理的“ 制高点” 不要几年就会被外国公司 或研究机构所占 领。 这绝不是危言耸听,而是严峻的现实 ( 詹卫东 2 0 0 0 c 序) 。中 文信 息处理作为一个高新技术的重点,已经列入国务院批准的“ 国家中长期科学技术发展纲 领” 中 。 作 为 信 息 处 理 的 基 b 之 一, 面向 信 息 处 理 的 语 言 本 体 研 究 也 就 有 了 战 略 地 位 的 意义。 2 . 2中文信息处理已取得的成绩 计算机自1 9 4 6年问 世以 来,已 有了 长足的发展, 正向 智能 机方向前进。中 文信息 处理也从2 0 世纪5 0 年代就己开始了, 半个世纪来, 取得了可喜的成绩, 顺利解决了汉 字输入与显示 ( 字处理)问题,计算机自 动分词和词性标注 ( 词处理)问题也己 基本解 决, 机器可 读的 语法属性电 子 词典( n e w, m a c h i n e - r e a d a b l e d i c t i o n a ry ) 己 经研制 成功, 并在实用系统中效果良 好, 可以 在语法属性系统基础上使用的语义分类系统、 动词论旨 结构系统等语义关系系统也在研制之中。 其他语言的信息处理研究成果对中文信息处理 也有重要的 借鉴与推动作用。目 前,中 文信息处理研究已开始进入句处理2 阶段,句处 理 的 主 要 任务 就是 句法分 析( s e n t e n c e p a r s in g ) , 也 就 是正 确 地分 析 句中 词项间 的 边界、 关系、层次。 基于句法规则的、 概念网络的、语料库统计的或语义计算的各种句处理策 略正竞相被运用到句处理实用研究之中。 这些成绩为中 文信息处理的进一步发展打下了 良好的基础。 2 . 3现阶段遇到的关键问题 然而, 以 上成绩离解决中 文信息处理的 全部问 题还有很远的 距离, 中 文信息处理还 存在着大量的各种理论和实践方面的问 题需要解决。冯志伟结合汉英机器翻译的实际, 把汉语自 动分析中关键的特点和难点归纳为词汇分析方面的8 个问 题, 结构分析方面的 1 0 个问题,语义分析方面的4 个问 题,共计2 2 个问 题 ( 冯志伟, 2 0 0 1 ) . 词汇方面的8 个问题是: 词词连写,自 动分词问题; 兼类词丰富,自 动词性标注问 题; 汉语名词无单复数标志问题: 汉语动词无明显的时态标志问 题; 丰富的离合词问 题: 汉语形容词的比 较方式多样,而用于比较的 “ 比、跟、有、没有、像、不如、越来越” 2 如 果以处理对象的单位大小为指标, 宏观地看, 注 ( 词 处理阶段) 也有了 基本可以 实用的成果, 结构进行自 动分析的 阶段,包括划定短语边界、 不同 深度的分析。见 詹卫东2 0 0 0 c 第2 页。 中文信息处理技术己 经走过了 字处理阶段, 分词和词性标 目 前可以认为是进入到句处理的前期阶段,即如何对短语 分析短语结构的内部句法关系、给出结构成分间的关系等 新技术企业纷纷在中国设立 “ 中国研究院” ,争先把 “ 中文信息处理”作为重中之重的 时候,我们要抢占中文信息处理这个高新技术发展的制高点 詹卫东2 0 0 0 c 、俞士汉等 2 0 0 3 ) . 陆俭明呼吁,中文信息处理面临着严峻的国际挑战,如果我们还是上面不重视, 下面不团结、 不合作, 那么, 这个中文信息处理的“ 制高点” 不要几年就会被外国公司 或研究机构所占 领。 这绝不是危言耸听,而是严峻的现实 ( 詹卫东 2 0 0 0 c 序) 。中 文信 息处理作为一个高新技术的重点,已经列入国务院批准的“ 国家中长期科学技术发展纲 领” 中 。 作 为 信 息 处 理 的 基 b 之 一, 面向 信 息 处 理 的 语 言 本 体 研 究 也 就 有 了 战 略 地 位 的 意义。 2 . 2中文信息处理已取得的成绩 计算机自1 9 4 6年问 世以 来,已 有了 长足的发展, 正向 智能 机方向前进。中 文信息 处理也从2 0 世纪5 0 年代就己开始了, 半个世纪来, 取得了可喜的成绩, 顺利解决了汉 字输入与显示 ( 字处理)问题,计算机自 动分词和词性标注 ( 词处理)问题也己 基本解 决, 机器可 读的 语法属性电 子 词典( n e w, m a c h i n e - r e a d a b l e d i c t i o n a ry ) 己 经研制 成功, 并在实用系统中效果良 好, 可以 在语法属性系统基础上使用的语义分类系统、 动词论旨 结构系统等语义关系系统也在研制之中。 其他语言的信息处理研究成果对中文信息处理 也有重要的 借鉴与推动作用。目 前,中 文信息处理研究已开始进入句处理2 阶段,句处 理 的 主 要 任务 就是 句法分 析( s e n t e n c e p a r s in g ) , 也 就 是正 确 地分 析 句中 词项间 的 边界、 关系、层次。 基于句法规则的、 概念网络的、语料库统计的或语义计算的各种句处理策 略正竞相被运用到句处理实用研究之中。 这些成绩为中 文信息处理的进一步发展打下了 良好的基础。 2 . 3现阶段遇到的关键问题 然而, 以 上成绩离解决中 文信息处理的 全部问 题还有很远的 距离, 中 文信息处理还 存在着大量的各种理论和实践方面的问 题需要解决。冯志伟结合汉英机器翻译的实际, 把汉语自 动分析中关键的特点和难点归纳为词汇分析方面的8 个问 题, 结构分析方面的 1 0 个问题,语义分析方面的4 个问 题,共计2 2 个问 题 ( 冯志伟, 2 0 0 1 ) . 词汇方面的8 个问题是: 词词连写,自 动分词问题; 兼类词丰富,自 动词性标注问 题; 汉语名词无单复数标志问题: 汉语动词无明显的时态标志问 题; 丰富的离合词问 题: 汉语形容词的比 较方式多样,而用于比较的 “ 比、跟、有、没有、像、不如、越来越” 2 如 果以处理对象的单位大小为指标, 宏观地看, 注 ( 词 处理阶段) 也有了 基本可以 实用的成果, 结构进行自 动分析的 阶段,包括划定短语边界、 不同 深度的分析。见 詹卫东2 0 0 0 c 第2 页。 中文信息处理技术己 经走过了 字处理阶段, 分词和词性标 目 前可以认为是进入到句处理的前期阶段,即如何对短语 分析短语结构的内部句法关系、给出结构成分间的关系等 本身又可能具有其他的功能和含义, 从而形成兼类或歧义的问 题; 量词丰富, 量名搭配 固定, 数量结构与名词的先后位置比 较自由, 许多名量词又兼作名词, 名词兼作临时量 词,因此有量词的分析与判定问题;重叠式的意义判定问题。 结构分析方面的 1 0 个问 题是:汉语词尾无形态标记,也缺乏形态变化,实词木身 不能明确表达语法意义,自 动结构分析非常困难的问 题; 汉语中名词词组结构复杂, 分 析时常常出现结构歧义和非语法形式问题;连动式和兼语式以 及多个动词构成的句子 中, 主要动词的判定困难问题: 主语省略问题; 被动形式与主动形式无差别问题; 主谓 谓语句的结构判定问题; 形容词直接作谓语问题; 名词直接作谓语问题; 介词的辖域问 题:复句的问题。 语义分析方面的4 个问 题是: 汉语是一种分析型语言, 语义分析在汉语研究中 起着 举足轻重的作用。 词性和语序相同的语串, 其结构和语义关系可能迥然不同的问 题; 汉 语多义词丰富,多义词的判断规则问 题;汉语的基本句式是n p 十 v p 十 n p ,然而,n p 与 v p之间 却有着各种复杂的句法关系和语义关系, 句法关系和语义关系的 判定问 题: 汉 语中 存在着大量的歧义现象问 题。 在歧义问 题里, 汉语常见的同形歧义结构主要有: ( 1 ) v p + 的 + 是十 n p ; ( 2 ) n ,+ n 2 + n 3 ; ( 3 ) a d j + n , + n 2 : ( 4 ) 全部 ( 部分) + v p + 的十 n p ; ( 5 )数量结构+ n p , + 的 十 n p 2 : ( 6 ) v p + 数量结构十 n p ; ( 7 ) v 十 a d j + n , ( 8 ) v 汁 v 2 十 n p ; ( 9 ) n p , 十 n p 2 十 v p ; ( 1 0 ) n , + n 2 ; ( 1 1 ) v + n; ( 1 2 ) v , + v 2 ( 趋向动词) ; ( 1 3 ) n + v ; ( 1 4 ) p r e p 十 n i + 的 + n 2 ; ( 1 5 ) v p + a d j 十 的 + n ; ( 1 6 ) v p + n , + 的 斗 n 2 ; ( 1 7 ) v p , + v p 2 + 的 + n ; ( 1 8 ) v + n , 十 n 2 ; ( 1 9 ) n + v + n p + a p ; ( 2 0 ) n , + 的 + n 2 + 和+ n 3 ; ( 2 1 ) n , + 和+ n 2 + 的 + n 3 ; ( 2 2 ) n , + a d j + 的+ n 2 , 冯志伟提出的这些问题, 是从汉英机器翻译的角度来谈的,当然还有其他方面的信 息处理的问 题。 但概括地说, 就是一个形式和意义的确定性问 题, 如词形的确定性问题、 词 类的确定性问 题、 结构边界的确定性问 题、 结构层次的确定性问 题、 语义关系的确定 性问 题、 多义词义项选择的确定性问 题, 等等。 这些问 题是目 前信息处理研究急待解决 的问 题。 语言本体研究就是要寻找、挖掘有助于这种确定性的 语言知识。 我们选取歧义问 题中的第五种类型,即 “ 数量结构+ n p , + 的+ n p 2 ( 本文表示为 m q + n , + 的 + n 2 ) 语串作为考察对象, 希望能寻找出 有利于语串 消歧的语言知识, 从 而推动这一歧义语串问 题的解决。 2 .4存在问题的原因之一:语言知识的严重不足 现阶段的中文信息处理之所以 存在上述问 题, 关键是语言知识严重不足所致, 或者 至少可以说是计算机技术问 题之外语言木体研究严重不足所致。 虽然目 前我们不能断言 计算机最终是否真能像人一样理解自 然语言, 但让计算机像人一样去理解自 然语言 却是 我们当然的努力方向。 那么, 人是怎么理解自 然语言的呢? 遗憾的是,迄今为止, 我们 本身又可能具有其他的功能和含义, 从而形成兼类或歧义的问 题; 量词丰富, 量名搭配 固定, 数量结构与名词的先后位置比 较自由, 许多名量词又兼作名词, 名词兼作临时量 词,因此有量词的分析与判定问题;重叠式的意义判定问题。 结构分析方面的 1 0 个问 题是:汉语词尾无形态标记,也缺乏形态变化,实词木身 不能明确表达语法意义,自 动结构分析非常困难的问 题; 汉语中名词词组结构复杂, 分 析时常常出现结构歧义和非语法形式问题;连动式和兼语式以 及多个动词构成的句子 中, 主要动词的判定困难问题: 主语省略问题; 被动形式与主动形式无差别问题; 主谓 谓语句的结构判定问题; 形容词直接作谓语问题; 名词直接作谓语问题; 介词的辖域问 题:复句的问题。 语义分析方面的4 个问 题是: 汉语是一种分析型语言, 语义分析在汉语研究中 起着 举足轻重的作用。 词性和语序相同的语串, 其结构和语义关系可能迥然不同的问 题; 汉 语多义词丰富,多义词的判断规则问 题;汉语的基本句式是n p 十 v p 十 n p ,然而,n p 与 v p之间 却有着各种复杂的句法关系和语义关系, 句法关系和语义关系的 判定问 题: 汉 语中 存在着大量的歧义现象问 题。 在歧义问 题里, 汉语常见的同形歧义结构主要有: ( 1 ) v p + 的 + 是十 n p ; ( 2 ) n ,+ n 2 + n 3 ; ( 3 ) a d j + n , + n 2 : ( 4 ) 全部 ( 部分) + v p + 的十 n p ; ( 5 )数量结构+ n p , + 的 十 n p 2 : ( 6 ) v p + 数量结构十 n p ; ( 7 ) v 十 a d j + n , ( 8 ) v 汁 v 2 十 n p ; ( 9 ) n p , 十 n p 2 十 v p ; ( 1 0 ) n , + n 2 ; ( 1 1 ) v + n; ( 1 2 ) v , + v 2 ( 趋向动词) ; ( 1 3 ) n + v ; ( 1 4 ) p r e p 十 n i + 的 + n 2 ; ( 1 5 ) v p + a d j 十 的 + n ; ( 1 6 ) v p + n , + 的 斗 n 2 ; ( 1 7 ) v p , + v p 2 + 的 + n ; ( 1 8 ) v + n , 十 n 2 ; ( 1 9 ) n + v + n p + a p ; ( 2 0 ) n , + 的 + n 2 + 和+ n 3 ; ( 2 1 ) n , + 和+ n 2 + 的 + n 3 ; ( 2 2 ) n , + a d j + 的+ n 2 , 冯志伟提出的这些问题, 是从汉英机器翻译的角度来谈的,当然还有其他方面的信 息处理的问 题。 但概括地说, 就是一个形式和意义的确定性问 题, 如词形的确定性问题、 词 类的确定性问 题、 结构边界的确定性问 题、 结构层次的确定性问 题、 语义关系的确定 性问 题、 多义词义项选择的确定性问 题, 等等。 这些问 题是目 前信息处理研究急待解决 的问 题。 语言本体研究就是要寻找、挖掘有助于这种确定性的 语言知识。 我们选取歧义问 题中的第五种类型,即 “ 数量结构+ n p , + 的+ n p 2 ( 本文表示为 m q + n , + 的 + n 2 ) 语串作为考察对象, 希望能寻找出 有利于语串 消歧的语言知识, 从 而推动这一歧义语串问 题的解决。 2 .4存在问题的原因之一:语言知识的严重不足 现阶段的中文信息处理之所以 存在上述问 题, 关键是语言知识严重不足所致, 或者 至少可以说是计算机技术问 题之外语言木体研究严重不足所致。 虽然目 前我们不能断言 计算机最终是否真能像人一样理解自 然语言, 但让计算机像人一样去理解自 然语言 却是 我们当然的努力方向。 那么, 人是怎么理解自 然语言的呢? 遗憾的是,迄今为止, 我们 还不能真正地回答这个问题。但有一点是可以肯定的,那就是; 理解语言需要语言知识, 没有语言知识,就不能理解语言。人和计算机都如此。 假定 “ a b c d e . . . . . . ”是语言中的一个正常语串,我们仅知道 a , b , c . d , e分 别是一个词, 甚至还知道它们分别是什么词类,比 如, a是数词, b是量词, c是名词, d是 助词“ 的 ” , e 是 名 词, 用语言 研究中 的 常 用 符号 转写 就 是: m q n的n 3 , 其余的 就 不知道了, 我们能正确理解这个语串吗?我们能正确分析它内 部的边界、 关系、 层次吗? 当我们把语言中的词项代入语串中, 如把这个字母符号串 用词项转写成 “ 一个演员 的身价” 或 “ 一个人民的儿子”后,我们就能理解了,因为,我们理解时还运用了 其他 知识,如 “ 个” 与名词 “ 演员”能够组配,与名词语 “ 的身价” 不能组配:与名词 语 “ 儿子” 能够组配,与名词 “ 人民”不能组配。有了这类 “ 个”与名词是否组配 的知识, 计算机就能理解这些短语的意义了 。可以是 “ 一个演员的/ 身价” ,不能是 “ 一 个/ 演员的身价” :可以是 “ 一个/ 人民的儿子”不能是 “ 一个人民的/ 儿子” 。 如果用另 外的词项代入这个符号串,成为 “ 一个女性的世界”或 “ 一些孩子的想法” 或 “ 一种精 神的力量” ,这时,语串中的量词与每个语串中的两个名词都可以 组配,每个语串都可 以有两种理解, 理解上就没有确定性。当然, 计算机也不可能有确定性的理解了。要有 确定性的理解, 就需要增加别的语言知识 ( 如语串 外词项间的语义相互制约的知识) 。 没有足够的词项知识, 词项间关系的知识以 及其他相关的语言知识, 人和计算机都不能 正确理解语言。 真实文本中,其实通常很少存在歧义的 情况4 ,文本中总会有可以 用来排除歧义的 信息, 而人的理解也总能找到这些信息, 从而准确地找到词形、词义、 词项间的结构关 系和语义关系等等, 最后准确地理解话语s 。 那么, 信息处理中大量的歧义现象完全可 以说是 “ 处理不当”带来的。 “ 处理不当”的一个原因是给计算机提供的语言知识严重 不足。具体表现在: 2 . 4 . 1词类的 划分过于概括 经过多年的探索,目 前比较一致的做法是依据形式分布的分类标准进行分类。 理论 上说, 应该 考察全部的 分布 ( t o t a l d i s t ri b u ti o n s ) , 然而, 通常的实际做法是一种典型分 布 ( t y p i c a l d i s t r ib u ti o n s ) 分类法,如, 名词的 判定依据主要是下列几个典型分布: 能受数量结构修饰; 能作主语、宾语、定语; 前面不能用 “ 不”否定: 也就是本文要讨论的语串 话语中词 项间的 关系通常只有一 种, 但也不排除表达者故意使词项间产生多 种关系的情况. 人们也时有误 解的情况, 但通常要么是表达者的.牧 意, 要么是理解者的疏忽造成的,话 语中可以 带米理 解上的确定性的信息是足够的. 大多不能重叠 动词的判定依据主要是下列几个典型分布: 能作谓语: 前面能用 “ 不”否定; 后面能带宾语; 后面 能 带“ 着、 了 、 过气 能重叠; 前面一般不能加 “ 很,: 其实, 这少数几条分布情况远不足以 刻画名词或动词或其他什么词的分布全貌。 当 计算机要像人一样面对真实文本中词项的全部分布时, 上面的少数几条分布依据当然就 显得捉襟见肘了。这里,我们不妨用一个例子来说明:在语串“ 一个方面的问题”中, “ 方面”是名词, “ 问题”是名词, 都可受数量结构 “ 一个” 修饰,名词也可修饰名词。 仅告诉计算机这些知识,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论