现代汉语中v+v的句法结构_第1页
现代汉语中v+v的句法结构_第2页
现代汉语中v+v的句法结构_第3页
现代汉语中v+v的句法结构_第4页
现代汉语中v+v的句法结构_第5页
已阅读5页,还剩5页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

现代汉语中v+v的句法结构

一我国研究v+v并列结构的语言、语义v.v是现代汉语中的一种不恰当的格式。陆俭明、郭锐指出,v+v词类序列可以形成7种句法关系:1)a打算回家(述宾关系)b唱歌跳舞(联合关系)c研究结束(主谓关系)d挖掘出来(述补关系)e访问回来(连动关系)f养殖研究(定中关系)g讽刺说(状中关系)真实文本中,v+v词类序列还可以是非语法形式:2)h迈向充满(非语法形式)(例:迈向充满希望的新世纪。)人可以轻易地分别出这8种不同的句法关系,但要让计算机来理解,我们可要费一番工夫。我们需要把v+v形成不同句法结构的条件告诉计算机。而到目前为止,人虽然能理解上述语言事实,但对这些语言事实背后的“所以然”却不是那么清楚。陆俭明、郭锐,侯敏均指出,正确辨识v+v结构是中文信息处理中的一个难点。8种结构中,并列结构(即“联合关系”)是本文关注的重点,而并列结构的识别不可避免地牵涉到其他结构的判别。周强指出,“并列结构的分析是汉语句法分析的一个难点。目前的算法在这方面的处理错误很严重”。詹卫东处理无标记并列结构vp时,主要采用降低规则优先级的方法,即只有在一个v+v组合模式不能被分析为其他结构的情况下,才被分析为并列结构。由于并列结构不是v+v的优势结构形式,在对并列结构了解不甚清楚的情况下,这不失为一种可取的办法。本文拟对v+v形成并列结构的条件进行比较系统、详尽的分析,以求为计算机自动识别并列结构准备知识。对v+v并列结构的自动识别,需要综合利用句法和语义的知识。我们以俞士汶等《现代汉语语法信息词典》(下文简称《语法词典》)作为句法知识资源,以中文概念词典(ChineseConceptDictionary,CCD)作为语义知识资源。复杂特征结构(complexfeatures)是现代短语结构文法广泛采用的描述方式(像LFG、GPSG、HPSG等),本文亦采用复杂特征结构作为描述手段。例如:3)进行[+形式动词](“形式动词”的取值是“Yes”)化验[-单做状语](“单做状语”的取值是“No”)我们的目标是为计算机自动识别v+v并列结构提供语言知识和规则。语料库是重要的知识源,人的语言知识在语料库中得到验证,语料库同时驱动新的语言知识的产生。本文充分利用了基于语料的定量研究的方法,用统计数据来帮助寻找语言规律。我们使用的是北京大学计算语言学研究所开发的《人民日报》1998年1月1-10日的语料,规模约为56万字,经过了词语切分和词性标注。本文提取v+v组合是在词语切分和词性标注的基础上进行,像动名兼类这样词性判定的难题,在前期阶段已基本正确地得到了解决,本文不再作探讨。56万字的语料中共出现了12043例v+v组合,是本文主要关注的对象。除非特别说明,本文的例句均取自于此。本文所指v+v中的v大部分是单个的动词,少数情况下是动词性短语。一个动词性词语串是v还是vp有时是有争议的,我们不纠缠于这种争论,一律记作v。为表述的方便,把前面位置的v记作v1,后面位置的v记作v2,v+v记作v1+v2。二语义独立并列结构v+v词类序列可以形成8种不同的句法结构,这一事实已经说明,单独的现代汉语词类范畴(动词)不能完全消除歧义。词类是最基本的句法特征,这一特征在现代汉语中还显得有点粗(coarse),我们需要求助于更细的动词次范畴特征(subcategory)、动词的属性特征来消解歧义。《语法词典》是可资利用的一个知识库,它为我们提供了这些有价值的信息。v+v并列结构存在什么样的语义约束呢?一般认为,并列成分间的语义类是相同或相似的。但3)中的v1和v2同属一个语义类却不是并列结构①:3)a放眼望(去)(v1&v2[语义类:身体动作])b请求转达(v1&v2[语义类:通信])c坚持遵循(v1&v2[语义类:认知])d违规经营(v1&v2[语义类:社会活动])3)中的各组v+v组合之所以不能形成并列结构,是受到v1和v2尤其是v1句法性质的制约:a中“放眼”和“望”音节不等;b中“请求”可以带谓词性宾语;c中“坚持”可以带谓词性宾语;d中“违规”可以单做状语。从另一个角度看,语义范畴不同的v1和v2也不一定不能形成并列结构。例如:4)挖掘整理出失传多年的民间地方曲调(v1[语义类:接触],v2[语义类:创造])可见,制约v1+v2并列结构形成的因素主要是v1和v2的句法特征而不是其语义特征。因此,本文的研究主要是从句法角度探讨v+v形成并列结构的条件,不过这并不是完全排斥语义。对v+v并列结构形成条件的正确理解是:动词的句法特征是第一影响要素,在此基础上语义特征进一步发挥作用。直接描述v1和v2在什么条件下形成并列结构不是一件容易的事。但可以肯定的是,在某些条件下,v1+v2不可能形成并列结构。依据这一个个“不可能”,可以逐步缩小并列结构的搜索范围,直至逼近并列结构本身。为了逼近想要的并列结构,每一次的筛选和否定都建立在前一次筛选和否定的基础上,即下一次的考察以前一次的考察结果作为输入。概而言之,文章的总体思路是:用句法信息排除那些在绝大多数情况下不可能成为并列结构的v+v组合,然后在剩下的范围里做文章,综合利用句法语义的信息找出其中可能的并列结构。下文的探讨中,第三部分v+v不可能形成并列结构的10个条件本质上是彼此独立的、并行的,只不过为了逐渐缩小并列结构的搜索范围和逼近并列结构本身,统计分析中后面的条件建立在前面条件的基础上。第四部分v+v可能形成并列结构的5个条件建立在前10个条件的基础之上,5个条件之间是彼此独立的、并行的。三在v.v的情况下,结构不能形成并列1.“体动作”“语义类”的并列结构根据汉语的韵律结构特点,v+v并列结构的两个成分应该是音节数相等的。例如,“放眼望”,“放眼”跟“望”都属于“身体动作”语义类,但不能形成并列结构,就是因为两者音节数目不同。赵元任指出,并列成分如果音节数目不相同,得用上标记把彼此隔开,如“火,空气,水,地”。12043例v+v组合中,“v1.音节!=v2.音节”出现了4012例,形成的都不是并列结构,剩下8031例“v1.音节=v2.音节”,占总数的8031/12043=67%,是进一步考察的对象。2.趋向动词的材料当v2是趋向动词时,v1+v2一般形成的是述补结构,而很少形成并列结构,如“结合起来”,“发展下去”,“谈到”等都是述补结构。《语法词典》标记的趋向动词有24个,如“出、起、过、下、开、进来、出来”等。考察所剩的8031例v+v组合,属于“v2[+趋向动词]”的有1112个,剩下6919个v+v组合,占总数的57%,是进一步考察的对象。3.动词联用的并列结构助动词后面只能带谓词性宾语,因此“v1[+助动词]+v2”不可能形成并列结构,如“应该得到”,“愿意加强”,“肯说”等都不是并列结构。即使是两个助动词连用“v1[+助动词]+v2[+助动词]”也不可能是并列结构。马庆株指出,能愿动词连用时“从组合层次上看,除了最后一个能愿动词后面没有别的动词出现这种情形,相邻的能愿动词之间只有间接的关系,并不构成一个语法单位,没有直接组合关系”。《语法词典》标记的助动词有45个,如“得、应该、愿意、情愿、肯、能、胆敢”等。所剩下的6919个v+v组合中,属于v1[+助动词]的有685个,剩下6234个v+v组合,占总数的52%,成为进一步考察的对象。4.并列结构类型《语法词典》标记的系动词有41个,如“属于、称为、即、俗称、算作、充当”等。“v1[+系动词]+v2”不可能形成并列结构。当v2为[+系动词]时,v1+v2也不能形成并列结构,此时系动词v2是以谓词性成分v1做主语。所剩下的6234个v+v组合中,属于v1[+系动词]的有217个,剩下6017个v+v组合,占总数的50%,成为进一步考察的对象。5.“以领导”、“予以回应”是形式动词的定义形式动词主要有6个:“给予、加以、予以、有、给以、进行”。“v1[+形式动词]+v2”组合中,v2--般是v1的准谓词性宾语,这是由形式动词的定义决定的,如“加以领导”、“予以回应”都是述宾结构。所剩下的6017个v+v组合中,属于v1[+形式动词]的有176个,剩下5841个v+v组合,占总数的48%,成为进一步考察的对象。6.关于“集”型的专业人“称[体称谓]+v/文“则”《语法词典》标记的[体谓准:谓]动词有336个,如“设法、试图、暂缓、涉嫌、殊不知”等。助动词是[体谓准:谓]动词的一个子集,因此,此次查找其实是去除了v1[+助动词]的v1[体谓准:谓]。“v1[体谓准:谓]+v2”可能形成的结构有两种:一是述宾结构,如“勇于创新”;二是非语法形式,如“承诺举报有奖”,它不可能形成并列结构。所剩下的5841个v+v组合中,属于v1[体谓准:谓]的有254个,剩下5587个v+v组合,占总数的46%,成为进一步考察的对象。7.“v[体曰准:准]+v《语法词典》标记的[体谓准:准]动词有16个,如“倍受、寄予、促进、深化”等。和[体谓准:谓]动词一样,“v1[体谓准:准]+v2”可能形成的结构也只有两种:一是述宾结构,如“受到启发”;二是非语法形式,如“受到来自5个方面的威胁”。所剩下的5587个v+v组合中,属于v1[体谓准:准]的有39个,剩下5548个v+v组合,占总数的46%,是进一步考察的对象。8.状中结构现代汉语中有些动词可以直接做状语修饰另一个动词,记作[+单做状语]。《语法词典》标记的[+单做状语]动词有221个,如“携手、含泪、赌气、穿插、继续”等。“v1[+单做状语]+v2”一般形成状中结构而不形成并列结构,如“继续扩大”,“放手发展”都是状中结构。所剩下的5548个v+v组合中,“v1[+单做状语]+v2”出现了311次,剩下5237个v+v组合,占总数的43%,是进一步考察的对象。9.主称谓的非语法形式有的动词可以以谓词性成分做主语,记作[+谓词性主语],如“是、使、证明、持续、取得”等。“v1+v2[+谓词性主语]”一般形成主谓结构,有时是非语法形式,而不形成并列结构。如“会谈结束”是主谓结构,“扶贫取得新的进展”中“扶贫取得”是非语法形式。所剩下的5237个v+v组合中,“v1+v2[+谓词性主语]”出现了249次,剩下4988个v+v组合,占总数的41%,是进一步考察的对象。10.增设“前动”属性现代汉语中少数动词可以受动词直接修饰构成定中结构,而大多数动词则不具有这种属性。《语法词典》的动词库中没有设立相关的属性字段。根据研究需要,本文增设“前动”这一属性字段,v[+前动]意即v可以受动词直接修饰构成定中结构。[+前动]动词是有限的几个,如“服务”、“斗争”、“处理”、“需要”、“实践”、“保障”等。“v1+v2[+前动]”经常形成定中结构(如“应急处理”,),一般不形成并列结构。所剩下的4988个v+v组合中,“v1+v2[+前动]”出现了257次,它们形成的都不是并列结构。剩下4731个v+v组合,占总数的39%,是进一步考察的对象。四在什么条件下可以形成完整的结构1.关于v+v[-趋向动词]接下来的工作是要在剩余的1/3中“淘金”,找出其中可能的并列结构。这时需要综合利用句法语义两方面的知识。在上文的“淘汰”过程中,我们描写、说明了在哪些条件下v1+v2不可能形成并列结构,这也就从反面明示了v1+v2形成并列结构所需要满足的条件。例如,当说v2[+趋向动词]不可能形成并列结构时,也就是说v2必得是[-趋向动词]才有可能形成并列结构。综合上文的叙述,可知v1+v2形成并列结构首先应该满足的条件是:5)av1.音节=v2.音节,bv2[趋向动词:否,谓词性主语:否,前动:否],cv1[助动词:否,系动词:否,形式动词:否,体谓准:~谓,体谓准:~准,单做状语:否]下文的叙述和规则都建立在(5)约束条件的基础之上,观察的内容也主要是剩余的4731个v+v组合(当然有人的语言知识的扩散和补充)。当有的规则不需要以上述条件(全部或部分)作为前提时,在规则描述中将会体现出来。下文的叙述主要是针对“v[音节:2]+v[音节:2]”的。“v[音节:1]+v[音节:1]”形成并列结构的几率很小,在541个“v[音节:1]+v[音节:1]”组合中,只出现了18例并列结构,剩余的绝大部分都是述补结构。这可能跟汉语的构词有关:人们倾向于把并列关系的“v[音节:1]+v[音节:1]”看成一个词。2.非语法形式v1+v2组合中,当v1和v2其中一个具有[+运动]的语义特征时,它们形成的或是连动结构,如“回家过年”,或是非语法形式,如“进入改革”,而不可能是并列结构。即使是v1和v2同属于语义类“运动”,v1+v2形成的也不是并列结构,如“散步回来”,“飞走”等。这可能跟并列结构的某种特性有关,而这种特性目前还说不清楚。3.[体称谓准]不形成并列结构v1[体谓准:+体]是指可以带体词性宾语的动词,包括v1[体谓准:体谓],v1[体谓准:体准],v1[体谓准:体谓准]三类动词。上文讲到,v1只能带谓词性宾语或准谓词性宾语时,v1+v2一般不能形成并列结构。但当v1为[体谓准:+体]时,v1+v2表现各异,有时是并列结构,有时不是。例如:6)a分析归类优化调整检查指导学习掌握监督管理组织领导宣传普及检举揭发指导检查批评教育考察论证综合统一设计创作观察提炼b表示慰问请求转达限制垄断维持运转7)a发展壮大维护管理参观学习b开展工作实施制裁从事教育发展贸易(v1[体谓准:体准])6)a、7)a形成的都是并列结构,6)b、7)b都不是并列结构。这种不同是由v1句法语义性质的不同造成的。虽然在“体谓准”属性上的取值一致,这个集合内的动词还是显现出差异。例如,同是[体谓准:体谓]动词,“优化”可能跟别的动词形成并列结构,而“参与”就不行;同是[体谓准:体准]动词,“发展”可能跟别的动词形成并列结构,而“从事”就不行。笔者调查了《人民日报》56万字语料中出现的所有“v1[体谓准:体谓]+v2”、“v1[体谓准:体准]+v2”、“v1[体谓准:体谓准]+v2”组合,发现绝大部分都不能形成并列结构,只有少数的v1可能跟别的动词形成并列。《语法词典》中v[体谓准:体谓]有1007个,去除与[+系动词]重叠的22个,剩余986个动词中,根据所考察的语料,只有6)a中的17个动词可能与别的动词形成并列。v[体谓准:体准]有218个,与[+形式动词]重叠4个,剩余214个动词中,根据所考察的语料,只有7)a中的3个动词可能与别的动词形成并列。v[体谓准:体谓准]有33个,所考察的语料中没有形成并列的。虽然语料不可避免地存在数据稀疏的问题,能形成并列关系的v[体谓准:体谓]和v[体谓准:体准]肯定大于17和3,但这说明了,对既可以接谓词性宾语或准谓词性宾语,又可以接体词性宾语的动词(v1)而言,大多数是不能在v1+v2组合中形成并列关系的。据此,可以在v[体谓准:体谓]、v[体谓准:体准]、v[体谓准:体谓准]的基础上建立一个“例外词语列表(exceptionlist)”,记录那些充当v1可以形成并列结构的动词。但属于“例外词语列表”的动词也不是无条件地可以和任何动词形成无标记并列结构。例如“发展”是[体谓准:体准]动词,它可以和别的动词形成无标记并列,如“发展壮大”、“发展演变”,“发展”因此属于“例外词语列表”,但“发展”和别的动词也可形成述宾结构,如“发展贸易”、“发展生产”。我们可以进一步规定:v1属于“例外词语列表”,并且v1和v2语义类相同时,才能形成并列。“发展”、“壮大”都属于[语义类:变化],因此可形成并列“发展壮大”;而“贸易”属于[语义类:通信],“发展贸易”因此不是并列结构。根据上面的论述,有规则①:规则一v1+v2-→True::v1[助动词:否,系动词:否,形式动词:否,单做状语:否],v2[趋向动的:否,谓词性主语:否,前动:否],v2[语义类:~运动],IFv1[体谓准:+体],v1[inCY{“分析/v”,“优化/v”,“检查/v”,“学习/v”,“组织/v”,……}],TRUE4.[语义类][运动学在v1[体谓准:体]和5)诸多条件的共同约束下,“v1[体谓准:体]+v2”不可能是述宾关系、主谓关系、述补关系、状中关系、定中关系,再加上“v1&v2[语义类:~运动]”这一条件,它也不可能是连动关系。那么“v1[体谓准:体]+v2”只可能形成两种关系:并列和非语法形式。当形成并列时,v1和v2的语义类应该是相同的,如“推广普及”、“健全完善”等;当是非语法形式时,v1和v2的语义类不同,如“改善生产条件”,“加大扶贫力度”。据此有规则:规则二v1+v2→Truev1[助动词:否,系动词:否,形式动词:否,单做状语:否],v1[语义类:~运动],IFv1[体谓准:体],v1.语义类=v2.语义类TRUE5.林县前元庄所处的环境v[体谓准:无]意即v是一个不及物动词。加上5)诸多条件的共同约束,“v1[体谓准:无]+v2[体谓准:无]”不可能是述宾关系、主谓关系、述补关系、定中关系、状中关系,再加上“v1&v2[语义类:~运动]”这一条件,它也不可能是连动关系。那么“v1[体谓准:无]+v2[体谓准:无]”只可能形成两种关系:并列和非语法形式。非语法形式的情况是很少见的,如“扶贫示范小区”,“柳林县前元庄是靠办学起家的有名村子”,这时相关短语的识别可帮助判别“扶贫示范”、“办学起家”是非语法形式。并列结构是绝大多数“v1[体谓准:无]+v2[体谓准:无]”组合所形成的结构形式。例如:8)a打药授粉授粉施肥刮风下雨铺摊设点通气点火b上访告状散心旅游旅游购物.a组并列动词的构成方式都是述宾,可见述宾式的两个动词连用最易形成并列结构。遗憾的是,中文信息处理中一般是把“词语”作为最小的单位(minimalunit)看待的,现有的语言知识库还不能准确地告知词语内部的构成方式。“v1[体谓准:无]+v2[体谓准:无]”形成并列结构时,v1和v2的语义类一般是相同的,如8)a中的各个例子。但v1和v2的语义类也可以不同,如“旅游购物”,“旅游”是[+社会活动],“购物”是[+消费]。“v1&v2[体谓准:无]”是v1+v2形成并列结构的一个很强的条件,这个条件在大多数情况下蕴涵着v1和v2的语义类相同,但少数情况下v1和v2的语义类也可以不同。据此有规则:规则三v1+v2→Truev1[助动词:否,系动词:否,形式动词:否,单做状语:否],v2[趋向动的:否,谓词性主语:否,前动:否],v1[语义类:~运动],v2[语义类:~运动],v1.音节=v2.音节,IFv1[体谓准:无],v2[体谓准:无]TRUE6.核心并列结构“v1.左端字形=v2.左端字形”表示v1和v2的第一个字同,“v1.右端字形=v2.右端字形”表示v1和v2的第二个字同。在这两种字形相同的情况下,v1+v2易形成并列结构。例如:9)抓紧抓好捐款捐物增产增效抗灾救灾苦干实干吸毒贩毒相同的音节对称流畅,和“v1.音节=v2.音节”一样,这都反映了并列结构韵律和谐的特征。9)中各并列结构的“同”是由相同的字形所携带的,语义类并不一定相同,如“吸毒”是[语义类:身体动作],“贩毒”是[语义类:社会活动],它们因具有共同的“毒”语素而可形成并列“吸毒贩毒”。看来,两个连用的动词部分字形相同就可形成并列结构,甚至可以不考虑(override)两个动词的语义类是否相同。上文讲到,当满足v1[+单做状语]时,v1+v2一般形成状中结构而非并列结构,但当v1和v2部分字形相同时,v1+v2可形成并列结构,如“挂职任职”是并列结构,虽然是“挂职[+单作状语]”。上文讲到,“v1[体谓准:体谓]+v2”一般不形成并列结构,但当v1和v2部分字形相同时,v1+v2可形成并列结构,如“预测预报”是并列结构,虽然是“预测[体谓准:体谓]”。可见,两个连用的动词部分字形相同,这是v1+v2形成并列结构的一个很强的条件。两个连用的动词字形完全相同时,就是一般的动词重叠式,可看作是广义的并列结构,如“讨论讨论”,“研究研究”,“锻炼

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论