信息处理用中文分词规范设计理念及规范内容_第1页
信息处理用中文分词规范设计理念及规范内容_第2页
信息处理用中文分词规范设计理念及规范内容_第3页
信息处理用中文分词规范设计理念及规范内容_第4页
信息处理用中文分词规范设计理念及规范内容_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGE1信息处理用中文分词规范设计理念及规范内容摘要「信息处理用中文分词规范」有下列两个突破:(1)提出分级的观念及确立信、达、雅三级的标准。最容易达到的信级订为基本资料交换的标准;技术上较难,但自动分词程序仍可达到的达级作机器翻译、信息检索等自然语言处理的标准;至于最需要人工分词才能达到的雅级则视为计算机处理、理解中文之最高目标。(2)把分词规范分成不变核心(分词单位定义及基本原则),以及可变准则(辅助原则)。在确定分词规范架构后,只要定时更新基本词库或特殊领域的专门词库,便可维持分词规范的不变性。规范制定的过程根据美国信息专业期刊(AITrend1991)的预测,随着自然语言处理技术日趋成熟,相关软件产品的研发将成为未来信息产品的主要潮流。一个明显的例子如苹果计算机已推出能辨认英文语音指令的个人计算机,另外ThinkingMachine公司已发展出能以近似自然语言查询全文数据库的WAIS全文检索系统。不过,中文在这些方面的产品开发上仍远落后于西方语言。中文在自然语言处理方面有一个很不便的地方就是中文词和词之间在书写时传统上并不断开(如西方语言多半以间距标示词的界限),因此在词的界限上很难有一个简单清楚的区分,这使得中文在自然语言处理时必须增加分词这个程序而影响了相关软件产品的研发。然而词的界定问题不但一般使用者无从依循,连汉语语言学家至今仍无定论。有鉴于制订分词标准的重要性,大陆方面在1989年制订【信息处理用现代汉语分词规范】,并于1993年上报为(GB)标准。台湾的计算语言学会(ROCLING)在1991年开始草拟分词规范,初步订定了中文分词的原则,并于1995年下半年起接受中央标准局的委托,进行中文分词规范的建立,研拟「信息处理用中文分词规范」,希望能为中文信息科技提供一套通用的参考,减少彼此之间的差异,为自然语言处理环境奠定良好基础。由于海峡两岸用语多少有些不同,而且为因应中文自然处理的个别需求,这两套规范之间虽然精神雷同却有些技术上的差异。分词规范的研拟分为两种方式进行,一方面是邀请台湾知名的学者专家召开讨论会,就其专业领域的角度,对分词规范的大方针进行讨论;另一方面则是中央研究院词库小组根据分词规范,实际从事语料分析,从上百万的语料中,整理出分词标准的细节规定。为此,我们特别在计算语言学通讯开辟「『搜』文解字」专栏,针对值得重视的分词现象提出讨论,广邀各方意见。相信「信息处理用中文分词规范」的拟定对于未来「信息用分词国家标准」的实施有实质的助益,能有效推动中文信息界技术发展。二、制定规范的设计指导原则为了因应自然语言处理的需求,在制定分词规范时,有三个要件缺一不可。亦即(1)必须符合语言学理论要求、(2)在信息处理上确实可行、和(3)确保实际文本资料一致性。这是我们制定「信息处理用中文分词规范」时的指导原则。也因有了这三条指导原则,本规范与大陆出版【信息处理用现代汉语分词规范】有以下三条较不同的思考方式。GB【信息处理用现代汉语分词规范】所规范的不是「词」,仅仅只是供信息处理用的「分词单位」。而且,在词的辨认上由于没有最高指导原则,许多问题处理难免会有前后矛盾情形产生。或是理由不清,必需直接规定的武断作法。它的作法是依个别词型,考虑机器处理的方便可行,分别规定其切分标准。它并不定义词,也不提出辨词的最高原则。由于是依个别词型一一规范,凡是没有规范到的或规范不够清楚的部分都成了分词规范的死角。例如:这套分词规范并没有谈到动后修饰词 之分词办法。又例如该规范对偏正式复合词(包含名词和动词)的说明不够清楚,只以「结合紧密、使用稳定」来规范,无法当作一个明确可行的规范。 【信息处理用现代汉语分词规范】并未对自动分词的技术瓶颈深入探究,只是在拟定个别词型切分原则时考虑了自动分词的可行性。但是计算机技术日新月异,现在看来不易处理的问题将来也许都可迎刃而解,那岂不又要修改分词规范了?我们认为分词草案中提出的层次划分的概念才能彻底有效掌握自动分词上的技术困难。计算语言学学会的「信息处理用中文分词规范」如何达成此三项指导原则的要求呢?以下分项说明之。1.符合语言学理论之要求订定分词规范的首要工作是定义切分字符串的基本单位,对信息处理而言,所谓的词是以何为依据?我们定义一个具有独立意义,且扮演特定语法功能的字符串应视为一个词。虽然没有使用语言学专门术语来定义切分单位,但是根据定义,动词、名词、副词、定词、量词、介词、方位词、连接词、语助词、感叹词皆可依类一一断开。另外,像动词、名词,或是结构复杂字符串的判定较复杂,需要细则来规范其分合标准。因此除了定义外,必须另有原则规范分词。我们提出两条基本原则以及六条辅助原则。两条基本原则分由语意及语法出发,给词(分词单位)更妥善的定义。而辅助原则系根据语言现象而定的判断原则;因为这些辅助原则多因语料变异而随时修订,提供了在语言演化时,可不变动基本定义而仍可忠实处理当代语言的理想架构。2.在信息处理上确实可行信息处理用分词规范订定的目的是为中文语文信息交换订出一套中文词的规范。从语言学的观点而言,词的基本定义是具有独立意义,且扮演固定词类的最小字符串。从分词的观点而言,分词基本原则应从两方面来考量:(1)语意无法由组合成分直接相加而得到的字符串应该合为一分词单位。(2)词类无法由组合成分直接得到的字符串应该合为一分词单位。然而就设计计算机自动化分词程序而言,这个定义及基本原则所规范的分词要领,依然非一蹴可及。其困难来自三方面:第一,词的界定是抽象概念。光由以上的简单定义及原则,并不足以转化为计算机执行程序,因此必须增加一些辅助原则并依各种不同词的类型分别讨论切分与否。第二,词集并非一个封闭集合。词可由构词律产生,人们日常也不断创造新词,因此计算机自动分词无法仅凭借一部标准辞典来作分词依据。第三,语言的复杂性。词、复合词、词组的界线有的时候不容易区分,例如以下的多重切分似乎各有一些道理:顾客满意度:顾客满意度、顾客满意度最早期:最早期、最早期、最早期冬夜:冬夜、冬夜人口贩子:人口贩子、人口贩子理想的分词有时会过于复杂困难,为了顾及自动分词的可行性及分词结果的应用,我们建议在理想与现实间采用一个中庸之道。因为如果陈意过高,完全无法自动化处理,也失去了订定规范的意义。但是,如果完全迁就于计算机的处理能力,与词的分界偏离,又岂能称之为分词标准?于是我们提出一套三个层次的分词标准,其精神在给予分词工作一套循序渐进、由简入繁的依循原则。每前进一个层次,就多解决一些分词难题,也就愈接近理想。也就是说,我们允许分词的结果有瑕疵,不同的分词结果各符合不同层次的标准。其层次划分也需配合自动化的可行性,层次愈低,自动化的可能性应该愈高。不同的层次有其个别应用的范围并满足不同目的,因此分词原则可灵活应用而不僵化。3.确保实际文本资料之一致性在确定架构后,把分词规范分成不变的核心(分词单位的定义及基本原则)以及可变的准则(辅助原则)。只要固定在一段时间修订更新分词的通用词库或在应用于特殊领域时增订专门词库,分词规范便可以维持而不需改变。不但解决了语意模糊之处,使意义更清楚,而且使电子资料的交换更方便。而且在三个层次的断词标准中,信级(最基本层次)不需要复杂计算机程序即可达到,更可确保与一般非研究单位交换电子资料时的一致性。三、分词规范之基本架构信息处理用中文分词规范的基本架构分成三部份–分词单位的定义,分词的基本原则和辅助原则,分词规范的层次划分。1.分词单位之定义:具有独立意义,且扮演固定词类的字符串视为一分词单位。分词原则基本原则:基本原则是从语意与语法来说明分词单位。这不只是平面的条例规定分词原则,我们将基本原则视为不变的最高指导原则,只从语法和语意两方面来作原则性的定义,而不针对某种词类作变动或一一规定。因此,我们可以在语言学理论上找到分词依据,使分词规范有执行的归依。(二)辅助原则:除了理论性原则外,我们也必须有操作性原则,视分词的实际状况设定分合的依据。相对于基本原则的不变性,辅助原则富于弹性,可依时代的演变、不同的文本或视情况的需要而有所增减。辅助原则并非绝对原则,而是操作原则。语料中难免有用二条以上原则的状况,若其结果相同,则加深分词结果之可信度,万一判定结果冲突,则以适用原则较多之结果分词。但若适用原则条数皆同,还可用定义及基本原则作最高层次之制定。(分词用)词汇库:根据分词规范产生的词汇库,可以是一个用于不同文本的通用词库,至于特殊领域或应用的专门词库,可依不同应用及领域而增补之。甚至不同地域或时间造成所用语词的变动,也可随文本及时间演变用法差异的不同而有所修正。分词规范层次的划分为了使分词计算机自动化,我们按其困难程度,将分词规范分成信级、达级、雅级等三个层次处理。最容易达到的信级标准订为基本资料交换的标准,而把技术上较难,但自动分词程序仍可达到的达级标准作机器翻译、信息检索等自然语言处理的标准;而把目前最需要人工分词才能达到的雅级标准作为计算机处理、理解中文之最高目标以及作为构建中文标记语料库等标准参考资料的规范。每一层次的应用及困难度列于下列表格中。应用上的区分自动分词困难程度建议信级基本资料交换。取得词项基本资料。解决歧义切分。应于未来建立标准词集及特殊领域词集。达级一般自然语言处理。如,建立词双连语言模型等可以用规律解决复合词,较无复杂切分问题。达级应将不同类型的切分与否设为标准中的可变参数。雅级词切分的理想境界。语法,语意的抽取。如,语音合成,语意分析不同的语感或观点可能造成不同切分结果,达到圆满一致,极为困难。(1)除切合词外应有标示词性,词内部结构之标准。(2)雅级应探求可供客观评估的或处理的辅助原则。表一各级分词标准的应用及建议由以上的讨论可看出,信级切分只要考虑歧义切分的问题几乎可完全自动化。在达级层次中,只要构词律够完备,比较容易达到完全自动化。基于我们在构词律上多年研究,对这点我们持乐观态度。对于复杂的词汇类型,有时以人为判断都会有不一致情形发生,自动化就更困难了。因此建议提出各个复杂类型可以简易辨别的准则,这个准则离真正的理想切分可能不是完全吻合,但若相去不远应该也是可以接受的。四、规范之细部内容1分词规范1.1定义:具有独立意义,且扮演特定语法功能的字符串。根据定义,动词、名词、副词、定词、量词、介词、方位词、连接词、语助词、感叹词皆可依类一一断开。这些基本词类中,前五者,尤其是动词和名词的判定较复杂。原因有三:一﹑动词和名词皆另有词组形式,便有区分复合词和词组的问题。另外副词、定词、和量词也有类似的困扰。二、动词、名词是个开放性词集,随时都有新词产生。三﹑一些结构复杂的字符串,象是中插结构「洗了澡」或合并结构「中小学」,也需要细则来规范其分合标准。1.2基本原则(1)语意无法由组合成分直接相加而得到之字符串应该合为一分词单位。合并原则这是一条很重要的分词细则,凡是组合后意义起变化的字符串皆应视为一个词。试举一例:“撞期”依此原则必须视为一个词,但是「撞山」仍可保持断开,视为动词加宾语之动词组。此原则的适用面很广。即便是一个字符串表面有明显的词组甚至句子的构造,但凡意义失去组合性时应合为一个词。因此下列字符串皆应视为一个分词单位,例如:飞黄腾达(成语),撞期、吃醋(动词组),或多或少(副词词组),十二万分(定量结构),五月(定名结构,不是五个月),谈谈(重叠结构,表尝试)、「坐坐」就走(重叠结构,含短暂貌)、辛辛苦苦(重叠结构,表程度加强)、片片、一片片(重叠结构,具泛指意涵)、「好好」孝顺父母(重叠结构,表尽力)…等。合并结构,象是「上下课、中山南北路」,依此原则也应该合并为一个词。因为该字符串的意义并非「上」加「下课」、「中山南」加「北路」,而是「上课」加「下课」、「中山南路」加「中山北路」,可见合并结构的意义不等于组合意义,故应合并。唯带专名之合并词,象是「台北市长」(「台北市」加「市长」),因切分后前方的专名和后方的名词皆可独用,意义可以组合成,故仍予以切分。(2)词类无法由组合成分直接得到,应该合为一分词单位。合并原则此原则分两部份:一﹑该字符串之语法功能不符合组合结果。例如:动作及物动词「喝﹑吃﹑听」前面加「好」构成「好喝、好吃、好听」,不能再加宾语,成为不及物,且能被程度副词「很、十分、非常」修饰,与原来的语法特性不同,故可视为一个分词成分。二﹑该字符串之内部结构不符合语法规律。例如:「那只狗不会游水」中「游水」指的是「在水里游」,但「游」是不及物动词,不可直接后接名词。因此,「游水」不符合动词「游」的语法规律,故应合并之。1.3辅助原则:(1)有明显分隔标记应该切分之。切分原则一个词可能中插了别的成分,或是一个词,或是一个标点符号,在此情况下,不得不将之断开。例子有: 动宾中插:洗了一个澡 述补中插:打得破、打不破 交互中插:弯下腰去、喘不过气来 合并中插:动词:上、下课 名词:父、母亲,高中、职,中山南、北路 定量:本(二)月,七、八月,1995、6年,三到四月数词及表时间、地点或编号之词虽含有标点符号,但是我们认为这些符号不具标点符号功能,所以不算是中插,故下列情形仍维持合并。 七、五00,三.六,2/28(二月二十八号),3:30(三点三十分), 二0~一号(门牌号码),AB-8888(车牌号码)(2)附着语素尽量和前后词合为一个分词单位。合并原则附着语素指的是有独立意义却无法独立扮演语法功能的语素。例如:「立」可分为三个语素:一﹑表「站立」,是不及物动词;二﹑表「建立」,是及物动词;三﹑表「立刻」,是附着语素,多半出现在「立刻」「立即」的词中。由于书面语文白夹杂,常可见附着语素独用情形,如「情势立告逆转」。此例中,我们依此原则将「立告」合为一个偏正式复合动词。又例如「吝」也是个附着语素,多半出现在「吝啬」「吝惜」中,但依此原则「不吝」「吝于」也会被合并成一个动词。不过,我们也可能遇到附着语素无法和前后词合成一个语言成份的情况,如「为什么还吝而不做呢?」我们也只好将附着词「吝」断开,依其在该句中所扮演的功能给予词类。现代汉语中有许多词具词缀特色,常用来和其它词结合,具有一致的意义,并往往决定该组合词之词类(词头多半无此功能,但词尾多半都有)。词缀也是附着语素,因此带词缀之字符串也应合为一词。例如:「演员、救生员、队员、查哨员、技术员、组成员、督导员、邮务员…」「现代化、合理化、泛政治化、民营化、地下化、本土化、小丑化、多元化…」。这些词在词典中收不胜收,必须藉构词律由计算机自动结合成词。但是从计算机处理的角度来看,在初步的处理时并不容易达成自动合词的目标,必须依不同层次分阶段达成,因此依附着词结合难易的程度分为词缀及接头/接尾词。目前我们挑选出衍生性强的接头词及接尾词作为分词的参考依据,请见附录1。此外,「的、地、之」虽通常被视为词缀,但是由于下列两个理由我们不将它们当作词缀处理。一、它们所附着之词干无词类限制,无论名词、动词、副词、数量词甚至句子皆能带这些词缀,这和一般词缀表现不一;二、它们常和词组结合,如「常常和官员打交道的记者」「欲退出选委会之人」,这点也和一般词缀的衍生方式不同,所以这三个词将和前后词一律断开。(3)使用频率高或共现率高的字符串尽量视为一个分词单位。合并原则有些字符串因为常常一起出现,所以其结合较紧密,较少见中插情形。纵使这些字符串完全不符合上述三条原则,即它们的语意、语法功能未完全失去组合性、也不含附着语素,仍可因此原则合为一个词。如一般说话者会强调感觉「读书」为一个单位,但「读小说」为两个单位。在这原则下可能被视为分词单位的例子有:动词:并列结构:进出、收放、……偏正结构:大笑、改称、……动宾结构:关门、洗衣、卸货、……名词:并列结构:春夏秋冬、轻重缓急、男女、花草、……偏正结构:象牙、……副词:并列结构:暂不、既已、不再、……这条原则有两个难处,在于如何得出使用频率,以及区分值应该设在何处。这不是个容易解决的问题,在没有一套可遵循的标准法则时,对于一些字符串此原则是否适用就成了见仁见智的情形,因此这条原则只是一条可用原则,但随着大规模精确语料库的建立,以及各种语言统计技术的日见精进,这个问题应可以得到较科学化、客观的解决。(4)双音节结构之偏正式动词尽量视为一个分词单位。合并原则当一个字符串具有动词之语法功能,若符合双音节结构,且是偏正结构,即可视为一个分词单位。因此,在「组建完毕」「紧追其后」中的「组建、紧追」虽然语意、语法功能未失组合性,不含附着语素,也不是常见字符串,仍可依此原则合并之。此原则并不用于动宾及主谓式复合动词。所以「警察无故擒人」「股市陷入价升量减的走势」中「擒人」和「价升量减」不会因此原则合并。(5)双音节加单音节之偏正式名词尽量视为一个分词单位。合并原则有些单音节的名词本身可独立成词,但是常与前面的双音节成分结合紧密,可视为一分词单位。例如:「线、权、车、点」所构成的成分「防卫线、捷运线、木栅线、平均线;监护权、领导权、使用权、发言权、优先权;垃圾车、交通车、宣传车、娃娃车;着眼点、立足点、共同点、争议点」。从与其他成分结合的观点来看,这些单音节名词也可视为接尾词,与衍生性附着语素并列在接尾词之列,请参见附录。(6)内部结构复杂之词尽量切分之。切分原则这是一条暂行原则。下列结构虽然依前述五条细则是应合为一个词,但由于合并起来过于冗长,而且其结合需用道具法中的词组律,故不予合并。词组带接尾词:太空计划室、塑胶制品业动词带双音节结果补语:看清楚、讨论完毕专有名词:专名带普名:胡先生、平汉铁路、二二八事变、永新加油站词组或句子之专名,最常见为书名、戏剧名、歌曲名:鲸鱼的生与死(书名)、那一年我们都很酷 (戏剧名) 复杂结构:省自来水公司、台北市第一信用合作社 辅大景观设计系、中文分词规范研究计划4.正反问句:喜欢不喜欢、参加不参加5.动宾结构、述补结构之动词带词缀时,不予合并。例:写信给、分红给、取出给、退回去给2.分词规范的层次划分我们将分词标准分成三个层次。只要能够依分词用通用词汇库中的词项,将词一个个断开来,就符合信级(初级)的标准。在达级(中级)层次中,要求将具有简单构词规律之词也正确断出。到了雅级(高级)标准,必须将所有的词都正确断出,也就是说复杂型的复合词及无构词规律的词都必须正确切分。 信级:凡是收录在标准辞典中的词一律断开。 达级:能以构词律组合出来的词在达级合并。例如:数词、专指定量词、重叠词、带词缀之衍生词 雅级:无法以构词律组合也无法完全收录在辞典中的词在雅级合并。例如:复合词(主要是偏正式复合名词、偏正式复合动词、述补式复合动词)、专有名词、简称、合并词、成语换字、特殊领域用词有了这样的划分原则,我们便可进一步探讨各层级的内容。信级是最易达到的标准,除了解决歧义外,未收录在词汇库中的词全部会被断成一个个字符,是任何断词系统的第一步。该层次标准之判定则需先订定通用词汇库的收词标准,并需确立该词典依时更新之原则。信级所表现的分词资料,为语言资料交换的最基本形式,任何语言资料交换应符合这个层次的标准。如果要得到词汇的相关词类,语法,语义讯息,必须从此词汇库得到。即使属于达级或雅级的复合词都要经由其复合成分得到相关词项讯息,而这些复合成分正是词汇库中的词。至于如何将被断开的词正确合并起来就成了以下两个层级的挑战。在达级中要求由构词律组合之词必须合起来,包含了:数词、重叠词、专指定量词、带词缀之衍生词。这些词有一定内部组合规律。通常在这一个层次组合的词较规则,比较容易以自动方式处理。然而如果完全迁就于计算机的处理能力来分级,会和实际的应用脱节。因此建议达级应为一个可浮动层级,介于信级及雅级之间,将不同类型的组合词以选择性参数表示之,视为标准中的可变参数。例如为了信息检索的应用,检索资料符合信级切分标准之外,并将所有专有名称及缩写正确合并起来,这样的文本符合达(专名,缩写)级的标准。如此一来不同的应用可以有不同的达级切分,只要将合并完成的词类别以参数表示即可。雅级事实上就是达级的最高层次,将所有应该合并的词全数合并起来。对自动化处理而言这也是最终目标,由于有下述的一些复杂类型目前无法做到,但是如果有不同层次的分词标准,某些达级层次标准可以先予自动化,以循序渐近的方式,达到最终也是最难雅级自动化分词程序。五、中文分词困难为了因应实际语言的复杂性,我们也无可避免必须提供条列式的规范,作为实作的标准。辅助原则正是为适切指导个别语言状况而订,但是从另一方面而言,正因为辅助原则是条列式的形式,因此不免发生语句切分时产生顾此失彼之处。我们认为目前的规范仍有讨论空间,在此提出,作为进一步修定分词规范的参考。1.附着语素与前后词合为分词单位的适用范围基本上我们不乐于见到附着语素单独被切分,但是在讨论辅助原则(2)时我们也提到由于古今用法的差异,许多附着语素在文言文的使用中具有独用的特性,因此在文白杂夹的句式中,难免有现在所谓的附着语素却独立被切分开的情况,例如「吝而不做」中的「吝」。这是因为词素只在某些特定环境中偶而出现,而绝大多数表现为附着语素,因此词汇库中的附着标记无法处理这些不同状况。此外,由于辅助原则(1)规定有明显分隔标记应该切分,所以像动宾中插例子「跳过几次槽」的「槽」或合并中插「青、壮年」中的「青」都因为另有依据的原则,而不得不舍弃原则(2),而仍保有附着语素独自为一分词单位。类似的,为了符合辅助原则(6)内部结构复杂成分尽量切分的要求,也产生了附着语素单独作切分单位的情况,例如「都市计昼案」中的「案」以及「环境保护署」中的「署」。由于附着语素的判断存在困难,我们常常无法决定一个成分究竟是独立语素或附着语素,例如「眼、耳、鼻、舌」。所以有些情况下不容易决定是否该采行辅助原则(2),对附着成分作合词动作,因此以标准词典作为合词依据,不在词典内的情况一律切分。基于这样的考量,动宾式及名方式结构仍存在附着语素被单独切分。例如「桌上、崖边」。另外由于定词或数词与名词出现时,除少数有词汇意义的成分合词外,一律作切分,故有许多附着语素独立作一切分单位。如「数职、哪一型、一案、一役、两嫌、该剧」。2.有关偏正式结合的规定辅助原则(4)(5)是关于偏正式动词及偏正式名词的合词规定。相较于其他原则是一般普遍性的规定,适用于所有的范围,辅助原则(4)(5)则较具有独用性,只针对某个特有类型作规定。辅助原则(5)双音节加单音节之偏正式名词尽量视为一个分词单位,是由使用上的语感着眼,但是这条辅助原则的实践会遭遇几个问题。(1)衍生性接尾词词集范围不易确定为方便计算机作业,理应有一明确词集限定作接尾用的名词,才能藉由构词律作合词动作,而且为求各方处理的一致性,该词集应是一固定不变更的有限集合。搜罗此词集的一种方式是由语料库上出现的语词整理衍生性词尾。但是由于语言的演化及开放性,陆续可能又会发现可列入词集的成分,因此必须随时更新词集,这又与上述固定有限集合的理想冲突。另一个作法是直接由标准词典上作全面整理标识,不过最大的困难是如何判定某个单音节名词性成分具有衍生性接尾的特性。如果贯彻辅助原则的规定,理应所有单音节名词性成分前面有双音节成分,都尽可能合为一成分。但是这么一来,又可能造成词组成分都被合为一个分词单位,例如「长江水、黄色水、简单事、朋友家」。(2)不符合音节限制的分合未明在原则中限定双音节与单音节名词的合词,如果依照此原则执行,则未来分词单位势必出现许多三音节的成分,可以预见对中文词的音节数指出新的演进方向。在古中文以单音节词为主,渐趋演进至现代的双音节词,如果分词标准所订的原则是符合现代语感的,那么显然当代的中文又有一股三音节词造词运动的潮流。不过这里原则偏重于双音节与单音节名词的合词规定,却忽略单音节与单音节名词成分的规定,如果双音节词是目前中文词的大宗,那么双音节的偏正式名词应更优先考量合为一词。词缀「-度」所构成的词除了三音节「配合度、透明度、精确度、灵敏度」,更有许多双音节词「信度、难度、高度、甜度」。类似的,由接尾词「-类」所构成旳词除了三音节的「塑胶类、纺织类、爬虫类」之外,还有许多双音节词「鸟类、虫类、纸类」,虽然在原则中未明确规范,仍应合词。再者,如果音节数大于所规定,似仍应一律合词。(3)合词范围的判断有困难即使确定某个成分是接尾词,但因接尾词本身具有独立成词的条件,故前面出现的是双音节成分,仍然不易确定是否一律合词。例如由「处」可构成「公交车处、新闻处、筹备处、管理处、服务处、办公处、人事处」等机构,但「转折处、矛盾处、交会处、经理处、老板处」等一般处所是否也一律合词?再如「量」可构成「运动量、消耗量、蕴藏量、生产量」,但如果是遇到「暂时量、不变量、普通量、一定量」等情形是否也一样合词?仍须深入探讨以求一致原则。另外辅助原则(5)有关双音节与单音节构成偏正式名词的规定,与辅助原则(6)内部结构复杂之成分切分的条文有冲突的地方,因此「用纸量、含铁量、耗油量、排水量」可依原则(6)而切分为三个成分,也可依原则(5)而合词。这时便需另引用其他原则以决定是否分词。以上所讨论是辅助原则(5)实施可遭遇的问题,辅助原则(4)关于双音节偏正式动词的规定也有类似的困难:(1)衍生性接头词的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论