双字组合理解模式探索.doc_第1页
双字组合理解模式探索.doc_第2页
双字组合理解模式探索.doc_第3页
双字组合理解模式探索.doc_第4页
双字组合理解模式探索.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

双字组合作者简介:王淑华(1976- ),女,上海大学文学院博士后。 由于汉语中“词”和“短语”经常存在划界不清的情况,因此,本文将两个单音节语素的组合称为“双字组合”,不刻意强调或区分它到底是“词”还是“短语”。理解模式探索王淑华(上海大学 文学院,上海200444)提要:新词语不断增加,计算机处理真实文本时不可避免地要面对大量的未登录词。本文认为,从词典中的已登录词出发,描写每个单字的构词属性,如构词时的位置、能产的构词模式、处于不同位置的单字构词时对另一个构词成分在句法和语义上的要求、组合以后的意义理解模式等,有助于计算机准确地识别和理解未登录词。关键词:双字组合 未登录词 意义组合原理引言近年来,随着社会生活、科学技术以及人们思想观念的发展变化,新词语在不断增加。现代汉语词典第5版中新增词语有6000余条,而现代汉语新词语信息(电子)词典中一共收录了近4万个新词语1。事实上,不管工具书、在线词典等规模有多大、更新有多快,都不可能覆盖语言中的全部词汇。计算机在处理真实文本时,不可避免地要面对大量的未登录词 新词语主要是两种,一种是新产生的词语,一种是旧词产生新义的,即词典中没有进行解释的。未登录词是指词典中没有出现的词语。有些词虽然不是新词语,但词典中没有出现,对计算机来说也是未登录词。虽然汉语中的词汇在不断地发展变化,但是用于组词的汉字并没有增加,常用汉字一直有着极高的覆盖率。据冯志伟(1997)统计:2400个常用汉字的覆盖率是99%,3800个常用汉字的覆盖率是99.9%。鲁川(2003)指出:随着信息时代的到来,“新词”和“未登录词”激增,但是“汉字”未增,“这就证明了:汉族人既有用旧字创造新词的能力,又有看旧字懂新词的领悟力”,所以“我国人工智能学者和语言学者要通力合作,让电脑模拟汉族人看旧字懂新词的智力。” 30.3 不仅组成“新词”和“未登录词”的“汉字”没有增加,而且“新词”和“未登录词”的内部构造方式也没有变化。亢世勇(2001)和苏新春(2003)的考察结果基本相同 苏文把“状谓”结构从偏正结构中独立出来进行考察,但不影响结论。:新词语的构词方法以复合式为主,复合式词语中,又以偏正、述宾、联合三种结构最多。0.4 苑春法(1995)以汉语语素数据库中的22016个复合名词、15666个复合动词、3276个复合形容词为考察对象,比较全面地考察了汉语复合词中词义与语素义之间的关系。他指出:“复合词的词义和组成复合词的语素意义之间关系密切,语素在构词时意义绝大多数保持不变,少数变化情况又是有规律可循,这使语素可以在未登录词处理的研究方面起很大的作用”。0.5 基于以上几点,我们认为,加强对单字(单音节语素)构词属性的描写,可以帮助计算机正确地处理未登录词;明确每个单字构词时对另一个构词成分在语法、语义上的限制与要求,有助于计算机正确地识别出未登录词;明确每个单字和不同类型的构词成分组合时的语义表现以及组合后的意义内容,有助于计算机准确地求解出未登录词的词性和意义。1 双字组合的理解模式1.1 意义组合原理与复合词的词义意义组合原理(principle of compositionality)也叫弗雷格原理,由现代数理逻辑的创始人、德国著名的数学家、哲学家、逻辑学家弗雷格(Frege)提出。其基本思想是“一个复合表达式的意义是它的部分表达式意义的函项” 陈波(2000)第27页。美国逻辑学家蒙塔古(Montague)在此基础上更进一步,主张把自然语言作为与逻辑人工语言本质上相通的一种符号形式系统进行研究。他认为,不仅复合句的意义由其直接构成成分的意义组合而成,其它语言表达式(如短语)也是如此。复合语言表达式的意义组合,不仅有直接成分的意义参与,还和直接成分组合时所用的结构运算的意义分不开。确切地说,复合语言表达式的意义是语形结构运算的意义对直接成分的意义进行语义运算的结果 邹崇礼(1995)第8页。这是蒙塔古对意义组合原理更彻底更严格的表述。就汉语而言,对于一个由单字A、B组成语言单位AB来说,单位AB的意义不仅与直接成分A、B的意义有关,还和A、B的组合方式有关。例如,一个动语素和一个名语素组成一个复合词,光知道A、B本身的意义和性质并不足以求出单位AB的意义和性质,还需要知道A和B是以什么样的方式组合的。如果AB是动宾结构,而且宾语是动词词义内部规定的内容,那么求解单位AB的意义,把B的意义代入A意义中的相关部分即可;如果AB是定中结构,那么一般是把A的意义加在B的意义之上。1.2 计算机理解未登录词对于计算机来说,理解未登录词的过程,其实就是一个利用已知条件进行推理的过程。计算机遇到未登录词时,总是先把它们分割为单个的汉字,处理的首要目的就是要判断单字是否能够重新组合,如果能组合起来,再进一步判断其性质,求解出词义。正确理解未登录词,需要下列信息作为基础:(1)每个单字的意义和语法性质;(2)每个单字的构词模式;(3)不同单字对与之组合的另一个单字在语法性质上的要求;(4)不同单字对与之组合的另一个单字在意义上的选择;(5)上下文对该空位的要求。例如,遇到未登录词“AB”,计算机首先把“AB”分为A、B两个单字,然后判断A、B是否有组合的可能。首先要查词典,了解是否有“A ”和“ B”这样的词语模存在,然后看A是否符合词语模“ B”中B对空位的要求,看B是否符合词语模“A ”中A对空位的要求。要求包括两个方面,既有语法性质方面的,也有意义方面的。如果前面几个条件都符合的话,就可以初步判断,A、B有组合的可能,然后进一步求解出该单位的性质和意义,最后放到上下文中进行验证。上述信息中,第一点词典中一般直接给出。我们以词典中的已登录词为基础,进行简单的归纳以后,可以得到单字构词的模式,即该字构词时的位置信息。第三点和第四点需要语言学者对词典中的已登录词进行细致分析、归纳才能得出,获得相关知识以后,可以把它作为已知信息登录在机用词典中。这一部分也正是本文关注的重点。最后一条是对上下文进行分析的结果。由于汉语中词的多功能性,上下文对某个空位的要求在很多时候并不是唯一的,所以它只能起一个验证的作用。理解未登录词,最主要的依据是前几种信息。1.3 本文的方法本文将以词典中的已登录词为研究基础,借助于词典中单字和已登录词的句法语义信息以及实词的语义分类体系,寻找单字构词的结构组合模式和语义组合规律,以便运用于真实文本中相关未登录词的处理。具体的分析,将按照以下几个步骤进行:(1)利用词典和实词的语义分类体系,确定每个单字的句法、语义信息。(2)收集通行词典中的已登录词语,根据词义与单字字义之间不同的关系类型,总结出单字构词时的组合条件及组合规律,以便应用于未登录词的求解。具体说来,包括以下两点:a 单字构词时出现的位置;b 在不同位置上对与之组合的另一单字在句法和语义上的要求。(3)为了便于计算机理解,将总结出来的相关构词信息用“如果那么”的形式表示出来。(4)以上述语言知识和相邻单字的句法语义信息为已知条件,计算机可以据此来识别和理解未登录词。将语言知识应用于实践,一方面能检验从词典的已登录词中总结出的单字构词信息的有效性,另一方面又能对词典中的构词信息进行调整补充。由于篇幅关系,本文仅示例性地考察了一个单音节语素“疗”和不同语素的组合情况,目的在于寻找出一种帮助计算机理解未登录的双字组合的方法,以期进一步帮助计算机正确地理解和分析汉语。2 实例分析疗2.1 词典中的相关信息现代汉语词典疗:医治。应用汉语词典疗: 动医治;动书比喻解除痛苦。其它各词典的释义和这两本词典大同小异。本文采取现代汉语词典的处理方法,认为“疗”是一个单义语素,因为应用汉语词典中义项下与“疗”组合的语素“饥、渴、贫、妒”都可以看作抽象的“疾病”,是特殊的医治对象,这样有利于减少组合的复杂性。继续查词典可知:“医治”的意思是“治疗”,“治疗”的意思是“用药物、手术、针灸等手段消除疾病”。因此,从词典中可知:(1)“疗”是动词性语素;(2)“疗”的意思是“医治”、“治疗”或“用药物、手术、针灸等手段消除疾病”。从“疗”的词义中可以看出,“疗”的对象“疾病”是“疗”词义中规定的内容。从词义可以推出:(3)如果和“疗”组合的宾语与“疾病”有语义上的联系,那么求解该单位的意义是将名语素代入“疗”意义中的相关位置。2.2 词典中的已登录词在现代汉语词典、应用汉语词典、当代汉语词典、倒序现代汉语词典中,我们收集到由“疗”参与的构词共22例。列举如下:“疗+X”:疗饥 疗贫 疗渴 疗妒 疗养 疗救 疗治 疗程 疗法 “X+疗”:医疗 诊疗 治疗 放疗 电疗 光疗 蜡疗 理疗 化疗 泥疗 水疗 磁疗 食疗从上述已登录词中,我们可以得到如下信息:(4)“疗”和其它语素组合的时候,可以形成两种词语模,即后空型的词语模“疗 ”,和前空型的“ 疗”。(5)在词语模“疗 ”中,空位上可以是动词性的语素,也可以是形容词性的和名词性的语素;(6)在词语模“ 疗”中,空位上可以是动词性的语素,也可以是名词性的语素。“N疗”式词语共9个,与其它类型相比,在数量上占有一定的优势,可以初步认定为一种能产的词语模。下面我们将根据词典中已登录词的词义、词性、构词的单字义等相关信息来总结“疗”和不同类型单字组合时的句法及语义要求,并从中提取出一定的元语言框架作为理解未登录词的模式。 疗饥 疗贫 疗渴 疗妒这一组词中,和“疗”组合的“饥、贫、渴、妒”是“疗”的对象,均可以看成广义的“病”。“疗饥、疗贫、疗渴、疗妒”可以理解为“医治饥饿/贫穷/干渴/妒忌”或“通过某种手段消除饥饿/贫穷/干渴/妒忌这种疾病”。进一步抽象可得:(7) 如果“疗 ”中的空位是动词性或形容词性语素,并且这个语素可以看成广义的“病”,那么“疗X”是动词性的单位,述宾结构,意思是“医治X”或“通过某种手段消除X这种疾病”。 疗程 疗法这两个复合词中的后一语素“程、法”是名词性的语素,它们都不是“疗”的对象。查词典可知,“疗程、疗法”是名词,定中结构,意思是“医治的过程/方法”。进一步抽象可得:(8) 如果“疗 ”中的空位是名词性语素,并且该语素不是“疗”支配的对象,那么“疗X”是名词,定中结构,其意义是“疗”与“X”两个语素意义的相加,即“医治的X”。 疗养 疗救 疗治 医疗 诊疗 治疗这一组词中,和“疗”组合的均是动词性语素。其中,“治疗、疗治、医疗”是同义语素组合,这些词的意义等于其中的任一语素义。“疗养、疗救、诊疗”是动词,它们的意义分别是两个语素义的相加,即“医治调养”、“医治救助”、“诊察医治”。进一步抽象可得: (9)如果和“疗”组合的另一个单字是动词性语素,并且和“疗”同义语素,那么“疗X”或“X疗”是动词性的单位,联合结构,其意义和“疗”或“X”相等。(10)如果和“疗”组合的另一个单字是动词性语素,并且和“疗”属于同一个语义场,那么“疗X”或“X疗”是动词性的单位,连动结构,其意义是“疗”、“X”两个语素意义的相加。 电疗 光疗 蜡疗 泥疗 水疗 食疗 磁疗这一组词中的第一个单字是名词性语素,“电、光、蜡、泥、水、食、磁”可以看作广义的用于医治疾病的手段,和药物、手术等起类似的作用,因此,这组词的意义可以理解为“通过电、光、蜡、泥、水、食、磁等消除疾病”。进一步抽象可得:(11) 如果“ 疗”中的空位是名词性语素,并且该语素可以看作广义的治疗手段,那么“N疗”是动词性单位,状中结构,是一种医治疾病的方法,即“通过X消除疾病”。 理疗 化疗 放疗这几个词和其它词不一样,它们是缩略词,分别是“物理治疗、化学治疗、放射性治疗”的简称。由于缩略词中语素的意义不能完全体现缩略前相关单位的意义,所以这一类词的意义不能直接通过语素意义求出。只有还原出该词缩略以前的形式,才能求解出该缩略词的意义。进一步抽象可得:(12)如果“ 疗”是缩略词,只有还原出缩略以前的形式,才能求出该缩略词的意义。上述(1)-(12)可以作为已知信息登录于机用词典中,利用这些信息,计算机可以识别和理解未登录的组合。2.3 未登录组合的处理我们以“疗”作为检索单位,在北京大学汉语语言学研究中心网站上的现代汉语语料库中检索得到10458条例句,经过人工排除,得到了40条未登录的双字组合:疗毒 疗疾 疗伤 疗损 疗病 疗梅 疗肝 疗牛 疗亲 疗区 疗术 疗金 茶疗 尿疗 蜂疗 金疗 血疗 菌疗 鞋疗 鳖疗 药疗 氧疗 蚁疗 沙疗 足疗 虾疗 神疗 自疗 盐疗 马疗 海疗 体疗 一疗 杭疗 热疗 义疗 公疗 优疗 休疗 包疗 根据与“疗”组合的另一语素的相关信息和2.2节中的语素“疗”的构词信息,计算机可以顺利理解其中的部分未登录单位。 疗疾 疗病 疗毒 疗伤 疗损“毒、伤、损”和“疾、病”同属于语义节点“疾病”之下,根据(3)、(7),将“疾、病、毒、伤、损”代入“疗”的意义中,即得:“疗疾、疗病、疗毒、疗伤、疗损”是动词性单位,述宾结构,它们的意思分别是“用药物、手术、针灸等手段消除疾病/疾病/对生物体有害的物质/皮肉受到的损害/受到的损害”。 疗梅 疗肝 疗牛 疗亲“疾病”是一种抽象状态,这种状态一般都有一个附属的主体,而且主体一般属于生物类。这种“状态:主体”的关系在句法上一般表现为定中关系。再根据(3)可得:“疗梅、疗肝、疗牛、疗亲”的意思是“用药物、手术、针灸等手段消除梅的病/肝的病/牛的病/父母的病”。根据上下文中这些词语的组合特征,进一步可以判断:“疗梅、疗肝、疗牛、疗亲”是动词性单位,述宾结构。 疗区 疗术 疗金从名词的语义分类体系可知,“区、术、金”和“疾病”之间距离很远,不存在上下位的关系。查词典获得“区、术、金”的意义以后,根据(8),可得:“疗区、疗术、疗金”是名词性的单位,定中结构,它们的意思分别是“医治疾病的区域/方法/钱”。 茶疗 尿疗 蜂疗 金疗 血疗 菌疗 鞋疗 药疗 氧疗 蚁疗 沙疗 虾疗 足疗 盐疗 马疗 鳖疗 这一组词里第一个语素“N”是“疗”的方式、手段。根据(11),可得:“茶疗、尿疗、蜂疗、金疗、血疗、菌疗、鞋疗、药疗、氧疗、蚁疗、沙疗、虾疗、足疗、盐疗、马疗、鳖疗”都是动词性单位,状中结构,是医治疾病的方法,它们的意思分别是“通过茶、尿、蜜蜂、黄金、血、菌、鞋、药、氧气、蚂蚁、沙子、虾、足部、盐、马、鳖消除疾病”。这一组词中,比较特殊的是“足疗”。“足疗”是通过对足部进行某种特殊的操作(一般是按摩和浸泡)来消除疾病,从广义的角度来说,也可以把“足”看作“疗”的一种隐性的工具。和词典中的已登录词一样,“N疗”的数量最多,共16个,可以确认这是一个开放性的构词模式,是一个非常能产的词语模。随着科学的发展,医治疾病的手段、工具越来越多元化,相信以“N疗”为词语模组成的新词一定会越来越多。在词典中,我们可以把“N疗”这种构词模式设定为“最优构词模式”。当语流中遇到“N疗X”时,如果根据已知信息,发现“N疗”和“疗X”都有组合可能的时候,那么我们选择“N疗”优先组合。例如,在语料中我们发现如下用例:药疗鞋、脐疗袋。由于“药疗、疗鞋、脐疗、疗袋”等都是未登录的单位,计算机遇到它们的时候,首先是将它们分割为“药、疗、鞋、脐、疗、袋”等单个的汉字。根据(4)、(5)、(6),可以发现“疗”既能左向组合,也能右向组合。遇到这种两可的情况,“最优构词模式”就可以发挥作用,确定“疗”是先和左边的“药、脐”组合,然后再和右边的“鞋、袋”组合。 休疗 “休”是动词性语素,是“休息、休养”之义,根据(10),可得:“休疗”是动词性单位,内部是连动结构,意思是“休养治疗”。 热疗 包疗 优疗 义疗这一组词中,和“疗”组合的“热、包、优”是动词性语素,“义”是形容词性的语素,它们和“疗”都不属于一个语义场。通过查询词典可以发现,在“疗”的构词信息中,没有现成的规则可供利用。这时,我们可以充分发挥另一个单字构词信息的作用。对于计算机来说,这几个单字的意义是已知的,以这些单字居于前位构词的相关信息也是已知的。综合“热、包、优、义”的相关信息,我们可以得出:“热疗”和“热处理”类似,“热”是“加热”之意,“热疗”就是“通过加热消除疾病”,状中结构。“包疗”和“包教、保修、包销”类似,“包”是“承担下任务,负责完成”之意,“包疗”就是“承担下医治疾病的任务,负责完成”,述宾结构。“优疗”中的“优”是“优待”之意,“优疗”是“以优待的方式治疗” 在已登录词中,没有和“优疗”理解模式相同的词。“优”是多义语素,第一个义项“优良、美好”多是形容人、物的。第二个义项“优裕、富裕”多是说明境况的。第四个义项“演戏的人”,由“疗”组成的前空型的词语模一般前面不能是表人的名词,所以,“优”只能选择第三个义项“优待;厚待”。,状中结构。“义疗”和“义诊、义演、义卖”类似,“义”是“合乎正义或公益的”,“义疗”就是“为资助正义或公益事业而医治疾病”,状中结构。 自疗“自”是代词,和一样,在词典中没有现成的规则可以利用。因此,可以从“自”的构词信息中入手。“自疗”和“自爱、自称、自乘、自持、自封”类似,“自”是“自己”的意思,“自疗”就是“自己医治自己的疾病”,动词性单位,主谓结构。 神疗 海疗 体疗 一疗 杭疗 公疗 这一组词都是缩略词,“神疗”是“精神治疗”,“海疗”是“海军疗养院”,“体疗”是“体育治疗”,“一疗”是“第一疗养院”,“杭疗”是“杭州疗养院”,“公疗”是“公费医疗”。这些未登录的缩略词不能通过字义求解出词义,必须还原为缩略以前的原形式,才能正确地理解这些词。3 结语由于语言中继承性原则和经济性原则的作用,人们总是倾向于选择已经存在的原材料和已经存在的构词模式来表达新的概念,造出新词。因此,从词典中的已登录词出发,总结每个单字的构词信息,如构词位置、能产的构词模式、用于构词的两个单字在句法语义上的限制等等,登录于词典中,应用于未登录词的处理,从理论上来说是可行的,而上文对“疗”的实例分析证明了这是一种有效地识别和理解未登录词的方法。以“疗”为检索单位在语料中搜索出的40个未登录的双字组合,利用词典中的已知信息和从词典中抽象出来的“疗”的构词信息,计算机可以顺利理解其中的29个,占72.5%。同时利用另一个语素的已知信息和从相关已登录词中抽象出来的构词信息,一共可以理解其中的34个,占85%。这是一个很可观的比例。也就是说,如果我们对汉语中单字的构词信息有了深刻的了解,那么计算机识别和理解未登录词的正确率会大大提高。而同时,未登录词处理的实践又有利于词典中单字构词信息的补充和完善。譬如,从上文2.3中的、抽象出的规则就可以补充进入词典。也就是说,在语言学者、计算机、未登录词之间,存在着这样的一个循环过程:首先,语言学者根据词典中单字和已登录词的句法语义信息抽象出每个单字的构词属性,作为语言知识提供给计算机;计算机再根据这些语言知识来处理未登录词,从而获得一些信息反馈给语言学者;语言学者根据这些信息重新分析未登录词,调整语言知识,再将它提供给计算机,然后重新用于新的未登录词的处理。如此不断循环,计算机处理未登录词的正确率会逐步提高。这个循环可以用图表示如下:提供 知识处理语言学者 计算机 未登录词息信馈反息信 馈反此外,本文分析的“疗”是一个单义语素,但汉语中的语素有很多是多义语素和同音语素,它们在和其它单位组合的时候,还存在一个义项选择的问题,所以情况更为复杂。因此,我们要投入更多的人力、物力,对常用单字构词的情况甚至多义字中每个义项构词的情况作更细致、更大规模的考察,才能真正地了解每个单字的构词模式以及单字构词时相互之间句法语义上的选择性限制。当我们考察了一定数量的单字以后,我们就能得到一张单字构词的网。在这张网上,每个单字都是一个节点。我们可以从任意一个节点开始考察,不同节点的考察结果可以互相验证。当考察了足够数量的单字构词的情况以后,汉语中单字构词的全貌就会渐渐呈现出来。了解了汉语中单字构词的全貌,并将它们以计算机可以读懂的方式放在词典中,相信计算机也可以顺利地由“旧字”领悟“新词”,从而提高中文信息处理的正确率。参考文献:1亢世勇(2001)现代汉语新词语信息(电子)词典的开发与应用,辞书研究第2期。2冯志伟(1997)信息时代汉字的标准化和共通化,术语标准化与信息技术第1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论