




已阅读5页,还剩11页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上海师范大学硕士学位论文汉语方言田野调查用义项系统研究 中文摘要 摘要2 汉语方言词汇数据库的研制工作越来越受到重视,而语义分类系统的开发作 为数据库建设工作的核心内容和关键环节,更成为建库工作中亟待解决的首要问 题。 迄今为止,学术界尚无成熟的语义分类系统,对系统开发中遇到的相关问题 也没有形成定论。笔者参考前人研究,以分析大量语料为基础进行了大胆的尝试, 对汉语方言田野调查用义项系统研究做了积极的探索。本文从制定统一的数据标 准,讨论和澄清先前研究中未形成共识的学术争论等角度对系统开发的理论工作 做了阐述,力求有所突破;从义项的搜集、整理、注释、分类、编码等方面介绍 了义项系统开发的详细过程。全文共四部分,绪论部分阐述了义项系统研究背景 和必要性;第一章对义项系统的相关属性、参数、结构等进行了说明和限定;第 二章详细论述了义项系统的开发流程,是全文的重点;结语部分回顾和总结了义 项系统研究中的不足和经验,进而对汉语方言数据库利用和开发的前景进行了展 望。 关键词: 普遍认知;义项;义项分类;义项编码 上海师范人学硕士学位论文汉语方言田野调查用义项系统研究 t h er e s e a r c ho fc h i n e s ed i a l e c ts e m a n t i cs y s t e mu s e di nf i e l ds t u d y a b s t r a c t : t h e s t u d yo fc h i n e s ed i a l e c tl e x i c o nd a t a b a s ei sr e c e i v i n gi n c r e a s i n g a t t e n t i o nn o w ,a n da st h ec o r ec o n t e n ta n dk e ya s p e c to ft h ed a t a b a s e - b u i l d i n g e f f o r t s ,t h ed e v e l o p m e n to fs e m a n t i cc l a s s i f i c a t i o ns y s t e mh a sb e c o m et ot h e m o s ti m p o r t a n ti s s u e sm u s tb es e t t l e du r g e n t l y s of a r ,t h e r ea r en of u l l y - f l e d g e ds e m a n t i cc l a s s i f i c a t i o ns y s t e m sa sw e l la s i n c o n t r o v e r t i b l ec o n c l u s i o n so ns o m er e l a t e dp r o b l e m si nt h ep r o s s e so fs y s t e m b u i l d i n g b a s e do nal a r g en u m b e ro fc o r p u sa n a l y s i sa n dg e n e r a lr e f e r e n c eo n p r e v i o u ss t u d i e s ,w em a k ea c t i v ee x p l o r a t i o n si nt h er e s e a r c ho fc h i n e s ed i a l e c t s e m a n t i cs y s t e mu s e di nf i e l d s t u d y i n t h i s p a p e r ,w et r y t om a k ea b r e a k t h r o u g hi n t h e o r e t i c a lw o r kt h r o u g he x p o u d i n gt h ee s t a b l i s h m e n to f u n i f o r md a t as t a n d a r d s ,d i s c u s s i o na n dc l a r i f i a t i o no fa c a d e m i cd e b a t ei n p r e v i o u ss t u d i e s a n dm a k ead e t a i l e dd e s c r i p t i o no ft h es y s t e mb u i l d i n g p r o s s e sb yd e a l i n gw i t hs e m a n t i c s ,s u c ha sc o l l e c t i o n ,c o l l a t i o n ,r e m a r k , s e p a r a t i o n ,c l a s s i f i c a t i o n ,c o d i n ge t c t h ef u l l t e x tc o n t a i n sf o u rp a r t s t h e i n t r o d u c t i o nd e s c r i b e st h eb a c k g u o u da n dt h en e c e s s i t yo ft h es t u d yi ns e m a n t i c s y s t e m ;t h ef i r s tc h a p t e re x p l a i n sa n dq u a l i f yt h ea s s o c i a t e da t t r i b u t e s p a r a m e t e r s ,s t r u c t u r e so ft h es e m a n t i cs y s t e m ;t h es e c o n dc h a p t e ri st h ef o c u s o ft h et e x t ,w h i c hd i s c u s s e st h ed e v e l o p m e n tf l o wo ft h es e m a n t i cs y s t e mi n d e t a i l :t h ec o n c l u s i o np a r ti sar e v i e wa n ds u m m a r yo ft h ed e f i c i e n c i e sa n d e x p e r i e n c e si nt h er e s e a r c h ,a n dt h e ni o o kf o r w a r dt ot h eu s ea n dd e v e l o p m e n t o ft h ec h i n e s ed i a l e c td a t a b a s e k e y w o r d s : c o n v e n t i o n a lk n o w l e d g e ,s e n s e ,s e n s ec l a s s i f i c a t i o n ,s e n s ee n c o d i n g i i 论文独创性声明 本论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除 了特另l l j n 以标注和致谢的地方外,不包含其他人或机构已经发表或撰写过的研究 成果。其他同志对本研究的启发和所做的贡献均已在论文中做了明确的声明并表 示了谢意。 储獬:种醐: 论文使用授权声明 伽9 杪占 i 本人完全了解上海师范大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其它手段保存论文。保密的论文在解密后遵守此 规定。 名豫i r 徽飙矽- 彩 上海师范人学硕士学位论文 汉语方言田野调查用义项系统研究 上- - - 刖吾 一汉语方言田野调查用义项系统研究的意义以及必要性。 我国是个多方言国家,共分北方方言、吴方言、湘方言、赣方言、闽方言、 粤方言、客家方言等七大方言区,各方言区语言的语音、词汇、语法自成特色, 类型复杂且差异繁多,甚至会出现操不同方言的人无法交流的情况。而方言作为 当地人民主要的交际工具,不仅仅是保留方言区历史文化和民俗风情的重要资料, 更与人们社会生活的方方面面都息息相关。因此做好方言研究工作对我们这样一 个多方言国家来说意义尤为重大。自西汉扬雄编纂方言起至今,汉语方言研 究从无到有,从静态描写到动态分析,从共时到历时,取得了很大的进展,方言 学已成为语言学的一个重要分支。近年来,汉语方言语音研究成就比较突出,而 词汇研究却相对滞后,究其原因,主要有两点:一是方言词汇数量非常庞大,难 以做穷尽式的统计与描写;二是方言词汇表达各异,不成系统,且存在着大量的 名同实异( 如“爷 在现代汉语方言中多表示“祖父”、“爷爷”,而在安庆方言中 却是“父亲”的意思) 或名异实同( 如“馒头”在北方方言中有“饽饽、“馍 “干 粮 等几种叫法) 的现象。 而田野调查恰恰是克服以上难点的有效途径,因为我们通过田野调查获得的 词汇语料是一笔极其丰富而又详实的资源。一方面,其调查成果的广泛性、真实 性、准确性等都是非田野调查所无法比拟的,田野调查除了能记录最直接的自然 语言外,还“能获得大量的语言社会功能方面的资料川,如不同年龄、性别、职 业的人群在语言使用方面的差异,这恰恰是我们语言资料方面的薄弱环节,因此 汉语方言田野调查对于保护方言以及相关文化遗产有着重要意义。另一方面,对 各地方言进行广泛而深入地调查研究,不仅能了解单个方言词汇发展、演变的历 史,还能揭示各方言之间互相接触、影响的规律,从而为多方言比较提供详实而 可靠的证据。 然而长期以来,语言工作者们辛勤工作积累下来的各方言词汇语料一直被分 散搁置,未能加以整合归类,更缺乏量化的分析和统计,因而得不到充分的开发 和利用,这种资源的浪费令人心痛。范俊军( 2 0 0 6 ) 髓1 便曾指出“因此建立一个完 备的汉语方言词汇数据库,实现对汉语方言词汇大量的基础分析、统计和比较研究 的自动化,很有必要 。近年来,随着计算机技术的普及和进步,为词汇系统的研 究提供了强有力的工具,于是有许多词汇库随之出现。数据库的研制虽然取得了 上海师范大学硕七学位论文汉语方言田野调查用义项系统研究 一定的成果,但由于其完备性、兼容性、简捷性、实用性等方面均达不到令人满 意的程度,无法在全社会范围内普及和应用,不能很好地服务于社会。一方面, 这主要是由于各数据库的研制由不同单位或个人各自实施,缺乏统一的数据标准 而造成的,这种“各自为政”的局面使得现有数据库无法满足科学研究的需要; 另一方面,究其深层原因,我们的研究对象是服务于田野调查的汉语方言词汇数 据库分类,这实际上是一种语义分类,是根据人类普遍认知对客观世界的再分类 和再包装,恰恰是语义分类上的不规范和不系统严重制约了数据库的发展。通过 上述分析我们可以看出,正是这种对成熟规范数据库的迫切需求,催生了语义分 类系统开发工作的开展。 二研究背景 据笔者所知,国内外现有的几种数据库或词表的分类系统分别有以下几种, 现简介如下: 1 中国社会科学院语言文字应用研究所的北方方言基本词汇数据库。该数 据库收录了北方话1 0 0 余调查点和2 0 0 0 余条基本词汇,可以实现普通话和方言 点之间的查询。 2 汉藏同源词研究( s t d p ) ,由丁邦新、孙宏开主持,江荻设计。该系统 收录了汉藏语系1 2 2 种语言和1 2 种汉语方言的1 5 0 0 余条词汇,共分两级,第一 级下设1 4 大类( 用类别名称的大写的汉语拼音首字母表示,如“自然物”的代码 为“z r w ) ,第二级包含4 1 个小类( 依次用阿拉伯数字表示) ,因此该系统代码 为拉丁字母和阿拉伯数字的组合。 3 国外的普林斯顿词表,共收录汉语方言词条近五千条,并且都有英文对照。 该词表也是一个二级体系,共分2 9 个大类,8 2 个小类,暂无代码设计。 4 郑张尚芳老师的分类系统共有1 0 大类9 8 小类,全部用阿拉伯数字排序, 暂无代码设计。 5 社科院麦耘老师的义项分类系统包括4 大类,2 3 个小类,暂无代码设计。 6 修订版的汉语方言词汇调查表义类大纲,共收词条4 0 0 0 多条,按意义相关 归为2 9 类。每个条目之后列举一些重要方言的不同说法供调查时参考,暂无代码 设计。 7 陈海伦的南宁白话词表,共2 9 个大类8 8 个小类,暂无代码设计。 8 民族所的民族语词汇表,按词性分为9 大类,每一大类下又分小类,暂无 代码设计。 2 上海师范大学硕上学位论文 汉语方言野调查用义项系统研究 9 其他即将完成或正在研制的数据库,如云南民族大学的云南少数民族语言 数据库,广西民族学院和广西大学的壮语词汇数据库,厦门大学苏新春的现代汉 语词典数据库等等。 除了江荻老师等设计的汉藏语同源词语义分类系统比较成熟外,其他几种设 计尚在初步构想阶段,或者只涉及到分类,而没有设计代码,不成系统。而且上 述数据库或词表都存在着收词量偏少,方言覆盖面不广的缺陷,其分类系统必然 缺乏普遍意义上的适用性。 3 上海师范大学硕十学位论文 汉语方言田野调查用义项系统研究 第一章关于义项系统的几点说明 近年来,针对多方言词汇比较研究的需要,国内外众多学者都提出了建设多 方言词汇数据库的设想,并已经开始着手实施,但至今未见成熟的系统,因此, 义项系统的研究与开发仍然是一项尝试性工作,没有经验可循,甚至有很多关键 问题及细节尚未解决。笔者自零七年开始在导师的指导下着手进行义项系统的前 期准备工作,即现代汉语方言大词典的整理。同时,加之参考了前人词汇系统的 分类和编码设计,对义项系统的开发逐渐形成了自己的思路,并对一些基础性问 题做了重新定位或深入讨论,现从以下方面将相关问题概述如下: 一田野调查用语义系统的研究对象名称和收取范围 古人说“名不正则言不顺”,名称的混乱,不只是影响到学术的规范,而且 也会影响到分类的本身。词汇意义上的语义系统已经有好几个,如汉语方言大 词典的义类系统、社科院语言所麦耘的概念条系统、北大汉语方言词汇的 词目系统、李如龙客赣方言调查报告的词目系统。这些系统的分类对象名称 不一,如词条、词项、词目、概念条、义类、义项,等等。此外,语义分类对象 的收取范围也一直没有一个明确的标准。这些问题不解决,研究工作就无法进行。 研究目的不一样,分类系统也不一样。例如,以自然语言处理为目的的词汇库, 更注重语法意义的分类;以语言比较与田野调查为目的的词汇库,更注重词汇意 义的分类。目前国内语言学界对语义分类对象的命名,主要有以下几种: 一词条、词项、词目 “词条 与“词项的名称来自于词典编纂。“词条”即词典所列的词的条 目,作为辞典学术语,其表达形式可以是字、词,也可以由字、词等组成,必须 是固定的、不能拆分的,也不能是一句话。词是语言表达概念的音义结合体,是 语言单位中最灵活多变,数量最丰富的一支队伍。词典是为单一语言编的,每个 词都有它的读音,又有它的意义,用词条表达每个词的单位自然是可以的。但是 我们的方言词汇数据库表是用于多语言比较的,是跨语言的。比如说我们用同一 张词汇调查表来调查各种语言的时候,同一个语义在各种语言中的读音是不一样 的。例如,在现代汉语词典中,“舅母 的意义是“舅父的妻子”,读音是 j l u 、 m u 。它具体到汉语各方言中有着不同的叫法:“舅妈 、“舅娘”、“妗子 等,虽 然认知上都是指“对母亲兄弟的妻子的称呼”,但是语音形式却大不相同。在这里, 4 上海师范大学硕士学位论文汉语方言【i j 野调查用义项系统研究 我们是在“对母亲兄弟的妻子的称呼”这个语义上对各种方言的语音形式进行比 较,在这个语义上对各种方言进行调查。也就是说,用作比较与调查的基本单位 只是语义。为了方便起见,我们可以用普通话的“舅母”作这个语义的代表,甚 至可以用英语的同义词“a u n t ”作代表。所以,这个语义单位是超语言的,与语 音形式无关,所以它决不是词,如果用“词条”或“词项”作它的名称是不科学 的。 许多汉语方言学家也意识到这一点,就取了“词目”名称,以区别于“词。 但是,“词目”这个名称从字面上会理解为词的条目,有许多学者在用词目的时候, 也常常与“词”纠缠不请。因此,词条,词目,词项,三者名异实同,都不能准 确反映语义分类对象的本质,也不利于建库工作的顺利开展。 二概念条 认识到“词条等名称的不足,有些语言学家就想到应该另取名称,与“词 相脱离。例如语言所的麦耘认识到用于比较与调查的只是事物的概念,使用了“概 念条”这个名称,“概念条”就是“概念”的单位化和具体化。 这个名称比“词条、词项、词目好,但还是有些问题。为了深入讨论这个 问题,我们还是从“概念 说起。 “概念 一词最初来源于哲学,是“思维的基本形式之一,是人们对外在世 界的切割与包装,是对外在事物、现象的共同认知”。例如,“红色”这个概念, 是把血的颜色、鸡冠的颜色、红旗的颜色、丹顶鹤头顶的颜色都包装在一起,与 其他颜色区别开来,形成大家共同的认知。而语言则是思维的直接现实,人类的 思维基本上通过语言进行。所以,概念基本上也是通过语言单位实现的,特别是 词汇,成了表达概念的基本单位。离地球最近的那颗恒星,是全人类都有的概念, 在各个人群中用不同的词来表达,英国人用s u n ,北京人用“太阳,上海人用“日 头 。 概念作为一种人类认知,有时先于语言表达而产生。比如,现在流行的网络 词语“宅男”、“宅女,指“痴迷于某事物,依赖电脑与网络,足不出户,厌恶上 班或上学的人”,多为年轻一代,进而也指喜欢猫在家里,不善于人际交往,不愿 参加社会活动的人。这一概念古已有之,如今因为网络的广泛应用,实现了它的 词汇化。 但是,人类的概念是一个复杂且庞大的集合,并不一定都用语言单位来表达, 有时也通过其他途径表达,如手势、信号、肢体语言,图画、声音等。但是语义 上海师范大学硕士学位论文 汉语方言i t i 野调查用义项系统研究 是用语言单位表达的概念,所以语义必须由语言来表达。也就是说概念大于语义, 语义只是概念的子集。由此我们可以得出结论概念条虽然同语义有关,但不等同 于语义。语言数据库研究的对象是语言,所以我们涉及的对象是用语言表达的概 念,即语义。使用“概念条”这一术语,外延太大。 三义类、义项 既然把语义定为我们的研究对象,那么就有一个把语义单位化的问题。 李荣主编的现代汉语方言大词典,采用了“义类 作为语义单位。汉代 刘熙指出“名之于实,各有义类 ,可见“义类 作为命名取义之法则古已有之。 尔雅就是我国历史上最早的一部义类辞典。 但是“义类”这个名称也不恰当,因为“类”字有聚合之义,偏向于一种集 合,说“天体 是一个义类可以,说“太阳”是一个义类,就不太合适。于是有 些语言学家提出“义项”的名称。 不过义类和义项并不对立,它们有着密切的联系。人类对世界的划分是有层 级性的。义项是个体,义类是集合,二者为上下位关系。在庞大的数据库系统中, 处于最底层的若干个义项x 构成它们的上位义类a ,a 和其他几个平级的义类又构 成再上位的义类b ,b 再和其他义类构成更上位的义类c 。在这个层层关联的 金字塔型体系中,相对于b 来说,a 是义项;相对于x 来说,a 是义类。同理,b 也同时具有义项、义类双重身份。数据库就是这样自下而上搭建而成的,是一个 复杂而有序的义项、义类系统。 义项,最初是作为词典学中的一个重要术语出现,是词或语素在某工具书中 的一个语义单位,它可以是一个词的意义,也可以是一个成词语素的意义,还可 以是一个不成词语素的意义。我们这里所说的义项与词典中的使用稍有不同,我 们指的是用语言单位表示的概念。语言单位包括语素、词、词组、句子、篇章等, 如果把这些单位所表达的概念都列入义项的范围,义项的规模就是天文数字的。 那么,我们该选用什么语言单位作语义的承担者呢? 我们的观点是词。词是语言 中可以自由运用的最小单位,是语言表达的最基本单位,它所构成的词组、句子、 篇章的语义都可以从构成它们的词所担负的语义以及这些语义间的相互关系得到 解释。此外,词的数量有限,所有词所代表的义项也就成了有限集。所以我们将 义项限定于用词来表达的语义。 所有汉语方言的义项的集合,就是汉语的义项系统。但是,把各地方言的义 项集合在一起的时候会出现这样的问题,一些方言中的义项在另一些方言中没有 6 上海师范大学硕士学位论文 汉语方言田野调查用义项系统研究 对应的词。以太原方言为例,当地人把“女儿与继父的前妻的儿子结成的夫妻 叫做“姊妹婆夫”。虽然其他方言区的认知系统中也有这种亲属关系的概念,却没 有一个固定的词来表达这个概念,普通话中也没有与之对应的词。在义项数据库 中,我们就在这些方言中填上用来表达这个概念的更大的语言单位,这就是我们 下面要讨论的问题。 四义项的描述 因为义项只是一种概念,用什么语言来描述它都可以,有些汉语方言义项系 统就是用英语来描述的( 如普林斯顿词表) ,英语描述的好处,在于更具国际性。 但是我们的系统采用普通话来描述,主要出于以下的考虑。 1 普通话与其他汉语方言都属于汉语,它们之间更有可比性。 2 普通话是汉族人民的标准共同语,词汇丰富而规范,几乎包括了各方言区 的所有基本词汇,各方言中的义项,在普通话中也是一个义项,就是说有固定的 词与之对应。 所以,用普通话作义项的描述,对汉语义项系统的研究就会非常方便而且有 效。所以我们的做法是,一个义项在普通话中如有对应的词,就用普通话的词来 描述它;普通话如果没有对应的词,就用比词更大的语言单位来描述。 我们还会碰到另一个问题,_ 个义项在普通话中可能有多个词与之对应。如 淮山一山药,外婆一外祖母,泡茶一沏茶我们提出最简原则和通用原则来做出取 舍。类似“虎一老虎”,“眉- i e 曼眉 ,“毛虫一毛毛虫 这几组同义词的,依据最简原 则我们一律选用“虎”,“眉”,“毛虫作为义项名称;而像“倒酒一斟酒”,“妈妈 一母亲 ,“老家一原籍 这一类同义词,我们则根据通用原则来选择。众所周知, 口头交际灵活多变,但是书面用语却相对规范和稳固,通用性也更强一些,因此 我们选用“斟酒 ,“母亲 ,“原籍”等书面语或更文言化的词作为义项名称。( 这 是义项系统中比较复杂的一个问题,将在后面的章节中详述。) 综上所述,我们可以发现“词条( “词项 、“词目 ) 一“概念条”一“义 类 一“义项”反映了人们对田野调查用语义分类系统认识的深化。使用“义项 作为我们研究对象的名称,能够更科学、更准确地反映语义分类的本质以及语言 学涵义。 二义项系统的研究宗旨及分类基础 在科学研究中,目的往往决定方法和过程。研究目的不同,义项系统的服务 7 上海师范大学硕士学位论文 汉语方言f f j 野调查用义项系统研究 宗旨、分类依据、整体架构、操作过程等都将大相径庭。 本文所述的义项系统既来之于田野调查,又服务于田野调查。一方面,义项 系统开发是为了汉语方言词汇数据库建设做准备,而数据库的建设则是把通过田 野调查获得的大量汉语方言词汇资料数字化的过程。另方面,义项系统成熟之 后,又可以作为种语言调查软件服务于田野调查,因为一个成熟的义项系统必 然具备合理的分类,我们可以将调查的语料分别归入已有的分类体系中,这又进 一步充实了义项系统。义项系统除了作为直接服务于田野调查的工具外,对于语 言研究还有更深远的意义,i i p n 务于语言比较。 语言学界历来就重视通过历时比较和共时比较来认识语言特点、分析语言规 律。其中,方言比较就是研究和认识语言规律的重要方法之一,这是由汉语方言 的复杂性和特殊性决定的。诚如钱曾怡先生( 1 9 8 7 ) 3 所言“某地方言以自身的历史 发展所形成的特点区别于其他特点,以或此或彼的相同、相似的特点或彼此的差 异程度构成整个语言内不同层次的方言的地理分布系统 。就纵向而言,方言内部 有历史差异,就横向而言,方言之间有地域差异。无论是方言的差异还是类似, 都是历史演变结果在语言上的反映,或者可以说语言的历史演化都会表现在共时 的差异中,因此通过方言比较我们可以构拟或推测方言的起源、发展、演变过程, 甚至准确地还原语言历史。同时,方言在形成发展过程中不但受自身规律支配, 也受共同语的影响和支配,更容易和周边地区方言发生语言接触,彼此留下痕迹, 通过邻近方言之间的比较我们还可以发现从内部看不到的事实和规律,从而得到 更加全面的认识。简而言之,方言与方言之间,方言与共同语之间存在着千丝万 缕的关系,语言学家正是利用了这种差异与共性来进行研究。以往,人们更多地 关注汉语方言的一致性及其与共同语之间的内部联系,没有将范围扩展到更广大 的方言之间,更不要说深入细致地讨论大方言区或小方言点之间的内外联系。这 不仅是对数量众多且丰富的现代汉语方言资源的浪费,也是我们方言研究的缺陷 与问题所在。随着研究的深入和语言理论的发展,人们已越来越认识到,现代汉 语方言比较对于了解古今汉语的发展历史和现代汉语规律特点有着重要意义,汉 语方言比较研究不仅是方言研究的需要,更是汉语研究科学化的需要,将把整个 汉语语言学研究推到一个新的高度。 田野调查用义项系统建成之后,各方言义项可以通过与普通话义项的对应来 进行比较和印证。虽然语音形式千差万别,但绝大多数方言词汇在普通话中都能 找到对应的义项,进而加深我们对方言词汇的演化、发展的认识,我们相信方言 8 上海师范大学硕士学位论文汉语方言田野调查用义项系统研究 词汇比较研究一定会为汉语词汇学、语义学带来新的视角,前景不可估量。 明确了义项系统的宗旨所在,也就确定了研究的立足点和整体基调,从而对 义项系统的结构布局及开发过程有了基本定位,首先就是对其分类基础有了科学 的认识。如果把成千上万的义项比作人体的细胞和组织,那么义项分类体系就是 人体的骨骼,起支撑作用,所有已有的和待采集的语料都要填充到这个框架当中 去。因此我们采取怎样的标准来分类,如何分类,都是至关重要的,直接关系到 整个系统的布局,如果混淆于信息处理用义项分类,就会导致研究误入歧途。 田野调查用义项分类完全不同于侧重于语义间逻辑关系的信息处理用分类, 不需要诉求语义分类之间严密的语义逻辑关系,语义层级也不需要分得太细。它 侧重于词汇意义的分类,这种分类是建立在人类普遍认知的基础之上的对主观和 客观世界的切割与包装。我们知道语言是音义结合的交际工具,语音是其外部形 式,千差万别,无从比较。意义是其内在所指,反映了人类对主观世界和客观世 界的认识。在漫漫历史长河中,世界各民族人民对事物逐渐形成了统一的普遍认 知。我们以颜色词为例来说明普遍认知的含义,在“全球颜色词调查计划”h 3 中, b e r l i n 和k a y 发现,尽管不同语言中基本颜色词数量不等,但存在这1 1 个普遍 的基本颜色词范畴,而且是按照一个分为七个阶段的普遍发生顺序先后出现的, 即任何语言中如果有两个基本颜色词,那就是黑和白;如果有三个基本颜色词, 那么就是黑白红;如果有四个的话,这第四个不是表示绿就是表示黄这是颜 色词进化的普遍认知。从自然科学的角度讲,物质颜色原理是这样的:当物质( 分 子或离子) 吸收了相当可见光能量的电磁波后,就会表现出被人眼所能觉察到的颜 色。物质之所以具有不同的颜色,这是因为它对不同的波长的可见光具有选择性吸 收的结果。因此对于物理学家来说,颜色的辨认涉及到光学、材料学等方面的专 业知识。至于何种材料吸收什么颜色的光,却并非常人所具备的知识,虽然如此, 各国各民族人民在面对五花八门的颜色时仍然能轻松区别黑、白、绿、红、黄等 几种基本颜色,并且不会发生混淆和分歧。这种颜色词指认上的普遍认知,是全 世界人民在长期的社会生活中形成的统一认识,是全球共通的。 我们再以“马”为例来说明语言是如何反映认知变化的。说文马部中收录 马名达4 8 个之多,如骠( 黄马发白色) :驹( 马两岁) ;骥( 千里马) ;骊( 马深 黑色) 等。正如陈原先生社会语言学( 1 9 9 7 ) 陆3 所言“在远古中国,马是重要 的交通工具和生产工具。它是这样重要,以至于当时的社会生活要求对马做 出细致的区分,只有做出细致的区分,人们才能更加有效地去探索生产和管理生 9 上海师范人学硕1 :学位论文 汉语方言田野调查用义项系统研究 活。 到了明清时代,马作为重要生产力用来的拉车、打仗、骑乘的功能依然重要, 但随着人们认识的深入,概括能力越来越强,上古的马名就有多数已不再使用。 而在如今的社会生活中,马的社会功能早已大大弱化,那些分类繁琐、没有现实 意义或不经常使用的马名就逐渐被淘汰了,彻底退出了日常交际的舞台。通过目 前义项系统所收集的语料显示,关于马的种类的义项共有“马”、“公马”、“母马、 “马驹”、“骟马”、“矮马( 马的一种) “马骡”等几项,已大大简化。这种命名 方式也不同于动物学家的物种分类,是日常生活中积累的被汉族人民广泛接受的 认知。 通过上面的分析可知,我们所说的普遍认知是全人类在漫长的历史发展和社 会实践中,对客观世界和社会事物的本质特征所形成的认知,这种认知是全民共 通的,是一种最基本的、最普遍的认识,义项分类工作就是在此基础之上进行的。 既然以普遍认知作为分类依据,那么我们在对义项进行分类时,就不需要辨析语 义内部的色彩义、感情义等因素的影响,也不需要进行同义词、近义词的辨析, 更不需要以结构语义学,认知语义学、语义场等方面的知识作为理论支持,这样 的话只会使研究复杂化,偏离方向,越走越远。我们需要做的是按照日常生活中 的经验性的基本认知来分类,以能反映最多数人的认知的分类为最佳方案,义项 层级体系的建设即以此为指导思想。 三义项系统的结构说明 汉语方言词汇数据库是个多方言词汇数据库,由多个子数据库组成,那么义 项系统也必然由各方言的子系统组成,因此完整的义项系统应包括个总的义项 系统和各个方言点的子义项系统( 共四十一个子系统,以李荣主编的现代汉语 方言词典为方言点确立标准) 。总系统和子系统之间,子系统和子系统之间,都 可以进行大规模的方言间的比较。因时间有限,本文只研究了总的义项系统部分。 无论是总系统还是子系统,其所含字段和内部组织方式都是相同的,不同之处就 是:子系统中还要包括该方言点的名称和方言使用概况。下面我们就来介绍义项 系统的结构和组织方式。 义项系统共包括4 个字段:义类,编码,义项,备注。 ( 一) 义类,即义项类别归属。义类字段用汉字全称表示,具体分类见第二 章。 ( 二) 编码,又称唯一码,即义项的顺序号,没有特别的意义,只是作为一 1 0 上海师范大学硕士学位论文汉语方言田野调查用义项系统研究 种识别码,其作用类似于我们的身份证号码,通过编码可以实现对义项迅速而准 确的查询和识别。 每个义项都有唯一且特定的编码,即一个义项一个唯一码,一个唯一码一个 义项。我们的初步设想为每个唯一码能够满足以下要求:1 、为了方便使用和节省 空间,唯一码的字符长度应以简短为佳,不能过长;2 、使用人在参阅系统说明之 后,通过唯一码能够大致判断出该义项所从属的类别,换言之,唯一码从形式上 要与义项分类相对应,并且这种对应要容易联想,便于记忆。这就意味着对唯一 码的编制提出了更高的要求,从另一个角度讲,这也是义项系统工具性原则的体 现。 ( 三) 义项,是系统的主体部分,尽量用普通话词汇来描述,详见第二章“义 项提取 部分。 ( 四) 备注,是对义项名称中的未尽事宜所做的补充说明,字数力求精简。 因方言词汇丰富生动,加之使用情况复杂多变,因而很多方言义项在用普通 话词汇表述时难免有失贴切,备注的作用就是除了让使用者准确地理解义项所表 达的基本意义之外,还能体会到它所蕴含的极具地域色彩的历史、民俗、文化方 面的信息,从而更好地服务社会,体现出义项系统的实用价值和学术价值,这也 是义项系统开发的题中之义。 现以南宁平话词典举例说明( 例子中从左到右依次为:方言词汇,国际 音标,义项,其中括号内部分为备注) : 出材t s h o t 4t s a i 4s ( 把灵柩运到安葬或寄放的地点) 花堂歌h u a lt h a l j 4k o ls ( 妇子出嫁前与作陪女伴一起唱的出嫁歌) 方言中反映民俗风情、宗教迷信的义项占有相当比例,如果我们不在备注中 加以说明,很难理解。 ( d 全扣t s y n 4k u ls ( 扣肉的一种) 口耙t l l 购1p a 4 摊耙( 晒谷时用来摊匀谷子的器具) 饮食工具类中也有很多义项极具方言特色,需要加以注明。 盼p h a n l 庹( 量词) 老红花l a u _ h 0 1 3 41 3 a 、s ( 年纪较大的,还没有结婚的男人和女人) 备注部分还可以提示方言义项的语法意义( 如词性) 或社会功能( 如称谓中 的尊称、自称、背称、面称) 等方面的信息。 在明确各字段含义后,接下来对义项系统的其他参数指标做简单的介绍。 上海师范大学硕+ 学位论文汉语方言田野调查用义项系统研究 本系统采用e x c e l 工作表,一方面是出于便于介绍,容易操作的考虑,因为 这是多数人都比较熟悉的一种o f f i c e 软件。另一方面,义项系统本身结构相对简 单,没有使用复杂软件的必要。这样系统完成后,一目了然,既美观,又便于以 后添加其他字段或者新的义类、义项等,从而更好地为汉语方言词汇数据库的建 设做准备。 字体及其他:若无特殊情况,中文部分一律使用简化字输入,采用统一的字 体;凡是不知道本字而用同音字或近音字代替的,照词典原样输入,不另作标识; 由于方言义项中有一定数量的生僻字,国标字库中没有,那么就选择“宋体一方正 超大字符集”,仍然无法显示的,用口表示。注音部分使用“云龙国际音标输入法” 输入,可从“东方语言学”网站上下载,字体选择i p a p a n n e w 音标符号。 四义项系统的内在要求 结构层次要合理,组织方式要得当,这都是义项系统得以存在和正常运行的 外在必需。除此之外,一个较为成熟的义项系统还应具备很多潜在的特质,只有 满足了这些条件,才能在科学研究和社会生活中发挥作用。 一工具性 立足于为田野调查和方言比较服务的目的,本文所述的义项系统的工具性特 征便更加明显了。既是工具,就必须符合简单清晰、容易操作的要求,因此我们 在设计系统时应考虑到满足以下几点: 1 义项系统的分类层级要适度,每一级的名称也应尽量言简意赅。试想,如 果分层过多过细,必然造成很多不便:一是义项系统分支错综庞大,出现类别之 间的交叉重叠现象,不仅占用空间且产生大量冗余信息;二是很多义项的归类模 糊,不得不重复归类,造成查询上的不便:三是层级越多,唯一码的位数相应也 就越长,使用者辨认起来很困难,那么义项编码的类别指向作用就弱化了。 2 在确保唯一码能标示出义项类别的基础上,其位数越少越好。( 这一点在 前文中已讨论过,不再重复) 3 义项描写采用普通话词汇,如果普通话词汇没有的,也应用最简短的语言 来概括。( 关于此将在下文中进一步阐述) 二开放性 语言反映社会的特点决定了它的不稳定性和复杂性,方言词汇更是如此,而 义项系统收录的都是活的语言,也不可能是一成不变的,在经过一段历史时期的 1 2 上海师范大学硕上学位论文 汉语方言田野调查用义项系统研究 发展后,旧词消亡、新词产生,词义变化的程度很可能远远超过我们的想象。另 一方面,语言田野调查是一项长期的历史的任务,随着科学的发展和现代调查技 术的普及,语料的丰富性和准确性将大大提高,因而义项的修订和完善工作是永 无止境的。 作为一种面向广泛社会群体的工具,义项系统应有较为突出的实用性,更必 须经得起实践的检验。而检验义项系统是否成熟的最佳途径,就是将其投入到田 野调查实践中作为调查软件来试用。在检验过程中,必然发现很多问题,有些问 题是可以预见的,如义项层级体系中需合并、删除或新增分类等;或者在后来的 调查中发现已有方言词汇对应的义项需要修正;又或者在后来的调查中会发现新 的义项,这就需要补充到已有的义项系统中,那就意味着同时还要为之编制相应 的唯一码。而有些问题我们现在还预见不到,这就对义项系统提出可以任意添加、 修改的要求,因此封闭型的系统无法反映语言现实,也无法满足我们的使用需要。 对义项系统来说,开放性是保证其与时俱进的基础。义项系统就是在这样一个不 断修正的过程中逐渐完善起来的。 三完备性 义项系统不仅仅要具备检索查询功能,还应有大规模的比较分析功能,所以 完备性也是考察系统成熟与否的重要标准。英语的“l u n c h ,在汉语中对应有“中 饭”、“午饭”、“中餐、“午餐”四种说法,当然我们只采取其中一种作为义项名 称。可是汉语方言的情况就没有这么简单了,往往是于细微处见差异,如柳州方 言中,称“父亲的妹妹 为“姑k u l ,而称“父亲的姐姐 为“姑妈k u lm a l , 可见方言义项中有这样的区别和对立,义项间的区别特征较之普通话更丰富,那 么问题也就随之而来,到底应合并为一个义项还是算做两个独立的义项呢? 因此 我们在选取义项和给义项命名时就要采取慎重的态度,综合考虑各方面因素( 如 该义项的普及程度、地域分布、有无区别价值等) ,既不能大包大揽,将所有类似 义项一概而论地都收入系统之中,将给系统造成沉重的负担;当然也不能无视义 项差别,断章取义地选取其中之一作为代表收入系统之中。总之,本文所研究的 义项系统是为汉语方言数据库的建设做准备的,不同于现代汉语词典、同义 词词林、简明汉语义类词典、现代汉语方言词典等工具书,并不是单纯地 反映现代汉语普通话( 或方言) 词汇的构成与概貌,而是对汉语方言一种全面性、 历史性的整理与展示,因此完备性要求显得尤为重要。 四兼容性 上海师范大学硕士学位论文汉语方言i j j 野调查用义项系统研究 这是义项系统开发中的技术环节,直接关系到义项系统的可操作性。本文向 大家呈现的系统采用的是e x c e l 工作表,但是所有义项在未经计算机处理之前都 是以w o r d 文档的形式保存的,在后期的处理过程中,为了将人工整理、输入的各 方言点义项准确地析出,经常需要在不同文档之间相互转换,此时先前工作中的 问题就暴露出来了,因输入义项时估计不足,在由w o r d 文档向e x c e l 文档转换时, 往往无法靠编程实现一次性的转换,不得不多次进行手工修改,引起了很多不必 要的麻烦,浪费了大量精力,这是后续工作中必须注意的一点。另外,义项系统 并不是我们的最终目的,只是迈向汉语方言数据库建设的第一步,数据库的查询、 排比、比较、计算等复杂工作都要靠计算机来实现,因而往往采用f o x p r o ,a c c e s s 等关系型数据库,同样也涉及到不同文件之间的转换与兼容问题。可见在义项系 统开发过程和未来的数据库建设工作中,我们都要吸取先前的教训,尽量统一格 式,明确标识。由于该环节涉及计算机方面的知识较多,因此大多是在导师的帮 助和指导下完成的。 工具性、开放性、完备性、兼容性等四个特点彼此相关,互相影响,既是义 项系统正常运行的内在要求,也是衡量它达标与否的重要标志。 1 4 上海师范人学硕士学位论文汉语方言田野调查用义项系统研究 第二章汉语方言田野调查用义项系统开发流程 目前关于义项系统的开发尚在尝试阶段,笔者在导师的悉心指导下,立足于 服务于田野调查和语言比较的宗旨,明确了系统研究的理论基础和工作方法。在 对大量语料进行整理的过程中,对义项系统的开发逐渐形成了自己的思路:第一 步是义项提取。目的是积累尽可能丰富而准确的义项,为系统研究奠定基础。在 提取义项时,鉴于现代汉语方言词典中没有现成的义项,需要手工逐条对应, 相对于词表来说更耗时耗力,因此按照先词典后词表的顺序来处理。通过对一定 数量词典的处理,对方言义项的分布情况和义类属性等信息便有了整体性的掌握, 再经过个人语感和理性思维的分析之后,一个粗略的义项分类体系便已了然于心。 因此,义项提取工作实际上也是义项分类的大致规划阶段,二者是交叉进行的。 词典部分的义项提取进行到一定阶段后,便着手处理词表。词表中的大部分方言 词汇已经列出,通过计算机技术处理即可。此时我们以所有从词表中提取的义项 合集作为底本,正式开始进行义项分类工作,这样义项层级体系的框架便已初具 规模。接下来利用计算机程序( 无法编程的,便手工一一填充) 将从词典中分析 出的义项填充到该框架中,义项填充的过程也是分类框架的调整阶段,因为方言 词典中的义项的加入,很可能导致已有义类的合并、分化、删减和新义类的增添。 待所有义项填充完毕之后,剩下的工作就是为每个义项编制唯一码,有备注的义 项要为其添加备注,至此义项分类体系最终成型。当然,在系统开发的整个过程 中,因经验不足,遇到了很多问题,走了很多弯路,非常值得总结,以供后来研 究的借鉴之用。现将整个流程分阶段详述如下: 一义项的提取 义项提取工作是义项系统研究的前期准备阶段,直接影响到义项系统的完整 性和分类框架的合理性。只有尽可能全面、详细地掌握现代汉语方言义项的意义 属性与分布,才能将其准确归类,从而设计一个切实可行的分类框架。毫无疑问, 积累数量庞大的义项,是系统开发得以进行的前提条件,否则所有努力都将成为 无源之水。因此,我们的首要工作就是要尽可能多地搜集义项。广大语言工作者 辛勤工作搜集积累下的方言词汇语料不计其数,而义项提取工作简而言之就是从 成千上万条方言词汇中找出对应义项并加以整合的过程,工作任务繁重却又来不 得半点儿马虎,难度很大,一个人的力量太微不足道,因而该部分工作得到了很 上海师范人学硕上学位论文 汉语方言田野调查用义项系统研究 多人的鼎立帮助。 该环节工作共分三步:手工批注、电脑录入、后续整理。在分步详述以前, 我们先介绍一下本系统所收入的义项的来源:汉语方言的调查工作近年来有所进 展,为义项系统研究提供了详实的语料,尤其是方言词汇的调查研究后来居上, 大批方言词典和词表问世,据粗略统计达近百部之多。这些资料不仅仅为我们查 阅方言词汇提供帮助,更为我们开展大范围大规模的词汇比较提供可能。本文所 用资料主要包括以下两方面:一是学术界通行的几种分类词表,如民族语词汇表、 普林斯顿词表、南宁白话词表等,基本是某一区域方言义项的最大公约数,远远 不能满足汉语方言词汇数据库语料覆盖面广
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025安徽芜湖市特种设备检验研究院招聘编外人员6人模拟试卷及答案详解(名校卷)
- 2025年福建省罗源县城市管理和综合执法局内勤人员招聘考前自测高频考点模拟试题及答案详解参考
- 2025赤峰市松山区招聘32名乡镇卫生院工作人员模拟试卷带答案详解
- 2025江西赣南医科大学高层次人才招聘180人考前自测高频考点模拟试题及1套完整答案详解
- 2025安徽六安市“政录企用”人才引进50人模拟试卷及1套完整答案详解
- 2025年新联兴职业学校(邯郸永年校区)公开招聘教师62名模拟试卷及答案详解(典优)
- 2025年齐齐哈尔市富裕县社会保险事业中心公开招聘公益性岗位人员1人模拟试卷附答案详解(模拟题)
- 2025湖州安吉国丰热电有限公司招聘57人模拟试卷及答案详解(夺冠系列)
- 七年级上册历史第一次月考卷(第1-6课)含答案
- 2025年税务师资格认证考试真题附答案
- 中医课题申报书的范文怎么写
- 五粮液企业文化知识竞赛题及答案
- 羽毛球起源教学课件
- 2025年公基常识题及答案
- 诺如病毒胃肠炎诊疗方案(2025年版)解读学习课件
- 2025年地方AMC行业研究报告及未来行业发展趋势预测
- 农业综合行政执法大比武试题库(试题及答案)
- 2025年零碳园区发展白皮书-荣续ESG智库
- 国企新员工入职纪检培训
- 边境守护者边境管控信息化平台建设方案分析
- 变电站安全准入培训内容课件
评论
0/150
提交评论