语料与英语词典编撰溯源.doc_第1页
语料与英语词典编撰溯源.doc_第2页
语料与英语词典编撰溯源.doc_第3页
语料与英语词典编撰溯源.doc_第4页
语料与英语词典编撰溯源.doc_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语料与英语词典编撰溯源语料与英语词典编撰溯源中国人民大学外语学院 张卫平1张卫平,中国人民大学外语学院教授,研究领域:语言与文化,词典编撰;电话O) 许葵花2许葵花,中国人民大学外语学院讲师,研究领域:认知语言学,语料库语言学。通讯地址:中国人民大学外语学院,邮政编码:100872,联系电话电子邮件:,。提 要:语料与词典编撰息息相关。词典编撰经历了词典语料、先电子语料和电子语料三个阶段。语料从词典编撰的后台走到前台,与其的依附关系变成了引领关系。基于电子语料库的英语词典编撰已蔚然成风。电子语料库使词典编撰进入一个新时代,改变了词典编撰原则、形式、时间等,使其更具有科学性和时效性。关键词:语料 英语词典编撰在词典学的历史中,语料一直起着很重要的作用。词典的编撰必须要有语料来源。那么,什么是语料呢?根据韦伯斯特大学词典的定义,语料是知识体或知识的汇集,尤其是作为描述性语言分析基础的在录话语收集。在牛津高级学习者词典中,语料是指用于研究的材料汇集(例如,对于语言学家来说,语料就是口语及书面语的用法汇集)。在郎曼语言教学和应用语言学词典中,语料被定义为用于特殊目的的材料集合。例如,用于分析、比较的一套教材或用于分析语言学特征的例句或话语范例。韦伯斯特大学词典强调了口语语料的重要性。郎曼语言教学和应用语言学词典和牛津高级学习者词典的释义具有普遍意义。一般来说,语料是指用于任何研究的语言材料集合。例如手工记录语料、词典、文本以及计算机出现后的电子语料库。语料尤其广泛地应用于各种语言研究中,当然也包括词典编撰。英语词典编撰与语料息息相关。在英语词典编撰的初期,语料就以这样或那样的形式存在着。英语词典编撰的最初语料来源是词典版本。在词典编撰历史中,这一阶段的语料摄取方法被戏称为“掠夺”。由Robert Cawdrey编定并于1604年出版的第一部英语词典词汇表(A Table Alphabeticall)囊括了 Edmund Coote 的英语学校通(English School Master)一本带有简略意义的语法祈祷书90%的内容,它另有三千词条来源于Thomas Thomas的拉英双语词典( Dictionarium Linguae et Anglicanae)。而之后, 1616年John Bulloka的英语讲解(An English Expositor)又挪用了Cawdrey 和Thomas词典中的许多词。1623年Henry Cockeram的英语词典(The English Dictionarie)或叫做英语难词解析(An Interpreter of Hard English Words)无情地抄袭了 Bullokar的词序表和定义并把 Cawdrey 词典中Bullokar忽视的部分全部抄过来。反过来,作为一种公平竞争, Bullokar 1663版的词典又囊括了Cockeram 的百科词条;而Cockeram在他的下一版中从 Bullokar词典中抄取了更多。1656年Thomas Blount的词汇注释表(Glossographia)多半来源于 Thomas的词典和 Holyoke的词源词典(Dictionarium Etymologicum)。两年后Edward Philips的英语词汇新世界(The New World of English Words)又与 Blount 的版本相似。之后,该词典被Stephen Skinner大量借用编定了英语词源( Etymologicon Linguae-anglarae)。另一部在Philips词典基础上编定又大大扩充的是1676年Elisha Coles的英语词典(An English Dictionary)。这种以现有词典为蓝本的词典编撰是由当时的英语语言状况所决定的。十七世纪,在文艺复兴的影响下,古典语言拉丁语在词典编撰中倍受青睐,英语词典编撰也遵循了难词传统。这一方面是词典编撰家出于对英语词汇量少,描写匮乏的考虑;另一方面是词典编撰者们为知识而知识的学究至上主义。再者,古典拉丁语语词丰富,可以提供了英语中没有的描述用词,因此成为英语词典编撰家们借用的主要来源。大量拉丁语中的难词被引进英语土语中并英语化,成为现代英语语汇的一部分。例如,Cockeram词典中abequitate, bullulcitate和sullevation等都是从拉丁语借来的。难词传统的另一个体现是收录陈旧的老词。例如,Coles的词典收录了几千个Chaucer时期的老词。同时,词典中的词条除了定义还有词源标注,兼或有百科知识类材料的收录。这也是这一时期的特色。英语词典的编排也大体上仿照了拉丁语词典的模式。英语词典收词量也不断扩大。最初,Cawdrey的词典收词仅3000条,十多年后,Bullokar的词典收词大约是他的两倍,而之后Edward Philips的词典收词量突破10,000,共有11,000词。而在不久之后的七十年代,Elisha Coles的词典收词量又翻了一番还多,收有25,000词。到了十八世纪早期,词典编撰的主要语料来源很多还是词典版本。但这时“难词”传统最终让位给了“普通用词”。词典是为广大普通读者服务的。因此,这一时期John Kersay 的新英语词典(1702)及其修订版,还有后来Nathan Bailey 的全球英语词源词典在参考多部词典的基础上都注重普通用词的选录。这一时期收录词最高达48,000个词条。1755年Johnson的煌煌巨作英语词典出版。Johnson的词典一方面当然也得益于其他的词典。他尤其提到了Bailey, Philips和 Ainsworth ;另一方面,由于这一阶段词典编撰还一直受规约主义的影响,他的词例来源颇为考究,广泛引经据典引用过去和当时最伟大作家的作品,唯名家是尊。名家作品成为他的词典的语料来源之一。这在当时语言使用混乱的情况下起到了规范语言的作用。他的词典被看作是标准语言的典范。随着英语的不断传播和发展,英语的区域性发展越来越得到使用者们的重视。到了十九世纪,Webster 的简明英语词典(A Compendious Dictionary of the English Language)和之后的美国英语词典收录了很多在美国形成或使用的词和定义。他把美国英语视作一种独立的语言,与英国英语不同,有自己独特的特点。因此,他的词典语料来源就有很多是美国本土收录的真实语言。而同时久赋盛名的牛津英语词典虽然从历时角度编撰,其语料的收集堪称艰苦。五百万的引证收集工作经历了二十年(18581881),然后进行分检,再由编辑分析、定义、收录具有代表性的例证。正如希腊格言所说“一本大部头的书就是一个恶魔。”词典编撰中语料的收集、汇编更是“苦之又苦,枯燥之又枯燥”。但这也并不是说所有的语料都可以收入到词典中。词典编撰在这一时期还具有个人倾向性。由于编撰牛津词典的是一个由上层社会通晓数门知识的学者组成的集团军,商业和工业用词由于不合他们的口味而未被采用。美国本土语言当然也未受重视。二十世纪,随着人们对语料的不断重视,出现了专门的真实语言语料收集库先电子语料库。第一个现代、大规模英语语料库是Edward L. Thorndike的450万词的词表。词表在1921年作为教师词汇用书出版,后达到18,000,000词,由此出版了教师词汇用书30,000词。它的语料来源于杂志和青少年读物。另一个具有一定规模的语料库是 Ernest Horn于1926年出版的基础写作词汇:10,000常用词,它的语料来源主要是出版的或未出版的私人信件。到了二十世纪三十年代,语料的研究又有了提高。真实语言备受重视,词典的形式也多样化。例如,Harold Palmer, Michael West 和Lawrence Faucett在 A.S.Horby 的帮助下出版的词汇选择临时报告(The Interim Report on Vocabulary Selection )就考虑了Thorndike 词汇研究中忽略的语法功能和意义。而随后,Michael West 在他人研究基础上,在他的通用英语词汇一览表(A General Service List of English Words)中增添了语义的使用频率。这对于词典编撰中的语料研究有着举足轻重的作用。到了四、五十年代,又有了 Charles C.对词汇用法的语料研究。他的美国英语语法( American English Grammar )(1940)是对几千封书信文体研究的成果。他的另一部出版于1952年的英语结构:英语句式建构简介(The Structure of English: an Introduction to the Construction of English Sentences)则来源于对电话谈话记录的分析研究。在先电子语料时期,词典编撰家们通过对真实语料的分析研究,丰富了对词汇的研究。在过去,词典编撰家单纯注重词义和词源,在他们的研究中又增添了多种意义分类、词频、义频及用法等各项,把词典的词汇意义学习功能扩大到帮助学习者掌握词汇用法的层次上。但限于当时有限的科技条件,语料的收集、统计、分析也是小范围、单一的。而在此基础上出版的词典也是小型的。七十年代以后,计算机的使用使词典编撰进入了一个崭新的阶段电子化时期。1970年在多伦多就有了为“古英语词典”课题而设立的古英语电子文本检索系统。自1980年以来,它就以缩影单片的形式供人们使用。第一个具有代表性的基于计算机的语料库是布朗语料库。作为电子语料库第一代,收词量为1,000,000。尽管美国词典出版公司不久意识到了它的价值并要求购买,但它对词典编撰的方法没有即时的影响。之后,它与Quirk 和Svartvik的伦敦-隆德口语语料库和LOB 语料库共同做为现代英语语法的基础。从年代早期到中期,计算机更广泛地得到运用。但中心计算机(main frame computer)的不菲价格及庞大的体积使词典编撰者们不能够在家中工作。这也阻碍了词典编撰。随着计算机技术的进一步发展,大量电子文本出现,较经济地储存大量数据也成为可能;检索软件的大大提高又加快了信息存取的过程,也使许多复杂的语言分析工具诸如组织搭配、搜索和语法附码等得到应用。除此之外,普通的个人电脑如今不仅以百万字节衡量而且以十亿字节衡量,不久可能就会出现太(拉)字节。语料库的发展使语言有了前所未有的实证研究的基础,这势必带动与之息息相关的词典编撰的变化。“如果不建立在语料库研究的基础上,没有什么新的、重要的本族语言亦或是外语学习者词典能够希望得到重视。“(Sidney,2001)为此,目的为编定新的外语学习者高级词典Collins-COBUILD英语语言词典的COBUILD课题在1980年启动。COBUILD语料库被认为是第二代语料库。1982年,它达到了7,300,000字,比布朗大七倍。1987年词典完成时,该语料库收词已达20,000,000。1997年超过300,000,000词并改名为“英语词库”。它和其他大型语料库一样是开放型的,随着时间变化、词义变化、新词的出现而不断更新。在Sinclair看来,只有这种大型的不断更新的语料库才能满足普通共时词典编撰的需要,因为许多词和表达法不足以常见到能够在样本语料库中给词典编撰家提供足够的例证,因此,这样一个大型的语料库尤其能够给词定义提供详实的例证。COBUILD课题大大提高了词典编撰原则。郎曼学习者词典也早已开始利用语料库。兰卡斯特大学的Leech在伯明翰语料库的基础上开发了郎曼兰卡斯特英语语料库,用来为外语学习者编辑词典。这一语料库和另外两个语料库英语口语语料库和学习者语料库构成了郎曼语料网络,成为郎曼现代英语词典第三版的主要来源。1991年,经过学术界、出版商和公共资助机构的共同努力,英国国家语料库(BNC)启动,它囊括了1亿词。牛津高级学习者词典第5版(1995)和第6版(2000)就利用了这一语料库。牛津大学出版社也出版了基于语料库的新牛津英语词典(NODE),尽管它已有了具有权威性且广为流传的基于先语料库的简明牛津词典。与此同时,剑桥大学出版社也在开发自己的语料库剑桥国际语料库。1995年,剑桥出版了另一个基于语料研究的高级外语学习者词典剑桥国际英语词典。从那时起,剑桥语料库已发展到3亿词,与英语词库旗鼓相当。英语词典编撰经历了词典语料、先电子语料和电子语料三个阶段。从历时的角度看,语料的不断发展极大地推动了词典编撰事业的发展。前者不仅为后者提供了大量以资参考的材料;而且它的研究成果也逐步引领后者的编撰原则。前者从配角成为主角,与后者的依附关系变成了引领关系。基于电子语料库的英语词典编撰也已蔚然成风。电子语料库的发展大大改变了词典编撰工作,为其提供许多便利和优势。词频统计是最重要的一方面。词典是为读者服务的,什么词是读者常会遇到的,什么样的词是读者很少遇到的;还有由于词典的功能不同或篇幅的局限,在一个词众多的意义中选哪一种编入词典或各个意义的排列顺序等等都与词、词义的使用频率有关。在过去词典编撰者们只能靠经验、猜测和直觉。而有了语料库,词频统计就方便多了。低频率的词就可以从词典中删除;高频率的词就收录;各词义按频率高低顺序排列。语料库也是跟踪真实语言变化的无价之宝。新的语法将以语料证据为基础。语料库能够给语法词形变化的分析提供更详尽的信息。例如,语料常常给预想的不及物动词提供出及物动词例证,或者相反。通过语料分析也能够判定一个动词的现在或过去分词形式是否已具备形容词的词性而可以单独做一个词条等等。语料库语料通常能够提供合适的例子或至少提供合适的语境一个可能的语境一个词典学家可以用来制造例句的语境,使词典学家可以构造看起来不愚蠢的、生硬的或有明显人造痕迹的语例。语料库也能提供语言使用的规律搭配模式。大多数搭配在引用文本中是不易觉察的。通过语料库,我们能看到许多习语和其他凭直觉看似平常却不平常的固定结构。在大型语料库中,又可以通过统计来说明它们之间联系的重要意义。语料库庞大的储词量以及快速、便捷的检索、统计方式使基于语料库的现代词典编撰更具科学性。第一阶段的词典编撰完全是依靠词典编撰者的知识积累而形成的直觉。但个人的语言知识并不能代表语言的普遍现实性。第三阶段的词典编撰,语料是经过科学选取的,极具普遍性和代表性。词典编撰以亿万字计的语料为基础,根据统计出来的大量而确切的语言数据来确定词义和用法。例如,Collins系列词典的语料来源于COBUILD英语语料库,它包含了小说和非小说类的多种语体材料,如广播和电视用语、日常自然会话、报刊杂志文章,也包含英国英语、美国英语和澳大利亚英语等多种英语方言。电子语料库的发展也改变了词典编撰的原则。第一阶段的词典编撰属于规约性的编撰。Johnson词典就是一个典型的例证。他的词典首要目的在于规范语言,例证引自大家之作,不但能够说明词义,而且也可以作为词典使用者运用语言的楷模,因此他撇弃了那些被视为不合语法、不贴切的表达法。前面提到的语言至上主义曾引领词典界风骚,同时也牵涉到个人喜好的编撰偏颇现象:唯吾类独尊,鄙视非我异类。 Webster 一生对不雅之词深恶痛绝,在其词典中很多禁忌词未被收录,如fart, turd等词。而另一方面,由于不承认美国英语的独立性、合法性,OED没有收录北美土生土长的语言;粗俗语或禁忌也没有得到承认,因而未被录入。但到了第三阶段,真实语言成为词典编撰家所遵循的标准,规约原则为描述原则所代替。尽管在第一、二阶段也有些词典编撰家显示出对真实语言的尊重,Bailay 在他的世界英语词源词典(Universal Etymological English Dictionary)中收录了黑话、方言土语。而民族主义者兼爱国主义者Webster 推崇、尊重语言的变化,坚持美国英语说。在他的第一部词典中就收录了很多土生土长的美国词。在他的第二部词典美国英语词典中录入了具有美国特色的词如congress, plantation等。他也把一些词汇的结构美国化,如把ise词缀改成 ize 等。但他们却不足以成气候。OED2也是后来才改变偏见,收录了原增补版没有的科技词条、粗俗语、禁忌和英国之外澳大利亚、新西兰、美国、加拿大等国英语用法。在大型电子语料库出现后人们才有条件去观察语言全貌,正视正在使用的语言,语言的个性使用也得到张扬。例如,aint1 非标准用法。是am not, is not, are not, have not 或has not 的缩略形式。一词在柯林斯英语词典、牛津高级学习者词典等都有收录。专门的俚语词典也堂堂正正地出版了。同时,词条的阐释也从模仿转向以词典使用者为中心,为不同类群的词典使用者服务。“掠夺”阶段的词典大都是词汇表式,有的附带词源;Johnson词典的释义多了名家例句的引用例证;而现代词典的阐释内容跨度更大了,从词性标注、语法及用法提示、同义词及反义词陈列到语用标注、语境提供等等试图对词语极致描述。有了电子语料库,词典编撰周期大大缩短了。 Johnson的一部词典前后花了九年的时间。 Webster的两卷本美国英语词典有70,000个词,1806开始设想,1828年完成;OED多卷本的编撰出版从1888年到1928年 历经了40年。而之后其发展迅速。1989年OED2二十卷本出版。2000年 OED2在线。柯林斯英语词典首次出版于1979年;二版于1986年;三版于1991年;最新三版在1994年;四版于1998年;五版在2000年。一年内该公司也出版过满足不同读者需求的数部词典。美国普林斯顿大学的在线同义词词网(wordnet) 随时更新,新版本不时出现。Johnson词典时代、牛津英语词典时期的浩大工程已一去不复返了,取而代之的主要是以不断更新的电子语料库为基础根据不同需求随时选取出版的现代词典编撰。语料库的发展也促进了词典的多样化、专业化和精确化。例如柯林斯公司90年代出版的一系列基于“英语词库”的词典:柯林斯最新英语词典、 最新柯林斯英语学习词典、柯林斯袖珍英语词典、柯林斯精华英语词典和柯林斯迷你英语词典等。该公司也出版了Cobuild 英语语法系列,包括十本词典介词、构词法、冠词、易混淆词、转述法、同音异义词、隐喻、拼写法、连词和限定词及数量词。牛津也新近出版了英语百科分类词典系列牛津物理学词典、牛津植物学词典、牛津哲学词典、牛津语言学词典等26部词典。电子语料库的发展也使传统意义的大部头词典发生了革命性的变化。词典一改传统面貌,出现了电子词典家族、光盘词典家族以及在线词典家族等非纸制印刷词典。电子词典虽有释义有限、缺少用法阐释之嫌,但却便于携带、查找方便,甚至还有有生发音提示;光盘式词典及网上在线词典使人们在电脑作业时可随时查找、随时显示,也极为方便。语料库的发展使词典编撰成为一个跨学科的行业。这种工作使软件工程师和词典学家之间的界线模糊起来。例如参与“柯林斯COBUILD英语词典系列”编写工作的有数百名英语教学、词典编撰和电脑软件专家。现代词典编撰需要软件工程师和精通计算机的词典学家的共同努力。语料库也有它的局限性。不管它的规模多大,不管收集工作做得多么仔细,它不可能真正代表所有口语和书面语的表达形式。在用语料库工作时还有一个常见的问题,就是语料太多,需要利用概率来保证随机的选择。大多数词典语料库也受时间的限制,不可能那么全面。最早的语料库只可回溯到70年代,很少有再早一些的。虽然有历史语料库,但从今天来看,他们只反映了语言历史的皮毛。整个维多利亚时代以及二十世纪前半叶的语言使用几乎没有在普通语料库中体现出来。随着语料库的不断增大,词典学家将不得不更多地依赖软件工具来判定频率和形式。他们将依靠软件来精确地得到研究结果。但不论是需要人工输入的电子语料库还是原有电子文本照排首当其冲都要经过人工输入这一环节,因此如果出现输入错误、语法附码不完全精确,那么就会影响统计结果的正确性。但瑕不掩玉,在词典学的各个分支领域,语料库已成为不可或缺的词典编撰依据。不依靠语料库而编撰的词典将没有市场竞争力。有了语料库,词典的编撰将会是高水平的,也会更贴近生活语言,描写更充分,覆盖面更广,对口语更加注重。在不久的将来,真正的语料库运用将成为全世界词典编撰的标准,这会大大提高词典的质量,也使其具有时效性。参考文献

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论