语料库的分类应用以及在中国的发展趋势.doc_第1页
语料库的分类应用以及在中国的发展趋势.doc_第2页
语料库的分类应用以及在中国的发展趋势.doc_第3页
语料库的分类应用以及在中国的发展趋势.doc_第4页
语料库的分类应用以及在中国的发展趋势.doc_第5页
免费预览已结束,剩余2页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语料库的分类应用以及在中国的发展趋势 摘 要: 语料库是对生活中的语言资料加以收集和整理,便于使用者进行研究和分析的一种研究方法。我国对语料库的研究虽落后于西方,但是从上世纪开始,国内语料库取得了前所未有的发展。本文陈述了国内语料库的分类,分析了语料库的应用和在国内的发展趋势,为语料库的使用者和研究者提供了了解语料库的途径。 关键词: 语料库 分类应用 发展趋势 语料库研究是基于人类真实的语言资料,调查和分析语言的分布、使用规律、使用频率和使用模式的一种研究方法。电脑科技的发展,为语料库研究带来了前所未有的发展机会。由于电脑具有庞大的存储功能、筛查功能和分析功能,20世纪的中后期形成了许多对电脑语料库的对比研究的语言学理论。 从20世纪20年代开始就有学者为制定基础汉字字表开始建立语料库。自上世纪70年代末以来,现代汉语语料库(1983年)等机器可读语料库开始建设。90年代以后,以人民日报光盘数据库、北大语料库为代表的大型汉语语料库日益发展,语料库成为研究汉语的主要资源。我国从上个世纪80年代,由上海交通大学杨惠中教授为首的项目组开始建设JDEST学术英语语料库,促进了英语语料库语言学在中国的发展。这个语料库是当时世界上的第一个同类语料库,也是国内最大最完备的英语语料库之一。由广东外语外贸大学桂诗春教授和杨惠中教授合办开发的“中国学习者语料库”(CLEC)于1999年建成,该语料库广泛收集了我国中学生和大学生在内的超过一百万词的各种书面语资料,并对所有语料进行了语法标注和言语失误的标注,对研究中国学习者的英语特点具有开创性的意义。最近几十年,随着电脑科技的发展和教育国际化的加深,语料库语言学在中国的发展及其快速。我国现有的语料库包括口笔译语料库、平行语料库,研究方向包含许多方面,包括二语习得、翻译对比、话语分析、认知语言学等方面的研究。不同研究背景和学术背景的人都参与语料库建设,为语料库带来越来越多、越来越全面的研究资源。西方对语料库的研究比中国早,通过国内外的学术交流,国外的语言学家给中国的语料库研究开辟了更广阔的发展空间,带来了许多新的知识和营养。 一、语料库的分类 语料库主要是按照其收集语料的类别,研究的服务对象或研究的目的进行分类的。我国现有的语料库大致可以分为英语学习者语料库、平行语料库、特殊英语语料库、汉语语料库等。 (一)英语学习者语料库 英语学习者语料库由广东外语外贸大学和上海交通大学合作建设和开发,简称CLEC,其中搜罗100多万词条,主要是针对中国的中学生和大学生等英语学习者在学习中的书面语进行研究。该语料库中标注了学生的失误,便于研究中国学生在习得英语的过程中的常见问题进行分析和研究。除此之外,上海交通大学所创立的大学英语学习者口语语料库COLSEC包含了5万个词次。与CLEC不同,这个语料库偏重英语学习者在口语中常犯的问题和错误,为我们对中国学生英语口语的研究提供了便利。香港科技大学建设的香港科技大学学习者语料库HKUST Learner Corpus,是针对大学英语学习者所使用的英语所建立的语料库,该语料库针对的范围主要是大学英语学习者,语料的收集主要是以在学习英语的大学生为对象,方便我们对大学生的英语思维和习惯进行研究。而南京大学建设的中国英语专业语料库CEMC,则是针对国内英语专业的学生设立的语料库,这个语料库共收集100多万词次。 (二)平行语料库 北京外国语大学建设的汉英平行语料库PCCE,是涉及范围最广的汉英平行语料库。国内还有其他的一些比较具体和专业的语料库,比如冯友兰的中国哲学史汉英对照语料库;香港城市理工大学建设的对比语料库LIVAC;台湾建设的平衡语料库Sinica Corpus;国家语言文字工作委员会应用研究所的计算机专业的双语语料库,等等。 (三)特殊英语语料库 由河南师范大学建设的中国英语(China English)语料库;由解放军外语学院建设的军事英语语料库(Corpus of Military Texts);上海交通大学建设的新视野大学英语教材语料库,等等。 二、语料库的应用 (一)用于语言的研究 大量的语言素材存储在语料库中,按照一定的语言学原则分类组合在一起,这为语言的研究提供了方便和便利。对语言学家来说,语料库的存在更方便他们查询、检索和分析语言原始数据,从某种程度上说,简化了语言学家分析语料的过程和时间,大量的语言素材使语言学家对语言的定量分析成为可能。语料库的存在便于语言学家揭示地区语言的特征及一个区域(国家或地区)的语言使用情况。语料库中的语言资料方便语言学家对语言的某些特征或结构进行检索,比如某个词汇或句型在某个语言或某个地区的语言中的分布等。 (二)用于语言测试 语料库的存在为基于语言的测试试卷的出题和批改提供了依据。语料库能够揭示一些常见的问题和错误。对于出题者而言,能更方便地了解英语学习者在学习中常出现的问题和错误,从而在出题的时候具有针对性地测评,更真实准确地反映学生的语言学习状况。对学生而言,语料库能够反映他们的不足,从而推动他们对自己错误的改进和修正,利用语料库做有针对性的复习和练习,从而达到减少错误和提高语言能力的目的。 (三)用于编撰字典 语料库中所收集的大量词条,是来源于真实生活的,是确实存在的句子和词汇。在字典的编撰过程中,不仅要快速显示和反映出词条的出现频率和各个语义的使用情况,而且真实生活的词条会比编撰的词条更形象、生动、准确。语料库中词汇和句型的使用还能反映语言的发展趋势,由于语言的发展日新月异,新的词义和词汇不停涌现。语料库能够帮助字典的编撰者很好地掌握和了解语言的发展趋势,从而在字典的编写中与时俱进,添加最新的内容。 (四)用于机器翻译 随着互联网和国际化的发展,许多人倾向上网翻译不懂的外语词汇和句子。语料库能够归纳词汇和句型的语义和语用,从而对给定的句子进行分析,从语料库中搜索出它所认为最符合该句型或词汇的翻译方式。虽然仍有需要改进的地方,但大致讲,翻译软件已经能够满足基本的翻译,为语言不通的国人提供便利。同时,语料库还能对常见的英语或汉语错误进行分析,并提醒校正,大大节省翻译者和语言学习者的时间和精力。 (五)用于语言教学 语料库存储的信息量相当巨大,学习外语的学生对于如此庞大的数据库,可以按自己的要求和需要进行检索、分析和学习。由于语料库中的语言信息来源于生活,因此更真实可靠,更生动多样。语言学习者对语料库的使用是多元化的,这样有利于促进外语学习者的主观能动性的发挥。语料库的使用者对语言资料的开放式的使用,为学生提供了思考的机会,同时也为教师转换角色提供了可能。 三、语料库在中国的发展趋势 语料库在中国已经得到长足发展,各种语料库纷纷涌现。随着教育国际化和计算机技术的发展,学习者语料库的建设是今后语料库研究的重点之一,口语语料库的发展和对口语语料进行的话语分析已经成为语料库今后的发展方向。我国语料库的发展虽然迅速,但仍然存在一些问题。比如,语料资源的重复性,语料库之间的独立非信息共享的问题,历时语料库对早期中国语料的收集问题,以及语料库在教学中应用的问题,都是亟待解决的巨大课题。 虽然语料库发展迅速,但是仍然存在许多问题。语料库的存在和发展,无疑为我国语言学的研究和外语学习的发展作出了巨大的贡献。随着计算机的普及和人们对语料库认识的提高,语料库的进一步发展和大规模的应用,以及它对外语教学的指导,会随着时间的推移而发挥更重要的作用。 参考文献: 1冯锐,朱慧,李会敏.语料库及语料库语言学研究初探J.肇庆学院学报,2009(06). 2甄凤超.语料库

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论