语料库语言学_第1页
语料库语言学_第2页
语料库语言学_第3页
语料库语言学_第4页
语料库语言学_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用语言学的最新成果语料库语言学(CorpusLinguistics)

1.定义语料库语言学(Corpuslinguistics)是基于语言运用的实例(即语料库)的语言研究。语料库语言学可以对自然语言进行语法与句法分析,还可以研究它与其他语言的关系。语料库最初由手工完成,而现在主要是由计算机自动完成。语料库语言学家相信,可靠的语言分析需建立在新鲜的语料、自然的语言环境,和最小的实验干扰之上。在语料库语言学中,语料标注的意义众说纷纭,从约翰•辛克莱主张最少量的标注,并允许文本“为自己说话”,到“英语用法调查组”(设在伦敦大学学院)鼓励更多的标注,并认为它是通向更完备和严谨的语言理解的道路。约翰•辛克莱约翰·辛克莱是第一代现代语料库语言学家和COBUILD项目的创始人。该项目的目标是为了学习英语的外国学生,建立语料库驱动的词典。他成为了柯林斯COBUILD英语词典(第一版出版于1987年)的首席顾问。他开创了对语料库语言学,话语分析,词典编纂和语言教学的研究。语料库语言学是一个独立的学科,它有自己独到的理论体系和操作方法。由于语料库语言学立足于大量真实的语言数据,对语料库所做的系统而穷尽的观察和概括所得到的结论对语言理论建设具有无可比拟的创新意义。而在另外一些研究者看来,语料库语言学并非语言学的又一个分支学科,而是一种研究方法,这种方法基于大量的真实语言,可以用来回答通过其他途径很难回答的问题,从而极大地丰富已有的研究方法。语料库语言学以大量精心采集而来的真实文本(authentictexts)为研究素材,主要通过概率统计的方法得出结论,因此语料库语言学从本质上讲是实证性的(empirical)。2.发展语料语言学受行为主义的影响下,从60年代开始发展,迄今已经有近五十年的历史。语料库在发展的初期,只进行词的一般分析,如词频统计等,后来增加了词的语法属性标注(如,词性等),直到现在,人们越来越开始重视对语料库作不同层次的标注,如:语音、构词、句法、语义以及语用等层次的标注。语料语言学在其发展的初期并没有引起太大的共鸣,但是现代语料语言学已经得到越来越多人的承认,其应用也越来越广泛,从语言分析、语言教学、词典编撰到人工智能等领域都开始应用语料库。现代语料库语言学的一个里程碑是亨利·库切拉和W.纳尔逊弗朗西斯在1967年出版的《当代美语的计算分析》(ComputationalAnalysisofPresent-DayAmericanEnglish)一书。该项工作基于对布朗语料库的分析,布朗语料库是一个精心编制的美国英语语料库,规模约有一百万词次。库切拉和弗朗西斯将这些语料用于各种计算分析,获得了丰富​​和多样化的成果,该成果结合了语言学、语言教学、心理学、统计学、和社会学元素。另一关键出版物是1960年伦道夫·夸克的《当代英语语法》(TowardsadescriptionofEnglishUsage),在这本书中他介绍了“英语用法调查”项目(TheSurveyofEnglishUsage)。布朗语料库也催生了类似的语料库:LOB语料库(Lancaster-Oslo-BergenCorpus,20世纪60年代英国英语),科尔哈帕(Kolhapur,印度英语),惠灵顿(Wellington,新西兰英语),澳大利亚英语语料库(AustralianCorpusofEnglish,澳大利亚英语),皱眉语料库(FrownCorpus,20世纪90年代初,美国英语),以及FLOB语料库(FLOBCorpus,20世纪90年代,英国英语)。其他语料库包括国际英语语料库(InternationalCorpusofEnglish),和英国国家语料库(BritishNationalCorpus,收集了1亿词次的口头和书面语料,在20世纪90年代时由出版商、牛津大学、兰卡斯特大学和大英图书馆创建)。至于说到当代的美国英语,现已有了美国国家语料(AmericanNationalCorpus),以及可以在线访问的4亿多词次的美国当代英语语料库(CorpusofContemporaryAmericanEnglish,1990年创建)。

3.方法语料库语言学已经有了一大批研究方法,这些研究方法都试图找到从数据到理论的解决方案。瓦利斯和尼尔森最先介绍了他们的3A观点:注释(Annotation),抽象(Abstraction)和分析(Analysis)。注释

包括语料的数据库方案。注释可能包括结构标注,词性标注,句法分析和其他形式。抽象

包括该方案在理论上的启发式模型或数据集中的翻译(映射)。抽象通常包括面向语言学家的定向搜索,但也可能包括句法研究者的句法规则学习。分析

包括统计学探测,操纵和对数据集的归纳概括。分析可能包括统计学评估,规则库优化和知识探索方法。4.在我国的发展与应用语料语言学经历过这几十年的发展,不论在理论上,还是在技术上,都已趋于成熟。在语言教学领域中的应用也开始引起注意。我国对语料语言学研究取得了一定的成果,早在1982年,上海交通大学的黄人杰、杨惠中教授就主持建立了一百万词次的专门用途英语语料库(JDEST)。2003年,桂诗春和杨惠中两位教授主持完成了中国英语学习者语料库(ChineseLearnerEnglishCorpus,简称CLEC),这是国际上第一部公开发布的学习者语料库,它对研究中国学生的语言应用和使用失误等特征,以及它们与外语学习之间的关系等都具有十分重要的指导作用。除了书面语语料库之外,研究者们也开始建立口语语料库。如南京大学创建的中国学习者英语口语语料库(SpokenEnglishCorpusofChineseLearners,简称SECCL)。上海交通大学也建立了大学英语学习者英语口语语料库。与此同时,随着个人电脑的普及,许多研究者个人也开始建立适合自己的小型语料库,许多英语语料库应运而生。这些英语语料库大部分是中国英语学习者的中介语语料库。在应用语言学领域,词典编纂和语言教学同是语料库的最大受益者。目前已有多部词典在编纂或修订过程中,不同程度地使用语料库或电子文档收集词语数据,用于收词、释义、例句、属性标注等。南京大学近年来开发了NULEXID语料库暨双语词典编纂系统,涉及英汉两种语言,在《新时代英汉大词典》的编纂过程中起了重要作用。语料库用于语言教学的一个例子是上海交通大学的JDEST英语语料库,利用这个语料库,通过语料比较、统计、筛选等方法为中国大学英语教学提供通用词汇和技术词汇的应用信息,为确定大学英语教学大纲的词表提供了可靠的量化依据。这个语料库也在英语语言研究中发挥了作用,支持基于语料库的英语语法的频率特征、语料库驱动的词语搭配等项研究。5.近几年的发展成果许家金和梁茂成(2011)认为语料库的建设之初,主要是为了进行文本储存,而研究者要基于语料库进行研究,则需要建设子语料库从不同的研究目的出发,从而促进对比研究。他们旨在成为由中国学者开发建成的BROWN(布朗)语料库的子语料库,于2011开发建设的CBROWN(科朗)语料库和CLOB语料库两个语料库。张素敏(2011)基于自建语料库研究学习者因素对教师话语的影响作用进行分析,研究表明教师的母语使用与学习者的语言概念认知和态度情感因素有关,且适当的母语使用有利于教学目标的顺利实现。刘日升,杨振力(2012)通过分析语料库共享平台建设现状及其建设必要性,提出由图书馆起主导作用的语料库资源共享平台建设的设想。这些研究对语料库实现共享有重要意义。桂诗春(2010)也积极推进语料库语言资源的共享,语料库只有共享才能变成财富,“藏诸名山,束之高阁”只能是一堆数据垃圾,必将自毁前程。冯志伟(2010)支持语料库的共享,表明语料库只有普及才能发展6.从国内学术组织和学术会议

看语料库语言学发展的最新动态国内学术界出现了几只具有代表性的团队,其蓬勃的生命力不断推动了国内语料库语言学的发展。北京外国语大学中国外语教育研究中心以梁茂成、许家金、文秋芳等为代表的研究团队。以李文中为中心主任的河南师范大学语料库与外语教学研究中心。以何安平为带头人的华南师范大学外文学院语料库语言学研究室,以解放军外国语学院团队,上海外国语大学研究团队,上海交通大学外国语学院语言文字工程研究所,广东外语外贸大学外国语言学及应用语言学研究中心等组织。各组织的影响力体现在大型会议的召开,学术组织的成立。语料库语言学研究会(CorpusLinguisticSocietyofChina,CLSC)的成立,成为中国语料库语言学发展的里程碑自2010年10月29日,首次中国外语教育研究中心“语料库语言学沙龙”(CorpusResearchGroup)在北京外国语大学成功举行之后,分别举行了2010年秋季,2011年春季,2011年秋季2012年四期有关语料库语言学研究的名家及学者的交流活动。沙龙由语言学界的相关大家,许家金、文秋芳、冯志伟、王克非,熊文新等参与讲座,对语料库语言学的研究发展具有启发式的引导。1.语料库建设。文秋芳的“学习者语料库的创建与研究”。在介绍国内研究现状的同时,还重点分析了语料库语言学研究方法的优势和局限。2.新的研究工具和软件的介绍。开源统计软件R的命令行操作方式以及下载模块的方法。语料库文本元信息添加(作文作者性别、年龄、年级、成绩等)方法的介绍。这些新方法和新工具的介绍,也预示着语料库发展的新方向。3.语料库在语言学上的研究成果。主要是有关语料库与词汇、语法及话语分析的研究。链语法与语料库语言学的研究,有关语料库在语言学方面的应用,是一场变革和飞跃。1)2010首届广外应用语言学论坛。由广东外语外贸大学外国语言学及应用语言学研究中心于2010年9月24-25日成功举办了备受瞩目的首届广外应用语言学论坛。语料库语言学首次以独立议题的形式提出。会议包括:1.语料库的资源共享;2.双语语料库建设,我国单语语料库很多,还没有高质量的英汉双语语料库;3.语料库促进外语教学发展。外语学习者语料库等在外语教学中的应用,推动外语教学的发展;4.语料库语言学的现状和未来。桂诗春肯定了语料学对外语教学的积极作用,并大力提倡资源共享,互助互利。2)2011年语料库语言学大会。2011年中国语料库语言学大会是中国语料库语言学研究会成立后的首届全国性语料库语言学的学术研讨会。大会以“语料库语言学的多维视角”为主题,旨在加强国内语料库语言学研究者的学术交流与合作,探讨学术发展动态与关键技术,促进语料库语言学学科建设和发展。1.“多维视角下的短语语料库建设和研究”。2.“语料库加工处理技术研究”中以汉语为处理语言的语料库加工技术,弥补了本土语料库的不足。3.“语料库与语言描写”指出语言描写不是语料库语言学研究的终点而是整个研究的出发点,最终揭示语言系统隐含的规律和趋势。4.“中介语语料库建设和研究”有助于发现和分析英语学习者二语习得过程中经常遇到的问题,这类语料库的建设和研究对二语习得及外语教学研究具有重要意义。5.“平行语料库及翻译研究”平行语料库的建

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论