语料库:俄语语言学理论和实践的新课题.doc_第1页
语料库:俄语语言学理论和实践的新课题.doc_第2页
语料库:俄语语言学理论和实践的新课题.doc_第3页
语料库:俄语语言学理论和实践的新课题.doc_第4页
语料库:俄语语言学理论和实践的新课题.doc_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语料库:俄语语言学理论和实践的新课题提 要:语料库语言学是随着计算机和网络技术发展应运而生的新的语言学研究方向或研究手段。世界上英语语料库的发展处于领先水平,但俄语语料库也有了长足的进步。俄语单语、俄汉双语、中国俄语学习者的俄语语料库对于中国俄语教学、俄语语言学研究、俄语教材编撰、俄汉互译、俄语水平测试都有重大意义,是当代俄语语言学理论与实践的新的重大课题。关键词:语料库;语料库语言学;俄语理论研究与实践1语料库简介11基本概念归纳和演绎是语言学家经常使用的两种基本研究方法。采用归纳法进行语言学研究时,语言学家事先没有确定的理论或者假定,他们从言语交际的实践中搜集有声或文字语料,加以整理、归纳,然后总结出一般的语言范式或者规律。演绎法则不同,语言学家心里有了一定的理论或者假定,然后去寻找语言事实,来证实或推翻原有的理论或者假定。定量和定性分析也是语言学研究的主要方法。定性分析要求对观察、搜集到的语料进行综合、归纳,提出一种描述的结论,发现规律或范式。定性分析的好处是观察、收集的资料很丰富、客观,描写深入、细致。定量分析主要有两种方法:统计法和实验法。通过统计或者实验,很容易验证一些语言学和教学理论的可信程度。定量分析的结论可信度高,具有普遍性。然而,无论采用什么方法,语言事实、现象是语言学理论的根本,离开了语料,语言学研究就是无源之水,无本之木。计算机是二十世纪人类最伟大的发明之一,以计算机和网络为主的信息技术的发展向各个学科(包括语言学)提出了新的研究课题,也为各个学科的发展提供了新的手段和方法。语料库语言学( )便是随着计算机和网络技术发展而应运而生的新的语言学研究方向。语料库语言学代表的是一种传统的结构主义描写语言学方法,利用语料库可以对语言进行定量和定性描写。同时,语料库的语料也可以帮助验证语言学家通过演绎法提出的假定。语料库,顾名思义,就是存放语言材料的仓库。目前,人们通常用语料库指存放在计算机里的未添加标记的原始文本或者经过加工添加了语言学信息标记的文本。现代语料库通常有下面四个特性:1) 取样和代表性;2) 有限的规模(选择性的条件);3) 机器可读性;4) 标准化的参考资料。语料库语言学有两层意思,一是利用语料库对语言的某个方面进行研究,这样,所谓“语料库语言学”实际上只是一种研究方法和角度;另一层意思是依据语料库所反映的语言事实进行语言学理论研究,只有在这个意义上“语料库语言学”才能成为一门学科。12语料库的种类语料库可以根据不同的标准进行分类:按照媒体不同分为印刷文本、电子文本、数字化言语、视频、混合型;按照建立方法不同分为平衡型、金字塔型、随机型;按照语言参数分为:单语和多语;原语和译语(匹配的和未匹配的);母语和学习者所掌握的外语;按照语言状态可以分为共时的和历时的;按照文本存放格式分为纯文本的和附码的。纯文本的语料库没有各种格式和语言特征标记(如字体、字形、字号、段落、分页符等),附码的文本主要带有各种语言学信息(语体、词类、句法结构、作者)。纯文本语料库具有广泛的适应性,而附码后的文本能够更好地满足语言研究的需要。john sinclair还提出了样本语料库和监控语料库的区分。样本语料库收集的语料是不变的,而监控语料库的内容则处于不断发展之中。建立什么样的语料库取决于许多因素,比如建库目的、最终用户类型、资金和技术、研究水平,等等。13语料库采用电子形式的好处采用电子形式的文本有很多优点:容易访问,便于携带;与用眼睛阅读相比,计算机处理电子文本的速度快得多;计算机处理电子文本的准确性一般要高得多;可以很容易地为电子文本增添其它信息;满足社会发展的新需要(如建立电子词典、提供网络服务等)。尽管任何形式的文本材料的汇集都可以称为语料库,但是,在今天这个发展水平上,语料库一般都是电子形式的。2 语料库的发展情况21英语语料库的发展情况计算机和网络技术是英美各国的强项,英语又是国际通用语言,所以英语语料库的规模最大,理论和技术也最成熟,并且已经得到了实际应用。目前,国际上将英语语料库分为两代:第一代英语语料库有:211布朗语料库(the brown corpus)布朗语料库(brown university standard corpus of present-day american english)于1961年在美国建成。这是第一个机器可读的语料库。1957年乔姆斯基的句法结构发表,当时很多的学者认为,语言学理论应该研究人类的语言能力(linguistic competence),而不是记录和研究交际者的语言行为,即语言表现(linguistic performance)。语料库语言学的哲学理论基础显然与转换生成语法所代表的哲学思想相背,在这一背景下,布朗语料库的建立具有特殊的意义。现在我们知道,语言可以从多个角度进行研究,不同的研究角度可以相互补充,服务不同的目的,满足不同的需要。布郎语料库收集了500个连贯英语书面语文本,每个文本含2000词,整个语料库含有约1014,300词。212兰开斯特 奥斯陆/卑尔根语料库(lob)1968年到1974年英国兰开斯特大学、挪威奥斯陆大学与挪威卑尔根人文科学计算中心合作建立了兰开斯特 奥斯陆/卑尔根语料库(lancaster-oslo/bergen)。该语料库收集了500个文本样本,每个文本2000词左右,成为可以与布朗语料库相媲美的英国英语语料库。语料库也主要收集了书面语。在这两个语料库之后,世界上又建立了许多语料库,如印度、新西兰和澳大利亚三个英语变体语料库、seu(survey of english usage)、sse (survey of spoken english)、llc(london-lund)。一些特殊用途英语语料库十分令人瞩目,如为词典编纂、口语研究、历时研究、语言认知研究、外语教学而建立的语料库。计算机的功能越来越强,同样档次计算机的价格却变得越来越低,这使得语学家有可能建立大型语料库,从而对语言进行更加充分地描写,于是第二代大型英语语料库就出现了,其中主要有以下几个。213cobuild 项目从1980年开始,collins出版社与伯明翰大学合作,建成了cobuild语料库,这也是世界上第一个大型语料库。该语料库反映了当代英语的现状,主要的服务对象是英语学习者、教师、语言学家。该语料库25%是口语,75%为书面语。1987年cobuild dictionary出版时,cobuild语料库的主体部分有130,0000词,另外还有保留语料库。1990年,cobuild语料库被扩展为the bank of english语料库计划,至1997年,这个语料库的规模达到了3亿词。语料库语言学出现了超大型、与商业机构合作、动态性这些新特点。214longman语料库网longman语料库网由longman/lacaster英语语料库(llelc)、longman口语语料库(lsc)、longman学习者英语语料库(lcle)组成,三个语料库可以提供对英语的可靠描写,对于编纂面向英语非母语的学生词典非常有益。215英国国家语料库(bnc)1991年到1995年,英国政府、科研机构、出版商共同合作建立了英国国家语料库(bnc),收词1亿,其中有4124个语篇,90%是书面语,10%为口语。建立该语料库的目的是为了编写词典、语法参考书和为自然语言处理服务。英国国家语料库进行了标记(annotation),利用sgml语言(standard general markup language)建立了一种编码系统,符合tei(text encoding initiative)的要求,还利用lacaster大学开发的词法标注器(tagger)claws进行了自动词法标注。216国际英语语料库(ice)这是世界上对进行英语对比研究的最雄心勃勃的计划。ice计划要求在英国、美国、加拿大、澳大利亚、新西兰等以英语为第一语言以及印度、尼日尔、新加坡、加勒比地区等以英语为副官方语言或者第二种主要语言的国家建立了二十个子语料库,以便研究英语在世界不同地区的变体。语料包括书面语和口语。22俄语语料库的发展通过网络调查,我们发现在世界各地也存在着各种俄语语料库。虽然俄语语料库的规模、技术水平不能与英语相比,但也足以显示世界俄语学者对俄语语料库的浓厚兴趣,同时说明建立俄语语料库是可行的、必要的。我们这里重点介绍两个俄语语料库的情况:221upssala-tbingen语料库upssala是瑞典upssala大学斯拉夫研究系在lennart lnngren教授的领导下建立的。在该语料库的基础上,lennart lnngren教授编篡了一部俄语词频词典。该语料库收集了600个俄语文本,收词规模达到了1百万词次,平均收集了信息类和小说类两种文本。从时间上看,信息类文本涵盖了1985到1889年这段时间,而小说类文本的涵盖时间更长一些,从1960到1988年。语料库不包括诗歌和剧本。语料库的建立者尽力使语料库具有代表性、多样性。信息类文本包括了25个主题:经济、外事/外交政策、意识形态/国内政策、党务、苏联社会、社会问题、国防、教育、法律、历史、文化、语言学、医疗健康、心理学、空间研究、信息技术、环境/生态、能源、生物、地质/地理、物理、化学和体育等。小说类文本主要来自以下作家:、,等。小说类文本不是平均收录的,知名作家的文本收录得更多一些。 经lennart lnngren教授的许可,德国tbingen大学建立了俄语采访文本语料库,进行了标记(annotated),可以通过互联网进行查询。采访文本收集了通过网络免费发行的俄罗斯报刊,时间上是从1961年至今。内容涉及政治、社会、经济、音乐、文学、生活和体育等。整个语料库的规模还在不断增加。222莫斯科大学报纸语料库在俄罗斯政府基金支持下,莫大语义系普通和计算机词汇学和词汇编纂学实验室承担了“二十世纪俄语报纸计算机文本语料库( xx )”项目。报纸语料库为建立大型现代俄语语料库奠定了基础。项目的第一步(2000年)是收集大量的报纸文本,客观全面地反映俄罗斯报纸的整体面貌。收集语料的原则是收集一定时间段内各类报纸(左、中、右派;中央、地方;普通、专业)的每一期报纸。语料库的规模相当大,总语料库达1千万词次(),其中核心语料库达1百30万词次,核心语料库的报纸总数为12种,文本达3097个,时间段为1997年。实验室还开发了-1系统,利用该系统可以自动或半自动标注文本的来源、大小、体裁、出版日期,词形的语法、词汇类型等。在语料库的基础上,实验室研究了报纸文本的体裁分类原则和各类体裁的特征。核心语料库里见到的体裁和体裁变体共398个,分为8类:1) 纯信息类体裁;2) 纯政论类体裁;3) 信息-政论类体裁;4) 文艺-政论类体裁;5) 纯文艺类体裁;6) 广告类体裁;7) 公文事务类体裁8) 其它体裁。研究者还提取了8类体裁的词频-分布词典,发现有5万7千个不同词位(),14万个不同的词形()。记录了每个词形的出现次数和出现该词形的文档。发现使用最多的词是“”。通过对总语料库进行自动词素切分( ),自动建立了总语料库能产词根频率词典。在总语料库的词汇里,7001个不同词根在二个或两个以上词里出现(能产性最高的词根在312个词里出现),有2016个词根只在一个词里出现。这种不常用的词根多数为外国人名、地名。世界俄语语料库远不止以上两个,不少学者建立了自己的小型语料库,开发了一些语料库工具。除了一般的语料库外,我们还可以找到古俄语语料库、语音-文本语料库。3 语料库检索系统的基本功能语料库包含了大量的文本,字数常常超过百万、甚至千万。人工维护、管理语料库所需的时间、资金是无法想象的,更不要说利用语料库进行语言研究,实现语料库的语言学理论和应用价值了。语料库的魅力来自自动检索系统。借助于计算机的强大运算和信息处理能力和自动检索系统,语言学家可以迅速查找例证、对文本进行分析。正是检索系统的开发和完善才使得语料库的应用价值得以体现。检索系统一般有下列功能:选定一个或者多个检索文本;建立词汇表;查找关键词;排序并显示检索结果,等等。31建立词汇表(wordlist)计算机通常区分、,不知道这是一个词(word、)的不同形式,所以,建立词汇表就是让计算机按照指定要求排列出一个或多个文本里出现的所有词形(wordform、)。检索系统一般会自动统计每一个词形的出现次数(occurrence),计算词形的出现频率。排序的规则非常重要,可以指定系统按照出现频率(frequency)、词形的字母顺序(alphabetical order)、词形出现的先后顺序(first occurrence)等规则从大到小或者从小到大排序。对于教师和语言研究工作者来说,词汇表有重要的理论和应用价值。比如说,我们将普希金的作品全部输入电脑,然后就可以让检索系统自动生成普希金语汇词典,还可以研究普希金最常用的词、成语、风格。如果将一个文本的词汇表与各年级教学大纲规定的词汇、词法、句法要求进行比较,就能确定文本的教学难度、重点、适用性、重点词汇的重复频率等信息,从而提高教材的质量,使教学更有针对性。32索引(index)索引与词汇表比较相近,只是还列出了短文里各个词形出现的位置信息,选择索引号,单击一个鼠标,便可以将光标定位到词形出现的位置。索引可以帮助语言学家方便地定位到词语出现的上下文,对于研究每个词形的用法非常有用。33关键词及其语境(kwic)kwic(key word in context, )就是查找关键词并同时显示关键词所在的上下文,这是语料库检索系统的另一个重要的功能。检索过程中,我们不仅可以同时查找一个关键词或者多个关键词,还可以使用通配符*号和?号分别代表任意个未知字符串进行模糊匹配(例如键入*可以查找、,等等),同时也能查找语法范型(language pattern)。查找的结果可以按照一定的要求显示,比如规定显示关键词左面几个词形、右面几个词形,或者显示关键词所在的整个句子。如果隐去某个句子里的关键词,该句子就成为供学生训练用的填空练习。通过对显示结果进行形式、语义、语用分析,语言学家就可以客观、准确地对词、成语、短语进行描写,分析同义词、反义词的用法,为教材编写、词典编纂提供素材,从而改变传统的阅读资料、手工填写卡片的研究模式。以上功能只是语料库检索系统的一般功能,而处理的文本是文本文件,没有加注语言学信息。如果我们利用自动词法标记器(tagger)和句法剖析器(parser)为语料库添加一定词法和句法信息,那么利用语料库研究语言的成果会更显著。4结论语料库就像是一定时间、领域里语言使用情况的照片,包含了语言或者语言变体的词汇、语法结构、语义和语用信息,是语料的重要来源。进行以语料库为基础的语言研究要充分地利用语料库检索系统。通过检索工具,语言学家就可以处理大量文本。纯文本文件具有较强的适应性,可以满足不同的研究目的,用于不同的领域和目的。当然,为了更深入地研究语言,我们可以为文本语料添加各种语言信息的标注,检索软件就能发挥更大的作用。语料库主要用于语言描写,为词典编纂、教材编写、语言教学提供实际语例,理论上则可以帮助语言学家揭示语言的词汇、语法、语义和语用规律。从哲学上看,语料库的认识论、方法论似乎与生成语法所代表的理性主义格格不入,但是,殊途

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论