第七讲 中文语料库.ppt_第1页
第七讲 中文语料库.ppt_第2页
第七讲 中文语料库.ppt_第3页
第七讲 中文语料库.ppt_第4页
第七讲 中文语料库.ppt_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、衡阳师范学院中文系古代汉语教研室。衡阳师范学院中文系古代汉语教研室,第六章汉语语料库。1.什么是语料库?语料库通常是指为语言研究收集并以电子形式存储的语言材料,这些材料是从自然出现的书面或口头语言样本中收集的,用于表示特定的语言或语言变体。经过科学筛选和标注的适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和掌握语言事实,分析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可或缺的基础资源。衡阳师范学院中文系古汉语系。第二,语料库出现的原因:(1)传统语言学研究方法的落后是语料库语言学出现的内在动力。任何科学研究都是基于大量的数据。数据拥有的完整性、

2、抽样的准确性和使用的有效性是科学研究的基本条件和先决条件。语言学研究也必须基于大量的语料库。然而,传统的语言学研究方法在收集和处理语料时存在很大的局限性,主要表现在以下几个方面:(1)衡阳师范学院中文系古代汉语教研室;(2)语料库的主观性很强。传统语言学的研究方法是“内省”和“举例”,这在很大程度上依赖于语言学家的主观经验。用带有强烈主观色彩的语言事实作为论据往往是不可靠的。最原始、最可靠的语言证据只能来自使用中的客观语言材料。第二,语料数量少,覆盖面窄,代表性差。手工获取的语料在数量上不能得到充分保证,导致覆盖率不足,自然表现性差。由此得出的结论的科学性值得怀疑。衡阳师范学院中文系古汉语系。

3、5.语料库整理工作量大,共享不够,效率低。例如,编写牛津英语词典需要准备近500万张卡片,编写现代汉语词典等中型词典需要100多万张信息卡。你可以想象繁重的工作量。而且,每张卡都是按照特定的要求制作的,不能用于其他目的,使用效率很低。然而,现代语料库存储了大量具有充分代表性的语料库,并通过多功能检索系统存储在磁盘上,可以根据不同的需求从不同的角度对语料库进行重组,从而提高了语料库的共享性。衡阳师范学院中文系古代汉语教研室,6,4。知识问题。普通语法书和词典提供语言知识。然而,就汉语词典而言,没有大型汉语词典是用词性标注来解释的。专门为外国人学习语言而编写的详细词典,如朗文英语词典和牛津词典,在

4、中国还没有见到。这给计算机处理中文信息带来了不便,迫切需要建立一个计算机语言知识库。衡阳师范学院中文系古汉语系。(2)计算机计算速度和存储能力的大幅提高是语料库发展的物质基础。计算机的快速计算速度使得计算机语料库具有数据库建立速度快、使用方便的优点。计算机语料库的大容量使其具有占用空间小、成本低的优点。如果2000张卡片装在一个卡片盒里,100万张卡片需要500个卡片盒来编一本现代汉语词典,而30个525英寸的托盘可以用来装所有的卡片,只占用13个抽屉。此外,成本低。如果一张卡值1美分,100万张卡需要1万元。如果存储在磁盘中,每张磁盘需要7元,30张磁盘只需要210元。使用其他媒体有明显的优

5、势。衡阳师范学院中文系古汉语系。(3)语言信息处理的进一步发展是语料库语言学的学科需要。从自然语言系统所需的语言知识来看,此外,随着系统所拥有知识的数量和精细程度发生巨大变化,传统的关于如何获取、表示和管理系统知识的研究已经不能解决问题,需要大规模真实文本语料库的支持。衡阳师范学院中文系古汉语系。语料库的类型很多,确定其类型的主要依据是其研究目的和用途,这往往体现在语料库收集的原则和方法上。有些人将语料库分为四种类型:(1)异构:没有具体的语料库收集原则,各种语料库被广泛收集和存储;(2)同质性:只收集同类内容的语料;(3)系统性:按照预定的原则和比例收集语料,使语料平衡、系统,能够在一定范围

6、内代表语言事实;(4)专用:仅收集用于特定目的的语料库。衡阳师范学院古汉语系。此外,根据语料库的语言,语料库也可以分为单语、双语和多语。根据语料库的收集单位,语料库可以分为语篇、句子和短语。双语和多语语料库也可以根据语料库的组织形式分为平行(对齐)语料库和比较语料库。前者构成翻译关系,主要用于机器翻译、双语词典编纂等应用领域,后者收集不同语言中表达相同内容的文本,主要用于语言比较研究。衡阳师范学院中文系古代汉语教研室。四.汉语语料库的建设始于20世纪80年代,当时的主要目标是汉语词汇的统计研究。自20世纪90年代以来,语料库方法在自然语言信息处理领域得到了广泛的应用,并且建立了各种类型的语料库

7、。研究内容涉及语料库建设中的各种问题。从20世纪90年代末到新世纪初,语料库的发展和应用得到了进一步的发展。除了语言信息处理和语音工程领域外,语料库方法越来越多地应用于语言教学、词典编纂、现代汉语和中国历史研究。衡阳师范学院中文系古汉语系。语料库与语言信息处理有着天然的联系。当人们不知道语料库方法时,自然语言理解和生成、机器翻译等研究中分析语言的主要方法是基于规则的。计算机很难处理无法用规则表达或覆盖的语言事实。语料库出现后,人们用它来调查和统计大规模的自然语言,建立统计语言模型,研究和应用统计语言处理技术,并在信息检索、文本分类、文本过滤、信息抽取等应用方向取得进展。衡阳师范学院古汉语系,13。另一方面,语言信息处理技术的发展也为语料库的建设提供了支持。从字符编码、文本输入和校对、语料库自动分词和标注,到语料库的统计和检索,自然语言信息处理的研究为语料库处理提供了关键技术。衡阳师范学院中文系古代汉语教研室,14,5。语料库在语言研究中的主要作用。统计描述函数;2.原因解释功能;3.结论验证功能;4.探索和发现功能;5.知识挖掘功能。衡阳师范学院中文系古代汉语教研室,15,6。语料库建设:1 .根据系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论