国内汉语语料库概况_第1页
国内汉语语料库概况_第2页
国内汉语语料库概况_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、国内汉语语料库概况 国内汉语语料库概况 【摘 要】本文概述了语料库的起源和开展的历史,着重从中国语料库的建设与开展出发,列举近二十年常用的大型语料库,并对中国语料库语言学研究存在的问题和开展趋势等方面进行了分析,为语料库的建设和语言学研究提供参考建议。 【关键词】汉语;语料库;语言学 0 引言 自20世纪60年代计算机问世,计算机技术就迅速应用到了以语料库为根底的语言学研究中,随着计算机技术的迅速开展,世界各国在语料库的建设上成绩显著。不同语言、不同类型、不同规模的语料库越来越多。语料库的广度越来越大,开发加工的深也日益加深。语料库在语言学研究和自然语言处理中发挥的作用越来越大。 自第一代大型

2、电子语料库BROWN建立至今,语料库语言学的研究已经有50多年的历史。而国内的语料库研究也有30多年的历史,并在上世纪90年代得到飞速开展,语言学与计算机技术加速融合,不同的学者和专家秉着不同的出发点,在各种角度和各种层次上进行了大量实证研究,这使得我国的语料库语言学迅速开展繁荣。 1 语料库和语料库语言学 1.1 语料库和语料库语言学的定义 语料库 :是指按照一定的语言学原那么,运用随机抽样方,收集自然出现的连续语言运用文本或话语片段而建成的具有一定容量的大型电子文本库。 语料库语言学:在文本语料的根底上进行语言研究的一门学科。语料库语言学通过语言现象出现的概率对语言材料进行研究。这里的语言

3、材料是真实的、可观存在的,因此,通过概率统计手段在语料库语言学研究中得到的语言使用情况是真实客观的,排除掉了语言学家的主观性,研究结果更加真实可靠。 1.2 语料库在语言学研究领域的应用 语料库应用对语言学研究的主要改良有: 保证了语料的客观真实性,排除了语言学家的主观性;借助计算机的储存能力,提高了研究的广度和深度;提高了工作效率,减少了人工误差;使语料资源具有共享性。 语料库在语言学研究中主要的应用领域有: 词典编纂;语言统计;语言监控,包括新词、新用法的发现;语言教学;语言信息处理;语法、语义、词汇、语音等各种语言问题的研究;方言研究等等。 2 汉语语料库 我国汉语语料库的建设开始于20

4、世纪80年代,取得了不少成果。这里简单介绍北京大学建设的三个语料库极其特点。 2.1 北京大学中国语言学研究中心ccl语料库 该语料库包含三个子语料库:现代汉语语料库、古代汉语语料库和汉英双语语料库。 其中现代汉语语料库和古代汉语语料库主要是面向汉语研究和教学使用的大规模语料库及其在线检索系统。目前该语料库收集了大约4.77亿字语料,现代汉语和古代汉语大体上各占一半。现代汉语语料库,主要收录1696部作品,9711字的查询。古代汉语语料库,涉及从周代到民国时期,22580字的查询。语料未经分词处理。该语料库的检索系统可以提供比拟方便的例句查询功能,主要特色包括:A可以查询不连续的词语,可以指定

5、词语之间的距离;B可以查询标点符号;C可以查询汉语特有的重叠模式;D支持对标点符号的查询等等。 汉英双语语料库目前规模已经超过100万句对。汉英双语语料库对于汉英语言比照研究有直接的帮助。该语料库还可以用于汉英机器翻译。目前北京大学在该语料库的根底上开发一个双语词典编纂平台。这个平台集成例句查找功能,词语搭配分析功能,多词翻译等价单位的自动识别功能,等等。该语料库只对北大校内用户开放。 2.2 人民日报切分和标注语料库 北大计算语言所对1998年和2000年两个全年的人民日报语料进行了切分和词性标注的加工。该语料库可以用来训练统计模型帮助计算机自动分词和词性标注处理。对于制订汉语高频词表,定量

6、研究词语的语法功能,有直接的支持作用。 2.3 现代汉语树库 树库是对句子结构进行分析和标注的深加工语料库。北京大学中文系自2003年开始逐步建设现代汉语句法树库,目前已经到达百万汉字级的规模,同时也形成了一系列的相关工具软件,包括分词和词性标注、自动句法分析、辅助校对工具、树库查询与知识抽取工具等等。此外还开发了一个基于Web的树库查询系统。建成的树库一方面可以用来训练统计参数,帮助计算机进行自动句法分析,另一方面也可以用于汉语研究和教学,既可以方便地查找例子,也可以做定量分析。 3 国内语料库建设现状及开展方向 3.1 语料库建设现状 3.1.1 研究汉语的语料库比例小 由于受国外语料库语

7、言学研究和开展的影响,加上近年来我国对英语教学的重视程度越来越高,多数国内语料库的建设仍以英语为主。参考查找到的国内建设的语料库,其中有大局部是与英语相关的,只有少数语料库是完全用来研究汉语的。 3.1.2 语料库建设小型化专业化 随着计算机及网络技术快速的开展,越来越多的语言学者跻身于语料库建设中,因其研究方向各异,相比大型综合型的语料库,小型的、专业化的语料库的建设更受青睐。 3.1.3 生语料库居多 因为缺少建立标准和统一管理,现在国内的语料库建设杂乱,大多是自建自用,缺乏共享,语料库中的内容得到标注和重新加工的寥寥无几,这使得语料库的使用效率不高,同时也存在着重复性建设。 3.2 国内

8、汉语语料库的开展方向 开展到现在,语料库己经成为现代语言学研究的重要根底。语料库语言学是指以语料库为根底的语言学研究方法。关于语料库语言学的研究有很多文章和专著,而把汉语语料库建设本身作为一个研究对象来专门进行研究的课题却不是很多,导致了汉语语料库建设的标准性不强、缺少系统的理论指导、缺少评测标准等现象,使得当前汉语语料库建设的质量良莠不齐、重复开发。语料库的建设牵涉到语言学、计算机科学、概率统计学、文献学、版权学、管理学等多个学科,建设一个高质量的大型语料库,是一个人力、物力、时间、金钱开销都很庞大的工程。因此语料库建设周期长,难以满足语料库语言学开展的需要,难以为语言学研究提供全面、丰富、及时、权威的语料素材。因此,未来进行汉语语料库建设理论标准性研究、制定统一评判标准,为研究者提供功能丰富、使用方便灵活、效率高的语料库分析工具,是汉语语料库未来的开展方向。 【参考文献】 【1】段海鹏.近十年语料库语言学在中国的开展综述J.海外英语,2021:304-305. 【2】侯敏.计算语言学与汉语自动分析M.北京:北京播送学院出版社,1999:155-159. 【3】穆晓丽,尹转云.语料库在语言研究方面的应用综述J.西安外国语学院报,2001:21-26. 【4】甄凤超,张霞

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论