汉语中介语语料库介绍ppt课件.ppt_第1页
汉语中介语语料库介绍ppt课件.ppt_第2页
汉语中介语语料库介绍ppt课件.ppt_第3页
汉语中介语语料库介绍ppt课件.ppt_第4页
汉语中介语语料库介绍ppt课件.ppt_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、汉语中介语语料库简介,1,目录,一 背景 二 语料库和语料库语言学 三 汉语语料库和汉语中介语语料库建设 北大语料库(现汉、古汉、英语) 四 常用中介语语料库 (一)北语HSK动态作文语料库 中介语口语语料库 (二)中山大学中介语语料库 (三)暨南大学中介语语料库 五 意义和局限 六 参考文献,2,一 背景,自20世纪60年代计算机问世,计算机技术就迅速应用到了以语料库为 基础的语言学研究中,随着计算机技术的迅速发展,世界各国在语料库的 建设上成绩显著。不同语言、不同类型、不同规模的语料库越来越多。自 第一代大型电子语料库BROWN建立至今,语料库语言学的研究已经有50多 年的历史。而国内的语

2、料库研究也有30多年的历史,并在上世纪90年代得 到飞速发展。 汉语中介语料库的建设始于20世纪90年代。进入21世纪,汉语中介语语 料库引起了更多重视,语料库建设增多,建设速度加快。但是,目前对外 公开的语料库数量却很有限,主要有北京语言大学的HSK动态作文语料库 (简称“北语HSK作文语料库”)、中山大学的汉字偏误连续性中介语语料 库(简称“中大中介语语料库”)和台湾师范大学的汉语学习者汉字偏误数据资料库(简称“台师大汉字偏误库”)等。,3,二 语料库和语料库语言学,语料库和语料库语言学的定义 语料库(corpus 或corpuses)是指按照一定的语言学原则,运用随 机抽样方,收集自然出

3、现的连续语言运用文本或话语片段而建成的具有 一定容量的大型电子文本库。 语料库语言学:在文本语料的基础上进行语言研究的一门学科。语 料库语言学通过语言现象出现的概率对语言材料进行研究。这里的语言 材料是真实的、可观存在的,因此,通过概率统计手段在语料库语言学 研究中得到的语言使用情况是真实客观的,排除掉了语言学家的主观 性,研究结果更加真实可靠。 语料库在语言学研究中主要的应用领域有: 词典编纂;语言统计;语言监控,包括新词、新用法的发现;语言 教学;语言信息处理;语法、语义、词汇、语音等各种语言问题的研究;方言研究等等。,4,三 汉语语料库和汉语中介语语料库建设,汉语语料库 我国汉语语料库的

4、建设开始于20世纪八九十年代,取得了不少成果。 这里简单介绍北京大学CCL语料库极其特点,该语料库包含三个子语料 库:现代汉语语料库、古代汉语语料库和汉英双语语料库。其中现代汉语语料库和古代汉语语料库主要是面向汉语研究和教学使 用的大规模语料库及其在线检索系统。目前该语料库收集了大约4.77亿 字语料,现代汉语和古代汉语大体上各占一半。现代汉语语料库主要收 录1696部作品,9711字的查询。古代汉语语料库,涉及从周代到民国 时期,22580字的查询。该语料库主要特色包括: 可以查询不连续的词语,可以指定词语之间的距离(比如“帮 忙”);可以查询汉语特有的重叠模式;支持对标点符号的查询等等。

5、汉英双语语料库目前规模已经超过100万句对。汉英双语语料库对 于汉英语言对比研究有直接的帮助。 北大语料库 :8080/ccl_corpus/index.jsp?dir=gudai,5,6,三 汉语语料库和汉语中介语语料库建设,中介语的理论在 20世纪 80年代被引入到我国( 鲁健骥 1993) 之后, 就有了汉语的中介语语料库建设 。第一个问世的汉语中介语语料库是由、 北京语言学院开发研制的 “汉语中介语语料库系统”, 它是一个利用第一 语言为非汉语的学生的汉语书面语料,全面、细致地记录他们汉语学习过 程中的语言表现和研究他们汉语习得过程的计算机软件。该语料库对语 料进行了分词和词性标注。

6、相继出现的汉语中介语语料库有 “留学生汉语中介语语料库 ”( 暨南大 学 )“外国学生汉语中介语偏误信息语料库”( 南京师范大学 ) 、“汉语中介 语语料库 ”( 中山大学 )等 , 不过 ,很多语料库并不面向全社会开放使用 , 许多人想用却没法用 ,导致语料库的使用率并不高。 中介语语料库的建立 ,是为了更好地进行汉语中介语研究 、第二语 言习得研究、对外汉语教学理论研究、对外汉语教材研究、汉语水平考 试研究以及与对外汉语教学相关的汉语本体研究等等 。这对于提高汉语 教学 、汉语测试 、汉语本体研究等方面的水平都具有重要的意义 ,接 下来对常用的对全社会公开的语料库进行介绍。,7,四 常用中

7、介语语料库,(一)北语HSK动态作文语料库 (二)中山大学中介语语料库 (三)暨南大学中介语语料库,8,(一)北语HSK动态作文语料库,北语HSK作文语料库是在北京语言大学崔希亮教授的主持下开发建 成的。它以母语为非汉语的外国人参加高等汉语水平考试 ( HSK高等 ) 作文考试的答卷内容为语料,并从字、词、句、篇、标点符号等角度进行 全面标注,语料收集的时间范围是 1992 -2005年。语料总数达到11569 篇 ,共计 424万字,是目前汉语中介语语料库中规模最大的语料库。北 语HSK作文语料库是最早在网上公布偏误标注规范的中介语语料库,因 此之后的许多语料库在进行偏误分类标注时,都以它为

8、基础,做适当的 修改。 北语HSK作文语料库 92:8060/hsk/login.asp(维护中),9,(二)中山大学中介语语料库,汉字偏误标注的汉语连续性中介语语料库,是在中山大学国际汉语学 院院长周小兵教授鼎力支持和率领下建设的,分为汉字偏误标注版和字、 词、句偏误标准版两个入口。 使用该语料库,需要注册账号,填写自己的真实信息。注册后即可享 有查看和搜索全部语料的权利。 其中“字词句偏误标注版”做的较早,包含分词和词性标注预处理。偏 误标注包括错别字、词汇、语法等各种偏误标注,大约44万字。 “汉字偏误标注版”是只有错别字标注的语料,但也可供用户进行

9、一般的 词汇语言搜索,同时可以供大家对汉字偏误进行分析研究。 “错字数据库”是该库一大重要特色。错字数据库中收集了语料库中的所 有错字使用情 况,可供大家查询、分析。“汉字标注版”截止 2013 年 8 月 共有大约 310 万字,目前还在不 断增加更新改善。本语料库收集的主要 是中山大学国际汉语学院留学生日常作文和综合课的写话,语料涵盖初、 中、高级阶段,但因为初级阶段的学生本身输出就少,收集困难度高,所 以初级水平的 语料偏少,中级较多,高级最多。,10,(二)中山大学中介语语料库,11,中山大学中介语语料库偏误举例,1、汉字偏误标注 1)错字标注方式: 图片为CZ 示补旁加皮 【被】 (

10、图片是模仿学生所写的错字图片,“CZ” 表示错字,黑色方括号中是正确汉字) 2)别字标注方式:得意CBZ【洋】CBZ【洋】(中表示学生写的不正确的但成形的汉字,黑色方括号中是正确汉字) 3)既错又别的汉字:学生把正确的汉字写成了别字,但这个别字又写错 了,比如:错字 CZ【CBZ【懈】,即表示正确汉字应该是最后括号 中的“懈”,但是学生写成了另外一个汉 字“谢”,并且把“谢”写错了。,12,(三)暨南大学中介语语料库,13,(四)台湾师大汉字偏误库,台师大汉字偏误库是 2009 年以来第一个专门针对汉字偏误的语料 库。该库整个设计体系及偏误汉字都是繁体字。准确地说,该库是中国 第一个专门针对汉

11、字偏误的繁体字语料库。该库的语料来自台湾师范大 学国语中心(MTC)、台湾大学国际华语研习所(ICLP)、台湾大学文学院 语言中心中文组(CLD),收录了德语、法语、英语等15种母语背景学生 的汉字偏误,分初、中/高三级,共计2536个偏误汉字。 此外,已建成的主要汉语中介语语料库还有: 首都外国留学生汉语文本语料库(2010)、 汉语学习者口语语料库(2007) 南京师范大学:外国学生汉语中介语偏误信息语料库 等。 上海交通大学、厦门大学、北京大学、中国人民大学、北京师范大学、 鲁东大学、苏州大学、四川外国语学院、华中师范大学等,也都已经建 成或正在建设自己的汉语语料库。,14,五 意义和局

12、限,中介语语料库的建立 ,是为了更好地进行汉语中介语研究、第二语言习 得研究、对外汉语教学理论研究、对外汉语教材研究、汉语水平考试研究 以及与对外汉语教学相关的汉语本体研究等等,对于提高汉语教学、汉语 测试 、汉语本体研究等方面的水平都具有重要的意义。但是,现有的语料 库绝大多数都是书面语语料库,口语语料库很少,多模态语料库尚无建成 者。此外,现有中介语语料库的偏误分类和标注以语法为主,缺乏语义和 语用角度的分析。 对汉语中介语语料库建设提出以下几点建议 : 1.语料处理应该注意平衡性 : 主要是注意不同国别和不同汉语等级水平在 语料数量上的平衡 。 2. 加工标注应该进一步完善 : 尽量做到标注符号表达方式的一致和标注结 果的正确。在可能的情况下对语料作更多的深加工。 3. 应该注意界面设计的友好: 做到在检索语料时简单方便 ,在获取语料时足 量快捷 ,在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论