




已阅读5页,还剩13页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
汉语中介语语料库简介 陈晨 1 目录 一背景二语料库和语料库语言学三汉语语料库和汉语中介语语料库建设北大语料库 现汉 古汉 英语 四常用中介语语料库 一 北语HSK动态作文语料库中介语口语语料库 二 中山大学中介语语料库 三 暨南大学中介语语料库五意义和局限六参考文献 2 一背景 自20世纪60年代计算机问世 计算机技术就迅速应用到了以语料库为基础的语言学研究中 随着计算机技术的迅速发展 世界各国在语料库的建设上成绩显著 不同语言 不同类型 不同规模的语料库越来越多 自第一代大型电子语料库BROWN建立至今 语料库语言学的研究已经有50多年的历史 而国内的语料库研究也有30多年的历史 并在上世纪90年代得到飞速发展 汉语中介语料库的建设始于20世纪90年代 进入21世纪 汉语中介语语料库引起了更多重视 语料库建设增多 建设速度加快 但是 目前对外公开的语料库数量却很有限 主要有北京语言大学的HSK动态作文语料库 简称 北语HSK作文语料库 中山大学的汉字偏误连续性中介语语料库 简称 中大中介语语料库 和台湾师范大学的汉语学习者汉字偏误数据资料库 简称 台师大汉字偏误库 等 3 二语料库和语料库语言学 语料库和语料库语言学的定义语料库 corpus或corpuses 是指按照一定的语言学原则 运用随机抽样方 收集自然出现的连续语言运用文本或话语片段而建成的具有一定容量的大型电子文本库 语料库语言学 在文本语料的基础上进行语言研究的一门学科 语料库语言学通过语言现象出现的概率对语言材料进行研究 这里的语言材料是真实的 可观存在的 因此 通过概率统计手段在语料库语言学研究中得到的语言使用情况是真实客观的 排除掉了语言学家的主观性 研究结果更加真实可靠 语料库在语言学研究中主要的应用领域有 词典编纂 语言统计 语言监控 包括新词 新用法的发现 语言教学 语言信息处理 语法 语义 词汇 语音等各种语言问题的研究 方言研究等等 4 三汉语语料库和汉语中介语语料库建设 汉语语料库我国汉语语料库的建设开始于20世纪八九十年代 取得了不少成果 这里简单介绍北京大学CCL语料库极其特点 该语料库包含三个子语料库 现代汉语语料库 古代汉语语料库和汉英双语语料库 其中现代汉语语料库和古代汉语语料库主要是面向汉语研究和教学使用的大规模语料库及其在线检索系统 目前该语料库收集了大约4 77亿字语料 现代汉语和古代汉语大体上各占一半 现代汉语语料库主要收录1696部作品 9711字的查询 古代汉语语料库 涉及从周代到民国时期 22580字的查询 该语料库主要特色包括 可以查询不连续的词语 可以指定词语之间的距离 比如 帮 忙 可以查询汉语特有的重叠模式 支持对标点符号的查询等等 汉英双语语料库目前规模已经超过100万句对 汉英双语语料库对于汉英语言对比研究有直接的帮助 北大语料库 8080 ccl corpus index jsp dir gudai 5 6 三汉语语料库和汉语中介语语料库建设 中介语的理论在20世纪80年代被引入到我国 鲁健骥1993 之后 就有了汉语的中介语语料库建设 第一个问世的汉语中介语语料库是由 北京语言学院开发研制的 汉语中介语语料库系统 它是一个利用第一语言为非汉语的学生的汉语书面语料 全面 细致地记录他们汉语学习过程中的语言表现和研究他们汉语习得过程的计算机软件 该语料库对语料进行了分词和词性标注 相继出现的汉语中介语语料库有 留学生汉语中介语语料库 暨南大学 外国学生汉语中介语偏误信息语料库 南京师范大学 汉语中介语语料库 中山大学 等 不过 很多语料库并不面向全社会开放使用 许多人想用却没法用 导致语料库的使用率并不高 中介语语料库的建立 是为了更好地进行汉语中介语研究 第二语言习得研究 对外汉语教学理论研究 对外汉语教材研究 汉语水平考试研究以及与对外汉语教学相关的汉语本体研究等等 这对于提高汉语教学 汉语测试 汉语本体研究等方面的水平都具有重要的意义 接下来对常用的对全社会公开的语料库进行介绍 7 四常用中介语语料库 一 北语HSK动态作文语料库 二 中山大学中介语语料库 三 暨南大学中介语语料库 8 2020 3 19 9 一 北语HSK动态作文语料库 北语HSK作文语料库是在北京语言大学崔希亮教授的主持下开发建成的 它以母语为非汉语的外国人参加高等汉语水平考试 HSK高等 作文考试的答卷内容为语料 并从字 词 句 篇 标点符号等角度进行全面标注 语料收集的时间范围是1992 2005年 语料总数达到11569篇 共计424万字 是目前汉语中介语语料库中规模最大的语料库 北语HSK作文语料库是最早在网上公布偏误标注规范的中介语语料库 因此之后的许多语料库在进行偏误分类标注时 都以它为基础 做适当的修改 北语HSK作文语料库http 202 112 195 192 8060 hsk login asp 维护中 10 二 中山大学中介语语料库 汉字偏误标注的汉语连续性中介语语料库 是在中山大学国际汉语学院院长周小兵教授鼎力支持和率领下建设的 分为汉字偏误标注版和字 词 句偏误标准版两个入口 使用该语料库 需要注册账号 填写自己的真实信息 注册后即可享有查看和搜索全部语料的权利 其中 字词句偏误标注版 做的较早 包含分词和词性标注预处理 偏误标注包括错别字 词汇 语法等各种偏误标注 大约44万字 汉字偏误标注版 是只有错别字标注的语料 但也可供用户进行一般的词汇语言搜索 同时可以供大家对汉字偏误进行分析研究 错字数据库 是该库一大重要特色 错字数据库中收集了语料库中的所有错字使用情况 可供大家查询 分析 汉字标注版 截止2013年8月共有大约310万字 目前还在不断增加更新改善 本语料库收集的主要是中山大学国际汉语学院留学生日常作文和综合课的写话 语料涵盖初 中 高级阶段 但因为初级阶段的学生本身输出就少 收集困难度高 所以初级水平的语料偏少 中级较多 高级最多 11 二 中山大学中介语语料库 12 中山大学中介语语料库偏误举例 1 汉字偏误标注1 错字标注方式 图片为CZ示补旁加皮 被 图片是模仿学生所写的错字图片 CZ 表示错字 黑色方括号中是正确汉字 2 别字标注方式 得意CBZ 洋 CBZ 洋 中表示学生写的不正确的但成形的汉字 黑色方括号中是正确汉字 3 既错又别的汉字 学生把正确的汉字写成了别字 但这个别字又写错了 比如 错字CZ CBZ 懈 即表示正确汉字应该是最后括号中的 懈 但是学生写成了另外一个汉字 谢 并且把 谢 写错了 13 三 暨南大学中介语语料库 14 四 台湾师大汉字偏误库 台师大汉字偏误库是2009年以来第一个专门针对汉字偏误的语料库 该库整个设计体系及偏误汉字都是繁体字 准确地说 该库是中国第一个专门针对汉字偏误的繁体字语料库 该库的语料来自台湾师范大学国语中心 MTC 台湾大学国际华语研习所 ICLP 台湾大学文学院语言中心中文组 CLD 收录了德语 法语 英语等15种母语背景学生的汉字偏误 分初 中 高三级 共计2536个偏误汉字 此外 已建成的主要汉语中介语语料库还有 首都外国留学生汉语文本语料库 2010 汉语学习者口语语料库 2007 南京师范大学 外国学生汉语中介语偏误信息语料库等 上海交通大学 厦门大学 北京大学 中国人民大学 北京师范大学 鲁东大学 苏州大学 四川外国语学院 华中师范大学等 也都已经建成或正在建设自己的汉语语料库 15 五意义和局限 中介语语料库的建立 是为了更好地进行汉语中介语研究 第二语言习得研究 对外汉语教学理论研究 对外汉语教材研究 汉语水平考试研究以及与对外汉语教学相关的汉语本体研究等等 对于提高汉语教学 汉语测试 汉语本体研究等方面的水平都具有重要的意义 但是 现有的语料库绝大多数都是书面语语料库 口语语料库很少 多模态语料库尚无建成者 此外 现有中介语语料库的偏误分类和标注以语法为主 缺乏语义和语用角度的分析 对汉语中介语语料库建设提出以下几点建议 1 语料处理应该注意平衡性 主要是注意不同国别和不同汉语等级水平在语料数量上的平衡 2 加工标注应该进一步完善 尽量做到标注符号表达方式的一致和标注结果的正确 在可能的情况下对语料作更多的深加工 3 应该注意界面设计的友好 做到在检索语料时简单方便 在获取语料时足量快捷 在解读
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论