关于汉语中介语语料库建设研究_第1页
关于汉语中介语语料库建设研究_第2页
关于汉语中介语语料库建设研究_第3页
关于汉语中介语语料库建设研究_第4页
关于汉语中介语语料库建设研究_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

汉语中介语语料库建设研究沈锐1,黄薇2(1.红河学院教育技术系 2.红河学院国际合作与交流处 云南蒙自 661100)【摘要】本文探讨母语非汉语学习者的汉语中介语语料库建设的主要思路以及具体实现方法,重点介绍了汉语中介语语料的加工方法以及语料数据库的设计思路,并阐明了该语料库在对外汉语教学和研究中的应用价值。【关键词】语料库;中介语;汉语教学语料库是指按一定的语言学原则收集的语言文本或话语片断而建立的电子资料库。本文所述汉语中介语料库是基于语言学中中介语理论设计与实施的。中介语是心理语言学中第二语言习得的一种研究模式,其将语言学习者置于观察中心,去研究他们如何有意识地向目的语的正确形式迁移的各种动态表现。中介语理论自20世纪60年代末出现并发展至今,虽然时间并不长,但越来越受到语言学家以及一线教师的关注。无论是进行中介语研究还是使用中介语理论进行第二语言教学都需要收集分析大量的语料,因而通过信息化手段收集和整理语料变得十分迫切。在对外汉语教学中,通过建设和使用母语非汉语学习者的汉语中介语语料数据库,可以收集不同背景和不同学习阶段外国学生及少数民族学生的汉语书面语和用文字转写的口语语料,并对语料属性、词汇、语法等单位进行计算机处理,以实现对各种条件和要求下的语料数据进行便捷的机器检索和提取,可以为研究母语非汉语学生学习和习得汉语的规律提供大量的各种单项的或综合的资料和信息。因此,我们提出了建设汉语中介语语料库的课题,由于语料库建设是一项浩大的工程,限于人力物力条件,本文讨论的是中小规模的语料库。一、需求分析和框架设计语料库建设不能盲目进行,首先要进行调研,对语料库的应用需求进行分析。半自动化的语料库构建是目前语料库建设的主流技术,目的是在确保语料库质量的前提下,减少人工参与的比例,增加自动化程度,目标是在较短时间内建设一个有一定规模,质量可靠、可扩充、成本低,能够全面、细致地记录母语非汉语学习者在汉语学习过程中的语言表征和研究他们汉语习得过程的语料库。依照软件工程的方法,建立数据库首先需要进行需求分析,在需求分析过程中要注意汉语中介语语料库主要是服务于对外汉语教学的一线教师,以及辅助母语非汉语学生自学,因此主要注重以上二类服务对象的应用需求,确保建成的语料库能够对第二语言教学、研究以及教材的编写提供持续支持。基于以上要求,在对中介语语料库的建设思路及框架做了总体考虑,基本归纳为以下三个方面:1、中介语语料库为专门用途语料库,主要目的为研究母语非汉语的学生在学习汉语过程中的中介语现象而设计制作的。2、中介语现象存在于母语非汉语的学生在学习汉语过程中的书面语料及口语语料中,由于口语语料的收集、分析和标注都较为困难,因此在建库的第一阶段只考虑收录书面语料,这有利于语料库的快速建设与使用。3、语料标注的加工标准使用中科院计算所汉语词性标记集V3.0。二、语料收集与加工收集和加工语料是最为重要的一项工作,要在语料库使用过程中不断收集、加工并添加到语料库内,而且需要在整个语料库生存周期中都要持续不断的进行此项工作。本语料库中的语料基本上来源于云南几所高校的外国留学生在日常学习和生活过程中的作业、写作、试卷等,目前收集的都是书面文字,待日后语料库进行二期建设时也可以考虑扩充收集语音录制的口语语料。最初获得的未经进一步加工处理的语料一般称为生语料,要将生语料转变为语料库内能够使用的熟语料还需要经过录入、断句、分词、词性标注等工作。语料加工的工作量是相当大的,如果完全人工完成的话,虽然质量能够得到保证,但效率太低,很难保证长期对数据的更新和维护。另外,由于中介语本身是留学生在学习第二语言过程中向正确的语言系统迁移的中间状态,所以中介语语料存在大量偏误,使用计算机进行自动加工获得的语料质量也较差。为得到较高质量的熟语料,同时又需要尽量减少人力成本,因此在语料加工环节我们采用了人工与计算机自动处理相结合的方式。具体操作上是先使用中科院计算所研发的汉语词法分析软件ICTCLAS进行初步加工,再由人工方式对该软件的分析结果进行校对和修正,最后输入语料库存储,这后两个步骤是通过我们自己编写的软件来实现的。三、数据库的设计思路依据需求分析的结果,首先转换为不依赖任何具体机器的信息结构,即反映用户观点的概念模型,这是整个数据库设计的关键。一般语言的基本构成要素是词,由词构成句,再由句构成篇章,但汉语的最小构成元素却是汉字,因此设计语料库结构组成时需要将字、词、句和篇章都考虑到。另外,语料库数据的最大特点就是“真实”,也就是说需要原样保存语料信息,包括语料中的大量偏误,这也是需要考虑的关键问题。依据汉语构成特点及中介语语料库的需求,使用E-R概念模型设计方法,得到语料库概念模型如下:汉字构成标准词构成偏误词 正误关联语料句构成构成构成语料篇章作者撰写图1语料数据库概念模型ER图要在具体的数据库管理系统上建立语料库,还需要转换为数据库管理系统支持的数据模型,由于国内目前使用的基本上都是关系型数据管理系统,因此接下来就谈谈如何将语料库概念模型转换为关系模型。按照数据库逻辑结构设计的方法,概念模型中的每一个实体都要转换为一个关系模式,即“汉字”、“标准词”、“偏误词”、“语料句”、“语料篇章”和“作者”,此类关系模式的属性则根据需求分析的结果进行定义。例如需要通过语料提供者的性别、年龄、国籍、学习汉语年限等条件对语料进行分析,则“作者”关系模式的属性应该包含“性别”、“出生日期”、“国籍”、“开始学习汉语时间”。实体间的联系也要转换为对应的关系模式或关系模式中的属性,“作者”和“语料篇章”,“语料篇章”和“语料句”间的联系都是一对多联系,此类联系不单独转换为关系模式,而是通过其中“多”的一方的属性表示。例如“语料篇章”关系模式中就应该包括“作者编号”这一属性,而“作者编号”又是“作者”关系模式中的主码属性。“汉字”、“标准词”、“偏误词”和“语料句”间的联系都属于多对多的联系,此类联系需要转换为单独的关系模式,即“字-标准词联系”、“字-偏误词联系”、“标准词-偏误词联系”、“标准词-语料句联系”和“偏误词-语料句联系”,这些关系模式的属性为两端实体关系模式的主码加上自身的属性。当然,数据库逻辑设计完成后就应该是数据库的实现了,具体地讲就是选用合适的DBMS,并通过该DBMS提供的数据定义功能将逻辑设计的结果即数据库结构建立起来。根据预计的数据库规模、性能要求以及安全性要求,笔者选择使用微软公司的SQL Server 2000建立语料数据库,已经过测试投入运行。四、汉语中介语语料库的应用价值语料库是经过计算机处理学习者的语言而产出的文本数据库,它注重语用而非能力,注重描述而非普遍语法,注重量化分析而非定性分析。母语非汉语学习者的汉语中介语语料库,作为一种专用语料库,具有容量大、材料真实和代表性强的特点,可以对大量学习者的语言样本进行量化分析,能深化人们对语言学习机制的理解,乃至对语言本身的理解提供依据(李文中,1999:53)。它为汉语中介语研究、汉语本体研究、对外汉语教学研究以及偏误分析提供了宝贵资源,科学便捷的集成环境和先进技术手段。总的说来,外国留学生汉语中介语语料库的应用价值体现在以下六个方面:第一、对学习者错误的分析,而且能够对学习者的语言特征和语言发展进行全面而系统的描述和对比分析(杨惠中、濮建忠,2002:60);第二、学习者语料库让我们从不同的视角观察和了解到学习者的语言使用情况,从而区分中介语中母语特征和其发展性特征,进一步增强在外语教学和研究中语言使用与语言知识并重的理念(文秋芳,2006);第三,建立在频率基础上的典型性对对外汉语教学有很大的启示,它为确定教学重点、语言项目的教学次序提供了参考标准;第四,将语料库引入外语课堂教学可以激发学生的学习动机;第五,能够对各种标准化外语测试和作文评分提供可靠依据,有助于提高题项的结构效度和评分信度;第六,学生和教师通过语料库得到丰富的语料资源和在线帮助,增加了语言学习的“真实材料”和真实交际,使外语学习更富于交互性。【参考文献】1靳光瑾,肖航,富丽,章云帆现代汉语语料库建设及深加工J语言文字应用,2005(2)2李菲国内语料库语言学研究综述J周口师范学院学报,2006(3)3秦旭学习者语料库及其在外语教学中的应用价值J徐州工程学院学报,2006(11)4李文中语料库、学习者语料

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论