藏文音节拼写自动校对系统的设计.doc_第1页
藏文音节拼写自动校对系统的设计.doc_第2页
藏文音节拼写自动校对系统的设计.doc_第3页
藏文音节拼写自动校对系统的设计.doc_第4页
藏文音节拼写自动校对系统的设计.doc_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

藏文音节拼写自动校对系统的设计-大学语文论文藏文音节拼写自动校对系统的设计 陈小莹 艾金勇 (西藏民族学院,陕西咸阳712082) 摘要在藏文信息处理中,实现藏文音节拼写自动校对是一个比较重要的问题。本文的藏文音节拼写自动校对系统包括藏文文本规范化处理模块、音节切分模块、黏着语的分离与还原模块和音节校对模块四个模块的内容。该系统的设计在藏文信息处理领域具有非常重要的现实意义和应用价值。 关键词藏文音节;拼写;自动校对;占位辅音 中图分类号H013文献标识码A文章编号1672-8610(2014)03-0031-02 一、引言 在信息化时代,藏族文化要跟上时代的步伐,首先要解决的就是藏文的信息处理问题,藏文信息化和网络化是藏民族发展的必然趋势。从20世纪80年代起,随着对藏文字符编码、字符属性和输入技术等诸多领域不断深入的研究,藏文信息处理技术已取得较好的成果。随着藏文网络信息时代的发展,藏文正在迅速与现代化、信息化以及世界文化接轨。1藏文信息处理已从字处理研究逐步向词、短语、句法以及语义的研究发展。以藏字为媒介向世界介绍西藏文化是对西藏优秀传统文化的继承,藏文报刊、电子书、网站、电子邮件及藏文办公自动化的字处理等电子文本也越来越广泛地应用于藏文信息处理多个领域,而这些都需要通过计算机进行处理,难免会出现错误。2如何保证这些电子文本的正确性,显得越来越重要。这使得其中的校对环节工作量大大增加,对藏文文本的人工校对带来了很大的压力,这样对其进行校正就显得尤为重要。3所以对藏文音节拼写自动校对的研究具有非常重要的现实意义。 国内藏文自动校对的研究工作是从20世纪80年代初的字处理研究起步的。自八十年代中后期起,北京、上海、西藏、甘肃、青海等地的一些院校及科研机构纷纷研制开发了许多藏文信息处理系统,推动了藏文信息技术的发展,特别是计算机藏文文字处理技术的发展较快。很多藏文信息界的专家对此做了较多的研究。刘文香发表藏文文本词校对模型研究一文,文中阐述了音势约束理论和二元邻接矩阵在藏文自动校对中的应用。4关白等人发表的现代藏文音节字自动校对研究一文,通过音节字预处理、字表匹配、混淆集匹配、二元接续关系、最小编辑距离法等方法对现代藏文音节字的自动校对进行了研究。5王维兰等人发表的印刷体现代藏文识别研究一文,将藏文自动校对应用于藏文文字识别的后期处理,对识别后所形成文本中的单字进行了次校正。6多杰卓玛发表N元模型在藏文文本局部查错中的应用研究一文,提出将一个藏文音节字按其构件分成若干个字丁,利用N元模型对这些字丁建立模型,采用这一模型对音节字进行侦错的方法。7黄小兰等人发表的现代藏文音节的划分与确定一文,通过应用程序对藏文编码的占位和不占位的有效判定找出组合字符。对找出组合字符的藏文字符通过藏文正字法的限定对藏文音节进行有效的判定和音节组件的拆分。8 二、主要内容 藏文音节拼写自动校对系统共分为四个模块: (1)藏文文本规范化处理模块 藏文文本中除了包括正常的规范字符外,还常常出现各种不属于藏文字符的其他字符,例如数字、日期、电话号码等使用阿拉伯书写的字符。这些不属于藏文字符的其他字符会对后期音节的切分时发生错误,从而使整个音节拼写校对系统的校正率降低,所以这些非规范的文本在进行音节切分之前应该要进行规范化处理,并给出它们对应的在规范化藏文词表上的规范写法。 (2)音节切分模块 现代藏文的字符流是两维呈现的,有一套严格而完整的字母组合排列规则,自左向右横行书写。传统藏文文法根据字母在音节中的结构位置,将30个辅音字母分为分为基字、上加字、下加字、前加字、后加字、再后加字加上“元音”共7个构件,各个构造位上出现的字符其性质与数量均有一定的限制。藏文音节字是用音节点进行间隔的,在音节切分时,以音节点为标记对藏文音节进行切分。9 (3)黏着语的分离与还原模块; 在现代藏文的实际文本中有些格助词和接续词、终结词是黏着在后加字或者基字上,形成一个音节字的。这种具有黏着性的格助词有:a.黏着性属格助词“”;b.黏着性接续词“”;c.黏着性疑问助词“”;d.黏着性终结词“”;e.黏着性作格助词“”;f.黏着性LA格助词“”。这样形成的音节字虽然可能不符合藏文的正字法结构,但是又是正确的书写形式,因此需要对对待校文本中存在黏着现象的音节字进行分离和还原。具体过程如下: 对“”的分离与还原:判断字符串中可能黏着的格助词或接续词是否有“”等,如果有则对该音节进行黏着语分离和还原操作;否则不做任何处理读取下一个音节字进行判断。 对“”的分离与还原:判断字符串中可能黏着的格助词是否有“”,因为“”还可能作为后加字成分存在,所以如果存在,还需要根据构字规则判断其是否为后加字,如果不是则对该音节进行黏着语分离和还原;否则不做任何处理读取下一个音节字进行判断。 (4)音节校对模块 现代藏文具有最多3个辅音和最多1个元音的垂直叠加形成的组合字符。藏文字符显示时,一个组合字符只占据一个字母的宽度,这个宽度由第一层辅音决定,这个辅音称为占位辅音,这个辅音的编码也就称为占位辅音编码,其它字母只是叠加在占位辅音的上方或者下方而不单独占据宽度,称为不占位字母或不占位编码。10项目实施中首先可以依据音节编码中占位辅音编码和非占位辅音编码的顺序来确定基字所在的组合字丁的位置,然后再根据前后编码的序列确定前加字、后加字和再后加字;其次通过组合字符对应的编码特点即一个占位编码紧接着最多三个连续的不占位编码确定 “上加字”、“下加字”;最后根据藏文正字法确立的构字规则对该藏文音节各部件进行判别校对。 三、结语 通过对藏文文本规范化处理、音节切分、黏着语的分离与还原和音节校对四个部分内容的研究与分析,设计了藏文音节拼写自动校对系统。该校对系统可以广泛应用于藏文信息处理的其他领域。比如:藏文字识别和藏文语音识别、藏文拼写检查、文本编辑、自动分词、语料库制作、辅助教学等诸多的藏文信息处理的研究领域当中,可以减少人工校对带来的压力,从而大大提高校对环节的工作效率。所以对其的研究必将提升现有藏文信息处理研究的成果,具有非常重要的现实意义。 【 参 考 文 献 】 1关白,洛藏,才科扎西.现代藏文自动校对现状分析J.西藏科技,2011(8). 2张仰森,俞士汶.文本自动校对技术研究综述J.计算机应用研究,2006(6). 3扎西次仁.一个藏文拼写检查系统的设计C/中文信息处理国际会议论文集,1998. 4刘文香.藏文文本词校对模型研究J.西藏大学学报(自然科学版),2009(2). 5关白,才科扎西.现代藏文音节字自动校对研究J.计算机过程与应用,2011(6). 6王维兰,丁晓青,等.印刷体现代藏文识别研究J.计算机工程,2003(3). 7多杰卓玛.N元模型在藏文文本局部查错中的应用研究J.计算机工程与科学,2009(4). 8黄小兰,黄鹤鸣,才科扎西.现代藏文音节的划分与确定J.计算机应用与软件,2012(9). 9李永宏,孔江平,等.藏语文-音自动规则转换及其实现J.清华大学学报,2008(1). 10黄鹤鸣,达飞鹏.基于排序的藏文音节类型判定J.计算机应用,2009(7). 基金项目西藏自治区专项资金项目“

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论