(计算机应用技术专业论文)藏文编码识别与转换算法的研究与实现.pdf_第1页
(计算机应用技术专业论文)藏文编码识别与转换算法的研究与实现.pdf_第2页
(计算机应用技术专业论文)藏文编码识别与转换算法的研究与实现.pdf_第3页
(计算机应用技术专业论文)藏文编码识别与转换算法的研究与实现.pdf_第4页
(计算机应用技术专业论文)藏文编码识别与转换算法的研究与实现.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机应用技术专业论文)藏文编码识别与转换算法的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文第l 页 捅斐 随着计算机技术和网络技术的飞速发展,藏文信息处理的工作取得了很大的进步。 但是由于藏文国际标准编码和国家标准编码出台的相对滞后,目前市场上各种软件厂 商采取自己的编码标准,使得各种藏文资料、网站之间不能兼容,信息不能共享,从 而严重影响了藏文信息处理工作的发展。目前大多数文献资料仍然是采用了整字编码 的g b 2 3 1 2 体系的编码作为藏文编码。 本文首先讨论了藏文编码识别与转换中的关键问题,介绍了藏文结构特点和统计 学特征,介绍了各种可能的识别准则并进行分析比较。确定了使用以藏文的音节点间 距规律为特征和高频音节为特征的识别方法对方正w i n d o w s 、方正d o s 、同元、华光 w i n d o w s 、华光d o s 、班智达、i s o i e c l 0 6 4 6 基本集、国家标准扩充集a 的藏文编码 识别;并能够正确地将藏文文本与其他语言区分。 其次为了实现各种非标准藏文编码到国家标准或国际标准藏文编码的统一转换, 本文主要进行的工作分为两个部分:首先制定基于g b 2 3 1 2 体系非标准的藏文编码到 国家标准扩充集编码之间的查询对照表,同时依据分析后需要转换的编码的特征采用 基于个编码特点的查询算法实现了方正w i n d o w s 、方正d o s 、同元、华光w i n d o w s 、 华光d o s 等藏文编码向i s o i e c l 0 6 4 6 基本集和国家标准扩充集a 的藏文编码的转换; 同时也实现了,国家标准扩充集a 到i s o i e c l 0 6 4 6 基本集的转换。 最后设计了藏文编码识别与转换系统,通过大量数据集对本系统进行了测试。由 测试结果可知该系统对藏文编码的识别与转换达到了预期的效果。 关键词:藏文编码藏文编码识别藏文编码转换音节点 西南交通大学硕士研究生学位论文第fi 页 a bs t r a c t w i t hr a p i dd e v e l o p m e n to fc o m p u t e ra n dn e t w o r kt e c h n o l o g y , t i b e t a ni n f o r m a t i o n p r o c e s s i n gw o r km a d eg r e a tp r o g r e s s b e c a u s ei n t e r n a t i o n a la n dn a t i o n a ls t a n d a r d so f t i b e t a nc o d e dc h a r a c t e rs e t si sr e l a t i v e l yb a c k w a r d ,s o f t w a r ev e n d o r su s e sd i f f e r e n tt i b e t a n c o d e dc h a r a c t e rs t a n d a r d si nt h ec u r r e n tm a r k e t ,t h e r e f o r e ,v a r i o u st i b e t a ni n f o r m a t i o n r e c o u r s e s ,w e b s i t er e c o u r s e sc a n tc o m p a t i b l ea n ds h a r e ,t h u ss e r i o u s l ya f f e c t e dt h e d e v e l o p m e n to ft i b e t a ni n f o r m a t i o np r o c e s s i n g a tp r e s e n t ,m o s to ft h e d o c u m e n t i n f o r m a t i o nc o d ei ss t i l lu s i n gt h eg b 2 312s y s t e mw h e r e c o d e dt i b e t a nc h a r a c t e rs e t s t h i st h e s i sf i r s td i s c u s s e dc r i t i c a lp r o b l e m sw i t ht i b e t a ne n c o d i n gi d e n t i f i c a t i o na n d c o n v e r s i o n ,a c c o r d i n gt ot i b e t a nc h a r a c t e rs t r u c t u r a la n di t ss t a t i s t i c a lc h a r a c t e r i s t i c s ,t h e n i n t r o d u c ev a r i o u sp o s s i b l er e c o g n i t i o nr u l e sa n dt h er e s u l t sw e r ea n a l y z e da n dc o m p a r e d u s e dc h a r a c t e r i s t i c so fd i s t a n c er e g u l a t i o na n dh i g hf r e q u e n c yb e t w e e nt i b e t a ns y l l a b l e st o d e t e r m i n a t i o ne n c o d i n gi d e n t i f i c a t i o no ff o u n d e rw i n d o w s ,f o u n d e rd o s ,t o n g u e r , h u r g u r n gw i n d o w s ,h u r g u r n gd o s ,p a n d i t a ,i s o i e c10 6 4 6b a s i cs e ta n dt i b e t a n c o d e dc h a r a c t e rs e t s e x t e n s i o na c o r r e c t l yd i s t i n g u i s ht i b e t a nt e x tw i t ho t h e rl a n g u a g e s f o ri m p l e m e n t a t i o no fn o n s t a n d a r dt i b e t a ni n t ot h en a t i o n a ls t a n d a r d so ri n t e r n a t i o n a l s t a n d a r d s ,t h i st h e s i sm a i n l yt ow o r ki nt w op a r t s :f i r s td e s i g n e dm a p p i n gt a b l ef o r n o n s t a n d a r dt i b e t a ne n c o d i n gb a s e do ng b 2 312s y s t e mt ot i b e t a nc o d e dc h a r a c t e rs e t s e x t e n s i o na ,a c c o r d i n gt or e s u l t sw e r ea n a l y z e da n dc o m p a r e dd i f f e r e n c ee n c o d i n g c h a r a c t e r i s t i c s ,r e a l i z e dc o n v e r s i o np r o g r a mf r o mf o u n d e rw i n d o w s ,f o u n d e rd o s , t o n g u e r , h u r g u r n gw i n d o w s ,h u r g u r n gd o s ,p a n d i t at oi s o i e c 10 6 4 6b a s i cs e t a n de x t e n s i o nao ft i b e t a nc o d e dc h a r a c t e rs e t s a 1 s or e a l i z e dc o n v e r s i o nf r o me x t e n s i o na o ft i b e t a nc o d e dc h a r a c t e rs e t st oi s o i e c10 6 4 6b a s i cs e to ft i b e t a n f i n a l l yd e s i g n e dt i b e t a ne n c o d i n gi d e n t i f i c a t i o na n dc o n v e r s i o ns y s t e ma n dl a r g en u m b e r s d a t at e s t ,a c h i e v et h ed e s i r e de f f e c tf o rt i b e t a ne n c o d i n gi d e n t i f i c a t i o na n dc o n v e r s i o n k e y w o r d :t i b e t a ne n c o d i n g ;t i b e t a ne n c o d i n gi d e n t i f i c a t i o n ;t i b e t a ne n c o d i n g c o n v e r s i o n ;s y l l a b l ed o t 西南交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部 门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权西南交通大学可以将本论 文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编 本学位论文。 本学位论文属于 1 保密口,在年解密后适用本授权书; 2 不保密动,使用本授权书。 ( 请在以上方框内打“扩) 学位论文作者签名:矽佞:丝 指导老师签名: 日期:口f 硝日期: 西南交通大学硕士学位论文主要工作( 贡献) 声明 本人在学位论文中所做的主要工作或贡献如下: 1 本文对藏文字的特点和语法特征做了详细分析,结合藏文区别于其他语言文 字的特征,提出了采用音节点和高频音节在不同的藏文编码中的编码特征的 识别方法,实现了8 种藏文编码的识别,同时也实现了与其他语言的区分; 2 本文通过对基于g b 2 3 1 2 编码体系的几种藏文编码以及i s o i e c1 0 6 4 6 国际标 准的基本集藏文编码、国家标准的扩充集a 藏文编码的分析,实现了7 种藏 文编码之间的相互转换的,同时在藏、汉、英都存在的文档中能正确地实现 编码间转换。使该方法能在实际应用于古籍整理,政府公文、医疗记录、教 育、文化等电子文档的编码转换。使过去这些大量存在的文档能在目前各个 部门和用户采用标准化编码处理软件上显示,而不需要在一台电脑上安装多 种藏文处理软件或输入法。 本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成 果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体己经发表或撰 写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中作了明确说明。 本人完全了解违反上述声明所引起的一切法律责任将由本人承担。 学位论文作者签名:夕参蒸 日期:7 o 仍。碍 西南交通大学硕士研究生学位论文第1 页 1 1 研究背景 第一章绪论弟一早殖比 自吞弥桑布扎创制藏文字以来已有近1 4 0 0 年的历史,藏文字经过历代藏族人民 的传承和发扬现已成为世界先进的文字,现在的藏文己具有完备的文法理论、发达的 造词功能、丰富的修辞手法,不能将其与只能粗略记录语言、在群众中并不通用的原 始文字和尚不完备的文字相提并论。它不仅在我国藏族地区使用,而且在藏传佛教传 播的地区如尼泊尔、不丹、印度、蒙古等国境内也有一部分人使用。用藏文记载的经 典文献、古籍著述和译作浩如烟海。藏文自创制以来,无论过去作为藏民族文化传承的 主要载体,还是现在作为藏区传播科技知识的主要工具,特别是建国以后,藏文字得到 广泛的运用,如文教、科研、编译、出版、新闻、报刊、杂志、广播电视、电影、医 疗卫生、司法行政、古籍、信息处理等。藏文对保存和发展藏族文化、科学,丰富祖 国文化宝库,都发挥了重大的作用甚至将来作为信息化社会中一个民族的主要标识符, 其独特的人类文化价值和在广大藏区所发挥的巨大作用是不可估量的。 从人类进入以计算机和网络为主体的信息时代,古老的藏文字正面临着一场“生 死存亡”的考验一一即能否跨入信息时代。藏文字一旦不能跨入信息时代,它必将失 去语言文化载体的基本功能和作用,就会被这个时代无情地抛弃。纵观国内外语言文 字信息处理技术的发展历史和现状,我们可以清楚地看到,古老的藏文字能否跨入信 息时代的关键就是能不能解决好藏文信息处理技术问题。因此,藏文信息处理是直接 关系着藏文命运的一件大事,其重要意义是不言而喻的。随着藏族地区经济文化的发 展,藏文化地位的迅速提高,世界上研究、学习藏文的人越来越多,藏语文在人类社 会中必将发挥更加重要的作用。 在藏文信息技术的发展中众多计算机和藏语文工作者做了大量的工作,分别由藏 文字处理研究和藏文自然语言研究组成,并都取得一定的成绩。在字处理方面字符属 性统计、键盘布局、编码、输入等都做了相应的研究,尤其是早期如北大方正、华光、 同元等软件公司和专业用户出于自己的需要在其出品的文字处理系统中推出了各种藏 文字处理软件,以及制作了一些藏文字库。支持这些软件的藏文信息处理和交换用的 信息编码、字型点阵、计算机键盘布局都是采用各自为阵的开发局面,但这些成果均 西南交通大学硕士研究生学位论文第2 页 有一个致命的弱点,那就是不同的字库及软件之间不能够相互兼容,没有一个统一的 标准。另外,就是对藏文字符的收录不全,各不相同。这种情况的出现,其中一个根 本的原因就是没有统一的行业标准可供执行而这样导致。但这些软件由于在很长一段 时间都被我国各个地区的藏文用户使用,且使用广泛影响力也很高。由这些软件处理 的文本已经形成相当数量的电子文本。 在1 9 9 7 年国际标准颁布后,由于以下两点该标准没有得到快速的应用。 1 国际标准编码将藏文当作是纯拼音文字编码,但由于藏文是属于复杂文字,并不象 英语那样简单的横向组合。国际标准编码增加了文字处理的难度。 2 符合国际编码标准的字库必须采用o p e n t y p e 格式的布局表,同时还须要能够支持 这种技术的操作系统。从1 9 9 7 年得到广泛应用的操作系统w i n 9 8 到x p ,都不能很好 的支持这些功能。 采用大丁字符集整字编码的国家标准( 扩充集a ) ,在2 0 0 3 颁布。也就是所藏文 信息处理实际上在很长时间还是采用的各个企业和研究机构编制的各种藏文编码,这 些编码在国内的藏文信息处理中还是占据着主导地位。 2 0 0 7 年1 月3 0 日,微软公司向全球市场同步发布了其最新操作系统w i n d o w s v i s t a 和o f f i c e2 0 0 7 办公软件。w i n d o w sv i s t a 是迄今为止在全球范围内第一个全面支 持藏文的计算机操作系统。w i n d o w s v i s t a 对藏文的处理能力达到了与英文和汉文相同 的级别。英文和汉文能做什么,藏文就能做什么。最主要是w i n d o w sv i s t a 中的藏文是 完全基于由我国研究、提出并制定的藏文编码字符集国际标准i s o i e c1 0 6 4 6 和与之 相一致的国际标准u n i c o d e 。它首次在操作系统一级,基于国际标准藏文编码字符集, 实现了对藏文的支持。 1 2 研究意义 藏文文本编码识别与转换算法的研究具有很强的实用性,是藏文信息处理标准化 进程中必要研究内容,是藏文文本浏览、藏文编码标准化工作的必然阶段,同时也是 建立藏文信息提取系统、建立海量藏文网络文本资源数据库,藏文主题搜索引擎的设 计,信息监控等课题的关键所在。同时研究藏文文本编码识别和转换是为当前广大的 藏文用户对信息的共享提供了有力的工具,大致原因如下: 用户长期来已经习惯了使用各种非标准编码的藏文软件,俗话说“习惯形成自然 , 西南交通大学硕士研究生学位论文第3 页 这在一定程度上说明了编码标准化的推进工作不可能做到“一步到位”; 1 国内外商家免费向用户提供了非标准编码的各种藏文输入法及软件,这对用户形 成了一定的吸引力,他们会从价格低廉的角度出发选择使用该类产品;在过去,诸多 藏文软件和藏文输入法采用自定义编码,万“码”乱跑的混乱局面,给广大藏文计算机 用户带来了极大的不便。由于编码不同,用户之间无相互传送和交换数据文件,也无法 开发藏文应用软件。严重阻碍了我国藏文信息技术的发展和藏文信息化的建设。 2 很多用户利用非标准编码的藏文输入法已经作了大量工作,为了与现有文档保持 一致,他们又继续沿用非标准编码的藏文输入法,大量藏文文献书刊及典籍著作的处 理也存在同样的问题。 3 由于藏文字的应用最广阔的地区是在广大的农牧区,而要求他们全面更新藏文软 件无论是从经济上或者是其他原因都不是能在短时间能解决的。当然它对社会、经济、 文化各个领域方面的促进作用都是非常巨大的,尤其是对藏族人民的精神面貌或者精 神方面的推动作用和影响是非常巨大的。 4 1 9 9 7 年藏文小字符集国际标准的颁布之后,因为该标准对新技术的依赖,使得在 较长时间里并没有得到具体应用推广。在全球网络化的时代到来后藏文网络化的实现 并没有因此而停顿,藏文信息处理研究者们依据现存的藏文处理软件以及相应的字库 创建藏文网站。这些网站主要基于同元、华光、方正处理软件。但用户在浏览文本时 必须使用字库下载技术。只有在确保客户端有相关的藏文的字库时才能真正实现交互 式浏览信息。也就是说用户浏览不同编码设计的文本时就需要下载相关的字体才能正 确显现。这给普通用户带来了极大的不便。尤其是对计算机技术并没有多大了解的普 通用户。 5 现在网络上公开的一些藏文编码转换软件大都是两种非标准的编码之间的转换或 则是编码转换过程繁琐,转换不成功,没有编码识别的功能。 藏文编码识别与转换算法研究解决了以上现实存在的问题,为“万码奔腾”的藏 文信息处理局面朝标准化归一提供了过渡的有利实用工具。解决藏文电子数据难以交 换和共享的问题,使用户不用再为藏文编码的不同而烦恼。 1 3 研究内容 ( 一) 研究内容 西南交通大学硕士研究生学位论文第4 页 本论文主要研究的内容包括: 1 藏文文字结构特点及藏文文本统计学特征研究; 2 各种藏文编码特征研究; 3 藏文音节点特征和高频音节特征识别藏文编码模块的实现; 4 藏文编码转换方法研究与实现; 5 对本文实现的藏文编码识别与转换系统进行测试分析,与网络上提供的一种编码 转换工具比较; ( 二) 创新点 本文在经过大量检索、收集、阅读相关文献和相关技术文档后,通过观察、分析以 及总结前人研究的基础上,主要作了以下几个方面的工作: 1 将前人对藏文文本及统计学特征的研究作了详尽的比较分析及总结。对国内外目 前存在的多种藏文编码中具有一定影响力和代表性的藏文编码进行了分析及归 类。 2 结合藏文特征及各种编码特点分析。提出了音节点与高频音节相结合的藏文编码 识别技术,为相关应用研究提供了重要的方法。 3 简便快捷的实现了藏文编码的转换,依据各种藏文编码的特点实现了非标准的藏 文编码向国家标准和国际标准的统一。 1 4 论文结构安排 第一章绪论部分,主要说明研究的背景,研究的意义,以及本论文的主要研究内 容; 第二章理论基础部分,主要介绍了藏文字的特点、藏文文本特征及藏文编码特点。 介绍了目前藏文编码识别与转换的现状; 第三章和第四章是本文的重点,其中第三章结合了藏文文字及编码特征主要讨论 了藏文编码识别的方法以及算法; 第四章主要分两个部分,第一部分是讨论了几种国内的g b 2 3 1 2 体系的非标准藏文 编码与国家标准扩充集藏文编码之间的转换;第二部分则讨论了采用整字编码的国家 标准扩充集与i s o1 0 6 4 6 基本集藏文编码之间的转换。最后讨论了几种国内的g b 2 31 2 体系非标准藏文编码与i s o1 0 6 4 6 基本集藏文编码转换采用的方案。 西南交通大学硕士研究生学位论文第5 页 第五章测试系统和测试过程。 第六章是总结和展望,这部分总结了本文的研究成果,指出了下一步要进行研究 的工作。 西南交通大学硕士研究生学位论文第6 页 2 1 藏文字特点 11 藏文文字结构特点 藏文文手结构特点 第二章理论基础 弟一早璀比荃巾函 藏文可以被视为基本字符和基本字符通过纵向叠加而成的字符串,构成一个完整 藏文词素的基本单位是由藏文中的“音节分割符t s h e gb a r ”来确定。一个藏文词由一 个或多个音节构成。每一个音节包含着“基字( r o o tl e t t e r ) ( m i n gg z h i ) ”和可能跟随 的如前加字( p r e f i x ) 、上加字( h e a dl e t t e r ) 、元音符号( v o w e l ) 、后加字( s u f f i x ) 、再后 加字( p o s ts u f f i x ) 。音节,通常是由音节分割符t s h e gb a r ( 音节点) 或者其他标点符 号来划分的口7 1 。如图2 1 给出了一个藏文字的组成构件。一个音节,除了基字符不能 省略外,其余构件都可能少掉一个或几个仍然可以成音节即藏字。七个成分中辅音字 母在各个部位都有一定限制不是所有的辅音字母都可以做前加字或后加字等。表2 1 清楚的划分了现代藏文中辅音字母在成字中的限制。辅音字母每4 个字母为一组,共7 组半【45 1 。 烈崦 p o s fs u f f i x 图2 1 藏字的组成构件 一个藏文字符则需要用几个编码来表示,长度不定,给藏文在信息系统的实现带 来极大的麻烦。具体而言,藏文字有如下一些特性: 1 字符置位性:虽然藏文书写方向是从左向右,但是在一个藏文文本中纵向叠加的 辅音加上元音的组合字是经常存在和使用的。然而,无论是两个相邻的字符将要纵向 地堆叠或者从左到右形式地拼写,后一个字符不能简单地由上下文或语法规则来确定。 西南交通大学硕士研究生学位论文第7 页 表2 1 各个构造位上辅音字母【3 8 】 辅音 1 同玎1 只奄击巨9 可目气气q q q 圜s 苗囤i a i 蜀q q 天闰q 羽弓斟 元音 令。套孑 后加字 1 气气q 困r 天闰羽 再后加字 羽司q 嗣 下加字 田式四翟 上加字 夏冈羽 前加字 q 气司因q 2 与上下文内容相关的显现形式:字符在词的不同位置有着不同的显现形式,如藏文 字在作为藏文的基字和上加字时有不同的显现形式。 藏文自左向右横写,各个音节之间用音节分隔符( 音节点) 分割。除了音节点外, 还有楔形号用于词、短语、句、章节的结尾;起始号用于段落、文章、书籍的开始; 另外还有敬重号、着重号。 2 1 2 藏文文本统计学特征的研究 1 江狄及严海林等讨论了藏语信息熵问题,该实验发现与西方语言比较,书面藏语的 条件熵极小,有序度高,冗余度也要高于汉语和英语。这是因为藏语自身严格的结构 所造成的。从藏文字丁的冗余度数据可以说吲61 1 】; 2 藏语文本信源有约7 2 的多余度【1 1 】。或者说,书写藏文时,有7 2 是由语言文字 结构( 字、词、句) 规定了的。可自由选择的可能只是2 8 。这也意味着藏文中有约 3 4 的字母符号不是用来传递消息的,而是用来保证这些字母的组合符合藏语的组词、 构字及有关语法的规则; 3 藏文字丁的使用不同频且集中在少数字丁上,对藏文信息的压缩和编码时很有利 的; 4 藏文文字的上下文关联较大,也就是有比较严格的语法语义规则,这除了对藏文 信息的压缩和编码有利外,对藏文的文本自动处理也是很有好处的,比如藏文的藏文 识别、自动分词以及藏文语音识别中都有好处; 西南交通大学硕士研究生学位论文第8 页 1 9 9 4 年江狄【6 】从藏汉拉萨1 :3 语词典、拉萨口语读本词汇表和藏语简志 词汇表中采集了常用词语3 0 4 2 8 条,经处理得到3 9 2 6 个藏字。统计分析了藏字的构 词频度、字长、声母结构频度、韵母结构频度、藏字的位置字符及结构方式【6 】。扎西 次仁【7 】于1 9 9 7 年利用2 0 0 0 万字中华大藏经丹珠尔的藏文对勘本对藏字的构件频 度、字符频度及字频信息进行了更加全面和深入的统计分析。2 0 0 3 年卢亚军【10 】等人利 用大型藏文语料库对藏字的藏文字符、部件、音节、词汇频度与通用度进行了统计和 分析。王维兰【8 】等2 0 0 4 年对2 0 0 0 万字的藏文语料做了字频、音节频度的统计。藏文 的字长的研究,藏文字的构造中,除了基字是不可缺少的,其余的构造位上的构件不一 定都存在。江荻【6 】的统计结果表明藏文平均字长为3 6 7 8 0 ,其中三字符藏字和四字符 藏字最多,两类合计占全部统计藏字的6 9 3 6 ,扎西次仁【_ 刁的统计结果为平均字长为 2 5 4 。在王维兰的研究中虽然没有给出藏字的平均字长,但也得出了三字符和四字符 的藏字最多的统计结果。藏字平均长度的统计结果还是有比较大的偏差,其原因除了 词汇量上的差异外,表达形式也是一个关键的因素。由于前者是用藏文的拉丁转写形 式做的统计,而藏文拉丁转写过程中,存在一个藏文字符转写为多个拉丁字母的情况, 并且对于不含元音符号的音节都添加字母a ,所以导致字长增大。 藏文字频的统计,表2 2 中分别列出了三位专家的统计结果中出现频率最高的十个 藏文音节,从表中可以看出,扎西次仁和王维兰两位专家的统计结果中有7 个音节是 相同的。江狄的统计和他们有比较大的差别,这可能是统计对象中词汇量相差极大所 导致,另外表中的数据表明高频音节出现的频率相当高。三人的统计结果中,前十个 音节出现的累计频率分别为: 2 2 9 9 、1 8 9 7 、3 1 ,8 3 。 江狄6 1 、扎西次仁川、卢亚军【1 0 】分别对于藏文的音节点( 隔字符) 的统计结果表明 音节点约占藏文预料全字符的3 0 0 0 、3 0 6 5 、3 0 7 0 。三个专家虽然使用的是不同 的语料库,但是在音节点的统计上则出现了一致。而对于藏文的句子结构,扎西次仁 的统计结果表明中华大藏经丹珠尔中每句平均含有7 个音节。这与丹珠尔 中七音节句无不关系,现代藏文得句子结构不如古藏文严谨,每句含有的音节数远比 7 个要多。 藏文的这些统计学特性是在下文中进行编码识别很好的依据。 西南交通大学硕士研究生学位论文第9 页 表2 2 三种藏文字频的统计结果1 序号扎西次仁频度王维兰频度江荻频度 1 q 4 7 9 q 3 8 8 q 乏气 5 7 5 2 武 2 6 1 2 5 8 日 5 4 0 3 2 4 8 q 盒 2 2 4 酊 5 2 0 4 司 2 3 7 脚 2 1 9 围 3 3 5 5 a , l 2 2 3 日 1 8 4 司巨1 2 9 3 6 q a 2 0 2专1 3 7 闲 2 3 3 7 气 1 8 2 雹 1 2 7 羽融 2 0 9 l 8 q 夏 1 6 2 q 天 1 2 4 日 2 0 1 9翮1 5 4 羽 1 2 3 嚣 1 3 9 1 0 自 1 5 0 气 1 1 3 嗣 1 3 8 2 2 藏文编码现状及其特点 2 2 1 国内藏文编码方案介绍 从8 0 年代中期,国内外都展开了藏文信息处理的工作,藏文信息处理工作在我国 相关的机构和大学( 青海师大、西北民院等) 开展,由于受汉文信息处理的影响以及 藏文字本身复杂的特性决定,藏文处理技术完全套用了汉字的处理模式。所以国内存 在的各种藏文处理系统都将藏文作为整字进行编码。采用将藏文垂直组合作为一个处 理单元进行编码( 即预先进行垂直组合,称为垂直预组合,垂直预组合后的字符称为藏 文字丁) ,这样,整个藏文处理过程就与汉字处理几乎完全相同。如北大方正报刊排版 系统、华光藏文排版和激光照排系统、同元藏文处理系统等,这些系统都有各自的编 码方案且有的占用了g b 2 3 1 2 的1 0 1 5 区或8 8 9 4 区的空余码点,有的干脆占用汉字 g b 2 3 1 2 的1 5 区至8 1 区的某段码点,有的甚至占用了g b k 汉字扩展区的码点【1 2 】,这 1 作者通过三个专家的统计的结果绘制 西南交通大学硕士研究生学位论文 第10 页 类编码采用双字节进行编码,编码空间相对大得多,所以一般用个字库即可实现。 这类编码采用双字节进行编码,具有以下特点【1 5 1 6 】: 1 用两个字节表示一个字符; 2 第一个字节的最高位为1 ,从而从码点上区别于英语; 3 由于实现方式与汉字相同,所以需要考虑和汉字的区分; ( 1 ) 底字节最高位置0 区分; ( 2 ) 避开汉字的常用字区分; 基于g b 2 31 2 的几种藏文编码如表2 2 所示,各个藏文编码的特点为: 1 方正d o s 编码 ( 1 ) 两个字节首位都为1 ; ( 2 ) 覆盖了g b 2 3 1 2 的码点,所以要考虑汉藏两种文字共存时的文字区分问题; ( 3 ) 编码区间为0 x a a a 0 0 x a c f e 、0 x b o a 0 0 x d e f e ,音节点编码为0 x a 6 e 6 ; 2 方正w i n d o w s 编码 ( 1 ) 第一个字节首位为1 ,第二个字节首位为0 ; ( 2 ) g b 2 3 1 2 汉字编码两个字节首位都为1 ; ( 3 ) 英文、汉字、藏文不会冲突; 3 华光w i n d o w s 编码 ( 1 ) 两个字节首位都为1 ; ( 2 ) 增加前导字符0 x 8 0 8 6 ,事实上是用四个字节表示一个字符; ( 3 ) 编码区间为0 x b o a l 0 x f b f e ,音节点码值为0 x e l e 2 ; ( 4 ) 英文、汉字、藏文不冲突; 4 华光d o s 编码 ( 1 ) 第一个字节首位为1 ,第二个字节首位为0 ; ( 2 ) g b 2 31 2 汉字编码两个字节首位都为l ; ( 3 ) 英文、汉字、藏文不冲突; 5 同元编码 ( 1 ) 在方正d o s 编码的基础实现的一种编码方案; ( 2 ) 大量使用于国内的藏文网站; ( 3 ) 编码区间为0 x 8 1 4 0 8 f d c ,0 x 9 0 8 a 0 x a 0 8 d ,0 x a 6 e 1 0 x a 6 f 2 , 西南交通大学硕士研究生学位论文第11 页 0 x a a 7 0 0 x f 5 f 6 ,音节点码值为0 x a 6 e 6 ; ( 4 ) 高字节首位为1 ,低字节的首位可以是1 也可以是0 ,所以理论上其包含的字 符数量要大于方正编码和华光编码。 6 班智达编码 ( 1 ) 两个字节首位都为1 ; ( 2 ) 汉字与藏文冲突; ( 3 ) 编码区间相对集中; ( 4 ) 编码区间0 x b o a d o x e b f 3 ,音节点码值为0 x b o b 2 ; 表2 3 基于g b 2 3 1 2 的藏文编码 编码名称首字节范围尾字节范围音节点编码 方正w i n d o w s 0 x a a 一0 x a c 0 x a 0 0 ) 正e0 ) 【a a a c o x b 0 o x d e 华光w i n d o w s o x b 0 0 ) ( f b0 x a l 一o x f e0 x e l e 2 同元编码 0 x 8 1 0 x 8 f 0 x 4 0 0 x d c , 0 x a 6 e 6 o x 9 0 0 x a 0 0 x 8 a - 0 x 8 d , 0 x a 6 ,0 x e l - 0 x f 2 , 0 x aa 一0 x f 50 x7 0 0 x f 6 班智达编码0 x b o o ) 匹b0 x a d 0 xf 3o ) 【b o b 2 2 2 2 国外藏文编码介绍 国外的如s a m b h o t a 、j a m y a n g 、t i b e t d o c 、t i b w o r d 等以占用不同码点区域的 基于a s c i i 的藏文编码方案。基于a s c i i 的藏文编码采用单个字节对藏文字符进行编 码,可用编码空间为0 x 0 0 0 x f f ,除去控制字符已经占用的码点,实际可用的码点有 2 2 2 个;一些编码只用0 x 7 f 以下的码点进行编码,这样实际可用的码点只有9 4 个。 如果采用一个码点对应一个字丁,这些码点显然是不够用的,所以有些编码采用多字 库实现码点到字符( 字丁或者辅音字母组合) 的一对多的映射关系。在同一个藏文文 本里面,对两个同样的编码或者编码序列,由于采用不同的字库,显示出来的就是不 同的藏文字形串。图2 3 所示t i b e t a nm a c h i n ew e b ( 刚w ) 编码文档示例。国外的藏 文软件大多采用这类编码方式如表2 - 4 所示给出了国外的编码方案。 西南交通大学硕士研究生学位论文第12 页 图2 2t i b e t a nm a c h i n ew e b ( t m w ) 编码文档示例 表2 4 基于a s c i i 的藏文编码 编码名称码点范围字库数量音节点编特点 码 l t i b e t a no x 2 1 o ) 【f e2o x 2 d 1 只能用于在h t m l 、d o e 、 t c r c 0 x 2 1 一o x f e1 0 x 2 d , 一 n f 文件 0 x 2 e 2 需要考虑和英文的区分 o i ds a m b h o t a0 x 2 1 0 ) 【f e30 x 2 d t i b e t a nm a c h m e ( t m )o x 2 1 o ) 匹e50 x c d n e ws a m b h o t ao x 2 1 一o x 7 e3 0o x 2 d t i b e t a n m a c h i n ew e b ( t m w )o x 2 1 一o x 7 e1 0o ) 已d 2 2 3 藏文编码国际标准及其特点 在藏文处理技术中之所以存在十几种不同的编码方案,其原因是在国际标准发布之 前没有统一的编码标准。藏文编码方案具体的讲可以有三种。第一种是前面提到的国 内流行的以整字方式编码的大字符集方案。根据前面的分析,该方案由于占据大量的 码位,与国际标准化组织限定的条件严重冲突,因此,要以此进入i s o 是不切实际 的。第二种是以藏文的基本组成构件如字母等和部分常用整字为基本编码对象的中字 符集方案。该方案尽管占据的码位比第一种方案减少了许多,但根据i s o 的规定看仍 是属于大字符集,而且它与i s o 的评估程序存在着严重的冲突。i s o 评估程序中规定: 西南交通大学硕士研究生学位论文第13 页 如果所提交的字符可以更好地用i s o i e c l 0 6 4 6 中已编码字符的序列来表示,则不予 编码。因此这第二种方案也难以使国际标准化组织接受。第三种方案是将藏文完全按 拼音文字处理,以其基本组成构件,包括辅音字母、元音符号、上下加字等为基本编 码对象的所谓的小字符集方案,这是唯一完全符合的所有评估程序和批准原则的一个 方案【2 1 31 4 1 。 1 9 9 7 年,我国的藏文基本字符集被收入了国际标准i s o i e c1 0 6 4 6 信息技术通 用多八位编码字符集。藏文编码字符集国际标准在u + 0 f 0 0 u + 0 f f f 之间,共有1 9 2 个编码点,1 6 8 个编码字符。其中文字类字符4 3 个、组合用格式字符7 0 个、数码类 字符2 0 个、标点符号类字符2 6 个、文化类字符9 个【5 1 。该标准遵循了藏文为拼音文 字的编码思路,其特点是通过动态组合方式得到成千上万的藏文和梵文字符。藏文属 于复杂文本语言,文字的情况是字符、标记、符号在二个维度上变化。藏文基本字符 集将藏文字符分为组合用字符和非组合用字符,非组合用字符可单独构成一个藏文字 丁,也可以作为前导字符和组合用字符构成一个藏文字丁。组合用字符用于与其前导 的非组合用图形字符相组合,或者与一个以非组合用字符为前导的组合用字符序列相 组合。藏文基本字符集表示藏文时符合藏文的构造和书写原则,既有左右结构又有上 下结构,表示字符更有空间性,但是在计算机处理字符时就会相对复杂,需要做相应 的处理。( 图2 - 4i s o i e c l 0 6 4 6 藏文字符集编码标准) 例如辆:对应编码序列是0 f 6 6 , 0 f 9 2 ,0 f b 2 ,0 f 7 c ,0 f 5 3 。对应的字符为埘晶石气。辩码序列是0 f 6 6 ,0 f 9 2 ,0 f b 2 , 0 f 7 c 。 2 0 0 7 年1 月3 0 日,微软公司向全球市场同步发布了其最新操作系统w i n d o w sv i s t a 和o f f i c e2 0 0 7 办公软件。w i n d o w sv i s t a 中的藏文是完全基于由我国研究、提出并制定 的藏文编码字符集国际标准i s o1 0 6 4 6 和与之相一致的国际标准u n i c o d e 。它首次在操 作系统一级,基于国际标准藏文编码字符集,实现了对藏文的支持。 2 2 4 藏文编码国家标准及其特点 基本集的1 9 2 个编码点基本满足了藏文字符的输入输出等一系列处理的需求。但 随着藏文信息处理技术研究的深入,这些编码在反应现代藏文本身的构字属性、开展 基于藏文的研究方面仍然存在一定的局限性。且由于藏文本身的书写特点和现阶段我 西南交通大学硕士研究生学位论文第1 4 页 8 勤d o瓢b e t i lo 擎f , 并o 薛1 僻20 f 30 f 4 簿50 f 6 饼:7 ( f bo f 9 簖ao f bo 冗o f oo 惩o 降 - , 蕊 广 , o , 、- 公 图 f o缈 一 鬓 曩d m 蜀 儡 o f _m日 h 衅 _嘲衅柚删m唧 飘 l 哆 印 闵 n 一 一 , 阑 咀蓉 嘴 暑 嘭 ? o 霉 四-衅竹_1f _f n i 利 f _ 吲 目 恕十 盘 矽 鼍毒 天 c 、 o:,j 燃 o 毳 0 摩 _ _一 o , t , 硪 f 膏懈唰茹f 锰rlhf 墨ht 再w? :, 黼 、, 辔 、o 6互力 写 曩 镯、jo 雹 聂 髓 气 _ 一l f 腑目m , h 昝叠 l i r af 刀伸 mf 错 ,i 一 燃 、 五 9 过 - 司 詹 o 玎 胡 、o f 科_f 张_m f _ _ 9 目 uo蚕 r 4 鼠 ,、 0 囊 黼 o 奄 一, ;? 5憾 黼 黼 吝翟 、3 n f 鼻f 强日r 一一 衅坛 溥 璧b 击 司n 疗 z 一 产, 函 o罨 日 w懈 hn 衅慵憾旧l “ f 衅矗n0 f 7 : 工 、 譬 霉 五 渊擘 彬o 琴 不 学 j - j 最 f 曩w目 o hf 耵wf 竹_0 冉7目衅t r a 一, 一 闲 ,j f 气 : 惑 弼圈 oz、, 辱 脚冠瀑 _ f 慵 口r 衅_停n_f _ f , j 9 j : 广 j 黼 趸 1 p 弓 色 夏 管每 、善 雹 e 它 _ 啊n f 镭n h_f f -、 , 黼篱 嬉 力吲 产 为 天 ,一 糠 ( 番 岛 一 异荔 mnf 啦hf 瓤h衅hf -昝r_ ,、 j 黼惑 :, 管珊 o j 墨 - u日-恤 匆 扣e , 譬蕞 f -rf 墨 o o f tnf 蕾f 毫 :h 矗: 矗 露 f , 懑 二 一 阚鎏 ,| 暮疋 亏 声 o ,+ 口f 蕾 口糕mmra g - l cr衅 口祀t 1 势 弓 警 鬻 $鬻 : 惑惑黼鬻 , 盖 k u , m 0 mmmmmm 琵 x 鼍 9 勺 为 最 惑阁主 ,: 黼薰f 正2 lhf l 浅 x o - 雌i l xh p , 5 暑 惑 3 2惑兰j索 x腻 。 h * w目h h日吁 f 聊孺喇出跏妇口三,铆鲫o ,弦,o 鹪瞳触棚7 留枷脒眦 图2 - 4i s o i e c1 0 6 4 6 藏文字符集码标准2 国技术水平的限制,仅靠藏文基本集也难以彻底解决藏文信息处理和交换问题。在国 内长期以来,藏文处理并没有统一的藏文大字符集编码标准,不同的厂商在具体实现 时支持的藏文字丁的字数和编码不尽相同,但是藏文进入信息时代,从d o s 。w i n d o w s 等系统,国内一直使用基本字符加上垂直预组合字符的实现方案。基于垂直预组合字 2 该图为1 9 9 7 年通过的藏文国际标准编码字符集在u n c o d e 中的码位安排表 o , 2 3 5 6 7 8 9 s c o e f 西南交通大学硕士研究生学位论文第15 页 符集的不同藏文处理软件,如电子出版系统,在教育、出版、古籍整理研究和藏医药 文献中已经广泛应用,形成了

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论