《藏文信息处理的原理与应用》课件全套 第1-13章 概论、藏文字符概述 -机器翻译_第1页
《藏文信息处理的原理与应用》课件全套 第1-13章 概论、藏文字符概述 -机器翻译_第2页
《藏文信息处理的原理与应用》课件全套 第1-13章 概论、藏文字符概述 -机器翻译_第3页
《藏文信息处理的原理与应用》课件全套 第1-13章 概论、藏文字符概述 -机器翻译_第4页
《藏文信息处理的原理与应用》课件全套 第1-13章 概论、藏文字符概述 -机器翻译_第5页
已阅读5页,还剩682页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章

概述引入新课1.课程名称的中“藏文”广义上的藏族的语言、文字。2.历届党和国家领导人、各级政府领导人的重视。3.课程讲解的主要内容。Contents第1章

概述信息1.1信息处理1.2中文信息处理1.3藏文信息处理1.4藏文信息处理的发展历史1.51.1信息控制论创始人维纳“信息是人们在适应外部世界,并使这种适应反作用于外部世界的过程中,同外部世界进行互相交换的内容和名称”经济管理学家“信息是提供决策的有效数据”信息奠基人香农“信息是用来消除不确定性的东西”我国著名的信息学专家钟义信教授“信息是事物存在方式或运动状态,以这种方式或状态直接或间接的表述”美国信息管理专家霍顿“信息是为了满足用户决策的需要而经过加工处理的数据。”电子学家、计算机科学家“信息是电子线路中传输的信号”信息·信息的不同概念1.1信息信息(information)定义为“以适合于通信、存储或处理的形式来表示的知识或消息”。——根据全国科学技术名词审定委员会审定。1.1信息1.1信息信息具有以下性质:(1)普遍性;(2)依附性;(3)有序性;(4)相对性;(5)可度量性;(6)可扩充性;(7)可存储、传输与携带性;(8)可压缩性;(9)可替代性;(10)可扩散性;(11)共享性;(12)时效性;(13)传递性;(14)价值相对性;(15)真伪性;(16)可处理性;(17)客观性;(18)不完全性;(19)可加工性。1.1信息1按性质分类信息可分为语法信息、语义信息和语用信息。2按地位分类信息可分为客观信息和主观信息。3按作用分类信息可分为有用信息、无用信息和干扰信息。4按应用部门信息可分为工业信息、农业信息、军事信息、政治信息、科技信息、文化信息、经济信息、市场信息和管理信息。在信息论中,信息从不同的角度有不同的分类:1.1信息5按携带信息的信号性质信息可以分为连续信息、离散信息和半连续信息。6按事物的运动方式信息可分为概率信息、偶发信息、确定信息和模糊信息。7按内容信息可分为消息、资料和知识。8按空间状态信息可分为宏观信息、中观信息和微观信息。在信息论中,信息从不同的角度有不同的分类:1.1信息9按信源类型信息可分为内源性信息和外源性信息。10按价值信息可分为有用信息、无害信息和有害信息。11按时间性信息可分为历史信息、现时信息和预测信息。12按载体信息可分为文字信息、声像信息和实物信息。在信息论中,信息从不同的角度有不同的分类:1.2信息处理1.2信息处理接收包括信息的感知、信息的测量、信息的识别、信息的获取以及信息的输入等存储把接收到的信息通过存储设备进行缓冲、保存、备份等处理转化根据人们的特定需要把信息进行分类、计算、分析、检索、管理和综合等处理传送通过计算机内部的指令或计算机之间构成的网络把信息从一个地方传送到另外一个地方的处理发布把信息通过各种表示形式展示出来信息处理就是对信息的接收、存储、转化、传送和发布等过程。1.3中文信息处理1.3中文信息处理中文信息处理是指用计算机对中文的音、形、义等信息进行处理和加工。中文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。定义学科分类1.3中文信息处理中文信息处理分为汉字信息处理与汉语信息处理两部分,具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。包括简体汉字、繁体汉字,也包括藏文、蒙文、壮文、维吾尔文等大量少数民族的文字,周边国家的片假名、谚文,还包括古汉语文字、西夏文、契丹文等。狭义广义1.3中文信息处理中文信息处理的研究范畴包括:汉字信息处理高级语言分析与生成应用技术领域资源与平台1.3中文信息处理汉文信息处理的发展历史:1970-1990数字革命破晓1990-2010互联网范式重构2010-智能时代跃升初期探索阶段1940-19701.3中文信息处理汉文信息处理的研究内容0201030405文字符号体系数字化人机交互技术革新自然语言处理技术多模态与文化计算标准化与交叉领域探索1.4藏文信息处理1.4藏文信息处理它是在语言文字学、计算机应用技术、人工智能、认知心理学和数学等相关学科的基础上形成的一门边缘学科。藏文信息处理就是利用计算理论和计算技术处理藏文信息的一门学科,是计算机科学与藏语言文学的交叉学科。用计算机对藏语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。藏文信息处理藏文信息处理可划分为藏文字符信息处理和藏语语言信息处理两个层次。包括机器翻译、自动分词、语音识别、信息检索、信息提取、文本校对、文本生成、文本分类、自动摘要以及藏文文字识别和语音识别处理等的研究。藏语言信息处理包括操作系统以及信息技术编码字符集、办公软件、文字识别技术、输入技术、字形描述与生成、存储、编辑、排版、字频统计和藏字属性库等方面的研究。藏文字符信息处理1.4藏文信息处理1.4藏文信息处理的研究对象1信息技术藏文字符编码编码字符集ISO/IEC10646、GB13000、GB1803以及藏文《藏文编码字符集基本集》。2藏文键盘输入技术藏文字符键盘编码理论、藏文字符键盘布局、藏文字符的键盘输入技术。3藏文输出技术藏文字形的设计、藏文OpenType布局表的设计与运用。4藏文词法分析藏文分词、词性标注。1.4藏文信息处理的研究对象5藏文句法分析藏文句子边界的识别、藏文句法分析技术等。6藏文字形识别传统的印刷体字符识别(OCR)、复杂场景下的手写文字、多语言混合文本或自然场景文本检测与识别。7藏语语音处理藏文的语音识别、语音合成。8信息抽取藏文命名实体识别、关系抽取和事件抽取等。1.4藏文信息处理的研究对象9文本分类文本的预处理、特征提取、藏文文本分类类别、分类方法和技术。10情感分析藏文情感分析技术、藏语语音情感识别及多模态情感融合分析。11机器翻译机器翻译有关的技术和方法12其他藏文操作系统、软件的藏文本地化、信息检索、藏语资源库的建设、适合藏文的办公排版软件、藏文排序、藏文校对、藏文电子词典、移动设备等等。1.5藏文信息处理的发展历史1.藏文字符的处理01030204藏文字符输出、打印藏文字符输入藏文字符的属性藏文字符表示、存储、交换1.5藏文信息处理的发展历史藏文词法分析藏文分词藏文的词类划分藏文虚词的识别

、格助词的识别

、数词的识别

、动词的黏着性及屈折性变化

、动词语法属性

、副词搭配

、名词分类

、数量词分类

、动词分类

、藻饰词语义

等。还研究了藏文词级的校对其他藏文词的处理1.5藏文信息处理的发展历史1.5藏文信息处理的发展历史藏文句法分析研究了藏文句子自动断句方法、藏文句子边界识别方法、藏语单句的类型等。研究了藏语语义本体中的上下位关系模式匹配

、基于信息处理的藏文框架语义关系

、基于依存关系的藏文语义角色标准和藏文属格结构统计等。形式上语义上藏文字形识别针对不同形式藏文现代印刷体、传统雕版印刷体、手写体。01针对不同字体藏文乌金、乌梅手写体的识别。02针对不同场景藏文纸质印刷、复杂背景及自然场景等。031.5藏文信息处理的发展历史藏语语音处理卫藏、安多、康巴3大方言。藏语语音的识别、藏文语音的合成。1.5藏文信息处理的发展历史1.5藏文信息处理的发展历史信息抽取和检索藏文命名体识别、关系抽取、事件抽取。文本分类情感分析藏文情感信息抽取、藏文句子级情感分析、藏文篇章级情感分析、藏语语音及多模态情感分析。机器翻译基于规则的机器翻译、基于实例的机器翻译、基于统计的机器翻译、神经网络的机器翻译。文本的预处理、特征提取、藏文文本分类类别、分类方法和技术。1.5藏文信息处理的发展历史其他藏语资源建设藏文排序藏文信息处理用词汇的统一应用系统研发藏文拼写检查系统、藏文文本自动校对、藏文转码软件、藏文拉丁转写、藏文电子词典等。本章小结1.信息2.信息处理3.中文信息处理4.藏文信息处理5.藏文信息处理的发展历史谢谢大家!第2章

藏文字符概述课程引入(1)编码(2)信息处理(3)中文信息处理(4)藏文信息处理(5)藏文信息处理的发展历史Contents第2章

藏文字符概述藏字的结构2.2藏字概述2.1藏文拼写检查2.6藏字的书写2.3藏字的属性统计2.4现代藏字的字典序列2.52.1藏字概述2.1藏字概述藏语属汉藏语系藏缅语支主要分布在西藏、青海、甘肃、四川以及云南等辽阔的西部地区。主要在尼泊尔、不丹、印度和巴基斯坦等地的部分人口使用藏语。国内国外2.1藏字概述藏语三大方言区卫藏康巴尽管藏语三大方言的读音不同,但藏文仍然是统一的,书面语通用于整个藏族地区。藏文字符(简称为藏字)是藏语的书面表示形式,是一种古老的拼音文字,具有悠久的历史。相传现在我们使用的藏文在公元七世纪由吐蕃文臣吞米桑布扎创制。安多2.1藏字概述藏文在历史上经历了3次较大规模的厘定。第一次厘定时间吐蕃赞普墀松德赞至9世纪初叶墀德松赞时期,编写了规范梵藏翻译的工具辞书《梵藏词典》。01第二次厘定时间吐蕃赞普墀祖德赞时期。该次厘定中形成的藏字结构、拼写规则、创造的新词、表达新概念的规则至今仍在使用。02第三次厘定时间大译师仁青桑布(958—1055)时期。该次厘定中修订了文字,规范了一些的新的翻译词语。032.2藏字的结构2.2.1藏字的构件藏字字形结构均以一个辅音字母为核心,其余字母均以此为基础前后附加和上下叠加组成二维平面文字。在现代藏文文法中,藏文字符构成藏字的规则十分严格。一个藏字由1至7个字符的组合构成,其中基字是构成藏字必不可少的构件,其它位置上的构件因藏字结构不同而可有可无。例如:བསྒྲིགས

བསྐུངས(1)现代藏文有30个辅音字母(TibetanLetters),具体如下:2.2.1藏字的构件(2)现代藏文有4个元音字母(TibetanVowelSigns),具体如下:2.2.1藏字的构件藏文文法学家多认为ཨ(a)是一个元音,其实,这是一种方便书写的简省策略,可以少设计一个元音符号。藏语共有5个元音,其中4个显式元音,1个隐式元音。后加字:གངདནབམའརལས03前加字:ག

འ04再后加字:དས052.2.1藏字的构件2.2.1藏字的构件06上加字(TibetanSuperscripts)有三个:07下加字(TibetanSubscripts)有四个:(8)藏文的数字(TibetanDigits):2.2.1藏字的构件(9)藏文特殊符号:2.2.1藏字的构件(10)梵音藏字的构件:2.2.1藏字的构件1)11个辅音

ཨཱ ཨཱི ཨཱུ རྀ རཱྀ ལྀ ལཱྀ ཨེེ ཨོོ ཨཾ ཨཿ2)5个厚字辅音(འཐུག་པོ་ལྔ།)

གྷ ཛྷ ཌྷ དྷ བྷ3)4个反体辅音(ལོག་པ་བཞི།)

ཊ ཋ ཌ ཎ 4)其他2个辅音

ཥ ཀྵ2.2.2藏字的结构1.现代藏字的一般结构现代藏字最少由一个字符组成,最多由七个字符组成。基字是现代藏字的核心,不可或缺,其他构件可有可无,形成不同结构的藏字。藏字构件中除了再后加字以外,其余构件均以基字为中心,在基字的前后、上下位置上组合而成。2.2.2藏字的结构ཕྱྭ གྲྭརྟེའུ ཀྲིའུ ཁོའི

སྤྲེའུའི

སོའོ1)有再下加字的藏字2)合并的现代藏字2.特殊的现代藏字结构这两个字有两个下加字叠加在基字的下面,出现了有再下加字的情况。一般现代藏字中只有一个元音,但合并的现代藏字由两个或三个音节组合而成,其中也有多个元音符号,其结构也不符合一般藏字的构字规律。2.2.2藏字的结构3)拼外来音的现代藏字ཧྥ为了音译的需要,在现代藏文字符中仍然用ཧ和ྥ的组合字符,其读音为“fa”,该组合虽不符合现代藏字的构字规则,但在音译中仍经常使用,还与元音等字符组成其他更多的译音,比如ཧྥིཧྥུངཧྥེའུ等。该字符采用梵音藏字的构字方式,没有上加字、下加字与基字的概念。1.前加字的组合规则2.2.3藏字的构字规则2.2.3藏字的构字规则2.上加字的组合规则3.下加字的组合规则2.2.3藏字的构字规则4.再后加字的组合规则5.三重叠字符的组合规则2.2.4现代藏字的结构方式1.一个构件的构字方式结构方式组成的藏字个数例字辅音字母30ང2.二个构件的构字方式结构方式组成的藏字个数例字基字+元音120ཆུ基字+后加字270ངག上加字+基字33རྔ基字+下加字43གླ2.2.4现代藏字的结构方式3.三个构件的构字方式结构方式组成的藏字个数例字前加字+基字+后加字480བདག前加字+基字+元音192མཛོ前加字+上加字+基字20བརྡ前加字+基字+下加字31བཀྲ上加字+基字+元音132རྐོ上加字+基字+下加字15སྒྲ2.2.4现代藏字的结构方式3.三个构件的构字方式结构方式组成的藏字个数例字特殊的两个字(基字+下加字+下加字)2ཕྱྭགྲྭ上加字+基字+后加字297ལྔས基字+下加字+元音172གྲི基字+下加字+后加字387བྲལ基字+元音+后加字1080ཚོན基字+后加字+再后加字210གངས2.2.4现代藏字的结构方式4.四个构件的构字方式结构方式组成的藏字个数例字前加字+上加字+基字+元音80བརྐོ前加字+基字+下加字+元音124བཀྲི前加字+基字+元音+后加字1728གཏིང前加字+上加字+基字+下加字6བསྐྲ前加字+上加字+基字+后加字180བསྒང前加字+基字+下加字+后加字279བཀྱང2.2.4现代藏字的结构方式4.四个构件的构字方式结构方式组成的藏字个数例字前加字+基字+后加字+再后加字336འགངས上加字+基字+下加字+元音68རྒྱུ上加字+基字+元音+后加字1188སྐེད上加字+基字+下加字+后加字153སྐྱབ上加字+基字+后加字+再后加字231སྐངས基字+元音+后加字+再后加字840ཁེངས基字+下加字+元音+后加字1548ཀྲུས基字+下加字+后加字+再后加字301དྲངས2.2.4现代藏字的结构方式5.五个构件的构字方式结构方式组成的藏字个数例字前加字+上加字+基字+下加字+元音24བསྐྲོ前加字+上加字+基字+下加字+后加字54བསྒྲང前加字+上加字+基字+元音+后加字720བརྔོས前加字+上加字+基字+后加字+再后加字140བསྒངས前加字+基字+下加字+元音+后加字1116འདྲོད2.2.4现代藏字的结构方式5.五个构件的构字方式结构方式组成的藏字个数例字前加字+基字+下加字+后加字+再后加字217བཀྲམས前加字+基字+元音+后加字+再后加字1344དབུགས上加字+基字+下加字+元音+后加字612སྒྲོག上加字+基字+下加字+后加字+再后加字119སྒྲངས上加字+基字+元音+后加字+再后加字924སྐུངས基字+下加字+元音+后加字+再后加字1204གྲོངས2.2.4现代藏字的结构方式6.六个构件的构字方式结构方式组成的藏字个数例字前加字+上加字+基字+下加字+元音+后加字216བསྐྱོད前加字+基字+下加字+元音+后加字+再后加字868བཀྲོངས前加字+上加字+基字+元音+后加字+再后加字560བསྐུངས前加字+上加字+基字+下加字+后加字+再后加字42བསྒྲངས上加字+基字+下加字+元音+后加字+再后加字476སྒྲོགས2.2.4现代藏字的结构方式7.七个构件的构字方式结构方式组成的藏字个数例字前加字+上加字+基字+下加字+元音+后加字+再后加字168བསྒྲིགས2.2.4现代藏字的结构方式2011年才让卓玛等人为了对藏文字形结构进行统计分析,通过开发藏文字频统计系统利用组合构件库结合藏文文法提出了一种藏文字构件分解算法。2014年谢三智等人为了实现藏字的自动生成,提出了一种基于有限状态自动机的藏字生成方法,根据藏文音节的特点,将藏字分为前缀、主体、后缀和上下标四个部分,设计了一个有限状态自动机来描述藏字的构造规则,该方法可以有效地生成规范的藏字。2015年才让卓玛等人分析了现代藏文字的构字规则和结构特点,设计了藏文字构件的分解过程,利用Mealy机的输出字符与移动一一对应的特性描述了藏文字构件分解的状态转换。研究实现了Mealy机模型,对藏文字进行构件分解,并对2129234字进行了构件分解与统计。近年来藏文信息处理中对藏字结构的研究:2.2.4现代藏字的结构方式2016年拉巴顿珠等人设计一种现代藏文音节字的基字识别算法,对18785个现代藏文音节字进行了测试,识别率达到100%2016年才智杰等人通过分析藏文字的结构,分别建立了藏文字及藏文字符串的向量模型VMTT、VMTS和藏文字符串的稀疏域模型SLM,在向量模型和稀疏域模型上研究了藏文字符的构件特征。实验表明,藏文字符使用SLM存储模型不但节省空间开销,而且属性分析效率也很高。近年来藏文信息处理中对藏字结构的研究:2.2.4现代藏字的结构方式近年来藏文信息处理中对藏字结构的研究:2017年官却多杰等人提出一种计算机识别藏文音节构件的方法,针对符合藏文字性组织法构件组合规则的藏文音节,依据藏文字性组织法规定的音节组合规则和组合结构,提出先确定藏文音节中作为核心构件的基字,再依据基字判断出其他构件的算法。该算法能够100%正确识别符合藏文音节组合规则的藏文音节构件。2019年王文玲等人实现藏文与拉丁字符之间的双向转写,依据藏文音节构字特点,分析了藏文字形、文字搭配规则和藏文字长特征,并结合藏文文法规则和藏文基本排序规则,设计基字识别算法以及音节中其他字符位置确定,便于实现藏文与拉丁字符之间的双向转写。2.3藏字的书写2.3藏字的书写2.3.1藏文字体乌金体(དབུ་ཅན།)即有冠体,因其有一个显著特点,每个字母的第一笔是最上方的一横,字母排列时,以上端直线对齐。乌梅体(དབུ་མེད།)即无冠体。这种字体的上端没有横直的一笔,酷似头上无冠,故称无冠体。2.3藏字的书写2.3.2藏文的书写规则01.藏文书写时是从左到右、自上而下进行书写的。02.书写时以“上平线”(一条水平直线作为藏字书写的上端基准)上端对齐,上平线以上可能有元音,大丁字是从上平线开始从上到下的顺序书写。有元音的大丁先写上平线以下的部分,再写上平线以上的元音部分。03.每个藏字的书写顺序与拼读顺序是一致的。每个藏字之间需要用音节分隔符进行分隔。2.4藏字的属性统计2.4.1藏字的数量1.现代藏字全集数量(静态统计)01.据高定国统计共有19380个藏字。其中没有统计ཧྥ等音译字及该字组合的其他藏字,另外,也没有统计书写中类似于རྟེའུཀྲིའུཁོའིསྤྲེའུའིསོའོཁཱ等多音节藏字。02.才旦夏茸先生指出藏文的全集字符数应有17532。03.2017年,才智杰等人探讨了藏字自动生成技术。他们在分析藏字结构的基础上归纳了藏字的构字规则,并以基字及其垂直方向上的组合成分,将藏字分成了8个大类。以此为基础,分析了不同类型藏字的生成模型和算法,实现了藏字的基字定位,排序等功能。同时对全藏字集进行了生成和验证。符合现代藏文文法的藏字称为现代藏字,所有现代藏字的集合称为现代藏字全集,现代藏字全集是有限集。2.4.1藏字的数量动态统计是指在语料库或藏文连续文本中对藏文字符的某种属性进行统计,该结果更能比较全面地反映藏文字符在实际应用中的一些属性,在藏文信息处理过程中,这类数据十分重要。1998年,江荻对100万字的现代藏语文本进行了统计,得出5581个藏字。2.藏字的动态统计2.4.2藏字字长1.静态藏字的字长统计字符长度(字长)对应的藏字个数占所有藏字的百分比(%)一个字符300.155二个字符4662.505三个字符301815.557四个字符706236.402五个字符647433.371六个字符216211.144七个字符1680.866藏字全集19380100藏字全集中字长为四、五的藏字占全藏字的近70%,是构成藏字的最主要的方式。藏字全集中藏字的平均长度为4.3723字符。藏字的字长是指构成该藏字的构件数。静态藏字字长指对藏字全集中的藏字字长进行统计。藏字的字长在1~7之间。2.4.2藏字字长动态藏字字长统计是指一定范围的数据中出现的藏字字长进行统计。江荻等人对《藏汉拉萨口语词典》、《拉萨口语读本》、《藏语简志》中的藏字字长进行了统计。结果如下所示:字符长度藏字数频度(百分比)累计频度1300.760.76240210.2411.003128732.7843.784143636.5880.36563616.2096.5661233.1399.697120.31100.00三字符和四字符藏字合计占全部统计藏字的69.36%。统计藏字的平均长度为3.6780字符。2.动态藏字的字长统计2.4.2藏字字长90年代中期,扎西次仁对1000万字《丹珠尔》进行统计发现,构成藏字的平均字符数为2.54,但该数据中,纵向叠加的大丁只算作一个构件来统计的。2.4.3藏字结构统计1.藏字构件识别藏字构件识别是藏字结构统计的必要前期工作。藏字由前加字、上加字、基字、下加字、元音、后加字和再后加字构成,除基字是字中必不可少的构件之外,其它的构件因字而异。依据藏文字符的构字方式,藏字构件识别思想如下:(1)判断一个音节的字符数,根据音节的不同长度调用不同的处理函数;(2)研究藏文音节字的结构发现,文法对“上加字+基字”、“基字+下加字”和“上加字+基字+下加字”叠加的限制非常严格,并且其数量也很有限,也没有任何规律,故选择该三个结构作为一个固定的组合方式,把要判断的当前音节在这些组合方式中查找,如果找到就依此对应到该音节的各结构上;2.4.3藏字结构统计1.藏字的构件识别(3)按照字符多少把藏文音节划分为7个组后,再分析藏文音节字的结构后发现,藏文的元音是一个特殊的构件,并且数量又少,通过判断有无元音和元音的位置可以很好地分析藏文音节字的结构,所以先判断有无元音与元音的位置。(4)两种特殊情况的处理:1)正常情况下“ྭ”作为下加字,只有当音节中已经有下加字的情况时,将“ྭ”作为再下加字,也就是包含“ཕྱྭ”和“གྲྭ”的一类特殊字。因此,算法中要对每一个音节是否包含“ཕྱྭ”或“གྲྭ”进行特殊处理,有些字会出现两个下加字的情况,故每个藏字预留8个构件的位置。2.4.3藏字结构统计1.藏字的构件识别2)部分3个构件的藏字具有“二义性”,如“བགས”,既可以识别为“前加字+基字+后加字”,也可以识别为“基字+后加字+再后加字”,针对这类音节,算法中需要做特殊处理。经人工整理,共找到14个具有二义性的特殊音节,如下表所示,查字典等确定后在算法中约定这14个音节都按照“基字+后加字+再后加字”的结构进行处理。བགསམབསགགསབངསདངསགངསའངསགམསམམསབབསམངསགབསབམསའམས

2.4.3藏字结构统计2.静态藏字的结构统计静态藏字结构统计是指对所有藏字的结构进行统计。所有藏字结构及对应的统计结果如下:字符长度结构方式组成的藏字个数占藏字全集的藏字的百分比(%)一个字符辅音字母300.155两个字符基字+元音1200.619基字+后加字2701.495上加字+基字330.170基字+下加字430.2222.4.3藏字结构统计2.静态藏字的结构统计字符长度结构方式组成的藏字个数占藏字全集的藏字的百分比(%)三个字符前加字+基字+后加字4802.474前加字+基字+元音1920.990前加字+上加字+基字200.103前加字+基字+下加字310.160上加字+基字+元音1320.680上加字+基字+下加字150.077特殊的两个字(基字+下加字+再下加字)20.010上加字+基字+后加字2971.531基字+下加字+元音1720.887基字+下加字+后加字3871.995基字+元音+后加字1

0805.567基字+后加字+再后加字2101.0822.4.3藏字结构统计2.静态藏字的结构统计字符长度结构方式组成的藏字个数占藏字全集的藏字的百分比(%)四个字符前加字+上加字+基字+元音800.412前加字+基字+下加字+元音1240.639前加字+基字+元音+后加字1

7288.907前加字+上加字+基字+下加字60.031前加字+上加字+基字+后加字1800.928前加字+基字+下加字+后加字2791.438前加字+基字+后加字+再后加字3361.732上加字+基字+下加字+元音680.351上加字+基字+元音+后加字1

1886.124上加字+基字+下加字+后加字1530.789上加字+基字+后加字+再后加字2311.190基字+元音+后加字+再后加字8404.330基字+下加字+元音+后加字1

5487.979基字+下加字+后加字+再后加字3011.5522.4.3藏字结构统计2.静态藏字的结构统计字符长度结构方式组成的藏字个数占藏字全集的藏字的百分比(%)五个字符前加字+上加字+基字+下加字+元音240.124前加字+上加字+基字+下加字+后加字540.278前加字+上加字+基字+元音+后加字7203.711前加字+上加字+基字+后加字+再后加字1400.722前加字+基字+下加字+元音+后加字1

1165.753前加字+基字+下加字+后加字+再后加字2171.119前加字+基字+元音+后加字+再后加字1

3446.928上加字+基字+下加字+元音+后加字6123.155上加字+基字+下加字+后加字+再后加字1190.613上加字+基字+元音+后加字+再后加字9244.763基字+下加字+元音+后加字+再后加字1

2046.2062.4.3藏字结构统计2.静态藏字的结构统计字符长度结构方式组成的藏字个数占藏字全集的藏字的百分比(%)六个字符前加字+上加字+基字+下加字+元音+后加字2161.113前加字+基字+下加字+元音+后加字+再后加字8684.474前加字+上加字+基字+元音+后加字+再后加字5602.887前加字+上加字+基字+下加字+后加字+再后加字420.216上加字+基字+下加字+元音+后加字+再后加字4762.454七个字符前加字+上加字+基字+下加字+元音+后加字+再后加字1680.8662.4.3藏字结构统计1.静态的结构方式从上表可以看出,无纵向叠加的藏字(不含上加字、下加字、元音)只有1

326个,只占藏字全集的6.84%;而93.16%

的藏字都是含有纵向叠加的字符。2.4.3藏字结构统计2.动态藏字结构统计1998年,江荻在100万字的现代藏语文本进行了统计,得到5581不同的藏字,其中包含了25类藏字结构。具体如下表所示。动态藏字结构统计是指对一定的藏语语料中的藏字结构进行统计。2.4.3藏字结构方式统计序号结构总数无元音符比率带元音符比率1基2341239769341.7313643058.272基+后28681112710444.3215970755.683基+后+再后422032088649.492131750.514基+下20614594728.851466771.755基+下+再下221221100.0000.006基+下+后661861945429.394673270.617基+下+后+再后10264501548.86524951.148前+基164901661.011632498.999前+基+后1123434727142.086507257.9210前+基+后+再11906437736.76752963.2411前+基+下6099267943.93342056.0712前+基+下+后12368325026.28911873.722.4.3藏字结构方式统计序号结构总数无元音符比率带元音符比率13前+基+下+后+再后208371334.23137065.7714上+51745947.4915上+基+后417561917145.912258554.0916上+基+后+再10046773376.98231323.0217上+基+下6325229936.35402663.6518上+基+下+201034556.8019上+基+下+后+再170269841.01100458.9920前+上+基102440439.4562060.5521前+上+基+后6006310051.62290648.3822前+上+基+后+再107046243.1860856.8223前+上+基+下55354097.65132.3524前+上+基+下+后3042189862.39114437.6125前+上+基+下+后+再61337060.3634339.642.4.4藏字的频度统计1.静态藏字构件频度统计下表为藏字静态构件频度统计结果,其中,有些上加字和下加字会变形。为了更清楚地了解各个构件的频度,把上加字和下加字作为与该辅音字母不同的构件进行了统计,这在藏文键盘布局、藏字识别等方面十分有用。这样,总共就有41个构件(30个辅音、4个元音、3个上加字和4个下加字)。2.4.4藏字的频度统计序号构件藏字全集中的出现次数占藏字全集中所有构件的百分比(%)序号构件藏字全集中的出现次数占藏字全集中所有构件的百分比(%)1b7

3808.70522l下9351.1032d7

0258.28623t9351.1033s6

3807.52524p8501.0034g5

7656.80025kh8501.0035m4

4055.19626ts7650.9026i3

8764.57227ny6800.8027u3

8764.57228ph6800.8028e3

8764.57229j5100.6029o3

8764.57230z4250.50110r下3

1453.71031h4250.5012.4.4藏字的频度统计序号构件藏字全集中的出现次数占藏字全集中所有构件的百分比(%)序号构件藏字全集中的出现次数占藏字全集中所有构件的百分比(%)11n3

0453.59232dz4250.50112ng2

9603.49133sh4250.50113s上2

8903.40934zh3400.40114y下2

7203.20835tsh3400.40115r2

6203.09036c3400.40116l2

4502.89037th3400.40117r上2

3802.80738ch2550.30118k1

9552.30639y1700.20119v1

7482.06240a850.10020w下1

5301.80541w850.10021l上1

0201.203

2.动态字频统计江荻在100万字的现代藏语文本中统计出5581个不同字形的藏字,其中使用频率最高的40个藏字如下表所示。2019年,才让当知等人通过藏文格助词的接续、结构以及上下文特征,提出基于规则、支持向量机、还原法等三层混合模式的藏文音节切分方法。研究结果表明,混合模式的切分效果优于规则模式,有效提高了切分正确率。2.4.4藏字的频度统计2.4.4藏字的频度统计序号字次数频率序号字次数频率1པ31

0003.33321ཡོད5

3640.5772ལ18

0251.93822མེད5

3180.5723ནས17

9601.93123ཡང5

1750.5564འི15

4981.66624བྱས4

9100.5285དང13

5051.45225ཞེས4

6330.4986དེ13

0051.39826མོ4

6130.4967དུ12

6371.35927བར4

4500.4788བ12

3271.32528ཟེར4

2160.4539གི11

6441.25229ང4

1910.45110གིས11

2821.21330ལས4

0950.44011མ10

9541.17831གཉིས4

0580.43612མི9

4221.01332བཤད3

8780.41713པོ8

0510.86633འདི3

6400.39114ཏེ7

4730.80434ཆེན3

5960.38715པར7

4640.80335རང3

5840.38516ན7

2050.77536ཏུ3

5630.38317ནི5

9320.63837སུ3

5470.38118པས5

8300.62738རྣམས3

5090.37719ཡིན5

7520.61939ཡོང3

3550.36120བྱེད5

7140.61440ཀྱང3

3020.3552.动态字频2.4.4藏字的频度统计江荻等人对《藏汉拉萨口语词典》、《拉萨口语读本》词汇表、《藏语简志》词汇表中共采集常用词语30428条,经处理后得3926个藏字,词条中频度最高的前10个藏字如下表所示。序号藏字出现次数出现频度累计频度1བྱེད1

7515.755.752པ1

6455.4011.153པོ1

1845.2016.354མ1

0183.3519.705རྒྱག8922.9322.636ཁ7102.3324.967གོང6372.0927.058བ6132.0129.069ཆུ4221.3930.4510ས4201.3831.382.动态字频2.4.4藏字的频度统计2016年,普次仁等人以1亿5千万藏文字符的藏文平衡语料库为统计源,从不同的角度对统计结果和错误音节的类型进行了分析,统计结果的前100个藏文音节字中有62个藏文音节字与其他人统计的结果相同,说明统计样本及样本的数量虽不一致,但反映出的藏文音节字的频次基本一致。熵(Entropy)指的是体系混乱的程度,它在信息论、控制论和概率论等领域有着重要的应用,在不同的学科中引申为更具体的定义,是各领域十分重要的一种参量。1.什么是熵?2.4.5藏字的熵在信息论中,熵是用来衡量一个随机变量出现的期望值,一个变量的信息熵越大,那么它蕴含的情况就越多,即需要更多信息的才能确定它。2.4.5藏字的熵有关藏字的信息熵方面,藏语按照30个辅音、5个变形辅音、4个元音和1个音节字分隔符计算,共有40个字符。假设每个字符出现频率为等概率,则藏文信息熵为5.35(比特/符号)。2.4.5藏字的熵2.藏语字符的一阶熵实际情况中,符号的出现不可能是等概率的,在对约22万字的连续现代藏文文本进行统计,提取了每个藏文字符的统计频率,不考虑字符间的相互组合和制约关系,则该统计样本中藏语信源的熵值为3.9913,即为藏语一阶熵。2.4.5藏字的熵3.藏语字符的二阶熵江荻选取18世纪文学作品《青年达美的故事》,并计算了二阶熵,其值为1.2531(比特/符号)如果考虑符号间的依赖关系,则该信源称为马尔可夫信源。若当前符号的发生概率只与前m个符号相关,则称信源为m阶的马尔柯夫信源。二阶熵就是计算前一个字符x后出现字符y的转移概率的信息熵,即字符的条件熵,其公式为:2.4.5藏字的熵4.藏语字符的多余度如果信源具有无关性,并且出现是等概率的,则N个符号的信源的熵是最大的,称最大熵。实际上,任何语言的符号之间都有相关性,而且是不等概率,这种信源熵就是实际熵。相对熵在0~1,用1减去相对熵的结果称为多余度。E=1-2.4.5藏字的熵4.藏语字符的多余度藏语字符的多余度为:E=1-

=1-1.253

1/5.35

=0.7657藏文字符信源有约

76%

的多余度,说明藏字中

76%

是由语言文字结构(字、词、句)规定的,是用来保证字符的组合符合藏语的组词、构字及有关语法规则的,而只有

24%

的符号是用来传递消息的。2.4.5藏字的熵语种符号数一阶熵二阶熵

=1-1.253

1/5.35

=0.765

7多余度法语273.98

0.757(口语)意大利语224.00

西班牙语274.01

英语274.033.320.753(口语)德语274.0373.400.792(口语)罗马尼亚语274.12

0.801(口语)俄语324.35

0.777(口语)藏语403.991.250.766书面藏语与部分欧洲语言的条件熵及多余度比较结果如下表所示。当不考虑字符之间的相互依赖关系时,藏语和欧洲语言的熵值比较接近;而当考虑字符之间的相互依赖关系时,藏语与欧洲语言之间的差别变大,这反映了藏文字符之间的相关性极强。2.2.4藏字的熵5.藏文字丁的熵H0=log2N=log2768=9.59严海林等人从藏文《大藏经》中抽取4000万字符,其中有768个藏文字丁,假设每个字丁的出现是等概率事件,每个字丁的0阶熵为9.59,其计算公式如下:2.2.4藏字的熵5.藏文字丁的熵藏文真实文本中字丁的出现不是等概率的,对《大藏经》中47

214

186个字丁的出现概率进行统计,算出一阶熵为4.8,二阶熵为3.12,三阶熵为2.70,并与英语和汉语的信息熵进行了比较,其结果如下表所示。语种符号数0阶熵一阶熵二阶熵三阶熵极限熵多余度英语274.764.033.323.11.40.71汉语6

76312.729.71

7.640.519藏语7689.594.803.122.702.700.722.4.5藏字的熵6.藏文音节熵王维兰等人通过对

2

000

万字语料的统计,得到音节总数为6

571

987个,其中标准化音节共5

334个,按照构字,单字音节有475种,双字音节有3

601种,三字音节有902种,四字音节有896种。各类字丁、音节的熵值如表所示。字丁或音节数量相对熵值绝对熵值字

丁5215.878

402

25.878

402

2单字音节4755.722

748

52.221

680

8双字音节3

6018.069

204

44.384

081

9三字音节9028.015

036

182.070

054

1四字音节8965.724

489

80.207

100

82.4.5藏字的熵2017年,完么扎西等人对275万多音节字的大规模藏语单语语料进行统计,给出了以字符为统计单位和以音节字为统计单位的现代藏文的熵,其值分别为4.17和8.21比特。2.5现代藏字的字典序列2.5现代藏字的词典序列藏文字典序是给藏文排序的一种较为科学的办法。它的实现是通过比较藏字各个位置上的字符来确定藏字的序列,最终由藏字序来决定藏文文本序。藏文字典序也是人为规定的一种序列,但经过长期的使用,也是人们接受的、已经习惯的一种藏文的排序序列。通过分析《藏汉大词典》等词典的排序情况后得到藏字的字典序列是分层循环的,其层次如下图所示。2.5现代藏字的词典序列上加字前加字下加字再后加字后加字元音现代藏文词典序中最核心的层次即第一层是基字层,这是构成每个藏字的基础和必不可缺少的构件。第二层到第七层上的字符不是构成藏字必不可缺少的成分,即按照藏字的不同结构,这些成分可有可无。上图中用0表示该成分缺少。现代藏字的字典序列是,以基字为核心,与二至七层的字符分层组合,每一层又与其外层的字符依次组合,其中构件的辅音序列为藏文字母序。2.6藏文拼写检查2.6藏文拼写检查2.6.1基于规则的藏文拼写检查研究成果2011年关白研究了现代藏文自动校对中的音节字,介绍了音节字的结构和搭配规则,列举了藏文音节字中的错误类型,例如键盘录入错误、识别错误、知识性错误、原稿错误等。2012年关白等研究了现代藏文音节字自动校对的方法,分析了现代藏文音节字的构成特点和错误类型(真词错误和非词错误),提出了音节字预处理、非词音节字校对和真词音节字校对三个步骤。2.6藏文拼写检查2.6.1基于规则的藏文拼写检查研究成果珠杰等人依据藏文语法探讨藏文规则的数学模型,并建立藏文规则库,然后将其应用到藏文音节自动拼写和拼写检查等领域。普布旦增等对藏文音节字自动校对系统进行开发研究,通过构建藏文音节字校对知识库,包括藏文音节字字表、二元字表和纠错建议表,以及根据藏文音节字错误类型的分析,设计了非词音节字校对和真词音节字校对两大结构模块。2013年2015年2.6藏文拼写检查2.6.1基于规则的藏文拼写检查研究成果才让叁智等对现代藏文音节检错进行研究,研究了基于规则的现代藏文音节字检错算法,将藏文音节字分为规则音节字和不规则音节字两种,对规则音节字采用了音节字组件组合规则进行检错,对非规则音节字采用建立梵源藏文词典、音译藏文词典和本体非规则音节字词典进行检错。才智杰等研究了基于向量模型的藏文字拼写检查方法,提出了一种基于规则的藏文非真字拼写检查方法,分析了藏文字的构成规则,提出了将藏文字用数字向量表示的方法,根据藏文构字规则建立了基于规则约束的藏文字向量模型,设计了该模型下的藏文字拼写检查模型及算法。2017年2018年2.6藏文拼写检查2.6.1基于深度学习的藏文拼写检查研究成果乌梅体(དབུ་མེད།)即无冠体。这种字体的上端没有横直的一笔,酷似除去帽子,故此得名。2019年,色差甲等人根据藏文音节的结构特征构建了一个包含三层卷积层、三层池化层和一个全连接层的CNN模型。使用1364880个藏文音节进行训练,对68244个藏文音节进行测试,与规则法、RNN和LSTM等模型进行比较。结果表明,该模型的结果优于其他模型。2020年,色差甲等人对将藏文正字检错任务视为一个分类问题,首先从语言学知识中构建音节混淆子集并给每个原句加噪,然后建立深层双向表征的BERT模型作为分类模型并构建BiLSTM和与Attention混合使用的BiLSTM两个基线模型和三种不同领域的测试集进行对比试验,实验结果表明,文章所提出的方法法在相同领域测试集上句子分类的正确率达到93.74%,不同领域测试集上也能达到83.6%。对错误音节的识别率为74.53%,同时对无错误音节的误判率只有2.3%。本章小结藏字概述藏字的结构藏字的书写藏字的属性统计现代藏字的字典序列藏文拼写检查谢谢大家!第3章

藏文字符编码藏文字符概述1.藏字的基本情况2.藏字的结构:

①藏字的构件;②藏字的结构;

③藏字的构字规则;④现代藏字的结构方式。3.藏文的书写:①藏文的字体;②藏文的书写规则。藏文字符概述(4)藏字的属性统计。(5)现代藏字的字典序列计算机处理字符的过程输入存储、交换输出输入软件输出软件什么是编码?动词的“编码”用0、1二进制数码表示字符的这个过程。名词的“编码”用于表示字符的0、1二进制数码。位(bit)计算机中用0、1来表示的1个二进制数位。字节(byte)计算机中把一个8位二进制数。从最小00000000到最大11111111,即一个字节有28=256个值。怎么编码?字符应该怎么“编码”?该考虑哪些?理论上,用哪个数字表示一个字符都是可以的。实际:编码的长度。编码的统一性。排除编码的冲突。Contents第3章

藏文字符编码英文字符在计算机内部的表示3.1汉字在计算机中的表示3.2ISO/IEC106463.3Unicode编码3.4GB13000标准3.5GB18030标准3.6藏文编码字符集3.7藏文不同编码间的转化3.83.1英文字符在计算机内部的表示3.1英文字符在计算机内部的表示标准ASCII码名称美国信息交换码(AmericanStandardCodeforInformationInterchange)。ASCII编码的对照表例如:z的ASCII码007A即(122)10表示英文字符在计算机中采用7位(bit)或8位的形式表示。7位:0000000——1111111表示:27=2*2*2*2*2*2*2=128个字符。123ASCII值控制字符ASCII值控制字符ASCII值控制字符ASCII值控制字符0NUT32(space)64@96、1SOH33!65A97a2STX34”66B98b3ETX35#67C99c4EOT36$68D100d5ENQ37%69E101e6ACK38&70F102f7BEL39,71G103g8BS40(72H104h9HT41)73I105i10LF42*74J106j11VT43+75K107k12FF44,76L108l13CR45-77M109m14SO46.78N110n15SI47/79O111o16DLE48080P112p17DCI49181Q113q18DC250282R114r19DC351383X115s20DC452484T116t21NAK53585U117u22SYN54686V118v23TB55787W119w24CAN56888X120x25EM57989Y121y26SUB58:90Z122z27ESC59;91[123{28FS60<

92/124|29GS61=93]125}30RS62>

94^126~31US63?95—127DELASCII码的对照表1.标准ASCII码标准ASCII码字符集总共的编码有128个。01包括32个通用控制符,94个图形字符(可显示字符)。02第0-32码位和第127号(共34个)是控制字符或通讯专用字符,如控制符:LF(换行)、CR(回车)、FF(换页)、DEL(删除)等;通讯专用符:SOH(文头)、EOT(文尾)、ACK(确认)等。03第33-126码位(共94个)是图形字符,其中第48-57码位为0-9十个阿拉伯数字;65-90号为26大写英文字母,97-122号为26个小写英文字母,其余为一些标点符号,运算符等。042.扩展ASCII码字符由于标准ASCII字符集字符数目很有限,在实际应用中往往无法满足要求。010203国际标准化组织又制定了ISO2022标准,它规定了在保持与ISO646兼容的前提下将ASCII字符集扩充为8位代码的统一方法。ISO陆续制定了一批适用于不同地区的扩充ASCII字符集,每种扩充ASCII字符集分别可以扩充128个字符,这些扩充字符的编码都是高位均为1的8位代码(即十进制数128-255)2.扩展ASCII码字符扩展的ASCII包含ASCII中已有的128个字符,又增加了128个字符,总共是256个。(1)扩展方式:8位ASCII码:00000000——11111111

表示:28=128*2=256码值;(2)扩展的大小:128*2-128=128个字符3.2汉字在计算机中的表示3.2汉字在计算机中的表示3.2.1汉字的编码体系3.2汉字在计算机中的表示3.2.2ISO/IEC2022汉字编码标准1.该标准定义了7位代码和8位代码的空间及其代码空间的扩充的技术。2.理论依据:1个7位的空间:27=128个除去32个控制字符、空格字符和Del有94个编码空间;2个7位的空间:00000000000000——11111111111111同理:2个7位有:94*94个编码空间。3个7位的空间:94*94*94……N个7位的空间:94*94*…*94N个3.2汉字在计算机中的表示3.表示:10000000000000——11111111111111高位

低位高位

低位选择双字节7位代码:第三字节第二字节第一字节汉字代码的标识汉字的代码选择3字节7位代码:

0102选择一个字节作为汉字的标识,其余三个字节作为汉字的编码选择4字节7位代码:033.2汉字在计算机中的表示3.2.3GB2312—80《信息交换用汉字编码字符集基本集》GB2312—80。GB2312收录简化汉字及符号、字母、日文假名等共7445个图形字符,其中收录6763个汉字。3.2汉字在计算机中的表示3.2.3GB2312—80对任意一个图形字符都采用两个字节表示,每个字节均采用七位编码表示。GB2312将代码表分为94个区,对应第一字节;每个区又分为94个位,对应第二字节,两个字节的值分别为区号值和位号值加32,因此称为区位码。3.3ISO/IEC106463.3ISO/IEC10646世界上所有的字符在计算机中不冲突?3.3ISO/IEC10646简介ISO/IEC10646通用字符集(UniversalCharacterSet,UCS)是由ISO制定的ISO10646(或称ISO/IEC10646)标准所定义的标准字符集。0102通用字符集又称UniversalMultiple-OctetCodedCharacterSet(通用多八位编码字符集)。3.3ISO/IEC10646简介“GB13000.1(ISO/IEC10646.1-1993)信息技术通用多八位编码字符集”(Informationtechnology-universalMultiple-OctecCodedcharacterSet)(简写为UCS)用与世界上各种语言的书面形式以及附加符号的表示、传输、交换、处理、存储、输入及显现。03UCS包含了已知语言的所有字符。除了拉丁语、希腊语、斯拉夫语、希伯来语、阿拉伯语、亚美尼亚语、格鲁吉亚语,还包括中文、日文、韩文这样的方块文字,UCS还包括大量的图形、印刷、数学、科学等符号。043.3.2UCS的总体结构在ISO/IEC10646中怎么找到一个字符的编码?3.3.2UCS的总体结构UCS的编码体系采用128个三维的组构成的四维编码空间,用4个“八位”(即4个字节)编码方式分别表示组、平面、行和字位。0

组面行位组:00——7F即128个组面:00——FF即256个面行:00——FF即256个行位:00——FF即256个位3.3.2UCS的总体结构UCS的编码体系采用128个三维的组构成的四维编码空间,用4个“八位”(即4个字节)编码方式分别表示组(group)、面(plane)、行(rows)和字位(cells)。01整个编码空间可区别128(00—7F)个组,每个组再根据次高字节分为256(00—FF)个面,每个面根据第3个字节分为256(00—FF)行(rows),每行包含256个位(00—FF)。023.3.2UCS的总体结构ISO/IEC10646还规定每一个面的最后两个编码位置FFFE和FFFF保留不用,则整个编码总共有128×256=32768个面,每一个面有256×256-2=65534个编码位置,合计有32768×65534=2147418112个编码位置。033.3.2UCS的总体结构3.3.3基本多文种平面BMPUCS的00组00平面称为基本多文种平面(BasicMultilingualPlane(BMP)。BMP包含字母文字、音节文字、表意文字种通常使用的字符、各种符号、数字以及一个限制使用区(BU)。3.3.3基本多文种平面BMP该平面分为四个区:A区、I区、O区以及R区。其中,A区用于字母文字、音节文字以及各种符号;I区用于中日韩(CJK)统一的表意文字(统一的东亚表意文字);O区留作未来标准化用;R区作为BMP的限制使用区,它包括专用字符、变形显现及兼容字符。3.3.3基本多文种平面BMPUCS的基本多文种平面3.3.4BMP中藏文字符编码的位置3.4Unicode编码3.4Unicode编码ISO/IEC10646-1标准第一次发布于1993年,后面不断更新。开发的统一码项目国际标准化组织(ISO)01多语言软件制造商组成的统一码联盟02最初制定了不同的标准。1991年前后,两个项目编码统一,兼容。两个字符集组织3.4Unicode编码容纳全世界所有语言文字的编码方案。Unicode的学名是“UniversalMultiple-OctetCodedCharacterSet”。Unicode(统一码、万国码、单一码)3.5GB13000标准3.5GB13000标准国际标准化组织下属编码字符集工作组研制了新的编码字符集标准ISO/IEC10646。01GB13000的字符集包含20902个汉字,此外,还收录了维哈克文(属于阿拉伯文体系)、朝鲜文、彝文、藏文和蒙文。0302相应的国家标准是(GB

13000.1—1993)《信息技术

通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面》3.6GB18030标准3.5GB18030标准GB2312编码有限GB13000兼容Unicode《信息技术信息交换用汉字编码字符集基本集的扩充》(GB18030—2000)。制定3.5GB18030标准通过代码映射表与GB2312和GB13000兼容。GB18030—2005是我国自主研制的以汉字为主并包含多种我国少数民族文字(如藏、蒙古、傣、彝、朝鲜、维吾尔文等)的超大型中文编码字符集强制性标准,其中收入汉字70

244个。小结1.英文字符在计算机内部的表示2.汉字在计算机中的表示3.ISO/IEC106464.Unicode编码5.GB13000标准6.GB18030标准。新课引入Unicode的编码方式Unicode中的藏文编码3.7藏文编码字符集1.藏文编码概况国家标准的藏文编码集——《信息技术

藏文编码字符集标准

扩充集》国家/国家标准藏文编码集——《藏文编码字符集基本集》非标准的藏文编码3.7藏文编码字符集1.《藏文编码字符集基本集》1993年,起草“信息交换用藏文编码国际标准”的工作,历经近4年的藏文编码标准的制定工作。01于1997年7月,经国际标准化组织ISO和国际电工委员会IEC在第33届WC2(编码标准第二工作组)会议上表决通过了由我国提交的编码方案——《藏文编码字符集基本集》。02该标准是国际标准ISO/IEC10646《通用多八位编码字符集》的重要组成部分。031.《藏文编码字符集基本集》1997年9月被国家批准、发布为国家标准GB16959-1997《信息技术信息交换用藏文编码字符集基本集》。该编码方案既是国际标准也是国家标准,为藏文信息处理技术的发展奠定了坚实的基础。该藏文编码是我国第一个有国际标准的少数民族文字的编码,标志着藏文的信息化正式走向世界。1.《藏文编码字符集基本集》Unicode中藏文基本集的编码:1.《藏文编码字符集基本集》每个字符由表中列的三个字符与行的一个字符构成双八位编码表示。01例如:ༀ的编码由第一列的0F0和第一行的0构成编码0F00,其意义是该字符处于基本平面0F行的00位上。02Unicode收录的藏文字符的编码从0F00到0FDA,共211个。其中包括辅音字符、元音符号、变音符号、数字符号、标点符号和一些其他符号。031.《藏文编码字符集基本集》1.辅音字符辅音字符包括一般辅音(前导辅音)和组合用辅音字符,而一般辅音和组合用辅音字符都包括现代藏字的辅音字符和梵音藏字的辅音字符。一般辅音包括现代藏字的一般辅音31个(包括一个ར作为前导字符不变形的情况)、梵音藏字专用辅音11个、特殊辅音2个;组合用辅音字符包括现代藏字组合用辅音30个,梵音藏字组合用辅音14个(包括下加字不变形的三个),一共88个。2元音符号元音符号包括现代藏字的4个元音符号和专用于梵音藏字的13个元音符号,共17个。3变音符号变音符号附着在元、辅音字符上,用来说明元、辅音发生的语音性质的变化,共有15个。4数字符号数字符号包括10个基本数字符号和10个半数字符号,共20个。5标点符号标点符号在文本中用来分割词语,表示停顿、语气等。标点符号有28个。1.《藏文编码字符集基

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论