版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一、基本信息教学内容:第1章概论课时安排:2课时课型:新授课二、“三备”1.教学内容分析本章为全书的导论,奠定藏文信息处理(TibetanInformationProcessing,TIP)的学科基础,明确其作为交叉学科(计算机科学+藏语言学)的属性。理解“信息”的本质及其处理流程;掌握中文与藏文信息处理的核心概念、研究范畴及技术差异;梳理藏文信息处理的发展脉络与关键技术突破,构建藏文信息处理的研究框架。2.教学对象分析(1)知识基础学生已完成语言类(C/Java/Python)、数据结构、数据库、操作系统等核心课程,具备:编程基础:掌握至少2种编程语言语法及基础算法实现能力。系统认知:理解计算机系统层次结构及操作系统基本原理。数据处理能力:熟悉关系型数据库设计与SQL操作。算法思维:掌握常见数据结构的存储与操作时间复杂度分析。(2)能力特征根据专业培养规格,学生应具备:工程实践能力:能独立完成中小型软件系统开发。问题分析能力:运用数学和工程知识解决复杂计算问题。团队协作经验:通过前期课程项目积累分组开发经验。文献检索能力:掌握学术资料查询与英文文献阅读基础。(3)学习特点专业分化显现:部分学生已确定考研或就业方向。实践需求强烈:渴望接触企业级开发工具和真实项目案例。认知负荷阈值:能承受每周8-10课时的理论+实验课程强度。创新能力萌芽:具备参与科研项目或学科竞赛的基础素质。(4)潜在短板系统级开发经验不足,多数仅完成课程设计级项目。部分学生算法优化能力较弱,需强化工程数学应用。技术文档撰写规范性待提升。对新领域技术(如云原生/AI)的认知尚处入门阶段。3.教学方法设计基于本节讲授的知识内容,针对学生的情况,本节课采用讲授、自学指导等多种教学方法。三、教学目标1.知识目标(1)掌握“信息”的多学科定义(哲学、信息论、语言学等)及其本质属性(普遍性、可度量性、可压缩性等)。(2)理解“信息处理”的通用流程(接收、存储、转化、传送、发布)及其与计算机技术的关联。(3)明确藏文信息处理作为计算机科学与藏语言文学交叉学科的定位,区分藏文字符处理(编码、输入/输出)与语言处理(分词、机器翻译)两大层次。(4)熟悉藏文信息处理的12项核心研究方向(如编码、分词、语音识别等)及其相互关系。(5)掌握藏文信息处理的四阶段发展史(字符→词法→句法→多模态),重点记忆关键里程碑(如1997年Unicode藏文基本集、2017年MLWS分词评测)。(6)对比藏文与中文信息处理的异同:藏文“二维平面”结构对编码/字库设计的特殊要求vs汉字“线性结构”。藏文黏着性语言特征对分词、词性标注的挑战vs中文词边界划分问题。2.能力目标(1)技术应用能力能够基于藏文特性(如紧缩词、格助词)设计基础处理方案(如分词规则、编码转换);初步掌握OpenType布局表在藏文字体设计中的应用原理,理解其解决“二维平面”显示问题的技术逻辑。(2)跨学科分析能力结合藏语语言学(如文法规则)与计算机算法(如CRF模型),分析藏文命名实体识别(NER)的技术路径;评估低资源场景(如藏语方言多样性)对语音识别数据集的制约,提出数据增强策略(如迁移学习)。(3)批判性思维辩证评价传统规则方法与现代深度学习在藏文信息处理中的适用性(如统计分词F值92.66%vs神经网络模型)。3.情感目标(1)文化传承使命感通过藏文古籍数字化等案例,认识科技对少数民族文化保护的贡献,增强文化自信;以“云藏”搜索引擎、银河麒麟藏文版操作系统为例,感悟本土化技术研发对社会发展的推动作用。(2)创新与责任意识学习藏文编码国际标准(ISO/IEC10646)的制定历程,理解自主创新在关键技术领域的重要性;讨论藏文信息处理在舆情监测、跨语言交流中的应用,培养技术服务于国家战略和社会需求的意识。(3)学科认同感通过藏文信息处理从“跟跑”到“并跑”的历程(如WindowsVista藏文支持、深度学习分词突破),激发学生对交叉学科研究的兴趣与职业认同。四、重点和难点1.教学重点(1)信息的多维度定义:需重点讲解哲学(本体论/认识论)、信息论(香农熵)、语言学视角下的信息本质,结合藏文“二维平面”文字特性说明信息的依附性与可处理性。(2)藏文信息处理的分层体系:强调“字符处理”(编码、字体设计)与“语言处理”(分词、机器翻译)两大层次的关联性,明确其作为计算机科学与藏语言文学交叉学科的特征。(3)关键技术发展脉络:四阶段演进:从字符处理(1997年Unicode标准)到多模态处理的里程碑事件。(4)藏文信息处理技术的分类及框架结构。2.教学难点(1)信息概念的理解。(2)藏文信息处理技术的分类及框架结构。五、教学过程1.组织教学(5分钟)(1)课程教学的要求。(2)考核要求。(3)课程的基本情况。2.复习引入(15分钟)(1)从《藏文信息处理原理》的书名说起。【讲解】信息的不同概念:信息奠基人香农认为“信息是用来消除不确定性的东西”。控制论创始人维纳(NorbertWiener)认为“信息是人们在适应外部世界,并使这种适应反作用于外部世界的过程中,同外部世界进行互相交换的内容和名称”。经济管理学家认为“信息是提供决策的有效数据”。电子学家、计算机科学家认为“信息是电子线路中传输的信号”。我国著名的信息学专家钟义信教授认为“信息是事物存在方式或运动状态,以这种方式或状态直接或间接的表述”。美国信息管理专家霍顿(F.W.Horton)给信息下的定义是:“信息是为了满足用户决策的需要而经过加工处理的数据。”(2)信息(information)定义为“以适合于通信、存储或处理的形式来表示的知识或消息”。——根据全国科学技术名词审定委员会审定。(3)信息具有以下性质:1)普遍性;2)依附性;3)有序性;4)相对性;5)可度量性;6)可扩充性;7)可存储、传输与携带性;8)可压缩性;9)可替代性;10)可扩散性;11)共享性;12)时效性;13)传递性;14)价值相对性;15)真伪性;16)可处理性;17)客观性;18)不完全性;19)可加工性。(4)在信息论中,信息从不同的角度有不同的分类:①按性质,信息可分为语法信息、语义信息和语用信息。②按地位,信息可分为客观信息和主观信息。③按作用,信息可分为有用信息、无用信息和干扰信息。④按应用部门,信息可分为工业信息、农业信息、军事信息、政治信息、科技信息、文化信息、经济信息、市场信息和管理信息。⑤按携带信息的信号性质,信息可以分为连续信息、离散信息和半连续信息。⑥按事物的运动方式,信息可分为概率信息、偶发信息、确定信息和模糊信息。⑦按内容,信息可分为消息、资料和知识。⑧按空间状态,信息可分为宏观信息、中观信息和微观信息。⑨按信源类型,信息可分为内源性信息和外源性信息。⑩按价值,信息可分为有用信息、无害信息和有害信息。11)按时间性,信息可分为历史信息、现时信息和预测信息。12)按载体,信息可分为文字信息、声像信息和实物信息。(5)信息处理就是对信息的接收、存储、转化、传送和发布等过程。信息的接收包括信息的感知、信息的测量、信息的识别、信息的获取以及信息的输入等;信息的存储就是把接收到的信息通过存储设备进行缓冲、保存、备份等处理;信息的转化就是根据人们的特定需要把信息进行分类、计算、分析、检索、管理和综合等处理;信息的传送就是通过计算机内部的指令或计算机之间构成的网络把信息从一个地方传送到另外一个地方的处理;信息的发布就是把信息通过各种表示形式展示出来。3.传授新知识(50分钟)【讲解】(1)中文信息处理是指用计算机对中文的音、形、义等信息进行处理和加工。中文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。狭义上来说,中文信息处理分为汉字信息处理与汉语信息处理两部分,具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。从广义上来说,不仅包括简体汉字、繁体汉字,也包括藏文、蒙文、壮文、维吾尔文等大量少数民族的文字,周边国家的片假名、谚文,还包括古汉语文字、西夏文、契丹文等。(2)汉文信息处理的发展历史:【自学指导】初期探索阶段(1940-1970)数字革命破晓(1970-1990)互联网范式重构(1990-2010)智能时代跃升(2010-)【思政教育】汉字输入到计算机的过程。(3)汉文信息处理的研究内容:【讲解】【自学指导】文字符号体系数字化自然语言处理技术人机交互技术革新多模态与文化计算标准化与交叉领域探索【讲解】(4)藏文信息处理就是用计算机对藏语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。它是在语言文字学、计算机应用技术、人工智能、认知心理学和数学等相关学科的基础上形成的一门边缘学科。藏文信息处理就是利用计算理论和计算技术处理藏文信息的一门学科,是计算机科学与藏语言文学的交叉学科。【讲解】(5)藏文信息处理可划分为藏文字符信息处理和藏语语言信息处理两个层次。1)藏文字符信息处理层面包括操作系统以及信息技术编码字符集、办公软件、文字识别技术、输入技术、字形描述与生成、存储、编辑、排版、字频统计和藏字属性库等方面的研究。2)藏语言信息处理层面包括机器翻译、自动分词、语音识别、信息检索、信息提取、文本校对、文本生成、文本分类、自动摘要以及藏文文字识别和语音识别处理等的研究。【讲解】【板书】(6)藏文信息处理的研究对象1)信息技术藏文字符编码编码字符集ISO/IEC10646、GB13000、GB1803以及藏文《藏文编码字符集基本集》。2)藏文键盘输入技术藏文字符键盘编码理论、藏文字符键盘布局、藏文字符的键盘输入技术。3)藏文输出技术藏文字形的设计、藏文OpenType布局表的设计与运用。4)藏文词法分析藏文分词、词性标注。5)藏文句法分析藏文句子边界的识别、藏文句法分析技术等。6)藏文字形识别传统的印刷体字符识别(OCR)、复杂场景下的手写文字、多语言混合文本或自然场景文本检测与识别。7)藏语语音处理藏文的语音识别、语音合成。8)信息抽取藏文命名实体识别、关系抽取和事件抽取等。9)文本分类文本的预处理、特征提取、藏文文本分类类别、分类方法和技术。10)情感分析藏文情感分析技术、藏语语音情感识别及多模态情感融合分析。11)机器翻译机器翻译有关的技术和方法12)其他藏文操作系统、软件的藏文本地化、信息检索、藏语资源库的建设、适合藏文的办公排版软件、藏文排序、藏文校对、藏文电子词典、移动设备等等。【自学指导】(7)藏文信息处理的发展历史1)藏文字符的处理:藏文字符的属性、藏文字符输入、藏文字符表示、存储、交换藏文字符输出、打印。2)藏文词法分析:藏文分词、藏文的词类划分、其他藏文词的处理。3)藏文句法分析。4)藏文字形识别。5)藏语语音处理:卫藏、安多、康巴3大方言,藏语语音的识别、藏文语音的合成。6)信息抽取和检索:藏文命名体识别、关系抽取、事件抽取。7)文本分类。8)情感分析:藏文情感信息抽取、藏文句子级情感分析、藏文篇章级情感分析、藏语语音及多模态情感分析。9)机器翻译:基于规则的机器翻译、基于实例的机器翻译、基于统计的机器翻译、神经网络的机器翻译。10)其他。4.巩固新知识(15分钟)(1)回顾“信息”的概念。(2)回顾“信息处理”的概念。(3)回顾“中文信息处理”的概念和研究范畴。(4)如何理解“藏文信息处理”也属于“中文信息处理”。(5)了解“藏文信息信息处理”的概念。(6)从“藏文信息处理”的研究范畴和发展史构建本门课程的结构。5.布置作业(5分钟)查阅有关文献,充分理解藏文信息处理研究的各个方向。六、教学后记一、基本信息教学内容:第2章藏文字符概述课时安排:2课时课型:新授课二、“三备”1.教学内容分析本章围绕藏字处理层面的相关基础知识和任务,首先介绍了藏字构件、藏字结构、藏字的构字规则和现代藏字的结构方式,以及各种藏文字体和藏文的基本书写规则;其次探讨了藏文字符统计、藏字字长统计、结构方式统计、藏字频度统计和藏字熵等的静态和动态属性统计方法。最后介绍和探讨了藏文词典序列,以及基于规则和深度学习的藏文拼写检查方法。2.教学对象分析学生已经学习和掌握了一些如数据结构、Jave和Python等计算机专业相关的基础知识,以及了解和掌握了一定的藏语言知识。计算机专业方面的知识将有助于学生编写藏字属性统计程序、藏文排序程序和藏文拼写检查程序等。藏语言方面的知识将有助于学生认识和了解藏文字符、藏字、藏字的结构和藏字的组合规则,以及不同的藏文字体和基本的藏文书写规则等。3.教学方法设计基于本节讲授的知识内容,针对学生的情况,本节课采用任务驱动、分层教学及讲授、演示、自学指导等多种教学方法。三、教学目标1.知识目标(1)了解藏字构件、藏字结构、藏文构字规则、藏文字体和藏文书写规则。(2)掌握藏字属性统计方法。(3)了解和掌握现代藏文词典排序规则和实现方法。(4)了解和掌握基于规则和深度学习的现代藏文拼写检查方法。2.能力目标(1)具备分析、设计和实现藏字属性统计、现代藏文字典排序和藏文拼写检查的能力。(2)能够实现不同单位的静动态藏字属性的统计能力。学生使用一种熟悉的计算机编程语言实现相关程序,为入门藏语自然语言处理领域奠定基础。3.情感目标(1)培养学生对藏文信息处理的兴趣和热爱通过了解和学习藏字构件等藏语基础知识,以及藏字属性统计等程序的实现,让学生感受到藏文信息处理的美妙和魅力,激发他们对藏文信息处理的兴趣和热爱。(2)培养学生的思维能力和创新意识通过学习藏字数量统计、藏文字典排序和藏文拼写检查方法,让学生逐步掌握如何分析问题、解决问题的方法和思路,培养他们的思维能力和创新意识。(3)培养学生的自信心和成就感通过学习和了解藏字相关知识,以及藏字层面的相关任务让学生逐步掌握藏文信息处理的基本知识和技能,让他们感受到自己的进步和成就,培养他们的自信心和成就感。四、重点和难点1.教学重点(1)藏字构件、藏字结构、藏字构字规则和现代藏字的结构方式。(2)静态和动态藏字属性统计方法,以及藏字属性统计所需的藏语数据的收集和整理。(3)现代藏文词典排序规则和实现方法。(4)基于规则和深度学习的藏文拼写检查方法。2.教学难点(1)认识和掌握藏字构件、藏字结构和藏字构字规则。(2)藏字构件识别是藏字结构统计等任务的前期工作环节,需学生掌握藏字的构件识别方法。(3)了解并掌握藏文词典排序规则,以及计算机中实现藏文排序方法(4)了解和掌握基于规则的藏文自动拼写检查方法和基于深度学习的藏文自动排序方法。五、教学过程1.组织教学(5分钟)2.复习引入(5分钟)【提问】【复述】中文信息处理藏文信息处理藏文字符信息处理藏语语言信息处理藏文信息处理的研究对象藏文信息处理的发展历史3.传授新知识(65分钟)(1)藏字概述【讲解】藏文是一种二维的拼音文字,藏字大约创制于公元七世纪,现用的藏文在历史上进行了三次大规模的厘定。第一次厘定:8世纪中叶墀松德赞(730—797)至9世纪初叶墀德松赞(?—815)时期。这一时期出现了著名的九大译师,其中白若杂纳根据当时译语的发展和规范需要,编写了规范译语的翻译工具辞书《梵藏词典》。第二次厘定:吐蕃赞普墀祖德赞(热巴巾,803—841,即汉文文献《唐书》所记的可黎可足)时,集藏、印著名译师,专设译场,统一译名,规定译例,校订旧译经典,新译显密经典,进一步对藏文进行规范。第三次厘定:吐蕃末代赞普达摩的五世孙阿里古格王意希沃之子大译师仁青桑布(958—1055)同入藏的天竺班智达善护、德护、智护一起,共同修订文字,厘定新译语。(2)藏字构件【讲解】组成藏字的构件包括辅音字母、元音符号、藏文数字以及一些特殊符号。【板书】30个辅音字母:ཀཁགངཅཆཇཉཏཐདནཔཕབམཙཚཛཝཞཟའཡརལཤསཧཨ4个元音:ིེོུ10个后加字:གངདནབམའརལས5个前加字:གདབམའ2个后加字:དས藏文数字:༡༢༣༤༥༦༧༨༩༠༪༫༬༭༮༯༰༱༲༳特殊符号:། །།།། །། ༑ ༈ ༄༅།། ༄༅༅།།等【看书】2.2.1藏字的构件(3)藏字结构【讲解】藏字字形结构均以一个辅音字母为核心,其余字母均以此为基础前后附加和上下叠加,组合成一个完整的字表结构。藏字结构可分为一般现代藏字结构和特殊的现代藏字结构,特殊的现代藏字结构中包含了再下加字的藏字、合并的现代藏字和拼外来音的现代藏字结构。【板书】(4)构字规则【讲解】藏文文法不仅对藏字的不同位置上的构件有严格的限制,而且每个构件之间也有很强的相互制约作用。基字是组成藏字不可缺少的部分,后加字和元音符号的添加相对比较自由。前加字的添加规则གཅཉཏནདཙཞཟཡཤསདཀགངཔབམབཀགཅཏདཙཞཟཤསངཇཉནཛརམཁགངཆཇཉཐདནཚཛའཁགཆཇཐདཕབཚཛ上加字的添加规则རཀགངཇཉཏདནབམཙཛལཀགངཅཇཏདཔབཧསཀགངཉཏདནཔབམཙ下加字的添加规则ཡཀཁགཔཕབམརཀཁགཏཐདཔཕབསཧལཀགབཟརསཝཀཁགཉདཚཞཟརལཤཧརྩགྲཕྱ再后加字的添加规则དནརལསགངབམ三重叠加的字符དནརལསགངབམ(5)现代藏字的结构方式【讲解】现代藏字由前加字、上加字、基字、下加字、元音、后加字和再后加字构成。其中基字是构成藏字必不可少的构件,其他构件因字而异。每个藏字由1~7个构件构成,除去特殊的藏字“ཧྥ”及该字构成的藏字外,藏字的结构可细分为48种。一构件的构字方式结构方式组成的藏字个数例字辅音字母30ང二构件的构字方式结构方式组成的藏字个数例字基字+元音120ཆུ基字+后加字270ངག上加字+基字33རྔ基字+下加字43གླ三构件的构字方式结构方式组成的藏字个数例字前加字+基字+后加字480བདག前加字+基字+元音192མཛོ前加字+上加字+基字20བརྡ前加字+基字+下加字31བཀྲ上加字+基字+元音132རྐོ上加字+基字+下加字15སྒྲ特殊的两个字(基字+下加字+下加字)2ཕྱྭགྲྭ上加字+基字+后加字297ལྔས基字+下加字+元音172གྲི基字+下加字+后加字387བྲལ基字+元音+后加字1080ཚོན基字+后加字+再后加字210གངས四构件的构字方式结构方式组成的藏字个数例字前加字+上加字+基字+元音80བརྐོ前加字+基字+下加字+元音124བཀྲི前加字+基字+元音+后加字1728གཏིང五构件的构字方式结构方式组成的藏字个数例字前加字+上加字+基字+下加字6བསྐྲ前加字+上加字+基字+后加字180བསྒང前加字+基字+下加字+后加字279བཀྱང前加字+基字+后加字+再后加字336འགངས上加字+基字+下加字+元音68རྒྱུ上加字+基字+元音+后加字1188སྐེད上加字+基字+下加字+后加字153སྐྱབ上加字+基字+后加字+再后加字231སྐངས基字+元音+后加字+再后加字840ཁེངས基字+下加字+元音+后加字1548ཀྲུས基字+下加字+后加字+再后加字301དྲངས六构件的构字方式结构方式组成的藏字个数例字前加字+上加字+基字+下加字+元音24བསྐྲོ前加字+上加字+基字+下加字+后加字54བསྒྲང前加字+上加字+基字+元音+后加字720བརྔོས前加字+上加字+基字+后加字+再后加字140བསྒངས前加字+基字+下加字+元音+后加字1116འདྲོད前加字+基字+下加字+后加字+再后加字217བཀྲམས前加字+基字+元音+后加字+再后加字1344དབུགས上加字+基字+下加字+元音+后加字612སྒྲོག上加字+基字+下加字+后加字+再后加字119སྒྲངས上加字+基字+元音+后加字+再后加字924སྐུངས基字+下加字+元音+后加字+再后加字1204གྲོངས七构件的构字方式结构方式组成的藏字个数例字前加字+上加字+基字+下加字+元音+后加字216བསྐྱོད前加字+基字+下加字+元音+后加字+再后加字868བཀྲོངས前加字+上加字+基字+元音+后加字+再后加字560བསྐུངས前加字+上加字+基字+下加字+后加字+再后加字42བསྒྲངས上加字+基字+下加字+元音+后加字+再后加字476སྒྲོགས(6)藏文字体【讲解】藏文字体分为乌金体与乌梅体两大类。乌金体(དབུ་ཅན།)为有冠体,乌梅体(དབུ་མེད།)为无冠体。常用的藏文书写规则是从左到右、自上而下的书写。每个藏字的书写与该音节的拼读顺序(前加字、上加字、基字、下加字、元音、后加字、再后加字)是一致的,每个藏字之间用藏字隔音符相隔。(7)藏字数量统计【讲解】现代藏字数量统计分为静态藏字数量统计和动态藏字数量统计。静态统计是指把有限的现代藏字全集看成统计源进行统计,据高定国统计共有19380个藏字。其中不包括ཧྥ及该字组合得来的字符、书写中类似于རྟེའུཀྲིའུཁོའིསྤྲེའུའིསོའོཁཱ等的合并藏字。动态统计是指给定的文本中出现的藏字数。(8)字长统计【讲解】字长是指构成一个藏字的构件数。字长统计方法有两种,一种为在藏字全集中统计字长,这种方法统计出的字长叫静态字长。另一种为在给定的文本中统计字长,这种字长统计方法统计出的字长叫做动态字长。在藏文全集中统计出来的静态字长为4.3723字符。扎西次仁为1000万字的《丹珠尔》统计出的动态字长为2.54字符,该统计中把藏字中的所有纵向叠加部分当做一个字符进行统计的。(9)藏字结构方式统计【讲解】藏字构件识别是藏字结构统计的必要前提。藏字结构分为静态结构和动态结构。静态结构指藏字全集中藏字的结构,藏字全集中共有48种藏字结构。动态结构指给定语料中出现的不同结构的藏字的数量。1998年,江荻在100万字的现代藏语文本中统计不同字形数达到5581字,共包含藏字结构25类。【看书】2.4.3结构方式统计(10)藏字频度统计【讲解】藏字频度统计包括静态构件的出现频度统计和动态字频统计。静态构件的出现频度:字符在构成藏字时,三个上加字和四个下加字会发生形变,因此,统计过程中需要注意变形的上加字和下加字进行单独统计,还是与对应原形一起统计。静态构件的出现频度在藏文键盘布局、藏字识别等方面有很大的作用。动态字频统计:给定的语料中统计不同藏字的出现频率。江荻在100万字的现代藏语文本中统计出5581字并列举了频率最高的40个藏字。【板书】藏字频度统计流程(11)藏字熵语言熵值的计算在信息处理方面的用途非常广泛。学者们把最大熵方法用于语言建模,模型用于信息处理中的文本分类、命名实体识别、词性标注等问题。【讲解】熵(Entropy)指的是体系混乱的程度,它在控制论、概率论、数论、天体物理、生命科学等领域都有重要应用,在不同的学科中引申为更具体的定义,是各领域十分重要的参量。熵在信息论中,如果对信源的概率空间的所有符号的先验概率取一个平均值,则可获得信源中每个符号的平均信息量—信息熵。计算公式如下:熵在信息论中的定义如下:如果有一个系统S内存在多个事件S={x1,x2,…,xn},每个事件的概率分布为P={P(x1),P(x2),…,P(xn)},则每个事件本身的信息为I(xi)=[对数以2为底,单位是位元(bit)]式中,P(xi)是选择信源符号xi作为消息的先验概率,对是否选择这个消息,xi的不确定性与xi的先验概率成反比。I(xi)定义为消息xi的自信息量,用来反映某信源产生某一消息所含有的信息量。如果对信源的概率空间的所有符号的先验概率取一个平均值,则可获得信源中每个符号的平均信息量—信息熵。根据藏字组成单位,藏字熵值计算有藏文字符熵、藏文字丁熵和音节字的信息熵三种。藏文字符熵:字符是藏字的组成材料。不考虑藏文字符之间的相互组合和制约关系的情况下,统计出的藏语字符信息源的熵值为一介熵。考虑前一个字符x后出现y的转移概率的字符信息熵为藏文字符的二阶熵,其也可称为字符的条件熵。藏文字符的多余度:相对熵在0~1,用1减去相对熵的结果称为多余度。藏语字符的多余度为:E=1-=1-1.2531/5.35=0.7657藏文字丁熵:藏文字丁熵的计算单位为字丁,字丁是指藏字的水平组合位上出现的字符,有些字丁为一个字符组成,有些则由垂直叠加的多个字符组成。藏文音节熵:藏文音节熵的计算是以音节为单位,统计出每个藏字的出现概率,或统计出每个藏字的前几个藏字为条件所出现的概率。(12)现代藏字字典序列【讲解】【分析】藏文字典序是给藏文排序的一种较为科学的办法。它的实现是通过比较藏字各个位置上的字符来确定藏字的序列,最终由藏字序来决定藏文文本序。藏文字典序也是人为规定的一种序列,但经过长期的使用,也是人们接受的、已经习惯的一种藏文排序的序列。通过分析《藏汉大词典》等词典的排序情况后得到藏字的字典序列是分层循环的,如下图所示。(13)藏文拼写检查【讲解】藏文拼写检查是指通过一定的策略或算法对藏文音节字的合法性进行检查。当前主流的藏文拼写检查方法为基于规则的藏文拼写检查方法和基于深度学习的藏文拼写检查方法。4.巩固新知识(10分钟)(1)藏字构件、藏字的结构和藏字的构字规则(2)藏文字体和书写规则(3)静态和动态的藏字属性统计(4)现代藏文的词典序列(5)藏文拼写检查1)基于规则的藏文拼写检查;2)基于深度学习的藏文拼写检查。5.布置作业(5分钟)1.阅读藏文自动排序方面的相关文献。2阅读藏文拼写检查方面的相关文献。3.设计并实现一个藏字统计软件。4.设计并实现一个藏字结构统计软件。六、教学后记一、基本信息教学内容:第3章藏文字符编码(1)课时安排:2课时课型:新授课二、“三备”1.教学内容分析本章为属于计算机字符编码理论与多文种信息处理的核心基础内容,是本课程最重要的核心内容。本章讲解字符编码的基本概念及计算机处理多文种信息的技术原理;让学生掌握ASCII、GB2312、Unicode等主流编码标准的特点及转换方法;应用编码理论分析藏文在UCS/Unicode中的编码逻辑,为后续藏文信息处理实践奠定基础。2.教学对象分析(1)专业基础与知识储备学科背景:学生已完成计算机组成原理、数据结构、操作系统等核心课程,具备二进制系统、存储结构、编码转换等基础知识,能快速理解字符编码的底层逻辑(如ASCII码的二进制表示、区位码转换等)。技能水平:熟悉编程语言(如C/Java),具备实现编码转换算法的能力;对信息处理系统(如输入法、文件存储)的运作原理有初步认知。(2)认知特点与学习需求抽象思维强化:能理解UCS四维空间、多字节编码映射等抽象概念,但需结合实例(如藏文在BMP平面0F行的定位)增强直观性。应用导向:关注编码标准(GB18030/Unicode)在实际场景(如跨平台文本处理、多语言系统开发)中的应用,需补充行业案例(如藏文信息化现状)。前沿技术敏感度:对Unicode版本演进、国家标准(如GB18030-2005)的动态更新有探究兴趣,可延伸讨论编码扩展对少数民族语言支持的意义。(3)潜在挑战与教学对策编码标准复杂性:GB2312/Unicode等标准的历史沿革易混淆,建议对比梳理(如区位码→机内码→Unicode的转换差异)。多文种处理实践不足:需通过实验课(如藏文字符编码转换程序)巩固理论,结合现有资源(如附件中“码”字的编码示例)设计实操任务。3.教学方法设计基于本节讲授的知识内容,针对学生的情况,本节课采用讲授、自学指导等多种教学方法。三、教学目标1.知识目标(1)掌握字符编码的核心概念(二进制表示、位/字节单位、编码的动词/名词双重含义);理解ASCII编码体系(标准ASCII与扩展ASCII的区别、码位分配规律);掌握汉字编码体系(输入码/机内码/交换码/字形码的转换关系及计算方法)。(2)掌握ISO/IEC2022标准的理论基础(7位编码扩展方法、多字节表示逻辑);理解GB2312-80标准的结构特点(区位码设计、高低字节规则、94×94矩阵分布);掌握Unicode编码体系(BMP平面结构、藏文编码段0F行的定位)。(3)了解汉字编码转换计算(区位码↔交换码↔机内码的进制转换)。(4)理解UCS四维编码空间结构(组/面/行/位的层级关系);掌握GB18030的多字节编码规则(单/双/四字节的码位分配逻辑)。(5)理解藏文在UCS中的编码位置(BMP平面A区0F行的拼音文字归类);掌握藏文与其他编码体系的关系(与GB13000、Unicode的对应原理)。2.能力目标(1)能完成ASCII编码的进制转换(十进制↔二进制↔十六进制);(2)能运用ISO/IEC2022理论解决多字节编码问题;能根据GB2312区位码设计规则定位特定汉字;能解释Unicode与GB13000在BMP平面的兼容性。(3)能对比分析ASCII扩展编码与ISO2022的异同;能评估不同编码方案(如GB18030四字节编码)的存储效率。(4)能通过UCS四维结构定位藏文等少数民族文字编码位置。3.情感目标(1)文化认同与民族自豪感培养通过对比藏文与英汉编码体系的发展历程,体会我国少数民族文字在信息化进程中的独特价值,增强对多元文化的尊重与认同;了解GB18030标准对藏文等少数民族文字的包容性设计,感受国家在信息技术领域对文化多样性的保护意识。(2科技人文融合意识培养通过分析字符编码从ASCII到Unicode的演进过程,理解技术标准背后的人文关怀(如多文种统一处理);在藏文编码位置(BMP平面0F行)的学习中,体会技术设计中对少数民族语言平等性的考量,充分体系“中华民族共同体意识”。(3)学术严谨态度养成通过区位码↔交换码↔机内码的精确转换练习,培养科学计算中的细致作风;在对比ISO/IEC2022与GB2312标准差异时,建立技术方案选择的辩证思维。(4)信息社会责任意识认识字符编码作为"信息处理基石"的重要性,强化信息技术工作者的职业使命感;通过GB13000/18030标准的学习,理解中文信息处理技术对国家文化主权维护的意义。四、重点和难点1.教学重点(1)二进制表示原理(位/字节单位);ASCII编码体系(标准/扩展ASCII的区别及码位分布);汉字编码体系(输入码/机内码/交换码/字形码的转换关系)。(2)ISO/IEC2022的多字节扩展方法(7位编码空间计算),Unicode的BMP平面结构(藏文0F行定位)。(3)UCS四维编码空间理解(组/面/行/位的层级关系)。(4)GB18030的多字节编码规则(单/双/四字节的码位分配)。(5)藏文在Unicode中的编码特性(拼音文字归类);藏文与GB13000/GB18030标准的兼容性。2.教学难点(1)抽象概念理解UCS四维编码空间的想象与可视化(128组×256面×256行×256位)ISO/IEC2022的7位扩展逻辑(94×94×...×94的N维空间计算)(2)标准对比分析ASCII/GB2312/Unicode的存储效率对比ISO2022与GB18030在少数民族文字处理上的技术差异(3)历史演进理解从ASCII到Unicode的技术迭代脉络我国编码标准的发展逻辑(GB2312→GB13000→GB18030)。五、教学过程1.组织教学(2分钟)2.复习引入(15分钟)【提问】【复述】(1)藏字的基本情况。(2)藏字的结构:1)藏字的构件;2)藏字的结构;3)藏字的构字规则;4)现代藏字的结构方式。(3)藏文的书写:1)藏文的字体。2)藏文的书写规则。(4)藏字的属性统计。(5)现代藏字的字典序列:【讲解】(6)计算机处理字符的过程。【讲解】(7)“编码”的概念。3.传授新知识(58分钟)【思考】字符应该怎么“编码”?该主要哪些?编码的长度、编码的统一性。【讲解】(1)3.1英文字符在计算机内部的表示标准ASCII码名称:美国信息交换码(AmericanStandardCodeforInformationInterchange)。表示:英文字符在计算机中采用7位(bit)或8位的形式表示。7位:0000000——1111111表示:27=2*2*2*2*2*2*2=128个字符ASCII编码的对照表例如:z的ASCII码007A即(122)10【自学指导】观察书上的ASCII码表。【讲解】标准ASCII码字符集总共的编码有128个.包括32个通用控制符,94个图形字符(可显示字符)。第0-32码位和第127号(共34个)是控制字符或通讯专用字符,如控制符:LF(换行)、CR(回车)、FF(换页)、DEL(删除)等;通讯专用符:SOH(文头)、EOT(文尾)、ACK(确认)等。第33-126码位(共94个)是图形字符,其中第48-57码位为0-9十个阿拉伯数字;65-90号为26大写英文字母,97-122号为26个小写英文字母,其余为一些标点符号,运算符等。(2)扩展ASCII码字符扩展的ASCII包含ASCII中已有的128个字符,又增加了128个字符,总共是256个。(3)汉字在计算机中的表示汉字的编码体系【讲解】以上各编码的含义。【讲解】1)ISO/IEC2022汉字编码标准:多字节。2)《信息交换用汉字编码字符集基本集》GB2312—80:区位码。(4)ISO/IEC10646【思考】世界上所有的字符在计算机中不冲突?1)简介。【讲解】2)UCS的总体结构UCS的编码体系采用128个三维的组构成的四维编码空间,用4个“八位”(即4个字节)编码方式分别表示组、平面、行和字位。组:00——7F即128个组面:00——FF即256个面行:00——FF即256个行位:00——FF即256个位3)基本多文种平面BMPUCS的00组00平面称为基本多文种平面(BasicMultilingualPlane(BMP)。【讲解】BMP包含字母文字、音节文字、表意文字种通常使用的字符、各种符号、数字以及一个限制使用区(BU)。该平面分为四个区:A区、I区、O区以及R区。其中,A区用于字母文字、音节文字以及各种符号;I区用于中日韩(CJK)统一的表意文字(统一的东亚表意文字);O区留作未来标准化用;R区作为BMP的限制使用区,它包括专用字符、变形显现及兼容字符。4)BMP中藏文字符编码的位置(4)Unicode编码容纳全世界所有语言文字的编码方案。Unicode的学名是“UniversalMultiple-OctetCodedCharacterSet”。Unicode(统一码、万国码、单一码)【自学指导】(5)GB13000标准国际标准化组织下属编码字符集工作组研制了新的编码字符集标准ISO/IEC10646。相应的国家标准是(GB13000.1—1993)《信息技术通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面》GB13000的字符集包含20902个汉字,此外,还收录了维哈克文(属于阿拉伯文体系)、朝鲜文、彝文、藏文和蒙文。【自学指导】(6)GB18030标准4.巩固新知识(10分钟)(1)英文字符在计算机内部的表示(2)汉字在计算机中的表示(3)ISO/IEC10646(4)Unicode编码(5)GB13000标准(6)GB18030标准。5.布置作业(5分钟)查阅有关文献,写一篇汉文编码的综述性文章。六、教学后记一、基本信息教学内容:第3章藏文字符编码(2)课时安排:2课时课型:新授课二、“三备”1.教学内容分析本章详细讨论藏文编码,是本课程教学的重点,其中的主要知识点有藏文编码发展历程、藏文基本集编码规则。Unicode6.2中藏文基本集位于0F00~0FDA,含211个字符(辅音、元音、变音符号等)。编码顺序按书写顺序逐字符处理,纵向叠加字符的首字符用一般辅音编码,后续用组合用字符编码(如བསསྒྲིགས་的编码流示例)等藏文基本集的编码方式。简要介绍扩充集编码特点和非主流藏文处理系统采用的编码,以及编码转换原理。2.教学对象分析(1)前期课程铺垫已掌握《藏文信息处理原理》的概述内容,包括藏文信息化发展背景、基本概念及关键技术方向。熟悉藏文字符的结构特征(如辅音、元音、变音符号的组合规则)及中英文在计算机中的编码表示(如ASCII、Unicode)。(2)技术认知水平了解计算机处理文字的基本原理(如字符编码、存储、显示),但对藏文特有的二维组合字符(如纵向叠加字丁)的编码复杂性可能缺乏实践认知。3.教学方法设计基于本节讲授的知识内容,针对学生的情况,本节课采用讲授、自学指导等多种教学方法。三、教学目标1.知识目标(1)理解藏文国际编码标准(ISO/IEC10646基本集)的字符构成(211个字符)及编码范围(0F00~0FDA)。(2)了解国家标准扩充集A(1536个纵向叠加字丁)与扩充集B(5702个梵音转写字符)的编码规则及应用场景。(3)明确藏文组合字符的线性处理逻辑,包括:基本集的逐字符顺序编码原则,扩充集的纵向叠加字符编码方法(如F300~F8FF专用平面)。(4)藏文不同编码之间的转换和实际应用。2.能力目标(1)掌握不同藏文编码之间的转换方法,能设计藏文编码转换程序。(2)能对比分析主流藏文处理系统(华光/方正/同元/班智达)的编码差异,理解标准化系统(如藏大岗杰)与非标准系统的技术优劣。3.情感目标(1)通过我国主导制定首个少数民族文字国际编码标准(ISO/IEC10646)的案例,增强学生对国家科技自主创新的自豪感,理解标准化对民族文化保护的战略意义。(2)引导学生从“使用者”转变为“建设者”,意识到自身在破解藏文信息处理技术瓶颈(如纵向叠加字符编码)中的责任。(3)分析华光、方正等非标准编码的历史背景(20世纪80年代技术条件受限),避免学生片面批判早期系统,培养技术发展辩证观——任何进步都需迭代积累。(4)通过国际/国家标准制定案例,强调多方协作(学者、工程师、语言学家)对解决复杂问题(如梵音转写字符编码)的必要性,破除“技术英雄主义”迷思。(5)对比桑博扎系统(占用西文字符编码)造成的兼容性问题,引导学生反思:技术便利性不可牺牲文化完整性,避免民族文字在数字时代被边缘化。(6)通过编码转换工具案例,说明开放、兼容的技术方案对缩小数字鸿沟的意义(如帮助使用非标准系统的用户过渡)。(7)早期编码混乱反而催生了国际标准,引导学生将历史教训转化为创新动力(如思考AI时代藏文处理的新可能性)。四、重点和难点1.教学重点(1)藏文基本集国家编码的编码方式。(2)基本集与扩充集在藏文处理中的协同规则与字符分解方法。(3)非标准编码与国标间的转换原理(音节点分割、字符重组)。(4)从非标准编码到国际/国家标准的必然性及文化保护意义。2.教学难点(1)纵向叠加字符的分解逻辑:学生需突破线性编码思维,掌握藏文二维结构的拆解规则及组合用字符映射关系。(2)音节点分割与字符重组:非标准编码转换中,准确识别音节边界并重组纵向字符(如扩A编码↔基本集转换)需跨语言规则理解。(3)技术演进的辩证认知:理解早期非标准编码(桑博扎系统)的历史合理性及其技术局限,需平衡批判性与同理心。(4)应用场景的复杂整合:将编码知识迁移至输入法设计、乱码修复等实际问题时,需多维技能融合。五、教学过程1.组织教学(2分钟)2.复习引入(15分钟)【提问】【复述】(1)英文字符在计算机内部的表示(2)汉字在计算机中的表示(3)ISO/IEC10646(4)Unicode编码(5)GB13000标准(6)GB18030标准。(7)Unicode编码中藏文字符编码的位置。3.传授新知识(58分钟)(1)藏文编码字符集分类非标准的藏文编码国家/国家标准藏文编码集——《藏文编码字符集基本集》国家标准的藏文编码集——《信息技术藏文编码字符集标准扩充集》【讲解】(2)《藏文编码字符集基本集》的研制1993年,起草“信息交换用藏文编码国际标准”的工作,历经近4年的藏文编码标准的制定工作。于1997年7月,经国际标准化组织ISO和国际电工委员会IEC在第33届WC2(编码标准第二工作组)会议上表决通过了由我国提交的编码方案——《藏文编码字符集基本集》。该标准是国际标准ISO/IEC10646《通用多八位编码字符集》的重要组成部分。1997年9月被国家批准、发布为国家标准GB16959-1997《信息技术信息交换用藏文编码字符集基本集》。【思政教育】该编码方案既是国际标准也是国家标准,为藏文信息处理技术的发展奠定了坚实的基础。该藏文编码是我国第一个有国际标准的少数民族文字的编码,标志着藏文的信息化正式走向世界。(3)Unicode6.2中藏文基本集的编码:【讲解】(4)《藏文编码字符集基本集》的说明每个字符由表中列的三个字符与行的一个字符构成双八位编码表示。例如:ༀ的编码由第一列的0F0和第一行的0构成编码0F00,其意义是该字符处于基本平面0F行的00位上。Unicode6.2收录的藏文字符的编码从0F00到0FDA,共211个。其中包括辅音字符、元音符号、变音符号、数字符号、标点符号和一些其他符号。(5)《藏文编码字符集基本集》的组合1)辅音字符辅音字符包括一般辅音(前导辅音)和组合用辅音字符,而一般辅音和组合用辅音字符都包括现代藏字的辅音字符和梵音藏字的辅音字符。一般辅音包括现代藏字的一般辅音31个(包括一个ར作为前导字符不变形的情况)、梵音藏字专用辅音11个、特殊辅音2个;组合用辅音字符包括现代藏字组合用辅音30个,梵音藏字组合用辅音14个(包括下加字不变形的三个),一共88个。2)元音符号元音符号包括现代藏字的4个元音符号和专用于梵音藏字的13个元音符号,共17个。3)变音符号变音符号附着在元、辅音字符上,用来说明元、辅音发生的语音性质的变化,共有15个。4)数字符号数字符号包括10个基本数字符号和10个半数字符号,共20个。5)标点符号标点符号在文本中用来分割词语,表示停顿、语气等。标点符号有28个。6)其他符号标准中还收录了藏文起始符号、吟诵示意符、历算占星符和装饰符号等,共43个。起始符号13个;吟诵示意符8个;历算占星符13个;装饰符号9个。【讲解】(5)《藏文编码字符集基本集》的使用基于小字符集工作方式:通过动态叠加组合的方式得到成千上万的藏文字符(简称小字符集法,或动态组合法)。特点:此标准把藏文完全当作拼音文字来进行处理,体现了藏文属于拼音文字的本质。必须依赖最新的字体技术——OpenType。【自学指导法】(6)《藏文编码字符集扩充集》产生背景介绍(7)《藏文编码字符集扩充集》的工作方式:(8)藏文不同编码间的转化1)不同的藏文编码介绍。2)藏文不同编码间转换的原理。3)编码转换的方式:(1)一对一的替换(2)一对多的替换(3)多对一的替换(4)不转换4.巩固新知识(10分钟)(1)《藏文编码字符集基本集》。(2)《藏文编码字符集扩充集》。(3)藏文不同编码间的转化。5.布置作业(5分钟)(1)查阅有关文献,写一篇藏文文编码的综述性文章,从而全面了解藏文编码的情况。(2)设计实现一个藏文不同编码转换程序。六、教学后记一、基本信息教学内容:第4章藏文键盘输入课时安排:2课时课型:新授课二、“三备”1.教学内容分析本章在上一章藏文字符编码的基础上,主要讲解藏字的键盘输入,从藏字输入技术分类讲解键盘输入法和非键盘输入法,也介绍非键盘输入的语音识别、字形扫描识别;再讲解键盘输入原理,从键盘输入流程:击键→输入码→转换引擎→字符输出(支持Unicode编码),指出几个键盘输入关键的概念:码元(47键位)、码长(如平均4.3键/字)、重码率、编码效率(0.125%)。再讲解键盘布局设计理论,包括频度统计原则、德沃拉克原则和国家标准布局。最后介绍藏文输入的技术实现IMM与TSF。2.教学对象分析(1)学生背景与知识基础计算机科学与技术专业大四学生,已具备编程基础(如数据结构、算法)、操作系统原理、计算机网络等核心课程知识。本课程前面已学习课程的概述、藏文字符介绍、藏文字符编码等内容,对藏文信息处理的基本概念和编码标准(如Unicode)有初步理解。学生熟悉藏文字符的Unicode编码规则(如基本集193字符),对了解编码空间、码元、码长等概念奠定了基础。(2)学习需求与能力特点需将前期编码理论与实际输入技术结合,理解键盘布局设计(如频度统计、德沃拉克原则)如何影响输入效率。对国家标准键盘布局(5键面设计)的技术实现(如TSF框架)需结合编程实践深化理解。3.教学方法设计基于本节讲授的知识内容,针对学生的情况,本节课采用讲授、自学指导等多种教学方法。三、教学目标1.知识目标(1)掌握藏文键盘输入法的分类(键盘输入法、非键盘输入法)及基本原理(编码转换、码元、码长等核心概念)。(2)理解藏文字符键盘编码理论,包括字符集、码元、码长、重码、编码空间等术语的定义及其在输入法设计中的应用。(3)熟悉藏文键盘布局的国家标准(GB/T17543—1998)及设计原则(如德沃拉克原则、频度统计原则)。(4)了解藏文键盘输入的实现技术(如WindowsIME、TSF框架)及其与操作系统的交互机制。(5)认识藏文输入法的历史发展及当前技术瓶颈(如重码率、输入效率问题)。2.能力目标(1)能够根据藏文字符频度统计和键盘布局原则,设计简单的藏文键盘编码方案。具备分析不同藏文输入法(如微软藏文输入法、同元输入法)的优劣及适用场景的能力。(2)通过案例(如国家标准键盘布局的键位分配逻辑)培养解决“字符多键位少”矛盾的综合思维能力。能够结合信息熵理论优化藏文输入法的击键效率。3.情感目标(1)通过藏文信息处理技术的发展历程(如从通用键盘到国家标准键盘的演进),增强学生对少数民族语言文字信息化的自豪感,增强文化认同感。(2)理解藏文输入法设计中对传统文化(如梵音转写规则)的尊重与融合。(3)引导学生关注藏文信息处理领域的标准化与国际化(如Unicode编码、ISO/IEC10646),培养严谨的科研意识。(4)激发学生对多语言信息处理技术的兴趣,鼓励参与跨学科研究(如语言学与计算机科学的结合)。四、重点和难点1.教学重点(1)藏文键盘编码理论。(2)国家标准布局的设计原则。2.教学难点(1)TSF框架的技术实现。(2)信息熵在输入法优化中的应用。五、教学过程1.组织教学(2分钟)2.复习引入(15分钟)【提问】【复述】(1)英文字符在计算机内部的表示。(2)汉字在计算机中的表示。(3)ISO/IEC10646。(4)Unicode编码。(5)Unicode编码中藏文字符编码的位置。(6)《藏文编码字符集基本集》。(7)《藏文编码字符集扩充集》。(8)藏文不同编码间的转化。(9)计算机处理字符的过程。(10)输入法的重要性及常用输入法分类。3.传授新知识(58分钟)【讲解】(1)藏文字符输入概述概念:藏字键盘输入法就是通过键盘使藏字进入计算机的技术。分析“藏字键盘输入”输入的过程。简介集中常见的藏字键盘输入方法。【讲解】(2)编码中的几个概念字符集/字汇和词汇:是按照某种字符的编码方式,能够输入计算机且计算机能够进行处理的字的集合。码元:组成输入码的字符集合。码长:构成输入码的码元个数。单码和重码:如果一个编码对应一个字、词的编码,则称这个字或词为单码。如果一个编码对应多个字或词,则称这些字或词组为重码。编码空间和编码效率:所有可能的输入码集合称为编码空间。编码效率是指对编码空间的利用率,即字、词有效的编码占总编码空间的比率。【提问】【讲解】(3)藏字键盘布局的理论分析可用于输入藏字的键位就只有48个(其中包括26个字母键、10个数字键、11个标点符号键以及1个空格键)。可见,每个藏文字符不能与键位一一对应,有字符多而键位少的矛盾,解决该矛盾的主要方法有以下几种:归并藏文字符,缩小输入字符集利用组合键扩大键位利用标示键扩大键位综合多种方法(4)藏文字符输入键盘编码理论1)工程心理学方法字符输入构件的频度统计原则2)德沃拉克(Dvorak)原则德氏键盘设计的原理是字母出现的频率与手指击键的效率相一致。用高速摄影术分析打字快慢和击键出错的原因。了解到:①应尽量使各个音节有双手交替打成,避免一只手连续击键;②最常见的字母优先安排于中排键,特别是其中8个中心键,其次是上、下排键食指、中指辖区;③越排击键最费时,最易出错,应尽量避免。3)学习容易和使用方便的原则德沃拉克的理论用于不同文字的键盘设计,其输入速度快已得到了证明,在设计藏文键盘布局时,在对德沃拉克原则影响不大情况下适当调节键盘的布局,使得用户更容易学习。藏文的十个数字对应标准键盘的十个数字键;四个元音按“音托”布局在I、U、E、O四个键上等等,这样更利于一般人的学习。(5)藏文字符输入键盘布局【讲解】【分析】1)藏文第一键盘(主键盘)2)藏文第二键盘(辅助键盘)3)藏文第三键盘(辅助键盘)4)藏文第四键盘(辅助键盘)5)藏文第五键盘(辅助键盘)(6)藏文键盘输入技术【讲解】【自学指导】1)IME藏文字符输入技术2)TSF输入技术MicrosoftWindows文本服务框架(TSF,TextServiceFramework)是一个包含在WindowsXP及其后继版本操作系统的系统服务。TSF为高级文本输入的通信以及自然语言技术提供了一个简单的可扩展的框架。TSF可以被应用程序所使用,也可以作为一个TSF文本服务。4.巩固新知识(10分钟)(1)藏文字符输入概述。(2)藏文字符输入键盘编码理论。(3)藏文键盘输入技术。5.布置作业(5分钟)(1)按照字符键盘布局理论,设计一套藏文字符键盘的布局表,并给出设计理论。(2)查找有关文献,了解字符键盘输入法的设计。六、教学后记一、基本信息教学内容:第5章藏文字形设计课时安排:2课时课型:新授课二、“三备”1.教学内容分析本章在上一章藏文字符输入的基础以藏文字符的输出核心的讲解了藏文字形设计,主要包括藏文字体分类与特点、传统藏文字体、点阵与矢量字形技术等藏文字形设计基础;藏文点阵字库核心原理、点阵描述方法、寻址机制等藏文点阵字库的设计方法;矢量字库制作的关键技术环节;结合藏文本身的特点,详细讲述了OTF藏文字库制作过程。2.教学对象分析(1)学生知识基础分析学生已学习数据结构、操作系统、编程语言等课程,熟悉二进制存储(如点阵字节计算)、文件格式(TTF/OTF结构)及Unicode处理机制。本课程中已完成藏文信息处理概述、字符体系、编码标准(Unicode基本集/扩充集)、输入法等基础内容,具备藏文编码规范(如GB/T22323)和字符结构(基字、上下加字)的理论基础。学生具备基础编程能力,可理解字形描述技术(如B样条曲线)和OpenType布局表等底层实现逻辑。(2)学习需求与难点学生需掌握藏文字形从设计到输出的全流程技术,包括点阵/矢量字库设计、OpenType动态组合等工程化应用能力。学术理解藏文动态组合的复杂性(如多对一编码映射、梵音藏文七层叠加),OpenType特征标记(ccmp/abvs/blws)的交互逻辑等相对比较难。3.教学方法设计基于本节讲授的知识内容,针对学生的情况,本课采用讲授、自学指导、实验等多种教学方法。三、教学目标1.知识目标(1)掌握藏文字形设计的基本原理,理解藏文字形的点阵描述技术(如16×16点阵、24×48点阵)与轮廓矢量描述技术(如TrueType、OpenType)的核心差异及适用场景。(2)熟悉藏文印刷字体的分类(如乌金体、朱匝体、白徂体等)及其艺术与实用价值。(3)理解藏文字库的技术实现,掌握点阵字库的寻址方法(如ASCII码、Unicode藏文编码的映射关系)和矢量字库的轮廓提取技术(如Photoshop、CorelDraw工具的使用)。(4)学习OpenType字形技术的核心概念(如“ccmp”“abvs”“blws”特征标记)及其在藏文字库动态组合中的应用。(5)认知国家藏文编码字符集标准(如GB/T22323—2008)及国际Unicode编码对藏文字符的规范化要求。。2.能力目标(1)实践藏文字形设计与处理能力,能够使用图形软件(如Photoshop、CorelDraw)提取藏文字稿轮廓,并完成消除锯齿、平滑修正等操作。(2)具备设计简单藏文点阵字库或TrueType/OpenType矢量字库的能力,包括字形编码映射、轮廓数据调整等。(3)分析与解决藏文字库兼容性问题,通过对比预组合与动态组合技术的优劣,分析不同场景下藏文字库的兼容性(如跨平台支持、多系统交换)。(4)能针对藏文叠加字符的复杂场景(如梵音藏文七层叠加)设计OpenType布局表解决方案。(5)能够解读藏文信息技术相关国家标准(如点阵字型规范),并应用于实际字库开发或科研项目中。3.情感目标(1)培养对藏文信息处理技术的文化认同,通过藏文字体艺术价值(如乌金体、白徂体)的学习,增强对藏文书法美学与文化遗产保护的意识。(2)激发技术创新与跨学科融合的兴趣,结合计算机技术与藏语言学特点,鼓励学生探索多学科交叉研究的可能性(如藏文OCR、智能排版系统开发)。(3)强化标准化与兼容性意识,强调遵循国际编码标准(如Unicode)的重要性,培养在信息技术领域推动民族语言规范化应用的使命感。四、重点和难点1.教学重点(1)藏文字形设计技术(点阵与矢量)。(2)OpenType特征标记的应用。2.教学难点(1)动态组合字符的OpenType布局表设计。(2)多层级叠加字形的处理逻辑。五、教学过程1.组织教学(2分钟)2.复习引入(13分钟)【提问】【复述】(1)藏文字符输入概述。(2)藏文字符输入键盘编码理论。(3)藏文键盘输入技术。(4)藏文字体概述。1)藏文字体的分类。2)藏文字体研发的重要性。3)字形+程序=字库。4)计算机处理文字的示意图。5)字形描述技术。3.传授新知识(60分钟)【讲解】(1)什么是点阵字型?各种字符在电脑屏幕上都是以一些点来表示的,也叫点阵。最早的字库就是直接把这些点存储起来,就是点阵字库。点阵字体是把每一个字符分成行列一定的点阵,然后用每个点的虚实来表示字符的轮廓。点阵字体也叫位图字体,其中每个字形都以一组二维像素信息表示。点阵字体的优点是显示速度快,不像矢量字体需要计算。较早前的电脑系统普遍采用点阵字体。由于位图的缘故,点阵字体很难进行缩放,特定的点阵字体只能清晰地显示在相应的字号下,缩放字形会失真,产生马赛克式的锯齿边缘。对于尺寸较小的点阵字体现今亦仍然被使用于荧幕显示上,也能提供较好的显示效果。【讲解】(2)藏文点阵字型的设计1)点阵字形的描述方式以16x16点阵为例来说,16x16点阵每一行有16个点,总共有16行。由于一个点使用一个比特来表示,如果这个比特的值为1则表示这个位置有点;如果这个比特的值为0则表示这个位置没有点。一行也就需要16个比特,而8个比特就是一个字节,也就是说这个点阵中,一行的数据需要两个字节来存放,第一行的前八个点的数据存放在点阵数据的第一个字节里面,第一行的后八个点的数据存放在点阵数据的第二个字节里面。第二行的前八个点的数据存放在点阵数据的第三个字节里面。2)点阵的排列顺序横向点阵纵向点阵3)藏文点阵字库的设计藏文乌金体是一个宽高比例为1:2的等宽字体以设计一个8x16藏文乌金点阵字形为例:字形码是:{0x00,0x00,0x00,0x00,0x7E,0x52,0x52,0x72,0x12,0x02,0x02,0x02,0x02,0x02,0x02,0x00}点阵字库的使用过程:要使用点阵字库,首先打开字库文件。其次计算出要使用的字符在字库文件中的位置,该位置叫做偏移量,计算查找一个字符位置的过程叫做寻址。再将这个偏移地址的数据读入到缓冲区中。最后显示这个缓冲区,为1者打印或显示,为0者留空。ASCII码点阵字库的寻址:通过ASCII码字库文件在终端上显示或打印ASCII字符。以8x16ASCII字符来说,字库里的字符排序是符合ASCII码顺序的,而每个字符占16字节,因此,将要打印或显示的字符与16相乘,便得到这个字符在字库中的位置了,这个位置之后的16个字节的数据就是这个字符的字形码。比如:大写字母“A”的十六进制ASCCI码是0x41,它与0x10(十进制的16)相乘,得到0x410,该位置之后的16个字节就是字母“A”的字形码数据,将该十六进制数据按二进制输出,一个字节一行,共占16行,其输出结果就是字母“A”的字形。汉字点阵字库的寻址:根据Unicode编码判断区间,然后用Unicode编码减去此区间的起始Unicode编码,算出相对偏移,并加上此区间的文件起始偏移得到文件的绝对偏移。然后读出相应位数的数据,最后通过扫描这段二进制串,得到相应的点阵字形数据。藏文点阵字库的寻址:类似于以上ASCII码或Unicode汉文编码的寻址方法来进行寻址。映射关系:0x0F42:{0x00,0x00,0x00,0x00,0x7E,0x52,0x52,0x72,0x12,0x02,0x02,0x02,0x02,0x02,0x02,0x00}0x0F42的字形码,将十六进制转换为二进制,该字形是8x16点阵,所以按每行8位,总共16行排布:藏文点阵字型的标准GB/T22323-2008《信息技术藏文编码字符集(基本集及扩充集A)24×48点阵字型吾坚琼体》《信息技术藏文编码字符集(扩充集B)24×48点阵字型吾坚琼体》《信息技术藏文编码字符集24×48点阵字型朱匝体》《信息技术藏文编码字符集24×48点阵字型白徂体》【讲解】(3)藏文矢量字形设计过程字稿书写扫描数字化拟合修字质检整合成库测试1)藏文字稿的获取按要求书写找字体漂亮的古籍扫描2)字稿的预处理去色倾斜校正【演示】3)藏文字符的提取去底色轮廓平滑字符提取的工具:Photoshop描边法CorelDRAW自动轮廓提取【讲解】字符提取的注意点:起笔运笔收笔【演示】4)字形的设计字形大小归一藏文字形位置唯一修字5)藏文字符编码的映射【讲解】(4)TTF字形技术1)什么是TrueType?TrueType字体是继AdobeType1以后又一种典型的曲线字体描述方法。TrueType描述字形的轮廓是由结点组成的,结点分为on-line和off-line两个属性来描述封闭的轮廓线,结点按顺时针方向给出编号。2)TrueType字体文件结构文件头(OffsetTable):定义描述表的数目和版本号等信息;描述表目录:TTF文件中包含了哪些描述表,描述表在什么位置;描述表数据:每个描述表的数据。3)3TrueType的特点和优势:真正的所见即所得效果支持字体嵌入技术,保证文件的跨系统传递性操作系统平台的兼容性ABC字宽度精确的字体轮廓描述品种繁多的字体家族4)TrueType的应用5)TrueType藏文字库的设计:用绘图软件把手稿中的藏字的轮廓取出来,完成简单的消除锯齿、轮廓平滑等工作;把每个藏文字形调入到TrueType曲线轮廓造字软件中,调整字体的大小、位置,添加、删除或调整Bezier曲线上的点的位置,对字形进行修整。当获得了每个藏文字符的精美字形后,要让计算机能够按照编码正确调用该字形时,还需要设定字符编码到字模的映射。【讲解】【演示】(5)OTF字形技术1)OpenType概述OpenType技术在扩展TrueType字型技术增加了支持PostScrip字型的数据2)OpenType字库设计相关的几个概念3)藏字定型器处理藏字的步骤分析藏字音节;重排藏字符;按照OTLS(OpenTypeLibraryServices)修正或替代字形;按照OTLS布局字形位置。4)支持藏字的OpenType标记字符标记字符标记用于识别OpenType字库中所设计的字符在Unicode编码段中的位置。藏文字符的字符标记是“tibt”。语言标记语言标记用于识别OpenType字库中所设计的字符所支持的语言系统。支持藏语系统的语言标记是“TIB”,但由于处理字形的Uniscribe和一些应用程序的支持等原因,在OpenType字库的语言标记中最好用默认的标记“dflt”特征标记特征标记用于决定做怎样的处理从字库中返回一个字形。特征标记中可以定义字形替换、字形位置布局以及字形替换兼字形位置布局,是设计OpenType字库最重要的部分。基线标记基线标记用于给用户传递书写时水平和竖直方向基线的信息。OpenType的基线标记中有一个与藏字书写有关的标记“hang”【讲解】【演示】5)OpenType中藏字的特征标记替换组合(或分解)字符(Charactercomposition/decomposition)特征标记为:“ccmp”该特征用于组合若干字形为一个字形,或分解一个字形为若干字形,该特征比其他特征先执行。基-上部分的替代(Above-basesubstitutions)特征标记:“abvs”。该特征对一个基本字形上面的部分做替换。基-下部分的替换(Below-basesubstitutions)特征标记:“blws”。该特征对基本字符下面的部分做替换。定位布局基-上符号(Above-basemarks)特征标记:“abvm”(Above-baseMarkPositioning)。该特征在基本字形上放置一个字符。abvm表提供在基本字符上放置一个字符确切的(x,y)坐标数据。布局基-下符号(Below-basemarks)特征标记:“blwm”。该特征用于在一个基本字形的下面放置一个字符。blwm表提供在基本字形下放置一个字符的精确的坐标位置(x,y)。【讲解】6)OpenType藏文字库的设计藏字特征标记的执行顺序Uniscribe以一个固定的执行顺序来处理所预定义的特征,从而不断地获取正确的藏字字形OpenType字库中执行藏文特征的标准次序依次是ccmp、abvs、blws、abvm、blwmOpenType藏文字库的设计方法用“预组合”设计高频组合字用布局表组合设计低频组合字4.巩固新知识(10分钟)(1)藏文字体概述。(2)藏文点阵字库的设计。(3)藏文矢量字形设计过程。(3)藏文矢量字形的处理。(4)TTF字形技术。(5)OTF字形技术。5.布置作业(5分钟)(1)阅读藏文字库设计有关的文档,整理一篇藏文字库设计的方法。(2)用字库制作软件打开一个藏文字库,从其中的字形推导可能用到的OpenType布局表的情况。(3)以一种藏文字形为例,讨论设计该字库可能需要的字形和OpenType布局表的设计方法。六、教学后记一、基本信息教学内容:第6章藏文词法分析课时安排:2课时课型:新授课二、“三备”1.教学内容分析词是最小的能够独立运用的语言单位,词级处理是藏文信息处理的主要研究内容和重要组成部分。本章围绕藏文分词、藏文词汇识别、藏文词性标注和藏文词级文本校对等藏文词级处理的基本内容、理论和方法进行了深入探讨。其中,藏文分词部分主要讲述和讨论了藏文分词规范,以及传统的基于规则和统计的藏文分词方法和当前的基于深度学习的藏文分词方法;藏文词汇识别部分中主要讨论了藏文虚词、名称短语、动词和新词识别的研究现状和研究方法,以及藏文人称代词的指代消解研究方法;藏文词性标注部分主要讲述了藏文词性标注集,以及藏文词性标注方法;藏文词级自动校对部分主要介绍了当前的藏文词级自动校对的研究现状和研究方法。2.教学对象分析(1)前期的课程铺垫学生已经学习和掌握了一些如数据结构、Jave和Python等计算机专业相关的基础知识。本课程之前同学们已经学习过藏文信息处理概述、藏文字符、藏文字符编码等内容,了解和掌握了一定的藏文信息处理知识。(2)技术认知水平学生前期虽然学习和了解藏字构件、藏文构字规则和藏字结构等知识点,但对藏文词这一语言单位的准确识别、虚词和实
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 酒店客房设备采购与供应商管理制度
- 酒店财务预算管理制度
- 济宁线下培训班
- 枪支培训工作汇报
- 松花粉培训课件
- 2024-2025学年山东省聊城市高一下学期期中考试历史试题 (解析版)
- 2026年网络系统管理与维护实操指南安全与管理试题集
- 2026年金融投资顾问招聘考试模拟题
- 2026年化学工程安全与环保知识试题集
- 2026年环境心理学与人力资源管理压力管理与激励机制测试题
- 全文版曼娜回忆录
- GB/T 1965-2023多孔陶瓷室温弯曲强度试验方法
- 六年级语文非连续性文本专项训练
- 体育单招核心1700单词
- 梨树沟矿区金矿2022年度矿山地质环境治理计划书
- 师德规范关爱学生
- 太阳能光伏发电装置的开发与推广商业计划书
- 海水淡化用阀门
- GB/T 36377-2018计量器具识别编码
- GB/T 26332.3-2015光学和光子学光学薄膜第3部分:环境适应性
- GB/T 17626.4-2008电磁兼容试验和测量技术电快速瞬变脉冲群抗扰度试验
评论
0/150
提交评论