版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、汉字点阵字库的建立第1页,共28页,2022年,5月20日,8点51分,星期四汉字点阵的重要性汉字点阵的使用优点第2页,共28页,2022年,5月20日,8点51分,星期四汉字输出码汉字无论字形如何变化、笔划多少都可以写在方块中一个方块可以看作m行n列的矩阵,称为点阵,汉字的点阵字形在计算机中称为字模汉字经过点阵的数字化转换成数字,称为汉字的输出码一个字节有8bit,m*n点阵的阵列可以用m*n/8个字节表示存储空间根据选择点阵的不同而不同,点阵的行列数越多汉字越精细,但存储空间越多第3页,共28页,2022年,5月20日,8点51分,星期四汉字点阵阵列第4页,共28页,2022年,5月20日
2、,8点51分,星期四点阵的分辨率点阵的放大第5页,共28页,2022年,5月20日,8点51分,星期四第6页,共28页,2022年,5月20日,8点51分,星期四第7页,共28页,2022年,5月20日,8点51分,星期四汉字编码的种类 汉字编码中现在主要用到的有三类:Big5 、 GBK和GB2312Unicode 编码 GB18030 第8页,共28页,2022年,5月20日,8点51分,星期四GB2312编码1、GB2312是一个简体中文字符集的中国国家标准,由中国国家标准总局发布,1981年5月1日实施。 GB 2312通行于大陆、新加坡等地。几乎所有的中文系统和国际化的软件都支持GB
3、 2312。 它是一个简化字的编码规范,当然也包括其他的符号、字母、日文假名等,共7445个图形字符,其中汉字占6763个。我们平时说6768个汉字,实际上里边有5个编码为空白,所以总共有6763个汉字 第9页,共28页,2022年,5月20日,8点51分,星期四GB2312汉字编码规则GB2312规定“对任意一个图形字符都采用两个字节表示,每个字节均采用七位编码表示”,习惯上称第一个字节为“高字节”,第二个字节为“低字节”。 GB2312将代码表分为94个区 ,对应第一字节 ;每个区94个位,对应第二字节。GB2312字符集构成一个94行、94列的二维表,行号称为区号,列号称为位号,每一个汉
4、字或符号在码表中的位置用它所在的区号和位号来表示。第10页,共28页,2022年,5月20日,8点51分,星期四区位码为了处理与存储的方便,每个汉字的区号和位号在计算机内部分别用一个字节来表示。例如,“学”字的区号为49,位号为07,它的区位码即为4907,用2个字节的二进制数表示为:00110001 00000111用十六进制数表示即为3107H第11页,共28页,2022年,5月20日,8点51分,星期四汉字交换码区位码无法用于汉字通信,因为它可能与通信使用的控制码(00H1FH)(即031)发生冲突。ISO2022规定每个汉字的区号和位号必须分别加上32(即二进制数00100000),经
5、过这样的处理而得的代码称为国标交换码,简称交换码,因此,“学”字的国标交换码计算为: 00110001 00000111+00100000 +00100000- 01010001 00100111用十六进制数表示即为5127H。第12页,共28页,2022年,5月20日,8点51分,星期四汉字内码由于文本中通常混合使用汉字和西文字符,汉字信息如果不予以特别标识,就会与单字节的ASCII码混淆。此问题的解决方法之一是将一个汉字看成是两个扩展ASCII码,使表示GB2312汉字的两个字节的最高位都为1。这种高位为1的双字节汉字编码即为GB2312汉字的机内码,简称为内码。因此,“学”字的机内码为:
6、11010001 10100111用16进制表示即为D1A7H。第13页,共28页,2022年,5月20日,8点51分,星期四GB2312编码表区号 字数 字符类别 01 94 一般符号 02 72 顺序号码 03 94 拉丁字母 04 83 日文假名 05 86 Katakana 06 48 希腊字母 07 66 俄文字母 08 63 汉语拼音符号 09 76 图形符号 10-15备用区 16-55 3755 一级汉字,以拼音为序 56-87 3008 二级汉字,以部首笔划为序 88-94 备用区 第14页,共28页,2022年,5月20日,8点51分,星期四Big5编码、Big5又称大五码
7、,主要为香港与台湾使用,即是一个繁体字编码。每个汉字由两个字节构成,第一个字节的范围从0X810XFE(即129-255),共126种。第二个字节的范围不连续,分别为0X400X7E(即64-126),0XA10XFE(即161-254),共157种。 第15页,共28页,2022年,5月20日,8点51分,星期四GBK编码、GBK是GB2312的扩展,是向上兼容的,因此GBK中的汉字的编码与GB2312中汉字的相同。另外,GBK中还包含繁体字的编码。GBK中每个汉字仍然包含两个字节,第一个字节的范围是0 x81-0 xFE(即129-254),第二个字节的范围是0 x40-0 xFE(即64
8、-254)。GBK中有码位23940个,包含汉字21003个。第16页,共28页,2022年,5月20日,8点51分,星期四名称第一字节第二字节GB23120 xA0-0 xF7(176-247) 0 xA0-0 xFE(160-254)GBK0 x81-0 xFE(129-254)0 x40-0 xFE(64-254)Big50 x81-0 xFE(129-255)0 x40-0 x7E(64-126)0 xA10 xFE(161-254)第17页,共28页,2022年,5月20日,8点51分,星期四Unicode 编码 随着互联网的迅速发展,进行数据交换的需求越来越大,不同的编码体系越来越
9、成为信息交换的障碍,而且多种语言共存的文档不断增多,单靠ANSI代码页已很难解决这些问题,于是 Unicode 应运而生。 前面提到从ASCII、GB2312、GBK的编码方法是向下兼容的。而Unicode只与ASCII兼容(更准确地说,是与ISO-8859-1兼容),与GB码不兼容。例如“汉”字的Unicode编码是6C49,而GB码是BABA。 Unicode 采用两个字节编码体系,因此它允许表示65536个字符,这已能满足目前大多数场合的需要。前128个Unicode字符是标准的ASCII字符,接下来 的128个扩展的ASCII字符,其余的字符供不同语言的文字和符号使用。其版本V3.0于
10、2000年公布,内容包括字母和符号10236个、汉字 27786个、韩文拼音11172个、造字区6400个、保留20249个,控制符65个。 第18页,共28页,2022年,5月20日,8点51分,星期四GB18030标准标准采用单字节、双字节和四字节三种方式对字符编码。单字节部分采用GB/T 11383的编码结构与规则,使用000至07F码位(对应于ASCII码的相应码位)。双字节部分,首字节码位从081至0FE,尾字节码位分别是040至07E和080至0FE。四字节部分采用GB/T 11383未采用的030到039作为对双字节编码扩充的后缀,这样扩充的四字节编码,其范围为081308130
11、到0FE39FE39。其中第一、三个字节编码码位均为081至0FE,第二、四个字节编码码位均为030 至039。 第19页,共28页,2022年,5月20日,8点51分,星期四如果判断字符是西文字符还是中文字符 根据字节的最高位进行判断如何确定一个汉字在字库编码表中位置 (C1-0 xa1)*94 + (C2-0 xa1) 第20页,共28页,2022年,5月20日,8点51分,星期四课程设计内容要求要求编写一个 应用程序,设计一种汉字的点阵存储方式,从WINDOWS的汉字矢量字模中提取出汉字点阵字模,并演示提取出的汉字点阵字模效果。程序具体要求为:采用文本菜单界面,鼓励采用图形菜单界面;程序
12、可以实现选择不同的WINDOWS字体(宋体,楷体,黑体等);程序可以实现选择生成存取点阵字库的文件(*.BIN);程序可以实现选择生成不同的点阵大小(16,20,24,32,48);程序可以实现输入生成字库的DEMO字数(13000);程序可以显示版本内容,包括论文作者、学号及编译日期;字库的文件根据设计的编码规则进行存储;在点阵提取过程中,在程序窗口两侧可以同时显示矢量字模与点阵字模,以便进行比较;鼓励自行增加新功能,比如增加文本输入,可以只对输入的汉字文本内容提取点阵字模;点阵字模的两维放大与优化算法探讨第21页,共28页,2022年,5月20日,8点51分,星期四课程设计内容要求源程序要
13、有适当的注释,使程序容易阅读。 课程设计报告要求独立完成软件建议使用C语言第22页,共28页,2022年,5月20日,8点51分,星期四参考资料C语言程序设计谭浩强等编,清华大学出版社C程序设计上机指导谭浩强主编,清华大学出版社C语言贯通教程,史斌星,清华大学出版社软件课程设计指导书,自编实验手册Turbo C 使用大全第一册、第二册 徐金梧等编译第23页,共28页,2022年,5月20日,8点51分,星期四考核方式平时考勤及项目日志;中期检查项目进度,后期检查实验结果或演示效果;最终考核项目完成质量;课程设计报告书规范完整性,书写是否认真、工整;独立分析解决问题的能力和创新精神;是否有抄袭现象 第24页,共28页,2022年,5月20日,8点51分,星期四成绩评定优: 具有独立分析解决问题的能力和创新精神或对某一方面有深入探讨;良: 在完成基础部分的基础上涉及提高部分;中: 较好的完成设计任务中的基础部分。及格: 基本完成设计任务中的基础部分;不及格:未完成设计任务,或者有抄袭现象 第25页,共28页,2022年,5月20日,8点51分,星期四课程
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026洞头海霞青年营度假酒店招聘5人备考题库(浙江)及答案详解(必刷)
- 2026天津联通派遣制智家工程师、营业员招聘5人备考题库附答案详解(研优卷)
- 2026福建三明将乐县事业单位招聘工作人员42人备考题库含答案详解(模拟题)
- 雨课堂学堂在线学堂云《食品工程伦理(江南)》单元测试考核答案
- 服装厂订单管理准则
- 婚纱摄影服务合同
- 2026广东汕头大学医学院实验动物中心劳务派遣人员招聘4人备考题库及完整答案详解
- 2026四川成都市锦江区学府幼儿园招聘员额教师2人备考题库附答案详解【完整版】
- 2026内蒙古呼和浩特市实验幼儿园招聘教师1人备考题库及参考答案详解(精练)
- 2026黑龙江黑河市第一人民医院上半年招聘劳动合同制工作人员6人备考题库有答案详解
- 激光先进制造技术 课件 第6章 激光复合制造技术
- 企业复工复产现场核查表
- 全面把握新时代的深刻内涵
- 2023年北京市各区(海淀朝阳丰台东西城等)高三下语文高考一模汇编7 基础运用含详解
- 工业机器人离线编程说课1010
- 2022年中国石油大学《化工原理二》完整答案详解
- 精选李叫兽精选集:文案不是文字
- 岩土工程原位测试5波速
- GB/T 21389-2008游标、带表和数显卡尺
- GB/T 17193-1997电气安装用超重荷型刚性钢导管
- GB/T 10156-2009水准仪
评论
0/150
提交评论