计算机导论第五讲字符编码及汉字输入方法ppt课件_第1页
计算机导论第五讲字符编码及汉字输入方法ppt课件_第2页
计算机导论第五讲字符编码及汉字输入方法ppt课件_第3页
计算机导论第五讲字符编码及汉字输入方法ppt课件_第4页
计算机导论第五讲字符编码及汉字输入方法ppt课件_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,1,第三章 字符编码及汉字输入方法,3.1 英文字符集与编码 全部大写、小写英文字母、10个阿拉伯数字、英文标点符号、以及其它常用符号共同组成英文字符集,并进行编码,称为ASCII(美国标准交换代码集)码。 American Standard Code of International Interchange 标准ASCII字符集共有128个符号,编码为0至127。扩展ASCII码字符集有256个符号,即在标准ASCII码字符集之后,增加了128个符号。 显然,一个ASCII码用二进制表示最多为8bits,刚好用一个字节存贮。,(1) 前32个ASCII码为控制字符(不可显示字符) NULL(空字符) 0 CR或ENTER(回车键) 13 LF(换行) 10 (2) 英文字母 大写A: 65 90 小写az: 97 122 (3) 数字字符 0,1,9 : 48 57 (4) 空格键 ASCII码为32,常用ASCII字符如下:,一、汉字GB2312-80字符集 汉字是一种象形文字,其字数之多居世界各国文字首位。目前通用的汉字,按1979年版新华字典计算约12,000个,按1990年版汉语大字典计算为54,678个。而日常生活中最常用的汉字也有大约3,500个。为了规范文字以适应计算机信息处理的需要,国家技术监督局于1980年颁布了国家标准信息交换用汉字编码字符集基本集,即国标GB231280,作为我国汉字系统必须遵守的国家规范。,3.2 GB2312-80中文字符集与编码,国标GB231280共收汉字、字母和图形等符号7445个,按94行94列排列在一张大码表中。其行号称为区号,列号称为位号。 国标GB231280中的全部符号包括: (1)一般符号202个。包括:标点、间隔符、运算符、制表符等。 (2)复合型序号60个,包括:和各20个,和各10个。 (3)数字22个。包括数字09,罗马数字I。 (4)大小写英文字母52个、希腊字母48个、俄文字母66个。日文假名169个。,(5)汉语拼音符号26个。 (6)汉语注音字母37个。 (7)汉字6763个。其中,一级汉字3755个,二级汉字3008个。 国标GB231280中非,非汉字符号存放在第1区到9区。一级汉字存放在第16区到55区,按拼顺序排列,同音字按起笔横、竖、撇、点、折存放。二级汉字存放在第56到87区,按部首顺序排列。,二、汉字编码 1. 区位码: 一个汉字可由区号和位号唯一决定,称为汉字的区位号码。使用时,先指定是区号,然后指定位号。区号与位号都从1开始编号,194。例: 汉字啊(第一个汉字),存放在16区,第1位,其区位码为(16,01)。,2. 国标码:将区位码中的区号和位号分别加上十进制数32,形成一个2字节编码,即 第1字节为:区号32,第2字节为位号32。 如:汉字啊的国标码为 (48, 33)。 3. 内码:一个汉字字符存储在计算机的存储器中的编码,其作用与ASCII码相似。 内码也是一个两字节编码,编码方法如下: 第1字节区号+160,第2字节=位号+160 如:汉字啊的内码是(176, 161),区位码/国标码/内码转换实例:,例1: 某汉字在GB2312-80码表中位于30区19位,试求该汉字的国标码与内码。 解:国标码为区号、位号分别加32,故对应国标码是 (30+32, 19+32)=(62, 51) 内码为区号、位号分别加160,故对应内码是 (30+160, 19+160)=(190, 179)=(-66, -77)1字节补码,例2: 某汉字的两字节内码的存储顺序用十六进制表示为(C9H, BEH), 试求该汉字的区位码。 解:内码减去160得区位码,故对应的区位码是 (C9H-160, BEH-160) =(C9H-A0H, BEH-A0H) =(29H, 1EH) =(41, 31) 即该汉字在GB2312-80码表中位于41区第31位。,3.3 中文大字符集,一、GBK字符集 全称汉字内码扩展规范(GBK),英文名称 Chinese Internal Code Specification ,中华人民共和国全国信息技术标准化技术委员会 1995 年 12 月 1 日制订,国家技术监督局标准化司、电子工业部科技与质量监督司 1995 年 12 月 15 日联合以技监标函 1995 229 号文件的形式,将它确定为技术规范指导性文件,发布和实施。这一版的 GBK 规范为 1.0 版。GB 即“国标”,K 是“扩展”的汉语拼音第一个字母。 GBK 亦采用双字节表示,总体编码范围为 8140H-FEFEH,首字节在 81H-FEH 之间,尾字节在 40H-FEH 之间。总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个。它向下兼收了GB2312以及台湾的BIG-5.,推荐阅读网址: /steelk/navigator/ref/gbk/gbindex.htm 微软公司自 Windows 95 简体中文版开始,系统采用 GBK 代码。 二、GB18030 后来少数民族也要用电脑了,于是我们再扩展,又加了几千个新的少数民族的字,GBK 扩成了 GB18030。从此之后,中华民族的文化就可以在计算机时代中传承了。,什么是DBCS? DBCS(Double Byte Character Set 双字节字符集)。DBCS最大的特点是两字节长的汉字字符和一字节长的英文字符并存于同一套编码方案里,因此他们写的程序为了支持中文处理,必须要注意字串里的每一个字节的值,如果这个值是大于127(7FH)的,那么就认为一个双字节字符集里的字符出现了。 推荐阅读网址: /tilt/?p=151,3.4 国际标准化字符集UNICODE,ISO (International Standard Organization)重新搞一个包括了地球上所有文化、所有字母和符号的编码,称为”Universal Multiple-Octet Coded Character Set”,简称 UCS, 俗称 “UNICODE”。 UNICODE编码也是DBCS, 总共可以组合出65535不同的字符,这大概已经可以覆盖世界上所有文化的符号。如果还不够也没有关系,ISO已经准备了UCS-4方案,就是四个字节来表示一个字符,这样我们就可以组合出21亿个不同的字符出来(最高位有其他用途)!,ASCII里的那些“半角”字符,UNICODE 包持其原编码不变,只是将其长度由原来的8位扩展为16位(第一字节填0),而其他文化和语言的字符则全部重新统一编码。由于”半角”英文符号只需要用到低位,所以其高 8位永远是,即只包括标准ASCII码。 从 UNICODE 开始,无论是半角的英文字母,还是全角的汉字,它们都是统一的”一个字符”!同时,也都是统一的”两个字节”,请注意”字符”和”字节”两个术语的不同, “字节”是一个8位的物理存贮单元,而“字符”则是一个文化相关的符号。,UNICODE 在制订时没有考虑与任何一种现有的编码方案保持兼容,这使得 GBK 与UNICODE 在汉字的内码编排上完全是不一样的,没有一种简单的算术方法可以把文本内容从UNICODE编码和另一种编码进行转换,这种转换必须通过查表来进行。 从 Windows NT 开始,MicroSoft 把它们的操作系统改了一遍,把所有的核心代码都改成了用 UNICODE 方式工作的版本,从这时开始,WINDOWS 系统终于无需要加装各种本土语言系统,就可以显示全世界上所有文化的字符。,UNICODE 来到时,一起到来的还有计算机网络的兴起,UNICODE 如何在网络上传输也是一个必须考虑的问题,于是面向传输的众多 UTF(UCS Transfer Format)标准出现了,顾名思义,UTF8就是每次8个位传输数据,而UTF16就是每次16个位,只不过为了传输时的可靠性,从UNICODE到 UTF时并不是直接的对应,而是要过一些算法和规则来转换。 在网络里传递信息时有一个很重要的问题,就是对于数据高低位的解读方式,一些计算机是采用低位先发送的方法,例如我们PC机采用的 INTEL 架构,而另一些是采用高位先发送的方式,在网络中交换数据时,为了核对双方对于高低位的认识是否是一致的,采用了一种很简便的方法,就是在文本流的开始时向对方发送一个标志符如果之后的文本是高位在位,那就发送”FEFF”,反之,则发送”FFFE”。,Unicode转换为UTF-8的方法 UNICODE: 0000 007F UTF-8: 0xxxxxxx (2) UNICODE: 0080 07FF UTF-8: 110xxxxx 10xxxxxx (3) 0800 FFFF UTF-8:1110xxxx 10xxxxxx 10xxxxxx,2.3 字符存储、显示与打印原理 一、字符信息的存储 1. 英文字符存储:主要以ASCII码方式存于存储器,一个字符用一个ASCII码,占用1个字节,也可能采用两字节编码来存储,如:UNICODE编码。 2. 中文字符存储:一个中文字符占用2字节存储器,编码采用GB2312-80内码、GBK或者UNICODE。 二、字符显示与打印原理,显示和打印字符时,计算机必须获得字符的图象信息。存储字符图象信息的数据文件称为字库文件,简称字库 计算机在显示或打印字符时,首先得到字符的编码(如:ASCII码或内码),然后查找显示或打印设置的字体所对应的字库,根据字符编码在字库文件中找到该字符的图象数据,取出图象数据并描出图形到显示屏上或打印机中。 根据图象数据的存储方式,可以分为点阵字库与矢量字库,其原理分别介绍如下。,1. 点阵字库 点阵显示技术是计算机系统最基本、最快速的显示方法。因为我们的显示屏采用的是象素打点显示方式,即由很多小点组成的矩形方阵,构成了整个屏幕。显示器的分辨率反映了显示屏象素的多少。 目前,在常用的PC机中的,点阵字型主要用于DOS操作系统、计算机启动时的界面、CMOS参数设置界面等,其标准分辨率为640(宽)480(高)点阵。显示和打印常用的点阵如下表所示:,1616点阵,有点与无点用一个二进制位1/0表示,每行有16个点,因此需要16个bit,即2字节;总共16行,因此一个1616点阵的汉字图象共需32个字节存储空间。,思考: (1)存储一个816点阵字符图象数据需要多少字节? 答:16字节 (2)在标准640480分辨率的DOS屏幕上,每行可以显示多少个ASCII字符或多少个内码字符?总共可以显示多少行? 答:80个ASCII码字符/行或40个内码字符/行 共25行!(因为有80线用于系统提示行和行间隔) 极限是30行,2. 矢量字库 采用笔划、线条坐标数据表示一个字符的图象。矢量字库也叫做向量字库或曲线字库。目前,矢量字库在WINDOWS平台上得到广泛使用,WINDOWS平台使用的TrueType字体,就是典型的矢量字库。 3. 点阵与矢量字库的对比,一、键盘初步,2.4 文字录入方法,一、键盘初步 1. 可显示字符 2. 常用控制键 Enter(CR或Return), SPACE,Shit,Alt,Ctrl,Tab,Esc,Del(Delete),Ins(Insert),Backspace(),NumLock,CapsLock, F1F12,PrtSc,Home,PgUp,PgDn,End, 四个方向箭头,3. 组合键 Shift+可显示字符键 (上档键) Ctrl+S DOS下,暂停屏幕显示 Ctrl+C DOS下,强行中止正在执行的DOS命令 Ctrl+Alt+Del 热启动,重新引导操作系统 二、标准指法与英文录入(自学),(1) “A、S、D、F、J、K、L、;”是八个基准键。一开始双手各手指应分别放在这些基准键上,并且当敲击完其他任何键后,手指应迅速返回到基准键位上。 (2) 每个手指只能击分配给它的按键,击键时,应用手指指尖对准键中心敲击,动作要敏捷、果断。手指用力应轻重均匀,不要用力过重,那样容易疲劳。注意,是击键而不是按键,否则不但输入速度慢,而且还会造成同一按键的重复输入。 (3) 击键过程中,应依靠手指本身的灵活运动去击键,而不应该先靠手腕或手臂的运动去找键。 (4) F键和J键上个又一个凸起的小点或小横杠,他们有助于你不看键盘、凭触觉找到正确的手位。另外,在数字小键盘上的5上也有这种标志。,1. 什么是汉字的外码? 汉字的输入编码称为外码。汉字外码的编码方法必须在分析汉字的三要素(音、形、义)的基础上,提取汉字发音或字形上的某些共同特征,并用适当的英文字母和数学加以表示,通过键入这些英文字母和数字实现输入汉字的目的。据目前统计,汉字的输入方法已达600多种,按编码不同,大致可以分为:流水码(数字码)、拼音码、拼形码、音形结合码四大类。 (1)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论