


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
薆蒀膅肆莅蚆肁肆蒈蕿羇肅薀螄袃肄芀薇蝿肃莂螂肈肂蒄薅羄膁薇螁袀膁芆薃螆膀葿蝿螂腿薁蚂肀膈芁袇羆膇莃蚀袂膆蒅袆螈芅薇蚈肇芅芇蒁羃芄荿蚇衿芃薂葿袅节芁螅螁芁莄薈肀芀蒆螃羆艿薈薆袂荿芈螂螈莈莀薄肆莇蒃螀羂莆蚅薃羈莅莅袈袄羂蒇蚁螀羁蕿袆聿羀艿虿羅罿莁袅袁肈蒃蚈螇肇薆蒀膅肆莅蚆肁肆蒈蕿羇肅薀螄袃肄芀薇蝿肃莂螂肈肂蒄薅羄膁薇螁袀膁芆薃螆膀葿蝿螂腿薁蚂肀膈芁袇羆膇莃蚀袂膆蒅袆螈芅薇蚈肇芅芇蒁羃芄荿蚇衿芃薂葿袅节芁螅螁芁莄薈肀芀蒆螃羆艿薈薆袂荿芈螂螈莈莀薄肆莇蒃螀羂莆蚅薃羈莅莅袈袄羂蒇蚁螀羁蕿袆聿羀艿虿羅罿莁袅袁肈蒃蚈螇肇薆蒀膅肆莅蚆肁肆蒈蕿羇肅薀螄袃肄芀薇蝿肃莂螂肈肂蒄薅羄膁薇螁袀膁芆薃螆膀葿蝿螂腿薁蚂肀膈芁袇羆膇莃蚀袂膆蒅袆螈芅薇蚈肇芅芇蒁羃芄荿蚇衿芃薂葿袅节芁螅螁芁莄薈肀芀蒆螃羆艿薈薆袂荿芈螂螈莈莀薄肆莇蒃螀羂莆蚅薃羈莅莅袈袄羂蒇蚁螀羁蕿袆聿羀艿虿羅罿莁袅袁肈蒃蚈螇肇薆蒀膅肆莅蚆肁肆蒈蕿羇肅薀螄袃肄芀薇蝿肃莂螂肈肂蒄薅羄膁薇螁袀膁芆薃螆 文本信息加工任务一:中文信息处理技术发展简史如何让计算机能够处理汉字,即汉字的输入、存储,加工处理,传输、输出,曾是一个重大难题,在计算机中文信息处理技术的发展史上,下面的事和人是值得记住的:(1)20世纪80年代初期,我国推出第一个汉字操作系统是_。(2)“计算机五笔字型汉字输入技术”的发明人是_。(3)1984年,联想公司成立,半年后推出_。(4)中国科学院院士,计算机学家 _,经大量调查研究后,巧妙地利用数学知识和软、硬件的实践经验,针对汉字字数多、印刷用汉字字体多、精密照排要求分辨率很高所带来的技术困难,发明了高分辨率字形的高倍率信息压缩技术(压缩倍数达到5001)和高速复原方法,率先设计了提高字形复原速度的专用芯片,使汉字字形复原速度达到700字秒的领先水平,在世界上首次使用控制信息(或参数)来描述笔画的宽度、拐角形状等特征,以保证字形变小后的笔画匀称和宽度一致。这一发明成为华光和方正激光照排系统的基石,在我国的报业和印刷业掀起了一场“告别铅与火、迎来光与电”的技术革命,被誉为“中国激光照排之父”、“当代毕昇”、 “中国自主创新第一人”。2001年荣获国家最高科技奖。(5)1993年Windows3.2发布,这是第一个简体中文版的Windows操作系统,此后windows及其中文版本不断升级。(6)1999年,中国科学院软件研究所、北大方正、康柏中国公司合作推出中国新一代国产操作系统_。任务二:汉字的输入法利用一个仅有英文字母、数字、符号等的键盘实现对汉字的输入,最核心的技术就是用键盘上的文字符号对汉字进行编码,然后用编码来输入所对应的每一个汉字。这里的编码就是所说的汉字输入码。每一种汉字的输入法,其实就是一种输入编码。好的输入法(输入编码)必须好记、易用的特点,并尽量减少重码,重码的意思就是同一个编码对应多个汉字,重码多的输入法会使的汉字的输入速度减慢。在众多的输入法中,按其编码规则可分为音码、形码、音形结合码及其他。(1)音码:按读音进行编码,如_,这种编码的缺点是重码多。(2)形码:按字形进行编码,如_,这种编码的缺点是不好学、不好记。(3)音形结合码:也叫混合码,是一种把读音与字形相结合进行编码,如_,这种编码是对音码与形码进行取长补短。(4)其他输入码,是以上三类输入编码外的其他一些编码,如_。汉字的输入编码解决了汉字的输入问题,所有的输入码统称为汉字的外码,但汉字的存储、输出问题如何解决?这就与汉字另外两种编码有关,即机内码与字型码。任务三:汉字的机内码和字型码,汉字存储采用存储机内码的原因一个输入编码可能对应多个汉字(重码),一个汉字也对应着多个输入编码(不同输入法),因此不可能把汉字的输入码作为存储汉字的依据。那么有一种选择是存储汉字的字形,但要表示出汉字的字形,需要用“点阵”或“矢量”的方式,比如点阵,点阵有大点阵,如7272点阵或更大;有小点阵,如1616点阵或更小,点阵中的每一个点用一个二进制位表示,1代表有点,0代表空白,如下图。一个字节是一个八位的二进制数,这样一个字节只能表示八个点,可得出存储一个1616点阵的字形就需要32字节,这32字节信息就叫做汉字的16点阵字型码,用于描述汉字的形体;存储一个7272点阵的字型码需要_字节,说明存储一个汉字的字型码需要较大的存储容量。照此方式,存储1000个7272点阵的汉字字型码就需要_B(字节)_KB_MB,这种存储方式无异于把每篇文章中的每个汉字当成一个个图片来存储,大大增加了文字信息的存储量,增加了计算机的信息处理量,必将降低信息的处理效率,因此,存储文章中的每个汉字采用存储每个汉字的字形信息(字型码)是不科学、不合理的。解决方法是把所有汉字的字型码集中存储在一个文件内,这个文件就叫做汉字库文件,然后对字库中的每个汉字符号的字型码再进行编码(编号),存储、加工、传输汉字时只需处理汉字的“编号”,这个“编号”明显小于汉字的字型码,将大大提高处理处理效率、节省文章的存储空间,需要显示或打印时再通过这个“编号”到字库取得“字型码”进行输出,这是科学合理的处理方法,也是当前计算机系统所采用的方法, 这个“编号”就叫做“机内码”。不同的字体的字型码用不同的文件存储,就构成“宋体字库”、“仿宋体字库”、“黑体字库”、“楷体字库”等。各种字体的字库采用相同的方式组织字型码信息,对字库进行编码,类似班级的座号,座号也是一种编码,由于汉字库收集着几千个汉字及符号的字型码,采用的编码就必须有足够的位数,2个字节,16位的二进制数能够表示的十进制数的范围是0到216-1=65535,足够对汉字库进行编码,由于不同字体的汉字字库有不同的提供者,为规范及统一标准,使汉字库能交叉互用,国家制定了字库的统一编码标准,即汉字的国标码GB,国标码是2字节的对汉字库的编码,这种编码其实也就是规范了每个汉字的字型码在字库的排列顺序,并作为计算机系统内部存储、加工处理、传输汉字使用的编码,又称汉字的内码,或机内码,同一个汉字在不同的字体的字库中它的内码是_(填写“一样”或“不一样”),这就表示存储、加工、传输一个汉字只需2字节,将大大节省存储空间、提高加工和传输速度,计算机需要显示或打印汉字时再通过内码到汉字库取出_进行显示或打印。综上所述,让计算机能够处理汉字的关键技术是编码技术,采用了三种编码,它们是_、_、_,对应解决了计算机对汉字的_问题、_问题、_问题。友情提示:完成后交到作业收件箱。 膃蒂袂螅膂薄蚅肄膁芄袁羀芀莆蚃袆芀蒈衿螂艿蚁蚂膀芈莀蒄肆芇蒃螀羂芆薅薃袈芅芅螈螄芄莇薁肃莄葿螇罿莃薂蕿袅莂芁螅袁莁蒄薈腿莀薆袃肅荿蚈蚆羁莈莈袁袇羅蒀蚄螃肄薂袀肂肃节蚃羈肂莄袈羄肁薇螁袀肁虿薄腿肀荿蝿肅聿蒁薂羁肈薃螇袇膇芃薀螃膆莅螆肁膅蒈薈肇膅蚀袄羃膄莀蚇衿膃蒂袂螅膂薄蚅肄膁芄袁羀芀莆蚃袆芀蒈衿螂艿蚁蚂膀芈莀蒄肆芇蒃螀羂芆薅薃袈芅芅螈螄芄莇薁肃莄葿螇罿莃薂蕿袅莂芁螅袁莁蒄薈腿莀薆袃肅荿蚈蚆羁莈莈袁袇羅蒀蚄螃肄薂袀肂肃节蚃羈肂莄袈羄肁薇螁袀肁虿薄腿肀荿蝿肅聿蒁薂羁肈薃螇袇膇芃薀螃膆莅螆肁膅蒈薈肇膅蚀袄羃膄莀蚇衿膃蒂袂螅膂薄蚅肄
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 吸痰技术试题及答案
- 铆工技术理论试题及答案
- 2025年春季部编版初中数学教学设计八年级下册第2课时 正方形的判定
- 《2025设备租赁合同范本共享》
- 2025面的合同租赁合同范本
- 公司财税知识培训课件
- 搞笑反诈骗课件
- 国际市场营销(第7版·数字教材版)课件 第1-7章 国际市场营销导论-国际大市场营销
- 求职路上如何应对蒙古特色面试题?实战技巧分享
- 《2025年物流公司挂靠合作协议》
- 《电工》国家职业技能鉴定教学计划及大纲
- 零星维修工程(技术标)
- 篮球投篮教学的课件
- 园林绿化施工现场组织协调方案与措施
- 中专生招生管理办法细则
- 2025年度江苏行政执法资格考试模拟卷及答案(题型)
- 续保团队职场管理办法
- 2025至2030直接甲醇燃料电池(DMFC)行业发展趋势分析与未来投资战略咨询研究报告
- 江苏南京师范大学附属中学2024~2025学年高一下册6月期末考试数学试题学生卷
- 医院质控科服务质量职责
- 船舶公司维修管理制度
评论
0/150
提交评论