




已阅读5页,还剩49页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 52 3 5文字的表示及处理 主要内容 西文字符编码汉字编码汉字的输入和输出文本处理 文字的表示及处理 2 52 1 ASCII码ASCII码 即美国标准信息交换码 AmericanStandardCodeforInformationInterchange 使用7个二进位对字符进行编码 一 西文字符编码 文字的表示及处理 3 52 基本的ASCII字符集共有128个字符95个可打印字符 常用字母 数字 标点符号 33个控制字符 不可直接显示或打印 特殊字符的ASCII码空格 32 A 65 a 97 0 48 下面为ASCII代码表 文字的表示及处理 4 52 标准ASCII字符集及其码表 控制字符 文字的表示及处理 5 52 0123456789ABCDEF 控制字符 01234567 b3b2b1b0b6b5b4 文字的表示及处理 6 52 每个字符用标准规定的7位二进制数表示 在机内占一个字节 最高位为0 如 字符 A 的ASCII码为 字符 0 的ASCII码为 00110000 2或 48 10 60 8 30 16 01000001 2或 65 10 101 8 41 16 文字的表示及处理 7 52 要求 1 会比较ASCII字符的大小 按其ASCII码值 空格 0 9 A Z a z2 会推算同组字符ASCII码值如A的ASCII值 十进制 为65 则B C 的ASCII值分别为66 67 文字的表示及处理 8 52 定义方式 用8位二进制数位表示一个字符的扩充二 十进制交换码 特点 每个字符对应一个字节 共256种说明 有很多编码没有使用 保留做为扩充 2 EBCDIC码 文字的表示及处理 9 二 汉字编码 1981年 国家标准局颁布了 信息交换用汉字编码字符集 基本集 GB2312 80 国标码 组成 1 第一部分 字母 数字和各种符号 包括拉丁字母 俄文 日文平假名与片假名 希腊字母 汉语拼音等共682个 统称为GB2312图形符号 1 GB2312 80汉字编码 文字的表示及处理 10 52 2 第二部分 一级常用汉字 共3755个 按汉语拼音排列 3 第三部分 二级常用汉字 共3008个 按偏旁部首排列汉字共6763个字符共7445个 文字的表示及处理 11 52 按汉语拼音排列 按偏旁部首排列 拉丁字母 俄文 日文平假名与片假名 希腊字母 汉语拼音等共682个 1 GB2312 80汉字编码 GB2312 80字符集 文字的表示及处理 12 52 区位码 GB2312 80是一个二维代码表 有94行 94列 汉字在代码表中的位置用它所处的行号 列号表示 1 GB2312 80汉字编码 文字的表示及处理 13 52 例如 大 字的区号20 位号83 区位码是2083用2个字节表示为 0001010001010011 文字的表示及处理 14 52 国标交换码 国标码 问题 信息通信中 汉字的区位码与通信使用的控制码 00H 1FH 发生冲突 解决方案 为了避免汉字区位码与通信控制码的冲突 每个汉字的区号和位号必须分别加上32 得到的代码称为汉字的 国标交换码 1 GB2312 80汉字编码 文字的表示及处理 15 52 例如 大 字的区号20 位号83区位码 2083国标交换码 52115 32 二进制表示为 0001010001010011 二进制表示为 0011010001110011 文字的表示及处理 16 52 机内码 问题 文本中的汉字与西文字符经常是混合在一起使用的 汉字信息如不予以特别的标识 它与单字节的标准ASCII码就会混淆不清 解决方法 使表示GB2312汉字的两个字节的最高位 b7 都置为 1 这种汉字编码 称为GB2312汉字的 机内码 1 GB2312 80汉字编码 文字的表示及处理 17 52 例如 大 字区位码 2083二进制表示为 0001010001010011国标交换码 52115 32 二进制表示为 0011010001110011机内码 180243 128 二进制表示为 1011010011110011 B4F3 区位码 32 国标码国标码 128 机内码 文字的表示及处理 18 52 问题 GB2312 80只有6763个汉字 使用时功能不够 解决方法 1995年发布GBK 全称为 汉字内码扩展规范 GBK字符集中一共有21003个汉字和883个图形符号 它与GB2312国标汉字字符集及其内码保持兼容 组成 共收入21886个汉字和图形符号 21003个汉字 883个图形符号 2 GBK汉字内码扩展规范 文字的表示及处理 19 52 GBK编码区分三个部分 汉字区 21003个汉字 图形符号区 用户自定义区GBK每一个字符都采用双字节表示总体编码范围为 8140H FEFEH 共23940个码位 首字节范围 81H FEH 二进制最高位为1 尾字节范围 40H FEH 二进制最高位可以为0或1 GBK汉字内码扩充规范 文字的表示及处理 20 52 目的 统一的多文本处理环境 实现所有字符在同一字符集中统一编码途径 UCS ISO IEC10646 通用多8位编码字符集 Unicode 统一码或联合码 与UCS完全等同的工业标准优点 编码空间极大 4个字节 能容纳足够多的各种字符集 13亿字符 3 UCS Unicode汉字编码 文字的表示及处理 21 52 缺点 4字节的字符编码使存储空间浪费严重克服 UCS 2是双字节编码 共有字符49194个 其中包括 欧洲及中东地区使用的拉丁字母 音节文字各种标点符号 数学符号 技术符号 几何形状 箭头及其他符号中 日 韩 CJK 统一编码的汉字 文字的表示及处理 22 52 GB18030 2000编码标准在GB2312和GBK编码标准的基础上进行了扩充 采用单字节 双字节和四字节三种方式对字符编码 因此该标准的汉字有27000多个 包括全部中 日 韩统一字符集和CJK汉字扩充的所有字符 4 GB18030 2000编码 文字的表示及处理 23 52 BIG5码是台湾 香港等地使用的汉字繁体的编码标准 它用双字节进行编码 BIG5收录了13461个汉字和符号 5 BIG5编码 文字的表示及处理 24 52 几种汉字编码的对比 文字的表示及处理 25 52 人工输入 通过键盘 手写笔或语音输入方式输入字符自动输入 将纸介质上的文本通过识别技术自动转换为文字的编码 三 汉字的输入输出 1 汉字输入 文字的表示及处理 26 52 文字的表示及处理 2020 3 17 27 可编辑 28 52 键盘输入编码 汉字字数很多 无法与键盘上的键一一对应 因此必须使用一个或几个键来表示汉字 这就需要对汉字进行编码 1 键盘输入 文字的表示及处理 29 52 汉字输入编码的分类拼音编码 如 智能ABC 紫光拼音缺点 同音字引起的重码多 需增加选择操作字形编码 将汉字的字形分解归类而给出的编码方法 重码少 输入速度较快 如 五笔字形法和表形码等缺点 编码规则不易掌握 文字的表示及处理 30 52 联机手写汉字识别系统构成输入 预处理 特征提取 分类 后处理 输出需求的配件 专用的书写板和笔 2 联机手写汉字识别 笔输入 文字的表示及处理 31 52 工作过程 在书写板上书写 书写板将笔尖的运动按时间采样 发送到计算机中 由软件进行识别 然后用该汉字 或符号 对应的代码进行保存 例如 汉王笔正识率95 90 速度12字 秒 文字的表示及处理 32 52 目的 使计算机具有人的听觉 是模式识别的分支语音识别的分类 按照不同的应用及要求 孤立词 连接词 连续语音识别小词汇量 中词汇 大词汇量语音识别特定人 限定人 非特定人语音识别最高目标 非特定人大词汇量的连续语音识别技术 3 汉字语音识别 文字的表示及处理 33 52 脱机文字识别 对已经印刷或写完的文字进行识别 自动输入计算机并转换为数字文本形式的一种技术 也叫做汉字OCR OpticalCharacterRecognition 分类 印刷体OCR和手写体OCR 4 脱机文字识别 文字的表示及处理 34 52 汉字键盘输入方法的比较 文字的表示及处理 35 52 汉字的输出过程 输出机器内部的汉字编码 需要根据汉字编码对应的汉字字型码进行解释 生成映像 最后再传送到显示器或打印机输出 机内汉字编码 字型码 打印输出 显示器 打印机 2 汉字输出 文字的表示及处理 36 52 汉字字型码 用于汉字在显示器或者打印机上输出 汉字字型码表示形式分类 点阵表示形式矢量表示形式 文字的表示及处理 37 52 汉字字型表示形式 汉字字型码用点阵表示16 16 占32个字节 24 24 48 48等汉字矢量表示存储描述汉字轮廓特征的信息 如 Windows中TrueType技术即为该表示形式 轮廓描述 点阵描述 文字的表示及处理 38 52 字型库 简称字库 同一种字体的所有字符 例如GB2312中的7000多字符 的形状描述信息的集合 不同的字体 如宋体 仿宋 楷体 黑体等 对应不同的字库 文字的表示及处理 39 52 文本编辑的主要功能 了解 对字 词 句 段落进行添加 删除 修改等操作字的处理 设置字体 字号 字的排列方向 间距 颜色 效果等 三 文本编辑 1 文本的编辑 文字的表示及处理 40 52 段落的处理 设置行距 段间距 段缩进 对称方式等页面布局的处理 设置页边距 每页行列数 分栏 页眉 页脚等 所见即所得 WhatYouSeeIsWhatYouGet 简称WYSIWYG 文字的表示及处理 41 52 文本处理内容 字数统计 字频统计 简 繁体相互转换 汉字 拼音相互转换词语排序 词语错误检测 文句语法检查自动分词 词频统计 词性标注 词义辨识 大陆 台湾术语转换 2 文本的处理 文字的表示及处理 42 52 文本压缩 文本加密 文本著作权保护关键词提取 文摘自动生成 文本分类文本检索 关键词检索 全文检索 文本过滤文语转换 语音合成 文种转换 机器翻译 篇章理解 自动问答 自动写作等 2 文本的处理 文字的表示及处理 43 52 1 面向通信的文本处理软件计算机网络上最普及的应用是用电子邮件进行通信 典型软件 微软公司的OutlookExpress 具有文字的增 删 改以及字体 字号的设置功能 也可以设定一些简单的格式和插入一些图片 3 常用文本处理软件 文字的表示及处理 44 52 2 面向办公的文本处理软件功能要求 文本制作的高效率 高质量 软件面向非专业用户 易学好用 文本处理能力 既功能丰富 又操作简单 排版功能 典型软件 MS Office WPS2000 文字的表示及处理 45 52 3 面向出版的文本处理软件排版软件的主要功能 将文字 图形和图像等合理地安排在页面内 使版面符合专业排版要求 典型排版软件 方正集团公司的 飞腾 排版软件美国Adobe公司的PageMaker和PDFWriter 文字的表示及处理 46 52 4 面向网络信息发布和电子出版的文本处理软件将文本制作成网页发布到internet或作为电子图书进行出版典型处理软件面向网络信息发布的软件MSFontpage Word面向电子出版的软件Adobe公司的AcrobatPDF格式文件 文字的表示及处理 47 52 根据制作文本的用途分为纯文本TXT丰富格式文本RTF根据软件的使用不同DOC PDF WPS等 3 常见文本类型 文字的表示及处理 48 52 纯文本 是由一连串的字符组成的 几乎不包含任何其他格式信息和结构信息 特性 呈现为一种线性结构 文件体积小 阅读不受限制 几乎所有的文字处理软件都能识别和处理 没有字体 字号的变化 不能插入图片 表格等 不能建立超链接 由一串用于表达正文内容的字符编码所组成 几乎不包含任何其他的格式信息和结构信息 1 纯文本 txt 文字的表示及处理 49 52 文字的表示及处理 50 52 文本的格式化 字型字号颜色 丰富格式文本 richtext fancytext formattedtext RTF格式 不同软件系统相互交互中间格式 多媒体文档 MultimediaDocument 插入图表公式声音视频 2 丰富格式文本 文字的表示及处理 51 52 使用HTML语言描述为 本书由南京大学出版社 PublishingHouseofNanjingUniversity 出版 用一对指出的是标记 如
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 服装代理商协议书4篇
- 标准合同食品委托加工合同2篇
- 2025年五年级学生劳动素养监测考核试题
- 部队军事课件封面设计
- 部队伙食费使用课件
- 部队两会前安全教育培训课件
- 2024-2025学年山东省烟台市莱阳市七年级(上)期末数学试卷(五四学制)(含部分答案)
- 【中考真题】2025年青海省中考语文真题试卷(含答案)
- 部门安全培训内容课件
- 边际递减效应课件
- 网络信息安全基础知识培训课件
- 江苏南京建邺高新区管委会社会公开招聘22人高频重点提升(共500题)附带答案详解
- 油气开采技术进步与挑战-洞察分析
- 第十八届地球小博士全国地理知识科普大赛介绍宣传组织动员备赛课件
- 【MOOC】国际金融学-湖南大学 中国大学慕课MOOC答案
- 《铁路轨道维护》课件-道岔检查作业
- 护理安全管理课件完整版
- 超星尔雅学习通《趣修经济学微观篇》章节测试及答案
- 化脓性扁桃体炎
- DB3502∕T 090-2022 居家养老紧急事件应急助援规范
- 腰椎间盘突出症护理查房课件
评论
0/150
提交评论