第5章5.1 文本与文本处理.ppt_第1页
第5章5.1 文本与文本处理.ppt_第2页
第5章5.1 文本与文本处理.ppt_第3页
第5章5.1 文本与文本处理.ppt_第4页
第5章5.1 文本与文本处理.ppt_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章数字媒体及应用 5 1文本与文本处理5 2图像与图形5 3数字声音及应用5 4数字视频及应用 5 1文本与文本处理 5 1 1字符的编码5 1 2文本准备5 1 4文本编辑 排版与处理5 1 5文本的展现5 1 3文本的分类与表示 文字处理是计算机应用的基础 计算机应用 使用计算机进行信息处理 其中 文字信息处理是涉及面最广的一种计算机应用 几乎与任何领域任何人都有关 传统的文字处理过程 计算机文字处理过程 文字信息在计算机中称为 文本 text 文本是计算机中最常用的一种数字媒体文本由一系列 字符 character 组成 每个字符均使用二进制编码表示文本在计算机中的处理过程是 5 1 1 字符在计算机中的表示 字符 字符集及其码表 文字的基本元素是字母和符号 统称为 字符 character 它包括 字母 数字 标点 符号等字符集 一组特定字符的集合不同的字符集包含的字符数目与内容不同 如 中文字符集 西文字符集 日文字符集等字符的编码 字符集中每个字符都使用二进位 code 表示 称为该字符的编码不同的字符其编码各不相同字符集中所有字符的编码的一览表 称为该字符集的码表 西文字符的编码 ASCII码 西文是表音文字 拼音文字 它由拉丁字母 数字 标点符号以及一些特殊符号所组成美国标准信息交换码 AmericanStandardCodeforInformationInterchange 简称ASCII码 ASCII字符集包含96个可打印字符和32个控制字符采用7个二进位进行编码计算机中使用1个字节存储1个ASCII字符存在问题 7位代码空间太小 只能对128个字符编码 不同国家和地区使用不同的字符集及其编码 互不兼容东亚地区使用的大字符集无法编码 标准ASCII字符集及其码表 汉字如何编码 汉字是记录汉语 国语 华语 的文字 属于表意文字 它用符号直接表达词或词素汉字的特点数量大 多个国家和地区使用 字形复杂 同音字多 异体字多如何编码 确定收入多少字 哪些字 汉字在字符集中的排序方式确定使用的代码结构和代码空间 常用的汉字编码字符集 国家标准GB2312汉字扩充规范GBK国家标准GB18030台湾地区的标准汉字字符集CNS11643 BIG5 俗称 大五码 日本工业标准汉字字符集JISX0208 90韩国国家标准汉字字符集KSC5601 87 GB2312汉字编码字符集 1980年颁布 信息交换用汉字编码字符集 基本集 GB2312 1980GB2312字符集由三个部分构成 拉丁字母 俄文 日文平假名与片假名 希腊字母 汉语拼音等共682个 注 区位码仅用于在键盘上输入汉字 GB2312汉字的编码 每一个GB2312汉字使用16位 2个字节 表示每个字节的最高位均为 1 在16位代码空间中的码位分布 GB2312汉字编码的不足之处 GB2312汉字字数太少 无法满足一些特殊应用的需要 人名 地名 古籍整理 古典文献研究 没有繁体字编码效率不高 6763 682 65536与ASCII码不兼容 几种汉字编码的对比 背景材料 UCS Unicode 解决多文种信息处理方法的发展 传统方法 ISO 扩展ASCII码微软的方法 代码页切换UCS Unicode 所有文字字母和符号集中在同一字符集进行统一编码 目前收集了17x216 1 114 112个 UCS Unicode的编码方案 尽量与已有编码标准兼容先实现部分字符的编码 101 000个 允许有若干不同的编码方案 例如 背景材料 GB18030 无论是Unicode的UTF 8还是UTF 16 其CJK汉字字符集虽然覆盖了我国已使用多年的GB2312和GBK标准中的汉字 但它们的编码并不相同为了既能与UCS Unicode编码标准接轨 又能保护我国已有的大量汉字信息资源 我国在2000年和2005年两次发布GB18030汉字编码国家标准 GB18030实际上是UCS Unicode字符集的另一种编码方案 单字节编码 129个 表示ASCII字符双字节编码 23940个 表示汉字 与GBK 以及GB2312 保持向下兼容四字节编码 约158万个 用于表示UCS Unicode中的其他字符GB18030目前已在我国信息处理产品中强制贯彻执行 例 IE浏览网页时文字编码的选择 5 1 2 文本准备 文稿如何输入计算机 文字符号输入计算机的方法 键盘输入 1 数字编码 如电报码 区位码等 2 字音编码 如智能ABC等 3 字形编码 如五笔字形和表形码等 4 形音编码发展趋势 基于统计和学习功能的以词语 短语 或句子作为输入单位的输入方法 文字符号输入计算机的方法 优点 自然 流畅小型化 适合移动计算不足 识别速度和正确性还需提高书写要求还要降低 文字符号输入计算机的方法 优点 自然 方便 适合移动计算不足 对说话人 说话方式 说话内容的适应能力要大大增强识别速度和正确性还需大大提高 文字符号输入计算机的方法 识别率已达到98 功能 简 繁体字混合识别中文 西文混合识别文字 表格混合识别智能校对功能 文字符号输入计算机的方法 技术上非常困难 还无法实用目前准备先突破工整的楷书手写体的识别 汉字的键盘输入 汉字与键盘上的键无法一一对应 因此必须使用几个键来表示一个汉字 这就称为汉字的 键盘输入编码 优秀的汉字键盘输入编码应具有的特点 易学习 易记忆效率高 平均击键次数较少 重码少容量大 可输入的汉字字数多 汉字键盘输入方法的比较 5 1 4文本的编辑与排版 复习 使用Word的操作流程 创建新文档或打开老文档 文稿输入 编辑 排版 文档存盘 打印或发送 输入中西文字 符号和图表 进行增 删 改操作 保证文本的正确性 满足清晰 美观 便于使用等要求 目的 确保文本内容正确无误操作 对字 词 句和段落进行添加 删除 修改等操作MSWord的功能 在文本的任何位置都可以插入新的文字从文本的任何位置都可以删除不需要的文字将一段文字从一处移动到另一处将一段文字从一处复制到另一处在文本中自动查找指定的词语用一个词语自动替换文本中指定的词语 文本编辑 textediting 目的 使文本清晰 美观 便于阅读操作内容 对文本中的字符 段落乃至整篇文章的格式进行设计和调整 分成3个层次 对字符格式进行设置对段落格式进行设置对文档页面进行格式设置 文本排版 格式化 设置字符的格式 字号 八号 初号 5磅 72磅以上 1磅相当于1 72英寸字体 宋体 楷体 黑体 仿宋 隶书 字符的修饰字符的形状 字形 正常 加粗 倾斜 加粗倾斜字形的修饰 下划线 着重号 上下标 删除线 字符的颜色字符的宽度字符的间距字符的效果字符的排列方向 Demo1 什么是段落 用 回车 相互隔开的一组文字段落格式的设置 段落的对齐方式 两端对齐 分散对齐 居中对齐 左对齐 右对齐 段落的缩进方式 首行缩进 悬挂缩进 左缩进 右缩进 段间距和段内行距使用编号和项目符号段落添加边框和底纹首字下沉或悬挂段落与分页的关系 设置段落的格式 Demo2 控制段落的缩进 段落缩进是指段落中的文本到正文区左 右边界的距离 包括段落左缩进 右缩进和首行缩进 其缩进的距离可由水平标尺上对应的三个缩进标记来指示 页面格式的设置 设置纸张大小和页边距设置每页的行 列数目设置分栏数目与格式设置页码设置页眉和页脚 设置页面的格式 设置页面的分栏 所见即所得 操作效果立即可见 且打印结果与屏幕所见相同 撤销 undo 和恢复 redo 操作格式刷多种视图 大纲视图与大纲编辑 自动更正 自动套用格式 自动编号 自动图文集 自动保存功能和自动备份功能样式 模板和向导 wizard 功能宏操作 Macro 提高操作效率的若干措施 文本处理初步 使用计算机对文本中的字 词 短语 句子 篇章进行识别 转换 分析 理解 压缩 加密和检索等有关的处理文本处理内容 字数统计 词频统计 简 繁体相互转换 汉字 拼音相互转换词语排序 词语错误检测 文句语法检查自动分词 词性标注 词义辨识 大陆 台湾术语转换关键词提取 文摘自动生成 文本分类文本检索 关键词检索 全文检索 文本过滤文语转换 语音合成 文种转换 机器翻译 篇章理解 自动问答 自动写作等文本压缩 文本加密 文本著作权保护 什么是文本处理 例 Word2003的文本处理功能 英文拼写检查和英语同义词检查字数统计自动编写摘要中文简繁体转换和术语转换中英词语翻译语法和格式检查语音识别 口授命令和听写 文档保护 防止打开或修改文档 附 关于文本检索 将文本按一定的方式进行组织 储存 管理 并根据用户的要求查找到所需要的文本 称为 文本检索 文本检索系统的组成和工作流程 对每一文本生成索引索引的结构为 索引标识 相应的地址索引标识可以是文本的标题 主题 作者 分类 关键词等 给出查询要求 如标题是什么 作者是谁 属于哪一类 所包含的关键词等提问词可以使用 与 或 非 等逻辑运算进行组合 由检索软件将查询要求与索引数据进行匹配 找出与查询要求相关的文本的地址 系统按地址从文本库中取出对应的一组文本 返回给用户 经过分析后 按照与查询要求的相关程度 从高到低排序 返回给用户 对文本检索系统的评价 效果精度 返回结果中相关的文本占返回总数的百分比召回率 返回结果中相关的文本占全部相关文本的百分比效率 检索速度其它 易用性等 Web信息检索是文本检索的特例 也称为搜索引擎 例如Google Yahoo AltaVista Infoseek 新浪 天网 百度等 系统结构 预先使用软件robot遍历Web 将Web上的信息下载到本地文档库 对文本内容进行自动分析并建立索引 用户提出检索请求时 搜索引擎通过检查索引找出匹配的文本 或URL地址 并返回给用户 5 1 5文本的展现 输出 文本的展现 输出 目的 阅读 浏览或打印文本使用的软件 文本阅读器 文本浏览器嵌入在文本编辑 处理 软件中 如微软的Word 独立的软件 如Adobe公司的AcrobatReader 微软公司的IE等文本展现的过程 对文本的格式描述进行解释生成文字和图表的映像 bitmap 传送到显示器或打印机输出 附 输出过程中字形的生成 过程 先根据字符的字体确定相应的字库 font 再按照该字符的代码从字库中取出该字符的形状描述信息然后按形状描述信息生成字形 并按照字号大小及有关属性 粗体 斜体 下横线 将字形作必要的变换最后将变换得到的字形放置在页面的指定位置处2种不同的字库 点阵描述 轮廓描述 5 1 3文本的分类与表示 简单文本 纯文本 没有字体 字号的变化 不能插入图片 表格 也不能建立超链接 其文件后缀名是 txt由一串用于表达正文内容的字符编码所组成 几乎不包含任何其他的格式信息和结构信息举例 丰富格式文本 本书由南京大学出版社 PublishingHouseofNanjingUniversity 出版 有字体字号等属性变化 设置了段落和页面排版格式的文本称为 丰富格式文本 丰富格式文本中 除了正文内容之外 还使用了许多 标记 来描述字符的属性和格式的设置 举例 下面标题的格式为 中文用黑体 西文用ArialBlack体 居中 使用HTML语言描述为 本书由南京大学出版社 PublishingHouseof

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论