




已阅读5页,还剩56页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2019/12/16,1,第5章数字媒体及应用,2019/12/16,2,什么是数字媒体?,“媒体”指的是信息的各种表示形式(如数值、文字、图像、声音、视频等)数字媒体就是数值、文字、声音、图像等的二进制数字表示,2019/12/16,3,2种不同类型的数字媒体,自然媒体(使用数字化方法从现实世界获取的媒体),合成媒体(使用计算机制作的媒体),2019/12/16,4,为什么要学习数字媒体?,数字媒体是各种计算机应用的处理对象,也是网络的传输对象。不了解“对象”,就不能透彻地理解计算机和网络的工作原理。进一步理解计算机的工作原理更好地理解常用工具软件的操作原理扩大知识面,了解更多的计算机应用为各个专业和学科进一步学习、使用计算机打下必要的基础,2019/12/16,5,5.1文本与文本处理,2019/12/16,6,什么是文本?,文本(text):文字信息在计算机中的表示形式是基于特定字符集的、具有上下文相关性的一个(二进制编码)字符流,是计算机中最常用的一种数字媒体。,2019/12/16,7,文本的处理,文本在计算机中的处理过程:文本的准备(例如汉字的输入),文本编辑,文本处理,文本存储与传输、文本展现等,根据应用的不同,各个处理环节的内容和要求可能有很大的差别。,2019/12/16,8,文本处理,2019/12/16,9,组成文本的基本元素是字符(character),字符与数值信息一样,在计算机中也采用二进位编码表示。,2019/12/16,10,5.1.1字符的编码,2019/12/16,11,字符编码的属性,字汇:编码字符集中有哪些字符编码规则:如何确定每个字符的代码码长:字符代码的长度。它决定了代码空间的大小定长码:7位,8位,双字节,4字节可变长码:单双4字节码,2019/12/16,12,复习:西文字符的编码ASCII码,西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号以及一些特殊符号所组成美国标准信息交换码(ASCII码):ASCII字符集包含96个可打印字符和32个控制字符采用7个二进位进行编码计算机中使用1个字节存储1个ASCII字符,2019/12/16,13,空格(32)20H0(48)30HA(65)41Ha(97)61H回车(13)0DH,特殊字符的ASCII码,2019/12/16,14,2、汉字编码字符集,汉字的特点:数量大(我国汉字自古至今累计已超过7万字,国家语委颁布的“现代汉语通用字表”包含7000汉字)多个国家和地区使用:港台地区,日、韩、朝、新、马等字形复杂,同音字多,异体字多。,2019/12/16,15,常用的汉字编码字符集,国家标准GB2312-1980汉字扩充规范GBK-1995国家标准GB18030-2000/2005台湾地区的标准汉字字符集CNS11643(BIG5,俗称“大五码”)日本工业标准汉字字符集JISX0208-90韩国国家标准汉字字符集KSC5601-87UCS/Unicode多文种大字符集,2019/12/16,16,(1)GB2312汉字编码字符集,1980年颁布信息交换用汉字编码字符集基本集GB2312-1980GB2312字符集由三个部分构成:,拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个,2019/12/16,17,GB2312汉字的编码,每一个GB2312汉字使用16位(2个字节)表示为了与ASCII字符相区别,每个字节的最高位均为“1”,例如:“南”字的代码是1100010011001111(用十六进制表示为C4CF),2019/12/16,18,练习,1MB的内存空间可以存放个GB2312-80的汉字机内码。A.1024B.512C.1024512D.10241024设有一串字符的内码为:B5C8BCB6BF3DF1E3,则这串字符中包含个GB2312-80汉字。,2019/12/16,19,(2)GBK汉字内码扩充规范,GB2312的不足:汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整理、古典文献研究等应用的需要;与ASCII码不兼容GBK汉字内码扩充规范(1995):在GB2312基础上,增加了1万多汉字(包括繁体字)和符号共有21003个汉字和883个图形符号,如“計算機”、冃、冄、円、冇等繁体字和生僻字与GB8312保持向下兼容,也使用双字节表示,第1字节最高位必须为“1”:,2019/12/16,20,台湾、香港地区使用。注意:GB2312(GBK)与Big5并不兼容。,(3)Big5(大五码),2019/12/16,21,(4)UCS/Unicode多文种大字符集,背景:为了实现全球数以千计的不同语言文字的统一编码方案:ISO将全球所有文字字母和符号集中在一个字符集中进行统一编码(目前共收集了17x2161,114,112个),称为UCS。UCS:ISO/IEC10646UniversalMultiple-OctetCodedCharacterSet,通用多8位编码字符集Unicode:统一码或联合码,微软、IBM等联合制定、与UCS完全等同的工业标准UCS/Unicode用4个字节对全世界现代书面文字所使用的所有字符、符号进行编码(记作UCS-4),2019/12/16,22,UCS/Unicode的编码方案,先实现部分字符的编码(共107,361个字符)尽量与已有编码标准兼容其中包含有中、日、韩统一整理出来的近3万汉字(称CJK汉字)允许有若干不同的编码方案,例如:,2019/12/16,23,优点:编码空间极大,能容纳足够多的各种字符集(13亿字符)缺点:4字节的字符编码使存储空间浪费严重克服:在UCS/Unicode编码空间中,把第1和第2字节均为“0”的一个子空间,作为UCS/Unicode的子集来使用,记作UCS-2。,UCS/Unicode的优缺点,2019/12/16,24,(5)GB18030汉字编码标准,背景:无论是Unicode的UTF-8还是UTF-16,其CJK汉字字符集虽然覆盖了我国已使用多年的GB2312和GBK标准中的汉字,但它们的编码并不相同为了既能与UCS/Unicode编码标准接轨,又能保护我国已有的大量汉字信息资源,我国在2000年和2005年两次发布GB18030汉字编码国家标准。GB18030实质上是UCS/Unicode字符集的另一种编码方案:单字节编码(128个)表示ASCII字符双字节编码(23940个)表示汉字,与GBK(以及GB2312)保持向下兼容,GBK不再使用四字节编码(约158万个)用于表示UCS/Unicode中的其他字符GB18030目前已在我国信息处理产品中强制贯彻执行。,2019/12/16,25,小结:几种汉字编码的对比,2019/12/16,26,例:IE浏览网页时文字编码的选择,2019/12/16,27,编码小结,GB2312-80,GB18030-2000/2005,GBK-95,CJK汉字字汇,兼容,兼容,UCS/Unicode,ISO646(ASCII码),兼容,兼容,映射,2019/12/16,28,5.1.2.文本准备文稿如何输入计算机,2019/12/16,29,文字符号输入计算机的方法,键盘输入,(1)数字编码,如电报码、区位码等,(2)字音编码,如智能ABC等(3)字形编码,如五笔字形和表形码等,(4)形音编码发展趋势:基于统计和学习功能的以词语(短语)或句子作为输入单位的输入方法,2019/12/16,30,文字符号输入计算机的方法,优点:自然,流畅小型化,适合移动计算不足:识别速度和正确性还需提高书写要求还要降低,2019/12/16,31,可编辑,2019/12/16,32,文字符号输入计算机的方法,优点:自然,方便,适合移动计算不足:对说话人、说话方式、说话内容的适应能力要大大增强识别速度和正确性还需大大提高,2019/12/16,33,文字符号输入计算机的方法,识别率已达到98%功能:简、繁体字混合识别中文、西文混合识别文字、表格混合识别智能校对功能,2019/12/16,34,文字符号输入计算机的方法,技术上非常困难,还无法实用目前准备先突破工整的楷书手写体的识别!,2019/12/16,35,5.1.3文本的分类与表示,2019/12/16,36,简单文本(纯文本),没有字体、字号的变化,不能插入图片、表格,也不能建立超链接,这种文本通常称为纯文本或ASCII文本,在PC机中的文件后缀名是.txt由一串用于表达正文内容的字符编码所组成,几乎不包含任何其他的格式信息和结构信息举例:,2019/12/16,37,有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰富格式文本”丰富格式文本(richtext、fancytext、formattedtext)doc、xls、RTF等多媒体文档(MultimediaDocument),丰富格式文本,2019/12/16,38,超文本的结构,超文本,2019/12/16,39,超文本(hypertext)的阅读方式线性文本是顺序式阅读通过链接、跳转、导航、回溯等操作实现跳跃式阅读超链(hyperlink):链源、链宿超链的链宿有两种:书签,指的是文本内部标记有书签的某个地方互联网上的某个信息资源(文件),它用统一资源定位器(URL)指定,超文本,2019/12/16,40,超文本中的节点不单是文本节点,还包含图形、图像、声音或动画节点,这种基于多媒体信息结点的超文本,有时也称为“超媒体”超文本的应用Windows等一些软件中的“帮助”文件使用浏览器从Web服务器上下载的网页(html或htm文件),超媒体(Hypermedia),2019/12/16,41,5.1.4文本编辑、排版与处理,2019/12/16,42,复习:使用Word的操作流程,创建新文档或打开老文档,文稿输入,编辑,排版,文档存盘、打印或发送,输入中西文字、符号和图表,进行增、删、改操作,保证文本的正确性,满足清晰、美观、便于使用等要求,2019/12/16,43,目的:确保文本内容正确无误操作:对字、词、句和段落进行添加、删除、修改等操作MSWord的功能:在文本的任何位置都可以插入新的文字从文本的任何位置都可以删除不需要的文字将一段文字从一处移动到另一处将一段文字从一处复制到另一处在文本中自动查找指定的词语用一个词语自动替换文本中指定的词语,文本编辑(textediting),2019/12/16,44,目的:使文本清晰、美观、便于阅读操作内容:对文本中的字符、段落乃至整篇文章的格式进行设计和调整,分成3个层次:对字符格式进行设置对段落格式进行设置对文档页面进行格式设置,文本排版(格式化),2019/12/16,45,设置字符的格式,字号(八号初号,5磅72磅以上)1磅相当于1/72英寸字体(宋体、楷体、黑体、仿宋、隶书)字符的修饰字符的形状(字形):正常、加粗、倾斜、加粗倾斜字形的修饰:下划线、着重号、上下标、删除线字符的颜色字符的宽度字符的间距字符的效果字符的排列方向,2019/12/16,46,什么是段落?用“回车”相互隔开的一组文字段落格式的设置:段落的对齐方式(两端对齐、分散对齐、居中对齐、左对齐、右对齐)段落的缩进方式(首行缩进、悬挂缩进、左缩进、右缩进)段间距和段内行距使用编号和项目符号段落添加边框和底纹首字下沉或悬挂段落与分页的关系,设置段落的格式,2019/12/16,47,控制段落的缩进,段落缩进是指段落中的文本到正文区左、右边界的距离,包括段落左缩进、右缩进和首行缩进。其缩进的距离可由水平标尺上对应的三个缩进标记来指示,2019/12/16,48,页面格式的设置:设置纸张大小和页边距设置每页的行、列数目设置分栏数目与格式设置页码设置页眉和页脚,设置页面的格式,2019/12/16,49,设置页面的分栏,2019/12/16,50,“所见即所得”(操作效果屏幕立即可见,打印结果与屏幕所见完全相同)撤销(undo)和恢复(redo)操作格式刷多种视图(大纲视图与大纲编辑)自动更正、自动套用格式、自动编号、自动图文集自动保存功能和自动备份功能样式、模板和向导(wizard)功能宏操作(Macro),提高Word操作效率的若干措施,2019/12/16,51,文本处理初步,2019/12/16,52,使用计算机对文本中的字、词、短语、句子、篇章进行识别、转换、分析、理解、压缩、加密和检索等有关的处理文本处理内容:字数统计,词频统计,简/繁体相互转换,汉字/拼音相互转换词语排序,词语错误检测,文句语法检查自动分词,词性标注,词义辨识,大陆/台湾术语转换关键词提取,文摘自动生成,文本分类文本检索(关键词检索、全文检索),文本过滤文语转换(语音合成),文种转换(机器翻译)篇章理解,自动问答,自动写作等文本压缩,文本加密,文本著作权保护,什么是文本处理?,2019/12/16,53,例:Word2003的文本处理功能,英文拼写检查和英语同义词检查字数统计自动编写摘要中文简繁体转换和术语转换中英词语翻译语法和格式检查语音识别(口授命令和听写)文档保护(防止打开或修改文档),2019/12/16,54,常用文本处理软件,(1)面向通信的文本处理软件:OutlookExpress(2)面向办公的文本处理软件:MSWord,WPS2000(3)面向印刷出版的文本处理软件:“飞腾”排版软件,PageMaker,PDFWriter(4)面向网络信息发布和电子出版的文本处理软件:FrontPage,PDFWriter,2019/12/
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030医疗云计算服务安全性评估与行业应用前景预测报告
- 2025-2030医用低温设备安全性评价体系及未来发展展望
- 指向批判性思维培养的初中英语阅读教学的行动研究
- 制造企业生产线流程优化报告
- 新员工入职培训课程与实施方案
- 家政服务行业操作流程与安全指南
- 危险作业罪中“现实危险”的认定研究
- PKC介导5-羟色胺转运体功能及肠道5-羟色胺稳态调控分子机制的研究
- 防范非法集资小学生安全教育教案
- Unit 1 This is me!integration说课稿 2024-2025学年译林版(2024)七年级英语上册
- 2025年上半年事业单位联考《综合应用能力》A类考试测试题(含答案)
- 体验人工智能教学课件
- 鲁教版(五四学制)六年级地理上册《第一章地球》单元测试卷(含答案)
- 【公开课】等腰三角形(教学课件)2025-2026学年人教版(2024)数学八年级上册
- 代理商激励方案(3篇)
- 小学国防教学课课件
- 中国熔断器行业市场调查研究及投资潜力预测报告
- 渠道费用结算管理办法
- 小区物业规划方案(3篇)
- 快递员安全培训课程
- 振动试验培训课件
评论
0/150
提交评论