文本与文本处理(课堂)课件_第1页
文本与文本处理(课堂)课件_第2页
文本与文本处理(课堂)课件_第3页
文本与文本处理(课堂)课件_第4页
文本与文本处理(课堂)课件_第5页
已阅读5页,还剩113页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章数字媒体及应用10/28/20221.第5章数字媒体及应用10/22/20221.什么是数字媒体?“媒体”指的是信息的各种表示形式(如数值、文字、图像、声音、视频等)数字媒体就是数值、文字、声音、图像等的二进制数字表示10/28/20222.什么是数字媒体?“媒体”指的是信息的各种表示形式(如数值、文2种不同类型的数字媒体自然媒体(使用数字化方法从现实世界获取的媒体)合成媒体(使用计算机制作的媒体)Model(description)采用特定符号(语言)表示的文本,合成语音,MIDI,图形,动画Modeling(describing)人工交互方式命令语言方式rendering人可以感知的形式声波光波力温度检测与转换器电信号数字化数字自然媒体取样声音,扫描图像,数字视频10/28/20223.2种不同类型的数字媒体自然媒体(使用数字化方法从现实世界获为什么要学习数字媒体?数字媒体是各种计算机应用的处理对象,也是网络的传输对象。不了解“对象”,就不能透彻地理解计算机和网络的工作原理。进一步理解计算机的工作原理更好地理解常用工具软件的操作原理扩大知识面,了解更多的计算机应用为各个专业和学科进一步学习、使用计算机打下必要的基础10/28/20224.为什么要学习数字媒体?数字媒体是各种计算机应用的处理对象,也5.1文本与文本处理10/28/20225.5.1文本与文本处理10/22/20225.什么是文本?文本(text):文字信息在计算机中的表示形式是基于特定字符集的、具有上下文相关性的一个(二进制编码)字符流,是计算机中最常用的一种数字媒体。10/28/20226.什么是文本?文本(text):文字信息在计算机中的表示形文本的处理文本在计算机中的处理过程:文本的准备(例如汉字的输入),文本编辑,文本处理,文本存储与传输、文本展现等,根据应用的不同,各个处理环节的内容和要求可能有很大的差别。10/28/20227.文本的处理文本在计算机中的处理过程:文本的准备(例如汉字的输文本处理其他媒体文本展现(阅读器)文本准备文本处理文本处理软件电子文本文本编辑(编辑器)格式化的电子文本网络传输10/28/20228.文本处理其他媒体文本展现(阅读器)文本准备文本处理文本处理软组成文本的基本元素是字符(character),字符与数值信息一样,在计算机中也采用二进位编码表示。10/28/20229.组成文本的基本元素是字符(chara5.1.1字符的编码10/28/202210.5.1.1字符的编码10/22/202210.字符编码的属性字汇:编码字符集中有哪些字符编码规则:如何确定每个字符的代码码长:字符代码的长度。它决定了代码空间的大小定长码:7位,8位,双字节,4字节可变长码:单-双-4字节码10/28/202211.字符编码的属性字汇:编码字符集中有哪些字符10/22/202复习:西文字符的编码——ASCII码西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号以及一些特殊符号所组成美国标准信息交换码(ASCII码):ASCII字符集包含96个可打印字符和32个控制字符采用7个二进位进行编码计算机中使用1个字节存储1个ASCII字符0XXXXXXX10/28/202212.复习:西文字符的编码——ASCII码西文是表音文字(拼音文字空格(32)20H0(48)30HA(65)41Ha(97)61H回车(13)0DH特殊字符的ASCII码10/28/202213.空格(32)20H特殊字符的ASCII码10/22/20222、汉字编码字符集汉字的特点:数量大(我国汉字自古至今累计已超过7万字,国家语委颁布的“现代汉语通用字表”包含7000汉字)多个国家和地区使用:港台地区,日、韩、朝、新、马等字形复杂,同音字多,异体字多。10/28/202214.2、汉字编码字符集汉字的特点:10/22/202214.常用的汉字编码字符集国家标准GB2312-1980汉字扩充规范GBK-1995国家标准GB18030-2000/2005台湾地区的标准汉字字符集CNS11643(BIG5,俗称“大五码”)日本工业标准汉字字符集JISX0208-90韩国国家标准汉字字符集KSC5601-87UCS/Unicode多文种大字符集10/28/202215.常用的汉字编码字符集国家标准GB2312-198010/22一级汉字(3755个)二级汉字(3008个)(扩充使用)字母、数字和各种符号 ………………19423位号…………191655568794区号(按汉语拼音排列)(按偏旁部首排列)(1)GB2312汉字编码字符集1980年颁布《信息交换用汉字编码字符集·基本集》——GB2312-1980GB2312字符集由三个部分构成:拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个共6763个汉字10/28/202216.字母、数字和各种符号19423位号GB2312汉字的编码每一个GB2312汉字使用16位(2个字节)表示为了与ASCII字符相区别,每个字节的最高位均为“1”例如:“南”字的代码是1100010011001111(用十六进制表示为C4CF)

11第1字节第2字节XXXXXXXXXXXXXX10/28/202217.GB2312汉字的编码每一个GB2312汉字使用16位(2个练习1MB的内存空间可以存放

个GB2312-80的汉字机内码。

A.1024B.512

C.1024×512D.1024×1024设有一串字符的内码为:B5C8BCB6BF3DF1E3,则这串字符中包含

个GB2312-80汉字。10/28/202218.练习1MB的内存空间可以存放个GB2312-8(2)GBK汉字内码扩充规范GB2312的不足:汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整理、古典文献研究等应用的需要;与ASCII码不兼容GBK汉字内码扩充规范(1995):在GB2312基础上,增加了1万多汉字(包括繁体字)和符号共有21003个汉字和883个图形符号,如“計算機”、冃、冄、円、冇等繁体字和生僻字与GB8312保持向下兼容,也使用双字节表示,第1字节最高位必须为“1”:1

X第1字节第2字节XXXXXXXXXXXXXX10/28/202219.(2)GBK汉字内码扩充规范GB2312的不足:1X第1台湾、香港地区使用。注意:GB2312(GBK)与Big5并不兼容。(3)Big5(大五码)10/28/202220.台湾、香港地区使用。(3)Big5(大五码)10/22/20(4)UCS/Unicode多文种大字符集背景:为了实现全球数以千计的不同语言文字的统一编码方案:ISO将全球所有文字字母和符号集中在一个字符集中进行统一编码(目前共收集了17x216=1,114,112个),称为UCS。UCS:ISO/IEC10646UniversalMultiple-OctetCodedCharacterSet,通用多8位编码字符集Unicode:统一码或联合码,微软、IBM等联合制定、与UCS完全等同的工业标准

UCS/Unicode用4个字节对全世界现代书面文字所使用的所有字符、符号进行编码(记作UCS-4)10/28/202221.(4)UCS/Unicode多文种大字符集背景:为了实现全球单字节:ASCII字符双字节:拉丁、希腊、阿拉伯,···三字节:CJK汉字四字节:其他Unicode:UTF-8单字节可变长编码应用:Linux,Web网页,电子邮件双字节:ASCII字符、拉丁、希腊、阿拉伯,常用CJK汉字,···四字节:非常用CJK汉字Unicode:UTF-16双字节可变长编码应用:Windows,Mac,Java,···UCS/Unicode的编码方案先实现部分字符的编码(共107,361个字符)尽量与已有编码标准兼容其中包含有中、日、韩统一整理出来的近3万汉字(称CJK汉字)允许有若干不同的编码方案,例如:10/28/202222.单字节:ASCII字符Unicode:UTF-8单字节可变优点:编码空间极大,能容纳足够多的各种字符集(13亿字符)缺点:4字节的字符编码使存储空间浪费严重克服:在UCS/Unicode编码空间中,把第1和第2字节均为“0”的一个子空间,作为UCS/Unicode的子集来使用,记作UCS-2。UCS/Unicode的优缺点10/28/202223.优点:编码空间极大,能容纳足够多的各种字符集(13亿字符)U(5)GB18030汉字编码标准背景:无论是Unicode的UTF-8还是UTF-16,其CJK汉字字符集虽然覆盖了我国已使用多年的GB2312和GBK标准中的汉字,但它们的编码并不相同为了既能与UCS/Unicode编码标准接轨,又能保护我国已有的大量汉字信息资源,我国在2000年和2005年两次发布GB18030汉字编码国家标准。GB18030实质上是UCS/Unicode字符集的另一种编码方案:单字节编码(128个)表示ASCII字符双字节编码(23940个)表示汉字,与GBK(以及GB2312)保持向下兼容,GBK不再使用四字节编码(约158万个)用于表示UCS/Unicode中的其他字符GB18030目前已在我国信息处理产品中强制贯彻执行。10/28/202224.(5)GB18030汉字编码标准背景:无论是Unicode的标准名称GB2312GBKGB18030UCS-2(Unicode)字符集6763个汉字(简体字)21003个汉字(包括GB2312汉字在内)近3万汉字(包括GBK汉字和CJK及其扩充中的汉字)包含10万多字符,其中的汉字与GB18030相同编码方法双字节存储和表示,每个字节的最高位均为“1”双字节存储和表示,第1个字节的最高位必为“1”部分双字节、部分4字节表示,双字节表示方案与GBK相同UTF-8采用单字节可变长编码UTF-16采用双字节可变长编码兼容性编码不兼容!小结:几种汉字编码的对比编码保持向下兼容10/28/202225.标准名称GB2312GBKGBUCS-2字符集6763个汉字例:IE浏览网页时文字编码的选择10/28/202226.例:IE浏览网页时文字编码的选择10/22/202226.编码小结GB2312-80GB18030-2000/2005GBK-95CJK汉字字汇兼容兼容UCS/UnicodeISO646(ASCII码)兼容兼容映射10/28/202227.编码小结GB2312-80GB18030-2000/2005.1.2.文本准备

——文稿如何输入计算机

10/28/202228.5.1.2.文本准备

——文稿如何输入计算机文字符号输入计算机的方法键盘输入自动识别输入字符信息的输入人工输入(1)数字编码,如电报码、区位码等,(2)字音编码,如智能ABC等(3)字形编码,如五笔字形和表形码等,(4)形音编码发展趋势:基于统计和学习功能的以词语(短语)或句子作为输入单位的输入方法10/28/202229.文字符号输入计算机的方法键盘输入自动识别输入字符信息的输入人文字符号输入计算机的方法键盘输入联机手写输入自动识别输入字符信息的输入人工输入优点:自然,流畅小型化,适合移动计算不足:识别速度和正确性还需提高书写要求还要降低10/28/202230.文字符号输入计算机的方法键盘输入联机手写输入自动识别输入字符文字符号输入计算机的方法键盘输入联机手写输入语音输入自动识别输入字符信息的输入人工输入优点:自然,方便,适合移动计算不足:对说话人、说话方式、说话内容的适应能力要大大增强识别速度和正确性还需大大提高10/28/202231.文字符号输入计算机的方法键盘输入联机手写输入语音输入自动识别文字符号输入计算机的方法印刷体识别键盘输入联机手写输入语音输入自动识别输入字符信息的输入人工输入扫描仪OCR数字文本纸介质文本文本的映象(image)识别率已达到98%功能:简、繁体字混合识别中文、西文混合识别文字、表格混合识别智能校对功能10/28/202232.文字符号输入计算机的方法印刷体识别键盘输入联机手写输入语音输文字符号输入计算机的方法印刷体识别手写体识别键盘输入联机手写输入语音输入自动识别输入字符信息的输入人工输入技术上非常困难,还无法实用目前准备先突破工整的楷书手写体的识别!10/28/202233.文字符号输入计算机的方法印刷体识别手写体识别键盘输入联机手写5.1.3文本的分类与表示10/28/202234.5.1.3文本的分类与表示10/22/202234.简单文本(纯文本)

本书由南京大学出

B1BECAE9D3C9C4CFBEA9B4F3D1A7B3F6

版社(Publishing

B0E6C9E7285075626C697368696E67

HouseofNanjin

20486F757365206F66204E616E6A696E

gUniversity)出版

6720556E697665727369747929B3F6B0E6

文本的内容文本在计算机中的表示没有字体、字号的变化,不能插入图片、表格,也不能建立超链接,这种文本通常称为纯文本或ASCII文本,在PC机中的文件后缀名是.txt由一串用于表达正文内容的字符编码所组成,几乎不包含任何其他的格式信息和结构信息举例:10/28/202235.简单文本(纯文本)本书有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰富格式文本”丰富格式文本(richtext、fancytext、formattedtext)doc、xls、RTF等多媒体文档(MultimediaDocument)

丰富格式文本10/28/202236.有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰超文本的结构超文本ABCDEFGH10/28/202237.超文本的结构超文本ABCDEFGH10/22/202237.超文本(hypertext)的阅读方式线性文本是顺序式阅读通过链接、跳转、导航、回溯等操作实现跳跃式阅读超链(hyperlink):链源、链宿超链的链宿有两种:书签,指的是文本内部标记有书签的某个地方互联网上的某个信息资源(文件),它用统一资源定位器(URL)指定超文本10/28/202238.超文本(hypertext)的阅读方式超文本10/22/20超文本中的节点不单是文本节点,还包含图形、图像、声音或动画节点,这种基于多媒体信息结点的超文本,有时也称为“超媒体”

超文本的应用Windows等一些软件中的“帮助”文件使用浏览器从Web服务器上下载的网页(html或htm文件)超媒体(Hypermedia)10/28/202239.超文本中的节点不单是文本节点,还包含图形、图像、声音或动画节5.1.4文本编辑、排版与处理10/28/202240.5.1.4文本编辑、排版与处理10/22/202240.复习:使用Word的操作流程创建新文档或打开老文档文稿输入编辑排版文档存盘、打印或发送输入中西文字、符号和图表进行增、删、改操作,保证文本的正确性满足清晰、美观、便于使用等要求10/28/202241.复习:使用Word的操作流程创建新文档或打开老文档文稿输入编目的:确保文本内容正确无误操作:对字、词、句和段落进行添加、删除、修改等操作MSWord的功能:在文本的任何位置都可以插入新的文字从文本的任何位置都可以删除不需要的文字将一段文字从一处移动到另一处将一段文字从一处复制到另一处在文本中自动查找指定的词语用一个词语自动替换文本中指定的词语文本编辑(textediting)10/28/202242.目的:确保文本内容正确无误文本编辑(textediting目的:使文本清晰、美观、便于阅读操作内容:对文本中的字符、段落乃至整篇文章的格式进行设计和调整,分成3个层次:对字符格式进行设置对段落格式进行设置对文档页面进行格式设置文本排版(格式化)10/28/202243.目的:使文本清晰、美观、便于阅读文本排版(格式化)10/22设置字符的格式字号(八号→初号,

5磅→72磅以上)1磅相当于1/72英寸字体(宋体、楷体、黑体、仿宋、隶书···)字符的修饰字符的形状(字形):正常、加粗、倾斜、加粗倾斜字形的修饰:下划线、着重号、上下标、删除线···字符的颜色字符的宽度字符的间距字符的效果字符的排列方向10/28/202244.设置字符的格式字号(八号→初号,5磅→72磅以上)什么是段落?用“回车”相互隔开的一组文字段落格式的设置:段落的对齐方式(两端对齐、分散对齐、居中对齐、左对齐、右对齐)段落的缩进方式(首行缩进、悬挂缩进、左缩进、右缩进)段间距和段内行距使用编号和项目符号段落添加边框和底纹首字下沉或悬挂段落与分页的关系设置段落的格式10/28/202245.什么是段落?用“回车”相互隔开的一组文字设置段落的格式10/控制段落的缩进段落缩进是指段落中的文本到正文区左、右边界的距离,包括段落左缩进、右缩进和首行缩进。其缩进的距离可由水平标尺上对应的三个缩进标记来指示左缩进标记首行缩进标记右缩进标记右缩进左缩进首行缩进正文区右边界正文区左边界悬挂缩进标记10/28/202246.控制段落的缩进段落缩进是指段落中的文本到正文区左、右边界的距页面格式的设置:设置纸张大小和页边距设置每页的行、列数目设置分栏数目与格式设置页码设置页眉和页脚设置页面的格式10/28/202247.页面格式的设置:设置页面的格式10/22/202247设置页面的分栏10/28/202248.设置页面的分栏10/22/202248.“所见即所得”(操作效果屏幕立即可见,打印结果与屏幕所见完全相同)撤销(undo)和恢复(redo)操作格式刷多种视图(大纲视图与大纲编辑)自动更正、自动套用格式、自动编号、自动图文集······自动保存功能和自动备份功能样式、模板和向导(wizard)功能宏操作(Macro)提高Word操作效率的若干措施10/28/202249.“所见即所得”(操作效果屏幕立即可见,打印结果与屏幕所见完全文本处理初步10/28/202250.文本处理初步10/22/202250.使用计算机对文本中的字、词、短语、句子、篇章进行识别、转换、分析、理解、压缩、加密和检索等有关的处理文本处理内容:字数统计,词频统计,简/繁体相互转换,汉字/拼音相互转换词语排序,词语错误检测,文句语法检查自动分词,词性标注,词义辨识,大陆/台湾术语转换关键词提取,文摘自动生成,文本分类文本检索(关键词检索、全文检索),文本过滤文语转换(语音合成),文种转换(机器翻译)篇章理解,自动问答,自动写作等文本压缩,文本加密,文本著作权保护

什么是文本处理?10/28/202251.使用计算机对文本中的字、词、短语、句子、篇章进行识别、转换、例:Word2003的文本处理功能英文拼写检查和英语同义词检查字数统计自动编写摘要中文简繁体转换和术语转换中英词语翻译语法和格式检查语音识别(口授命令和听写)文档保护(防止打开或修改文档)10/28/202252.例:Word2003的文本处理功能英文拼写检查和英语同义词常用文本处理软件(1)面向通信的文本处理软件:

OutlookExpress(2)面向办公的文本处理软件:MSWord,WPS2000(3)面向印刷出版的文本处理软件:“飞腾”排版软件,PageMaker,PDFWriter(4)面向网络信息发布和电子出版的文本处理软件:FrontPage,PDFWriter10/28/202253.常用文本处理软件(1)面向通信的文本处理软件:10/22/5.1.5文本的展现(输出)10/28/202254.5.1.5文本的展现(输出)10/22/202254.文本的展现(阅读、浏览与打印)过程:对文本的格式描述进行解释生成文字和图表的映像(bitmap)传送到显示器或打印机输出2种文本阅读器/浏览器:嵌入在文本编辑(处理)软件中,如微软的Word,独立的软件:如Adobe公司的AcrobatReader,微软公司的IE等。

10/28/202255.文本的展现(阅读、浏览与打印)过程:10/22/202255输出过程中字形的生成

过程:先根据字符的字体确定相应的字型库(font),再按照该字符的代码从字型库中取出该字符的形状描述信息,然后按形状描述信息生成字形,并按照字号大小及有关属性(粗体、斜体、下横线)将字形作必要的变换,最后将变换得到的字形放置在页面的指定位置处。10/28/202256.输出过程中字形的生成过程:10/22/202256.字型库(FONT):简称字库,同一种字体的所有字符(例如GB2312中的7000多字符)的形状描述信息的集合。不同的字体(如宋体、仿宋、楷体、黑体等)对应不同的字库。文本的输出10/28/202257.字型库(FONT):简称字库,同一种字体的所有字符(例如GB输出过程中字形的生成

2种不同的字库:点阵描述轮廓描述10/28/202258.输出过程中字形的生成2种不同的字库:轮廓描述10/22/2汉字库的作用是用于

。A.汉字的存取B.汉字的传输C.汉字的输入D.汉字的显示与打印

在下列汉字编码标准(字符集)中,不支持简化汉字的是

。A.GB2312-80B.GBKC.BIG5D.Unicode24×24点阵的字形码占——字节。A.72B.572

C.24D.36练习10/28/202259.汉字库的作用是用于。练习10/22/20225第5章数字媒体及应用10/28/202260.第5章数字媒体及应用10/22/20221.什么是数字媒体?“媒体”指的是信息的各种表示形式(如数值、文字、图像、声音、视频等)数字媒体就是数值、文字、声音、图像等的二进制数字表示10/28/202261.什么是数字媒体?“媒体”指的是信息的各种表示形式(如数值、文2种不同类型的数字媒体自然媒体(使用数字化方法从现实世界获取的媒体)合成媒体(使用计算机制作的媒体)Model(description)采用特定符号(语言)表示的文本,合成语音,MIDI,图形,动画Modeling(describing)人工交互方式命令语言方式rendering人可以感知的形式声波光波力温度检测与转换器电信号数字化数字自然媒体取样声音,扫描图像,数字视频10/28/202262.2种不同类型的数字媒体自然媒体(使用数字化方法从现实世界获为什么要学习数字媒体?数字媒体是各种计算机应用的处理对象,也是网络的传输对象。不了解“对象”,就不能透彻地理解计算机和网络的工作原理。进一步理解计算机的工作原理更好地理解常用工具软件的操作原理扩大知识面,了解更多的计算机应用为各个专业和学科进一步学习、使用计算机打下必要的基础10/28/202263.为什么要学习数字媒体?数字媒体是各种计算机应用的处理对象,也5.1文本与文本处理10/28/202264.5.1文本与文本处理10/22/20225.什么是文本?文本(text):文字信息在计算机中的表示形式是基于特定字符集的、具有上下文相关性的一个(二进制编码)字符流,是计算机中最常用的一种数字媒体。10/28/202265.什么是文本?文本(text):文字信息在计算机中的表示形文本的处理文本在计算机中的处理过程:文本的准备(例如汉字的输入),文本编辑,文本处理,文本存储与传输、文本展现等,根据应用的不同,各个处理环节的内容和要求可能有很大的差别。10/28/202266.文本的处理文本在计算机中的处理过程:文本的准备(例如汉字的输文本处理其他媒体文本展现(阅读器)文本准备文本处理文本处理软件电子文本文本编辑(编辑器)格式化的电子文本网络传输10/28/202267.文本处理其他媒体文本展现(阅读器)文本准备文本处理文本处理软组成文本的基本元素是字符(character),字符与数值信息一样,在计算机中也采用二进位编码表示。10/28/202268.组成文本的基本元素是字符(chara5.1.1字符的编码10/28/202269.5.1.1字符的编码10/22/202210.字符编码的属性字汇:编码字符集中有哪些字符编码规则:如何确定每个字符的代码码长:字符代码的长度。它决定了代码空间的大小定长码:7位,8位,双字节,4字节可变长码:单-双-4字节码10/28/202270.字符编码的属性字汇:编码字符集中有哪些字符10/22/202复习:西文字符的编码——ASCII码西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号以及一些特殊符号所组成美国标准信息交换码(ASCII码):ASCII字符集包含96个可打印字符和32个控制字符采用7个二进位进行编码计算机中使用1个字节存储1个ASCII字符0XXXXXXX10/28/202271.复习:西文字符的编码——ASCII码西文是表音文字(拼音文字空格(32)20H0(48)30HA(65)41Ha(97)61H回车(13)0DH特殊字符的ASCII码10/28/202272.空格(32)20H特殊字符的ASCII码10/22/20222、汉字编码字符集汉字的特点:数量大(我国汉字自古至今累计已超过7万字,国家语委颁布的“现代汉语通用字表”包含7000汉字)多个国家和地区使用:港台地区,日、韩、朝、新、马等字形复杂,同音字多,异体字多。10/28/202273.2、汉字编码字符集汉字的特点:10/22/202214.常用的汉字编码字符集国家标准GB2312-1980汉字扩充规范GBK-1995国家标准GB18030-2000/2005台湾地区的标准汉字字符集CNS11643(BIG5,俗称“大五码”)日本工业标准汉字字符集JISX0208-90韩国国家标准汉字字符集KSC5601-87UCS/Unicode多文种大字符集10/28/202274.常用的汉字编码字符集国家标准GB2312-198010/22一级汉字(3755个)二级汉字(3008个)(扩充使用)字母、数字和各种符号 ………………19423位号…………191655568794区号(按汉语拼音排列)(按偏旁部首排列)(1)GB2312汉字编码字符集1980年颁布《信息交换用汉字编码字符集·基本集》——GB2312-1980GB2312字符集由三个部分构成:拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个共6763个汉字10/28/202275.字母、数字和各种符号19423位号GB2312汉字的编码每一个GB2312汉字使用16位(2个字节)表示为了与ASCII字符相区别,每个字节的最高位均为“1”例如:“南”字的代码是1100010011001111(用十六进制表示为C4CF)

11第1字节第2字节XXXXXXXXXXXXXX10/28/202276.GB2312汉字的编码每一个GB2312汉字使用16位(2个练习1MB的内存空间可以存放

个GB2312-80的汉字机内码。

A.1024B.512

C.1024×512D.1024×1024设有一串字符的内码为:B5C8BCB6BF3DF1E3,则这串字符中包含

个GB2312-80汉字。10/28/202277.练习1MB的内存空间可以存放个GB2312-8(2)GBK汉字内码扩充规范GB2312的不足:汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整理、古典文献研究等应用的需要;与ASCII码不兼容GBK汉字内码扩充规范(1995):在GB2312基础上,增加了1万多汉字(包括繁体字)和符号共有21003个汉字和883个图形符号,如“計算機”、冃、冄、円、冇等繁体字和生僻字与GB8312保持向下兼容,也使用双字节表示,第1字节最高位必须为“1”:1

X第1字节第2字节XXXXXXXXXXXXXX10/28/202278.(2)GBK汉字内码扩充规范GB2312的不足:1X第1台湾、香港地区使用。注意:GB2312(GBK)与Big5并不兼容。(3)Big5(大五码)10/28/202279.台湾、香港地区使用。(3)Big5(大五码)10/22/20(4)UCS/Unicode多文种大字符集背景:为了实现全球数以千计的不同语言文字的统一编码方案:ISO将全球所有文字字母和符号集中在一个字符集中进行统一编码(目前共收集了17x216=1,114,112个),称为UCS。UCS:ISO/IEC10646UniversalMultiple-OctetCodedCharacterSet,通用多8位编码字符集Unicode:统一码或联合码,微软、IBM等联合制定、与UCS完全等同的工业标准

UCS/Unicode用4个字节对全世界现代书面文字所使用的所有字符、符号进行编码(记作UCS-4)10/28/202280.(4)UCS/Unicode多文种大字符集背景:为了实现全球单字节:ASCII字符双字节:拉丁、希腊、阿拉伯,···三字节:CJK汉字四字节:其他Unicode:UTF-8单字节可变长编码应用:Linux,Web网页,电子邮件双字节:ASCII字符、拉丁、希腊、阿拉伯,常用CJK汉字,···四字节:非常用CJK汉字Unicode:UTF-16双字节可变长编码应用:Windows,Mac,Java,···UCS/Unicode的编码方案先实现部分字符的编码(共107,361个字符)尽量与已有编码标准兼容其中包含有中、日、韩统一整理出来的近3万汉字(称CJK汉字)允许有若干不同的编码方案,例如:10/28/202281.单字节:ASCII字符Unicode:UTF-8单字节可变优点:编码空间极大,能容纳足够多的各种字符集(13亿字符)缺点:4字节的字符编码使存储空间浪费严重克服:在UCS/Unicode编码空间中,把第1和第2字节均为“0”的一个子空间,作为UCS/Unicode的子集来使用,记作UCS-2。UCS/Unicode的优缺点10/28/202282.优点:编码空间极大,能容纳足够多的各种字符集(13亿字符)U(5)GB18030汉字编码标准背景:无论是Unicode的UTF-8还是UTF-16,其CJK汉字字符集虽然覆盖了我国已使用多年的GB2312和GBK标准中的汉字,但它们的编码并不相同为了既能与UCS/Unicode编码标准接轨,又能保护我国已有的大量汉字信息资源,我国在2000年和2005年两次发布GB18030汉字编码国家标准。GB18030实质上是UCS/Unicode字符集的另一种编码方案:单字节编码(128个)表示ASCII字符双字节编码(23940个)表示汉字,与GBK(以及GB2312)保持向下兼容,GBK不再使用四字节编码(约158万个)用于表示UCS/Unicode中的其他字符GB18030目前已在我国信息处理产品中强制贯彻执行。10/28/202283.(5)GB18030汉字编码标准背景:无论是Unicode的标准名称GB2312GBKGB18030UCS-2(Unicode)字符集6763个汉字(简体字)21003个汉字(包括GB2312汉字在内)近3万汉字(包括GBK汉字和CJK及其扩充中的汉字)包含10万多字符,其中的汉字与GB18030相同编码方法双字节存储和表示,每个字节的最高位均为“1”双字节存储和表示,第1个字节的最高位必为“1”部分双字节、部分4字节表示,双字节表示方案与GBK相同UTF-8采用单字节可变长编码UTF-16采用双字节可变长编码兼容性编码不兼容!小结:几种汉字编码的对比编码保持向下兼容10/28/202284.标准名称GB2312GBKGBUCS-2字符集6763个汉字例:IE浏览网页时文字编码的选择10/28/202285.例:IE浏览网页时文字编码的选择10/22/202226.编码小结GB2312-80GB18030-2000/2005GBK-95CJK汉字字汇兼容兼容UCS/UnicodeISO646(ASCII码)兼容兼容映射10/28/202286.编码小结GB2312-80GB18030-2000/2005.1.2.文本准备

——文稿如何输入计算机

10/28/202287.5.1.2.文本准备

——文稿如何输入计算机文字符号输入计算机的方法键盘输入自动识别输入字符信息的输入人工输入(1)数字编码,如电报码、区位码等,(2)字音编码,如智能ABC等(3)字形编码,如五笔字形和表形码等,(4)形音编码发展趋势:基于统计和学习功能的以词语(短语)或句子作为输入单位的输入方法10/28/202288.文字符号输入计算机的方法键盘输入自动识别输入字符信息的输入人文字符号输入计算机的方法键盘输入联机手写输入自动识别输入字符信息的输入人工输入优点:自然,流畅小型化,适合移动计算不足:识别速度和正确性还需提高书写要求还要降低10/28/202289.文字符号输入计算机的方法键盘输入联机手写输入自动识别输入字符文字符号输入计算机的方法键盘输入联机手写输入语音输入自动识别输入字符信息的输入人工输入优点:自然,方便,适合移动计算不足:对说话人、说话方式、说话内容的适应能力要大大增强识别速度和正确性还需大大提高10/28/202290.文字符号输入计算机的方法键盘输入联机手写输入语音输入自动识别文字符号输入计算机的方法印刷体识别键盘输入联机手写输入语音输入自动识别输入字符信息的输入人工输入扫描仪OCR数字文本纸介质文本文本的映象(image)识别率已达到98%功能:简、繁体字混合识别中文、西文混合识别文字、表格混合识别智能校对功能10/28/202291.文字符号输入计算机的方法印刷体识别键盘输入联机手写输入语音输文字符号输入计算机的方法印刷体识别手写体识别键盘输入联机手写输入语音输入自动识别输入字符信息的输入人工输入技术上非常困难,还无法实用目前准备先突破工整的楷书手写体的识别!10/28/202292.文字符号输入计算机的方法印刷体识别手写体识别键盘输入联机手写5.1.3文本的分类与表示10/28/202293.5.1.3文本的分类与表示10/22/202234.简单文本(纯文本)

本书由南京大学出

B1BECAE9D3C9C4CFBEA9B4F3D1A7B3F6

版社(Publishing

B0E6C9E7285075626C697368696E67

HouseofNanjin

20486F757365206F66204E616E6A696E

gUniversity)出版

6720556E697665727369747929B3F6B0E6

文本的内容文本在计算机中的表示没有字体、字号的变化,不能插入图片、表格,也不能建立超链接,这种文本通常称为纯文本或ASCII文本,在PC机中的文件后缀名是.txt由一串用于表达正文内容的字符编码所组成,几乎不包含任何其他的格式信息和结构信息举例:10/28/202294.简单文本(纯文本)本书有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰富格式文本”丰富格式文本(richtext、fancytext、formattedtext)doc、xls、RTF等多媒体文档(MultimediaDocument)

丰富格式文本10/28/202295.有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰超文本的结构超文本ABCDEFGH10/28/202296.超文本的结构超文本ABCDEFGH10/22/202237.超文本(hypertext)的阅读方式线性文本是顺序式阅读通过链接、跳转、导航、回溯等操作实现跳跃式阅读超链(hyperlink):链源、链宿超链的链宿有两种:书签,指的是文本内部标记有书签的某个地方互联网上的某个信息资源(文件),它用统一资源定位器(URL)指定超文本10/28/202297.超文本(hypertext)的阅读方式超文本10/22/20超文本中的节点不单是文本节点,还包含图形、图像、声音或动画节点,这种基于多媒体信息结点的超文本,有时也称为“超媒体”

超文本的应用Windows等一些软件中的“帮助”文件使用浏览器从Web服务器上下载的网页(html或htm文件)超媒体(Hypermedia)10/28/202298.超文本中的节点不单是文本节点,还包含图形、图像、声音或动画节5.1.4文本编辑、排版与处理10/28/202299.5.1.4文本编辑、排版与处理10/22/202240.复习:使用Word的操作流程创建新文档或打开老文档文稿输入编辑排版文档存盘、打印或发送输入中西文字、符号和图表进行增、删、改操作,保证文本的正确性满足清晰、美观、便于使用等要求10/28/2022100.复习:使用Word的操作流程创建新文档或打开老文档文稿输入编目的:确保文本内容正确无误操作:对字、词、句和段落进行添加、删除、修改等操作MSWord的功能:在文本的任何位置都可以插入新的文字从文本的任何位置都可以删除不需要的文字将一段文字从一处移动到另一处将一段文字从一处复制到另一处在文本中自动查找指定的词语用一个词语自动替换文本中指定的词语文本编辑(textediting)10/28/2022101.目的:确保文本内容正确无误文本编辑(textediting目的:使文本清晰、美观、便于阅读操作内容:对文本中的字符、段落乃至整篇文章的格式进行设计和调整,分成3个层次:对字符格式进行设置对段落格式进行设置对文档页面进行格式设置文本排版(格式化)10/28/2022102.目的:使文本清晰、美观、便于阅读文本排版(格式化)10/22设置字符的格式字号(八号→初号,

5磅→72磅以上)1磅相当于1/72英寸字体(宋体、楷体、黑体、仿宋、隶书···)字符的修饰字符的形状(字形):正常、加粗、倾斜、加粗倾斜字形的修饰:下划线、着重号、上下标、删除线···字符的颜色字符的宽度字符的间距字符的效果字符的排列方向10/28/2022103.设置字符的格式字号(八号→初号,5磅→72磅以上)什么是段落?用“回车”相互隔开的一组文字段落格式的设置:段落的对齐方式(两端对齐、分散对齐、居中对齐、左对齐、右对齐)段落的缩进方式(首行缩进、悬挂缩进、左缩进、右缩进)段间距和段内行距使用编号和项目符号段落添加边框和底纹首字下沉或悬挂段落与分页的关系设置段落的格式10/28/2022104.什么是段落?用“回车”相互隔开的一组文字设置段落的格式10/控制段落的缩进段落缩进是指段落中的文本到正文区左、右边界的距离,包括段落左缩进、右缩进和首行缩进。其缩进的距离可由水平标尺上对应的三个缩进标记来指示左缩进标记首行缩进标记右缩进标记右缩进左缩进首行缩进正文区右边界正文区左边界悬挂缩进标记10/28/2022105.控制段落的缩进段落缩进是指段落中的文本到正文区左、右边界的距页面格式的设置:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论