第五章数字媒体及应用转第5 5 1与处理_第1页
第五章数字媒体及应用转第5 5 1与处理_第2页
第五章数字媒体及应用转第5 5 1与处理_第3页
第五章数字媒体及应用转第5 5 1与处理_第4页
第五章数字媒体及应用转第5 5 1与处理_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章数字媒体及应用文本与文本处理图像与图形数字声音及应用数字视频及应用5.1

文本与文本处理字符的编码文本准备文本编辑、排版与处理文本的展现5.1.3

文本的分类与表示5.1.1.

字符在计算机中的表示字符、字符集及其码表文字的基本元素是字母和符号,统称为“字符”(character),它包括:字母、数字、符号等字符集:一组特定字符的集合不同的字符集包含的字符数目与内容不同,如:中文字符集、西文字符集、日文字符集等字符的编码:字符集中每个字符都使用二进位(code)表示,称为该字符的编码不同的字符其编码各不相同字符集中所有字符的编码的一览表,称为该字符集的码表西文字符的编码——ASCII码西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号以及一些特殊符号所组成美国标准信息交换码(American

Standard

Code

forInformation

Interchange,简称ASCII码):ASCII字符集包含96个可打印字符和32个控制字符采用7个二进位进行编码计算机中使用1个字节存储1个ASCII

字符存在问题:7位代码空间太小(解决方案:8位的扩充ASCII码)不同国家和地区使用不同的字符集及其编码,互不兼容东亚地区使用的大字符集无法编码标准ASCII字符集及其码表b6

b5

b4

b3

b2

b1

b0b3b2b1b00

1

2

3

4

5

6

7

8

9

A

B

C

D

E

Fb6b5b40123456710100110101常用的汉字编码字符集国家标准GB2312-80汉字扩充规范GBK国家标准GB18030台湾地区的标准汉字字符编码BIG5(俗称“大五码”)………………1

2

3

94…………191655568794区

号字母、数字和各种符号一级汉字(3755个)(按汉语拼音排列)二级汉字(3008个)(按偏旁部首排列)(扩充使用)GB2312汉字编码字符集1980年颁布《信息交换用汉字编码字符集·基本集》——GB2312-1980GB2312字符集由三个部分构成:位号拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个共6763个汉字和

682个符号,每个汉字或符号都有一个确定位置,该位置的区号和位号就是这个汉字的“区位码”GB2312汉字的编码每一个GB2312汉字使用16位(2个字节)表示第1节每个字节的最高位均为“1”在16位代码空间中的码位分布:第2字节00

7E

A1

FE0081字A1FEGB2312图形符号汉字代码空间(6763个汉字)B0F716位的代码空间共有216

=65536个码位GB2312汉字编码的不足之处GB2312汉字字数太少,无法满足一些特殊应用的需要:人名、地名;古籍整理、古典文献研究。没有繁体字编码效率不高:(6763+682)/65536与ASCII码不兼容几种汉字编码的对比GB2312GBKGB18030UCS-2(Unicode)6763个汉字(简体字)21003个汉字(包括GB2312汉27

000多汉字(包括GBK汉字和CJK2万多汉字字在内)及其扩充中的汉字)双字节存

储和表示,每个字节双字节存储和表示,第

1个字节的部分双字节、部分4字节表示(UTF-8编码)1字节、2字节、3字节的最高位均为“1”最高位必为

“1”等不等长编码编码不兼容!保持向下兼容00FF00FFGBK20902汉字FF0000FFGB23126763汉字00FF00FF27484汉字GB180305.1.2.

文本准备——文稿如何输入计算机文字符号输入计算机的方法印刷体识别手写体识别键盘输入联机手写输入语音输入自动识别输入字符信息的输入人工输入–技术上非常困难,还无法实用–目前准备先突破工整的楷书手写体的识别!汉字的键盘输入汉字与键盘上的键无法一一对应,因此必须使用几个键来表示一个汉字,这就称为汉字的“键盘输入编码”优秀的汉字键盘输入编码应具有的特点:易学习、易记忆效率高(平均击键次数较少)重码少容量大(可输入的汉字字数多)汉字键盘输入方法的比较类型原理举例优点缺点数字编码使用一串数字来表示汉字电报码区位码仅使用10个数字键难记忆字音编码把汉语的拼音作为汉字的输入编码智能ABC紫光微软拼音输入简单易学,适合于非专业人员重码多,需增加选择操作,不会汉语拼音或不知道读音时无法使用字形编码把汉字的部件或笔画作为码元,按照汉字结构五笔字形表形码重码少、输入速度较快,适缺乏统一的规范,编码规则不易掌握及其切分规则作为编码郑码合于专业录入依据,确定每个汉字的员、打字员使输入代码用音形采用字音及字形两种属粤音输入法同上同时要掌握音、形两种编码(或形音编码)性作为码元的汉字编码输入方法取码方法或规则,对普通用户比较困难5.1.3

文本的分类与表示简单文本(纯文本)(

P

u

b

l

i

s

h

i

n28

50

75

62

6C

69

73

6869

6E

67本

出B1

BE CA

E9 D3

C9 C4

CF BE

A9 B4

F3 D1

A7

B3F6版

gB0

E6 C9

E7Ho

u

s

e

o

f

N

a

n

j

i

n20

48

6F

75

73

65

20

6F

66

20

4E

61

6E

6A

69

6Eg

U

n

i

v

e

r

s

i

t

y

)

版67

20

55

6E

69

76

65

72

73

69

74

79

29

B3

F6

B0

E6文本的内容文本在计算机中的表示没有字体、字号的变化,不能插入图片、表格,也不能建立超链接,其文件后缀名是.txt由一串用于表达正文内容的字符编码所组成,几乎不包含任何其他的格式信息和结构信息举例:丰富格式文本有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰富格式文本”丰富格式文本中,除了正文内容之外,还使用了许多“标记”来描述字符的属性和格式的设置。举例:下面标题的格式为:中文用黑体,西文用Arial

Black体,居中本书由南京大学出版社(Publishing

House

of

Nanjing

University)出版使用HTML语言描述为:<p

align="center"><font

face="黑体">本书由南京大学出版社</font><font

face="Arial

Black">(Publishing

House

of

NanjingUniversity)</font><font

face="黑体">出版</font></p>用一对<>指出的是标记,如<font

face=“黑体”>和</font>等,用于说明排版的格式和文字属性,它们不属于正文内容正文内容超文本若干文本或文本中的各个部分可按照其内容的关系互相链接起来,从而形成“超文本”A

B

C

DEFGHa1a2b2f1d1c1c2b1e1g1h1a3“超链”实际上就是一个指针,用于指向其他文本块,也可以指向同一文本块中的其他部分超链是有向的,起点位置

称为链源,它可以是文本

块中的一个标题、一句句

子、一个关键词、一幅画、一个图标等文本块可以是一个网页,一个文档,一段文字,也可以是一张图片,甚至一段声音或视频小结:文本的分类文本类型特点在计算机内的表示文件扩展名用途没有字体、字号和版由一连串与正文内容对应.txt网上聊天简单面格式的变化,文本的字符的编码所组成,几短信文本在页面上逐行排列,也不含图片和表格乎不包含任何其他的格式信息和结构信息文字录入OCR输入丰富格式文本

(线性文本)有字体、字号、颜色等变化,文本在页面上可以自由定位和布局,还可插入图片和表格除了与正文对应的字符编码之外,还使用某种“标记语言”所规定的一些标记来说明该文本的文字属性和排版格式等.doc.rtf.htm.html.pdf公文论文书稿网页丰富格式文本

(超文本)除上述特征外,文本中还含有超链,使文本呈现为一种网状结构同上,但还应包含用于指出“链源”和“链宿”的标记.doc.rtf.htm.html.pdf.hlp同上,以及软件的联机文档

(帮助文件)5.1.4

文本的编辑与排版复习:使用Word的操作流程创建新文档或打开老文档文稿输入编辑排版文档存盘、打印或发送输入中西文字、符号和图表进行增、删、改操作,保证文本的正确性满足清晰、美观、便于使用等要求目的:确保文本内容正确无误操作:对字、词、句和段落进行添加、删除、修改等操作MS

Word的功能:在文本的任何位置都可以插入新的文字从文本的任何位置都可以删除不需要的文字将一段文字从一处移动到另一处将一段文字从一处复制到另一处在文本中自动查找指定的词语用一个词语自动替换文本中指定的词语文本编辑(text

editing)目的:使文本清晰、美观、便于阅读操作内容:对文本中的字符、段落乃至整篇文章的格式进行设计和调整,分成3个层次:对字符格式进行设置对段落格式进行设置对文档页面进行格式设置文本排版(格式化)设置字符的格式字号(八号→初号,5磅→72磅以上)1磅相当于1/72英寸字体(宋体、楷体、黑体、仿宋、隶书···)字符的修饰字符的形状(字形):正常、加粗、倾斜、加粗倾斜字形的修饰:下划线、着重号、上下标、删除线···字符的颜色字符的宽度字符的间距字符的效果字符的排列方向Demo1什么是段落?用“回车”相互隔开的一组文字段落格式的设置:段落的对齐方式(两端对齐、分散对齐、居中对齐、左对齐、右对齐)段落的缩进方式(首行缩进、悬挂缩进、左缩进、右缩进)段间距和段内行距使用编号和项目符号段落添加边框和底纹首字下沉或悬挂段落与分页的关系设置段落的格式Demo2控制段落的缩进段落缩进是指段落中的文本到正文区左、右边界的距离,包括段落左缩进、右缩进和首行缩进。其缩进的距离可

由水平标尺上对应的三个缩进标记来指示左缩进标记首行缩进标记右缩进标记右缩进左缩进首行缩进正文区右边界正文区左边界悬挂缩进标记页面格式的设置:设置纸张大小和页边距设置每页的行、列数目设置分栏数目与格式设置页码设置页眉和页脚设置页面的格式设置页面的分栏“所见即所得”(操作效果立即可见,且打印结果与屏幕所见相同)撤销(undo)和恢复(redo)操作格式刷多种视图(大纲视图与大纲编辑)自动更正、自动套用格式、自动编号、自动图文集······自动保存功能和自动备份功能样式、模板和向导(wizard)功能宏操作(Macro)提高操作效率的若干措施文本处理初步使用计算机对文本中的字、词、短语、句子、篇章进行识别、转换、分析、理解、压缩、加密和检索等有关的处理文本处理内容:字数统计,词频统计,简/繁体相互转换,汉字/拼音相互转换词语排序,词语错误检测,文句语法检查自动分词,词性标注,词义辨识,大陆/台湾术语转换关键词提取,文摘自动生成,文本分类文本检索(关键词检索、全文检索),文本过滤文语转换(语音合成),文种转换(机器翻译)篇章理解,自动问答,自动写作等文本压缩,文本加密,文本著作权保护什么是文本处理?5.1.5

文本的展现(输出)文本的展现(输出)目的:阅读、浏览或打印文本使用的软件:文本阅读器/文本浏览器嵌入在文本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论