第一章计算机中文信息处理技术概述_第1页
第一章计算机中文信息处理技术概述_第2页
第一章计算机中文信息处理技术概述_第3页
第一章计算机中文信息处理技术概述_第4页
第一章计算机中文信息处理技术概述_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章 中文信息处理概述1 绪 言o1.1什么是信息n控制论创始人维纳(Norbert Wiener)认为,信息既不是物质也不是能量,是人类在适应外部世界时以及在感知外部世界而作出协调时与外部环境交换内容的总称。n信息论奠基者香农Clause Shannon认为,信息就是能够用来消除不确定性的东西,是一个事件发生概率的对数的负值。该论述第一次阐明了信息的功能和用途。 什么是信息(续) Information may be defined as the characteristics of the output of a process, these being informative abou

2、t the process and the input . -Robert M. Losee 信息是过程输出的特征,这些特征就是输入和处理过程中产生的信息。换句话说,信息可以理解为由过程所生产的特征值或变量。该特征值或变量是代表了输入和过程的信息。 1.2 什么是信息处理o信息处理就是对信息的接收、存储、转化、传送信息处理就是对信息的接收、存储、转化、传送和发布等。和发布等。 n信息的接收包括信息的感知、信息的测量、信息的信息的接收包括信息的感知、信息的测量、信息的识别、信息的获取以及信息的输入等;识别、信息的获取以及信息的输入等;n信息的存储就是把接收到的信息或转换、传送或发信息的存储就是把

3、接收到的信息或转换、传送或发布中间的信息通过存储设备进行缓冲、保存、备份布中间的信息通过存储设备进行缓冲、保存、备份等处理;等处理;n信息转化就是把信息根据人们的特定需要进行分类、信息转化就是把信息根据人们的特定需要进行分类、计算、分析、检索、管理和综合等处理;计算、分析、检索、管理和综合等处理;n信息的传送把信息通过计算机内部的指令或计算机信息的传送把信息通过计算机内部的指令或计算机之间构成的网络从一地传送到另外一地;之间构成的网络从一地传送到另外一地;n信息的发布就是把信息通过各种表示形式展示出来信息的发布就是把信息通过各种表示形式展示出来 1.3 什么是中文信息处理o从广义来说,由我们祖

4、先创立中文开始,就一直在进行;o从狭义来说,从第一部中文字典产生以来,就一直在进行中文信息的分析和综合处理 三、 什么是中文信息处理n计算机中文信息处理:研究我国语言文字语言文字的信息处理问题的应用技术,是为了使汉语言文字适应信息社会的需要,在七十年代才发展起来的多学科交叉多学科交叉的综合性学科,它是一种以计算机计算机为主要工具,以语言文字为处理对象的高新技术。n计算机本地化的主要途径1.4中文信息处理的途径o计算机的中文化n通过改造计算机使它适合中文信息的处理o中文的计算机化n通过改造我国的文字,使它适合计算机的处理1.5 中文信息处理和汉字信息处理o中文包括我国各民族使用的各种文字。o汉字

5、在中文中处于主导地位。o中文信息处理包括汉字信息处理。1.6 中文信息处理的必要性o人类社会进入了信息社会o信息的量日益膨胀o人工方法处理信息在目前是很困难的o计算机为进行大量的信息处理提高了可能o我国以中文为信息的主要表示形式o计算机必须要能处理中文o计算机的本地化需要中文信息处理技术o只有计算机的本地化,信息的计算机处理才能在我国推广应用o自然语言处理是计算机技术发展的必然方向1.7 中文信息处理的发展o50年代,103、104计算机的俄汉翻译o60年代,汉字电报译码机o70年代,我国才系统地研究中文信息处理o80年代,中文信息处理的基础研究蓬勃发展o90年代,中文信息处理得到广泛应用o2

6、1世纪,中文信息处理存在挑战和机遇1.8 中文信息处理系统的组成o硬件n计算机硬件n字库n输入设备n输出设备o软件n系统软件n应用软件1.9 中文信息处理的内容o中文信息处理系统o中文应用软件o自然语言理解o机器翻译o自动文摘o文本分类 o信息检索、抽取和过滤o基础研究l自然输入l字库l输入法l内码lInternet的本地化l中文嵌入系统l电子照排 1.10 国际化和本地化o国家标准和国际标准o不同字符集问题o简繁问题o操作系统问题o如何过渡?1.11 电子消费设备的中文化o中文嵌入式操作系统o字形、字库o字库压缩o汉字输入2 汉字的属性及其特点o字汇o字形o字频o字音o字义o词汇2.1字汇o

7、所谓字汇就是指汉字的集合,字汇量与计算机对文字处理的方式有很大关系甲骨文3000余个东汉许慎说文解字9353个清代张玉书康熙字典49030个2.1字汇(续)o1952年,教育部公布了常用字表,其中收录了汉字2000个(包括500个补充用字);o1955年,中国文字改革委员会公布了通用字表(初稿),收录汉字5709个;o1965年修订后的印刷通用汉字字形表,收录汉字6196个;o1988年公布的现代汉语通用字表收录汉字7000个;o对300万字语料的检测结果:2500个常用字的覆盖率为97.97%,1000个常用字的覆盖率为1.51%,3500字合计覆盖率达到99.48%。 2.1字汇(续)o随

8、着汉字文化和历史的演变,有些字出现了很多异体字,很多字成为“死字”而不再使用2.1字汇(续)o70年代末,我国专门成立专家组,确定了计算机中汉字的字符集,其中最常用的是GB2312一级汉字3755个二级汉字3008个o辅助集包含16000余个汉字o事实证明这个字符集收录的汉字有很多不合理的地方人名、地面用字少 旻(min)喆(zhe)赟(yun)动物名用字多 鹱 鹛 鸸 鼍oISO10646-2001定义了5万多个汉字 2.1字汇(续)龖龘鼄2.2字形o汉字是象形文字,其每个字符都具有特定的形状和构造,这是其与各种拼音文字的最大区别o目前对汉字字形的分解方法和分解标准尚未统一,现在的字形分解方

9、法大体上可以分为单字、字根、笔画(笔形)和形素四个层次2.2字形(续)o单字单字分成多种结构类型,大体上可以分为独体型、上下结构型、左右结构型和内外结合型四种如果对单字结构进行更精细的划分,可以分为如下十二种:2.2字形(续)左 右“ 朋 ”左 中 右“彻”上 下“ 吕 ”上 中 下“意”全 包 围“ 国 ”右 开 口“区”上 开 口“ 函 ”下 开 口“向”左下开口“句”右上开口“达”右 下 开 口“ 库 ”重 叠“巫”2.2字形(续)o字根字根是组成单字的基本结构单元,它本身由笔画组成。它的基本要求是组字能力强,组成的单字字形匀称o目前实际常用的字根为100-300个o一般常用的偏旁部首都

10、被选择为字根o字根的划分不是绝对的,目前还没有相关的强制性标准,只有指导性标准例如:土旦王2.2字形(续)o笔画(笔形)齉爨 龘 36画 30画 48画 o每一次从落笔到提笔,便构成一个笔画o一个笔画所形成的轨迹就是笔形2.2字形(续)o汉字常用的笔形有五种横、竖、撇、捺、折o各种笔形在汉字中使用的频度为:横28%竖18%撇15%捺13%折17%其他19%札2.2字形(续)o汉字笔画数最少的仅1画多的可达30余画少数可达60画以上平均每字约11画2.3字频o汉字有五、六万个,一般的人仅掌握三千到五千个常用汉字,不会出现文字交流的障碍吗?o统计结果表明使用频度最高的164个汉字占汉字使用频度的5

11、0%1000个汉字占汉字使用频度的90.4%2500个汉字占汉字使用频度的97.97%?个汉字占汉字使用频度的99.00%2.3字频(续)政治文化新闻科技综合编号字频度字频度字频度字频度字频度1的0.0536的0.0324的0.0375的0.0320的0.03842是0.0165一0.0218一0.0132一0.0097一0.01253一0.0136了0.0196了0.0120在0.0092是0.00984在0.0115不0.0165和0.0086用0.0079在0.00955这0.0109是0.0141在0.0086有0.0073了0.00826主0.0108说0.0130人0.0083是0

12、.0070不0.00817不0.0101他0.0130大0.0083不0.0069和0.00758和0.0098这0.0119主0.0083中0.0066有0.00692.3字频(续)o字频有明显的局部性字频统计的结果与字频统计时使用的文本的性质有关o字频也有一定的时间性在不同的历史时期同一历史时期的不同阶段,某些特定字的使用频度可能会出现较大的波动例如:镕2.4字音o汉字是单音节文字o早期汉字读音标记法:直音、反切和注音字符。n直音法是用一个汉字给另一个汉字注音,例如。“厶,音司”。n反切法是用两个汉字给另外一个汉字注音,如“鲁,郎古切”,“浪”是反切上上字,与被注音字“鲁”的声母相同,“古

13、”是反切下字,与被注音字“鲁”的韵母和声调相同。n注音字符包括了注音符号和拼音符号。注音符号创建于五四运动前后,它对汉字注音和推广国语起到很好的作用。目前台湾地区还在继续使用。汉字注音法也有多种,包括:威妥玛式方案、国语罗马字拼音法、北方话拉丁化新文字和汉语拼音方案等。2.4字音(续)o汉语拼音方案是20世纪50年代制定出来的一个汉字标音系统。它用26个西文字母作为拼音字母,用21个声母、35个韵母、4声调以及1个隔音符来记录汉语和标注汉字。2.4字音(续)o绝大多数的汉字音节由一个辅音音素和一个(或多个)元音音素构成o现代汉语有417个基本音节o加上阴平、阳平、上声、去声、轻声五个声调,共有

14、约1330个音节2.4字音(续)o六万多个汉字一共1330种读音,所以,汉语中同音字是很多的o就GB2312收录的6763个汉字而言没有同音字的读音有25个如:佛给能您耨暖日森僧贼抓同音字最多的读音是yi4(55个)o由于一般的人掌握一千多个常用汉字是没有困难的,所以,出现了用常用字注音的方法,非常实用。例如:赟同晕或赟同云(阴平)2.4字音(续)o在汉语中除了一音多字现象以外,还有一字多音的现象o就GB2312收录的6763个汉字而言其中多音字有866个,占12.8%2.5字义o字义是汉字属性中最复杂的属性,对字义很难做客观的量化o汉字原来是一种望文生义的文字,汉字的形与义之间有着千丝万缕的

15、联系2.5字义(续)o现在一个汉字并不只是一个字义,据统计,一个汉字平均约有四个字义。所以,现代汉语中汉字的表义能力明显下降,尤其是简化汉字車-车o汉字的字义往往和上下文环境密切相关,由此上升为语义跑(跑步)(逃跑)o汉字的字义还会影响汉字的读音翟(zhai2)(di2)2.6词汇o词汇是语言中所有的词和短语的总和。词是由语素构成,是句子中最小的能够独立运用的语言单位。 o单音节语素在书面上用单个的汉字书写。o古汉语中由一个单音节语素构成的词占绝对优势,所以书面上基本一个汉字也就是一个词(只有极少数连绵词例外)。这就形成了汉字连篇书写的传统。 o20世纪20年代开始,文章开始分段,并使用新式标

16、点符号,不再连篇书写,基本上为按句连写。 2.6 词汇(续)o汉语中的词有词根和词缀n词根是指意义实在、在合成内的位置不固定的粘着语素和自由语素;p自由语素则是指能够独立成词的语素,例如:“水、木、金、心、火”等。自由语素能够单独成词,也可以与其他语素组合成词p粘着语素是指不能单独构成词的语素,例如:“民、伟、丰、型”等。粘着语素必须跟别的语素组成词。n词缀是指意义不实在、在合成词内位置固定在前或后的粘着语素。n例如,“筷子”中的“筷”是词根语素,“子”是词缀语素。2.6 词汇(续)o汉语中由一个语素构成的词叫做单纯词,由两个或两个以上语素构成的词称为合成词。 o单纯词n包含一个语素构成的词(

17、例如,“人、走、红、天”等)n双音节连绵词(例如,“鸳鸯、垃圾、葡萄、琳琅、吩咐”等)n音译词(例如,“沙发、咖啡、巧克力、巴黎、逻辑”等)n译自少数民族的地名(例如,“哈尔滨、呼和浩特、吐鲁番”等)。 2.6 词汇(续)o合成词包括三类:重叠、附加和复合n重叠式重叠式的词是由两个相同的词根相叠构成的词,例如:哥哥、姐姐、刚刚、星星、整整齐齐等;n附加式附加式的词是由词根和词缀构成。词缀在词根之前称为前缀,在词根之后则称后缀,p,前加式(前缀+词根):老虎、老乡,阿姨、阿毛,微处理器、微笑p后加式(词根+后缀):刀子、饼子、胖子、桌子,石头、木头、苦头,作者、读者、科技工作者、唯物主义者,芦花

18、、规范化、现代化n复合式复合式词是由两个或两个以上词根成分组成的附加式合成词。汉语复合词的内部结构基本上是和句法结构一致的,有主谓、述宾、补充、偏正、联合等,例如,年轻、民主、自动,司机、站岗、美容,提供、推广、改进,气功、腾飞、火红,体制、开关、质量,等等。2.7 语境o语境是语言单位出现时的环境。一般分为上下文语境和情景语境。o词、短语、句子等在文本中出现时,它前面或后面出现的其他语言单位都是该单位的上下文语境。o“上下文”是一个宽泛的概念,在一段话或一篇文章中凡出现在某语言单位之前的词、短语、句子等都是该语言单位的上文,出现在其后的都是其下文。 2.8计算机中文信息处理的特点 o解决汉字信息在计算内部的表示问题。有了机器内部表示方法,才能使汉字信息在计算机内进行相应的处理。o由于汉字自身的特点,不可能一次把现有的汉字和将来出现的汉字全部收录在机器内部(实际上也不可能),因此

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论