《中文信息处》PPT课件.ppt_第1页
《中文信息处》PPT课件.ppt_第2页
《中文信息处》PPT课件.ppt_第3页
《中文信息处》PPT课件.ppt_第4页
《中文信息处》PPT课件.ppt_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,第五章 中文信息处理,概 述,一、中文信息处理,计算机科学技术百科全书(清华大学出版社,1998) 中文信息处理是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。 中文信息处理分为汉字信息处理与汉语信息处理两部分 中文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。,参考文献,中文信息处理技术原理与应用,李宝安等,清华大学出版社,2005年7月第1版 中文信息处理技术教程,朱巧明,清华大学出版社,2005年版 计算语言学概论,俞士汶主编,商务印书馆,2003年9月第1版 计算语言学,刘颖,清华大学出版社,2002年版 中国语言文字网/,中文信息处理,中文信息处理分为汉字信息处理与汉语信息处理两部分 信息的两个层次: 符号层 中文 / 汉语 / 汉字 内容层 符号所承载的意义 中文信息处理的两个层次: 字符处理(输入、存储、输出等) 内容处理(词语切分,词性标注,结构分析,意义理解,推理,翻译等等),符号层的信息处理,拼音文字:小字符集 比较容易 非拼音文字:大字符集 难度很大,汉字是一个大字符集 说文解字(东汉):9353字 玉篇(南朝)收录16,917字 广韵(宋代)收字26,194字 字汇(明朝)收录33,197字 康熙字典(清朝)收录47,043字 汉语大字典(1992年)5.6万 中华字海( 1994年) 8.6万,拉丁字母只有26个符号 斯拉夫字母只有33个符号 阿尔明尼亚字母只有38个符号 泰米尔字母只有36个符号 缅甸字母只有52个符号 泰文字母只有44个符号 老挝字母只有27个符号 藏文字母只有35个符号 韩文字母只有24个符号 日文假名只有48个符号,符号层的信息处理,汉字输入,自动输入,键盘输入,字形识别,声音识别,手写体识别,印刷体识别,在线手写,脱机手写,整字键盘,通用键盘,主辅式,感应式,形码,音码,形音结合码,1,2,3,4,5,6,7,8,9,内容层的信息处理,机器翻译全过程,中文信息处理的现状和发展趋势,现状 符号层的处理成果已经得到广泛应用; 中文输入/字库/字处理软件/排版/ 内容层的处理目前在词语识别和词性标注方面已经取得重要进展,句子结构分析和语义分析方面仍有待探索,二、文字信息处理的基本问题,文字信息的计算机处理过程 要用计算机来处理文字,必须解决如何把文字输入计算机并在计算机中存储起来,进行适当处理之后再输出文字等问题。,文字信息的输入 文字信息的处理 文字信息的输出,二、文字信息处理的基本问题,文字信息处理的实质,是先把文字信息数字化,即用一个固定的数码代表一个字母或文字。 在英文信息中,以26个字母作为文字信息处理的单位,因此要对26个字母逐个地确定代替它的数码。 汉字一般是以一个整字作为文字信息处理的单位,因此要对每一个整字惟一地确定代表它的数码。 这一数码统称为代码(code) 在计算机内部处理文字信息时,就像处理数据一样对待。处理完毕后,再把替代的数码还原成相应的字母或文字。利用计算机能够调整处理数据的性能,使文字信息处理也能够分享计算机技术的这一独特优点,从而实现文字信息处理的高效化。,二、文字信息处理的基本问题,英文字符的编码标准是ASCII码,即美国信息交换标准代码。这是七位的二进制代码,它是美国国家标准学会(ANSI)为计算机的信息交换提出的标准,后来由国际标准组织(ISO)确定为国际标准字符编码。 为了和国际标准兼容,我国根据它制定了英文字符编码国家标准,即GB1988。其中除了将货币符号置换为人民币符号外,其他都与ASCII码相同。,计算机的键盘原本就是为英文输入设计的,只要按照字母击键,就可以输入英文。键盘的译码电路按照所击的键产生英文字符的ASCII码,输入到计算机的内存中。 经过编辑的文本仍然以ASCII码表示。输出时,这些代码必须转换成字符字形的点阵,以便显示或打印。因此,计算机必须存储每个英文字符、数码以及标点符号的点阵信息。这些点阵信息构成了所谓“字模库”。字模库的点阵以有点或无点来表示文字和符号。 汉字信息的计算机处理过程与英文信息处理过程是类似的。不过,由于汉字信息的特点,以及要考虑与英文信息处理系统兼容等问题,处理的难度更大。我国经过多年的研究,汉字处理的基本问题已经解决。,汉字信息处理的基本问题,三、中文信息处理主要研究对象,基础研究:汉字字频统计、词频统计、汉语自动分词、句法属性研究、汉字编码字符集、通用汉字样本库、汉字属性字典、语料库等 输入技术:中文输入法、中文手写输入、中文语音输入、光学字符识别等。 输出技术:汉字字模技术(字体库)、汉字激光照排、汉语语音合成、动态组字等。 外字处理:动态组字、造字、电子书等。 存储技术:汉字库标准中文、字符编码等。 转换技术:繁简转换等,三、中文信息处理主要研究对象,信息处理:中文情报检索、中文文本校对、机器翻译、自然语言理解、中文人机界面、语义网、电子字典、电脑辅助翻译等 中文化:软件的国际化(internationalization)和本土化(localization)。 中文编程:目前有两种发展,一种是英文coding直接翻译,以降低开发人员的语言学习成本;一种是根据中文特点,发展出融合中国人思维模式的新的计算机语言。,为了用0、1代码串表示汉字,在汉字系统或通信系统之间交换信息,必须给每个汉字规定一个统一的代码。这就是汉字的交换码。 1981年5月,我国国家标准总局颁布信息交换用汉字编码字符集(GB 2312-80),作为汉字交换码编码的国家标准,简称国家标准汉字编码,或国标码。 收进该标准的字符共有7 445个。其中一级汉字3 755个,二级汉字3 008个,共计6 763个。一、二级汉字约占近代文献汉字累计使用频度的99.99%。 为便于查找,一级汉字按汉语拼音顺序排列;二级汉字一般不易熟记它们的发音,故按部首和笔画排列。另外还包括常用符号、序号、GB 1988图形字符集、日文假名、希腊字母、俄文字母、汉语拼音、注音字符、制表符号等。,四、汉字编码标准,累计使用频度不足0.001%的汉字数量接近1万个。为了满足计算机实际应用的需要,我国在GB 2312-80的基础上扩大收字的范围,制定了“汉字内码规范”GBK,包含了20 902个汉字,又称为扩展的国标码。在Windows 95/98和其后的Windows 2000中,装入了GBK的全部汉字和符合GBK和GB 2312-80的输入法。 由于汉字的字符多,一个字节八位二进制代码不足以表示所有的常用的汉字。为了不与西文的ASCII 码混淆,在微型机汉字系统中,国标码的每个符号都用两个字节(十六位)代码来表示,并作为转换为机内码或其他汉字处理代码的依据。,汉字编码标准,汉字国标码就是GB 2312-80为汉字规定的代码,也称为交换码。 国标码是汉字编码的国家标准。在GB 2312-80代码表中,纵向分为093,共94行;横向也是093,共94列。行与列分别用七位二进制码表示,第一字节表示行,第二字节表示列。其值都从0100001到1111110。这正是ASCII 码的可打印字符的编码。其范围为十六进制的217E。汉字国标码是将第一字节和第二字节连写而得到的。由于二进制形式太长,通常用十六进制表示。 例如: 汉字 第一字节 第二字节 十六进制 区位码 啊 0110000 0100001 3021 1601 保 0110001 0100011 3123 1703 播 0110010 0100101 3225 1805,国标码,国标码还可以表示成区位码的形式。在GB2312-80代码表中,将行号称为区号,列号称为位号,分别有94个区和94个位。将汉字置于其中,由区号与位号标识出汉字在代码表中的位置。 区号与位号都用两位十进制数表示,不足两位的前面补零。每个汉字或符号的区号和位号连起来就组成这个汉字或符号的区位码。 这样,每个汉字或其他符号都可以用位十进制数表示。因此,区位码可以用来作为汉字输入的编码。,区位码,区位码,在区位码表中,19区为字母、数字、特殊图形符号等;1015区是未定义的空区;1655区为一级汉字区;5687区为二级汉字区。例如,“啊”字的区位码是1601,“保”字的区位码是1703,“播”字的区位码是1805,等等。 区位码与国标码之间有一定的对应关系: 将区位码的区号和位号分别由十进制转换成对应的十六进制数,然后加上十六进制数2020H(H表示2020为十六进制数码),就得到对应的国标码。例如,“啊”字的区位码是1601,分别将区号和位号转换成对应的十六进制数得1001H,再加上2020H就得到“啊”字的国标码为3021H。,汉字机内码是在计算机内部实际用来表示汉字的代码。不同的计算机系统使用的机内码是不同的。在微型机中,多采用两字节代码作为机内码。在大、中型机中,多采用三字节或四字节代码作机内码。 制订机内码必须考虑下列因素:汉字与西文易于区别;中、西文兼容;码长短,每个汉字所占字节数少;与国标码有较简单的对应关系,便于信息转换。,机内码,目前,多数微机汉字系统的机内码是以国标GB 2312-80规定的双七位代码为依据,经一定转换后用两个字节表示一个汉字。每个字节的最高位均为,以此作为汉字的标记,以便于与ASCII码编码的符号相区别。 由国标码转换为机内码的规则是:将十六进制的国标码加上8080H,就得到对应的机内码。 如“大”字的区位码为2083,国标码为3473H,机内码为3473H+8080H=B4F3H。将B4F3H 化为二进制数得:1011010011110011,这就是在计算机中实际使用的机内码的二进制形式。 8080H等于二进制的1000000010000000,国标码加上8080H,可以保证机内码每个字节首位均为。,机内码,五、汉字编码字符集,按照一组无歧义的规则而定义的汉字字汇的有序集合。其中每一个汉字与它的代码表示之间具有一一对应关系。 在信息处理技术中汉字编码字符集用于汉字信息的表示、交换、传输、处理、存储、输入及显示。 在国际标准化组织ISO的定义中,“无歧义的规则”很重要,制定这些规则的目的是为了确保编码的唯一性,避免重码。,汉字编码的关系,20902汉字,6763汉字,六、中文信息在计算机内的表示,在计算机内表示中文信息的最早在IBM、富士通、日立等计算机生产厂家的计算机中开始,但采用的编码形式互不兼容。 为了能使汉字能够在计算机中通行,国际标准组织(ISO)、国际电子电气工程师协会(IEEE)以及各个使用汉字的国家和地区,在计算机技术发展中,都制定了各种各样的汉字编码字符集。 ISO/IEC 2022定义了七位代码和八位代码的空间及其代码空间扩充的技术。 绝大多数计算机系统所采用的字符集,都是以ISO/IEC 2022为基础的。 一般汉字在计算机内部的表示都是通过扩充编码长度实现的。,ISO/IEC 10646,一个国际标准编号,国际标准化组织(ISO)1993年正式颁布 英文全称:Information technology - Universal Multiple - Octet Coded Character Set,简称UCS 中文全称:信息技术-通用多八位编码字符集,亦称大字符集 宗旨:全球所有文种统一编码,Unicode,英文Universal Code的缩略语 统一编码 是对国际标准ISO/IEC 10646编码的一种称谓 是一个企业联盟集团的名称,由美国的HP、Microsoft、IBM、Apple等几家知名的大型计算机企业所组成,成立该集团的宗旨就是要推进多文种的统一编码 就内容而言,Unicode和ISO/IEC 10646是一致的,并行的,ISO10646/Unicode,ISO10646的第0群组第0字面(群和面的值都为00h)称为基本多语种文字面(Basic Multi-lingual Plane, BMP),其编码字元与Unicode相同。 ISO10646的BMP和Unicode的编码字符。,ISO/IEC 10646中CJK汉字组成,CJK统一编码汉字(20902) CJK扩充集A(6585) CJK扩充集B(4万-),ISO 10646/Unicode的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论