基于UNICODE的多语言处理平台的研究与实现.doc

上传人：灯*** IP属地：河北上传时间：2019-12-11 格式：DOC 页数：118 大小：867KB 积分：12 举报 版权申诉

已阅读5页，还剩113页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

北京邮电大学硕士学位论文基于UNICODE的多语言处理平台的研究与实现姓名：董治江申请学位级别：硕士专业：信号与信息处理指导教师：钟义信20040220北京邮人学坝，学位论文基于的多语言处理、卜台的研究实现统地总结了复杂文本语言文字的处理需求，也分析了传统字体技术（、等）在处理复杂文本语言的缺陷与不足，在此基础上引出了字体技术，这种字体技术为复杂文本语言的处理提供了一套完整的解决方案，在本章的最后部分指出了制作民文字库的几个关键点：对于这样一个复杂的字体技术，对应的有个处理模块来驱动它，这个处理部分我们称之为布局引擎（），布局引擎控制着字体（在此表示字体）提供的功能来满足对复杂文本语言处理的需求，本论文通过研究两个开源的布局引擎和的源代码，在分析印度文字、阿拉伯文字的处理过程的后，在第四章中提出了处理复杂文本语言的一般流程，并详细阐述了处理多语言文字的整个流程的原理和各个组成部分的功能，尤其是复杂文本语言的处理模块布局引擎。在本章最后，阐述了的多语言处理模块实例，并对其在平台上使用的布局引擎一做了重点的分析，提出了如何在中实现完全支持和标准的蒙古文文字和维文的布局引擎。本论文的创新之处是在国内首次提出以字体技术来实现对少数民族文字的处理，并分析和阐述了的布局引擎的工作原理，提出了完全遵循国际标准的少数民族文字的处理方法。关键词：多语言处理复杂文本语言字体技术布局团擎北京邮乜大学烦士学位论文基于的多语苦处理台的研究。实见渔，（）（），（），！空塑皇查兰婴生兰些笙奎苎：芏旦坐曼翌旦盟兰堕壹竺里！鱼堕型塑：！丝，（），：独创性（或创新性）声明本人卢明所晕交的论文是本人在导师指导下进行的研究：作及取得的研究成果。尽我所知除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担切相关责任。本人签名：盔盗兰日期：垃垒垡：关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许学位论文被查阅和借阅；学校可以公布学位论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。（保密的学位论文在解密后遵守此规定）保密论文注释：本学位论文属于保密在年解密后适用本授权书。非保密论文注释：本学位论文不属于保密范围，适用本授权书。本人签名：聋塾期：塑垒：生：导师签名：三牢互位日期：型二兰仁。北京邮乜人学颂卜学位呛文坫十的多语言处理、台的研究与实现第一章软件的国际化与本地化机制过去，几乎所有的软件（包括操作系统）只是依照某一地区使用的编码系统来开发完成，而且文本信息也是写在程序中，这样只能处理该地区的语言文字，当使用另种语言文字的用户想使用该软件时，就不得不想办法修改软件的所支持的编码系统、文字处理、消息显示等。软件从支持一种语言文字再支持另一种语言文字是一件很繁琐的工作，而且极大得浪费了人力物力以及时间。在全球化的进程中，软件要能支持和处理多种语言文字及其相应的文化习俗，让全世界的用户都能以他们自己的语言文字、文化习惯使用软件。本章将重点介绍一下操作系统与的国际化与本地化机制。首先介绍几个基本概念。国际化、本地化的概念一般来说，“国际化”是指把原来为英文设计的计算机系统或应用软件改写为同时支持多种语言和文化习俗的过程。在软件创作的初期，一般的编程语言、编译、开发都是仅仅支持英文的，为了适应更广的语言和文化习俗，软件有必要在设计结构和机制上支持多语言的扩展特性，这一过程称为国际化。国际化仅仅是在软件设计上提供了使用多语言的可能。更简单的说国际化就是以统一的机制满足不同地区、语言用户的要求，一套二进制代码能提供同时处理多国语言文字（）的能力。“本地化”是指把计算机系统或者应用软件转变为使用并兼容某种特定语言文字的过程，比如，把原来为英文设计软件制作为支持中文的软件就是本地化的一种它主要包括翻译文本信息、界面信息、重新设计图标且让软件适应语言和文化习俗等等，对于某些文字来说，如蒙文，维文等还需要相应的文字处理模块。在英文中，国际化（）被缩写为，即只取首尾两个字母，中问字母为个同样地，本地化（）缩写为。语言和文化习俗因地域不同而差别很大。对某一特定的地域的语言环境称为“”。它不仅包括语言和货币单位，而且还包括数字标示格式，日期和时间格式等国际化了的软件含有一个“”的“参量”，使用该”参量便可以设置某区域所用的语言环境。国际化级别从国际化的程度来看，下列几种情况都属于国际化：）语言可以切换在系统启动时可以设置某种语言；）使用不同语言的软件可以同时使用，在应用软件启动时可以设置某种语言：）使用不同语言的软件可以同时使用，而且应用软件的语言可以动态切换：壮的多语苦处理、台的研究。，实现）使用不同语言的软件可以同时使用，而且在应用软件中可以同时使用不同语一口。显然，第种国际化方式是最完善的方式，其次是第种，第种和第种，从目前软件实现的国际化情况看，支持第，种的国际化软件是最常见的，第种软件比较少见，而且应用的意义不是很大。国际化面对的主要是多语言的处理，多语言处理主要涉及多语言处理、多语言用户界面、多语言输入和多语言输出四个方面的国际化机制与系统结构犀内核不对国际化做任何支持，是系统内核外的系统函数库，它支持程序的国际化与本地化：包括本地化信息数据库）的调用函数、字符集编码转换、消息翻译的显示、字符处理与分类等。本地环境包括如下内容：）：该地区字符的排序顺序，以及正规表达式（）与其他表达式的等效类解释。）：该地区所使用的编码方案、字符、文字类别、转换等信息。它决定了对大小写、小数和十六进制位和标点符号等类的定义，这影响字符在正规表达式库中的分类、标准分类函数和宏、大小写转换及宽字符的使用。）：各应用程序本地化的消息。）：该地区所使用的货币格式。）：该地区所使用的数字表示格式。）：该地区所使用的时间、日期表示格式。）：通常使用的纸张格式。）：姓名格式。）：住址格式。）：电话号码格式。）：尺寸大小单位格式。）：身份识别格式。对于产一个地区及语言来说，除之外，其他所有的类别都是固定的，不会随应用程序的不同而有改变。因此，这些类别的信息只需一份拷贝，由所有的应用程序共同使用。是消息显示部分，各应用程序都不相同，因此其内容由应用程序提供。北京；乜大学倾：学位论文基十的多语音处理、卜台的研究与实现本地环境变量系统使用一系列的本地环境变量来标识当时的语言环境。本地环境名称格式如下：语系名）一地区名【（编码系统名，其中【编码系统名）】可以省略。例如我国通常使用的格式为：或。如果不特别设定语言，则程序运行时时，会使用系统预设的本地化环境，一般而言其本地环境名称是”或”，即原始语言所采用的编码系统（）与英文消息等。如果我们希望改变程序运行时使用的语言，则我们可在程序启动前通过设置环境变量进行设定。有关本地环境的全局变量有：、，、，等。其中和设定所有的类别。系统处理这些环境变量的优先顺序是：。例如：设定本地环境为中国中文，编码字符集为编码方案。基于的多语言用户界面在程序的本地化环境中，类别定义了程序的多语言用户界面。在一个国际化的应用程序中，程序的消息部分与程序代码本身是分离的，所有的程序消息集中放在一个文件中。设计程序时，程序消息部分使用原作者惯用的语言来表示。当我们希望该程序也能显示意义相同的其他语言的消息时，我们只需要把原来的消息翻译为要使用语言对应的消息，而不必去修改程序源码，也不用重新编译程序。当程序安装完成后，多语言消息文件也一并安装到系统的本地化信息数据库。当程序执行需要显示消息（如菜单）时，它会按照当前的本地环境变量正确取出相应语言的信息并显示出来。如果找不到相对应的消息文件时，程序自动以其原始的语言来显示。做多语言移植时，一般使用工具。可以按下面的步骤来实现：）使用从程序中提取出消息部分；）对消息进行翻译，生成信息文件。任何人都可以参与翻译的工作，只要熟悉相关的语言：）使用把信息文件转换为文件，安装到相应的目录下。复杂文本语言文字（呻）的支持在中，没有处理复杂文本语言的模块，所以在控制台也没有处理复杂文本语言的能力。在的高层函数库中实现了对其的处理，如库和的工程。有关复杂文本的内容在后几章会重点阐述。多语言文字输入目前对字符的输入分为两种情况：一种是控制台；另一种是界北京人学颂学位论文璀于的多语言处理卜古的研究与实现面。在控制台下直接接收来自键盘缓冲区的数据，仅能实现西文文本的输入。在界面下，引入了（）（）协议来实现文字输入，它是以的类别为基础实现的。通过使用机制，可以较为容易地挂接一个输入法服务器，使用相应的输入法。具体细节这里不作深入讨论，仅指出一点：由于紧密地与相关联，使得实现多语言输入极为困难，仅仅能实现双语输入。对这一点，的规范中也明确提出需要对它进行扩展。也就是说，的多语言输入现在并不完善。多语言文字输出目前的字符输出也分为两种情况：一种是控制台；另一种是界面。对多语言输出来说，控制台下的多语言输出与输入是类似的，完全没有在考虑范围之内。在中，使用机制来显示字符。由于不同的文字需要不同的字体来显示，因此，为了要完整显示一个地区所有的文字符号，往往需要同时使用许多不同的字体才能实现。因此，在中，出现了一个字体集（）的概念。字体集是多个不同语言的字体集合。举个例子，如果我们要显示一串中英文字符，那么一个字体集就包括了一个字体以及一个的字体，分别用于显示英文与中文。有了字体集，系统就会根据本地环境中的编码辨识与分析机制，自动从字体集中挑选适当的字体来显示各个文字。应用程序不需要知道各种语言的编码细节就能自动完整地显示出该语言中所有的文字符号。同样应该指出：目前对多语言输出的支持尚不完善，其原因是机制对的依赖性。目前在有的应用程序中实现了多语言支持，如和等，则是由应用程序本身提供了支持。然而，这一工作应由操作系统本身来实现。的国际化机制是公司开源的开源项目，遵从和协议，是统一的通用运用产品套件，包括字处理、电子表格、绘图、幻灯片演示、数据制图、公式编辑等功能，它的优点更在于它的跨平台特性，在当前的主流操作系统上都有相应的版本，且支持的文件格式。的体系结构的体系结构的最低层是系统抽象层，它的主要目的是方便整个套件在不同的平台上移植，同时也实现了的国际化机制。本层主要有四个部！塞坚！查堂堡！兰丝堡苎苎望型！曼旦里！塑童堕量丝些兰皂堕坐塑：！壁生分）操作系统层（）：这层封装了所有用于访问各种操作系统资源的功能，如访问文件、内存、套间字，管道等。形成统一的面向对象）运行时库（）：主要实现了不同的字符集的转换，内存管理例程也位于本层。）准模板库（）：标准库，提供了列表、队列、堆栈、映射等实现。）视类库（）：是的核心库，封装了下面不同系统的功能，主要实现系统的国际化，文本处理、输入、显示和打印功能。的核心仅处理字符串，这就为处理多语言提供了基础，这并不是说不支持别的字符集，如上所述它把字符集转换的功能放到实时运行库中完成。多语言文字的输入（可视类库）为多语言输入提供了抽象的，抽象输入方法支持编辑，利用平台，如上的，可以提供支持，如果平台支持多语言输入，则充分利用这些功能。通常，输入方法是与平台绑在一起且输入语言的种类是有限的。与平台及字符集中立的输入方法协议绑定在一起从远程服务器来获得输入方法服务。利用可以与任何多语言输入方法服务器交互且用户可以输入多语言数据即使平台的不支持这些语言。，多语言文字的显示封装了所有访问下面系统的功能，这个模块提供了抽象的机制了在屏幕上显示多语言文本，需要丰富的字体（）集来显示文本，如：垂直字型，旋转等，系统足够满足这些应用，而在系统上，不容许任何的低级字体操作（）的操作，集成了光栅器（）来实施级的操作，而不是利用的功能，用光栅器生成位图，再用将其显示到屏幕上。充分利用了安装在系统本地的，而不依赖于相关的路径。的处理在系列平台上，调用来实现复杂文本的处理；在平台上，在可视类库中封装了（）的模块来实现对复杂文本的支持，在部分的细节在后面的章节细述。北京邮人学坝。学位论文基于的多语言处理，台的研究与实玑的本地化框架以一个称为本地化框架的结构来组织本地环境（）的信息，的每组信息都是一个组件。如下为各组件及功能描述：）地环境数据（）：本组件提供了语言、国家、文化相关的数据，像日期、时间、数字、货币格式信息等。这些信息在中以语言表述。）符分类（）：提供用于获得字符信息的接口，如（），（）、（），获缮定义的字符属性。）日历信息（）：提供日历服务。）：提供区分字符、音节、显示单元、词、旬、行的服务。因为某些文字的某些字符或显示单元拥有多个码位，光标的移动不能通过增加或减去索引来确定。对于复杂文本语言，本组件的实现比较复杂；对于分词：有基于字典的方法或用自然语言理解理论来切词；对于分行：需要考虑连接符不能在行首行尾的字符集，下标点符号可以出界。在处理多语言文档时，能自动识别字符串的文字并调用相应的。）字译（）：映射一个字符到另一个字符，如半角多全角的映射。）验序（）：是相关的，提供索引、排序功能。）查找（）：和都是相关的，也依靠模块功能。图卜的李地化框架的本地化框架采用一种利用桩的回退机制（）来调用本地化组件，如图。因为在框架中每个部分都是一个组件，实现一种需要有所有的为定义的相关的组件（、等），为每一种开发北京邮大学坝学位论义基十的多语言处理卜台的研究实现所有的组件是件困难的事，而且很多有着共同的行为。像和中的是一样的，这样有很多重复的工作，更坏的情况是要运行的没有得到支持这样它就不工作，因为与相关的模块不可用。为了克服这一点，每个组件有一个桩（）对象来提供回退功能，模块提供一个保证可用的组件服务。这种机制使开发变得容易，如西班牙语有大约中但他们共享一种。本章小结软件的国际化的核心是字符集与。字符集使实现对各种文字的支持成为可能，则可实现对语言、民族文化和生活习惯的支持，剩下的就是文本信息的本地化，主要包括文本信息的抽取、翻译与合并翻译后的文本消息。北京邮人学坝卜学位论义雏十的多语言处理台的研究弓实现第二章字符集与字符编码标准由于计算机处理的对象是的二进制数字序列，这样对于处理语言信息来说，首先需要解决的问题是如何用数字来表示语言的文字和符号，本章就以这方面的内容进行一些叙述。由于计算机发展及历史的原因，最初对文字的表示仅考虑到西文字符。其中一个典型的例子就是（）编码，它仅使用一个字节的低位来表示一个字符。尽管码是目前计算机上使用最为广泛的编码方案，但它并不能完整地表达除英语之外的任何一门语言。于是逐步形成了一个码的位扩展序列，即标准序列，它能适应其它许多西方国家的要求。然而对于像汉语这样的语言来说，用位的一个字节来表示的编码空间却是远远不够的，因此，用多个字节来表示一个字符成了必须的要求。于是各个国家制订了自己的字符集及字符编码标准，其共同点是：兼容编码，采用某种编码形式来定义自己需要的额外的字符，而且，像中日韩越四国使用的语言中有相当一部分的字符是一样的，但各个字符集对它们的编码却截然不同，这样造成了各种字符集编码自行其事，相互之间不兼容，为信息的共享、交换、传播、处理带来了极大的困难，各个字符集称为代码页（）。这一问题很早就己为计算机界的各厂商注意到：首先，操作系统处理不同的字符集需要额外的开销，增加了系统的复杂性；其次，不同系统之间的数据交换产生难以逾越的困难，在迅速发展的过程中，这一缺陷愈加显得明显；最后，软件开发的复杂性大大增加。在这样的情况下，国际标准化组织和由众多计算机厂商建立的协会都定义了旨在统一的、包括全世界各种语言的字符和符号的国际字符集编码标准，及与标准，由于在制定的过程中二者一致的目标，这两个标准虽有不同但完全兼容。在本文章中当提到其中的一个概念时也同时代表了另一个。标准正在软件开发过程中发挥巨大的作用，特别是对于汉语来说，其意义更为明显。我国制订了与等同的国家标准，即年制订发布的国家标准和年制订发布的标准。本章首先阐明了一些易混淆的基本概念。接着介绍几个关于字符集的国际标准和涉及汉字编码方案的国家标准，包括序列标准、标准、标准及标准等。最后一节得出字符集编码方案对实现计算机系统所造成的影响。北京邮人学硕学位论文拱十的多语苦处理、台的！究，实现基本概念首先先介绍几个与字符编码标准有关的概念字符（）及码位（）字符（）：供组织、控制或表示数据用的元素集合中的一个元素。通常可把它理解为以下含义：在书写语言中有语义的最小组成部分，如拼音文字中的每个元音、辅音、重音符等或象形文字的每个字都可称为一个字符。这也与字符集的定义有关，如果字符集将英文的一个单词定义为一个字符，那这个单词就是一个字符与抽象字符（）同义。抽象字符指用作文本数据的组织、控制的信息单位。代码字符集或字符集（，）：定义了一个字符集合以及一个从字符集到整数集的一一映射。字符对应的整数，称为该字符的码位（）。一个代码字符集有以下特点：一个字符集有它本身的代码空间（）；字符对应的整数隐含了字符之间的一个线序关系。定义一种语言对应的字符集与语言的语法、语义有关，如何使得一个字符集能完整表示一个语言、在计算机中便于处理和便于存储是需要考虑的问题。通常我们没有通用的规范来识别与定义语言对应的字符集。编码（）与编码方案（）这里需要区分的是字符码位与字符编码。对一个字符集来说，每一字符都有一个码位，码位只是表示该字符在该字符集中的位置。然而，在计算机中怎样表示一个字符则是另外的一个问题，可能需要对字符再进行编码。通常，这个编码与码位存在某种关系。）字符编码形式（，）：字符编码形式指从一个字符集到用来代表字符的实际编码单元的集合的一映射。）方案（，）：定义了一个字符编码形式与字节编序（）的总和。字节编序表示由计算机体系结构所决定的一系列字节的次序。如何存储一个基于某一代码字符集的字符是一个涉及字符编码方案的问题。一般有两种方案：使用与对应字符码位相同的数据来存储相应的字符信息。字符集就是采用这一方案的，它既定义了一个字符集，又定义了一个字符编码方案。使用与对应字符码位不同的数据来存储相应的字符信息，俪如字符集，我们可以使用绣、等来表示字符集中的每个字符。）码字符集（）：一个字符集和相应的字符编码方案的总和。其中，为某一字符指定的编码形式称为字符编码。北京栅，乜大学顿学位沦文幕十的多语苦处理、台的研究实现）字节字符集（，）：仅使用一个字节进行编码的编码字符集。）双字节字符集（，）：用来代表中、日、韩等国使用的表意文字而定义的多种编码字符集中的一种。这类编码字符集通常以某种方式编码使得双字节字符编码可以和单字节字符编码混合在一起。）多字节字符集（，）：编码字符集中使用不同数目的字节来表示每一个字符。许多大字符集被定义为多字节字符集来保持与或标准兼容。大多数传统的编码方案仅局限于某一种语言或两种语言（）。字符与字型（）一个宇型是一个字符或部分或多个字符的图形表述，字型可能有不同的形状，如下字符“”及其可能的字型：图字符与字型的关系字型和字符不一定是一一对应的，如跟着一个可用一个字型表述，这个字型称为连字（）：图连字形式类似的，一个带口音的字符可能由一个字符表述，也可能由几个不同的字型组成。如下：图字型的组合方式对于某些文字，字型依据其上下文有着不同的形状，如下为阿拉伯字符的字型，这些特征将在后面的章节详述。北京邮电天学颀：学位论文摧十酶多语苦延理平台韵研究，实现因字型的变形显现影式，字体（）与字型）字体（）：字型的集合，用作字符数据的可视化描述的字型集合。）字形代码（）：代表一个字形的编码。通常，包含在一个字体（）中的字形通过其字形代码得以引用。字形代码对某一特定字体来说是局部的：包含相同字形的不同字体可能使用不同的字形代码。）字形标示符（）：与字形代码类似，一个字体中的字形识别符标识一个字形。一个字体可以使用局部或全局的字形识别符，全局字形识别符的集合由字体信息与交换协会（，）所定义。）字形规格（）：指定一个字形的相对大小和位置及其他特征的属性集合。代码页（）代码页实际上就是各个可用于处理的字符集。美国公司在开发和的各文种产品时，进步将依赖于各具体平台（，）的各文种的字符集加以整理，并对每个具体的代码页都赋以个代号，称作“代码页”。比如：中文内码的代码页也是一种的代码页，其也是的代码页的代码页。码与标准目前计算机中用得最广泛的字符集及其编码，是由美国国家标准局（）制订的码（，美国标准信息交换码），后被国际标准化组织（）定为国际标准称为标准。标准适用于所有拉丁文字字母。我国国家标准中与此对应的标准是（信息处理信息交换用七位编码字符集）。北京邮人学坝：学位论义拱十的多语苦处理、台的研究与实现系列标准系列标准是在编码标准的基础上进行扩展而来，其全名为一甜。由于仅使用位编码，通过在之间定义了一批拼音文字及符号，于是形成了一系列适合于不同国家语言的编码字符集，目前共分为部分。限于篇幅，我们不对它进行深入讨论，仅在表中列出其支持的语言。表系列标准支持的语言标准支持的语言西欧和美国：南非荷兰语、巴斯克语、（西班牙）加泰罗尼亚语、丹麦语、荷兰语、英语、法罗语、芬兰语、法语、加利西亚语、：德语、冰岛语、爱尔兰语、意大利语、挪威语、葡萄芽语、瑞典语、西班牙语拉丁语族的斯拉夫语和中欧语言：捷克语、匈牙利语、德语，：波兰语、罗马尼亚语、斯罗伐克语、斯洛文尼亚语、克罗地亚语：世界语、加利西亚语、马耳他语、土耳其语斯堪的挪维亚和波罗的海：拉脱维皿语、爱沙尼亚语、立陶宛：语：俄语、乌克兰语、保加利亚语、马其顿语、塞尔维亚语、：无重音的阿拉伯语：希腊语：无重音的希伯来语：与相同，除了冰岛语代替土耳其语为北欧地区的拉普兰人、北欧人、爱斯基摩人的语言：增加了格陵兰语的和拉普兰语的字母（在中遗忘）以：覆盖整个斯堪的纳维亚（半岛瑞典、挪威、丹麦、冰岛的泛称）地区：泰国语：未指定：波罗的语：凯尔特语：包含澳洲土著语的西欧语言阿尔巴尼亚语、克罗地亚语、英语、法语、德语、匈牙！：利语、爱尔兰盏尔语、意大利语、拉丁语、波兰语、罗马尼亚语、斯洛文尼亚语标准及国家标准北京人学顺：学位论文基于的多语音处理台的研究。实现：体系标准的全名是，它是年最先出现的。最初制订此标准的目的在于：在位编码环境中能够切换不同的字符集，同一个字符串中可有多种不同字符集的字符。后来它扩展到位编码环境中。定义了七位代码和八位代码的空间及其代码空间扩充的技术。迄今为止的绝大多数计算机系统所采用的字符集，都是以为基础的。该标准定义的代码空间的总框架描述如下：）定义单八位的个码位的代码空间的分布。其中：（）为第一个控制字符集的编码区域：）为；（）为图形字符的编码区域；）（）为；（）为第二个控制字符集的编码区域；）（）是图形字符的编码区域。）定义在多个或编码字符集之间切换的结构，那就是：通过指明和调用机制，单字节和多字节图形字符的字汇进入八位代码空间。控制序列就是这样的一种机制。通过以下例子可部分看出控制序列在多种语言处理上的作用。假定有一个编码系统，它有如下的特点：其字符串一开始时处于状态，当在字符串的某个位置出现这样的序列时，接下来的字符就进入了状态；若之后又出现这样的序列时，余下的字符又回到状态。如果一个多字节字符串如下：则系统开始时状态为，在处理时系统仍为状态。因为接下来的序列是，则处于状态。接下来，随后的又使后面的进入状态。由上可知：如果我们把每一种编码都定义为一种状态的话，我们就可以在同一字符串中完整的表示多种语言。的体系结构具有如下的特点：）代码空间狭小，凡是，控制字符相关的空间都回避不用：汉字编码没有利用咀上的空间；）按国家地区分别编码；）需要一整套复杂的指明，调用的控制功能来区分代码空间中的字汇。的体系结构具有如下缺陷：北京邮人学硕小学位论文基于的多语言处理、，台的研究实现）需要保留外部已知字符编码记录和用来激活它们的转义字符序列。）和错误的转义字符序列通信的不健壮性。）如果使用了不能识别的转义字符序列，将会引发潜在的通信灾难。的体系结构由于下面两个原因还很重要：）它是现存很多程序的基础。如，的多语言扩展版本；）与仃相兼容的需求对于字符集标准的设计有至关重要的影响。国标，国汉字在代码空问中的位置依据标准，可以把汉字放在以八位为基础扩充的空间，也可以放在以七位为基础扩充的空问。但实际上，目前各国家和地区的汉字编码字符集都是以七位代码为基础的。图表示汉字在空间中的位置。在这种空间中，汉字和相关的非汉字文字、符号被映射到下面的二维空间中：每个字符的坐标取值范围都在（区）之间。因此，汉字可在之间编码。中国、日本、韩国三国的各汉字编码字符集，都完全遵守上述格局，但它们的字汇、字级、字序各不相同。一我国制订了国家标准信息交换用七位编码字符集的扩充方法，它是以七位编码字符集为基础进行代码扩充，并根据该标准制订了国家标准（信息交换用汉字编码字符集一基本集）。国标规定，一个就二第一北京邮电人学颁卜学位论文基于的多语言处理，台的研究实现汉字用两个字节表示，目前规定每个字节也只用七位，其高位未作定义。所有汉字、图形符号，根据其位置分为个区，每个区包含个汉字，每个汉字字符

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于UNICODE的多语言处理平台的研究与实现.doc

文档简介

温馨提示

最新文档

评论

基于UNICODE的多语言处理平台的研究与实现.doc

文档简介

温馨提示

最新文档

评论

相关文档