(计算机应用技术专业论文)规则与统计相结合的蒙古文编码转换的研究与实现.pdf_第1页
(计算机应用技术专业论文)规则与统计相结合的蒙古文编码转换的研究与实现.pdf_第2页
(计算机应用技术专业论文)规则与统计相结合的蒙古文编码转换的研究与实现.pdf_第3页
(计算机应用技术专业论文)规则与统计相结合的蒙古文编码转换的研究与实现.pdf_第4页
(计算机应用技术专业论文)规则与统计相结合的蒙古文编码转换的研究与实现.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

内蒙古大学硕士学位论文 规则与统计相结合的蒙古文编码转换的研究与实现 摘要 随着计算机技术和网络技术的飞速发展,蒙古文信息处理的工作也取得了 很大的进步。但是由于蒙古文国际标准编码出台的相对滞后,目前市场上各种 软件厂商采取自己的编码标准,使得各种蒙古文资料、网站之间不能兼容,信 息不能共享,从而严重影响了蒙古文信息处理工作的发展。 目前大多数蒙古文资料和网站仍然是采用了形码作为蒙古文的编码。本文 希望能够实现目前比较常见的智能、方正、蒙科立等蒙古文形码编码系统到国 际标准编码的转换。为了实现各种形码编码到国际标准编码的统一转换,本课 题采用蒙古文字符“最小字素表示法”为中间编码,将这类编码转换成蒙古文 国际标准编码。由于整个编码转换的过程是从形码到音码的转换,如何解决同 形异音字符的问题就成了本文要解决的难点问题。 本课题主要进行的工作分为两个部分:首先制定各种蒙古文形码到最小字 素编码之间的规则转换表,根据规则表将各种形码统一转换到最小字素编码; 其次,分别采用基于编码规则表对应的方法、基于蒙古文正字法词典对照的方 法、基于统计语言模型的方法实现最小字素编码到国际标准编码的转换,并综 合运用以上方法以提高转换正确率,并基本达到了预期效果。 关键词:蒙古文编码,编码转换,规则对应,语言模型,h m m 规则与统计相结合的蒙古文编码转换的研究与实现 r e s e a r c ha n di m p l e m e n t a t i o no fm o n g o l i a n c o d i n gc o n v e r s i o nb a s e do nr u l e sa n ds t a t i s t i c s a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to ft h ec o m p u t e rt e c h n o l o g ya n dt h en e t w o r kt e c h n o l o g y , m o n g o l i a ni n f o r m a t i o np r o c e s s i n gh a v ea l s om a d eg r e a tp r o g r e s s a sm o n g o l i a ni n t e r n a t i o n a l s t a n d a r d i z e dc o d i n gi sr e l a t i v el a g g i n g a l lt h er e s e a r c hu n i t sh a v er e s p e c t i v e l ya d o p t e dt h e i ro w n m o n g o l i a nc o d i n gs y s t e m s a l lt h ea b o v em a d e d i f f e r e n tm o n g o l i a nd a t aa n dw e bs i t e sc a nn o tb e c o m p a t i b l e ,i n f o r m a t i o nc a nn o tb es h a r e d ,t h e r e b ys e r i o u s l ya f f e c t i n gt h em o n g o l i a ni n t e r n e t d e v e l o p m e n t a tp r e s e n tt h em a j o r i t yo fm o n g o l i a ni n f o r m a t i o na n dw e bs i t eh a v ea d o p t e dt h em o n g o l i a n c o d i n gs y s t e m sb a s e do nt h ew o r ds h a p e s t h i sp a p e rm a i n l yd i s c u s s e st h ec o n v e r s i o nf r o m m e n k e l im o n g o l i a nc o d i n g ,o y u t am o n g o l i a nc o d i n g ,s a i y i nm o n g o l i a nc o d i n gt ot h em o n g o l i a n i n t e r n a t i o n a ls t a n d a r d i z e dc o d i n g i no r d e rt oa c h i e v et h ec o n v e r s i o nw i t hu n i f i e da p p r o a c h ,w eu s e t h em i i l - m o r p h e m ec o d i n gt oc o n v e r s et h e mt ot h em o n g o l i a ni n t e r n a t i o n a ls t a n d a r d i z e dc o d i n g s i n c et h ew h o l ep r o c e s so fc o n v e r s i o ni sf r o mt h eg l y p hc o d i n gt ot h es o u n dc o d i n g ,h o wt os o l v e t h ed i f f e r e n tp r o n u n c i a t i o no ft h es a m es h a p ec h a r a c t e r sh a sb e c o m ed i f f i c u l tp r o b l e m st ob es o l v e d i nt h i sa r t i c l e t h em a i nw o r ki sd i v i d e di n t ot w op a r t s :f i r s t l y ,w em u s td a f tt h er u l ec o r r e s p o n d e n c et a b l eo f m o n g o l i a ng l y p hc o d i n ga n dt h em i n m o r p h e m ec o d i n g ,a n dc o n v e r t i n gc o d e sb a s e d0 1 1i t s e c o n d l y , t h r e em e t h o d sa r eu s e dt oa c h i e v ec o d e sc o n v e r t i n gf r o mt h em i n - m o r p h e m ec o d i n gt o t h e m o n g o l i a n i n t e r n a t i o n a ls t a n d a r d i z e d c o d i n g t h e y a r e t h em e t h o db a s e do nr u l e s c o r r e s p o n d e n c et a b l e ,t h em e t h o db a s e do nt h em o n g o l i a no r t h o g r a p h yd i c t i o n a r y , a n dt h em e t h o d b a s e do ns t a t i s t i c a ll a n g u a g em o d e l ,a n dc o m p r e h e n s i v eu s eo ft h ea b o v em e a s u r e st oi m p r o v et h e c o n v e r s i o nc o r r e c tr a t e ,a n da c h i e v e dt h ed e s i r e dr e s u l t s k e y w o r d s :m o n g o l i a nc o d i n g , c o d i n gc o n v e r s i o n ,r u l e sc o r r e s p o n d i n g ,l a n g u a g e m o d e l ,h m m 内蒙古大学硕士学位论文 图表目录 图1 - 1 蒙古文形码编码文本到国际标准编码转换过程3 图3 - 1 状态转移矩阵与状态转移图1 4 图4 - 1 蒙古文形码到最小字素编码转换1 7 图4 - 2 最小字素单词转换流程2 0 图4 - 3 基于词典的编码转换示意图2 3 图4 - 4 语料库类别构成比例2 4 图4 - 5 基于h 姗编码转换示意图2 5 图4 - 6 基于隐马尔科夫模型的编码转换过程2 6 图4 - 7 国际标准编码候选状态3 0 图4 - 8v i t e r b i 算法第一步处理结果3 1 图4 - 9 三次迭代后结果3 1 图5 - 1 蒙古文编码转换系统流程图3 3 图5 - 2 旧智能与最小字素转换对照文本3 5 图5 - 3 最小字素到国际标准编码转换结果对比3 6 图5 - 4 词典与规则结合转换流程图3 7 图5 - 5 词典与统计结合转换流程图3 8 表2 - 1 蒙古文国际标准编码基本字符集7 表2 2 蒙古文最小字素表8 表3 1 转换映射表例子1 0 表4 - 1 蒙古文形码到最小字素规则对应表( 部分) 1 8 表4 2 蒙古文词典中附加成分2 2 表5 1 词典与规则转换结果3 8 表5 2 词典与统计转换结果3 9 v 原创性声明 本人声明:所呈交的学位论文是本人在导师的指导下进行的研究工作及取得的研究成 果。除本文已经注明引用的内容外,论文中不包含其他人已经发表或撰写过的研究成果,也 不包含为获得囱墓直太堂及其他教育机构的学位或证:传而使用过的材料。与我一同工作的同 志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名: 日期: 在学期间研究成果使用承诺书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:内蒙古大学有权将 学位论文的全部内容或部分保留并向国家有关机构、部门送交学位论文的复印件和磁盘,允 许编入有关数据库进行检索,也可以采用影印、缩印或其他复制手段保存、汇编学位论文。 为保护学院和导师的知识产权,作者在学期间取得的研究成果属于内蒙古大学。作者今后 使用涉及在学期间主要研究内容或研究成果,须征得内蒙古大学就读期间导师的同意;若用 于发表论文,版权单位必须署名为内蒙古大学方可投稿或公开发表。 学位论文作者签名:墨垒蕉 日 期:趔:么4 指导教师签名: i 主竺丛 日期:拦删 氅 名 期 签师教导指 日 内蒙古大学硕士学位论文 第一章绪论 在蒙古文国际标准编码制定之前,许多软件开发者设计了各种显现字符编码方案,以 将蒙古文显示在w i n d o w s 及其他操作系统中。但是各种蒙古文显现字符编码方案之间互相 不能兼容。蒙古文编码转换就是要实现目前比较常见的各种显现字符编码到蒙古文国际标 准编码的转换。 1 1 课题来源及意义 本课题来源于国家9 7 3 计划资助项目:蒙古文信息检索关键问题的研究。该项目主要 研究的内容有:利用语言知识规则和统计来解决蒙古文编码不统一、新( 西里尔蒙古文) 老( 传统) 蒙古文信息共享、蒙古文相关语料的规范与积累、蒙古文的构形词缀结构的切 分、蒙古文的检索模型等问题。其中蒙古文编码转换工作是本项目中比较基础和重要的一 部分工作。 蒙古语言文字的信息处理工作在少数民族语言文字信息处理领域中起步较早、发展领 先,我国计算机信息处理少数民族文字工作首先就是从蒙古文开始的。8 0 年代就在计算机 上实现了蒙古文信息处理系统,为内蒙古自治区以及8 个使用回鹘蒙古文的省区推广应用 计算机处理蒙古文信息创造了良好的条件。随着计算机技术和网络技术的飞速发展,蒙古 语文信息处理的工作也取得了很大的进步,但与此同时各网站所使用的不同蒙古文编码标 准,也成为制约蒙古文互联网事业发展的一个瓶颈n 1 。在蒙古文( 指传统蒙古文) 的词中大 量存在着“一字多形,多字同形的现象,目前多家研究单位在蒙古文字库的建设中根据 蒙古文的这个特点,为蒙古文名义字符的不同变形显现字符进行了编码。因为各种原因, 每个研究单位所采用的蒙古文显现字符的数量、字符形状不统一,字符编码也不统一。而 由于国际标准编码工作推进的以及相关技术问题,现在大多数蒙古文资料和网站仍然是采 用了形码作为蒙古文的编码,混乱的蒙古文显现字符编码方案导致各种系统之间不能兼容, 资源不能共享,这些都严重影响了蒙古文的信息化进程。为了能够从这些不同编码的资料 或者网站中搜索信息,首先需要解决编码转换的问题。实现目前比较常见的智能、方正、 蒙科立等蒙古文形码编码系统到国际标准编码的转换,从而实现各种编码的统一,已经成 为了消除蒙古文信息化进程瓶颈的关键步骤。 规则与统计相结合的蒙古文编码转换的研究与实现 1 2 蒙古文编码转换研究的背景及内容 1 2 1 蒙古文编码转换研究背景 从上世纪9 0 年代初,由我国、蒙古国、德国、英国等诸多国家和组织的专家学者就投 入到了研究蒙古文( 包括托忒文、锡伯文、满文) 编码国际标准的工作中来。与英文、俄 文相似蒙古文是音素文字,但不同的是蒙古文字母之间没有间隔,书写方式从上而下连写, 蒙古文大部分字母根据其在词中的位置( 词首、词中、词尾) 不同有不同的变体形式陉1 。此 外在蒙古文中有很多“形同音不同 字母,蒙古文还有许多形同音不同的形式,譬如蒙古 文四个圆唇音字母有同样的词中变形显现形式。由于蒙古文存在以上种种复杂因素,蒙古 文国际标准编码组织将蒙古文编码分为“名义字符 和“变形显现字符两个部分,而只 对其中的“名义字符 予以编码,对“变形显现形式 不予编码。所谓“名义字符,就是 在每一个字母的各个变体中最具代表性的一个形式,以它来代表该字母,对它进行编码。 它可用于蒙古文的“书面形式以及附加符号的传输、交换、处理、存储、输入及显现。 “变形显现字符 就是蒙古文的每一个字母的多个变体中,除去做“名义字符 的其余变 体,是用来当作显现,输出。经过六年多的研究和讨论,2 0 0 0 年i s o i e c 发布了蒙古文编 码国际标准。 而在蒙古文国际标准编码诞生之前,各家研究单位已经根据蒙古文不同的变形显现字 符对蒙古文字符做了相应编码。现行的蒙古文编码主要包括蒙古文国际标准编码、北大方 正蒙古文编码、智能蒙古文编码、蒙科立蒙古文编码等多种编码系统。编码转换要解决的 问题是实现其他蒙古文编码向蒙古文国际标准编码的转换。蒙古文国际标准编码字符集是 一种音码表示法,而方正、智能、赛音等所选用的蒙古文字符编码采用基于字形的编码。在 传统蒙古文的词中“一字多形,多字同形 的现象很普遍,方正、智能、赛音等形码编码 系统正是根据蒙古文的这个特点为蒙古文名义字符的不同变形显现字符进行了编码,而因 为他们之间所采用的蒙古文显现字符的数量、字符形状不统一,字符编码也不统一,这给 蒙古文信息的查询带来了困难,所以如何将目前流行的各种形码统一到国际标准编码标准 上来就成了亟待解决的问题1 。 1 2 2 本课题研究的内容 为了能将所有的形码编码系统统一的转换到蒙古文国际标准编码,以实现网络中信息 的检索和资源的共享。本课题通过蒙古文字符“最小字素表示法 把这类编码转换成蒙古 2 内蒙古大学硕士学位论文 文国际标准编码。所谓最小字素就是把蒙古文单词从字形上划分,并且划分到不能再划分 的最小单位。所以不论是由何种编码系统进行编码的蒙古文单词一旦转换成最小字素序列, 就能从字形上唯一确定一个蒙文单词。如:删) ( 联系) 一词,该单词在不同的编码系 统中可分为不同的组合,但是如果用最小字素表示,则只能表示为o 79 7 也) 。这部分工 作的完成首先将方正、智能、赛音等形码编码系统到最小字素的对应规则收集整理出来, 建立规则转换库,然后编写程序按照对应规则一一实现转换。 从最小字素到国际标准编码的转换属于从形码到音码的转换,因为形码的编码信息中 缺少发音的信息,对于同形不同音的蒙古文字母和单词在最小字素表示法中只有唯一的表 示,而在国际标准编码中却有多种不同编码来表示,这就造成转换过程中一对多的现象, 所以仅依靠规则转换库来实现蒙古文编码的转换无法解决所有的编码对应问题。所以本课 题在此部分的实现中将结合多种方法,对于一篇最小字素编码的蒙古文文本首先通过覆盖 蒙古文常用词的蒙古文正字法词典来实现对照转换,剩余词典中没有涵盖到的词则采用规 则和统计结合地方法来实现转换,应用统计的方法来提高编码转换的正确率这是首次被用 到蒙古文编码转换的工作中来,这也是本文工作的创新点所在。 综上所述,形码编码的源文本转换为国际标准编码文本的过程用图1 - 1 的形式表示如 下: 回 图1 - 1 蒙古文形码编码文本到国际标准编码转换过程 f i g u r e1 it h ed i a g r a mf o rc o n v e r t i n gm o n g o l i a ng l y p hc o d e st ot h ei s o i e c1 0 6 4 6m o n g o l i a nc o d e s 3 规则与统计相结合的蒙古文编码转换的研究与实现 1 3 本文结构 第一章绪论。简单介绍课题研究的来源及意义和蒙古文编码转换研究的背景及内容, 最后简要给出了本文的研究内容和组织结构。 第二章蒙古文编码概述。介绍了蒙古文字研究的历史和编码方式,然后又分别重点介 绍了蒙古文国际标准编码和最小字素编码,最后简单介绍了现行的其他几种主要编码。 第三章相关方法与理论。蒙古文编码转换笼统的分为基于规则的方法和基于统计的方 法,其中在基于规则的方法中介绍了基于规则表对应的转换方法和基于词典对应的转换方 法。最后着重介绍了语言模型的基础知识,包括n g r a m 统计语言模型和隐马尔科夫模型, 及常见的几种平滑算法。 第四章蒙古文编码转换的研究与实现。设计实现了基于规则表映射的蒙古文形码到 最小字素编码转换。并且分别采用基于规则表映射,基于词典对照,基于统计等三种方法 设计实现了最小字素编码到国际标准编码的转换。 第五章实验和结果。通过实验测试了各种蒙古文形码到最小字素编码转换的正确率, 对比测试了第四章中使用的三种方法的编码转换正确率,并通过上述方法的综合实现编码 转换。 第六章总结与进一步工作。对目前工作做了总结并对未来的工作进行了展望。 4 内蒙古大学硕士学位论文 第二章蒙古文编码概述 蒙古语言文字是蒙古族通用的语言文字,在蒙古族的文化发展上起着重要作用,通过 它保存了丰富的文化遗产。 2 1 蒙古文字研究历史和编码方式 蒙古族语言文字具有悠久的历史,蒙古文先后有六种,现行蒙古文有三种:传统蒙文、 托忒蒙文和新蒙文。传统蒙文是从古回鹘文经过回鹘式蒙古文逐渐演变而来的一种蒙古族 通用的拼音文字。早期的蒙古文字母读音、拼写规则、行款都跟回鹘文相似,称作回鹘式 蒙古文。一般认为有1 9 个字母。其中,表示元音的5 个,表示辅音的1 4 个。大部分字母有 词首、词中、词末3 种变体。个别字母不出现在词首,只有词中、词末两种变体。元音字 母和辅音字母在笔划上结合得很紧,多数情况是连在一起的。拼写一般以词为单位,但是, 有时一个词也可以分作两段书写。字序从上到下,行序从左到右。标点符号有单点( 相当 于逗号) 、双点( 相当于句号) 、四点( 用于段落末尾) 3 种。回鹘式蒙古文到1 7 世纪时发 展成为两支。一支是通行于蒙古族大部分地区的现行蒙古文。一支是只在卫拉特方言区使 用的托忒文。 在本文中为了便于讨论,从编码转换实现的角度将现有的蒙古文编码分为“名义字符 编码方式 、“准名义字符编码方式”和“显现字符编码方式。 1 、“名义字符 编码方式 在绪论中曾经提到所谓“名义字符 就是每一个蒙古文字母的多个变体中最具代表性 的一个形式,顾名思义名义字符编码方式就是用名义字符代表该字母进行编码。本课题编 码转换的目标码蒙古文国际标准编码就是名义字符编码方式,此编码方式也是蒙古文编码 统一的标准和方向。 名义字符编码方式只对每个字母在词中不同位置的多种变体形式中的一个进行编码, 即对“名义字符编码,称为“基本字符 。对于逻辑上大于一个字母单位的强制性合体 字及逻辑上小于一个字母单位的字素不予编码,对于在各种不同位置上出现不同的变体形 式即“显现字符 也不予编码h 1 。 2 、“准名义字符 编码方式 规则与统计相结合的蒙古文编码转换的研究与实现 准名义字符编码方式是跟蒙古文编码国际标准的编码方式相近的编码方式。准名义字 符也对逻辑上大于一个字母单位的强制性合体字及逻辑上小于一个字母单位的字素不予编 码。“准名义字符区分形同音不同字母,一种显现形式有多种编码。以名义字符排列的 显现字符编码方式是以蒙古文编码国际标准的字母序列对显现字符进行编码,显现字符占 码位的编码方式。例如,内蒙古明安途互联网技术开发有限公司的显现字符编码方法( 下面 简称明安途显现编码) 、内蒙古蒙科立软件有限责任公司的显现字符编码方法( 下面简称蒙科 立显现编码) 等。 3 、“显现字符 编码方式 “显现字符 编码方式就是对蒙古文字母的所有显现形式进行编码的方式,就蒙古 文编码h 1 中所提到“全部字符编码 方式。“显现字符编码有方正系统中的蒙古文显现 编码( 下面简称方正编码) 、赛音输入法输出的显现字符编码( 下面简称赛音显现字符) 。“显 现字符编码不依据蒙古文编码国际标准的字母序列进行排列。此方案的优点是在操作系 统中不用o p e n t y p e 技术也能正确显现蒙古文。用这显现字符编码只能显示蒙古文,而表示、 传输、交换、处理、存储、输入蒙古文的话不符合蒙古文编码国际标准。 2 2 蒙古文国际标准编码简介 蒙古文国际标准码2 0 0 0 年2 月得到国际标准化组织的正式通过并得到u n i c o d e 技术委 员会的认可,为蒙古文字字符集和编码的统一制定了标准。蒙古文国际标准码包括传统蒙 古文,托忒文、锡伯文和满文以及蒙、托、满三种文字用于转写藏文和梵文的阿礼嘎礼字 母、标点符号、数字和控制符的蒙古文字符的编码集。托忒文、锡伯文、满文均用蒙古文 字符。蒙古文国际标准码只对“名义字符 编码,对强制性合体字没有编码。传统蒙古文、 托忒文、锡伯文和满文的大部分字母根据他们在词里的位置( 词首、词中、词尾) 不同的,称 它为变形显现字符。根据国际标准i s o i e c l 0 6 4 6 有关规定,在蒙古文国际标准编码中,对 蒙古文的变形显现字符集没有进行编码。甚至于同一个字母在传统蒙古文、托忒文、锡伯 文和满文中都有时,只占用一个编码位置。最终出台的蒙古文国际标准编码字符集如表2 1 所示,收录了传统蒙文的7 个元音、2 7 个辅音、1 1 个标点符号、1 0 个数字和4 个控制 字符。该标准字符集已经收入到i s o i e c1 0 6 4 6 :1 2 0 0 0 和u n i c o d e4 0 中嘲。 6 内蒙古大学硕士学位论文 表2 - 1 蒙古文国际标准编码基本字符集 t a b l e2 1i s o i e c10 6 4 6m o n g o l i a nl e t t e r 1 8 01 8 1 1 8 21 8 318 薯1 8 5 1 8 6 1 8 71 8 81 8 91 8 a o 之 吉 。 未 t 岛 一 一 o , 4 - 呜, a l 爿 睡 8 q 、 b 丢 a _ j 卜 z 嗡 8 才 一 q - n i 产-爿 - 吩 r - 寸 q 才 q 久 m j 争 h 、。 曩 芎 一 弓 夸 | , a o- i 口 才 一 看 4 1l 寸 鹚 q j e 可 爿 蔫 4 - l o喝 - t n 毒 b 阑 砖 囔 2 国 丐q 茜 弓 童憋澜 9 f 。 - 闲 m 硷 a 牵 n 憋澜 需 图 髟 闲 口e j 一一 闷 j ii 。 髟 闲 爿 哆一 闷 卅 4 - , 圈 u 髟 阏 峥一# 膏 - 勃 闷 葛 +闷 u 铲 圜 哦 爿 | - 阑 q 一 图霞斛 _ 绉 龟 _ 乒则一 1 e 2 3 蒙古文最小字素 所谓最小字素就是把蒙古文单词从字形上划分,并且划分到不能再划分的最小书写形 状单位。还有考虑到把蒙古文单词划分为最小字素后再合并出来的单词形状能保持原来单 词的形状,最后定义了6 1 个最小字素。为了方便查找和处理蒙古文单词,用英文符号来记 录每个最小字素。表2 2 为最小字素表( 注:这里所用的编码为智能编码) 和英文符号的对应 表。 7 o l 2 3 4 5 6 7 8 9 a b c d e f 规则与统计相结合的蒙古文编码转换的研究与实现 表2 - 2 蒙古文最小字素表 t a b l e2 - 2t h et a b l eo fm i n - m o r p h e m ef o rm o n g o l i a ns c r i p t 编码)书写形式p 名称( 音标) p 字母p编码)书写形式p名称( 音标) ) 字母一 f i l b pr da pd ) f l 出如k f 1 l c 一0a da p f l 帆,k l a dp , f 1 l e 一 口a 一山f l d 鼬站l a d o f l l 如 鼬 f l 眇)蠲 t o f 1 2 0 ) 7 鼬釉f l d a d 幻鞠pt o f l z ke ow f l m ” 翻。翻鼬 f l 五u 和 e e = i 即 f l d e 厶秘一 f 1 2 即” f 1 讹)bs h a o砧 h h f 1 3 1 )如ubf l d e ¥bs h 却 w f 1 3 &钆o ,1 1 0f l d 幻轧s b a i 】黝 f 1 3 7 0 郾。一mf i e 0 )t 鼬厶 f 1 4 e 一 知蛳 n l :l e 4 0 和 d 却 动 f 1 4 e ) 弦呦 n f l e a 一= 一c h 鼬 x f 1 5 0 一厶蚴舢 f l e e 驴 和 1 a d f 1 5 f o 钆 b a d j p f l f l , 印 n f 1 6 h , 争 b bf l 翱 瑚u f 1 6 b 如f l &“强pk f 1 7 如 p a d i pf l 鼬郎f a d洳 f 1 7 b 一 争 p a d hf l 缸 妒 f a a 和 f 1 8 4 p鼽 p t 如 + 一 f 2o | 缸郾舢 一一 f 1 粥一锄 q a p铷 f 2 1 2 p 舢 k a d f 1 9 如 开0 杈。 c ,f 2 1 3 0k 却b f 1 9 4 0 d o 妒 1 :2 1 4 0 咖 k a d p f 1 9 5 3, t o q a d 即f 2 l b 口锄i c p f 1 9 知 9 黜 如f 2 2 1 )翻m l f l a 5 p q 帅 一of 必 地3 f l b “ 伽 g a d m )f 2 2 3 0 争 i d a a pb f l b 和鲫 弘 f 2 3 0 ) 审脚 p f l b l g a d e 01 :2 3 3 0爷 蜀i ) 哪 f l 正k 舭】mf 2 3 7 p 脚h f 1 d 3 一bm a , u f 2 3 9 一刁强j一 一 f l d “扎嗡1 )u f 2 9 h , 一 驴 8 内蒙古大学硕士学位论文 2 4 现行其他主要编码系统 1 、智能编码 内蒙古大学计算机学院于1 9 9 1 年,推出了“智能蒙古文编码”。它使用了1 2 2 个码位, 当时是国内几个蒙古文编码中码位最多的一个。2 0 0 1 年又新推出了o y u t a 合力智能编码, 该字符集是一种形码字符集,但是在其中保留了音码信息。 2 、方正编码 从八十年代开始内蒙古大学蒙古语言研究所与北京大学新技术公司今方正集团的前身 合作开发了“方正电子出版系统蒙文版 。目前方正公司的蒙古文排版软件较为常用版本 为“方正电子出版系统 蒙文书版。软件小样文件中蒙古文编码的存储方式是方正编码与 名义字符编码的混合存储方式,蒙古文输入法被限制在排版软件内使用。具有文本导出功 能,能导出符合蒙古文编码国际标准的纯文本。 3 、蒙科立显现字符编码呻1 蒙科立传统蒙古文字符集是形码表示的字符集,该字符集中保留了发音信息,当不同 的蒙古文名义字符对应的变形显现字符写法相同时,对该显现字符定义了不同的码位,因 此字库中会出现一些形状相同但编码不同的字符。这和智能编码是一致的。它不包含合体 字,共2 3 6 个字符。 4 、赛音显现示字符编码盯8 1 赛音蒙古文字符集中的每一个蒙古文字符的形状都不相同,这样不同发音的蒙古文名 义字符可能对应同一个显现字符。该字符集主要考虑从字形上来确定字符,并且部分字符 是由蒙古文显现字符拆分得来的,属于字素分析法的思想。严格的说,这些字素不是蒙古 文字母。这样做的目的是拆分的字符可以组合出很多变形显现字符,因此其编码系统所包 含的字符数量较少,共8 0 个字符。 9 规则与统计相结合的蒙古文编码转换的研究与实现 3 1 基于规则的相关方法 第三章相关方法与理论 3 1 1 基于规则表对应的蒙古文编码转换 基于规则表对应的蒙古文编码转换适用于各种形码编码之间的转换及准名义字符编码到 国际标准编码之间的转换1 。下面以准名义字符到国际标准编码的转换为例来介绍基于规则 表对应的蒙古文编码转换。 例如传统蒙古文名义字符例如蒙古文字母“i , ( a ) ,有 ,气, - 等9 个变形显现形式。在o y u t a 智能编码中“ , 有9 个编码,如果用智能编码表示蒙古文单词 中的“v 或其变体,都会转换为国际标准编码中唯一的一个字母“ ,变形显现形式转换 成名义字符有多对一的映射关系。根据这种关系可建立下面的规则映射表,基于规则映射表 进行转换即实现可编码转换。 表3 - 1 转换映射表例子 t a b l e 3 - 1t h es a m p l eo fc o d et r a n s l a t et a b l e 源编码目标编码 f 1 1 81 8 2 0 f l l a1 8 2 0 f 1 1 b1 8 2 0 f 1 1 e1 8 2 0 f l l d1 8 2 0 f l i f 1 8 2 0 f 1 1 c1 8 2 0 f 1 2 01 8 2 0 f 1 1 91 8 2 0 本文实现从各种蒙古文形码编码到最小字素编码转换就是采用基于规则表对应的方法。 1 0 内蒙古大学硕士学位论文 因为现行各种蒙古文形码编码方案都是采用基于蒙古文字形的编码,而最小字素编码则是从 字形上把蒙古文字母继续分割成最小组成元素,要实现各种蒙古文形码编码单词到最小字素 编码单词的转换只要将对应编码方案和最小字素编码对应的转换规则找到,收集整理为规则 映射表。 对于蒙古文不同形码编码方案之间的转换,规则映射表实现的是编码的一一对应,例如: 在进行从其他蒙古文形码文件到最小字素编码文件转换时,当按字符读入一形码文本时将对 应最小字素编码提取出来写入目标文件即可实现对应形码编码文件到最小字素编码文件的编 码转换。 3 1 2 基于词典的蒙古文编码转换方法 基于词典的转换方法是基于规则转换方法的一种拓展,主要针对各种形码编码系统到名 义字符编码转换,因为这时仅根据规则表的对应规则将产生一对多歧义。根据现有的基于词 典的转换方法,可以把基于词典的方法细分为以下三种: 1 、基于整词词典的方法 建立蒙古文常用词词典,存储蒙古文形码单词和对应的名义字符编码单词,编码转换的 过程就是运用恰当的查找算法从词典中查找对应的蒙古文形码编码单词,若查找成功则提取 对应的名义字符编码单词作为转换结果。这种方法要求所查单词在词典中必须存在,而一般 词典很难覆盖全部单词所以只能实现部分文字的转换。 2 、基于词干词典的方法 首先建立蒙古文词干词典,进行编码转换时先对词进行附加成分切分处理,将切出来的 词干与词干库中用“显现字符描述的字段进行匹配。如匹配成功提取词干库中用“名义字 符描述的字段中的转换结果。附加成分进行基于规则表的编码转换。然后附加成分的转换 结果跟词干的转换结果合并输出。 3 、基于词干+ 词缀词典的方法 首先建立词干词典和词缀词典,并且对词缀分阴阳性建库。对于将要转换的蒙古文单词 同样进行附加成分切分处理,并且将切出来的词干与词干库中用“显现字符描述的字段进 行匹配同时提取词干库中用“名义字符”描述的字段中的结果,对词缀进行转换时要结合词 干的阴阳性,到相应的词缀词典中查找匹配的词缀进行转换。这种词典处理方法能进一步排 除歧义,提高转换的准确率。 规则与统计相结合的蒙古文编码转换的研究与实现 3 2 语言模型基础知识 3 2 1n g r a m 统计语言模型n 们 如果用变量形代表一个文本中顺序排列的n 个词,即w = w l w 2 ,则统计语言模型的 任务是给出任意词序列w 在文本中出现的概率p ( 形) 。利用概率的乘积公式,p ( 形) 可展开为: 尸( 矿) = p ( w 1 ) p ( w 21w i ) p ( w sw l w :) p ( 1w l w 2 一1 ) ( 3 - 1 ) 不难看出,为了预测词的出现概率,必须已知它前面所有词的出现概率。从计算上来 看,这太复杂了。如果任意一个词w i 的出现概率只同它前面的n 1 个词有关,问题就可以得 到很大的简化。这时的语言模型叫做n 元模型( n g r a m ) ,即: 尸( 形) = p ( w 1 ) p ( w 2w 1 ) p ( w s1w lw 2 ) p ( 1w 一+ 1 。一1 ) ( 3 2 ) 兀闰月p ( 1w f 一“w f 一) 当n = i 、n = 2 或n = 3 时候分别称为一元模型( u n i g r a m ) 、二元模型( b i g r a m ) 或三元模型 ( t r i g r a m ) n 。以三元模型为例,近似认为任意词w i 的出现概率只同它紧前面的两个词有关, 即: p ( 矿) 兀汹讲p ( w f w f 一2 w 一。)( 3 - 3 ) 重要的是这些概率参数都是可以通过大规模语料库来估值的。比如三元概率有: p ( 嵋l 一2 一1 ) c o u n t ( _ w i _ 2 w i _ _ 1 w i ) ( 3 4 ) c o u n t ( w i 一2w t - lj 式中c o u n t ( w j 一2 - 1 ) 和c o u n t ( w t 一2 一l ) 表示特定词序列一2 一l 和一2 w 1w f 分别在整个语 料库中出现的累计次数。 3 2 2 隐马尔科夫模型 1 、简介 隐马尔可夫模型( h i d d e nm a r k o vm o d e l s ,简称为h m m n 幻) ,作为一种统计模型,今天正 在模式识别的各个领域中获得广泛的应用n 州。大约1 0 0 年前,数学家和工程师们就已经知 道马尔可夫链了。但是,只是在近三十几年里才被用到模式识别中来,其主要原因在于当时 缺乏一种能使该模型参数与识别信号达到最佳匹配的有效方法。直到6 0 年代后期,才有人提 出了这种匹配方法,而有关它的理论基础,是在1 9 7 0 年前后由b a u m 等人建立起来的,随后 1 2 内蒙古大学硕士学位论文 由c m u 的b a k

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论