




免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
传统蒙古文与西里尔蒙古文相互转换方法的研究飞龙,高光来,闫学亮,魏宏喜BAO Feilong, GAO Guanglai, YAN Xueliang, WEI Hongxi内蒙古大学 计算机学院,呼和浩特 010021College of Computer Science, Inner Mongolia University, Hohhot 010021, ChinaBAO Feilong, GAO Guanglai, YAN Xueliang, et al. Research on conversion approach between traditional Mongo- lian and Cyrillic Mongolian. Computer Engineering and Applications, 2014, 50(23):206-211.Abstract:Traditional Mongolian and Cyrillic Mongolian are both Mongolian languages and are widely used in Chinaand Mongolia respectively. With almost the same pronunciations, their written forms are totally different. According to the characteristic of the two languages, this paper proposes a joint sequence model based approach and depicts in detail the corresponding experiments performed. In the experiments, the word error rate and letter error rate for the traditional Mon- golian to Cyrillic Mongolian conversion system are 18.38% and 6.75% , and that for Cyrillic Mongolian and traditional Mongolian conversion system are 18.77% and 7.14%. Experimental results show that the proposed approach can meet the basic requirements for practical use.Key words:traditional Mongolian; Cyrillic Mongolian; joint sequence models; joint multigram摘 要:传统蒙古文和西里尔蒙古文分别是在中国和蒙古国使用的蒙古文,它们的口语基本相同,但是书写形式完全不同。结合传统蒙古文和西里尔蒙古文的构词特点,提出了基于联合序列模型的传统蒙古文和西里尔蒙古文相 互转换方法,并做了大量的相互转换实验。实验中,传统蒙古文到西里尔蒙古文转换系统的词误识率和字母误识率 分别达到了 18.38%和 6.75%,西里尔蒙古文到传统蒙古文转换系统的词误识率字母误识率分别达到了 18.77%和 7.14%,基本达到了实用要求。关键词:传统蒙古文;西里尔蒙古文;联合序列模型;联合多元文献标志码:A中图分类号:TP391.1doi:10.3778/j.issn.1002-8331.1301-03141引言蒙古文是一个跨多国、多地区的语言,在世界上有 广泛影响,使用者分布在中国、蒙古国和俄罗斯联邦等 国家,尤其是中国和蒙古国使用的蒙古语言文字是“语 同文不同”,即语言相同,文字不同。在中国使用的蒙古 文叫“传统蒙古文”,在蒙古国使用的蒙古文叫“西里尔 蒙古文”(也叫新蒙古文,基立尔蒙古文,斯拉夫蒙古文等)。随着中国和蒙古国两国之间的文化、教育和经济的 交流与合作不断深入,两国之间的文字转换工作也变得 极其重要。传统蒙古文和西里尔蒙古文的相互转换工作会给两国蒙古族同胞的交流带来更多的便利,并且对蒙古族的科学,文化和教育发展同样具有重要的意义。 包萨日娜 、乌 日力嘎和 Hao Li1-6 等人采用基于词 典的方法和基于规则的方法对传统蒙古文和西里尔蒙 古文的相互转换进行了一系列的研究,并取得了一定的 成果。但是,蒙古文是通过词根缀接多个后缀的方式生 成新词的,按照这种生成方式,可以构成近 100 万的蒙 古文单词,词典一般很难全部包含。而且,基于规则的 方法很难归纳出所有的转换规则,并且相当一部分单词 并不遵循转换规则。所以,基于词典和基于规则的方法基金项目:国家自然科学基金(No.61263037,No.71163029);内蒙古自然科学基金(No.2014BS0604);内蒙古大学高层次人才引进科研项目资助。作者简介:飞龙(1985),男,博士,讲师,主研方向为蒙古文信息处理、语音识别与语音检索;高光来(1964),男,教授,博士生 导师,主研方向为蒙古文信息处理、模式识别与人工智能;闫学亮(1984),男,硕士生,主研方向为蒙古文信息处理、 信息检索;魏宏喜(1981),男,博士,副教授,主研方向为蒙古文信息处理、文字识别。E-mail:收稿日期:2013-01-28修回日期:2013-06-24文章编号:1002-8331(2014)23-0206-06CNKI 网络优先出版:2013-08-22, /kcms/detail/11.2127.TP.20130822.1408.002.html飞 龙,高光来,闫学亮,等:传统蒙古文与西里尔蒙古文相互转换方法的研究2014,50(23)207有较大的局限性,很难达到实用要求。本文提出了基于联合序列模型7-8 的传统蒙古文和 西里尔蒙古文的相互转换方法,并优化了相关参数。实 验中,基于联合序列模型的转换方法对传统蒙古文到西 里 尔 蒙 古 文 的 转 换(Traditional Mongolian To Cyril Mongolian Conversion,T2C)和西里尔蒙古文到传统蒙 古 文 的 转 换(Cyril Mongolian To Traditional Mongo- lian Conversion,C2T)都得到了较好的实验效果。尔蒙古文的相互转换工作带来了一定的困难。3基于联合序列模型的转换方法3.1联合序列模型传统蒙古文单词和西里尔蒙古文单词都是由字母 串组成的,假设 G 为传统蒙古文字母串的集合,西里尔 蒙古文字母串集合为 。T2C 转换问题可表述为:(g) = arg max p(g ) *(1)公 式(1)表 示对于传统蒙古文单词 g G* 寻找最有可能对应的西里尔蒙古文单词 * 。*表示所有字符 串的集合。 与此相似 ,C2T 转换问题也可以表示成公 式(1)的形式。本文以 T2C 转换为例描述了基于联合序 列模型的转换方法,而 C2T 转换方法跟 T2C 转换方法完 全相同。联合序列模型的基本思想是输入和输出序列共同 可 以 生 成 包 含 输 入 和 输 出 符 号 的 联 合 单 位 的 共 同 序 列。简单情况下,每个单位带有零或一个输入符号和零 或一个输出符号。 这相当于有限状态转换 器(FST)的 传统定义。这种可以由多个输入和输出符号组成的单 位 称 之 为 共 同 序 列(Co-sequence)或 联 合 多 元(Joint Multigram)14。本文把传统蒙古文和西里尔蒙古文字母 的联合多元(Traditional-Cyril Mongolian joint multigram) 简称为 tracyone。tracyone 是一对不等长的传统蒙古文字母和西里尔 蒙古文字母序列的组合 q =g Q G* * 。使用2传统蒙古文和西里尔蒙古文的比较西里尔蒙古文是从传统蒙古文演变而成的,语法和 词汇基本相同。传统蒙古文和西里尔蒙古文的字母对 照如表 1 所示。传统蒙古文和西里尔蒙古文之间有不 可分割的联系,但二者之间有一定的区别:(1)传统蒙古文有 35 个字母,其中包含 8 个元音字母和 27 个辅音字母9。西里尔蒙古文也有 35 个字母,其 中包含 13 个元音字母,20 个辅音字母,硬化字母和软化 字母各一个10。(2)西里尔蒙古文字母区分大小写,而传统蒙古文 字母不区分大小写。西里尔蒙古文字母的大写用法跟 英语相似。传统蒙古文字母不区分大小写,并且每个字 母在词中变化有很多,在单词中,字母在上、中、下位置 不同将导致写法也不相同11。(3)西里尔蒙古文和传统蒙古文书写方向不同。西 里尔蒙古文采用的是从左到右的书序 ,从 上到下的行 序 ,而 传统蒙古文采用从上到下的书序 ,从 左到右的 行序12。(4)书面语和口语的差别程度在西里尔蒙古文与传 统蒙古文中并不相同。西里尔蒙古文中的书面语和口 语基本保持一致,口语中怎么发音就基本上怎么拼写, 而传统蒙古文的书面语与口语不是一一对应的,书面语 转口语时会出现元音和辅音的脱落、增加和变换等现象13。表 1 西里尔蒙古文和传统蒙古文字母对照g 和 分别表示 q 的第一和第二部分。如果 tracyoneqq最多包含一个传统蒙古文字母和一个西里尔蒙古文字 母,则称之为单数 tracyone。Q 的列表可以从训练数据 中获得,也可以通过手工指定。传统蒙古文字母和西里尔蒙古文字母序列被分成 相等的段数,这样的分组称为联合分割。对齐项是可以 交换使用的。 把这特殊的对齐类型称 为“m-to-n”。 对 于一个给定的输入和输出字符串对,分割 tracyone 的结 果不是唯一的。对于可能有歧义的 m-to-n 对齐,可以对 输入的字母串进行自由的组合。例如,把传统蒙古文单词“”(拉丁转写:ebdegde,对应的西里尔蒙古文:)分割成 3 个或 7 个 tracyone 同样是有效的,如图 1和图 2 所示。ebdegde =图 1 生成 3 个 tracyone 序列的结果图传统蒙古文和西里尔蒙古文相互转换时单词之间基本上是一一对应的,但是由于上述传统蒙古文和西里尔蒙古文的区别,从而它们的字母不是一一对应,有一 对多或多对一的现象。这些问题给传统蒙古文和西里=ebdegde图 2 生成 7 个 tracyone 序列的结果图e-dgedbededegeb西里尔 传统西里尔传统西里尔 传统西里尔传统2082014,50(23)Computer Engineering and Applications 计算机工程与应用这种模糊的联合概率是由所有相匹配的 tracyone序列的总和来决定的:其中 ,nq (q) 是在序列 q 中 tracyone q 出现的次数。 把e(q ; ) 称其为 q 的证 据(evidence),它 表示在当前的参 数 下训练样本中 q 出现的期望值。 e(q ; ) 可以通过 前向后向过程计算得到。对于高阶模型 (M 1) 用 h 来表示在前边的联合单元序列 hj = (qj - M + 1 qj - M + 2 qj - 1) 。 用 nq h (q) 来表示p(g ) =p(q)(2)q S(g )其中,q Q* 是 tracyones 的一个序列,S(g ) 是 g 和 的所有联合分割的集合:| gq gq gq= g S(g ): = q Q*|12K(3)| 在 序 列 q 中 M-gram q数。重估公式如下:| q |p(q ; ) = p(qi|hi ; )i = 1N q q出 现 的 次 = |j - M + 1 j - M + 2j -1q1q2qK这里 表示序列的串联,K = |q| 表示 tracyone 序列 q 的长度。 联合概率分布 p(g ) 成为了 tracyone 序列 q = q1q2qK 上的概率分布 p(q) 它可以用标准的 M-gram 模 型近似表示:K + 1(10)e(q h ; ) = p(q|gi i ; )nq h (q) =i = 1 q S(gi i)Np(qK ) =p(q |q q q)(4)p(q ; )1j j - 1 j - 2j - M + 1i = 1 q S(gi i)nq h (q)(11)j = 1p(q; )位置 j K 是被视为特殊的边界符号 qj =它允许作为蒙古文单词的开始和结束位置的特征现象 来建模。下面介绍了对于这种模型的估计方法。3.2模型估计3.2.1Multigram 的最大期望值下面考虑在不是联合分割的训练数据中对可变长 度单元的模型的推理问题。给定 N 个传统蒙古文单词 和 对 应 的 西 里 尔 蒙 古 文 单 词 的 训 练 样 本 1 2 N = (g1 1)(g2 2) (gN N ) 但是传统蒙古文和对应 的西里尔蒙古文字母没有水平对齐。首先,由于一个联 合分割 S 定义唯一的联合序列,发现如果有一个联合序 列模型,就可以计算每个训练样本的任何联合分割概率:q S(g )i ip(q |h ; ) = e(q h ; ) e(q h ; )(12)q 此外,默认序列 q 中已经包含了开始和结束边界标志。 显然,上述公式不允许新的 tracyone 出现的概率为零。所以通过人工设置比较满意的长度约束,并均匀分 布到所有 tracyones 来初始化模型参数。通常只使用一 个简单的上限 L 即 |gq| L 和 |q| L 但排除了不会生 成的情况 |gq| = |q| = 0 。 所以 ,更 复杂的约束是可想而 知的,例如传统蒙古文字母和西里尔蒙古文字母序列长 度的不同范围,或下限设置。一个被公认的初始分布是 tracyones 总数的倒数:p(g S) = p(q)(5)-1L Lp (q) = |G|l |r因此,训练数据的对数似然值可以用所有分割的总和来表示:Nlg L(O1 O2 ON ) = lg L(Oj) =j = 1N(13)0l = 0 r = 0其中,l = r = 0 表示附加的序列结束标志。tracyone 的长度约束参数 L 对 tracyone 的数目有明 显的影响。序列模型的其他外部参数是最大极限的历 史长度 M。M 和 L 一起规定了模型的有效范围,即在给 定的位置字母或音素的数目影响估计的概率值。一般情况下,用最大似然估计法训练模型时,很可 能会出现过拟合现象,并且在预测未出现的数据时效果 不佳。同样,从训练样本中分析得到的一些单调初始化 的 tracyone 会达到某个概率聚集,而只有其中的小部分 将有助于“正确”的模型估计。这两个问题分别会通过 下面讨论的平滑和裁剪进行处理。3.2.2证据裁剪证据裁剪可以解决过拟合问题。也就是说,修剪低 于阈值的证据值,取代在方程(12)中的 p(q |h ; ) :lg(P(j ; S)(6)j = 1S S(j)在联合单位中分割 S 是一个隐藏的变量。最大似 然率训练可以采用期望最大化算法(EM)。首先考虑上 下文独立的 unigram(M=1)情况,更新参数 的重估公 式如下:| q |p(q ; ) = p(qi ; )i = 1N(7)e(q ; ) = p(q|gi i ; )nq (q) =i = 1 q S(gi i)Ni = 1 q S(gi i)p(q ; )nq (q)(8)q S(gi i)p(q; )0if e(q h ; ) p(q |h ; ) = p(q ; ) = e(q ; ) e(q ; )q (14)e(q h ; ) otherwise(9)此 过 程 不 可 能 在 迭 代 过 程 中 使 tracyones 逐 渐 消飞 龙,高光来,闫学亮,等:传统蒙古文与西里尔蒙古文相互转换方法的研究2014,50(23)209失 。 证 据 裁 剪 同 时 有 效 地 控 制 了 tracyone 列 表 的 大小。在训练数据上,阈值 需要进一步调整。3.2.3减值证据比较估计公 式(12)和 典型的 N-gram 语言模型 ,注 意到,除了用证据值替代传统的 N-gram 计数值,面临着 本质上是相同的建模问题。众所周知,有效的平滑技术 对建立好的语言模型是至关重要的。实证研究表明,用 插值和边缘保留回退分布作绝对减值,也被称为 Kneser- Ney 平滑,比所有其他已知的平滑方法的效果都要好。 不同于传统语言模型的计数值,证据值是一个小数。所 以采用从传统的语言模型获取的结果时必须谨慎,因为 它们的推导可能依赖于整数计数的假设。绝对减值和 插值估计方程如公式(15)所示:3.2.4自底向上的模型建立和减值期望最大化迭代过程中,用单调的概率分布初始化 unigram 模 型(11),即 所有可能的 multigrams 有相同的初始概率。 在训练集上,用不受约束的计数 c(q) 选择性的初始化, 即在每个词中不管相邻的 tracyones 的重复,计 tracyone 的出现次数。|gi| |gi| |gi| |gi|Nc(q): = (gl gl12i = 1 l1 = 1l2 = l1 r1 = 1r2 = r1 ) = q)(19)r1r2通过应用平滑方法 ,这 些计 数(受 tracyone 长度约束 的 限 制)被 用 于 计 算 初 始 的 概 率 分 布 。 高 阶 的 M-gram 模型使用以前生成的 (M - 1) -gram 模型进行初 始 化 。 这 意 味 着 ,在 低 阶 模 型 中 只 允 许 与 不 减 值 的 M-gram 相符合的历史。现在要解决的是证据减值怎么样与 EM 算法相互 进行交互的问题。首先,优化减值需要数据集,这数据 集独立于计算证据值时的数据集。不分离这些数据集 会导致减值的总值会低估。为此,从训练数据中分离训 练集 Ot 和典型的较小的持有集 Oh 。训练集用于计算证据值,而持有集用于调整减值参数。在每个迭代中原始的 EM 算法确实提高了样本出 现的可能性,但这通常会导致过度拟合和在某个点上持 有集的可能性将开始减小。因此,在减值 EM 算法中为 了确保持有集的可能性不降低,会更新减值。3.3 解码估计模型之后,公式(1)可以用于 T2C 转换。从传 统蒙古文到西里尔蒙古文转换时,通常用极大值来近似 公式(2)中的总和。maxe(q h) - dM 0p M (q |h) =+ (h) p M - 1(q |h) (15)e(q h)q为 清 楚 起 见 ,添 加 了 一 个 下 标 M 表 示 分 布 的 阶 数 。 d M 0 是 减 值 参 数 。 p M - 1(q |h) 是 广 义 的 ,低 阶 (M - 1) -gram 的 分 布 使 取 决 于 减 少 的 历 史 hi = (q i - M + 2 q i - M + 3 q i - 1) 。 (h) 为归一化参数,它使得所有的分 布总和到 1。在语言模型中的最小计数值为 1(除了未见过的事 件),然而证据值可以变得任意小,实际上小于减值。所 以减值的证据估计包含证据裁剪的一种形式:用低于减 值参数的证据值的 tracyones 拒绝进入模型。证据裁剪 这种形式和明确的形式(14)之间的一个显著区别是在 减值里对未见过的事件分配了减值证据,而在其余的证 据有效地分配到了所有可见的事件。仍然需要指定回退分布 p M - 1 。对减少历史 h 想利 用一致性约束:p(g ) max p(q)(20)q S(g ) p M (q |h)e(q h) = e(q h)(16)具体来说,对给定的传统蒙古文字母串寻找最有可能对应的 tracyone 序列,并转换成对应的西里尔蒙古文 字母串。h hh hq替代式(15),并对 p M - 1(q |h) 在 p M - 1 是标准合格率的约 束下解决:(g) = (maxp(q)q = g(21)e (q h)Q*|g(q)p M - 1(q |h) = (17)e (q h)q用 e 表示减少的证据:e (q h): = mine(q h) dM4实验实验采用的性能评价标准为词误识率(Word Error(18)Rate,WER)和字母误识率(LetterErrorRate,LER)。h h当然,公式(17)中的 p M - 1(q |h) 也需要平滑处理。平 滑 p M - 1 的两个方法看上去比较合理。第一是在公式(15) 中“插入”减少的证据值(18),第二是平滑约束条件。事 实 证 明 ,除 了 对 减 值 参 数 不 同 的 解 释 ,这 两 种 方 法 会 得 到 相 同 的 结 果 。 绝 对 减 值 递 归 地 应 用 于 低 阶分布 p M - 2 p M - 3 p0 。零元分布 p0 跟所有潜在的 tracyone(13)相同。由于小数的证据值不适合它自己的 运算,所以在持有集(the hold-out set)上优化减值参数 d 。NcorrectWER = 1 -(22)NtotalNins + Ndel + NsubLER =(23)Nphtotal其中,Ncorrect 为转换正确的单词数目,Ntotal 为所有需要转换的单词数,Nphtotal为所有需要转换的单词对应的字母个数总合 ,Nins 为转换时出现的插入错误个数 ,Ndel为转换时所有出现的删除错误总合,Nsub 为转换时所有2102014,50(23)Computer Engineering and Applications 计算机工程与应用出现的替换错误总合。4.1实验 1:基于联合序列模型的转换实验本文以从新蒙汉词典15 中搜集的 65 232 个传统 蒙古文和对应的西里尔蒙古文单词作为数据集。在做 基 于 联 合 序 列 模 型 的 T2C 和 C2T 转 换 实 验 时 ,选 用 60 000 个词对作为训练集,以 5 232 个词对作为测试集。 训练 T2C 和 C2T 转换的联合序列模型时,持有集的 大小为训练集的 5%,平滑算法采用 Kneser-Ney 平滑算 法。 由于在联合序列模型中 tracyone 的长度上限 L 和 M-gram 的阶数 M 的大小会直接影响模型的复杂度和 实验的结果。因此,在做 T2C 和 C2T 转换实验时,本文通过一系列对比实验获得了最优参数。图 3 和图 4 所示的是在不同的 tracyone 长度上限 L 和 M-gram 的阶数 M 的情况下,T2C 和 C2T 转换的字母 误识率结果图。 从图 3 和图 4 中可以看出当 M = 1 时, L = 4 的 T2C 和 C2T 转换效果最好,L = 1 的效果最差,但 是当 M 大于 4 时,L = 1 的 T2C 和 C2T 转换结果都明显 要好于其他情况,并且随着 M 的增加会越发明显。集 上 的 词 误 识 率 达 到 了 18.77% ,字 母 误 识 率 达 到 了7.14%,训练集上的词误识率达到了 3.24%,字母误识率 达到了 0.94%。实验中,T2C 和 C2T 转换都得到了较好 的实验效果。表 2 在 L = 1 时不同 M 值的 T2C 转换结果测试集训练集M WER(/ %) LER(/ %) WER(/ %) LER(/ %)12345678990.8467.1046.4724.0021.8918.4818.4218.3818.4032.7215.2210.247.677.537.006.786.756.7592.8866.0334.8014.226.373.653.303.243.2435.0615.617.302.851.240.720.650.640.64表 3 在 L = 1 时不同 M 值的 C2T 转换结果测试集训练集M WER(/ %) LER(/ %) WER(/ %) LER(/ %)12345678989.5968.9750.3535.7321.0619.7718.9618.7718.9024.6715.5912.558.117.767.3787.8067.5047.2424.1211.166.635.815.665.6325.0214.988.964.181.921.090.960.940.930.350.3050.100.0504.2 实验 2:基于规则的 C2T 转换方法和基于联合序列模型的 C2T 转换方法比较本文对基于规则的 C2T 转换方法和基于联合序列 模型的 C2T 转换方法进行了比较。基于规则的方法采 用了蒙古文词干缀接构形后缀的转换方法1,3。本文采 用的基于规则的转换方法中西里尔蒙古文和传统蒙古 文的对应词干库包含 52 830 个蒙古文词干,西里尔蒙古文和传统蒙古文的对应静词后缀库包含 336 个构形后 缀,西里尔蒙古文和传统蒙古文的对应动词后缀库包含 498 个构形后缀。本文结合传统蒙古文和西里尔蒙古文 的构词规则,并利用词干库和后缀库建立了基于规则的 转换系统。实验中,基于联合序列模型的 C2T 转换方法 采 用 了 L = 1 M = 8 时 的 联 合 序 列 模 型 进 行 了 C2T 转 换。本文对包含 11 365 个西里尔蒙古文单词的文档集(TestSet1)和包含 9 932 个西里尔蒙古文单词的文档集(TestSet2)进行了 C2T 转换实验,实验结果如图 5 所示。 从图 5 可以看出基于联合序列模型的 C2T 转换结 果明显好于基于规则的 C2T 转换结果。并且,通过对实 验结果进行分析,发现基于规则的 C2T 转换方法存在对 于词干不包含在词干库中的西里尔蒙古文单词无法进行转换,而且部分蒙古文单词不遵守转换规则等问题。1234M56图 3 在测试集上 L 和 M 不同值时 T2C 转换结果比较图0.3050.100.0501234M56图 4 在测试集上 L 和 M 不同值时 C2T 转换结果比较图当 L = 1 时,在测试集和训练集上对 M 做了进一步的 T2C 和 C2T 实验,实验结果如表 2 和表 3 所示。从表 2 和表 3 中可以看出 M = 8 时 T2C 和 C2T 结果都为最优。 当 T2C 转换时,测试集上的词误识率达到了 18.38%,字 母误识率达到了 6.75% ,训 练集上的词误识率达到了 3.24%,字母误识率达到了 0.64%。当 C2T 转换时,测试字母误识率 LER字母误识率 LERL=1L=2L=3L=4L=1L=2L=3L=4飞 龙,高光来,闫学亮,等:传统蒙古文与西里尔蒙古文相互转换方法的研究2014,50(23)211立D.呼和浩特:内蒙古大学,2009.Li Hao,Sarina B.The study of comparison and conver- sion about traditional Mongolian and Cyrillic MongolianC/ 2011 4th International Conference on Intelligent Net- works and Intelligent Systems,2011:199-202. 高红霞,马小蕾.西里尔蒙古文网页向传统蒙古文自动转 换系统的文字转换研究J.内蒙古民族大学学报,2012,18(5):17-18.929088868482807876345 明玉.基于词典、规则与统计的蒙古文词切分系统的研究D.呼和浩特:内蒙古大学,2011.Zhao Lili,Men Jia,Zhang Congpin,et al.A combination of statistical and rule-based approach for Mongolian lexi- cal analysisC/2010 International Conference on Asian Language Processing,Harbin,2010:7-10.Bisani M,Ney H.Joint sequence models for grapheme-to- phoneme conversionJ.Speech Communication,2008,50(5):434-451.TestSet1TestSet26文档集图 5 基于规则和基于联合序列模型的 C2T 转换结果比较然而,基于联合序列模型的转换方法较好地解决了这些问题。75结束语本文首先对传统蒙古文和西里尔蒙古文进行了比 较,然后根据它们的特点提出了基于联合序列模型的传 统蒙古文和西里尔蒙古文的相互转换方法,并建立了对 应的相互转换系统。为了获得联合序列模型相关参数 的最优值,做了一系列实验。实验结果表明,持有集为 训练数据的 5% ,tracyone 的长度上限 L = 1 M-gram 的 阶数 M = 8 时,T2C 和 C2T 转换的误识率都为最低。本 文提出的基于联合序列模型的相互转换方法很好地解 决了传统蒙古文和西里尔蒙古文的相互转换问题,并且 基本达到了实用要求。8 Wang D.Out-of-vocabulary spoken term detectionD.S.l.:University of Edinburgh,2010:8
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 为什么中国大量使用自行车11篇
- 我的朋友250字7篇
- 流浪地球观后感3550字10篇
- 纪检办案经验课件
- 早癌筛查教学课件
- 企业资料档案管理系统模板
- 庐山谣的文化内涵与自然美景:高二语文课文深度解读教案
- 地理《世界地理知识竞赛》教案
- 生活中的传统文化8篇范文
- 纪念刘和君课件
- 江苏员额检察官考试完整版试题及答案
- 2025年3到6岁幼儿发展指南考试试题及答案
- 2025年中级注册安全工程师《其他安全》十年真题考点
- 2025年光伏施工安全试题及答案
- 翻越您的浪浪山新学期开学第一课+课件
- 宏图煤矿防突设计2025.9.8
- 贵州航空产业城集团股份有限公司,贵州安立航空材料有限公司招聘笔试题库2025
- 老年护理谵妄课件
- 采耳店员工合同范本
- 《第23章旋转》单元测试含答案解析
- 某某食堂改造施工组织设计
评论
0/150
提交评论