中文拼音输入的一种新的统计方法——翻译.pdf_第1页
中文拼音输入的一种新的统计方法——翻译.pdf_第2页
中文拼音输入的一种新的统计方法——翻译.pdf_第3页
中文拼音输入的一种新的统计方法——翻译.pdf_第4页
中文拼音输入的一种新的统计方法——翻译.pdf_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算语言学原著导读 课程论文翻译 11 29 2004 中文拼音输入的一种新的统计方法 中文拼音输入的一种新的统计方法 陈正 李开复 微软中国研究院 100080 摘要 摘要 对于中国电脑用户来说 汉字输入是一个重要的挑战 本文提出了一个 基于拼音输入的统计方法 该方法使用了一个 3 元语言模型以及一个基于统计 的分词系统 为了处理真实的输入问题 它还包括了一个键入模型 在整句输 入法中起到修正拼写的作用 以及一个为英文设计的拼写模型来实现无模式的 拼音输入 1 引言引言 对于中国的电脑用户来说 汉字输入法是最为困难的问题之一 现在主要有两种汉字输 入法 一种是基于字形的 如五笔字型 另一种是基于拼音或者语音的 如中文之星 微软 拼音等等 易学易用的特点使得拼音输入法受到普遍地欢迎 赢得了中国 97 以上的用户 陈原 1997 虽然拼音输入法有如此多的优点 但也存在着一些问题 包括拼音 汉 字转换的错误 用户的输入错误以及用户界面问题 如 中英文混合输入时的用户需要在两 种模式间进行切换 拼音输入法可以把拼音串自动地转换为汉字串 但问题是 汉语只有大约 406 个音节 却对应着 6000 多个常用汉字 让系统自动地选择出拼音所对应的正确的汉字是非常困难的 使用基于句子的输入也许可以得到更高的精确率 整句输入使用一个基于上下文的语言模型 LM 来选择汉字 所以 其精确率比基于词语的输入方法要高 本文中 所有的技术都 是基于整句输入法的 但只需简单地调整 即可适用于词输入法 为了获得高精确率 我们使用了统计语言模型 SLM 设计了一个统一的方法用于中 文统计语言模型建模 该方法使用了 3 元统计语言模型 结合自动的 基于最大似然估计的 方法来分词 选择词典 过滤训练数据 与现有的市场产品相比 在同样的内存条件下 该 系统的错误率降低了 50 在无内存限制的条件下 性能提升了 76 Jianfeng et al 2000 但是 整句输入法也存在一些问题 第一 系统总是假设用户的输入是完全正确的 实 际上 用户在打字过程中往往会出现许多键入错误 这些键入错误会导致系统产生更多的错 误 第二 在中英文混合输入时 需要在两种模式之间进行切换 这对用户来说非常头疼 本文提出了一个新的键入模型来解决这些问题 该系统不仅可以接受正确的拼写 还能够容 纳一些常见的键入错误 另外 该模型与一个英文概率拼写模型相结合 后者可以计算输入 串是英文单词的概率 两个模型同时运行 由一个中文语言模型为引导 来输出概率最大的 中英文序列 本文的结构如下 第二部分 简要讨论了整句输入法的中文语言模型 第三部分 介绍 了用来解决用户键入错误的键入模型 第四部分 提出了一个用于区分拼音和英文的英文拼 写模型 最后 给出了一些结论 2 中文语言模型中文语言模型 译者 李斌 南京师范大学文学院 语言学及应用语言学专业 计算语言学方向硕士生 Email gothere 1 计算语言学原著导读 课程论文翻译 11 29 2004 对于中国人来说 拼音输入法是最为流行的汉字文本输入方法 基本的方法是 用户输 入一个语音拼写 可带空格 如 woshiyigezhongguoren 系统把这个字符串转换为汉字串 如 我是一个中国人 我是一个中国人 整句输入法根据上下文来选择可能的中文词语 在我们的系统中 使用了统计语言模型 来给出足够的信息 来预测假设的中文词语序列的概率 在拼音 汉字的转换过程中 给定一个拼音串 P 目标是找到相应的可能性最大的汉 字串 H 也就是把 Pr H P 最大化 根据贝叶斯法则 我们有 Pr Pr Pr maxarg Pr maxarg P HHP PHH HH 2 1 这个问题可以分成两个部分 键入模型 Pr P H 和语言模型 Pr H 从理论上说 可以列举出汉字串 H 中所有的汉字 使得 Pr H P 值最大的汉字串作为 最优的汉字序列 在实际操作上 将使用一些高效的方法 如韦特比柱搜索 Kai Fu Lee 1989 Chin hui Lee 1996 公式 2 1 中的中文语言模型 Pr H 衡量一个中文词串的先验概率 它通常由一个统 计语言模型 SLM 来得到 如 3 元文法 Pr P H 称为键入模型 衡量的是一个中文词 串 H 键入为拼音串 P 的概率 H 通常由中文词语组成 可以分解为 w1 w2 wn 这里 wi可以是一个中文词语或 者汉字 因此 键入模型可以重写为公式 2 2 n i iif wPHP 1 Pr Pr 2 2 这里 Pf i 是 wi的拼音 现在使用最广泛的统计语言模型是所谓的 n 元隐马尔科夫模型 Frederick 1997 有些时 候 统计语言模型使用 2 元或者 3 元文法 后者已被广泛用于对英文的处理 使用大规模训 练语料 3 元模型也可以用来处理中文 首先 从报纸和互联网上获取大量文章作为训练语 料 然后 使用一些新的筛选方法来选择平衡语料用于建立 3 元模型 最后 得到了一个强 大的语言模型 在实际应用中 我们采用困惑度 perplexity Kai Fu Lee 1989 Frederick 1997 来评估统计语言模型的性能 如公式 2 3 N i ii wwP N PP 1 1 log 1 2 2 3 这里 N 是测试语料的大小 应用到语言模型上 困惑度可以被粗略地看作是文档的分 支因素的算术平均值 很明显 困惑度越低越好 我们建立了一个系统 用于多领域的通用中文 3 元词语统计模型 使用了 16 亿字的语 料进行训练 我们评测了该系统的困惑度 在 7 个领域的语料中 字的困惑度为 34 4 我们 还评测了拼音 汉字转换的性能 与现有的市场产品相比 在同样的内存条件下 我们的 系统的错误率降低了 50 在无内存限制的条件下 性能提升了 76 Jianfeng et al 2000 3 拼写纠正 3 1 键入错误键入错误 整句输入方法是把拼音串转换为中文词串 但是这种方法假设用户输入的拼音是正确 2 计算语言学原著导读 课程论文翻译 11 29 2004 的 错误的输入会导致转换过程中产生更多的错误 对于中国用户来说 这个问题是非常严 重的 因为 1 中国人不像美国人打英文那样频繁地打拼音 2 中国有许多方言 许多人并不讲标准的普通话 汉语拼音的来源 如中国南部的 人不区分 zh 和 z sh 和 s ch 和 c ng 和 n 等等 3 由于拼音输入不是一种 所见即所得 的输入方法 对于中国人来说 在输入拼音 时更难发现错误 已有的实验表明 用户键入拼音时并不做检查 而是等到汉字开 始出现以后才发现检查输入错误 3 2 拼写纠正拼写纠正 通常地 在传统的基于统计的拼音 汉字转换系统中 对于公式 2 2 中的 Pr Pf i wi 如果 Pf i 是词 wi 的拼音之一 则设定为 1 否则设为 0 因此 这些系统都完全依赖于语 言模型进行转换 而且 对于输入的拼音没有任何的容错能力 一些系统使用了 南方模糊 音 属性来解决这个问题 但这只占键入错误的一小部分 因为它并不是数据驱动的 没有 从真实的错误输入数据中进行学习 我们的方法是从真实语料中训练 Pr Pf i wi 的概率 有许多方法可以用来建立输入模型 从理论上说 我们可以训练所有的 Pr Pf i wi 但这样训练的参数过多 为了减少训练参数的数量 我们只考虑单字词 把同音字映射到同 一个音节上 汉语只有大约 406 个音节 这是一个简化了的训练 Pr 拼音串 音节 然后再 把每个汉字映射到相应的音节 根据心理学家 William 1983 的统计数据 可以把用户在输入过程中常犯的错误分为 以下几类 1 替代错误 用户在输入过程中 把一个键误敲为另一个键 这种错误主要是由键 盘的布局造成的 在输入错误中 43 的错误是由于键盘上同一行相邻的两个键引 起的 15 的错误是同一列相邻的两个键引起的 两只手相同手指的错位引起的错 误占到了 10 William 1983 2 插入错误 用户在输入过程中 多敲了一些键 一个原因是由于键盘的布局造成 的 而不同的方言对语主的影响也会产生这种错误 3 删除错误 用户在输入过程中漏敲了一些键 4 其他输入错误 上述三种错误类型以外的错误 如 两个字符输入次序颠倒造成 的颠倒错误 我们使用的是从心理学上得到的模型 但是模型的参数由真实语料训练来得到 如同语 音识别 Kai Fu Lee 1989 的统计模型训练 在语音识别中 每个音节可以由一个隐马尔科 夫模型 HMM 来表示 每个音节的发音样本被映射到隐马模型的状态序列中 而状态之 间的转移概率可以从真实训练语料中得到 相似地 在拼音输入中 输入的每个字符可以看 作是一个状态 然后 我们可以把正确的输入和真实的输入联系起来 找到每个状态的转移 概率 最后 对于不同水平的用户可以使用不同的隐马模型 训练汉语的 406 个音节 需要大量的数据 我们降低了这个数据需求 把出现在不同音 节或同一个音节中的字母 作为一个状态 这样 状态的数量就减少到了 27 个 26 个不同 的字母 从 到 z 另外还有一个表示输入其他字符的状态 该模型可以整合到一 个 3 元语言模型的韦特比柱搜索中 3 3 实验实验 键入模型由用户的真实输入作为训练 我们收集了 100 个用户的真实输入数据 每个用 户大约有 8 小时的键入数据 其中 90 用做训练 剩下的 10 用于测试 测试语料的字困 惑度为 66 69 词困惑度为 653 71 首先 我们测试了无拼写纠正的基线系统 有两组输入 一个是完美的输入 即不是用 3 计算语言学原著导读 课程论文翻译 11 29 2004 户的输入 一个是包含了真实打字错误的实际的输入 表 3 1 给出了拼音转换为汉字的错 误率 错误率错误率 完美输入完美输入6 82 实际输入实际输入20 84 表 3 1 无拼写纠正的系统 在实际输入数据中 大约只有4 6 的汉字是打错的 这4 6 的错误在运行中会导致更多 的错误 从表3 1我们发现 在整个系统中 它导致错误率上升了三倍 由此表明 对于用 户来说 在使用整句输入法时 系统的容错能力是非常重要的 例如 用户输入一个拼音串 wisiyigezhonguoren 我是一个中国人 没有容错能力的系统将把它转换为类似下面的汉字 串 wi肆意各种肆意各种u哦人哦人 另一个实验是来验证动态拼写纠正的概念 我们使用动态拼写纠正的动机 是想给水平 低的用户以更多的错误纠正 这个层面上的纠正可以由 语言模型权重 LM 权重 来控制 Frederick 1997 Bahl et al 1980 X Huang et al 1993 公式 3 1 给出了 LM 权重的应用 Pr Pr maxarg Pr maxarg HHPPHH HH 3 1 这里 是 LM 权重 使用与上一个实验相同的数据 但应用的是键入模型 并改变 LM 权值 图 3 1 给出了 实验结果 拼写纠正 完美输入转换的错误率 实际输入转换的错误率 语言模型权重 实际的拼音输入 完美的拼音输入 图 3 1 不同的语言模型权重以及不同质量的输入对系统性能的影响 从图 3 1 可以看出 不同的 LM 权重 对系统性能有着不同的影响 当 LM 权重为 0 5 时 转换的错误率大约下降了 30 例如 wisiyigezhonguoren 就可以得到正确的转换 如果我们根据用户的水平来设置不同的 LM 权重 就可以得到更低的错误率 为了证实 这一点 我们从测试语料中挑选了 3 个用户 以及一个理想用户 假设其输入没有任何错误 设置不同的 LM 权重来测试系统的错误率 表 3 2 给出了实验结果 4 计算语言学原著导读 课程论文翻译 11 29 2004 1 2 3 动态 动态 用户用户 0 6 85 7 11 7 77 6 85 用户用户 1 8 15 8 23 8 66 8 15 用户用户 2 13 90 12 86 12 91 12 86 用户用户 3 19 15 18 19 17 77 17 77 平均值平均值 12 01 11 60 11 78 10 16 表 3 2 基于用户的动态调整 用户 1 2 3 输入的平均错误率分别为 0 77 4 41 5 73 从表 3 2 可以看出 对于每个用户 最佳的权重是不同的 在真实的系统中 打字熟练 的用户的权重可以设置得低一些 而且用户的水平可以这样来衡量 1 打字时修改的次数 2 可以估算输入文本时不同难度的键入时间分布 用来衡量用户的水平 根据用户输 入的文本 统计输入时使用的手指的难易程度 计算出平均所需的键入时间 然后 根据用户实际输入时间判断其熟练程度 4 无模式输入无模式输入 拼音输入法的另一个用户界面问题是 语言模式的切换 在中文文档中输入英文单词时 需要做模式切换 而用户很容易忘记切换 在我们的工作中 提出了一种新的拼写模型来让 系统自动地探查哪个是中文词 哪个是英文词 我们称之为无模式的拼音输入 这个工作并 不像看起来的那么简单 因为许多合法的英文词同时也是合法的拼音串 由于汉字之间 中 文词和英文词之间没有打上空格 我们从输入中遇到了更多的歧义 解决这个问题的办法与 语音识别相类似 如公式 4 2 使用贝叶斯公式把目标函数 公式 4 1 分成两部分 一个是 英文的拼写模型 一个是中文语言模型 目标 4 1 H PHH Pr maxarg 贝叶斯法则 Pr Pr Pr maxarg P HHP H H 4 2 一种常用的方法是把英文单词作为一个单独的范畴 然后把作为一个中文 词训练到我们的中文语言模型 3 元 中 同样地 我们可以训练一个由以下几个方面构成 的英文的拼写模型 1 在带有英文的真实的中文文本上训练一个一元模型 它可以处理许多频繁使用的英文词 语 但无法预测未登录的英文单词 2 一个 英文拼写模型 由 3 音节概率组成 对于每个 3 音节串 该模型应该有非 0 概 率 但对于类似英文单词的词语也应该给出一个较高的概率 这个模型可以从真实的英 文词语中进行训练 也可以处理未登录的英文单词 一般来说 这个英文拼写模型对于真正的英文词串应该返回非常高的概率 对于像英语 单词的字母序列返回高概率 而对于非英语单词串返回低概率 在实际的识别过程中 该英 文模型与中文拼写模型同时运行 因此也可以相互比较 我们可以得到以下几种情况 1 如果一个序列是明确的拼音 拼音模型将得到更高的得分 2 如果一个序列是明确的英文 英文模型将得到更高的得分 3 如果是一个歧义序列 这两个模型在搜索过程中受挫 除非有更好的上下文来消歧 4 如果一个序列既不像拼音又不像英文单词 则拼音模型的容错能力要低于英文 3 音节模 5 计算语言学原著导读 课程论文翻译 11 29 2004 型 而字符串将更可能保留作英文 因为它可能是一个专名或者缩写 如 IEEE 在训练过程中 我们选取了一些常用的英文音节 包括 26 个大小写字母 英文单词词 首 词尾以及未登录音节 使用这些音节 对训练语料中的英文单词或者拼音进行切分 然 后 我们训练每个 3 音节的概率 这个音节模型就可以用于搜索 来衡量一个输入序列是一 个英文单词还是一个中文词语 这个概率可以和中文语言模型绑定 来寻找最可能的中英文 词 下面是用于测试无模式拼音输入法的一些实验 首先 我们告诉系统英文单词和中文词 语的边界 测试系统的错误 然后 我们让系统自动地判定英文单词和中文词语的边界 再 测试一下系统的错误 表 4 1 给出了实验结果 整体错误率整体错误率英文错误率英文错误率 完美的边界判定完美的边界判定 4 19 0 混合语言搜索 英文混合语言搜索 英文 3 字母拼写模型 字母拼写模型 4 28 3 6 混合语言搜索混合语言搜索 拼写纠正 英文拼写纠正 英文 3 字母拼写模型 字母拼写模型 4 31 4 5 表 4 1 无模式拼音输入法 仅选择 52 个英文字母加到英文音节列表中 在我们的无模式方法中 只把 52 个英文字母加到了英文音节列表中 并且基于语料训 练了一个 3 字母拼写模型 如果我们让系统自动地判定英文词和中文词的边界 发现错误率 大约在 3 6 即 系统在判定边界时出现了一些错误 而且发现英文的拼写模型可以与拼 写纠正同时运行 错误率增长有限 另一个实验使用了扩展音节列表 选择了 1000 个常用的英文音节增加到音节列表中去 然后 我们使用语料训练了一个 3 音节模型 表 4 2 给出了实验结果 整体错误率整体错误率英文错误率英文错误率 完美的边界判定完美的边界判定 4 19 0 英文英文 3 字母拼写模型字母拼写模型4 28 3 6 英文英文 3 音节拼写模型音节拼写模型4 26 2 77 表 4 2 无模式拼音输入法 1000 常用英文音节 52 个英文字母 1 未登录音节标记 从表 4 2 可以看出 适当地提高拼写模型的复杂度对系统有所帮助 5 结论结论 本文针对拼音输入提出了一个统计方法 使用了一个中文统计语言模型 我们得到了 95 的转换正确率 比商用产品提高了 50 进一步地 为了使系统在真实的环境下可用 我们提出了拼写模型 可以让用户输入中文和英文而无需语言模式的转换 以及一个键入模 型 使系统能够容纳输入错误 与系统的基线相比 我们的系统在错误率上大约降低了 30 致谢致谢 衷心感谢黄昌宁 聂建云 李明镜给本文的建议 参考文献参考文献 1 Chen Yuan 1997 12 Chinese Language Processing Shang Hai education publishing company 陈原 汉语 语言文字信息处理 M 上海 上海教育出版社 1997 12 2 Jianfeng Gao Hai Feng Wang Mingjing Li Kai Fu Lee 2000 A Unified Approach to Statistical Language 6 计算语言学原著导读 课程论文翻译 11 29 2004 Modeling for Chinese IEEE ICASSP 2000 3 Kai Fu Lee 1989 Automatic Speech Recognition Kluwer Academic Publishers 4 Chin Hui Lee Frank K Soong Kuldip K Paliwal 1996 Automatic Speech and Speaker Recognition Advanced Topics Kluwer Academic Publishers 5 Frederick Jelinek 1997 Statistical Methods for Speech Recognition The MIT Press Cambridge Massachusetts 6 William E Cooper 1983 Cognitive Aspects of Skilled Typewriting Springer Verlag New York Inc 7 Bahl L Bakis R Jelinek F and Mercer R 1980 Language Model Accoustic Channel Balabnce Mechanism IBM Technical Disclosure Bulletin v

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论