中文拼音输入的一种新的统计方法.ppt_第1页
中文拼音输入的一种新的统计方法.ppt_第2页
中文拼音输入的一种新的统计方法.ppt_第3页
中文拼音输入的一种新的统计方法.ppt_第4页
中文拼音输入的一种新的统计方法.ppt_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2020/6/19,计算语言学原著选读,1,中文拼音输入的一种新的统计方法,作者:陈正李开复翻译:李斌导师:陈小荷Email:gothere,2020/6/19,计算语言学原著选读,2,内容提要,汉字输入法背景介绍智能输入法中文拼音输入的一种新的统计方法输入法展望问题讨论,2020/6/19,计算语言学原著选读,3,汉字编码输入历史,1950s,俄汉机器翻译研究,电报码、四角号码。1960s,秉彝,见字识码方案。1978.12,青岛,首次汉字编码研究会,汉字编码方案。1983,词编码方案。1980s末,词语输入为主,“以词定字”技术,使大量的同音字得以区分。字输入阶段,形码的成果多于音码;进入

2、词输入和句输入阶段,音码的发展比形码快。,2020/6/19,计算语言学原著选读,4,汉字输入法汉字字符集电脑软硬件的发展,2020/6/19,计算语言学原著选读,5,手机输入T9,勿庸置疑,美国特捷通讯公司旗下的文字输入法自年公布以来一直是全球领先的手机文字输入方式,在欧洲、亚洲和美国,所有主要的均得到了授权。,目前输入法支持的语言也已突破种,其支持的语言种类仍在扩展之中。年,共有亿台的产品向市场销售,世界上预装有输入法的手机也已超过款。,2020/6/19,计算语言学原著选读,6,国家标准,汉语拼音方案、汉字笔顺规范和汉字部件规范GB/T14159-93通用汉字编码输入方法评测规则GB/T

3、15732-1995汉字键盘输入用通用词语集GB/T16295-1996通用键盘汉字输入技能测试方法强制性国家标准GB18030-2000信息技术信息交换用汉字编码字符集基本集的扩充推荐性标准GB/T18031-2000信息技术数字键盘汉字输入通用要求,2020/6/19,计算语言学原著选读,7,传统的字输入法,如何让打字变得更快、更好学、更便于思维?,2020/6/19,计算语言学原著选读,8,智能输入法想到即得到,第一条路,在编码方式上下功夫编码原理简单、重码低、易学易用、输入速度快、便于思维五笔、形音、其它的字输入法第二条路,利用更大的单位来减少重码字词智能ABC以及各种词输入法第三条路

4、,词库及编码优化简化输入(词组首码)、词频调整、方言属性、自学习词库第四条路,利用构词规则、句法规则、模板词词组句子词组:拼音加加、紫光;句子:智能狂拼第五条路,利用上下文青月亮(上文4、下文1)、微软2003(3元文法),2020/6/19,计算语言学原著选读,9,微软2003的改进,中文拼音输入的一种新的统计方法陈正李开复ZhengChen,andKai-FuLee.“AnewstatisticalapproachtoChinesepinyininput”.The38thAnnualMeetingoftheAssociationforComputationalLinguistics,Hon

5、gKong,3-6October2000,2020/6/19,计算语言学原著选读,10,作者简介,陈正,1999加入微软,主要兴趣为机器学习、信息检索、语音识别、自然语言处理、多媒体信息检索、个人信息管理、人工智能。在清华大学计算机系获得学士、硕士、博士学位。,2020/6/19,计算语言学原著选读,11,作者简介,李开复,1998年加入微软,微软亚洲研究院的创始人。哥伦比亚大学学士学位,卡内基美隆大学(CarnegieMellonUniversity)博士,世界上第一个适应发音人的连续的语音识别系统,1988年,制作的“Othello”游戏软件,击败了世界冠军。,2020/6/19,计算语言

6、学原著选读,12,内容摘要,对于中国电脑用户来说,汉字输入是一个重要的挑战。本文提出了一个基于拼音输入的统计方法。该方法使用了一个中文3元语言模型以及一个基于统计的分词系统。为了处理真实的输入问题,它还包括:键入模型,在整句输入法中修正拼写为英文设计的拼写模型来实现无模式的拼音输入,2020/6/19,计算语言学原著选读,13,目录,概述拼音输入问题和本文思路;简要讨论了整句输入法的中文语言模型;介绍了用来解决用户键入错误的键入模型;提出了一个用于区分拼音和英文的英文拼写模型;给出了一些结论。,2020/6/19,计算语言学原著选读,14,1引言,对于中国的电脑用户来说,汉字输入法是最为困难的

7、问题之一。现在主要有两种汉字输入法:一种是基于字形的,如五笔字型;一种是基于拼音或者语音的,如中文之星、微软拼音等等。(易学易用,赢得了97%的中国用户,陈原,1997)拼音输入的主要问题:拼音汉字转换错误(词以上的单位)用户的输入错误(输入法普遍存在的问题)用户界面问题(输入非英语或非拼音文字时)如,中英文混合输入时的用户需要在两种模式间进行切换。,2020/6/19,计算语言学原著选读,15,整句输入的系统,拼音输入法的音字转换困难的根源:406音节6763汉字整句输入利用了上下文,在理论上应该优于词语输入由此,设计了一个统一的方法用于中文统计语言模型建模。使用3元统计语言模型,结合自动的

8、、基于最大似然估计的方法来分词,选择词典,过滤训练数据。与现有的市场产品相比,在同样的内存条件下,该系统的错误率降低了50%;在无内存限制的条件下,性能提升了76%(Jianfengetal.2000)。,2020/6/19,计算语言学原著选读,16,整句输入法的问题和解决方法,存在问题:系统总是假设用户的输入是完全正确的。在中英文混合输入时,需要在两种模式之间切换。键入模型,不仅可以接受正确的拼写,还能够容纳一些常见的键入错误。英文概率拼写模型,计算输入串是英文单词的概率。两个模型同时运行,由一个中文语言模型引导,来输出概率最大的中英文序列。,2020/6/19,计算语言学原著选读,17,2

9、中文语言模型,拼音汉字:woshiyigezhongguoren我是一个中国人在拼音汉字的转换过程中,给定一个拼音串P,目标是找到相应的可能性最大的汉字串H,也就是把Pr(H|P)最大化。根据贝叶斯法则,有,(2.1)这个问题可以分成两个部分,键入模型Pr(P|H)和语言模型Pr(H)。,2020/6/19,计算语言学原著选读,18,模型分解,键入模型Pr(P|H)从理论上说,可以列举出汉字串H中所有的汉字,使得Pr(H|P)值最大的汉字串作为最优的汉字序列。在实际操作上,将使用一些高效的方法,如韦特比柱搜索(Kai-FuLee1989;Chin-huiLee1996)。中文语言模型Pr(H)

10、衡量一个中文词串的先验概率。它通常由一个统计语言模型(SLM)来得到,如3元文法。,2020/6/19,计算语言学原著选读,19,键入模型Pr(P|H),键入模型Pr(P|H),衡量的是一个中文词串H键入为拼音串P的概率。H通常由中文词语组成,可以分解为w1,w2,wi,wn。这里wi可以是一个中文词语或者汉字。因此,键入模型可以重写为公式2.2。(2.2)这里,Pf(i)是wi的拼音,现有的方法,降wi为字。,2020/6/19,计算语言学原著选读,20,woshiyigezhongguoren我市一格中国人窝时已个种果仁沃是易歌钟过任卧使已割重裹忍把拼音串切分为音节利用P(音节|汉字)的概

11、率来选择候选汉字,2020/6/19,计算语言学原著选读,21,中文语言模型P(H)困惑度(perplexity),N,是语料的大小。P(wi|wi-1)的值越大,说明邻接词语转移的确定性越大,PP值就越小。作用:评估语言模型性能,可以用来做EM算法的收敛,2020/6/19,计算语言学原著选读,22,测试语料,7领域语料的字困惑度为34.4,2020/6/19,计算语言学原著选读,23,5个模型,2020/6/19,计算语言学原著选读,24,3元模型基线系统评测,多领域的通用中文3元词语统计模型,16亿字训练,2020/6/19,计算语言学原著选读,25,3拼写纠正键入错误分析,整句输入方法

12、:拼音串中文词串这种方法假设用户输入的拼音是正确的。而错误的输入会导致更多的错误。对于中国用户来说,这个问题非常严重,因为:中国人不像美国人打英文那样频繁地打拼音。中国有许多方言,许多人并不讲标准的普通话(汉语拼音的来源),如中国南部的人不区分zh和z,sh和s,ch和c,ng和n等等。由于拼音输入不是一种“所见即所得”的输入方法,实验表明,用户键入拼音时并不做检查,而是等到汉字开始出现以后才开始检查输入错误。,2020/6/19,计算语言学原著选读,26,键入错误类型,根据心理学家(William1983)的统计数据,可以把用户在输入过程中常犯的错误分为以下几类:替代错误:把一个键误敲为另一

13、个键。键盘的布局造成。43%的错误同一行相邻的两个键15%的错误同一列相邻的两个键10%的错误两只手相同手指的错位插入错误:输入过程中,多敲了一些键。键盘的布局不同的方言对语主的影响删除错误:输入过程中,漏敲了一些键。其他输入错误:如,两个字符输入次序颠倒造成的颠倒错误。,2020/6/19,计算语言学原著选读,27,建立HMM模型,类似语音识别(Kai-FuLee1989),建立统计语言模型在拼音输入中,输入的每个字符可以看作是一个状态。然后,我们可以把正确的输入和真实的输入联系起来,找到每个状态的转移概率。最后,对于不同水平的用户可以使用不同的隐马模型。406个音节27个状态(26个字母+

14、其它)训练使用韦特比柱搜索算法,2020/6/19,计算语言学原著选读,28,三个子模型,替代:a打成b插入:a后面插入b删除:a后面删除b,2020/6/19,计算语言学原著选读,29,整体模型,3个模型,训练参数为27*27*3,训练中大量数据稀疏构造先验模型M1真实训练得出的模型M2插值:M=M1+(1-)M2,2020/6/19,计算语言学原著选读,30,对比实验,收集了100个用户的真实输入数据,每个用户大约有8小时的键入数据。其中,90%用做训练,剩下的10%用于测试。测试语料的字困惑度为66.69,词困惑度为653.71。,表3.1无拼写纠正的系统,2020/6/19,计算语言学

15、原著选读,31,拼写纠正,在使用整句输入法时,系统的容错能力是非常重要的。wisiyigezhonguoren(我是一个中国人)wi肆意各种u哦人动机:想给水平低的用户以更多的错误纠正。由语言模型权重(LM权重,)来控制。(Frederick1997;Bahletal.1980;X.Huangetal.1993),2020/6/19,计算语言学原著选读,32,实验结果,拼写纠正,完美输入转换的错误率,实际输入转换的错误率,实际的拼音输入,完美的拼音输入,语言模型权重,图3.1不同的语言模型权重以及不同质量的输入对系统性能的影响,2020/6/19,计算语言学原著选读,33,基于用户的动态调整(

16、表3.2),实际系统中,判定用户水平键入中的修改次数统计输入时使用的手指的难易程度,计算出平均所需的键入时间,然后根据用户实际输入时间进行判断。,2020/6/19,计算语言学原著选读,34,4无模式输入,用户界面问题:中英文混合输入时,需要做模式切换提出:无模式输入法把英文单词作为范畴,在中文语言模型中作为一个中文词进行训练。在带有英文的真实的中文文本上训练一个一元模型,它可以处理许多频繁使用的英文词语,但无法预测未登录的英文单词。一个“英文拼写模型”,由3音节概率组成,对于每个3音节串,该模型应该有非0概率。但对于类似英文单词的词语也应该给出一个较高的概率。这个模型可以从真实的英文词语中进

17、行训练,也可以处理未登录的英文单词。,2020/6/19,计算语言学原著选读,35,拼写模型的运行,英文拼写模型与中文拼写模型同时运行(因此也可以相互比较),我们可以得到以下几种情况:如果是明确的拼音,拼音模型将得到更高的得分。如果是明确的英文,英文模型将得到更高的得分。如果是一个歧义序列,则受挫,除非有更好的上下文来消歧。如果一个序列既不像拼音又不像英文单词,则字符串将更可能保留作英文,因为它可能是一个专名或者缩写(如,“IEEE”)。,2020/6/19,计算语言学原著选读,36,模型训练,训练时,选择一些常用的英文音节,包括26个字母的大小写、词首、词尾、其它未知的音节。利用以上的音节,

18、把字母序列进行切分,训练每个三音节的概率。应用:利用得到的概率,来判定一个输入序列是中文词/英文词。可以与中文语言模型邦定使用。,2020/6/19,计算语言学原著选读,37,无模式输入实验结果1,分析:让系统自动判定边界,会有一些错误;可以和拼写模型邦定。,表4.1无模式拼音输入法(仅选择52个英文字母加到英文音节列表中),2020/6/19,计算语言学原著选读,38,无模式输入实验结果2,分析:增加拼写模型的复杂度对系统有益。,表4.2无模式拼音输入法(1000常用英文音节+52个英文字母+1未登录音节标记),2020/6/19,计算语言学原著选读,39,结论,本文针对拼音输入提出了一个统计方法,使用了一个中文统计语言模型。我们得到了95%的转换正确率,比商用产品提高了50%。为了使系统在真实的环境下可用,我们提出了拼写模型,可以让用户输入中文和英文而无需语言模式的转换。以及一个键入模型,使系统能够容纳输入错误。与系统的基线相比,我们的系统在错误率上大约降低了30%。,2020/6/19,计算语言学原著选读,40,致谢,衷心感谢黄昌宁、聂

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论