




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、汉语语言模型研究与其在音字转换中应用汉语语言模型研究与其在音字转换中应用1 绪论本文研究的目的和意义计算语言学概述相关领域研究与发展综述统计语言建模技术汉语语言模型研究与其在音字转换中应用基于统计的计算语言模型给定所有可能的句子,统计语言模型就是一个概率分布 :条件概率形式:N-gram模型:)( spniiindefhwpwwpsp11)|(),()(niiNiiwwwpsp111),|()(汉语语言模型研究与其在音字转换中应用统计语言模型的作用 信源信道模型 :I:语言文本;O:声音信号、字符图像信号、拼音输入等。语言模型:)|()(maxarg)()|()(maxarg)|(maxarg
2、IOpIpOpIOpIpOIpIIII)(Ip汉语语言模型研究与其在音字转换中应用统计语言模型建模方法 极大似然方法语言建模贝叶斯方法)|(maxargMXPMM)|(maxargXMPMM)()()|(maxargXPMPMXPMM)()|(maxargMPMXPMM汉语语言模型研究与其在音字转换中应用统计语言模型的评价标准 熵(Entropy)交叉熵(Cross Entropy)复杂度(Perplexity) )(log1)(1limnnxpnLHxMTMTxPxPPPH)(log)();( );( 2)(MTPPHMTPP汉语语言模型研究与其在音字转换中应用参数学习和数据平滑参数学习 有
3、指导学习-基于完全数据的最大可能性估计 无指导学习(针对不完全数据的)具有隐含变量的参数训练过程EM算法数据平滑-Good-Turing估计 、回退平滑和线性插值技术;变长N-gram模型、网格方法、压缩模型 汉语语言模型研究与其在音字转换中应用当前主要语言模型N-gram模型决策树模型指数模型(最大熵模型)整句模型文法模型概率上下文无关文法链文法概率依存文法自适应模型汉语语言模型研究与其在音字转换中应用统计语言模型存在的不足之处 最成功的统计语言建模技术很少使用真实的语言知识 跨领域的适应能力差 不能有效处理长距离语言约束:为保证可行性,所有现有的语言模型都在文本的不同部分之间作了独立假设。
4、汉语语言模型的独特问题 汉语语言模型研究与其在音字转换中应用本文的目标 针 对 汉 语统 计 模 型的 参 数 训练 问 题 进行 研 究 应 用 于 手 机类 信 息 设 备 的 智 能 拼 音 汉 字 输 入 改 进 音 字 转 换 引 入 语 言知 识 , 提 高统 计 模 型的 描 述 能力 研 究 汉 语模 型 的 自适 应 和 机器 学 习 方法 汉语语言模型研究与其在音字转换中应用本文主要工作汉语统计语言模型参数训练的优化 基于语言元素的汉语统计模型 汉语语言模型的自适应方法 面向手机类设备的智能拼音汉字输入方法 汉语语言模型研究与其在音字转换中应用2 汉语统计语言模型参数训练的
5、优化 iwiNiiNiiNiiwwcwwcwwwp)()()|(1111 语料 库 分词 语料 参数 估计 语言 模型 分词 系统 词表 汉语语言模型研究与其在音字转换中应用问题的分析汉语统计模型的准确构建和优化涉及到以下几个问题 :词表的确定(生词识别)分词 参数估计 三者存在因果关系词表分词 分词参数估计(模型) 参数估计(模型)词表优化汉语语言模型研究与其在音字转换中应用分词-生词识别-参数估计迭代算法的提出非迭代过程的缺点:几个过程不能相互作用,相互促进迭代过程的优点:对分词的影响:更好地解决分词歧义问题,提高分词精度对生词识别的影响:减少不合理的候选生词 排除伪生词,生词自动消歧,减
6、少后处理过程对模型的影响:逐步优化词表、提高参数估计精度、提高音字转换正确率汉语语言模型研究与其在音字转换中应用基于N-gram信息的生词获取 基本思想:N元对词频过滤互信息过滤校正生词获取词频互信息(Mutual Information)词频与互信息的关系候选生词的校正)()(),(log);(212121wpwpwwpwwI汉语语言模型研究与其在音字转换中应用基于N-gram信息的生词获取结果分析MI因素:准确率随着互信息值的升高而升高,但抽取出的元组的数量也随之减少 ;WF因素:准确率随着词频值的升高而降低,抽取出的元组数量也随之减少。影响结果的其他因素分词错误:“不容易”、“和服务”量
7、词:“个百分点”、“集电视连续剧”、“届世乒赛”姓氏:“新华社记者刘”、“新华社记者王” 汉语语言模型研究与其在音字转换中应用基于统计和规则方法的中文人名识别 问题的提出主要方法规则方法:准确;规则库冲突、复杂、庞大统计方法:资源少、效率高;准确率低 混合方法:取长补短本文方法:先规则,后统计;充分利用各种资源;采用分词预处理汉语语言模型研究与其在音字转换中应用基于统计和规则方法的中文人名识别中文姓名用字特点(82年人口普查结果)729个姓氏用字姓氏分布很不均匀,但相对集中 有些姓氏可用作单字词 名字用字分布较姓氏要平缓、分散 名字用字涉及范围广 某些汉字既可用作姓氏,又可用作名字用字汉语语言
8、模型研究与其在音字转换中应用人名识别系统知识库姓氏用字频率库和名字用字频率库:653个单姓氏,15个复姓,1894个名字用字 的总出现次数用作姓氏的次数作为姓氏cccp)(的总出现次数用作名字用字的次数作为名字用字cccp)(汉语语言模型研究与其在音字转换中应用人名识别系统知识库名字常用词表 朝阳 劲松 爱国 建国 立新 黎明 宏伟 朝晖 向阳 海燕 爱民 凤山 雪松 新民 剑峰 建军 红旗 光明汉语语言模型研究与其在音字转换中应用人名识别系统知识库称谓库三种类型 只能用于姓名之前,如:战士、歌星、演员等; 只能用于姓名之后,如:阁下、之流等; 姓名前后皆可,如:先生、主席、市长等。 称谓前缀
9、表:“副”、“总”、“代”、“代理”、“助理”、“常务”、“名誉”、“荣誉”等 汉语语言模型研究与其在音字转换中应用人名识别系统知识库简单上下文指界词表:约110个词动词:说、是、指出、认为、表示、参加等; 介词:在、之、的、被 、以等; 正在、今天、本人、先后等。 标点符号集人名出现在句首或句尾(包括分句)的机会比较大,标点符号可用来帮助判断人名的边界。 顿号一边是人名时,另一边的候选人名的可靠性高。 汉语语言模型研究与其在音字转换中应用人名识别系统知识库非名字用词表:有些双字词,如:时间、奖励、纬度等不作名字用词,但因为组成它们的单字可作为名字用字,如果跟在姓氏后面,往往会将其与可作姓氏的
10、字一起误判为姓名。例:“做这件事花了我们一段时间。” 汉语语言模型研究与其在音字转换中应用中文人名识别过程 待处理文本 潜在姓名表 切分预处理 校正 识别结果 系统资源表知识库 中文人名识别 汉语语言模型研究与其在音字转换中应用人名识别的具体实现 姓氏判别名字识别概率判断候选字符串为人名的概率为: P = 姓氏部分为姓氏的概率P1 * 余下部分的汉字作名字用字的概率P2*P3(单名时,为P2) 汉语语言模型研究与其在音字转换中应用校正(对潜在人名的后处理)自动校正:如果两个潜在人名相似,考察它们的权值。一高一低时,将低权的潜在人名清除;都为高权时,两者都认为是人名;都是低权时,则各自通过第三个
11、字作名字用字的概率大小来判断。概率够高,识别为人名。否则将第三个字去掉。 人工校正汉语语言模型研究与其在音字转换中应用人名识别结果与分析 实验结果:8个测试样本,共22000多字,共有中文人名270个。系统共识别出中文人名330个,其中267个为真正人名。 召回率=267/270*100% =98.89% 准确率=267/330*100% =80.91% 准确率和召回率是互相制约的,可通过概率阈值的调整来调节二者的关系。 汉语语言模型研究与其在音字转换中应用人名识别结果与分析产生错误的主要原因被未识别的地名干扰。“湖北英山县詹家河乡陶家河村, ”受非中式人名的干扰。“司马义艾买提 ”分词结果不
12、理想。“为迎接香港回归送贺礼” 规则不准确。“南宋大诗人杨万里“惊如汉殿三千女, ”其他。“全世界每年影片产量高达两三千部, ”汉语语言模型研究与其在音字转换中应用汉语N-gram模型参数训练的迭代算法 语料 库 分词 语料 参数 估计 语言 模型 新词 识别 词典 优化 分词 初始 词典 新词 表 优化 词典 汉语语言模型研究与其在音字转换中应用汉语N-gram模型构建的迭代算法 算法描述1. 利用初始词典0V对未分词语料库进行首次分词处理,构造初始语言模型0P。 2. 利用词典iV和语言模型iP对语料库重新分词。 3. 在分词语料基础上进行新词识别。 4. 对词典进行优化,生成优化词典1i
13、V。 5. 针对优化词典进行参数估计,获得优化语言模型1iP。 6. 反复执行 2-5 的过程,直到分词结果无明显变化或执行完某一限定的迭代次数。 汉语语言模型研究与其在音字转换中应用实验结果和分析 本文针对 Bi-gram 模型进行了实验, 初始词典规模为 24686, 实验文本为 2000 万字的人民日报语料。 实验表明,大部分的新词在第一次迭代过程中即已识别出来,后面的迭代过程只进行较小的调整并很快趋于收敛。经过三次迭代过程,共接受新词 911 个,其中中文人名 359 个。 分别采用 FMM 方法、不带新词识别的优化语言模型和带新词识别的优化语言模型进行分词实验,通过对测试语料的抽样检
14、查,分词准确率分别达到 96.4%、97.3%和 97.9%。 针对拼音汉字转换问题对优化模型进行了测试,音字转换错误率降低了 3.4 个百分点。 汉语语言模型研究与其在音字转换中应用3基于语言元素的汉语统计模型 已有实验结论:基于词的语言模型性能要明显优于同阶的基于字的模型,高阶模型优于低阶模型提高语言模型描述能力的途径:提高模型阶数扩展语言单位目标:在保持模型阶数不变的条件下,有效提高模型的描述能力汉语语言模型研究与其在音字转换中应用当前主要处理方法此方向的探索:基于短语和基于分词模式的语言模型 目前短语选取和概率计算方法存在缺陷: 短语的选取标准只考虑了降低模型复杂度的因素,并没有考虑短
15、语构成的内在语言规律 短语集的规模通常十分巨大,导致模型空间增长,同时相对减少了训练数据量训练数据的重新分割使得短语成为不可分割的语言单位,将导致构成短语的单个词的概率估计不准确汉语语言模型研究与其在音字转换中应用当前主要处理方法规则统计相结合的模型 将模型的单位延伸至语言分析的结果,统称为语言元素,元素间概率计算利用已有词模型的参数近似估计(本课题组前人工作) 特点:避免概率模型的大幅度增加,提高语言单位获取的灵活性;能够处理长距离语言关系和递归问题汉语语言模型研究与其在音字转换中应用本文方法:基于语言元素的汉语N-gram语言模型引入元素数量约束根据语言规则层次特点对概率值进行加权利用规则
16、可信度、词可信度加权特点:保持原有特点;进一步提高模型精度;多种语言约束为机器学习提供灵活机制汉语语言模型研究与其在音字转换中应用基于语言元素的汉语N-gram语言模型niiNiineeepeeepsp11121)|()()(niiieepepsp211)|()()()|()|()()|(1, 11 ,21,1 ,1iitiitjjijiiiiwwpwwpwpeep当N=2时 汉语语言模型研究与其在音字转换中应用权值向量定 义ji ,为 权 值 向 量 : 0,0为 度 量 元 素 数 量 因 素 的 权 值 ,当n0,0时 表 示 语 言 元 素越 少 , 汉 字 串 的 可 信 度 越 高
17、 , 当n0,0时 表 示 元 素 数 量 因 素 不 起作 用 ; )1(0,ii为 第i个 元 素 的 可 信 度 权 值 ; )1,1(,jiji为 第i个 元 素 的 第j个 构 成 词 的 可 信 度 权 值 ,当 概 率 模 型 初 步 建 立 时 ,1,ji。 汉语语言模型研究与其在音字转换中应用基于语言元素的汉语N-gram语言模型基于元素的Bi-gram模型 niiiiiieeperepernsp210 ,1110 , 10 , 0)|()(/()()(/()/()()|()|()()|(1, 11 ,1 ,21,1 ,1 ,1iitiiitjjijijiiiiiwwpwwp
18、wpeep考虑到概率归一化 niiiiiieeperepernsp210 ,1110 , 10 , 0)|()(/()()(/()/(1)(ssp)(汉语语言模型研究与其在音字转换中应用词类及其组织方法词类按语法体系划分按语义分类混合方式词类的组织:类似语义网知识表达结构-用很小的时间代价节省大量的存储空间汉语语言模型研究与其在音字转换中应用规则的表示产生式系统词法规则 | | | 短语规则 | |句法规则 | S S汉语语言模型研究与其在音字转换中应用规则的组织统一表达形式按索引分类 索引选择标准:含词数最少的词类(概率最小的词类)例: S S 以、作为分类索引更合理BAAAt21BAAAA
19、tm21:汉语语言模型研究与其在音字转换中应用低层推理优先原则 如果存在规则: “X + Y + Z Y” 和 “W ISA Y”, 则首先匹配规则“X + W + Z W” (“X”和“Z”可以为空) 汉语语言模型研究与其在音字转换中应用元素的语言学分析基于最少元素的状态空间化简方法 对 状 态 空 间 的 生 成 过 程 进 行 分 解 : 1. 词 元 素 筛 选 此 步 骤 实 际 上 是 对 音 节 流 进 行 分 词 的 过 程 , 词 的 产 生 分 两 个 过 程 : 首 先 根 据 输 入 音 节串 匹 配 词 典 中 所 有 可 能 的 词 ,再 按 构 词 规 则 生 成
20、 新 词 。以 上 所 有 词 作 为 分 词 算 法 的 候 选 。针 对 所 有 可 能 的 分 词 结 果 按 最 少 词 元 素 启 发 式 策 略 选 出 若 干 最 优 或 同 时 包 含 次 优 的 结果 , 构 成 最 有 可 能 通 向 最 优 解 的 状 态 空 间 予 以 保 留 , 作 为 本 处 理 步 骤 的 输 出 。 2. 短 语 级 元 素 筛 选 对 单 词 处 理 的 输 出 状 态 按 知 识 库 中 短 语 规 则 进 行 条 件 匹 配 生 成 短 语 。 对 所 有 的 匹 配 结果 再 按 最 少 元 素 启 发 式 策 略 筛 选 一 次 。
21、选 择 最 有 可 能 通 向 最 佳 解 的 状 态 作 为 本 处 理 部 分的 输 出 。 3. 语 句 级 元 素 筛 选 对 短 语 处 理 部 分 的 输 出 状 态 根 据 句 法 规 则 进 行 语 句 级 的 规 则 匹 配 。 匹 配 结 果 仍 然 可 能存 在 不 完 整 的 分 析 树 , 此 时 仍 可 按 最 少 元 素 启 发 式 策 略 对 元 素 进 行 筛 选 。 若 仍 存 在 多 义性 , 则 将 结 果 送 下 一 步 概 率 处 理 模 块 。 汉语语言模型研究与其在音字转换中应用元素的语言学分析基于最少元素的状态空间化简算法1. BEGIN; 2
22、. 根据拼音输入构建词网格; 3. 按最少分词法启发式策略化简词网格空间; 4. IF 最佳路径已求出 THEN GOTO 11; 5. 按短语规则生成新元素; 6. 按最少元素启发式策略化简元素网格空间; 7. IF 最佳路径已求出 THEN GOTO 11; 8. 按句法规则生成新元素; 9. 按最少元素启发式策略化简元素网格空间; 10.IF 最佳路径未求出 THEN GOTO 最佳路径搜索模块; 11.END.(找到最佳路径) 汉语语言模型研究与其在音字转换中应用音字转换系统结构图 拼音流 文字流 词网格生成 元素网格生成 系统词典 语言 规则库 统 计 库 量化 规则库 最优路径搜索
23、 汉语语言模型研究与其在音字转换中应用实验结果词典收录26000个词,采用二千万汉字语料(选自95、96年人民日报电子版)作为实验文本,其中80%作为训练语料,其它20%作为测试语料。系统搜集了1000条语法、语义规则单纯统计语言模型正确率为90.5%,加入语言规则后正确率提高到91.8%,加入最少元素约束后提高到92.3%能有效处理长距离语言约束和递归语言现象汉语语言模型研究与其在音字转换中应用4 汉语语言模型的自适应方法 当前主要自适应语言模型有两种:基于缓存(Cache)的自适应模型主题自适应模型缺点:仍然较粗糙)|()1 ()|()|(hwPhwPhwPcachestaticadapt
24、iveTiiikmkkTMIXhwPwwwP1021)|()(TiiNiikmkkTMIXwwwPwwwP111021)|()(汉语语言模型研究与其在音字转换中应用面向用户语言模型的提出语言模型的应用如汉字键盘输入是面向特定用户的,不同用户使用的文本类型和风格无法准确预测,因而也无法建立准确的模型 特定用户使用的文本具有时段特性,即在某一特定时段内,文本类型或风格不变,但超过这一时段则可能变化汉语语言模型研究与其在音字转换中应用面向用户的语言模型框架 拼音 语句 语言解码 转换 结果 用户 修正 正确 结果 机器 学习 用户 模型 通用 模型 人机交互 汉语语言模型研究与其在音字转换中应用理论
25、依据音字转换的目标即为给定拼音输入T的条件下,找到对应的概率最大的汉字串)|(maxargTSpSS,根据贝叶斯定理, )()|()(maxargTpSTpSpSS 等价于: )|()(maxargSTpSpSS )(Sp为先验概率,通过大规模语料训练而得,)|(STp为后验概率, 与实际应用中文本的出现有关, 反映了通过机器学习获得的新知识。 汉语语言模型研究与其在音字转换中应用面向用户语言模型结构面向用户语言模型=通用模型+用户模型模型结合方式:插值方式:优先选择方式其他方式(适应非概率模型))|()1 ()|()|(hwPhwPhwPuseruniversal汉语语言模型研究与其在音字转
26、换中应用面向用户模型的优点 逻辑上,整个模型仍然是一个整体; 通用和用户模型采用不同数据结构适应不同的需要; 保证通用模型的稳定性,增加用户模型参数修改的自由度,便于达到良好的学习效果; 用户模型按照LRU规则淘汰陈旧的数据,符合记忆规律:记忆的事物增多,会冲淡原有事物的记忆,在一系列事物中,最后出现的若干个事物具有较好的记忆效果 有效限制了其规模的无限扩张,同时保证其参数的修改不致对整个模型产生更大偏差汉语语言模型研究与其在音字转换中应用基于元素N-gram模型的机器学习汉语复杂性更高,语言模型中可变因素更多,因而机器学习方式更多增加了机器学习的难度为机器学习提供了更大的灵活性本文综合运用了
27、各种学习方式-适合于面向大规模训练语料的学习和在线自适应学习汉语语言模型研究与其在音字转换中应用单词的学习词本身的特征基于构词规则的特征基于统计规律的特征 词频和互信息 统计构词能力)()()(cCountcCountcWFP的多字词含wciWFPiwcWFPwcWFPwP)1(|C| ),()1(|C| ),(1)(是多字词是单字词汉语语言模型研究与其在音字转换中应用单词的学习汉字构词模式 字对的亲合力 )()()| )(位于多字词cCountcpttnCountccpttnPrliiirpttnccpttrPwP1)|)()()|)(11iiBiircctcctP)|)(11iiNiirc
28、ctcctP汉语语言模型研究与其在音字转换中应用单词的学习对系统的影响估价函数 1. 按词典分词使得自然语言的理解过程越容易越好,即符合最少元素规则,即按词典分词得到的词条n数越少越好。 2. 词典的冗余度越小越好,冗余度大小的判断可用词典的总体积v来表示,即v值越小越好,这样可以减小系统开销。 模型复杂度ncvcwf21汉语语言模型研究与其在音字转换中应用单词的学习对应用的影响基于错误修正的学习 同一语言模型应用于不同领域,效果不同,其学习标准也不同。对某一特定应用而言,生词的正确识别通常能改善性能,如对音字转换能提高转换正确率,但生词的识别并不总是必需的。单词的学习可以是面向错误修正的。汉
29、语语言模型研究与其在音字转换中应用语言规则的学习 文法推导:按照一个文法的评价函数从搜索空间中找出所需的文法。评价函数:反映出一个文法对训练集数据的刻画程度。极大似然性标准贝叶斯公式)|(GOPmaxargGG)|(OGPmaxargGG)()|()()()|(GPGOPargmaxOPGPGOPargmaxGGG汉语语言模型研究与其在音字转换中应用语言规则的学习 基于归纳推理的规则学习 “我吃鱼。 ” (鱼,ISA,食物) (我,ISA,人称代词) 我|你|他 鱼|蔬菜 S S 规则学习 汉语语言模型研究与其在音字转换中应用参数修正学习 语言元素的数量。目标汉字串所含的语言元素越少,其可信度
30、越高。语言元素的层次因素。语言元素所在的层次越低,其可信度越好。 记忆因素。记忆牢靠的元素可信度好,记忆不准的元素可信度差。汉语语言模型研究与其在音字转换中应用参数修正学习学习方法在基于语言元素的模型公式中,将权值ji,看成是变量,则调节ji,的值就可以达到参数修正的目的。 如果ji,的值改变,目标汉字串的可信度就随之改变,找到正确的ji,的值,就可以增加目标汉字串的可信度,从而提高音字转换的正确率。 汉语语言模型研究与其在音字转换中应用N元概率参数修正学习 学习算法1. 初始化:1, 1ji; 2. IF nj THEN GOTO 9; 3. 向前移动i,使得jiSubSub1,12jiSu
31、bSub; 4. IF jiww且11jiww THEN GOTO 8; 5. IF jiSubSub且22jiSubSubTHEN WHILE ),(),(),(),(),(),(1111iiiijjjjwwCwCwCVwwCwCwCV ;),(,)(,)(11jjjjwwCwCwCGOTO 8; 汉语语言模型研究与其在音字转换中应用N元概率参数修正学习6. IF 21jiSubSub 且 )(),(1ijjwCwwC THEN 1),()(1jjiwwCwCvalue, valuewwCwwCjjjj),(),(11, valuewCwCjj)()(,valuewCwCjj)()(11;
32、GOTO 8; 7. IF ),(),(11iijjwwCwwC THEN 1),(),(11jjiiwwCwwCvalue, valuewwCwwCjjjj),(),(11, valuewCwCjj)()(,valuewCwCjj)()(11; 8. 1 jj, GOTO 1; 9. 结束。 汉语语言模型研究与其在音字转换中应用实验结果实验一:选取了20篇不同领域的完整的文章(不包含在训练语料中)分别进行测试。实验结果为:未采用机器学习时,音字转换准确率平均为90.5%,采用本文的机器学习时,准确率平均为94.9%。实验二:通过在线拼音键盘输入实验,对机器学习前后的音字转换结果进行测试,经过
33、短时记忆后,重新输入的准确率达到98%以上。 汉语语言模型研究与其在音字转换中应用实验结果实验三:针对上百万规模的混合类型文本进行测试。整体进行机器学习后,对学习前后的音字转换准确率进行对比。实验结果表明,准确率从91.3%提高到91.9%。这说明经过长期的机器学习过程,学习结果对最初输入的文本所起作用将减小或消失。 汉语语言模型研究与其在音字转换中应用5 面向手机类设备的智能拼音汉字输入方法 面向信息设备的汉字输入面临的问题: 面向小键盘的汉字编码方案研究更困难信息设备的各方面性能较低,对应用程序限制苛刻智能拼音汉字输入解决方案面向数字键盘的三拼输入法适于小内存应用的拼音汉字智能转换系统汉语
34、语言模型研究与其在音字转换中应用面向数字键盘的三拼输入法逐级分类思想 C0 C11 C12 PY1 PY2 PY3 PY4 C1m PYn 汉语语言模型研究与其在音字转换中应用面向数字键盘的三拼输入法逐级分类思想 假设数字键盘中的12个字符键都可用来输入拼音,最后确定407个常用拼音,考虑通过3级分类来实现分类规则应该尽量简单、直观、容易被用户接受 每级的分类数必须小于12 汉语语言模型研究与其在音字转换中应用 面向数字键盘的三拼输入法数字键拼音首字母单字符韵母多字符韵母i起始韵母u起始韵母拼音数 2 A 5 5B475 16C48 416 3D486422E 4 4F36 9 4G39 71
35、9H39 719i(ch)48 618 5 J2 9314K38 718L688426 6M586 19N697325O 2 2 7P485 17Q2 9314R37 414S48 416 8T484420u(sh)48 719v(zh)49 720 9W36 9x2 9314y552315z49 417合计拼音数407汉语语言模型研究与其在音字转换中应用面向数字键盘的三拼输入法分类方法第一级分类:按照手机键盘定义对拼音的第一个字母(声母)进行分类,双声母ch、sh、zh分别用i、u、v表示,零声母用首字符表示,使用了8个数字键(2-9) 。 第二级分类:按首字母分类后的每一大类中,对每个首字
36、母相同的拼音,再按照单字符韵母、多字符韵母以及带介母(i、u)的韵母分类,分别用?、*、和介母加*(i*、u*)表示,最多对应12个子类。 第三级分类:每一类对应一个特定的拼音,对应每一个二级子类,最多有9个小类即9个拼音。 汉语语言模型研究与其在音字转换中应用面向数字键盘的三拼输入法汉语语言模型研究与其在音字转换中应用面向数字键盘的三拼输入法输入方法第一键:根据手机键盘布局输入一级分类号,即按对应的数字键,此时二级分类被提示出来; 第二键:根据提示从键盘输入对应二级分类的键,此时,最终的拼音被提示出来; 输入对应某拼音的键,则完整的拼音被确认,完成一个拼音的输入过程。 汉语语言模型研究与其在
37、音字转换中应用面向数字键盘的三拼输入法例1:输入汉字“龙”,其拼音为“long” jkl l* 龙 abcdef j?ji*ju* laiLanlangghijklmnok?k*ku*laoLeilengpqrstuvwxyzl?l*li*longLou lu* 汉语语言模型研究与其在音字转换中应用面向数字键盘的三拼输入法例2:输入汉字“江”,对应拼音“jiang”。 jkl ji* 将 abcdef j?ji*ju* jiajianjiangghijklmnok?k*ku*jiaojiejinpqrstuvwxyzl?l*li*jingjiongjiu lu* 汉语语言模型研究与其在音字转换
38、中应用面向数字键盘的三拼输入法三拼输入法的评价 平均码长:三个键输入一个拼音,与标准拼音的平均码长基本相当(由于码长相等,可进一步减少输入信息)重码字词键选率:通过智能音字转换弥补易学性:好完整性:完整与富士通公司“选音输入法”比较:易学性好、但利用了更多字符键 汉语语言模型研究与其在音字转换中应用适应小内存应用的音字转换系统 关键问题汉字编码压缩语言模型机器学习记忆机制汉语语言模型研究与其在音字转换中应用面向大字符集的汉字音声码方案 汉字用二字节共16位二进制位表示。前9位(1-9)为音节编码,称为音节序列码,最多表示512个音节序列码;后7位为形码位(10-16),对应一个音节序列码,最多可表示128个同音汉字。如果对应某一个拼音的汉字超过128个,则用多个音节序列码表示一个音。其
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论