




文档简介
汉语语言模型研究汉语语言模型研究 及其在音字转换中的应用及其在音字转换中的应用 计算机科学与技术学院 语言技术研究中心 刘秉权 2003年5月28日 1 绪论 ?本文研究的目的和意义 ?计算语言学概述 ?相关领域研究与发展综述 ?统计语言建模技术 基于统计的计算语言模型 ?给定所有可能的句子,统计语言模型就 是一个概率分布 : ?条件概率形式: ?N-gram模型: )( sp = = n i iin def hwpwwpsp 1 1 )|(),()(? = + = n i iNii wwwpsp 11 ),|()(? 1 统计语言模型的作用 ?信源信道模型 : ?I:语言文本;O:声音信号、字符图像信 号、拼音输入等。 ?语言模型: )|()(maxarg )( )|()( maxarg)|(maxarg IOpIp Op IOpIp OIpI III = )(Ip 统计语言模型建模方法 ?极大似然方法语言建模 ?贝叶斯方法 )|(maxarg MXPM M = )|(maxarg XMPM M = )( )()|( maxarg XP MPMXP M M = )()|(maxarg MPMXPM M = 统计语言模型的评价标准 ?熵(Entropy) ?交叉熵(Cross Entropy) ?复杂度(Perplexity) )(log 1 )( 1lim n n xp n LH = = x MTMT xPxPPPH)(log)();( );( 2)( MT PPH M TPP= 参数学习和数据平滑 ?参数学习 ?有指导学习-基于完全数据的最大可能性估 计 ?无指导学习(针对不完全数据的)具有隐含 变量的参数训练过程EM算法 ?数据平滑-Good-Turing估计 、回退平滑 和线性插值技术;变长N-gram模型、网 格方法、压缩模型 当前主要语言模型 ?N-gram模型 ?决策树模型 ?指数模型(最大熵模型) ?整句模型 ?文法模型 ?概率上下文无关文法 ?链文法 ?概率依存文法 ?自适应模型 统计语言模型存在的不足之处 ?最成功的统计语言建模技术很少使用真 实的语言知识 ?跨领域的适应能力差 ?不能有效处理长距离语言约束:为保证 可行性,所有现有的语言模型都在文本 的不同部分之间作了独立假设。 ?汉语语言模型的独特问题 本文的目标 针 对 汉 语 统 计 模 型 的 参 数 训 练 问 题 进 行 研 究 应 用 于 手 机 类 信 息 设 备 的 智 能 拼 音 汉 字 输 入 改 进 音 字 转 换 引 入 语 言 知 识 , 提 高 统 计 模 型 的 描 述 能 力 研 究 汉 语 模 型 的 自 适 应 和 机 器 学 习 方 法 本文主要工作 ?汉语统计语言模型参数训练的优化 ?基于语言元素的汉语统计模型 ?汉语语言模型的自适应方法 ?面向手机类设备的智能拼音汉字输入方 法 2 汉语统计语言模型参数训练 的优化 + + + = i w iNi iNi iNii wwc wwc wwwp )( )( )|( 1 1 11 ? ? ? 语料 库 分词 语料 参数 估计 语言 模型 分词 系统 词表 问题的分析 ?汉语统计模型的准确构建和优化涉及到以下几 个问题 : ?词表的确定(生词识别) ?分词 ?参数估计 ?三者存在因果关系 ?词表分词 ?分词参数估计(模型) ?参数估计(模型)词表优化 分词-生词识别-参数估计迭代算法的提出 ?非迭代过程的缺点:几个过程不能相互作用, 相互促进 ?迭代过程的优点: ?对分词的影响:更好地解决分词歧义问题,提高分 词精度 ?对生词识别的影响: ?减少不合理的候选生词 ?排除伪生词,生词自动消歧,减少后处理过程 ?对模型的影响:逐步优化词表、提高参数估计精 度、提高音字转换正确率 基于N-gram信息的生词获取 ?基本思想:N元对词频过滤互信息过 滤校正生词获取 ?词频 ?互信息(Mutual Information) ?词频与互信息的关系 ?候选生词的校正 )()( ),( log);( 21 21 21 wpwp wwp wwI = 基于N-gram信息的生词获取 ?结果分析 ?MI因素:准确率随着互信息值的升高而升高,但抽 取出的元组的数量也随之减少 ; ?WF因素:准确率随着词频值的升高而降低,抽取出 的元组数量也随之减少。 ?影响结果的其他因素 ?分词错误:“不容易”、“和服务” ?量词:“个百分点”、“集电视连续剧”、“届世乒赛” ?姓氏:“新华社记者刘”、“新华社记者王” 基于统计和规则方法的中文人 名识别 ?问题的提出 ?主要方法 ?规则方法:准确;规则库冲突、复杂、庞大 ?统计方法:资源少、效率高;准确率低 ?混合方法:取长补短 ?本文方法:先规则,后统计;充分利用各种 资源;采用分词预处理 基于统计和规则方法的中文人 名识别 ?中文姓名用字特点(82年人口普查结 果) ?729个姓氏用字 ?姓氏分布很不均匀,但相对集中 ?有些姓氏可用作单字词 ?名字用字分布较姓氏要平缓、分散 ?名字用字涉及范围广 ?某些汉字既可用作姓氏,又可用作名字用字 人名识别系统知识库 ?姓氏用字频率库和名字用字频率库:653 个单姓氏,15个复姓,1894个名字用字 的总出现次数 用作姓氏的次数 作为姓氏 c c cp=)( 的总出现次数 用作名字用字的次数 作为名字用字 c c cp=)( 人名识别系统知识库 ?名字常用词表 朝阳劲松爱国 建国立新黎明 宏伟朝晖向阳 海燕爱民凤山 雪松新民剑峰 建军红旗光明 人名识别系统知识库 ?称谓库 ?三种类型 ?只能用于姓名之前,如:战士、歌星、演员等; ?只能用于姓名之后,如:阁下、之流等; ?姓名前后皆可,如:先生、主席、市长等。 ?称谓前缀表:“副”、“总”、“代”、“代理”、 “助理”、“常务”、“名誉”、“荣誉”等 人名识别系统知识库 ?简单上下文 ?指界词表:约110个词 ?动词:说、是、指出、认为、表示、参加等; ?介词:在、之、的、被 、以等; ?正在、今天、本人、先后等。 ?标点符号集 ?人名出现在句首或句尾(包括分句)的机会比较大,标点 符号可用来帮助判断人名的边界。 ?顿号一边是人名时,另一边的候选人名的可靠性高。 人名识别系统知识库 ?非名字用词表:有些双字词,如:时 间、奖励、纬度等不作名字用词,但因 为组成它们的单字可作为名字用字,如 果跟在姓氏后面,往往会将其与可作姓 氏的字一起误判为姓名。 例: “做这件事花了我们一段时间。 ” 中文人名识别过程 待处理 文本 潜在姓 名表 切分预 处理 校 正 识别 结果 系统资源表 知识库 中文人 名识别 人名识别的具体实现 ?姓氏判别 ?名字识别 ?概率判断 候选字符串为人名的概率为: P = 姓氏部分为姓氏的概率P1 * 余下部分的汉字作名字用字 的概率P2*P3(单名时,为P2) 校正(对潜在人名的后处理) ?自动校正:如果两个潜在人名相似,考 察它们的权值。一高一低时,将低权的 潜在人名清除;都为高权时,两者都认 为是人名;都是低权时,则各自通过第 三个字作名字用字的概率大小来判断。 概率够高,识别为人名。否则将第三个 字去掉。 ?人工校正 人名识别结果与分析 ?实验结果:8个测试样本,共22000多 字,共有中文人名270个。系统共识别出 中文人名330个,其中267个为真正人 名。 召回率=267/270*100% =98.89% 准确率=267/330*100% =80.91% 准确率和召回率是互相制约的,可通 过概率阈值的调整来调节二者的关系。 人名识别结果与分析 ?产生错误的主要原因 ?被未识别的地名干扰。“湖北英山县詹家河乡 陶家河村, ” ?受非中式人名的干扰。“司马义艾买提 ” ?分词结果不理想。“为迎接香港回归送贺礼” ?规则不准确。“南宋大诗人杨万里“惊如汉 殿三千女, ” ?其他。“全世界每年影片产量高达两三千部 , ” 汉语N-gram模型参数训练的迭 代算法 语料 库 分词 语料 参数 估计 语言 模型 新词 识别 词典 优化 分词 初始 词典 新词 表 优化 词典 汉语N-gram模型构建的迭代算 法 ?算法描述 1. 利用初始词典 0 V对未分词语料库进行首次分词处理,构造初始语言 模型 0 P。 2. 利用词典 i V和语言模型 i P对语料库重新分词。 3. 在分词语料基础上进行新词识别。 4. 对词典进行优化,生成优化词典 1+i V 。 5. 针对优化词典进行参数估计,获得优化语言模型 1+i P。 6. 反复执行 2-5 的过程,直到分词结果无明显变化或执行完某一限定 的迭代次数。 实验结果和分析 本文针对 Bi-gram 模型进行了实验, 初始词典规模为 24686, 实 验文本为 2000 万字的人民日报语料。 实验表明,大部分的新词在第一次迭代过程中即已识别出来, 后面的迭代过程只进行较小的调整并很快趋于收敛。经过三次迭代 过程,共接受新词 911 个,其中中文人名 359 个。 分别采用 FMM 方法、不带新词识别的优化语言模型和带新词 识别的优化语言模型进行分词实验,通过对测试语料的抽样检查, 分词准确率分别达到 96.4%、97.3%和 97.9%。 针对拼音汉字转换问题对优化模型进行了测试,音字转换错误 率降低了 3.4 个百分点。 3基于语言元素的汉语统计模型 ?已有实验结论:基于词的语言模型性能 要明显优于同阶的基于字的模型,高阶 模型优于低阶模型 ?提高语言模型描述能力的途径: ?提高模型阶数 ?扩展语言单位 ?目标:在保持模型阶数不变的条件下, 有效提高模型的描述能力 当前主要处理方法 ?此方向的探索:基于短语和基于分词模式的语 言模型 ?目前短语选取和概率计算方法存在缺陷: ?短语的选取标准只考虑了降低模型复杂度的因素, 并没有考虑短语构成的内在语言规律 ?短语集的规模通常十分巨大,导致模型空间增长, 同时相对减少了训练数据量 ?训练数据的重新分割使得短语成为不可分割的语言 单位,将导致构成短语的单个词的概率估计不准确 当前主要处理方法 ?规则统计相结合的模型 将模型的单位延伸至语言分析的结 果,统称为语言元素,元素间概率计算 利用已有词模型的参数近似估计(本课 题组前人工作) 特点:避免概率模型的大幅度增加, 提高语言单位获取的灵活性;能够处理 长距离语言关系和递归问题 本文方法:基于语言元素的汉 语N-gram语言模型 ?引入元素数量约束 ?根据语言规则层次特点对概率值进行加 权 ?利用规则可信度、词可信度加权 ?特点:保持原有特点;进一步提高模型 精度;多种语言约束为机器学习提供灵 活机制 基于语言元素的汉语N-gram语 言模型 = + = n i iNiin eeepeeepsp 1 1121 )|()()(? = = n i ii eepepsp 2 11 )|()()( )|()|()()|( 1 , 11 , 2 1,1 ,1 = = i i tii t j jijiiii wwpwwpwpeep 当N=2时 权值向量 定 义 ji , 为 权 值 向 量 : 0,0 为 度 量 元 素 数 量 因 素 的 权 值 ,当n 0,0 时 表 示 语 言 元 素 越 少 , 汉 字 串 的 可 信 度 越 高 , 当n= 0,0 时 表 示 元 素 数 量 因 素 不 起 作 用 ; )1( 0, i i 为 第i个 元 素 的 可 信 度 权 值 ; )1,1( , ji ji 为 第i个 元 素 的 第j个 构 成 词 的 可 信 度 权 值 , 当 概 率 模 型 初 步 建 立 时 ,1 , = ji 。 基于语言元素的汉语N-gram语 言模型 ?基于元素的Bi-gram模型 = = n i iiiii eeperepernsp 2 10 ,1110 , 10 , 0 )|()(/()()(/()/()( )|()|()()|( 1 , 11 ,1 , 2 1,1 ,1 ,1 = = i i tiii t j jijijiiiii wwpwwpwpeep 考虑到概率归一化 = = n i iiiii eeperepernsp 2 10 ,1110 , 10 , 0 )|()(/()()(/()/( 1 )( = s sp)( 词类及其组织方法 ?词类 ?按语法体系划分 ?按语义分类 ?混合方式 ?词类的组织:类似语义网知识表达结构- -用很小的时间代价节省大量的存储空间 规则的表示产生式系统 ?词法规则 | | | ?短语规则 | | ?句法规则 | S S 规则的组织 ?统一表达形式 ?按索引分类 ?索引选择标准:含词数最少的词类(概率最小 的词类) 例: S S 以、作为分类索引更合理 BAAA t +? 21 BAAAA tm +? 21 : 低层推理优先原则 如果存在规则: “X + Y + Z Y” 和 “W ISA Y”, 则首先匹配规则“X + W + Z W” (“X”和“Z”可以为空) 元素的语言学分析 ?基于最少元素的状态空间化简方法 对 状 态 空 间 的 生 成 过 程 进 行 分 解 : 1. 词 元 素 筛 选 此 步 骤 实 际 上 是 对 音 节 流 进 行 分 词 的 过 程 , 词 的 产 生 分 两 个 过 程 : 首 先 根 据 输 入 音 节 串 匹 配 词 典 中 所 有 可 能 的 词 ,再 按 构 词 规 则 生 成 新 词 。以 上 所 有 词 作 为 分 词 算 法 的 候 选 。 针 对 所 有 可 能 的 分 词 结 果 按 最 少 词 元 素 启 发 式 策 略 选 出 若 干 最 优 或 同 时 包 含 次 优 的 结 果 , 构 成 最 有 可 能 通 向 最 优 解 的 状 态 空 间 予 以 保 留 , 作 为 本 处 理 步 骤 的 输 出 。 2. 短 语 级 元 素 筛 选 对 单 词 处 理 的 输 出 状 态 按 知 识 库 中 短 语 规 则 进 行 条 件 匹 配 生 成 短 语 。 对 所 有 的 匹 配 结 果 再 按 最 少 元 素 启 发 式 策 略 筛 选 一 次 。 选 择 最 有 可 能 通 向 最 佳 解 的 状 态 作 为 本 处 理 部 分 的 输 出 。 3. 语 句 级 元 素 筛 选 对 短 语 处 理 部 分 的 输 出 状 态 根 据 句 法 规 则 进 行 语 句 级 的 规 则 匹 配 。 匹 配 结 果 仍 然 可 能 存 在 不 完 整 的 分 析 树 , 此 时 仍 可 按 最 少 元 素 启 发 式 策 略 对 元 素 进 行 筛 选 。 若 仍 存 在 多 义 性 , 则 将 结 果 送 下 一 步 概 率 处 理 模 块 。 元素的语言学分析 ?基于最少元素的状态空间化简算法 1. BEGIN; 2. 根据拼音输入构建词网格; 3. 按最少分词法启发式策略化简词网格空间; 4. IF 最佳路径已求出 THEN GOTO 11; 5. 按短语规则生成新元素; 6. 按最少元素启发式策略化简元素网格空间; 7. IF 最佳路径已求出 THEN GOTO 11; 8. 按句法规则生成新元素; 9. 按最少元素启发式策略化简元素网格空间; 10.IF 最佳路径未求出 THEN GOTO 最佳路径搜索模块; 11.END.(找到最佳路径) 音字转换系统结构图 拼音流 文字流 词网格 生成 元素网 格生成 系统词 典 语言 规则库 统 计 库 量化 规则库 最优路 径搜索 实验结果 ?词典收录26000个词,采用二千万汉字语料 (选自95、96年人民日报电子版)作为实 验文本,其中80%作为训练语料,其它20%作为 测试语料。系统搜集了1000条语法、语义规则 ?单纯统计语言模型正确率为90.5%, ?加入语言规则后正确率提高到91.8%, ?加入最少元素约束后提高到92.3% ?能有效处理长距离语言约束和递归语言现象 4 汉语语言模型的自适应方法 ?当前主要自适应语言模型有两种: ?基于缓存(Cache)的自适应模型 ?主题自适应模型 ?缺点:仍然较粗糙 )|()1 ()|()|(hwPhwPhwP cachestaticadaptive += = = T i iik m k kTMIX hwPwwwP 10 21 )|()(? = + = = T i iNiik m k kTMIX wwwPwwwP 1 11 0 21 )|()(? 面向用户语言模型的提出 ?语言模型的应用如汉字键盘输入是面向 特定用户的,不同用户使用的文本类型 和风格无法准确预测,因而也无法建立 准确的模型 ?特定用户使用的文本具有时段特性,即 在某一特定时段内,文本类型或风格不 变,但超过这一时段则可能变化 面向用户的语言模型框架 拼音 语句 语言 解码 转换 结果 用户 修正 正确 结果 机器 学习 用户 模型 通用 模型 人机 交互 理论依据 音字转换的目标即为给定拼音输入T的条件下,找到对应的概率最 大的汉字串)|(maxarg TSpS S =,根据贝叶斯定理, )( )|()( maxarg Tp STpSp S S = 等价于: )|()(maxarg STpSpS S = )(Sp为先验概率,通过大规模语料训练而得,)|(STp为后验概 率, 与实际应用中文本的出现有关, 反映了通过机器学习获得的新知识。 面向用户语言模型结构 ?面向用户语言模型=通用模型+用户模型 ?模型结合方式: ?插值方式: ?优先选择方式 ?其他方式(适应非概率模型) )|()1 ()|()|(hwPhwPhwP useruniversal += 面向用户模型的优点 ?逻辑上,整个模型仍然是一个整体; ?通用和用户模型采用不同数据结构适应不同的需要; ?保证通用模型的稳定性,增加用户模型参数修改的自 由度,便于达到良好的学习效果; ?用户模型按照LRU规则淘汰陈旧的数据,符合记忆规 律:记忆的事物增多,会冲淡原有事物的记忆,在一 系列事物中,最后出现的若干个事物具有较好的记忆 效果 ?有效限制了其规模的无限扩张,同时保证其参数的修 改不致对整个模型产生更大偏差 基于元素N-gram模型的机器学习 ?汉语复杂性更高,语言模型中可变因素 更多,因而机器学习方式更多 ?增加了机器学习的难度 ?为机器学习提供了更大的灵活性 ?本文综合运用了各种学习方式-适合于 面向大规模训练语料的学习和在线自适 应学习 单词的学习 ?词本身的特征 ?基于构词规则的特征 ?基于统计规律的特征 ?词频和互信息 ?统计构词能力 )( )( )( cCount cCount cWFP 的多字词含 = = = wc i WFP i wcWFP wcWFP wP )1(|C| ),( )1(|C| ),(1 )( 是多字词 是单字词 单词的学习 ?汉字构词模式 ?字对的亲合力 )( )( )| )( 位于多字词cCount cpttnCount ccpttnP r = = = l i iirpttn ccpttrPwP 1 )|)()( )|)( 11+ = iiBiir cctcctP )|)( 11+ = iiNiir cctcctP 单词的学习 ?对系统的影响 ?估价函数 1. 按词典分词使得自然语言的理解过程越 容易越好,即符合最少元素规则,即按词典 分词得到的词条n数越少越好。 2. 词典的冗余度越小越好,冗余度大小的 判断可用词典的总体积v来表示,即v值越小 越好,这样可以减小系统开销。 ?模型复杂度 ncvcwf 21 += 单词的学习 ?对应用的影响 ?基于错误修正的学习 同一语言模型应用于不同领域,效果不同, 其学习标准也不同。对某一特定应用而言, 生词的正确识别通常能改善性能,如对音字 转换能提高转换正确率,但生词的识别并不 总是必需的。单词的学习可以是面向错误修 正的。 语言规则的学习 ?文法推导:按照一个文法的评价函数从 搜索空间中找出所需的文法。 ?评价函数:反映出一个文法对训练集数 据的刻画程度。 ?极大似然性标准 ?贝叶斯公式 )|( GOPmaxargG G = )|( OGPmaxargG G = )()|( )( )()|( GPGOPargmax OP GPGOP argmaxG GG = 语言规则的学习 ?基于归纳推理的规则学习 “我吃鱼。 ” (鱼,ISA,食物) (我,ISA,人称代词) 我|你|他 鱼|蔬菜 S S 规则学习 参数修正学习 ?语言元素的数量。目标汉字串所含的语 言元素越少,其可信度越高。 ?语言元素的层次因素。语言元素所在的 层次越低,其可信度越好。 ?记忆因素。记忆牢靠的元素可信度好, 记忆不准的元素可信度差。 参数修正学习 ?学习方法 在基于语言元素的模型公式中,将权值 ji, 看成是变量, 则调节 ji, 的值就可以达到参数修正的目的。 如果 ji, 的值改 变,目标汉字串的可信度就随之改变,找到正确的 ji, 的值, 就可以增加目标汉字串的可信度,从而提高音字转换的正确 率。 N元概率参数修正学习 ?学习算法 1. 初始化:1, 1=ji; 2. IF nj THEN GOTO 9; 3. 向前移动i,使得 ji SubSub 1 + , 12 + ji SubSub; 4. IF ji ww=且 11 + = ji ww THEN GOTO 8; 5. IF ji SubSub=且 22 + = ji SubSubTHEN WHILE ),(),(),(),(),(),( 1111+ iiiijjjj wwCwCwCVwwCwCwCV ;),(,)(,)( 11 + +jjjj wwCwCwCGOTO 8; N元概率参数修正学习 6. IF 21 + ji SubSub 且 )(),( 1ijj wCwwC + THEN 1),()( 1 += +jji wwCwCvalue, valuewwCwwC jjjj += + ),(),( 11 , valuewCwC jj +=)()(,valuewCwC jj += + )()( 11 ; GOTO 8; 7. IF ),(),( 11+ iijj wwCwwC THEN 1),(),( 11 += +jjii wwCwwCvalue, valuewwCwwC jjjj += + ),(),( 11 , valuewCwC jj +=)()(,valuewCwC jj += + )()( 11 ; 8. 1+= jj, GOTO 1; 9. 结束。 实验结果 ?实验一:选取了20篇不同领域的完整的文章 (不包含在训练语料中)分别进行测试。实验 结果为:未采用机器学习时,音字转换准确率 平均为90.5%,采用本文的机器学习时,准确 率平均为94.9%。 ?实验二:通过在线拼音键盘输入实验,对机器 学习前后的音字转换结果进行测试,经过短时 记忆后,重新输入的准确率达到98%以上。 实验结果 ?实验三:针对上百万规模的混合类型文 本进行测试。整体进行机器学习后,对 学习前后的音字转换准确率进行对比。 实验结果表明,准确率从91.3%提高到 91.9%。这说明经过长期的机器学习过 程,学习结果对最初输入的文本所起作 用将减小或消失。 5 面向手机类设备的智能拼音 汉字输入方法 ?面向信息设备的汉字输入面临的问题: ?面向小键盘的汉字编码方案研究更困难 ?信息设备的各方面性能较低,对应用程序限 制苛刻 ?智能拼音汉字输入解决方案 ?面向数字键盘的三拼输入法 ?适于小内存应用的拼音汉字智能转换系统 面向数字键盘的三拼输入法 ?逐级分类思想 C0 C11C12 PY1 PY2PY3PY4 C1m PYn 面向数字键盘的三拼输入法 ?逐级分类思想 ?假设数字键盘中的12个字符键都可用来输入 拼音,最后确定407个常用拼音,考虑通过3 级分类来实现 ?分类规则应该尽量简单、直观、容易被用户 接受 ?每级的分类数必须小于12 面向数字键盘的三拼输入法 数字键拼音 首字母 单字符 韵母 多字符 韵母 i起始 韵母 u起始 韵母 拼音数 2 A55 B47516 C48416 3 D486422 E44 F369 4 G39719 H39719 i(ch)48618 5 J29314 K38718 L688426 6 M58619 N697325 O22 7 P48517 Q29314 R37414 S48416 8 T484420 u(sh)48719 v(zh)49720 9 W369 x29314 y552315 z49417 合计拼音数407 面向数字键盘的三拼输入法 ?分类方法 ?第一级分类:按照手机键盘定义对拼音的第一个字 母(声母)进行分类,双声母ch、sh、zh分别用 i、u、v表示,零声母用首字符表示,使用了8个数 字键(2-9) 。 ?第二级分类:按首字母分类后的每一大类中,对每 个首字母相同的拼音,再按照单字符韵母、多字符 韵母以及带介母(i、u)的韵母分类,分别用?、 *、和介母加*(i*、u*)表示,最多对应12个子 类。 ?第三级分类:每一类对应一个特定的拼音,对应每 一个二级子类,最多有9个小类即9个拼音。 面向数字键盘的三拼输入法 l* lai lan lang lao lei leng longlou F1 F2 F3 1 2 ABC 3 DEF 4 GHI 5 JKL 6 MNO 7 PQRS 8 TUV 9 WXYZ * 0 # 面向数字键盘的三拼输入法 ?输入方法 ?第一键:根据手机键盘布局输入一级分类 号,即按对应的数字键,此时二级分类被提 示出来; ?第二键:根据提示从键盘输入对应二级分类 的键,此时,最终的拼音被提示出来; ?输入对应某拼音的键,则完整的拼音被确 认,完成一个拼音的输入过程。 面向数字键盘的三拼输入法 ?例1:输入汉字“龙”,其拼音为“long” jkll*龙 abcdefj?ji*ju*laiLanlang ghijklmnok?k*ku*laoLeileng pqrstuvwxyzl?l*li*longLou lu* 面向数字键盘的三拼输入法 ?例2:输入汉字“江”,对应拼音“jiang”。 jklji*将 abcdefj?ji*ju*jiajianjian g ghijklmnok?k*ku*jiaojiejin pqrstuvwxy z l?l*li*jingjion g jiu lu* 面向数字键盘的三拼输入法 ?三拼输入法的评价 ?平均码长:三个键输入一个拼音,与标准拼音的平 均码长基本相当(由于码长相等,可进一步减少输 入信息) ?重码字词键选率:通过智能音字转换弥补 ?易学性:好 ?完整性:完整 ?与富士通公司“选音输入法”比较:易学性好、但利 用了更多字符键 适应小内存应用的音字转换系统 ?关键问题 ?汉字编码压缩 ?语言模型 ?机器学习 ?记忆机制 面向大字符集的汉字音声码方案 ?汉字用二字节共16位二进制位表示。前9位 (1-9)为音节编码,称为音节序列码,最多 表示512个音节序列码;后7位为形码位(10- 16),对应一个音节序列码,最多可表示128 个同音汉字。如果对应某一个拼音的汉字超过 128个,则用多个音节序列码表示一个音。 ?其它数据结构支持 ?拼音表PinyinTable ?拼音与音节序列号(YJC)索引表PyToYjcode ?汉字表HanziTable ?音节码-音调-汉字序列号索引表YjcZiInd 音字转换(基于最少分词的Uni-gram模型) 音码标准化 音词自动
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论