




已阅读5页,还剩24页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文自动分词系统IRSEG 设计与实现,高立琦 王卓然 2004.9.20,大纲,中文分词的意义和用途 IRSEG系统框架设计 数学模型与原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测,大纲,中文分词的意义和用途 IRSEG系统框架设计 数学模型与原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测,中文分词的意义和用途,汉语的特点 最小书写单位为字 最小表意单位为词 词与词之间没有书写边界 分词系统的用途 各种中文信息处理系统的基础模块 自然语言处理 信息检索 ,大纲,中文分词的意义和用途 IRSEG系统框架设计 数学模型与原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测,IRSEG系统框架设计,资源: 词典资源,未登录词知识库等,构建分词有向图,重叠词识别,未登录词识别,歧义字段处理,输出,大纲,中文分词的意义和用途 IRSEG系统框架设计 数学模型与原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测,数学模型与原理分析,信道噪声模型 设S=c1c2cn为输入汉字序列,W=w1w2wm为切分词序列。 分词系统的任务是,找到一种切分结果W*,满足: 根据贝叶斯公式: 假设:一个词wi的出现概率以它前面的词的出现没有关系(Unigram模型) 则: 为了实现上的方便,我们对上述公式取负对数,得到:,数学模型与原理分析(续),构建分词有向图 通过最短路径搜索,即得最优(概率最大)结果: 结合 / 成/ 分子,大纲,中文分词的意义和用途 IRSEG系统框架设计 数学模型与原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测,“N最短路径”算法设计,N最短路径的思想 中科院张华平博士提出”N最短路径“粗分模型 IRSEG系统的背景 哈工大信息检索研究室CUP自然语言理解平台 IRSEG中”N最短路径”模块的特点 追求最短路径的准确率和召回率 在CUP平台中利用高层语言信息的反馈纠正分词结果 算法设计 利用分词有向图的特点(有向无环图) 明显减小了时间复杂度和空间复杂度,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),回溯得到N最优结果: 结合 / 成 / 分子 结合 / 成分 / 子 结 / 合成 / 分子 结合 / 成 / 分 / 子 时间复杂度: 搜索过程时间复杂度为O(k),K为图中边的总数; 保留结果过程插入排序时间复杂度O(N2); 总时间复度为O(k*N2)。,大纲,中文分词的意义和用途 IRSEG系统框架设计 数学模型与原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测,未登录词识别模块,Unigram的困境 很有效的解决歧义字段切分问题 绝大多数歧义现象为交集型歧义 对未登录词识别力不从心 未登录词构成极其复杂 与上下文形成各种歧义 自身构成形成各种歧义 很多情况下需借助上下文信息 Bigram性价比很低 90%以上的问题Unigram可以解决得很好 Bigram需要很大规模的训练语料和更复杂的词典结构 Bigram解码过程复杂度高,产生N最短路径开销是可观的,未登录词识别模块(续),局部Bigram模型 思想 在必要的范围应用Bigram模型 全局以Unigram模型为主 借助平滑的思想用插值将不同维数概率结合起来 用聚类的方法处理数据稀疏问题 优点 时间复杂度小(几乎与Unigram的相同) 不需要大规模的训练语料 可以通过方便的调节上下文信息对未登录词识别的影响 在原有数据结构上稍作修改即可输出N最短路径 达到和整体Bigram模型相当的效果,大纲,中文分词的意义和用途 IRSEG系统框架设计 数学模型与原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测,系统评测,词典资源
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年菏泽工程学校公开招聘备案制工作人员(10人)模拟试卷及完整答案详解
- 2025年辉南县教育系统面向东北师范大学等院校招聘教师及考前自测高频考点模拟试题附答案详解(突破训练)
- 2025春安徽淮南市寿县职业中专学校职教高考教师招聘考前自测高频考点模拟试题及答案详解(考点梳理)
- 2025吉林省省直事业单位招聘186人(1号)考前自测高频考点模拟试题带答案详解
- 2025贵州省水利厅所属事业单位第十三届贵州人才博览会引才模拟试卷及一套参考答案详解
- 2025内蒙古鄂温克族自治旗融媒体中心多元化岗位招聘2人模拟试卷完整答案详解
- 2025年4月15日广西梧州市龙投人力资源有限公司招聘2人模拟试卷完整参考答案详解
- 2025年阜阳临泉技工学校招聘4人模拟试卷及答案详解(新)
- 2025江苏省人民医院宿迁医院(宿迁市第一人民医院)高层次人才引进48人考前自测高频考点模拟试题及答案详解(新)
- 2025湖南省人民医院(湖南师范大学附属第一医院)高层次人才公开招聘78人考前自测高频考点模拟试题参考答案详解
- 中医形神兼养
- GB/T 44241-2024虚拟电厂管理规范
- SYT 6680-2021 石油天然气钻采设备 钻机和修井机出厂验收规范-PDF解密
- 实用美术基础中职全套教学课件
- 子宫内膜癌的预防和早期发现
- 债权债务法律知识讲座
- 个人停车位租赁合同模板
- 食品保质期检测记录表
- 基于教育培训行业的客户关系营销研究
- 老年综合评估和老年综合征课件
- 设计院工作联系单(模板)
评论
0/150
提交评论