分词系统介绍新课件_第1页
分词系统介绍新课件_第2页
分词系统介绍新课件_第3页
分词系统介绍新课件_第4页
分词系统介绍新课件_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、分词系统介绍大纲分词框架各模块算法介绍2盛大搜索院分词系统(架构)ChunkerProcess chainNormalizerAtomic RecoFinedSegmentCoreSegmentErrorCorrectSinkExecutorDictionaryError Correct DictUnigramDictBigramDictSenitiveWordUniBi盛大搜索院分词系统(字符归一化)Chunker根据特殊字符和限制长度切分句子Normalizer全角半角、大小写归一化Atomic Recognition针对英文、数字、日期等非字典词做原子识别(比如2012年3月2日)Fin

2、ed Atomic Recoginition在原子识别基础上进行细粒度识别(可识别出2012)为索引提供丰富词汇Core Segment核心分词组件包括:一元分词(Unigram)和二元分词(Bigram)Error Correction通过纠错词典对分词结果纠错Sink Executor组装、定制最终分词结果(是否返回词频、是否组装细粒度结果)Dictionary基于Trie树的词典组件,提供基本的词管理、查询功能Sensitive Word基于字典的敏感词组件,提供个其他系统使用盛大搜索院分词系统(原子词识别)原子词简单命名实体500万2012年6月11日识别正则表达式有限状态自动机使用基

3、于类的语言模型 未#串500万 未#数2012年6月11日未#时盛大搜索院分词系统(原子词识别)规则整理先验知识系统实现正则表达式库手动构造DFA自动生成DFA两点十五分零三秒三点十五三点差五分三点差一刻三点钟三点半3:15盛大搜索院分词系统(原子词识别)正则表达式生成NFA正规表达式s和t的NFA分别为N(s)和N(t) N(s*)N(st)N(s|t)盛大搜索院分词系统(原子词识别)NFA生成DFA(确定化)令 Dstates 中仅包含-closure(s), 并设置状态为未标记;while Dstates中包含未标记的状态T dobegin 标记T; for 各输入记号a do begi

4、n U := -closure(move(T, a); if U不在Dstates中 then 将 U 追加到 Dstates 中,设置状态为未标记; DtransT, a := U; endend盛大搜索院分词系统(字典匹配)从第一个字符开始找出字典中能匹配到的所有词以 【中华人民共和国】为例:中华人民共和国中,中华,中华人民,中华人民共和国中华人民共和国华,华人要注意的是单字必须成词!盛大搜索院分词系统(分词算法)基于语言模型的切分对于每一个切分结果,采用n元语法模型计算其概率,并输出概率最大的切分结果盛大搜索院分词系统(分词算法)Unigrambigram盛大搜索院分词系统(分词算法)组

5、合爆炸动态规划Viterbi算法盛大搜索院分词系统(分词算法)盛大搜索院分词系统(分词算法)盛大搜索院分词系统(分词算法)盛大搜索院分词系统(分词算法)盛大搜索院分词系统(分词算法)盛大搜索院分词系统(平滑计算)当某个词词频为0时会给计算带来一定的困难,为了避免这种情况使用了+1平滑和回退平滑+1平滑为了解决某个词词频为0的情况,比如单字,无论词频是否为0都对其加1回退平滑为了解决二元分词中,bigram词典词频为0的情况盛大搜索院分词系统(纠错模块)基于纠错词典纠错对于短时间内无法通过算法解决的bad case,通过纠错后处理来解决核心思想通过上下文来纠错例如:松原市 长 春节 致辞纠错词典规则:松原市 长 = 松原市长算法实现按照纠错

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论