IKAnalyzer中文分词器介绍

上传人：简*** IP属地：湖北上传时间：2020-04-06 格式：DOC 页数：10 大小：135KB 积分：9.6 举报 版权申诉

已阅读5页，还剩5页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

IKAnalyzer3 2 8 中文分词器介绍中文分词器介绍 2012 年 3 月 2 日 1 IKAnalyzer 简介简介 IKAnalyzer 是一个开源基于 JAVA 语言的轻量级的中文分词第三方工具包从 2006 年推出已经经历了三个较为完整的版本目前最新版本为 3 2 8 它基于 lucene 为应用主体但是它也支持脱离 lucene 成为一个独立的面向 JAVA 的分词工具 2 IKAnalyzer 结构图结构图 3 IKAnalyzer 特性特性 a 算法采用正向迭代最细粒度切分算法支持细粒度和最大词长两种分词方式速度最大支持 80W 字秒 1600KB 秒 b 支持多子处理器分析模式中文数字字母并兼容日文韩文 c 较小的内存占用优化词库占有空间用户可自定义扩展词库 d 扩展 lucene 的扩展实现采用歧义分析算法优化查询关键字的搜索排列组合提高 lucene 检索命中率 4 关键类介绍关键类介绍 org wltea analyzer lucene IKAnalyzer IK分词主类基于Lucene的Analyzer接口实现 org wltea analyzer lucene IKQueryParser IK分词器提供的Query解析构造工具类其中parseMultiField 函数所有的重载函数为关键函数 org wltea analyzer IKSegmentation IK 分词器的核心类真正分词的实现类 5 IK 分词算法理解分词算法理解根据作者官方说法 IK 分词器采用正向迭代最细粒度切分算法分析它的源代码可以看到分词工具类 IKQueryParser 起至关重要的作用它对搜索关键词采用从最大词到最小词层层迭代检索方式切分比如搜索词中华人民共和国成立了首先到词库中检索该搜索词中最大分割词即分割为中华人民共和国和成立了然后对中华人民共和国切分为中华人民和人民共和国以此类推最后中华人民共和国成立了切分为中华人民中华华人人民人民共和国共和国共和成立立了当然该切分方式为默认的细粒度切分若按最大词长切分结果为中华人民共和国成立立了核心算法代码如下 boolean accept Lexeme lexeme 检查新的lexeme 对当前的branch 的可接受类型 acceptType REFUSED 不能接受 acceptType ACCEPTED 接受 acceptType TONEXT 由相邻分支接受 int acceptType checkAccept lexeme switch acceptType case REFUSED REFUSE 情况 return false case ACCEPTED if acceptedBranchs null 当前branch没有子branch 则添加到当前branch下 acceptedBranchs new ArrayList 2 acceptedBranchs add new TokenBranch lexeme else boolean acceptedByChild false 当前branch拥有子branch 则优先由子branch接纳 for TokenBranch childBranch acceptedBranchs acceptedByChild childBranch accept lexeme acceptedByChild 如果所有的子branch不能接纳则由当前branch接纳 if acceptedByChild acceptedBranchs add new TokenBranch lexeme 设置branch的最大右边界 if lexeme getEndPosition this rightBorder this rightBorder lexeme getEndPosition break case TONEXT 把lexeme放入当前branch的相邻分支 if this nextBranch null 如果还没有相邻分支则建立一个不交叠的分支 this nextBranch new TokenBranch null this nextBranch accept lexeme break return true 从代码中可以了解到作者采用了递归算法代码中加粗的部分切分搜索词若词存在子词则递归该函数继续切分 6 词库的扩展词库的扩展 IK 本身带有 27W 的词库对于词库的扩展目前支持两种方式分别是配置文件和 API 扩展同时提供了对用户自定义停止词的扩展支持针对数据库存储字库采用这种方式比较好基于基于 API 词库扩展词库扩展类名 org wltea analyzer dic Dictionary 函数 public static void loadExtendWords List extWords 加载用户扩展的词汇列表到IK的主词典中函数 public static void loadExtendStopWords List extStopWords 加载用户扩展的停止词列表基于配置的词库扩展基于配置的词库扩展 IKAnalyzer cfg xml 文件可以扩展专有词库及停止词库配置如下 IK Analyzer 扩展配置 mydict dic com mycompany dic mydict2 dic ext stopword dic 7 与与 solr 的结合的结合可以说 IK 与 solr 的结合非常简单只要把 solr 中的 schema xml 添加如下代码即可或者是其中org wltea analyzer solr IKTokenizerFactory 继承了solr1 4的 BaseTokenizerFactory类而org wltea analyzer lucene IKAnalyzer继承了lucene的 Analyzer类 8 在在 solr1 4 中使用中使用 IKQueryParser 由于 Solr 默认的 Query Parser 生成的 Query 一般是短语查询导致只有很精确的结果才被搜索出来比如默认情况下库里有北京爱皮科技有限公司用户搜索词为爱皮公司 solr是不会把结果显示出来的所以必须分别扩展 QParserPlugin QParser 代码如下 IKQParserPlugin import mon params SolrParams import mon util NamedList import org apache solr request SolrQueryRequest import org apache solr search QParser import org apache solr search QParserPlugin public class IKQParserPlugin extends QParserPlugin public void init NamedList args public QParser createParser String qstr SolrParams localParams SolrParams params SolrQueryRequest req return new IKQParser qstr localParams params req IKQParser import org apache lucene queryParser ParseException import org apache lucene search Query import mon params CommonParams import mon params SolrParams import org apache solr request SolrQueryRequest import org apache solr search QParser import org wltea analyzer lucene IKQueryParser class IKQParser extends QParser String defaultField public IKQParser String qstr SolrParams localParams SolrParams params SolrQueryRequest req super qstr localParams params req public Query parse throws ParseException String qstr getString defaultField getParam CommonParams DF if defaultField null defaultField getReq getSchema getDefaultSearchFieldName Query query null query IKQueryParser parse defaultField qstr return query public String getDefaultHighlightFields return defaultField null null new String defaultField 将代码打包放到 solr home的lib下面配置solrconfig xml里面然后在下面增加ik即可 9 和其他中文分词器的比较和其他中文分词器的比较目前流行的几大开源分词器主要有 paoding mmseg4j IKAnalyzer 它们三个都是基于 JAVA 语言开发的总体上来说没有谁最好各有优劣 Paoding 开发者及活跃度 SVN 最后更新时间 2010 年 4 月 29 日基本停止维护更新速度在 PIII 1G 内存个人机器上 1 秒可准确分词 100 万汉字算法和代码复杂度采用基于不限制个数的词典文件对文章进行有效切分使能够将对词汇分类定义 7000 行左右 JAVA 代码技术实现上和 IK 类似文档无用户自定义词库支持不限制个数的用户自定义词库自动检测词库的更新自带词库 22W 个 Lucene 和 solr 的支持支持 Lucene3 0 和 solr 的集成需自己写代码扩展 mmseg4j 开发者及活跃度 SVN 最后更新时间 2011 年 6 月 29 日速度两种分词方法 Simple 和 Complex 目前 complex 1200kb s 左右 simple 1900kb s 左右但内存开销了 50M 左右算法和代码复杂度 MMSeg 算法 2500 行左右代码文档 MMSeg 算法有英文文档原理比较简单用户自定义词库自带搜狗的词库支持自定义词库不支持自动检测自带词库 16W 个 Lucene 和 solr 的支持支持 Lucene2 4 solr1 3 IKAnalyzer 开发者及活跃度 SVN 最后更新时间 2011 年 4 月 15 日速度每秒 80W 字算法和代码复杂度正向迭代最细粒度切分算法 4500 行左右代码文档有一个中文使用手册用户自定义词库支持自定义词库不支持自动检测自带词库 27W 个 Lucene 和 solr 的支持支持 Lucene3 0 solr1 4 综上所述 IKAnalyzer 具有一定的优势 10 IK 分词弱点缺点分词弱点缺点总体来说 IK 是一个很不错的中文分词工具但它自身也存在一些缺点比如

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

IKAnalyzer中文分词器介绍

文档简介

温馨提示

最新文档

评论

IKAnalyzer中文分词器介绍

文档简介

温馨提示

最新文档

评论

相关文档