




全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
在分词系统中常用的分词词典机制有:(1)基于整词二分;(2)基于TRIE索引树;(3)基于逐字二分.一、基于整词二分的分词词典机制这是一种广为使用的分词词典机制.其结构通常分为三级,前两级为索引,如图3.1听示。 图 3.1 基于整词二分的分词词典机制 1.首字散列表词首字散列函数根据汉字的国标区位码给出。通过一次Hash运算即可直接定位汉字在首字散列表中的序号。也就是将词首字的国标码与其在首字散列表中的序号相对应。我国的GB2312-80标注规定汉语字符的交换码由两个ASCII码构成:第一个是区码,取值从OxA1到OxF7,共87个区,第二个是位码,从OxA1到0xFE,共94位。区码为OxA1到0xAE的存储全角符号,如标点、字母等。GB2312-80汉字的编码空间是BOA1-FIFE,共有72 * 94 = 6768个码位,实有6763个汉字,其中一级汉字3755个,接着是5个空位,后面是3008个二级汉字。设id是词首字在首字散列表中的序号,c1和c2是词首字的区码和位码,利用Hash方法求Id则有:Id = (c1176) * 94 + (c2 - 161) (3-1)这种Hash方法实质上是一种一一映射。 首字散列表的一个单元包括两项内容:1) 入口项 数(4字节):以该字为首字的词的个数。2) 第一入口项指针(4字节):指向第一入口项在词索引表中的位置。 2.词索引表因为词的长度可变(实际系统中还包括附属于该词的各类信息),故以选择不定长存储为宜,此外必须实现对词的随机访问,这两条决定了必须建立词索引表。词索引表的一个单元仅含一项内容:1) 词典正文指针(4字节):指向词在词典正文中的位置。 3.词典正文以词为单位的有序表,词典中的同一首字的词条按升序排列,通过词索引表和词典正文的配合,很容易实现指定词在词典正文中的整词二分快速查找。 在整词二分查询任意一个汉字串W1n, W1表示该字串首字,Wn表示首字后面的 n个汉字,查询的过程为:1) 根据首字散列表得到W1入口项指针和以它为首字的词在词索引表中所占的范围。2) 根据 1)中得到的范围在词典正文中对汉字串Wn进行二分查找。如果查询成功则W ln为分词词典中的一个词.整词二分法查询的基本原理很简单,但是每次查询都只能对汉字串Wln是否为一个词进行判断,它不能从查询的中间过程中发现汉字串W1n中所有可能包括的词。而且它查询的范围较大,总是在以W1为首字的所有词表范围内。而我们在分词过程中,需要得到一个汉字串S中所有可能切分出的词,也就是说要找出S中所有以W1为首字的词,如果用整词二分法来查询的话就需要进行多次的试探,即每改变一次待查字串W1n的n值就要对词典进行一次查询,而且每次的查询过程都要在以W1为首字的所有词表范围内.因此整词二分法的查询效率不高. 二、基于TRIE索引树的分词词典机制TRIE索引树是一种以树的多重链表形式表示的键树。基于TRIE树的分词词典由两部分组成,如图3.2所示。图 3.2 基于TRIE索引树的分词词典机制1.首字散列表同基于整 词二分的分词词典机制。首字散列表的一个单元是所对应汉字的TRIE索引树的根结点.2.TRIE索引树结点TRIE索引树结点是以下述结构为单元的,按关键字排序的数组:关键字(2字节):单一汉字。子树大小(2字节):以从根结点到当前单元的关键字组成的子串为前缓的词的个数。子树指针(4字节):子树大小非0时,指针指向子树,否则指向叶子。 在TRIE索引树上查询任意一个词W1n的过程为:1) 根据首字散列表得到W1TRIE索引树,沿相应指针移动至目标结点NODE,i = 2。2) 在NODE的关键字域中对汉字Wi进行二分查找。如果与NODE的第 j 个单元的关键字匹配成功则沿该单元的子树指针移至目标结点,并令该结点为新的NODE,i = i + 1,否则 查找失败,退出此过程。3) 重做 2),直到 NODE为 叶子结点。4) 如果 到达叶于结点时in,则查询成功,W ln为分词词典中的一个词,否则查询失败。 与整词二分的分词词典机制形成鲜明对照的是:基于TRIE索引树的分词词典机制每次仅仅只比较一个汉字,不需预知待查询词的长度,且在对汉字串S的一遍扫描过程中,就能得到所有可能切分的词。这种由短词及长词的确定性工作方式避免了整词二分的分词词典机制不必要的多次试探性查询。由于TRIE索引树已蕴含了词条信息,因此词典中不必再显式地罗列词条,可直接存储词的附属信息(叶子指针直接指向这些信息)。TRIE索引树分词词典机制的主要缺点是其构造及维护比整词二分复杂。 基于TRIE索引树的另外一种构造方式就是:所有字都采用Hash散列的方式。其结构与图3.2 基本相同,不同的是其入口项个数要么为0 要么就是整个汉字字库的大小。这种方式在查询上有显著的效率提升,因为不需要执行二分查找,但是由于中文汉字数量巨大,同时也造成了大量空间的浪费。 三、基于逐字二分的分词词典机制基于逐字二分的分词词典是针对整词二分和TRIE索引树的不足而设计的一种分词词典。逐字二分分词词典与整词二分分词词典在数据结构上相同,因此其构造比TRIE索引树简单。从查询方式来看,逐字二分不再将整个词作为关键字进行比较,而是类似TRIE索引树的情形,每次仅仅比较单个的汉字。因而其效果同TRIE索引树一样,不需预知待查询词的长度,且在对汉字串S的一遍扫描过
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025不动产赠与合同 标准版模板全
- 2025版合同:不动产抵押合同
- 2025房屋出租人单方解除合同
- 2025合同违约警告信
- 2025租房合同范本合法性分析
- 2025简易住宅交易合同
- 2025计算机软件使用许可合同协议书员工合同协议书
- 2025年新能源行业企业数字化转型与能源消费协同报告
- 黎阳的激情人生课件
- 联合研发平台构建模式-洞察与解读
- 手术室无菌技术操作讲课
- 2025年北京师大附属实验中学丘成桐少年班选拔数学试卷
- 2025年中石化校招试题及答案
- 布控球使用管理办法
- 收费员考试题库及答案
- 住院患者血糖管理制度
- 儿童热性惊厥课件
- 禁毒社工考试试题及答案
- 买卖山岭合同标准文本
- 银行业风险管理知识题库及案例分析题集
- 各工种操作规程
评论
0/150
提交评论