




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、中文全文信息检索系统中索引项技术及分词系统的实现 中文全文信息检索系统中索引项技术及分词系统的实现 摘要:本文对中文全文检索系统中常用的索引项技术n元语法,字,n元语法,词进行了介绍并讨论了其各自的特点。然后着重介绍了以词为索引项的方法及全文检索中的汉字分词问题。最后给出了一种混合型最大匹配分词算法。 关键词:信息检索 中文信息处理 分词 the indexing term technology of chinese information retrie
2、val and implement of segmentation system abstractthe paper discuss the technology of indexing term ,such as n-gray , character, word ,used in chinese information retrieval . we also introduce the method of using word as indexing term and the problem of segmentation ,then paper presents a mix m
3、ax match algorithm. 1 引言在全文信息检索系统中,索引项的选择是一个基本的,也是非常重要的问题。对输入的文档及用户查询要做的第一件事就是将它们分解为索引项的集合,然后才有可能计算出查询与文档的相关度。在英文的全文信息检索系统中,将查询及文档分解为索引项集合是件非常简单的事因为通常选用词为索引项, 而英文中词与词之间存在分隔符(如空格)。对中文全文信息检索系统来说将查询及文档分解为索引项集合就复杂些。首先要确定以什么单位为索引项,是以字,词还是短语为索引项?现有的研究中大部份认为应以词为索引项。这是因为首先以词为单位比较符合人的自然思维习惯,其次以词为索引项就可以借用英文全文
4、检索系统中已有的理论及方法。</p· 上一页· 1· 2· 3· 4· 5· 下一页 以词为索引项,就要进行分词,也就是将由汉字组成的连续字符串分解为词的集合,要进行正确的分词不是一件十分容易的事,首先在中文中字与之间,词与词之间是不存在分隔符的,因此分词一般都要借助词典来进行,而中文的构词非常灵活,词的数目几乎是无限的,因此要构造完备的词典是不可能的。为了克服以词为索引项所带来的困难,人们提出了一些别的方法如以字
5、为索引项,以二元,三元语法为索引项等。 本文首先对各种类型的索引项技术作简单介绍,分析它们应用于中文检索中的优缺点,然后着重讨论以词为索引项时的分词系统的设计及实现。 2 索引项及中文文本的表示方式 2.1 字 使用字为索引项是最简单的方法,将文本分解为索引项时非常容易实现。按照gb2312的规定共有6763个汉字。这样索引集合就非常小,最大不会超过6763。在这一点上与其它索引项技术(如词,n元语法)相比优点是非明显的。但以字为索引单位也有其明显的缺点。首先是匹配的准确性不高,例如用户的查询为 "识别",而某文档中存在 "
6、你是否还认别的人?" 这样一句话。则基于字的检索方法则会认为该查询与文档是相关的。其次在中文中同一概念可以有多种表达方式如 "中文","汉语","国语"。基于字的检索方法是无法处理这类问题的。 2.2 n元语法 在全文检索中常用的为二元及三元语。二元语法的思想为将文本中所有相邻汉字均作为索引项,这样前一个索引项的后一个字与下一索引项头个字是相同的。例如有一个字符串c1c2c3c4c5,则由它生成的索引项为c1c2,c2c3,c3c4,c4c5。三元语法的思想与二元语法相同,差别仅为三元语法的索引项由三个
7、字构成,例如对上面的字符串由其生成的三元语法索引项为c1c2c3,c2c3c4,c3c4c5。</p· 上一页· 1· 2· 3· 4· 5· 下一页 同样n元法的优点为将文本分解为索引项集合是十分容易的。但其索引空间是十分巨大的。使用n元语法同样也会使系统无法利用语言学知识。 2.3 词 目前大多数研究者认为中文全文检索也应以词为索引单位。也就是索引项应该为中文的词。这样做的好处是十分明显的。
8、首先符合人的习惯,有利于提高查询的准确性,也便于系统利用语言学知识。如果要进一步设计跨语种查询系统则非要以词为索引项不可。但使用词为索引项则应先解决好分词问题。 3. 一种混合型正向最大匹配算法 中文分词问题的研究己有二十多年历吏。其间己提出了多种分词算法。总的来说这些算法可分为四大类。第一类为基于词典的机械分词算法。第二类为基于统计的分词算法。第三类为第一类和第二类的混合型分词算法。第四类为基于知识的分词专家系统。 但各种分词算法均有其适用领域,针对全文检索中文档数量大,要求速度快的特点。我们设计了一个混合型正向最大匹配算法,该算法可利用规则及字频信息来处理分词
9、中的歧义并使用了三词块方法1。为加快分词过程中词的查找速度,按首字索引结构对词典进行了组织。 3.1 三词块及处理歧义的规则 三词块是一种处理分词歧义的方法。分词中遇到歧义时(假设有一字符串c1c2c3c4c5c6,当前处理到汉字c1,且c1为词c1c2也为词),则向前多找两个词,这种由三个词组成的串称之为三词块。处理中我们将找出所有可能的三词块并且认为具有最大长度的三词块是最有可能的分词。</p· 上一页· 1· 2· 3· 4· 5· 下一页
10、60; 假设有字符串c1c2c3c4c5c6,且c1,c1c2均为词并有如下一些可能的三词块。1 c1 c2 c3c42 c1c2 c3c4 c53 c1c2 c3c4 c5c6具有最大长度的词块为第三个。这样我们就认为第三个词块中的c1c2为正确的分法。取其为词。从c3外再次开始进行分词,一直到字符串结束。 我们所设计的分词算法以正向最大匹配算法为框架。分词过程中遇到歧义时则应用下例规则加以解决。 规则1具有最大长度的词块的第一个词为正确分词。 规则2 如具有最大长度的词块不唯一则寻找具有最小词长变化的三词块。该规则的隐含假设为在文档中词长是均匀分布的。 例如: 1 研究 生命 的 起源 2 研究生 命 的 起源 按规则选取块1中的"研究"为正确分词。 规则3 当具有最大长度的词块不唯一并且有相同的词长变化则具最大平均词的块中的第一个词为正确分词。该规则的隐含假设为遇到多字词的概率大于遇到一字词的概率。该规则仅当某些词块由一个或二个词构成时才有用。 规则4 当前面规则均不能确定选取那词块时,则分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小儿行走困难的临床护理
- 2025建筑合同常用英语句型
- 2025办公室租赁合同协议范本
- 2025集装箱活动房租赁合同范本
- 社会科学考试卷子及答案
- 山西五年级奥数试卷及答案
- 沙河二中考试卷子及答案
- 2025电大合同法精要速记版权威编排
- 2025【期权激励合同(张力律师)】股权期权激励合同
- 浙江国企招聘2025浙江青嘉建设有限公司(国有控股企业)招聘5人笔试参考题库附带答案详解
- 铺货协议合同
- 2025至2030年中国分子筛干燥剂市场现状分析及前景预测报告
- 福建省能源石化集团有限责任公司招聘笔试真题2024
- 专业税务顾问服务合同范本
- 走进物理-诺贝尔物理学奖的120年知到课后答案智慧树章节测试答案2025年春广西师范大学
- 基于Scrum的软件产品自动化测试框架研究
- 抢救病人护理书写规范
- (完整版)中医医院医疗设备配置标准(2012年)
- 2025护坡护岸施工及验收规范
- 2025加压水洗法沼气制备生物天然气技术规范
- 《糖尿病酮症酸中毒》课件
评论
0/150
提交评论