中文分词在标准检索中的应用.doc_第1页
中文分词在标准检索中的应用.doc_第2页
中文分词在标准检索中的应用.doc_第3页
中文分词在标准检索中的应用.doc_第4页
中文分词在标准检索中的应用.doc_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文分词在标准信息检索中的应用近年来,随着“三证合一、一照一码”、“企业标准声明公开”等政策的逐步落实,标准专业机构纷纷打破原有的工作模式,加大了对标准在人员、资金、科研等方面的投入,带来了全新的标准服务模式,如浙江标准化院推出综合性标准服务平台和企业版标准信息管理系统,极大地方便了标准人员的工作。在这些标准服务平台和信息管理系统中,使用最多的功能是标准题录信息的检索,涉及中文检索的内容主要有标准中文名称、摘要和全文。中文中的词语是由汉字组成的最小的有意义的语句单位,词语之间没有明显的区分标记,而英文单词之间是以空格作为自然分界符。现代中文里,双音节词语占的比重最大,也有单音节词语,如口、厂、洗、染。中文分词是将连续的汉字序列按照一定的规范重新组合成词语序列的过程,主要应用于智能搜索领域,如百度、搜狗等网站的搜索功能。本文介绍如何通过建立简易标准分词词典库,然后运用基于该标准词典库的三种分词方法对输入的检索语句进行分词,最后依据这些分词检索标准的中文名称。本文选取国家标准化管理委员会网站公布的4.88万条国家标准(含废止)构建标准检索库,选取环境保护类的国家强制性标准166条,构建简易标准分词词典库(以下简称标准词典库)。分词原则主要选取双音节词语,如果截取一个词语影响语义则选择不截取,如“排放口”不截取成“排放”和“口”,后两个词虽然有独立语义,但合在一起表达的意思更完整,类似词语还有“发动机”、“固体废物”、“汽车压件”等。这些国家标准中文名称进行人工分词后的全部词语有323个,出现次数较多的前30个词语参见表1。词语次数(个)词语次数(个)词语次数(个)词语次数(个)标准118排放98污染物93工业58水33环境28控制26限值26方法25测量23大气17废物17保护15汽车14原料13用作13固体废物13进口13鉴别11阶段10噪声10中国10危险10排气10污染8质量8摩托车7海洋7废7发动机7表1 标准词典库部分词语及在166个国家标准中出现的次数中文分词方法有许多种,本文介绍正向最大匹配法、逆向最大匹配法和双向最大匹配法三种。最大匹配法是指假设分词词典库中的最长词有i个汉字,取待处理检索语句的前i个汉字作为匹配词语,在分词词典库中检索。如果能检索到,将该i个汉字截取出来,剩余汉字开始匹配。如果不能检索到,将该匹配词语的最后一个汉字去掉,对其余i-1个汉字重新在分词词典库中检索。重复以上步骤,直到该匹配词语能检索到或者只剩一个汉字。以此类推,待处理检索语句的其余汉字也做同样方法的匹配,直到匹配完所有的词语或汉字。正向匹配法是指从前向后匹配词语,逆向匹配法是指从后向前匹配词语,双向匹配法是指用正向匹配法和逆向匹配法分别匹配词语,如果匹配结果相同,采用这些分词词语;如果匹配结果不相同,采用总词语数最少或者优化后的词语最少的分词词语。下面,以输入国家标准GB/T 1.1-2009的中文名称“标准化工作导则 第1部分:标准的结构和编写”为例,说明上述三种匹配方法的实现过程。标准词典库中的最长词是“混装制剂类”5个汉字,最大匹配字数就是5个汉字,每次检索相应减少1个汉字,直到检索完成。如果待处理中文语句中有空格、数字、标点符号等自然分隔符,优先截取这些符号之前的语句作为检索词语,进行匹配。1、 正向最大匹配法的分词过程:从前向后截取5个汉字是“标准化工作”,在标准词典库中检索。能检索到,再从第6个汉字截取5个汉字;不能检索到,则把“标准化工作”每次从后面减少1个汉字。第1次检索词:“标准化工作”,5字词典不能检索到;第2次检索词:“标准化工”,4字词典不能检索到;第3次检索词:“标准化”,3字词典不能检索到;第4次检索词:“标准”,2字词典中能检索到。第1次分词完成,找到词语“标准”,剩余检索语句“化工作导则 第1部分:标准的结构和编写”。以此类推,最后的分词结果是“标准/化/工/作/导/则/第1/部分/标准/的/结/构/和/编/写”。其中,“标准/第1/部分/标准”词语属于词典词。因为标准词典库的不完善,导致“工作/导则/结构/编写”词语没有被截取,这类词语属于非词典词。2、 逆向最大匹配法的分词过程:从后向前截取5个汉字是“结构和编写”,在标准词典库中检索。能检索到,再从倒数第6个汉字向前截取5个汉字;不能检索到,则把“结构和编写”每次从前面减少1个汉字。第1次检索词:“结构和编写”,5字词典不能检索到;第2次检索词:“构和编写”,4字词典不能检索到;第3次检索词:“和编写”,3字词典不能检索到;第4次检索词:“编写”,2字词典不能检索到;第5次检索词:“写”,1字词典不能检索到;第1次分词完成,没有找到词语。第2次分词截取5个字符为“的结构和编”,以此类推,最后的分词结果是“标准/化/工/作/导/则/第1/部分/标准/的/结/构/和/编/写”。3、 双向最大匹配法的分词过程:在上面例子中,正向最大匹配法和逆向最大匹配法的分词结果都是“标准/化/工/作/导/则/第1/部分/标准/的/结/构/和/编/写”,则双向最大匹配法直接采用该分词结果。在标准词典库中增加2个分词“化工”、“工作”,正向最大匹配法的分词结果是“标准/化工/作/导/则/第1/部分/标准/的/结/构/和/编/写”,逆向最大匹配法的分词结果是“标准/化/工作/导/则/第1/部分/标准/的/结/构/和/编/写”,两者的分词区别是“化工/作”和“化/工作”,可以看出后者是正确的结果。这里引入另一个原则,如果分词结果不同而总分词数相同,采用逆向最大匹配法的分词结果。双向最大匹配法的另一个原则是采用单字词语最少的分词结果。例如“标准研究院士”在大数据分词词典库中,正向最大匹配法的结果是“标准研究院/士”,逆向最大匹配法的分词结果是“标准/研究/院士”,前者有1个单字词语,后者没有,因此选择后者的分词结果。在标准词典库中添加“标准化工作”、“结构”、“编写”词语,双向最大匹配法的分词结果是“标准化工作/导/则/第1/部分/标准/的/结构/和/编写”。分别输入标准词典库中的词语“标准化工作”、“第1”、“部分”、“标准”、“结构”、“编写”,在标准检索库中检索的结果参见表2。词语含有词语的标准数量(条)标准化工作34第13121部分9962标准1605结构603编写59表2 利用分词词语检索国家标准的结果从表2中可以看出,使用5字词语“标准化工作”检索出来的结果也能符合检索要求,因此,除直接检索输入的语句外,使用分词后的多字词语检索也能满足人们的检索需求,这就是智能搜索引擎利用分词技术实现的检索语句的搜索功能。以上方法同样适用于标准的摘要和全文检索。大多

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论