专利匹配结果说明_第1页
专利匹配结果说明_第2页
专利匹配结果说明_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一、 开发环境 硬件环境:win8系统 I3处理器,4G内存 使用工具和开发语言:1、 MySQL数据库(版本5.1)2、 Coreseek(版本4.1):开源中文全文检索/搜索软件,基于Sphinx研发并独立发布3、 Java开发语言二、处理流程1、 初始化:将applicant文件夹中的数据去掉括号、提取关键字整理到一张表中。图1. 初始化流程图说明:去掉的非关键字符包括“公司、有限、责任、股份、集团、总厂、厂、研究院、研究所、研究中心”。2、 匹配:将公司关键字和applicant表中的关键字用sphinx进行匹配图2. 匹配流程 三、匹配原理说明Sphinx匹配一条字符时,先将字符进行

2、分词,例如“永嘉工业有限公司”,会分成“永嘉”、“工业”、“有限公司”这三个词,然后到全文数据库applicant表中去找与它最相似的词条,生成权值,并排序返回给用户。在写的针对公司匹配的程序中,通过统计得出,权值和分词的个数N有关,如果完全匹配的话,权值为weigh = N*(N-1)*100+1)*100(严谨的分词权重计算函数说明见下文引用的sphinx机制说明)。将一个公司名字匹配时,将匹配得到的第一条最相似的值得权重currentWeigh归一化,得到-1到1之间的一个值, similarity = (currentWeigh - weigh)/weigh,则可以认为similari

3、ty是该公司名字能够在词库中所能找到的最相似的词的相似度了。对每个公司名字都进行这样的计算,根据样本数据可知,相似度阈值为0.3是比较合适的,以此得出所有的公司数据,并按权重排序。其中,applicant经过去重剪枝最终的数据是307794条。初始化用时20分钟。完整的公司数据去重复之后又613204条,去掉公司代码和名称为空的数据剩下609844条,匹配得到的结果62276条,用时约3个小时。注意:在人工匹配时,前52401条错误较少,如精度要求不高可以不用人工匹配,后边的可以适当人工筛选。n Sphinx权值计算函数说明/s/blog_5aefd

4、9770100axf0.html(备注:我使用的是SPH_MATCH_ANY模式:即只要有匹配的一个词我都返回,通过后续相似度阈值来筛选。)权值计算函数主要有两部分1、词组评分 2、统计学评分词组评分根据文档和查询的最长公共子串(LCS,longest common subsequence)的长度进行。因此如果文档对查询词组有一个精确匹配(即文档直接包含该词组),那么它的词组评分就取得了可能的最大值,也就是查询中词的个数。统计学评分基于经典的 BM25 函数,该函数仅考虑词频。如果某词在整个数据库中很少见(即文档集上的低频词)或者在某个特定文档中被经常提及(即特定文档上的高频词),那么它就得到一个较高的权重。最终的 BM25 权值是一个 0 到 1 之间的浮点数。在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论