2.提高搜索体验中文语言分词_第1页
2.提高搜索体验中文语言分词_第2页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、通过自定义分词手段提高用户体验By Autonomy China Team目录 TOC o 1-3 h z u HYPERLINK l _Toc353098536 1.修改权重和索引字段 PAGEREF _Toc353098536 h 3 HYPERLINK l _Toc353098537 2.定义自定义词典. PAGEREF _Toc353098537 h 4 HYPERLINK l _Toc353098538 3.定义同义词. PAGEREF _Toc353098538 h 5 HYPERLINK l _Toc353098539 4.查询加权 PAGEREF _Toc353098539 h

2、 6 HYPERLINK l _Toc353098540 5.复杂查询语句举例 PAGEREF _Toc353098540 h 7修改权重和索引字段在AutonomyIDOLServer.cfg中配置 indexweighthigher可以分不同的字段定义不同的Weighthigher,例如标题权重可以设置为5,副标题的权重可以设置为3,而DRECONTENT的权重可以设置为1,一般客户都要求标题中全匹配的文章在查询结果中排行靠前,标题权重可以自行调整,但是建议不要超过10。如下:/Field Processing/SetIndexAndWeigh/ Fields which are inde

3、xed with a weightProperty=IndexWeightFieldsPropertyFieldCSVs=*/DRECONTENTSetIndexAndWeigh2/ Fields which are indexed with a weightProperty=IndexWeightFields2PropertyFieldCSVs=*/SUBTITLE SetIndexAndWeigh3/ Fields which are indexed with a weightProperty=IndexWeightFields3PropertyFieldCSVs=*/DRETITLE,*

4、/TITLE/Properties/IndexWeightFieldsIndex=TRUEWeight=1IndexWeightFields2Index=TRUEWeight=3IndexWeightFields3Index=TRUEWeight=5定义自定义词典.自定义分词,众所周知,中文分词与英文不同,随着社会的进步,每天都有很多新词涌入我们的生活,所以为了查询的准确性,不断添加自定义分词也是非常必要的,做法如下:在AutonomyIDOLServerIDOLlangfiles目录中创建名为chinesebreaking_custom_dict.dat的文件,文件编码方式为UTF8,直接把

5、需要添加的自定义分词一行一个写在该文本中,但是需要重新索引数据才能生效。如下:定义同义词.同义词典的维护,很多时候客户在搜索时需要定义同义词,同义词对客户的帮助也很大,当然需要客户来提供同义词的词典,设置方法如下:/Field Processing/SynonymMatchProperty=ApplySynonymMatchPropertyFieldCSVs=*/DRETITLE,*/DRECONTENT/Properties/ApplySynonymMatchSynonymType=Synonym_job/ Synonym /Synonym0=Synonym_jobSynonym_jobFi

6、le=/opt/Autonomy/content/synonymword.txtMaxExpandLevel=0格式为写清语言标签,一行中以逗号分隔,每一行的词均为同义词文件以UTF8保存查询加权查询语句的加权,可以再查询语句中动态增加搜索词的权重,这样做可以一定程度上改变搜索结果的排序,如下所示:HTTP:/localhost:9000/Action=query&text=China*5:DRETITLE+OR+China*3:DRECONTENT语句的作用是增加以5倍的权重在标题中查询关键字“China”,以3倍的权重在正文中查询关键字“China”复杂查询语句举例http:/localh

7、ost:9000/action=Query&Text=(中華民國)100:DRETITLE+OR+(中華民國)80:DRETITLE+OR+(中華民國)30:DOC_KEYWORDS+OR+(中華民國)6:DRECONTENT+OR+(中華民國)&StartTag=&EndTag=&Highlight=terms,summaryterms&Summary=context&MaxResults=30&Start=1&Characters=500&DatabaseMatch=SUPPORT_DOCS,SUPPORT_HDX_MERGE&FieldText=EQUAL1:DOC_LANGUAGE+A

8、ND+EQUAL16,17,20,21,183,853,1264,1766:RESERVE_NUM_FIELD1_SUB:RESERVE_NUM_FIELD1+AND+BIAS1,1,2:RESERVE_NUM_FIELD5&PrintFields=DOC_ID,DOC_LANGUAGE,DREDATE,DRETITLE,DREREFERENCE,RESERVE_FIELD1,RESERVE_FIELD2,RESERVE_FIELD3,RESERVE_FIELD4,RESERVE_FIELD5,RESERVE_FIELD6,RESERVE_FIELD7,RESERVE_FIELD8,RESERVE_FIELD9,RESERVE_FIELD

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论