《华南木棉信息检索》ppt课件_第1页
《华南木棉信息检索》ppt课件_第2页
《华南木棉信息检索》ppt课件_第3页
《华南木棉信息检索》ppt课件_第4页
《华南木棉信息检索》ppt课件_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、全国搜索引擎与网上信息学术研讨会SEWM 2006-中文Web检索 木棉检索队:张元丰,陈晓志,陈晓锋目录目录 木棉搜索引擎现状木棉搜索引擎现状 数据格式转换数据格式转换 关键技术引见关键技术引见 结果提交结果提交 分析与展望分析与展望木棉搜索引擎现状木棉搜索引擎现状 基于基于Nutch的实现;的实现; 对对URL、Title、Anchor、Content进展索引;进展索引; PageRank算法的运用;算法的运用; 中文分词;中文分词; 基于集群系统的并行化搜索引擎。基于集群系统的并行化搜索引擎。木棉搜索引擎现状木棉搜索引擎现状网页预处理中文分词链接分析文档库索

2、引库网页噪音模板库链接库 综合采用多种去噪算法,噪音的去除,可以减少索引量,可以防止噪音对检索结果的影响对站内站外链接赋予不同的权重,保管锚点文本信息链入锚点文本网页url网页标题网页主题内容链出锚点文本基于词频的中文分词Google pagerank算法简单pagerank算法木棉搜索引擎现状木棉搜索引擎现状用户输入查询词索引库二次排序结果目录目录 木棉搜索引擎现状木棉搜索引擎现状 数据格式转换数据格式转换 关键技术引见关键技术引见 结果提交结果提交 分析与展望分析与展望数据格式转换数据格式转换数据格式转换数据格式转换 将3700万网页分成70个part进展处置 对每个part建立Web D

3、B 合并一切的Web DB 用完好的Web DB更新每一个part的数据 对每个part分别建立索引 合并索引目录目录 木棉搜索引擎现状木棉搜索引擎现状 数据格式转换数据格式转换 关键技术引见关键技术引见 结果提交结果提交 分析与展望分析与展望关键技术引见关键技术引见 TD 搜索相关主题的文章,主要查找入口页面。 NPHP 查找首页或者指定页面 。关键技术引见关键技术引见 TD 扩展查询 利用Description对查询词进展扩展,比如:Number:TD146股票分析Description:股票分析的网站,专家评论,论坛和软件扩展后为:股票分析、股票论坛、股票评论、股票软件; 用扩展后的查询

4、词搜索,每个查询词均前往300条结果; 合并扩展查询结果。 关键技术引见关键技术引见 TD 二次查询优化 截取每个查询结果的前200条结果; 对这200条结果进展站内聚合,并将每个网站内的ROOT、SUBROOT、url深度小于3的PATH的url提早; 对一切被提早的网页按照得分排序,并尽量保证前十条出现不同网站的url,将这些网页放在结果集的前面; 对其他网页按照得分进展排序,顺序陈列在得到的结果之后。关键技术引见关键技术引见 NPHP 对于所给的查询集,我们根据查询词很容易就可以分辨出该查询的意图:HP or NP。我们手工对查询词进展判别RANK4 和 RANK5没有这一步骤,添加Hh

5、omepage或Nnamepage标志。这一步骤主要是查询优化时运用; 在索引库中查询,并前往200条搜索结果; 对搜索结果进展二次排序。算法主要是基于华南理工大学胡俊刚等的。同时判别查询词的H标志或者N标志,把结果中的主页提取到前面H或放到后面N。关键技术引见关键技术引见 Page Rank Google Page Rank 在要求不高的情况下,迭代计算5次即可。 简单 Page Rank 可以反映网页的重要程度。1()()()niiiP R TP RPCC T( )ln()PR PC inlink目录目录 木棉搜索引擎现状木棉搜索引擎现状 数据格式转换数据格式转换 关键技术引见关键技术引见

6、 结果提交结果提交 分析与展望分析与展望结果提交结果提交 CWT200gTD序号中文分词扩展查询PR二次排序RUN1简单RUN2简单RUN3简单RUN4简单RUN5结果提交结果提交 CWT200gNPHP序号中文分词手动标志PR二次排序RUN1简单RUN2简单RUN3简单RUN4简单RUN5简单结果提交结果提交 CWT20gTD序号中文分词扩展查询PR二次排序RUN1规范RUN2规范RUN3规范RUN4简单RUN5简单结果提交结果提交 CWT20gNPHP序号中文分词扩展查询PR二次排序RUN1规范RUN2规范RUN3规范RUN4规范RUN5规范目录目录 木棉搜索引擎现状木棉搜索引擎现状 数据格式转换数据格式转换 关键技术引见关键技术引见 结果提交结果提交 分析与展望分析与展望分析与展望 对网页各组成部分进展索引并赋予不同的权重可以提高检索精度; NPHP查询结果好;TD查询在一些情况下不能很好的将用户引导到最有价值的页面; 人工标志和二次排序对提高检索准确率有很大的协助; 查询呼应时间

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论