搜索引擎软件使用说明书_第1页
搜索引擎软件使用说明书_第2页
搜索引擎软件使用说明书_第3页
搜索引擎软件使用说明书_第4页
搜索引擎软件使用说明书_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、搜索引擎软件v1.0 1 搜索引擎软件使用说明书1 软件概述1.1 编写目的随着计算机产业的迅猛发展,搜索引擎也应运而生。用户直接获得自己想要的信息其实是很简单, 但是面对着简单的搜索框,很多用户都只是了解大概,要想了解的更彻底关键在于学会怎么来用。为了用户能够更快更方便的获得想要的信息,本人针对自己开发的搜索引擎包特编写了使用说明书。1.2 搜索引擎介绍1.2.1 搜索引擎定义搜索引擎主要用于帮助互联网用户查询信息的搜索工具,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织及处理,并且能为用户提供检索服务,从而起到信息导航的目的因此,搜索引擎是用来在网上找资料的工具。1.2

2、.2 搜索引擎系统结构图网路爬虫目标站点镜像html 文件前期处理程序过滤不需要的html ,只保留价格和商品描述,存成文本文件文本文件建索引程序搜索搜索程序通过 socket 提供搜索服务java 搜索界面图 1 系统结构图1.2.3主要功能搜索引擎软件v1.0 2 本人开发的搜索引擎主要是进行信息检索,从而返回检索结果。搜索引擎将用户所产生的一些信息列入了排序因素中,具有对各大商城的网站进行抓取、建立索引、 搜索比价的功能。它是网络营销中最重要的组成部分,是向终端客户传递信息的重要环节。搜索界面如下图:1.2.4 主要特点 快速地为搜索文件建立索引,支持追加,重建,和不同编码

3、的搜索文件。 搜索引擎支持关键字搜索,与或非逻辑搜索,支持按需返回搜索结果。 web服务器能快速连接搜索引擎,支持用户的多样化搜索,并展示搜索结果。2 如何编译 fts 1. aclocal 2. automake -add-missing 3. autoconf 4. ./configure 5. make 搜索引擎软件v1.0 3 编译成功以后,在./src/目录下,有index.exe, search.exe 和 shutdown.exe 。2.1 index.exe index.exe是对网络爬虫抓来的网页建立索引,-d 源目录, -d 索引目录, -r 重

4、建索引(只在第一次用) ,-c 国标或台湾$ ./index -d /cygdrive/c/tf/src/ -d /cygdrive/c/tf/trg -r -c gb2312 start indexing . indexing /cygdrive/c/tf/src/copy of baima.t4i # of files processed : 1 # of files indexed : 1 total data processed : 136.242 kb. average processing rate : 45.4141 kbps. total time used : 3 secon

5、ds. total processor time used : 2.875 seconds. cpu usage : 95.8333% 2.2 search.exe search.exe 会在已建立的索引上运行一个socket 服务器, 可以接收多个搜索请求,默认听在端口30001。$ ./search -d /cygdrive/c/tf/trg/ infoacer fts search engine is running on port 30001. 搜索请求的格式是:get3 with_hilite 在搜索结果中高亮关键词with_ranking 按照评分的标准with_id_path 返

6、回文件路径或url with_sort 排序搜索引擎软件v1.0 4 返回结果以tlv来切分多个结果。2.3 shutdown.exe shutdown.exe 用来安全关闭search.exe的服务。3 如何使用3.1 搜索引擎准备事项3.1.1 搜索引擎软件包图 2 搜索引擎软件包我们要用到以下两个文件:index.exe 用来建立索引。 search.exe 用来开启搜索引擎。3.1.2 t4i文件搜索引擎软件v1.0 5 t4i文件即为 *.t4i文件,它是要检索的内容来源。与该搜索引擎匹配的t4i文件须有如下格式:content1 content2 content3 . 红色部分为详

7、细内容。比如一手机信息的t4i文件为:图 3 现版本搜索引擎仅支持big5 和 gb2312编码,所以t4i文件中应采用以上两种编码。为支持全文搜索,强烈建议增加最后一个栏位,添加所有信息。如图中栏位。3.1.3 文件拷贝通常,把t4i文件拷贝到search/tf/src/目录下(假定search.exe和 index.exe在search/ 目录下) , 如图 4 所示:图 4 搜索引擎软件v1.0 6 另在 tf目录下新建文件夹trg 。 (缺少该步骤建索引时会报错)3.2 建立索引并开启搜索引擎3.2.1 建索引index.exe是对 t4i文件建立索引,-d 源目录, -d 索引目录,

8、 -r 重建索引(只在第一次用),-c 国标或台湾r 遍历子目录可用 h 查看帮助。运行命令提示符,转到搜索引擎目录。建索引命令格式index.exe d tfsrc d tftrg r -r c gb2312 索引建立完毕,结果如下:3.2.2 开启搜索引擎search.exe 会在已建立的索引上运行一个socket 服务器, 可以接收多个搜索请求,默认听在端口30001。命令如下,执行后程序便会在30001 端口监听搜索请求。3.3 使用搜索引擎需要发送两条tcp包和接受两条tcp包来完成搜索过程。搜索引擎软件v1.0 7 第一步:与search.exe建立 socket 连接。第二步:发

9、送搜索请求。query vector:( keyword )# num ;n 其中 keyword 表示要查询的关键字,num表示栏位号码。如想在栏位6 中搜索“诺基亚”, 搜索请求命令这样写:query vector:( 诺基亚 )#6;n 另外,还支持多栏位搜索,可通过& | !来创建与或非逻辑表达式。如果想搜索太平洋商城的诺基亚,搜索请求命令这样写:query vector:( 诺基亚 )#6 &( 太平洋 )#0;n 一般说来,搜索引擎反馈结果为ok 2 ;n 是搜索引擎内部的id,有多少个id 就有多少个cache 搜索结果。是此次搜索共有多少个结果。如 ok 2 0

10、 100表示搜索到100 个结果。如果接收到failed 2 -1 ;n 或其他,表示本次搜索失败。通常是搜索请求命令有错。第三步:发送接收搜索结果命令。get3 with_sort with_hilite with_id_path;n 是从上一个ok回复得来的,同时也知道有多少个命中 表示请求搜索结果的id。可把搜索结果想象一数组,两参量表示数组下标。with_hilite 是返回需要高亮的关键词(不一定和用户输入结果一致)with_sort 是对结果进行排序with_id_path 是返回原始文件本地路径如想得到前两个结果:get3 0 1 ith_sort with_hilite wit

11、h_id_path;n 搜索引擎响应:ok 13 # content是该 t4i的内容。此回复会含多个 ,搜索引擎软件v1.0 8 具体数目是由 决定的。如果不涉及价位区间搜索,到此就该结束了。如果要做区间,可参考下面文字(图5) 。图 5 4 前期处理搜索引擎软件v1.0 9 将字典文件读入内存读取目标页面去处html 标记,只保留文本和网址信息按字典中的关键字对页面进行扫描命中率是否为0?保存成文本格式丢弃图 6 前期处理流程图在网络爬虫程序把目标网页存到本地后,应该用处理程序进行初步处理,根据不同的字典来进行扫描,将html 控制代码,多余的广告的无用信息去除,只保存有命中率的页面并存成

12、纯文本格式,这样会提高索引准确率和效率。这里提到的字典是人工创建的,开发人员应将不同类别的关键词汇放到字典文件中,由前期处理程序读取并记录每个目标页面关键词的命中率,当所有关键词的命中率为0 时,此页面将被丢弃,否则转换成文本格式以便建索引。如何建立字典?除了人们日常的词汇,开发人员应下载一些不同类别的目标页面,搜集最新关键词来丰富词典,从而提高字典的准确性。如果想要不同的分类,比如餐饮,电子和旅游,那么就要有三个字典,分别包含餐饮,电子和旅游的关键词。这样通过前期处理程序就会有三类文本文件,分别对应餐饮, 电子和旅游这三类。也就意味着有三个分类索引,这样用户就可选择不同类别的搜索。这样用户可

13、以选择不同类别来搜索,可以增大命中率。 当然也可以选择所有类别来搜索。搜索引擎软件v1.0 10 5 搜索界面应由 java 语言写成,提供不同类别的搜索界面,就像雅虎的分类搜索,列出所有的类别。用户也可以搜索所有类别,但搜索引擎就会跨越所有类别,速度和准确率都会有所下降。6 handler环境搭建与配置handler 是搜索引擎与客户端的中间环节,负责向搜索引擎请求搜索数据,并把返回结果展示给客户端。该部分是基于ruby on rails 开发的,接下来将带你一步步搭建和配置该环境,并进行测试。步骤如下:ruby on rails 的下载与安装工程文件导入开启搜索引擎开启服务器测试,界面浏览

14、6.1 ruby on rails 的下载与安装instantrails 最新版本为2.0,下载地址是/frs/?group_id=904&release_id=17517。下载这一个搜索引擎软件v1.0 11 instantrails 是绿色软件,下载完毕后解压即可使用。6.2 工程文件导入rails 工程文件导入将 test 文件解压到 %railsroot%instantrails-2.0-winrails_apps下,其中 %railsroot%是 instantrails 的安装路径。下图为本机上的解压路径。t4i 文件导入将 t4i 文

15、件拷贝到 %serchroot%searchtfsrc 下, %serchroot%是搜索引擎search所在目录。6.3 开启搜索引擎建立索引运行命令提示符,进入搜索引擎search所在目录。输入命令如下:结果如下:搜索引擎软件v1.0 12 启动搜索引擎命令如下,执行后程序便会在30001 端口监听搜索请求。6.4 开启服务器在开启服务器之前,需要针对搭建环境修改部分代码。更改 ip 如 果 不 是 本 机 测 试 , 即 搜 索 引 擎 和handler 不 在 同 一 台 机 器 上 运 行 , 需 要 修改 %railsroot%instantrails-2.0-winrails_a

16、pptestappcontrollersbridge_controller.rb文件,将line20 中“ ”改为搜索引擎所在主机的ip 地址。 %railsroot% 是 instantrails 的安装路径。本机运行跳过此步骤。重定位资源文件目录打开 %railsroot%instantrails-2.0-winrails_appstestappviewsbridgesearch.html.erb 搜索引擎软件v1.0 13 将 line29 中的e:javaworkspaceheritrixjobsjingdongshangcheng-20110707095841078

17、mirror替换为抓取的网页所在目录。否则浏览时不能显示图片。启动服务器打开 %railsroot%instantrails-2.0-wininstantrails.exe,点击“工”字形图标,在弹出网页中选择rails applicationsmanage rails applications. 在弹出的 rails applications 页面下勾选test 工程,点击configure startup mode. 可以配置端口,这里我使用的是3003 端口。点击按钮start with mongrel 。服务器启动完毕效果如下:搜索引擎软件v1.0 14 6.5 界面浏览测试打开 ie,键入地址 http:/localhost:3003/bridge/index ,结果如图7 所示:图 7 在图 8 中输入搜索关键字,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论