




已阅读5页,还剩19页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
今天我就在这里借光年论坛在这里献丑下,写篇几篇关于自己搭建搜索引擎的文章。所采用的是开源搜索引擎nutch,考虑到大部份的SEOER所以主要是在WINDOWS平台进行搭建。1,Nutch简介Nutch 是一个刚刚诞生开放源代码(open-source)的web搜索引擎.尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然不利于广大Internet用户.Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在一个特定的位置. 除此之外, 有的搜索引擎依照网站所付的费用, 而不是根据它们本身的价值进行排序. 与它们不同, Nucth没有什么需要隐瞒, 也没有动机去扭曲搜索的结果. Nutch将尽自己最大的努力为用户提供最好的搜索结果.Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果以最小的成本运作2,安装21安装准备所需软件:(如果以下网址不能下载,请自行搜索)JDK1.6下载地址:/zh_CN/Tomcat 7.0.x下载址:/tomcat/tomcat-7/v7.0.4-beta/bin/apache-tomcat-7.0.4.exeCygwin下载地址:/setup.exeNutch 1.0下载地址:/apache/nutch/nutch-1.0.tar.gz2010-11-10 06:26 上传下载附件 (34.9 KB) 22安装:221JDK安装2010-11-10 06:32 上传下载附件 (14.7 KB) (我这里用的是默认的安装) 2010-11-10 06:32 上传下载附件 (20.57 KB) 2010-11-10 06:32 上传下载附件 (18.98 KB) 接下来可以按默认的安装222添加JDK环境变量:右击我的电脑属性高级环境变量-系统变量2010-11-10 06:27 上传下载附件 (44.36 KB) Path添加C:Program FilesJavajdk1.6.0_22bin; 2010-11-10 06:28 上传下载附件 (20.98 KB) JAVA_HOME=C:Program FilesJavajdk1.6.0_22(JDK安装的目录) 2010-11-10 06:33 上传下载附件 (17.85 KB) classpath=.;%JAVA_HOME%libtools.jar;%JAVA_HOME%libdt.jar; 2010-11-10 06:36 上传下载附件 (19.18 KB) 添加好环境变量后、我们可以输入JAVAC来看是否安装成功如:看到下面图所示的内容那么就安装成功了 2010-11-10 06:38 上传下载附件 (22.66 KB) 搭建自己的搜索引擎(1)搭建自己的搜索引擎(2)搭建自己的搜索引擎(3)搭建自己的搜索引擎(4) 这下面的图片是没用的,不知怎么出来的+image007.png (17.85 KB, 下载次数: 0) 2010-11-10 06:35 上传下载次数: 0image043.gif (2.48 KB, 下载次数: 0) 2010-11-10 07:56 上传下载次数: 0image044.gif (13.55 KB, 下载次数: 0) 2010-11-10 07:56 上传下载次数: 0image046.gif (12.94 KB, 下载次数: 0) 2010-11-10 07:56 上传下载次数: 0image050.gif (5.77 KB, 下载次数: 0) 2010-11-10 07:57 上传下载次数: 0image051.gif (22.55 KB, 下载次数: 0) 2010-11-10 07:57 上传下载次数: 0223安装 Tomcat 7.0(除了选择安装目录外,别的我都选择了默认的安装)2010-11-10 07:02 上传下载附件 (31.62 KB) 2010-11-10 07:03 上传下载附件 (17.15 KB) 2010-11-10 07:03 上传下载附件 (16 KB) 224 安装Cygwin (因为NUTCH的自带命令必需要在LINUX的环境,所以必需要安装Cygwin来模拟这种环境)2010-11-10 07:04 上传下载附件 (15.38 KB) 点击下一步进入安装方式的选择界面2010-11-10 07:06 上传下载附件 (13.65 KB) 上图所示Cygwin有三种安装方式1,Install from Internet:直接从Internet上下载并立即安装(安装完成后,下载好的安装文件并不会被删除,而是仍然被保留,以便下次再安装)。2,Download Without Installing:只是将安装文件下载到本地,但暂时不安装。3,Install from Local Directory:不下载安装文件,直接从本地某个含有安装文件的目录进行安装。如果你的网速还可以你可以选前两种,不过我们这里选的是第三种,因为我已经把文件下载下来了我这里也提供了一个打包文件,你们也可从这里下载,速度具定要快很多而且下载途中不会出错/Cygwin_dow.rar2010-11-10 07:07 上传下载附件 (16.85 KB) 上图指定安装目录(也就是把程序安装在哪的意思)点击下一步 2010-11-10 07:08 上传下载附件 (14.1 KB) 上图是设定安装源的目录(也就是我们下载的那个些文件)如果你没有你可以这里下载2010-11-10 07:07 上传下载附件 (19.28 KB) 上图,选择安装包内容如何选择呢?只需用鼠标点击每个安装包名后面那个循环箭头图标即可:图标后面的文字是表示究竟对该安装包采取何种安装方式p=23, null, left安装方式共有这么几类:(1)Default:这是默认选择,表示只下载/安装该包的缺省安装项(可点击包左边的号展开,看看缺省安装究竟是些什么内容)。(2)Install:表示要下载/安装该包的全部内容。所要求的空间也最大。(3)Reinstall:表示重新下载/安装该包的内容(以上一次正常下载/安装时所选择的内容为准)。这个选项非常有用,稍后在下篇中会有说明。(4)Uninstall:这个就不用解释了吧。可根据自己的实际需要,来准定究竟安装哪些内容。推荐选择“Install”方式,一步到位,免得日后被各种这样那样的问题所困扰。p=23, null, left至于窗口顶部那些“Keep”、“Prev”、“Curr”、“Exp”等等选项,只是用来改变当前树结构的显示方式的,对安装没有什么影响。然后点击“下一步”,就要开始啦。2010-11-10 07:09 上传下载附件 (12.62 KB) 上图这个过程会有几分钟时间,2010-11-10 07:09 上传下载附件 (13.44 KB) 上图表示安装完成了,你要以在桌面上弄一个快捷方式这样就方便多了从桌面上启动Cygwin输入 date命令看下2010-11-10 07:10 上传下载附件 (9.42 KB) 如上所示:Cygwin安装成功225 安装Nutch 1.0Nutch 只要解压到指定的目录就可以了。这里我把他解压在了 k盘(k:nutch-1.0)2010-11-10 07:13 上传下载附件 (18.22 KB) 然后再新建环境变量:NUTCH_JAVA_HOME= C:Program FilesJavajdk1.6.0_22再在环境变量中添加PATH变时值2010-11-10 07:13 上传下载附件 (22.59 KB) 安装完后,启动桌面的Cygwin输入命令 cd /cygdrive/k/nutch-1.0 (我把untch-1.0解压在K盘了,你可做相应的更改)2010-11-10 07:14 上传下载附件 (6.41 KB) 上图表示,我已进入了 nutch-1.0的目录了然后再输入命令:bin/nutch2010-11-10 07:14 上传下载附件 (8.12 KB) 看到如上所示,说明nutch已功安装爬取网站首选在k:/nutch-1.0 目录下建一个名为 url.txt的文本文件,我这里输入的是/ 然后保存指定爬虫规则进入nutch-1.0conf打开crawl-urlfilter.txt找到2010-11-10 08:10 上传下载附件 (2.3 KB) 打开nutch-site.xml将my nutch bothttp.agent.version1.0放在与之间我们启动 Cygwin输入命令 cd /cygwin/k/nutch-1.0 转到nutch-1.0目录下2010-11-10 08:11 上传下载附件 (2.48 KB) 输入命令: bin/nutch crawl url.txt dr bothm depth 3 & cr.log此时爬虫就开始爬了,运行一会后就可会爬行完毕如果你想看到爬过程不把日志输出到文件就可以了: bin/nutch crawl url.txt dir bothtm depth 22010-11-10 08:11 上传下载附件 (13.55 KB) crawl 命令有几个参数,他们是:dir 指定抓取后内容及索引的存放目录depth 指定网站抓取的层数 -delay 指定连接目标网站延迟时间threads 指定程式运行的线程数,以提高抓取速度。nutch命令详解:/thread-115-1.htmlnutch命令参考:/thread-80-1.html查询页面:将nucth-1.0下的nutch-1.0.war 拷同到Tomcat 7.0的WEBAPPS目录下:如我的:是在I:tcatTomcat 7.0webapps启动tomcat2010-11-10 08:11 上传下载附件 (12.94 KB) 一般情况下会自动解压 nutch-1.0.war如: 2010-11-10 08:11 上传下载附件 (15.83 KB) 打开:webappsnutch-1.0WEB-INF
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《LC指令应用》教学课件
- 2025年1月企业管理实务模考试题(含参考答案解析)
- 2024年1月美发师四级模拟题(含答案解析)
- 搬运设备智能控制技术研究与发展趋势考核试卷
- 纸张加工中的防潮技术考核试卷
- 橡胶合成催化剂的选择与活性评价考核试卷
- 精加工产品差异化策略考核试卷
- 天然气开采业的风险管理与运营规范考核试卷
- 玻璃仪器表面修饰与功能化考核试卷
- 租书业务与社区教育融合考核试卷
- GB/T 7702.7-2023煤质颗粒活性炭试验方法第7部分:碘吸附值的测定
- 提高我们的逆商
- 2024届一轮复习新人教版 实验17 测量玻璃的折射率 课件(35张)
- 起诉意见书(公安)
- 松下伺服驱动器说明书
- 国际友人在中国智慧树知到答案章节测试2023年西北大学
- 实验:验证动量守恒定律 说课课件
- 连杆加工工艺规程及夹具设计工序卡-工艺规程卡
- 2023年简明新疆地方史
- GB/T 41995-2022并网型微电网运行特性评价技术规范
- 钢筋加工场验收记录表
评论
0/150
提交评论