版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Nutch网络爬网摘要目录序言2Nutch构建过程121准备22开始部署22.1安装linux系统22.2安装jdk22.3。将nutch配置为创建索引32.4 Tomcat 6的安装2.5配置nutch查询索引6参考文献9Nutch爬网内容分析1101 Nutch 10的输出文件1.1爬网101.2 Linkdb101.3段101.4指数121.5指数122坚果爬行内容分析132.1纳特的所有命令2132.2螺母的页面导出命令192.3螺母页面转移程序21参考文献21纳特的爬行设置和配置文件221纳特的攀登深度222 nutch的配置文件2232.1配置文件23的优先级2.2配置文件详细信息
2、252.3螺母爬行动态网页配置3332.4配置文件的一些详细信息4534参考文献36后记37前言花在学习使用nutch上的时间可以增加到一个月,并且已经在互联网上收集了很多信息,但是这些信息是分散的。因此,本月我想总结一下Nutch的整个使用过程,对其原理的说明以及中间的注意事项。它主要是总结和写在互联网上的现有信息,以方便参考。Nutch构建过程11准备工作我用virtualbox下的虚拟机构建了nutch。我需要的工具如下:(1)Virtualbox最新版(2)最新版本的2)ubuntu-desktop(稍后将更改为ubuntu-server)(3)jdk-6u25-linux-i586.
3、bin(4)apache-nutch-1.2-bin.tar.gz2开始部署2.1安装linux系统传统的安装方法是先安装VirtualBox,然后安装ubuntu。将使用过的包上传到linux系统/tmp目录中,指出用户目录。2.2安装jdk终端命令1.#cd/tmp2.# chmoda xjdk-6u 23-Linux-i586 . bin3.#shjdk-6u23-linux-i586.bin4.#mkdir/usr/java5.#mvjdk1.6.0_23/usr/java/配置用户环境变量2这更重要。由于环境变量的配置不正确,nutch在开始时多次爬网失败。首先,它被配置在/下。ba
4、sh_profile,然后在/etc/profile下。但是,由于nutch需要一些命令的管理员权限,所以上面配置的环境变量在输入管理员权限时不会生效,所以最后最好在/etc/environment下配置环境变量。在/etc/profile下配置环境变量(这也是最好的配置)。终端命令1.#sudu gedit /etc/profile2.(将以下内容添加到文档中)3.export JAVA _ HOME=/usr/JAVA/JDK 1 . 6 . 0 _ 254.export JRE _ HOME=/usr/Java/JDK 1 . 6 . 0 . 25/JRE5.导出类路径=.美元JAVA_
5、HOME/lib:美元JRE_HOME/lib:美元类路径6.导出路径=$ JAVA _ HOME/bin : $ JRE _ HOME/bin : $ PATH在/etc/环境下配置环境变量。终端命令1.sudu gedit/etc/环境2.(将以下内容添加到文档中)3.JAVA _ HOME=/usr/JAVA/JDK 1 . 6 . 0 _ 254.JRE _ HOME=/usr/Java/JDK 1 . 6 . 0 . 25/JRE5.类路径=.美元JAVA_HOME/lib:美元JRE_HOME/lib:美元类路径6.PATH可以直接添加到文件的原始路径之后。注1:每条路径的中间用冒
6、号(:)隔开。别忘了那个点。)注2:在尝试过程中,环境文件内容的错误添加可能导致计算机无法重复进入并停留在登录界面。(我第一次修改这个文件时遇到过),只需在命令行界面中按下crl alt F2并删除错误的修改。试验终端命令1.# Java版本输出1.java版本 1.6.0_25 2.运行时环境(构建1.6.0_25-b05)3.客户机虚拟机(构建19.0-b09,混合模式,共享)Jdk安装成功。此外,在终端下输入env以查看所有配置的环境变量,并查看是否有这些变量。输入sudo su,然后输入env,查看在管理员的许可下是否有这些变量。2.3。配置nutch以创建索引终端命令1.# unzi
7、pacache-nutch-1.2-bin . zip2.#mvnutch-1.2/opt/3.#cd/opt/nutch-12终端命令1.# vim config/crawl-URL filter . txt注1: vim、vi和gedit可在此使用。如果使用vim,可能需要使用apt-get安装命令下载并安装vim。注意2:爬网-网址过滤器。TXT是一个正则表达式,用于配置被爬网网站的范围、域名及其子页面,类似于爬网规则。这是一个爬上新浪首页的例子。com。找到文件的以下部分1.#accepthostsinMY。域名2.http:/(a-z0-9*.)*MY。DOMAIN.NAME/换成1
8、.#accepthostsinMY。域名2.http:/(a-z0-9*.)*新浪网. cn/接下来,修改nutch-site.xml文件,这类似于对我想抓取的网站做一个声明。未能做出声明将导致爬网失败。终端命令1.#vimconf/nutch-site.xml添加到此文件1.2.3.4.HDnutchagent5.6.7.http.agent.version8.1.09.10.其中的值应该是可变的(没有尝试过)。然后创建一个种子文件来解释被抓取的网站域名列表。S现在是唯一的一个。终端命令1.#cdbin2.#mkdirurls3.# vim URL
9、/nutch . txt该文件的名称是自定义的,如nutch.txt、seed.txt、url.txt,可以随意使用。将要爬网的网站的顶级域名添加到文件中。这里添加了以下内容1./之后,创建一个日志,以便在爬行过程中作为输出的基础。如果没有指定输出文件,默认输出到终端。终端命令1.#mkdirlogs2.#vimlogs/log1.log3.wq创建一个索引来存储所有爬网结果。终端命令1.#mkdir/opt/index之后,可以进行爬行,并输入nuch创建索引外壳指令,这也是nuch不能安装在窗口中的原因。虚拟机需要安装在windows或cygwin
10、中(需要在windows中运行unix shell命令)。此外,它不能在win7下用cygwin模拟。花了一天时间才知道这一点。爬行命令如下:必须添加sudo,因为home的上部目录已经被读取和写入。终端命令1.# sudo sh2.# bin/nutch爬网URLdir/opt/index深度10线程2TopN | tee日志/log1.log爬行:通知nutch.jar执行主要的爬行方法。需要爬行的文件的目录目录:爬行后保存文件的位置深度:爬行的数量,或深度,但我仍然认为这个数字更合适。测试时建议将其更改为1。线程指定并发进程。这设置为4TopN:网站保存的最大页数。终端命令1.#ls/o
11、pt/index以下指数表示成功。如果没有,请查看日志/log1.log日记中的异常。这是一个爬行的过程。可能的错误如下34线程“main”Java . io . ioexception :作业中出现异常失败!at org . Apache . Hadoop . mapred . JobClient . RunJob(JobClient . Java :1252)注射(注射器)at org . Apache . nutch . crawl . Crawl . main(Crawl . Java :124)这是因为JAVA_HOME没有正确设置,所以只需在/etc/环境中重置它并重新启动它。线程
12、“main”Java . io . ioexception :作业中出现异常失败!at org . Apache . Hadoop . mapred . JobClient . RunJob(JobClient . Java :1252)注射(注射器)at org . Apache . nutch . crawl . Crawl . main(Crawl . Java :124)首先,语言设置不正确,因为函数返回值的类型不能匹配,所以 LANG=zh_CN。“GBK”需要在环境变量(/etc/environment)中配置。我试过了,但没有解决。后来,我检查了源代码,因为没有找到文件。我需要将
13、根目录中的nutch-1.2.jar复制到lib子目录中。因为需要在/bin/nutch文件中读取此包,但此包的路径不正确。这个问题非常严重,尤其是当它刚建立的时候,很多网站很少写这个解决方案。这导致了一次长期不成功的攀登。应该没有其他问题,至少我没有遇到它们。2.4安装tomcat终端命令1.#cdtmp2.# tarxzvfapache-Tomcat-6 . 0 . 29 . tar . gz3.#mvapache-tomcat-6.0.29tomcat4.#mvtomcat/usr/local/启动雄猫终端命令1.#/usr/local/Tomcat/bin/startup . sh将有
14、以下输出using Catalina _ BASE :/usr/local/Tomcatusing Catalina _ HOME :/usr/local/Tomcatusing Catalina _ TMPDIR :/usr/local/Tomcat/tempusing JRe _ HOME:/usr/Java/JDK 1 . 6 . 0 _ 23using ClassPath :/usr/local/Tomcat/bin/bootstrap . jar终端命令1.# netstattln查看端口8080是否打开测试访问http:/本地主机33608080tomcat主页正常显示,测试成功后
15、Tomcat关闭。终端命令1.#/usr/local/Tomcat/bin/shut down . sh2.5配置nutch查询索引将nutch的war包放到tomcat的webapps目录中。终端命令1.#cd/opt/nutch-1.2终端命令1.# mv nutch-1.2 . war/usr/local/Tomcat/web apps启动雄猫终端命令1.#/usr/local/Tomcat/bin/startup . shNutch-1.2.war将被解压缩到webapps下的Nutch-1.2文件包中。测试http:/本地主机:80/Nutch-1.2进入nutch的主页,进入“新浪”。如果你发现没有结果并且有随机代码,先关闭tomcat来解决这些问题。终端命令1.#/usr/local/Tomcat/bin/shut down . sh配置索引文件位置,因为刚刚向下爬
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 厦门采购制度
- 企业采购销售开票制度
- 县卫健局采购备案制度
- 器材科采购制度
- 船厂采购制度
- 中石化采购退货制度
- 科局物资采购制度
- 1配件采购管理制度
- 学校品采购与验收制度
- 学校后勤采购审批制度
- 2026年医院年度经济运营分析报告
- 2026广东中山市神湾镇神湾社区居民委员会招聘1人考试参考题库及答案解析
- 2026西藏林芝巴宜区人民检察院司法警务辅助人员招聘3人笔试备考题库及答案解析
- 档案数字化项目立项申请书
- (新教材)2026年春期教科版二年级下册科学教学计划及进度表
- 2025年贵州省中考物理试题【含答案、解析】
- 首件确认制度
- 安徽绿沃循环能源科技有限公司12000t-a锂离子电池高值资源化回收利用项目(重新报批)环境影响报告书
- 东方汽轮机高低旁液压油站使用说明书
- 高等学校辅导员管理规定
- 高二心理健康教教育课完整版
评论
0/150
提交评论