




已阅读5页,还剩17页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Nutch相关框架视频教程Nutch相关框架视频教程第一讲1、 通过nutch,诞生了hadoop、tika、gora。2、 nutch通过ivy来进行依赖管理(1.2之后)。3、 nutch是使用svn进行源代码管理的。4、 lucene、nutch、hadoop,在搜索界相当有名。5、 ant构建之后,生成runtime文件夹,该文件夹下面有deploy和local文件夹,分别代表了nutch的两种运行方式。6、 nutch和hadoop是通过什么连接起来的?通过nutch脚本。通过hadoop命令把apache-nutch-1.6.job提交给hadoop的JobTracker。7、 nutch入门重点在于分析nutch脚本文件。第二讲1、 git来作为分布式版本控制工具,github作为提供免费的私有库。2、 nutch的提高在于研读nutch-default.xml文件中的每一个配置项的实际含义(需要结合源代码理解)。3、 定制开发nutch的入门方法是研读build.xml文件。4、 命令:apt-get install subversionsvn co /repos/asf/nutch/tags/release-1.6/cd release-1.6apt-get install antantcd runtime/localmkdir urlsvi urls/url.txt 并输入nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &vi release-1.6/conf/nutch-site.xml 增加配置cd ././release-1.6antcd runtime/localnohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &删除报错的文件夹nohup bin/nutch crawl urls -dir data -depth 1 -threads 100 &第三讲1、 nutch的存储文件夹data下面各个文件夹和文件里面的内容究竟是什么?2、 命令:crawldbbin/nutch | grep readbin/nutch readdb data/crawldb -statsbin/nutch readdb data/crawldb -dump data/crawldb/crawldb_dumpbin/nutch readdb data/crawldb -url http:/4008209999./bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topNbin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN_m 1segmentscrawl_generate:bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump -nocontent -nofetch -noparse -noparsedata noparsetextcrawl_fetch:bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump -nocontent -nogenerate -noparse -noparsedata noparsetextcontent:bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump -nofetch -nogenerate -noparse -noparsedata noparsetextcrawl_parse:bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump -nofetch -nogenerate -nocontent noparsedata noparsetextparse_data:bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump -nofetch -nogenerate -nocontent -noparse noparsetextparse_text:bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump -nofetch -nogenerate -nocontent -noparse -noparsedata全部:bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dumpsegmentsbin/nutch readseg -list -dir data/segmentsbin/nutch readseg -list data/segments/20130325043023bin/nutch readseg -get data/segments/20130325042858 /linkdbbin/nutch readlinkdb data/linkdb -url http:/4008209999./bin/nutch readlinkdb data/linkdb -dump data/linkdb_dump第四讲1、 深入分析nutch的抓取周期injectgenerate - fetch - parse -updatedb2、 3大merge和3大read命令阐释bin/nutch | grep mergebin/nutch | grep readbin/nutch mergesegs data/segments_all -dir data/segments3、 反转链接 bin/nutch invertlinks data/linkdb -dir data/segments4、 解析页面bin/nutch parsechecker 第五讲1、 域统计bin/nutch domainstats data2/crawldb/current host hostbin/nutch domainstats data2/crawldb/current domain domainbin/nutch domainstats data2/crawldb/current suffix suffixbin/nutch domainstats data2/crawldb/current tld tld2、webgraphbin/nutch webgraph -segmentDir data2/segments -webgraphdb data2/webgraphdb有相同inlinks的URL,只输出topn条bin/nutch nodedumper -inlinks -output inlinks -topn 1 -webgraphdb data2/webgraphdb有相同outlinks的URL,只输出topn条bin/nutch nodedumper -outlinks -output outlinks -topn 1 -webgraphdb data2/webgraphdb 有相同scores的URL,只输出topn条(初始分值全为0)bin/nutch nodedumper -scores -output scores -topn 1 -webgraphdb data2/webgraphdb 计算URL分值bin/nutch linkrank -webgraphdb data2/webgraphdb 再次查看分值bin/nutch nodedumper -scores -output scores topn 1 -webgraphdb data2/webgraphdb 对结果进行分组,取最大值或是连加和(topn参数不参与)bin/nutch nodedumper -group domain sum -inlinks -output inlinks_group_sum -webgraphdb data2/webgraphdb bin/nutch nodedumper -group domain max -inlinks -output inlinks_group_max -webgraphdb data2/webgraphdb对url进行分组,分组方式可选择为host或是domain,对同一组的url执行topn限制,对执行了topn限制的url集合执行max或是sum操作,max和sum所针对的排序值是3种方式之一inlinks、outlinks以及scores。第六讲1、注入分值bin/nutch readdb data2/crawldb -dump crawldb_dumpcat crawldb_dump/* | grep Score | sort | uniqbin/nutch scoreupdater -crawldb data2/crawldb -webgraphdb data2/webgraphdb2、轻量级抓取bin/nutch freegen urls data3/segments第七讲1、indexcheckerbin/nutch indexchecker 2、安装配置SOLR3.6.2wget /apache/lucene/solr/3.6.2/apache-solr-3.6.2.tgztar -xzvf apache-solr-3.6.2.tgzcd apache-solr-3.6.2/example复制nutch的conf目录中的schema.xml文件到solr/conf目录将solr/conf/solrconfig.xml文件里的所有text都替换为content3、运行SOLR并提交索引启动SOLR服务器java -jar start.jar &Web界面http:/host2:8983 提交索引bin/nutch solrindex http:/host2:8983/solr data/crawldb -linkdb data/linkdb -dir data/segments4、使用LUKE工具查看索引5、给SOLR3.6.2配置分词器mmseg4jwget /files/mmseg4j-1.8.5.zipunzip mmseg4j-1.8.5.zip -d mmseg4j-1.8.5将mmseg4j-1.8.5/mmseg4j-all-1.8.5-with-dic.jar复制到solr下的lib目录将schema.xml文件中所有的和替换为第八讲1、指定LUKE工具的分词器访问/p/mmseg4j/downloads/list 下载mmseg4j-1.9.1.v20130120-SNAPSHOT.zip将压缩包里面的dist文件夹里面的jar解压,将解压出来com和data文件夹拖到lukeall-4.0.0-ALPHA.jar里面启动luke,在Search选项卡的Analysis里面选择com.chenlb.mmseg4j.analysis.ComplexAnalyzer2、安装配置SOLR4.2wget /apache-mirror/lucene/solr/4.2.0/solr-4.2.0.tgztar -xzvf solr-4.2.0.tgzcd solr-4.2.0/example复制nutch的conf目录中的schema-solr4.xml文件到solr/collection1/conf目录,改名为schema.xml,覆盖原来文件修改solr/collection1/conf/schema.xml,在下增加:3、给SOLR4.2配置分词器mmseg4jwget /files/mmseg4j-1.9.1.v20130120-SNAPSHOT.zipunzip mmseg4j-1.9.1.v20130120-SNAPSHOT.zip -d mmseg4j-1.9.1将mmseg4j-1.9.1/dist/*.jar复制到solr下的lib目录将schema.xml文件中的和替换为4、运行SOLR并提交索引启动SOLR服务器java -jar start.jar &Web界面http:/host2:8983 提交索引bin/nutch solrindex http:/host2:8983/solr data/crawldb -linkdb data/linkdb -dir data/segments第九讲1、 安装win上的nutch运行环境Cygwincygwin路径不要有空格把安装好的JDK拷贝到用户主目录把nutch的文件拷贝到用户主目录下载解压ant,加入path2、 运行nutchException in thread main java.io.IOException: Failed to set permissions of path: tmphadoop-yscmapredstagingysc-2036315919.staging to 0700/jira/browse/HADOOP-7682/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz修改hadoop-1.1.2srccoreorgapachehadoopfs FileUtil.java,搜索 Failed to set permissions of path,找到689行,把throw new IOException改为LOG.warn修改hadoop-1.1.2 build.xml,搜索autoreconf,移除匹配的6个executable=autoreconf的exec配置执行ant用新生成的hadoop-core-1.1.3-SNAPSHOT.jar替换nutch的hadoop-core-1.0.3.jar 第十讲1、HADOOP单机本地模式wget /apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gztar -xzvf hadoop-1.1.2.tar.gzexport PATH=/home/ysc/hadoop-1.1.2/bin:$PATH切换到nutch的deploy目录运行命令 2、HADOOP单机伪分布式模式新建用户和组addgroup hadoopadduser -ingroup hadoop hadoop注销root以hadoop用户登录配置SSHssh-keygen -t rsa(密码为空,路径默认)cp .ssh/id_rsa.pub .ssh/authorized_keys准备HADOOP运行环境wget /apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gztar -xzvf hadoop-1.1.2.tar.gz在/home/hadoop/.bashrc 中追加:export PATH=/home/hadoop/hadoop-1.1.2/bin:$PATH重新登录就生效ssh localhostwhich hadoop配置HADOOP运行参数vi conf/hdfs:/localhost:9000hadoop.tmp.dir/home/hadoop/tmpvi conf/hdfs-site.xml .dir /home/hadoop/dfs/filesystem/name dfs.data.dir /home/hadoop/dfs/filesystem/data dfs.replication 1vi conf/mapred-site.xml mapred.job.tracker localhost:9001 mapred.tasktracker.map.tasks.maximum 4 mapred.tasktracker.reduce.tasks.maximum 4 mapred.system.dir /home/hadoop/mapreduce/system mapred.local.dir /home/hadoop/mapreduce/local格式化名称节点并启动集群hadoop namenode -format启动集群并查看WEB管理界面start-all.sh访问 http:/localhost:50030 可以查看 JobTracker 的运行状态访问 http:/localhost:50060 可以查看 TaskTracker 的运行状态访问 http:/localhost:50070 可以查看 NameNode 以及整个分布式文件系统的状态,浏览分布式文件系统中的文件以及 log 等停止集群stop-all.sh停止集群3、执行Nutch的crawl命令第十一讲1、配置Cygwin支持无密码SSH登陆安装SSH默认的Cygwin没有安装ssh,所以重新运行/setup.exe在Select Packages的时候,在search输入ssh,选择openssh: The OpenSSH server and client programs 配置SSH服务(以管理员身份运行cygwin)ssh-host-configShould privilege separation be used? yesDo you want to install sshd as a service? yes默认确认Do you want to use a different name? noCreate new privileged user account cyg_server? yes输入密码cygrunsrv -S sshd 如果需要重新安装sshd服务,可以用cygrunsrv -R sshd生成SSH Keyssh-keygen -t rsa(密码为空,路径默认)cp .ssh/id_rsa.pub .ssh/authorized_keys登陆ssh localhost2、win上的HADOOP单机伪分布式准备HADOOP运行环境下载解压并拷贝到Cygwin的用户主目录/dist/hadoop/core/hadoop-0.20.2/hadoop-0.20.2.tar.gz1.x版本有BUG,参考:/jira/browse/HADOOP-7682/jira/browse/HADOOP-8274BUG修复请参考:/wiki/User:Fkorning/Code/Hadoop-on-Cygwin在/home/ysc/.bashrc 中追加:export JAVA_HOME=/home/ysc/jdk1.7.0_17export PATH=/home/ysc/hadoop-0.20.2/bin:$JAVA_HOME/bin:$PATH在hadoop-0.20.2/conf/hadoop-evn.sh中追加export JAVA_HOME=/home/ysc/jdk1.7.0_17export HADOOP_LOG_DIR=/tmp/logs创建符号链接mklink /D C:tmp C:cygwintmp重新登录就生效ssh localhostwhich hadoop配置HADOOP运行参数vi conf/hdfs:/localhost:9000vi conf/hdfs-site.xml dfs.replication 1vi conf/mapred-site.xml mapred.job.tracker localhost:9001 mapred.tasktracker.map.tasks.maximum 4 mapred.tasktracker.reduce.tasks.maximum 4格式化名称节点并启动集群hadoop namenode -format启动集群并查看WEB管理界面start-all.sh访问 http:/localhost:50030 可以查看 JobTracker 的运行状态访问 http:/localhost:50060 可以查看 TaskTracker 的运行状态访问 http:/localhost:50070 可以查看 NameNode 以及整个分布式文件系统的状态,浏览分布式文件系统中的文件以及 log 等停止集群stop-all.sh停止集群3、 执行wordcount命令hadoop jar hadoop-0.20.2-examples.jar wordcount input output第十二讲1、 HADOOP多机完全分布式模式三台机器host2(NameNode、SecondaryNameNode、JobTracker、DataNode、TaskTracker) host6(DataNode、TaskTracker)host8(DataNode、TaskTracker)vi /etc/hostname(分别给每一台主机指定主机名)vi /etc/hosts(分别给每一台主机指定主机名到IP地址的映射)新建用户和组三台机器上面都要新建用户和组addgroup hadoopadduser -ingroup hadoop hadoop 更改临时目录权限chmod 777 /tmp注销root以hadoop用户登录配置SSH在host2上面执行ssh-keygen -t rsa(密码为空,路径默认)该命令会在用户主目录下创建 .ssh 目录,并在其中创建两个文件:id_rsa 私钥文件,是基于 RSA 算法创建,该私钥文件要妥善保管,不要泄漏。id_rsa.pub 公钥文件,和 id_rsa 文件是一对儿,该文件作为公钥文件,可以公开cp .ssh/id_rsa.pub .ssh/authorized_keys把公钥追加到其他主机的authorized_keys 文件中ssh-copy-id -i .ssh/id_rsa.pub hadoophost6 ssh-copy-id -i .ssh/id_rsa.pub hadoophost8可以在host2上面通过ssh无密码登陆host6和host8ssh host2ssh host6ssh host8准备HADOOP运行环境wge
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年数据分析师高级面试题集
- 桡尺骨骨折课件
- 2025年图书馆特色资源建设方案策划师招聘面试题解
- 2025年双语数学教学职位应聘面试攻略模拟题及答案解析民办学校
- 2025年区域经济与可持续发展考试试题及答案
- 2025年电力行业安全监理员招聘安全知识预测试题集
- 2026届湖南省邵阳市邵阳县第一中学化学高三上期末教学质量检测试题含解析
- 2026届河南省扶沟高中化学高二第一学期期末考试模拟试题含答案
- 2025年法律行业人工智能应用考察试卷及解析答案
- 2025年注册验船师资格考试(A级船舶检验专业综合能力)综合试题及答案一
- 2025年保安员理论考试题库及答案
- 2025年江苏省综合评标评审专家库专家考试(公共基础知识)历年参考题库含答案详解(5套)
- 2025废气处理合作协议合同范本
- 麻醉师进修汇报
- 基坑监测评审汇报
- 2025-2026年秋季学期各周国旗下讲话安排表+2025-2026学年上学期升旗仪式演讲主题安排表
- 物业公司电瓶车管理制度
- 肺占位性病变护理查房
- 广告创意与用户体验-第3篇-洞察阐释
- 幼儿园一日常规安全培训
- 5G基带芯片算法验证平台:从设计到实现的关键技术与实践
评论
0/150
提交评论