nutch1.7二次开发培训讲义_第1页
nutch1.7二次开发培训讲义_第2页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

做Nutch二次开发,开发阶段用什么操作系统都可以,只要有JDKEclipse即可,源代SVN或GIT,建议采用Bitbucket免费的私有库托管。如果想阶段性地在Hadoop集群上面试运行,需要搭建一个Hadoop1、并解压eclipse(集成开发环境)使用Standard版EclipseStandard4.3.2ForWindows64BitEclipseStandard4.3.2ForWindows32Bit2、安装Subclipse插件(SVN客户端Help>Installnewsoftware…>Add…>Name:subclipse>SubclipseandSVNKitNextNext>Iaccept…>Finish>continue?OK>restart?>Yes3、安装IvyDE插件(依赖Help>Installnewsoftware…>Add…>Name:ivyde>>ApacheIvyLibraryandApacheIvyDEEclipsepluginsNextNextIaccept>Finishcontinue?OK>restart?>Yes4、签出File>New>Project>SVN>从SVN检出项目>Next>选中创建新的位置>Next>URL:>Next选中URLFinishNewProject向导,选择JavaProjectNextProjectname:nutch1.7Finish确认覆盖5、配置文件编码和环境变在左部PackageExplorernutch1.7PropertiesResourceTextfileencodingother值为:UTF-在左部PackageExplorer的nutch1.7文件夹上单击右键>BuildPath>ConfigureBuildPath...>选中Source选项>选择src>Remove>AddFolder...>选择src/java,src/test和src/testresources(可选:对于插件,需要选中src/plugin 下的src/java,src/test文件夹)>OK切换到LibrariesAddClassFoldernutch1.7/confAddLibrary...>IvyDEManagedDependencies>Next>Main>IvyFile:>Project…>nutch1.7/ivy/ivy.xml>0K>Finish(可选:对于插件,还需要:AddJARs...>IvyDEManagedDependenciesNextMainIvyFileProject选中nutch1.7/src/plugin/xxx/ivy.xml>OK,把这里的xxx替换为相应的插件名称)切换到OrderandExport选项>选中conf>Top(重要)6、执行ANT依赖构建项在左部PackageExplorernutch1.7build.xmlRunAs>AntBuild>BUILDSUCCESSFUL>nutch1.7/build/apache-nutch-1.7.job在nutch1.7\runtim deploy和local,他们用于生产环境,跟二次开发没什么关系,deploy依赖Hadoop,local不依赖Hadoop在左部PackageExplorernutch1.7在左部PackageExplorernutch1.7BuildPathConfigureBuildPath...>选中Libraries>AddClassFolder...>build>OK7、修改配置文nutch1.7/confnutch-site.xmlnutch1.7/conf/nutch-site.xml.template一份改名为nutch1.7/conf/nutch-site.xmlnutch1.7/conf下不存在regex-urlfilter.txtnutch1.7/conf/regex-urlfilter.txt.template一份改名为nutch1.7/conf/regex-urlfilter.txt如新增了文件,则在左部PackageExplorernutch1.7<name>db配置regex-urlfilter.txt#acceptanything 8、开发运行调在左部PackageExplorernutch1.7NewFolderFoldername:urls在刚新建的 下新建一个文本文件url,文本内容为打开src/javaorg.apache.nutch.crawl.Crawl.java类,单击右键RunAs>JavaApplicationConsole显示:Usage:CrawlurlDir>-solrsolrURLdirdthreadsndepthi][-N]Crawl类上重新单击右键RunAsRunConfigurationsArgumentsProgramarguments输入框中输入urlsdirdatadepth3在windows环境中如果抛出异常Failedtosetpermissionsofpath,则需要下载修改过的hadoop,替换nutch依赖的hadoop。地址: /s/1o60QtD4,因为nutch1.7依赖的hadoop版本为1.2.0,提供下载的是1.2.1,所以将的hadoop拷贝到ivy本地库 1.2.0,将1.2.1改为1.2.0。在需要调试的地方打上断点DebugAsJava9、查看查看 打开src/javaorg.apache.nutch.segment.SegmentReader.java类单击右键RunAs>JavaApplicaton,控制台会输出该命令的使用方法单击右键RunAsRunConfigurationsArguments在Programarguments输入框中输入:-dumpdata/segments/*data/segments/dump用文本编辑器打开文件data/segments/dump/dump查看segments中的信查看 打开src/javaorg.apache.nutch.crawl.CrawlDbReader.java类单击右键RunAsJavaApplicaton,控制台会输出该命令的使用方法单击右键RunAsRunConfigurationsArguments在Programarguments输入框中输入:data/crawldb-statscrawldb查看 打开src/javaorg.apache.nutch.crawl.LinkDbReader.java单击右键RunAsJavaApplicaton单击右键RunAsRunConfigurationsArguments在Programarguments输入框中输入:data/linkdb-dumpdata/linkdb_dump用文本编辑器打开文件data/linkdb_dump/part-00000查看linkdb中的信10、全网分步骤抓取(可选在左部PackageExplorernutch1.7build.xmlRunAs>AntBuildcd/home/ysc/workspace/nutch1.7/runtime/local#准备URL列表wgetgunzipcontent.rdf.u8.gzmkdirbin/nutchorg.apache.nutch.tools.DmozParsercontent.rdf.u8-subset5000>#注入bin/nutchinjectcrawl/crawldbdmozbin/nutchgeneratecrawl/crawldbcrawl/segments#第一次抓取,s1是产生的segments1=`ls-dcrawl/segments/2*|tail-1`echo$s1bin/nutchfetch$s1bin/nutchparse$s1#更新URL状态bin/nutchupdatedbcrawl/crawldb#第二次抓取,生成抓取列表,s2是产生的segmentbin/nutchgeneratecrawl/crawldbcrawl/segments-1000s2=`ls-dcrawl/segments/2*|tail-1`echobin/nutchfetch$s2bin/nutchparse$s2bin/nutchupdatedbcrawl/crawldb#第三次抓取,生成抓取列表,s3是产生的segmentbin/nutchgeneratecrawl/crawldbcrawl/segments-1000s3=`ls-dcrawl/segments/2*|tail-1`echo$s3bin/nutchfetch$s3bin/nutchparse$s3bin/nutchupdatedbcrawl/crawldb$s3#生成反向库bin/nutchinvertlinkscrawl/linkdbdircrawl/segmentsbin/nutchsolrindexdata/crawldb-linkdbdata/linkdb-dirdata/segmentsbin/crawl提供了更简单的增量抓取11、索引和搜解压solr,为了查看索引文件的格式,使用solr-地址: #配置solrnutch的conf 中的schema-solr4.xml文件到solr- ,覆盖名为schema.xml的文件修改solr-4.6.1/example/solr/collection1/conf/schema.xml,在<fields><fieldname="_version_type="longindexed="truestored="true"/>中文分词依赖的 solr-4.6.1/example/solr/lib,并将下来的压缩文件中的3个jar文件提修改文件solr-将字段类型text_general的yzer的index和query的tokenizer分别改为和创建文件solr-4.6.1/example/solr/collection1/conf/ansj.conf,输入:#启动SOLR运行Jar文件:solr-4.6.1/example/start.jar12、查看索引Luke(LuceneIndexToolbox):ht 将索引文件solr-4.6.1/example/solr/collection1/data/index一份到其他 除文件write.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论