




已阅读5页,还剩14页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,火车采集器使用简明教程,.,下载及安装,首先下载Microsoft.NETFramework4下载地址:,.,采集步骤/原理,进入搜索页网址,进入内容页网址,搜集所需要的信息,存储到本地,内容页的网址往往构造结构相似,不同内容页的网址上所需要的信息的展现格式往往也是相似的,.,实例:爬取豆瓣上含有某个关键词的电影,注意:该网址为起始页网址,该链接为起始页包含的内容页网址,.,第一步:新建任务,进入编辑状态,右键,点击新建任务,.,第二步:输入起始页网址和内容页网址规则,输入任务名,输入起始页网址,注意:起始页网址包含的链接非常多,我们需要确定一个规则来保证提取到的链接是我们需要的相关电影的链接。,.,怎样寻找链接的规律呢?,找到电影链接(大多为href=的格式),观察发现链接格式为,鼠标移到电影链接处,右键点击审查元素(使用chrome浏览器),下面显示的代码即为该搜索页的html代码,审查元素后会自动跳到该元素所处的代码位置,方便我们进行观察。也可在网址空白处右键查看网页源代码。,.,按照寻找的规律进行尝试,右边这个编辑框为链接必须包含的字符串,输入我们刚刚发现的subject,点击网页采集测试,即可在搜索页中找到所有包含subject的网页链接,左边这个编辑框为链接你梦包含的字符串,目前暂时没有输入,.,观察测试结果,调整规律,测试结果显示,虽然爬取了所有的电影链接,但是也错误地爬取了一些其他无关链接。对这些链接进行观察发现,它们都包含search这个词。所以我们将链接获取规律改为:包含subject,不包含search,再次进行测试,即可发现爬到的链接均为所需的电影相关链接。,.,第二步:进入内容页,确定爬取标签,点击+号新建一个标签,这个标签即为我们想要爬取的信息类别,这里以电影名称为例,右侧的数据获取方式即为我们爬取的信息在内容页网址的存在规律,.,如何确定爬取信息在网页的存储规律?,利用前面讲到的审查元素,找到电影名称在网页源代码里对应的位置,观察发现,电影名的前后分别是两个标签,那么我们就可以通过这两个标签进行定位提取了,.,试试看用发现的规律提取一下,将刚刚发现的前后字符串分别输入到两个编辑框,随便选取一个内容页网址输入(不一定是刚刚进行分析的内容页网址,可以选取别的内容页网址以提高测试效率),点击右边的测试按钮,.,观察测试效果,爬取到的结果符合我们的预期,说明该规律是可行的,爬取到的文本较长的时候需要点击该按钮查看全部文本,.,第三步:设置保存的方法,目前免费版不支持导出为excel或者csv,选定导出为txt格式,如果记录数较多的话建议存到一个文件里,点击查看默认模板修改模板(非常重要,否则无法保存设定的标签内容),.,修改保存文件模板,打开默认模板之后,将模板的标签修改为刚刚我们设定的标签,.,第四步:运行爬取的任务,选中刚刚新建的任务,右键点击开始,右侧会显示该任务的运行情况,可以点击实时数据观察已经爬取到的数据标签,.,观察爬取到的结果,打开我们第三步中设置的文件存储路径,观察爬取到的结果,发现已经爬取到的搜索页上的所有电影的电影名称,任务完成!,.,More,如果我们爬取的网址需要进行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论