抓站工具用户手册_第1页
抓站工具用户手册_第2页
抓站工具用户手册_第3页
抓站工具用户手册_第4页
抓站工具用户手册_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 益众网站信息抓取工具用户手册 第 1 页 共 72 页 益众网站信息抓取工具 用户手册 益众网站信息抓取工具用户手册 第 2 页 共 72 页 目 录 1.1.概述概述.4 1.1.关于网站抓取工具.4 1.2.特点.5 2.2.软件安装软件安装.5 2.1.安装环境.5 2.1.1.硬件环境.5 2.1.2.软件环境.5 2.2.安装步骤.6 2.2.1.安装jdk 1.5.x.6 2.2.2.安装数据库.6 2.2.3.导入系统数据.6 2.2.4.安装本系统.7 2.2.5.tomcat启动和停止.9 3.3.术语术语.10 4.4.使用说明使用说明.11 4.1.辅助功能.12 4.

2、1.1.登录.12 4.1.2.修改管理员信息.12 4.1.3.系统参数配置.12 4.1.4.入库数据表配置.13 4.1.5.抓取统计.14 4.1.6.查看网页源码.14 4.1.7.软件注册.14 4.2.页面配置.14 4.2.1.增加页面基本信息.15 4.2.2.修改页面基本信息.16 4.2.3.删除页面基本信息.16 4.2.4.url配置.17 4.2.5.增加正文页url及定位配置信息.17 4.2.6.修改正文页url及定位配置信息.19 4.2.7.增加列表页url配置信息.19 4.2.8.修改列表页url配置信息.21 4.2.9.url参数配置.21 4.2.

3、10.增加url参数.21 4.2.11.修改url参数.22 4.2.12.删除url参数.23 4.2.13.设置url参数值.23 4.2.14.增加url参数值.23 4.2.15.修改url参数值.24 4.2.16.删除url参数值.24 益众网站信息抓取工具用户手册 第 3 页 共 72 页 4.2.17.定位信息设置.24 4.2.18.增加列表页定位配置信息.25 4.2.19.修改列表页定位配置信息.26 4.2.20.下级页面配置.26 4.2.21.增加子页面.27 4.2.22.修改子页面.28 4.2.23.删除子页面.28 4.2.24.设置抓取时间.28 4.2

4、.25.抓取.30 4.3.页面解析.30 4.3.1.增加页面解析配置信息.30 4.3.2.修改页面解析配置信息.34 4.3.3.删除页面解析配置信息.34 4.3.4.值替换配置信息.34 4.3.5.增加值替换配置信息.35 4.3.6.修改值替换配置信息.35 4.3.7.删除值替换配置信息.35 4.4.页面入库.36 4.4.1.增加页面入库数据表信息.36 4.4.2.修改页面入库数据表信息.37 4.4.3.删除页面入库数据表信息.37 4.4.4.字段对照值配置信息.37 4.4.5.增加字段对照值.38 4.4.6.修改字段对照值.39 4.4.7.删除字段对照值.39

5、 5.5.配置样例配置样例.39 5.1.登录.40 5.2.入库数据表配置.40 5.3.页面配置.40 5.3.1.页面基本信息配置:.41 5.3.2.url配置:.42 5.3.3.定位信息配置:.43 5.4.页面解析.44 5.5.下级页面配置.46 5.6.下级页面解析:.48 5.7.入库配置:.51 5.7.1.选定入库数据表.51 5.7.2.字段对照值配置.53 5.8.抓取:.55 6.6.参考内容参考内容.56 6.1.规则表达式.56 6.2.jdbc url.58 7.7.服务支持服务支持.60 益众网站信息抓取工具用户手册 第 4 页 共 72 页 1.1. 概

6、述概述 . 关于关于网站抓取工具网站抓取工具 本工具可以抓取互联网上的任何网页,包括需要登录后才能访问的页面。对抓取 到页面内容进行解析,得到结构化的信息,比如:新闻标题、作者、来源、正文等。 支持列表页的自动翻页抓取,支持正文页多页合并,支持图片、文件的抓取,可以抓 取静态网页,也可以抓取带参数的动态网页,功能极其强大。 用户指定要抓取的网站、抓取的网页类型(固定页面、分页显示的页面等等) , 并配置如何解析数据项(如新闻标题、作者、来源、正文等) ,系统可以根据配置信息 自动实时抓取数据,启动抓取的时间也可以通过配置设定,真正做到“按需抓取,一按需抓取,一 次配置,永久抓取次

7、配置,永久抓取” 。抓来的数据可以保存到数据库中。支持当前主流数据库,包括: oracle、sql server、mysql 等。 本工具完全可以替代传统的编辑手工处理信息的模式,能够实时、准确、一天 24*60 不间断为企业提供最新资讯,真正能为企业降低成本,提高竞争力。 系统功能结构图如下图所示: 益众网站信息抓取工具用户手册 第 5 页 共 72 页 . 特点特点 适用范围广,可以抓取任何网页(包括登录后才能访问的网页) 处理速度快,如果网络畅通,1 小时可以抓取、解析 10000 个网页 采用独特的重复数据过滤技术,支持增量式数据抓取,可以抓取实时数据,如: 股票交易信息

8、、天气预报等 抓取信息的准确性高,系统提供了强大的数据校验功能,保证了数据的正确性 支持断点续抓,在当机或出现异常情况后可以恢复抓取,继续后续的抓取工作, 提高了系统的抓取效率 对于列表页,支持翻页,可以抓取到所有列表页中的数据。对于正文页,可以对 分页显示的内容自动进行合并; 支持页面深度抓取,页面间可以一级一级地抓下去。比如,通过列表页抓取到正 文页 url,然后再抓取正文页。各级页面可以分别入库; web 操作界面,一处安装,随处使用 分步解析,分步入库 一次配置,永久抓取,一劳永逸 2.2. 软件安装软件安装 . 安装环境安装环境 .1.1.硬件环境硬件环境

9、 机型要求:pc、pc serve、服务器 最小内存:256mb 最小硬盘空间:1gb .1.2.软件环境软件环境 操作系统:windows 2k/xp,linux、solaris 等 unix 系统 数据库:mysql、sql server、oracle 之一 益众网站信息抓取工具用户手册 第 6 页 共 72 页 java jdk:1.5 及以上版本 web server:tomcat5.0 及以上版本 . 安装步骤安装步骤 .2.1.安装安装 jdk 1.5.x 如果机器上没有 jdk 1.5.x 的环境,需要安装 jdk 1.5.x,推荐安装的

10、版本为 1.5.0。 jdk 为 sun 公司推出的 java 开发包,您可以去网站 http:/ 下载,也可 以在我们的网站下载 jdk 1.5.0,下载链接: windows:http:/ linux:http:/ 安装完毕后,设置环境变量 java_home,需要设置为 jdk 的安装目录。例如: windows 下为 c:jdk1.5.0,unix 下为/usr/java/jdk1.5.0。 .2.2.安装数据库安装数据库 如果机器上没有安装数据库,请安装 mysql 数据库。您可以去 mysql 官方网站 http:/ mysql 4.0.x: windows:http

11、:/ linux:http:/ .2.3.导入系统数据导入系统数据 数据库脚本文件存放在目录 dbscript 下。 如果使用的数据库为 mysql,需要使用如下两个命令行导入数据: mysql u【用户名】 -p【密码】 db_mysql.sql mysql u【用户名】 -p【密码】 db_wis help.sql 例如: mysql uroot db_mysql.sql mysql uroot db_wis help.sql 益众网站信息抓取工具用户手册 第 7 页 共 72 页 即可完成数据库的创建及数据导入工作。 .2.4.安装本系统安装本系统 把安装包解

12、压到指定目录。windows 系统中,需要把本系统安装在 c:webspider 目录 下,请确认文件 webspider.war 存放在 c:webspider 目录下;unix 系统中,需要把本系统安 装在/usr/local/webspider 目录下,请请确认文件 webspider.war 存放在/usr/local/webspider 目 录下。 1)如果已经安装了 tomcat5.0 及以上版本,可以把本抓站系统集成到已有 tomcat 中。 为了保证程序能正常运行,需要修改 tomcat 的启动脚本。windows 下修改文件 catalina.bat,在文件的前面设置变量 j

13、ava_opts,如下所示: set java_opts=-agentlib:c:webspiderclassloader unix 系统下,修改文件 catalina.sh,在文件的前面设置变量 java_opts,如下所示: java_opts=-agentpath:/usr/local/webspider/libclassloader.so 需要在 tomcat 的配置文件 server.xml 中增加一个 context(子项目) ,需要增加的配置 代码如下(样例): driverclassname org.gjt.mm.mysql.driver url jdbc:mysql:/192

14、.168.0.2:3306/db_wis?autoreconnect=trueuseunicode=true characterencoding=gbk 益众网站信息抓取工具用户手册 第 8 页 共 72 页 username root password maxidle 5 maxactive 100 maxwait 5000 2)如果机器上没有安装 tomcat,直接使用安装目录下的 tomcat。windows 系统下需 要修改 c:webspidertomcat-5.0.28confserver.xml 中的 context 配置,unix 系统下需要修改 /usr/local/webs

15、pider/tomcat-5.0.28/conf/server.xml 中的 context 配置。 如果本系统没有安装在缺省目录下,需要修改中的属性 docbase,把其中的 路径设置为系统安装到的路径。并且要修改 tomcat 的启动脚本,在 windows 下修改文件 catalina.bat,在 unix 下修改 catalina.sh,把变量 java_opts 中的-agentlib 设置为正确值。 参见本节的 1) 。 益众网站信息抓取工具用户手册 第 9 页 共 72 页 和之间为数据库连接池配置。需要修改数据库 连接池配置中的 driverclassname、url、user

16、name 和 password 等参数值,以保证能正常连接 数据库。 启动 tomcat 后,在浏览器中键入网址:http:/【目标服务器】/webspider/,例如: http:/locahost:8080/webspider/,进入本抓站系统的登录界面。 .2.5.tomcat 启动和停止启动和停止 1)windows 系统系统: 启动命令:startup.bat 停止命令:shutdown.bat 为了实现 tomcat 在开机时自动启动,需要把 tomcat 加到系统服务中。进入 tomcat 的 bin 目录,修改 tomcat 的 service.bat,在语句 e

17、cho the service %service_name% has been installed. 前加上: %executable% /us/%service_name% +jvmoptions - agentlib:c:webspiderclassloader 然后执行如下两行命令: service remove service install 重新安装 tomcat 服务 2)unix 系统系统: 启动命令:startup.sh 停止命令:shutdown.sh 为了实现 tomcat 在开机时自动启动,需要把 tomcat 加到操作系统的启动脚本中,例如: linux 的启动脚本文件

18、为/etc/rc.local。在启动脚本中增加一个命令行:【tomcat 所在目录】 /bin/startup.sh msie 6.0; windows nt 5.0) cache-control=no-cache http_mime_mappingcontent-type 和文件后 缀名对照信息,格式为: content-type=文件后 缀名列表,多个文件后 缀名之间用西文逗号分 隔。 一个对照一行。 image/gif=gif image/jpeg=jpg,jpeg image/png=png application/vnd.ms-powerpoint=ppt application/v

19、nd.ms-excel=xls application/msword=doc application/x-shockwave-flash=swf text/html=html,htm text/plain=txt visual_parse_exclude_tag可视化解析时,定位字 符串中不应出现的 html 标记,多个标 记之间用西文逗号分隔。 a,iframe http_proxy_ipaddr代理服务器地址,如果 不使用代理服务器,不 需要设置。 http_proxy_port代理服务器端口,小于 等于 0 表示不使用代理 服务器 8080 http_proxy_username代理服务

20、器用户名 http_proxy_password代理服务器用户密码 益众网站信息抓取工具用户手册 第 15 页 共 72 页 .1.4.入库数据表配置入库数据表配置 入库数据表配置用于配置系统要使用的数据库、数据表信息。包括增加入库数据表、 修改入库数据表、删除入库数据表功能。 增加入库数据表,包括如下几个输入框: jdbc driver:jdbc 驱动类名,例如:com.mysql.jdbc.driver jdbc url:jdbc 连接 url,例如: jdbc:mysql:/localhost:3306/test?useunicode=true,其中标记$sys_curre

21、nt_page_no;表示当前 页码。 设置好页面各项以后,点击“新增”按钮,如果设置无误,会显示“增加正文页 url 及定位信息成功”页面,该页面会显示设定的各项内容。该页面有两个按钮:“url 参数 配置”和“完成” ,如果该正文页 url 中包含参数,点击“url 参数配置”按钮,会进入 益众网站信息抓取工具用户手册 第 22 页 共 72 页 “url 参数列表”页面,进而进行 url 参数配置。如不需要进行 url 参数配置,点击 “完成”按钮,会返回“网站列表” ,这样完成了该正文页的 url 配置。 .2.6.修改正文页修改正文页 url 及定位配置信息及定位配置信

22、息 在页面配置“网站列表”中,选中要进行配置的网页类型为正文页的网站,点击列表 页上方或下方的“url 配置”按钮,如果该正文页已经进行过 url 配置,会进入“修改 正文页 url 及定位配置信息”页面,根据需要设置好要修改的项,具体设置方式可参照 “增加正文页 url 及定位配置信息” ,点击“保存”按钮,如果设置正确无误,会进入 “修改正文页 url 及定位配置信息成功”页面,显示页面设置的内容,该页面有两个按钮: “url 参数配置”和“完成” ,如果该正文页 url 中包含参数,点击“url 参数配置”按 钮,会进入“url 参数列表”页面,进而进行 url 参数配置。如不需要进行

23、url 参数配 置,点击“完成”按钮,会返回“网站列表” 。 .2.7.增加列表页增加列表页 url 配置信息配置信息 在“网站列表”中,选中要进行配置的网页类型为列表页的网站,点击列表页上方或 下方的“url 配置”按钮,如果该列表页未进行过 url 配置,进入“增加列表页 url 配 置信息”页面; 按页面提示设置好各项,各项具体说明如下: 第一页第一页 url:该项必须输入,设定要抓取的列表页的第一页 url 地址,比如: http:/ 中可以嵌入系统变量或 url 参数,嵌 入方式为:$ + 变量名称 + ;。如$sys_current_page_no;(当前页码) ,表

24、示把当前页码值 放置到$sys_current_page_no;所在的位置。点击右侧的“选择系统变量”按钮可以选择系统 变量或 url 参数,加入到 url 中。 其他页其他页 urlurl 获得方式获得方式:用来设定如何获得其他页 url,有两个选项:固定模式和动态 解析。如果其他页 url 比较固定,包括一些参数,可以设定为固定模式,否则应设定为动 态解析方式。动态解析表示在页面中提取下一页 url,利用规则表达式解析处下一页的 url。当选择动态解析方式时,会出现解析下一页 url 四个设置项: 定位下一页定位下一页 urlurl 开始的字符串:开始的字符串:用于设置能够唯一定位到下一页

25、 url 开始的字符串, 这样可以保证定位到下一页 url 的准确性,页可以提高抓取效率。可以不设置,表示从头 开始定位。 益众网站信息抓取工具用户手册 第 23 页 共 72 页 定位下一页定位下一页 urlurl 结束的字符串:结束的字符串:用于设置能够唯一定位到下一页 url 结束的字符串, 这样可以保证定位到下一页 url 的准确性,也可以提高抓取效率。可以不设置,表示定位 到整个页面结束。 定位下一页定位下一页 urlurl 的外围规则表达式:的外围规则表达式:用于设置缩小定位下一页 url 范围的规则表达式。 本项可以不设置,表示直接使用“定位下一页 url 规则表达式”即可解析出

26、下一页 url。 定位下一页定位下一页 urlurl 规则表达式:规则表达式:用于设置解析下一页 url 的规则表达式,该项必须设定。 其他页其他页 url:设定要抓取的列表页的其他页 url 地址,如果不设置表示无其他页, 只抓取第一页。当“其他页 url 获得方式”为“动态解析”时,该项必须输入。输入内容 如:$1、$2 等,其中$1 代表规则表达式中匹配到的第一组值(第一对括号中匹配到的值) , $2 代表规则表达式中匹配到的第二组值。当“其他页 url 获得方式”为“固定模式”时, 点击右侧的“选择系统变量”按钮可以选择系统变量或 url 参数,加入到 url 中。 提取提取 hidd

27、enhidden 参数的参数的 formform 名称:名称:用于自动提取该 form 中的 hidden 参数及参数值,如 果不需要提取,请不要输入。 提取的提取的 hiddenhidden 参数名称:参数名称:多个参数名之间用西文逗号分隔,为空表示提取指定 form 中的所有 hidden 参数。只有指定了提取 hidden 参数的 form 名称时,本字段才有意义。 提取提取 hiddenhidden 参数的页面:参数的页面:只从第一页中提取 hidden 参数,还是从上一页提取 hidden 参数。当下一页的 url 中包含页码或记录号时,通常应设置为“只从第一页中提取” ,以 提高系

28、统的处理效率。对于一些特殊的列表页(例如:下一页 url 中没有包含页码或记录 号) ,此时需要从上一页中动态提取 hidden 参数,本数据项应设置为“从上一页提取” 。只 有指定了提取 hidden 参数的 form 名称时,本字段才有意义。 起始页号:起始页号:用于设定该列表页的起始基准页号,取值通常为 0 或 1。基于 0 的情况下, 第一页的页号为 0,第二页的为 1,以此类推。本项的缺省值为 1,表示按页码的自然顺序。 此项必须设定。 起始行号:起始行号:用于设定该列表页的起始基准行号,取值通常为 0 或 1,缺省值为 1。解释 参见上面的“起始页号” 。此项必须设定。 第一页的第

29、一页的调用方式调用方式:用来设定第一页请求的处理方式,有两个选项:post 和 get, 通常应设置为 get。 其他页的其他页的调用方式调用方式:用来设定其他页或下一页请求的处理方式,有两个选项:post 和 get,通常应设置为 get。 益众网站信息抓取工具用户手册 第 24 页 共 72 页 是否是总页数标记是否是总页数标记:用来设定是总页数还是总记录数的标记。 “总页数”表示是总页数 标记, “总记录数”表示是总记录数标记。 定位记录数或总页数的规则表达式:定位记录数或总页数的规则表达式:用于设置解析总记录数或总页数的规则表达式。 当“是否是总页数标记是否是总页数标记”设置为总记录数

30、时,本项用于设置解析总记录数的规则表达式; “是否是总页数标记是否是总页数标记”设置为总页数时,本项用于设置解析总页数的规则表达式。 是否允许跳页是否允许跳页:用来设定列表页是否可以跳页, “可以”表示可以跳页, “不可以”表 示不能跳页。此项用于设定断点续抓。可以跳页的情况下,可以直接跳到上次抓取到的下 一页继续抓取,提高了处理效率,否则只能一页一页地翻到目标页。例如,列表页上次抓 到了第 10 页就停止了。重新开始抓取从第 11 页开始,但有的网站不允许你直接到第 11 页, 必须一页一页的翻到第 11 页,这里就只能设定“不可以”跳页。 设置好页面各项以后,点击“新增”按钮,如果设置无误

31、,会显示“增加列表页 url 配置信息成功”页面,该页面会显示设定的各项内容。该页面有两个按钮:“url 参数配 置”和“完成” ,如果该列表页 url 中包含参数,点击“url 参数配置”按钮,会进入 “url 参数列表”页面,进而进行 url 参数配置。如不需要进行 url 参数配置,点击 “完成”按钮,会返回“网站列表” ,这样完成了该列表页的 url 配置。 .2.8.修改列表页修改列表页 url 配置信息配置信息 在“网站列表”中,选中要进行配置的网页类型为列表页的网站,点击列表页上方或 下方的“url 配置”按钮,如果该列表页已经进行过 url 配置,会进入“修改列表

32、页 url 配置信息”页面,根据需要设置好要修改的项,具体设置方式可参照“增加列表页 url 配置信息” ,点击“保存”按钮,如果设置正确无误,会进入“修改列表页 url 配置 信息成功”页面,显示页面设置的内容,该页面有两个按钮:“url 参数配置”和“完成” ,如果该列表页 url 中包含参数,点击“url 参数配置”按钮,会进入“url 参数列表” 页面,进而进行 url 参数配置。如不需要进行 url 参数配置,点击“完成”按钮,会返 回“网站列表” 。 .2.9.url 参数配置参数配置 在增加 url 配置信息完成或修改 url 配置信息时,会出现“url 参数配置”

33、按钮, 如果需要配置 url 参数,点击该按钮进入“url 参数列表”页面。在该列表的上方和下 方各有一排按钮,点击“新增”按钮,进入“增加 url 参数”页面;选中一条记录,点击 益众网站信息抓取工具用户手册 第 25 页 共 72 页 “删除”按钮会提示是否删除该项,确定后即删除该 url 参数。列表右侧“操作”栏目, 中有“修改”链接,对于“参数取值类型”为离散值的参数,还会显示“设置参数值”链 接:点击“修改”按钮进入“修改 url 参数”页面;点击“设置参数值”按钮进入“url 参数值列表”页面,进行参数值的增加、修改、删除操作。 .2.10.增加增加 url 参数参

34、数 在“url 参数列表”中,点击列表页上方或下方的“新增”按钮,进入“增加 url 参 数”页面; 按页面提示设置好各项,各项具体说明如下: 参数名称参数名称:该项必须输入,设定页面中需要用到的参数名称,如 province(省份) 、 (城市)等。参数名称中允许的字符包括:字母、数字、_(下划线) 、-(减号)和.(点) 。 参数说明参数说明:该项可以不设,主要是为了说明该参数的用途,便于理解和维护。 参数取值类型参数取值类型:用来设定该参数如何取值,有两个选项:有序值和离散值。如果是 “离散值” ,在增加 url 参数完成后,还要“设置 url 参数值” ;如果是“有序值”时, 下面会出

35、现有序值设置数据项,包括以下四项: 信息信息 idid 起始值:起始值:用于设置该有序值参数的起始值,该项必须输入。 递增值:递增值:用于设置该有序值参数的递增值,也叫循环步长。设定为 0 时,表示只抓取 一次。该项必须输入。 信息信息 idid 终止值:终止值:用于设置该有序值参数的终止值。设定为 0 时,表示没有最终值,对 应的循环为无限循环。该项必须输入。 循环顺序:循环顺序:用于设置该参数的循环顺序。多个参数时,顺序值小的为外层循环(大循 环) ,大的为内层循环(小循环) 。该项必须设定。 是否是否 url 参数参数:用来设定该项是否应用于页面 url 参数中, “是”表示添加到 ur

36、l 参数中, “否”表示不添加。通常都应该是 url 参数。 是否有效是否有效:用来设定该参数是否生效。 “有效”系统使用本参数, “无效”表示不使用 本参数。 设置好页面各项以后,点击“新增”按钮,如果设置无误,会显示“增加 url 参数信 息成功”页面,该页面会显示设定的各项内容。如果“参数取值类型”为“离散值” ,该页 面会有两个按钮:“设置 url 参数值”和“完成” ,点击“设置 url 参数值”按钮,会进 益众网站信息抓取工具用户手册 第 26 页 共 72 页 入“url 参数值列表”页面,进而进行 url 参数值配置。如果“参数取值类型”为“有 序值” ,页面只有一个“完成”按

37、钮,点击“完成”按钮,会返回“url 参数列表” ,这样 完成了增加 url 参数配置, “url 参数列表”中会显示刚刚增加的 url 参数。 .2.11.修改修改 url 参数参数 在“url 参数列表”中,点击列表页右侧“操作”栏中的“修改”链接,会进入“修 改 url 参数信息”页面,根据需要设置好要修改的项,具体设置方式可参照“增加 url 参数信息” ,其中“参数取值类型”不能修改,点击“保存”按钮,如果设置正确无误,会 进入“修改 url 参数信息成功”页面,显示页面设置的内容,如果“参数取值类型”为 “离散值” ,该页面会有两个按钮:“设置 url 参数值”和“

38、完成” ,点击“设置 url 参 数值”按钮,会进入“url 参数值列表”页面,进而进行 url 参数值配置。如果“参数 取值类型”为“有序值” ,页面只有一个“完成”按钮,点击“完成”按钮,会返回“url 参数列表” ,这样完成了修改 url 参数配置, “url 参数列表”中会显示刚刚修改的 url 参数。 .2.12.删除删除 url 参数参数 在“url 参数列表”中,选中一条记录,点击列表页上方或下方的“删除”按钮,系 统会提示确认信息,确定后删除该条 url 参数记录,如果未选中记录,系统会提示选中要 删除的记录。 .2.13.设置设置 url 参数

39、值参数值 有三种方式可以进入“设置参数值”页面: “增加 url 参数”完成后,如果“参数取值类型”为“离散值” ,点击“增加 url 参数信息成功”页面上的“设置参数值”按钮 “修改 url 参数”时,如果“参数取值类型”为“离散值” ,点击“设置参数值” 按钮 在“url 参数列表”中,如果 url 参数取值类型为“离散值” ,在列表页右侧 “操作”栏中会有的“设置参数值”链接,点击该链接 执行以上任何一种操作后,进入“url 参数值列表”页面,在该列表页面的上方和下 益众网站信息抓取工具用户手册 第 27 页 共 72 页 方各有一排按钮,点击“新增”按钮,进入“增加 url 参数值”页

40、面;点击“批量增加” 按钮,将进入“批量增加参数值”页面。 选中一条记录,点击“删除”按钮会提示是否删除该项,确定后即删除该 url 参数值。 列表右侧“操作”栏目,中有“修改”链接,点击该链接进入“修改 url 参数值”页面。 url 参数值设定完成后,可以点击导航条或页面上方的菜单进行其他配置。 .2.14.增加增加 url 参数值参数值 在“url 参数值列表”中,点击列表页上方或下方的“新增”按钮,进入“增加 url 参数值”页面。 按页面提示设置好各项,各项具体说明如下: 参数取值参数取值:该项必须输入,根据页面情况设定对应参数的取值,如:省份名称。 参数说明参数说明

41、:该项可以不设,主要是为了说明该参数值的用途,便于维护和使用。 显示顺序:显示顺序:用于设置该参数的显示顺序,循环时按显示顺序升序遍历参数值。该项必 须设定。 设置好页面各项以后,点击“新增”按钮,如果设置无误,会显示“增加 url 参数值 信息成功”页面,该页面会显示设定的各项内容。该页面有一个“完成”按钮,点击“完 成”按钮,会返回“url 参数值列表” ,这样完成了增加 url 参数值配置, “url 参数值 列表”中会显示刚刚增加的 url 参数值。 .2.15.批量增加批量增加 url 参数值参数值 在“url 参数值列表”中,点击列表页中的“批量增加”按钮,进入“批

42、量增加 url 参数值”页面。 页面中的各项数据项说明如下: 批量参数取值批量参数取值:该项必须输入。需要循环的字符书写为:起始字符-终止字符,不需 要循环的字符原样书写。循环的字符只能是字母 a-z、a-z 或数字 0-9 中的全部或一部分, 字符取值范围中的小写字母、大写字母和数字不能交叉,如果取值范围交叉,则不是有效 的循环,将保持原样。正确的带循环参数值如:a-z、column1-9,不正确的循环参数值 如:a-z、a-9。批量参数值中可以嵌入一个或多个字符循环,允许不带字符循环,此时 等价于增加单个参数值。带两个循环的例子如:a-d-1-3,入库时生成的参数值共 12 个: a-1、

43、a-2、a-3、b-1、b-2、b-3、c-1、c-2、c-3、d-1、d-2 和 d-3。 益众网站信息抓取工具用户手册 第 28 页 共 72 页 点击“新增”按钮,如果设置无误,会显示“增加批量 url 参数值信息成功”页面, 并提示总共入库了多少个 url 参数值。 .2.16.修改修改 url 参数值参数值 在“url 参数值列表”中,点击列表页右侧“操作”栏中的“修改”链接,会进入 “修改 url 参数值信息”页面,根据需要设置好要修改的项,具体设置方式可参照“增加 url 参数值” ,点击“保存”按钮,如果设置正确无误,会进入“修改 url 参数值信息成 功”页面

44、,显示页面设置的内容,该页面有一个“完成”按钮,点击“完成”按钮,会返 回“url 参数值列表” ,这样完成了修改 url 参数值配置, “url 参数值列表”中会显示 刚刚修改的 url 参数值。 .2.17.删除删除 url 参数值参数值 在“url 参数值列表”中,选中一条记录,点击列表页上方或下方的“删除”按钮, 系统会提示确认信息,确定后删除该条 url 参数值记录,如果未选中记录,系统会提示选 中要删除的记录。 .2.18.定位信息设置定位信息设置 在“页面配置”的“网站列表”页面,选中要进行配置的网站,点击列表页上方或下 方的“定位信息设置”按钮,

45、如果未选中要进行配置的网站,系统会提示“请选择要配置 定位信息的页面” ,选中后,系统会根据所选中网站的网页类型、是否已经进行过定位信息 设置,进入不同的操作页面: 网页类型是正文页, “url 配置”和“定位信息设置”是相同的处理页面 未进行 url 配置或定位信息配置的,进入“增加正文页 url 及定位配置信息”页 面; 已经进行过 url 配置或定位信息配置的,进入“修改正文页 url 及定位配置信息” 页面; 网页类型是列表页, 未进行定位信息配置的,进入“增加列表页定位配置信息”页面; 已经进行过定位信息配置的,进入“修改列表页定位配置信息”页面; 益众网站信息抓取工具用户手册 第

46、29 页 共 72 页 .2.19.增加列表页定位配置信息增加列表页定位配置信息 在“网站列表”中,选中要进行定位配置的网页类型为列表页的网站,点击列表页上 方或下方的“定位信息设置”按钮,如果该列表页未进行过定位信息设置,进入“增加列 表页定位配置信息”页面; 按页面提示设置好各项,各项具体说明如下: 每页显示的记录数每页显示的记录数:设定每个列表页的记录数(数据行数) 。对于类型为列表页的入口 页,正数 n 表示如果其中一页的记录数小于 n,则不再抓取和处理下一页;如果为-n,则 表示只要成功提取了一条记录,且存在下一页,则继续抓取和处理下一页。对于中间页面 (非入口页)

47、,n 表示尝试从该列表页中提取 n 条记录,如果没有提取到 n 条记录,则该 次处理失败;-n 表示最多提取 n 条记录,此时允许提取 0 条记录(无记录) 。如果列表页 包含多页,最好准确地设置每页记录数。如果只有一页,而且当记录数很多时,可以估计 一个较大的数值,例如 n,保证能够把页面中的所有记录处理完,推荐将记录数设置为负 数-n。 在正常情况下,下级页面处理(包括页面解析和入库)出现错误,将影响本页面的处 理。如果本页的记录数设置为 n,因出现错误导致抓取结束;如果记录数设置为-n,且本 页正确处理的记录数目大于 0,则继续抓取和处理下一页(不处理本页面中的后续记录) 。 记录数设置

48、为-n 时,且 n10000,表示下级页面出现页面解析错误时,继续处理本列 表页中的后续记录。此时从该列表页中提取的最大记录数为:n 10000。 注意:记录数设置为-n 时的容错处理,只针对页面解析错误,而不针对(不包括)页 面入库时发生的错误。 该项必须输入。 定位到列表开始的字符串:定位到列表开始的字符串:用于设置能够唯一定位到列表内容开始的字符串,这样可 以保证列表内容的准确性,也可以提高抓取效率。本项可以不设置,表示从头开始定位。 格式为:定位字符串,后面的“”为可 选项。当没有本可选项时,表示跳过的匹配次数为 0。例如:表示跳过 2 次匹配, 第 3 次匹配到的为列表开始位置。 定

49、位到列表结束的字符串:定位到列表结束的字符串:用于设置能够唯一定位到列表内容结束的字符串,这样可 以保证列表内容的准确性,也可以提高抓取效率,可以不设置本项,表示列表内容一直到 整个页面结束。 格式为:定位字符串,后面的“”为可 益众网站信息抓取工具用户手册 第 30 页 共 72 页 选项。当没有本可选项时,表示跳过的匹配次数为 0。例如:表示跳过 1 次匹配, 第 2 次匹配到的为列表结束位置。 定位到记录开始的字符串:定位到记录开始的字符串:用于设置能够唯一定位到每条记录内容开始的字符串,这 样可以保证记录中数据的准确性,也可以提高抓取效率。可以不设置,不设定表示从头开 始定位。如果设置

50、了本项, “定位到记录结束的字符串”也必须设置。 格式为:定位字符串,后面的“”为可 选项。当没有本可选项时,表示跳过的匹配次数为 0。例如:表示跳过 1 次匹配, 第 2 次匹配到的为记录开始位置。 定位到记录结束的字符串:定位到记录结束的字符串:用于设置能够唯一定位到每条记录内容结束的字符串,这 样可以保证记录中数据的准确性,也可以提高抓取效率。可以不设置,表示定位到整个页 面结束。如果设置了本项, “定位到记录开始的字符串”也必须设置。 格式为:定位字符串,后面的“”为可 选项。当没有本可选项时,表示跳过的匹配次数为 0。例如:表示跳过 1 次匹配, 第 2 次匹配到的为记录结束位置。

51、跳过的记录数目:跳过的记录数目:用于设定该列表页跳过多少条记录后开始抓取记录内容,缺省为 0,表示不跳过。通常用于跳过表头(此时应设置为 1) 。此项必须设定。 是否重新抓取是否重新抓取:用来设定对于抓取过的页面是否重新抓取。 “是”表示重新抓取, “否” 表示不重新抓取。 是否需要是否需要 unescapeunescape 解码解码:如果页面内容使用 javascript escape 编码,需要进行 unescape 解码。这种情况下页面调用 javascript 的函数 unescape 解码,为了获得解码后 的内容,需要把本项设置为“是” 。 可接受的页面可接受的页面 url 连续重复

52、次数:连续重复次数:抓取页面过程中,url 连续重复时,继续尝试的 抓取次数。假设其取值为 n,如果实际的连续 url 重复次数大于 n,则不再继续抓取。一旦 一个网页的 url 不重复,实际的 url 连续重复次数从零开始重新计数。本项的缺省值为 0,表示碰到已抓取过的网页,就停止抓取。该项必须输入且不小于零。 可接受的入库连续失败次数:可接受的入库连续失败次数:抓取网页过程中,入库连续失败时,继续尝试的抓取次 数。假设其取值为 n,如果实际的入库连续失败次数大于 n,则不再继续抓取。一旦一个网 页成功入库,实际的入库连续失败次数从零开始重新计数。本项的缺省值为 0,表示入库 一旦失败,就停

53、止抓取。该项必须输入且不小于零。 设置好页面各项以后,点击“新增”按钮,如果设置无误,会显示“增加列表页定位 益众网站信息抓取工具用户手册 第 31 页 共 72 页 配置信息成功”页面,该页面会显示设定的各项内容。该页面有一个“完成”按钮,点击 该按钮,会返回页面配置的“网站列表” ,这样完成了该列表页的定位配置。 .2.20.修改列表页定位配置信息修改列表页定位配置信息 在“网站列表”中,选中要进行配置的网页类型为列表页的网站,点击列表页上方或 下方的“页面定位配置”按钮,如果该列表页已经进行过页面定位配置,会进入“修改列 表页定位配置信息”页面,根据需要设置好要修改的项,

54、具体设置方式可参照“增加列表 页定位配置信息” ,点击“保存”按钮,如果设置正确无误,会进入“修改列表页定位配置 信息成功”页面,显示页面设置的内容,该页面有一个“完成”按钮,点击该按钮,会返 回页面配置的“网站列表” ,这样完成了该列表页的定位信息修改。 .2.21.下级页面配置下级页面配置 在页面配置的“网站列表”页面右侧“操作”栏中,点击“下级页面”链接,会进入 “下级页面列表”页面:如果选中的网站已经配置了下级页面,会在该列表中显示出来, 在页面右侧“操作”栏中有“修改名称”和“下级页面”两个连接,如果该下级页面还有 下级页面,点击“下级页面”链接,可以看到下级页面列表

55、,在每一个下级页面列表中都 可以增加新的子页面,如此反复可以到无限多下级页面,深度抓取页面信息;如果没有配 置,该列表页为空列表页。 在每一级“下级页面列表”页面的下方,有五个按钮: “页面定位信息”:增加或修改选中的子页面的“页面定位信息” ,页面类型为 “列表页”的子页面页面定位设置同页面基本信息的页面定位设置相同,页面类 型为“正文页”的子页面页面定位设置同页面基本信息的页面定位设置稍有不同, 缺少了“页面 url”项的设置,其他项设置相同 “页面解析”:对选中的子页面进行页面解析 “页面入库”:对选中的子页面进行入库配置 “增加”:增加新的子页面,前提是上级页面进行了“页面解析” ,并

56、且有解析出 来的类型为“url”的数据项。 “删除”:删除选中的子页面 益众网站信息抓取工具用户手册 第 32 页 共 72 页 .2.22.增加子页面增加子页面 进行该操作之前,必须针对上一级页面进行过页面解析,并且有解析出来的数据类型 为“url”的数据项,否则系统会提示“页面中不存在数据类型为 url 的数据项” 。确认已 经进行过上级页面的解析处理后,在“下级页面列表”中,点击列表页下方的“新增”按 钮,进入“增加子页面”页面; 按页面提示设置好各项,各项具体说明如下: 网页名称网页名称:该项必须输入,设定要增加的子页面的名称。 网页类型网页类型:有两个选项“列表页”和

57、“正文页” ,根据该子页面的页面类型进行设定, 该项必须设定。 页面调用方式:页面调用方式:请求子页面的方式,有两个选项:post 和 get,通常应设置为 get。 url 来源数据项:来源数据项:该列表框会列出所有上一级页面解析出来的类型为“url”的数据 项,选定该子页面来源于哪个 url 数据项,该项必须设定。 设置好页面各项以后,点击“新增”按钮,如果设置无误,会显示“增加页面成功” 页面,该页面会显示设定的各项内容。该页面有“定位信息设置”和“完成”两个按钮, 点击“定位信息设置”按钮,进行该页面的定位信息设置(页面类型为“列表页”的子页 面页面定位设置同页面基本信息的页面定位设置

58、相同,页面类型为“正文页”的子页面页 面定位设置同页面基本信息的页面定位设置稍有不同,缺少了“页面 url”项的设置,其 他项设置相同) 。点击“完成”按钮,会返回“下级页面列表” ,这样完成了增加子页面, “下级页面列表”中会显示刚刚增加的页面信息。 .2.23.修改修改子页面子页面 在“下级页面列表”中,点击列表页右侧“操作”栏中的“修改名称”链接,会进入 “修改子页面”页面,根据需要设置好要修改的项,具体设置方式可参照“增加子页面” , 其中网页类型不能修改。点击“保存”按钮,如果设置正确无误,会进入“修改子页面成 功”页面,显示页面设置的内容,该页面有一个“完成”按钮,

59、点击“完成”按钮,会返 回“下级页面列表” ,这样完成了修改子页面操作, “下级页面列表”中会显示刚刚修改的 页面信息。 益众网站信息抓取工具用户手册 第 33 页 共 72 页 .2.24.删除删除子页面子页面 在“下级页面列表”中,选中一条记录,点击列表页下方的“删除”按钮,系统会提 示确认信息,确定后删除该条子页面记录,如果未选中记录,系统会提示选中要删除的记 录。 .2.25.设置抓取时间设置抓取时间 设置抓取时间可以让系统在设定的任意时间点执行抓取操作,可以精确到分钟。需要 对小时、分钟、月、日以及星期分别设置。在页面配置的“网站列表”中,点击“设置抓

60、 取时间”链接,会进入“设置抓取小时和分钟”页面。小时分为 24 个复选框,分钟分为 60 个复选框,小时和分钟均可以全部选取,也可以设定为一个或多个值。点击“下一步” 按钮进行月和日的设置,月分为 12 个复选框,日分为 31 个复选框,月和日均可以全部选 取,也可以设定为一个或多个值。点击“下一步”按钮进行星期的设置,星期分为 7 个复 选框,可以全部选取,也可以设定为一个或多个值。 月、日和星期是两套并列的时间单位,需要对它们进行特别的说明。 当星期指定为一个星期的所有天数,而月和日也指定为所有月份和一个月份中的所有 天数时,表示抓取在每一天中的某些时间点进行,格式如下(以星号“*”表示

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论