01数据采集管理平台及部署实施文档_第1页
01数据采集管理平台及部署实施文档_第2页
01数据采集管理平台及部署实施文档_第3页
01数据采集管理平台及部署实施文档_第4页
01数据采集管理平台及部署实施文档_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 国家旅游局旅游基础数据库建设项目数据管理平台及部署实施文档 北京华胜天成科技股份有限公司 I 版本控制信息 北京华胜天成科技股份有限公司 II 本文档中的所有内容为用户和专属所有。未经用户的明确书面许可,任何组织或个人不得以任何目的、任何形式及任何手段复制或传播本文分或全部内容。 版本 日期 拟稿和修改 说明 V1.0 版 2014 年 12 月 Teamsun V1.1 版 2015 年 8 月 Teamsun 目 录 国家旅游局旅游基础数据库建设项目I数据管理平台及. I部署实施文档I1. 引言11.1.1 编写目的11.1.2 简介12. 数据采集12.1 采集器安装部署12.1.12

2、.2.1.4运行环境要求1爬虫采集器安装方法1爬虫采集器的配置说明2各服务器的安装情况32.2 机器人安装部署..4运行环境要求3机器人的安装方法3机器人的配置说明4各服务器的安装情况83. 系统应用.33.1.4应用服务部署8运行环境要求8安装方法8配置说明9项目部署情况103.2 数据管理系统应用服务部署..4运行环境要求10安装方法11配置说明11项目部署情况124. 数据整合124.1 检索服务124.1.1 Solr 分布式全文检索服务的部署

3、运行环境要求 安装方法 配置说明 项目部署情况134.1.2 索引创建服务 运行环境要求 安装方法 配置说明 项目部署情况16北京华胜天成科技股份有限公司 III 4.1.3 检索接口服务 运行环境要求 安装方法 配置说明 项目部署情况174.2 云端数据采集与大数据接口服务..4运行环境要求18安装方法18配置说明18项目部署情况21北京华胜天成科技股份有限公

4、司 IV 1.引言1.1编写目的本手册是为国家旅游局基础数据库项目运维人员所编写,为其运营维护本系统提供操作指南。1.2简介本文档主要包含以下几个部分: 数据采集:采集器部署、机器人部署等; 系统应用:部署、数据管理系统部署等; 数据整合:全文检索服务、云端数据采集与大数据接口服务等;2.数据采集2.1采集器安装部署2.1.1运行环境要求内存:4G以上 核数:建议24核硬盘:100G以上操作系统:Windows Server 2003、2008数据库:mysql-essential-6.0.11-alpha-winx64 宽带:建议独立2M以上2.1.2爬虫采集器安装方法爬虫采集的部署方法如下

5、步骤所示: 拷贝部署包安装盘中的JDK1.6.0_19文件到某一目录下; 拷贝采集部署包安装盘中的GatherServer目录到第一步中的同一目录下; 配置采集器,如下所示;北京华胜天成科技股份有限公司 1 双击GatherServer目录下每个文件夹中的Run_Gather.bat文件,以启动爬虫采集器采集器;2.1.3爬虫采集器的配置说明爬虫采集的配置文件所在路径如下图中所示的SiteGather文件, 其文件中主要的配置信息如下所示: 1 ././rawsitedata/ pom elint_web_siteconf wise_web_docinfo

6、03 root wisedb 其各主要配置项说明如下所示:ID: 采 集 的 唯 一 id; SavePath:采集的信息的正文保存的路径Database:采集器使用的数据库名称;北京华胜天成科技股份有限公司 2 SiteTable:保存待采集信息源的表; MainTable:保存采集结果的表名; Host:数据库所在服务的IP;User数据库用户名;Passwd:数据库;2.1.4各服务器的安装情况目前爬虫采集器主要部署了7台,同时部署了一台文件服务器,以作为保存采集信息正文txt文件的介质。目前各服务器的部署详细情况如下表所示: 2.2机器人安装部署2.2.1运行环境要求运行环境要求内存:

7、4G以上 核数:建议48核硬盘:50G以上操作系统:Windows Server 2003、2008数据库:mysql-essential-6.0.11-alpha-winx64 宽带:建议独立4M以上2.2.2机器人的安装方法1.2.拷贝采集部署包安装盘中的RoboServer72文件到C盘根目录下;双击“C:RoboServer72binSettings.exe”文件,打开数据库配置界面,配置数据库信息,配置方式如下所示;双击“C:RoboServer72binRobotStart.bat“文件启动机器人服务;在本机IE地址栏输入”http:localhost:50080/”

8、打开机器人调度界面,3.4.北京华胜天成科技股份有限公司 3 5. 上传并部署机器人;2.2.3机器人的配置说明机器人的配置主要有以下部分: 配置数据库连接; 配置机器人调度服务;其各部分配置说明如下所示:1.数据库连接配置方法: 双击“C:RoboServer72binSettings.exe”文件,打开数据库配置界面,如下图所示:2.点击上图中的database Connections按钮,打开数据库配置项目,如下如所示,在输入红色框内的各项后,点击Test Connection按钮,测试数据的信息是否正确,如果有误,重新修改相应的配置项值;北京华胜天成科技股份有限公司 4 3.4.双击“

9、C:RoboServer72binRobotStart.bat“文件启动机器人服务;在IE地址栏输入“http:/localhost:50080/”打开机器人的调度界面,如下如所示:5.在调度界面中上传机器人模板,采集数据,其上传机器人的步骤如下图中所示:北京华胜天成科技股份有限公司 5 机器人的上传详细步骤如下:1.点击界面中的Scheduler按钮,加入机器人添加界面,点击左上角的New按钮打开添加界面,如下如所示: 2.输入机器人在调度中显示的name以及调度方式等信息,如下如所示:北京华胜天成科技股份有限公司 6 点击上图中右上角的Add Robot按钮,在弹出的窗口中点击Browse

10、按钮,选择想要添加机器人,最后点击打开-Finish-Save按钮, 完成一个机器人的添加操作。如下图所示:3. 北京华胜天成科技股份有限公司 7 2.2.4各服务器的安装情况目前机器人服务器使用了五台,主要负责酒店、景区、旅行社等基础信息,以及线路、游记、评论等类信息的采集任务。目前各服务器的部署详细情况如下表所示: 3.系统应用3.1应用服务部署3.1.1运行环境要求内存:建议8G以上核数:建议48核硬盘:100G以上操作系统:Windows Server 2003、2008数据库:mysql-essential-6.0.11-alpha-winx64 宽带:建议独立10M以上 3.1.2

11、安装方法1.拷贝部署包安装盘中的JDK1.6.0_19文件夹和Tomcat-6.0.18目录下的文件夹拷贝到同一文件夹中;2.文件夹下的pom文件夹到上一拷贝部署包安装盘中步中Tomcat文件夹下的Tomcat-6.0.18webapps目录下;修改pom文件夹下的数据库配置文件和系统配置文件,如下步所示;3.4.安装MySQL数据库。安装MySQL数据。拷贝部署包安装盘中的mysql-essential-6.0.11-alpha-winx64,双击该文件,然后一直下一步即可。北京华胜天成科技股份有限公司 8 5.6.在电脑控制面板-服务中停止MySQL服务创建pom数据库。拷贝

12、部署包安装盘中的数据库文件夹下的pom文件夹到MySQL数据的data目录下; 重新启动MySQL服务;点击Tomcat-6.0.18bintomcat_startup.bat文件,启动tomcat服务;在IE地址栏输入“:8080/pom/”测试系统是否正常启动;7.8.9. 3.1.3配置说明 修改“Tomcat-6.0.18webappspomWEB-INFclasses”目录下的perties配置文件,该文件中主要的配置项如下所示: jdbc.driver=com.mysql.jdbc.Driver jdbc.url=jdbc

13、:mysql:/:3307/pom?useUnicode=true&z eroDateTimeBehavior=convertToNull&characterEncoding=utf-8 jdbc.username=rootjdbc.password=wisedbrawsitedata.patht=Z:/rawsitedata/各配置说明如下: jdbc.driver:配置数据库驱动; jdbc.url:数据库连接; jdbc.username:数据库用户名; jdbc.password:数据库; rawsitedata.patht:保存采集信息正文的路径; 修改“Tomca

14、t-6.0.18webappspomWEB-INFclasses”目录下的myCperties配置文件,其内容如下:emailHost= emailName= emailPassword=wwwcom20130502 solr.negative.Search.Second=2592000 solr.search.ip=3 solr.search.port=8001solr.map.stat.Search.Second=169200北京华胜天成科技股份有限公司 9 各配置说明如下:jemailH

15、ost:邮件服务器类型; emailName:邮件用户名;emailPassword:邮件的登录 ; solr.negative.Search.Second:预警处理的时间段;solr.search.ip:系统使用的检索服务所在服务器IP;solr.search.port:系统所使用的检索服务的端口; 首页地图统计时间;solr.map.stat.Search.Second: 3.1.4项目部署情况所示: 3.2数据管理系统应用服务部署3.2.1运行环境要求内存:建议8G以上核数:建议48核硬盘:100G以上操作系统:Windows Server 2003、2008北京华胜天成科技股份有限公司

16、 10 数据库:mysql-essential-6.0.11-alpha-winx64宽带:建议独立10M以上3.2.2安装方法1.拷贝部署包安装盘中的JDK1.6.0_19文件夹和Tomcat-6.0.18目录下的文件夹拷贝到同一文件夹中;2.拷贝数据管理系统部署包盘中数据管理系统文件夹下的pom文件夹到上一步中Tomcat文件夹下的Tomcat-6.0.18webapps目录下;修改pom文件夹下的数据库配置文件和系统配置文件,如下步所示;3.4.安装MySQL数据库。安装MySQL数据。拷贝部署包安装盘中的mysql-essential-6.0.11-alpha-winx6

17、4,双击该文件,然后一直下一步即可。在电脑控制面板-服务中停止MySQL服务创建pom数据库。拷贝数据管理系统部署包安装盘中的数据管理系统数据库文件夹下的pom文件夹到MySQL数据的data目录下;重新启动MySQL服务;点击Tomcat-6.0.18bintomcat_startup.bat文件,启动tomcat服务; 在IE地址栏输入“:8080/pom/”测试系统是否正常启动;.9. 3.2.3配置说明 修改“Tomcat-6.0.18webappspomWEB-INFclasses”目录下的perties配置文

18、件,该文件中主要的配置项如下所示:jdbc.driver=com.mysql.jdbc.Driver jdbc.url=jdbc:mysql:/:3306/pom_ct?useUnicode=true&zeroDateTimeBehavior=convertToNull&characterEncoding=utf-8 jdbc.username=rootjdbc.password=wisedbrawsitedata.patht=Z:/rawsitedata/各配置说明如下:jdbc.driver:配置数据库驱动;北京华胜天成科技股份有限公司 11 jdbc.url:数据库连接

19、; jdbc.username:数据库用户名; jdbc.password:数据库; rawsitedata.patht:保存采集信息正文的路径; 修改“Tomcat-6.0.18webappspomWEB-INFclasses”目录下的myCperties配置文件,其内容如下:img.path=D:/WisePOM/WisePom_ct/pictures/各配置说明如下: img.path:邮件服务器类型;3.2.4项目部署情况目前数据管理系统使用了二台服务器,一台为数据管理系统外部访问服务,一台为数据管理系统提供数据存储,其部署详细情况如下表所示: 4.数据整合4.1检索

20、服务4.1.1Solr 分布式全文检索服务的部署运行环境要求内存:建议16G以上核数:建议8核硬盘:500G以上操作系统:Red Hat Linux 6北京华胜天成科技股份有限公司 12 宽带:千兆/万兆网卡 安装方法安装方法详见附件“Solr部署实施文档”。 配置说明安装方法详见附件“Solr部署实施文档”。 项目部署情况目前分布式索引服务使用了五台服务器,每台服务器的基本配置信息,以及安装部署等详细情况如下图表所示: 4.1.2索引创建服务该服务主要是把采集到的各种数据添加到分布式索引服务平台中,为的这种查询提供基础;运

21、行环境要求 内存:建议8G以上核数:建议48核硬盘:10G以上操作系统:Windows Server 2003、2008宽带:千兆/万兆网卡北京华胜天成科技股份有限公司 13 安装方法1.拷贝部署包安装盘中的JDK1.6.0_19文件夹,存放在另一个文件夹下;2.3.4.拷贝索引服务索引创建服务indexBuild文件夹到第一步使用的目录下; 修改该服务的配置文件,如下.3步所示;启动服务。启动顺序为start_1.batstart_2.bat;配置说明该服务在使用的过程中,需要修改数据库连接、所采集信息正文txt路径等信息。其配置文件的内容如下所示:

22、系统配置文件(conf/Config.xml): 1 40091 :40091 1 2000 N:WisePom_ct_20140922rawsitedata/ 5:2181,6:2181,7:2181 true 0 8000 各标签含义如下所示: namenodeId:本服务唯一的id值,多个时id值必须唯一; ip:本服务中从节点所在服务器的ip; port:本服务用从节点本服务打算使用的端口,确保该端口未被占用;slave:处理数据节的服务所在机器的ip与端口 北京华胜天成科技股份有限

23、公司 14 interval: 本 服 务 运 行 的 频 率 ; limitNum:每批次处理数据的最大量; rawtxtpath:保存待处理信息正文txt文件的路径; zkHost:分布式索引服务的ip和端口的集合, is.mutil:是否是多数据的情况;id.add:为保证id的唯一性,id值需增加的增量; 数据库配置文件(conf/dataresource.xml): com.mysql.jdbc.Driver jdbc:mysql:/:3306/pom?useUnicode=true&characterEncoding=UTF-8&autoRecon

24、nect=true&failOverReadOnly=false root wisedb wise_web_docinfo localhost 各标签含义如下所示: jdbc.driver:数据库驱动; jdbc.url:数据库连接; jdbc.username:数据库用户名; jdbc.password:数据库; jdbc.table:保存数据的表名; used:标志使用哪一个数据库连接信息。该标签的值是上面各个db标签中的一个的type值;该值是哪个db标签的type值,则使用那个数据库连接; 北京华胜天成科技股份有限公司 15 项目部署情况目前创建索引的服务使用了一

25、台服务器,其基本配置信息,以及安装部署等详细情况如下图表所示: 4.1.3检索接口服务该服务主要是为内各种查询服务提供接口,服务对环境的要求、配置等信息如下所示。运行环境要求 内存:建议8G以上核数:建议816核硬盘:50G以上操作系统:Windows Server 2003、2008宽带:千兆/万兆网卡安装方法1.拷贝部署包安装盘中的JDK1.6.0_19文件夹,存放在另一个文件夹下;2.3.4.拷贝索引服务索引检索服务indexSearch文件夹到第一步使用的目录下; 修改该服务的配置文件,如下.3步所示;启动服务。启动顺序为Search_Star

26、t.bat;配置说明系统配置文件(conf/Config.xml): 1 北京华胜天成科技股份有限公司 16 40091 :40091 1 2000 N:WisePom_ct_20140922rawsitedata/ 5:2181,6:2181,7:2181 true 0 8000 各标签含义如下所示:namenodeId:本服务唯一的id值,多个时id值必须唯一; ip:本服务中从节点所在服务器的ip; port:本服务用从节点本服务打算使用的端口,确保该端口未被占用; sl

27、ave:处理数据节的服务所在机器的ip与端口 interval:本服务运行的频率;limitNum:每批次处理数据的最大量; rawtxtpath:保存待处理信息正文txt文件的路径; zkHost:分布式索引服务的ip和端口的集合, is.mutil:是否是多数据的情况; id.add:为保证id的唯一性,id值需增加的增量;search:检索服务接口; 11 项目部署情况目前创建索引的服务使用了一台服务器,其基本配置信息,以及安装部署等详细情况如下图表所示:北京华胜天成科技股份有限公司 17 4.2云端数据采集与大数据接口服务4.2.1运行环境要求内存:建议8G以上核数:建议

28、4核以上硬盘:500G以上操作系统:Windows Server 2003、20084.2.2安装方法1.部署包安装盘中的JDK1.6.0_19文件夹,存放在另一个文件夹下;拷贝2.拷贝数据管理系统部署包盘安装盘中的ETL的接口服务文件夹下的两个文件夹到第一步的目录下;3.4.修改该服务的配置文件,如下步所示;启动服务。分别启动以下文: /ReiKing_ETL/ReiKing.Start.bat /ReiKing_ETL_OTA/ReiKing.Start.bat 4.2.3配置说明对新闻、论坛、博客信息的处理,服务所在目录为:ReiKing_ETL,其配置内容如下所示: jd

29、bc:mysql:/:3306/pom_ct?useUnicode=true&characterEncoding=UTF-8&autoReconnect=true&failOverReadOnly=false root 北京华胜天成科技股份有限公司 18 wisedb wise_web_docinfo 2000 jdbc:mysql:/:3306/etl?useUnicode=true&characterEncoding=UTF-8&autoReconnect=true&failOverReadOnly=false root wisedb ps_transfiles D:/ReiKing/ D:/WisePOM/WisePom_ct/rawsitedata/ UTF-8 5 各标签含义如下所示: jdbc.driver:配置数据库驱动; jdbc.url:数据库连接; jdbc.username:数据库用户名; jdbc.password:数据库; rawsitedata.patht:保存采集信息正

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论