




已阅读5页,还剩25页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
互联网信息采集系统军犬网络信息采集系统用户指南V5.0第一章:系统简介31.1软件简介31.2 internet信息收集和挖掘31.3互联网收集系统流程图31.4系统应用:41.5软件功能41.6系统配置要求131.7系统性能13第二章:用户指南142.1综合设置142.1.1管理数据库142.1.2管理表单142.1.3通道管理182.1.4管理模板192.2收集信息192.2.1站点默认属性192.2.2提交访问数据202.2.3预览站点链接212.2.4收集和过滤222.2.5寻呼模板222.2.6附件收集设置232.2.7自动识别新闻232.2.8字段提取设置242.2.9字段后处理252.3站点管理252.3.1管理收集站点252.3.2扫描收集源252.3.3收集日志262.4信息管理262.4.1信息管理262.4.2附件管理272.4.3导入记录272.4.4导出信息282.5消息发布28登录到2.5.1发布服务器282.5.2获取有关发布权限的信息292.5.3新发布表单发布映射292.5.4管理发布表单映射292.5.5发布通道映射管理30第一章:系统简介1.1软件简介信息收集是利用计算机软件技术对自定义目标数据源进行实时信息收集、提取、挖掘和处理,从而为各种信息服务系统提供数据输入的整个过程。军犬信息采集专家是一种基于人工智能的自动学习技术,它是一种强大、简单、实用的互联网信息收集和监控软件。1.2 internet信息收集和挖掘收集和监视internet上的特定目标数据源或非特定目标数据源,将信息的结构化提取存储为本地结构化数据库,根据业务流程要求与其他模块相结合,导入和应用到电子行业平台。internet数据收集和挖掘技术是指利用计算机软件技术对自定义目标数据源进行实时信息收集、提取、挖掘、处理,以提供各种信息服务系统的数据输入,并根据业务需要发布和分析数据的全过程。1.3互联网收集系统流程图第一步:确定收集操作。步骤2:每个收集作业都有多个目标数据源。第三步:对不同的目标数据源执行不同的收集配置,以验证是否收集了数据。步骤4:调度收集作业,更新目标站点和同步,增量收集。步骤5:收集数据结果并完成异构数据之间的流程。步骤6:发布服务器以将数据发布到应用程序平台。1.4系统应用程序领域:1、搜索引擎和垂直搜索2、集成门户和行业门户3、电子政府和电子商务4、知识管理和知识共享5、企业竞争情报系统6、BI业务智能系统7、信息咨询和信息增值8、信息安全和信息监控1.5软件功能(1),干净智能的提取正文和图形关联图:收集的目标源图:收集后的“干净”正文结果(2)丰富的数据导出界面,允许将数据导出到各种关键关系数据结构。(3),简单的配置对于新闻信息收集,输入目标网站的地址或标题页面地址,软件将自动学习网站的风格,自动提取网站上的信息,无需配置模板,目标网站的风格发生变化,软件将自动学习。维护人员只需进行一些培训,即可通过提供有关数据收集软件的直观站点配置向导来配置所有信息收集。对于复杂的收集流程,可以通过一个收集卡脚本自动收集和监控信息。图:输入网址以完成配置任务图:支持关键字收集,直接输入关键字,在一个步骤中设置“关键字”输入,完成配置任务(4)一获得,就可以看到收获。(图:得到的就是得到的,得到的就是看到的(5),增量收集和自动更新收集增量:软件助手支持对原始收集目标站点进行完全收集。支持收集的站点的增量收集。自动更新支持:自动检测站点是否发生了更新,并确保没有遗漏任何重要信息。(6),收集结果自动减肥不是利用简单的规则判断,而是利用内容的相似性进行重复判断,准确性高,不会因标题或内容的一些变化而发生泄漏,即使修改标题后,系统也能正确判断。(7),内置强大的信息监控功能用一个关键词可以广域监视网络上某个网站的相关信息。您还可以设置监视通道,以便所有站点监视包含关键字的信息。对于数字字段,可以设置监视错误监视数值在一定范围内显示的信息。信息监视已达到字段级别。可让您设定所有收集目标网站的监督特性(秒)。更改的信息可以在短时间内本地收集。图:独特的监视功能,用于进一步监视和过滤收集的结果强大的站点管理工具可对所有收集对象执行集中管理和各种操作图:所有收集对象的集中管理和各种操作图:根据需要自定义导航和分类图:配置完整选项以提高收集性能图:可以立即修改和编辑收集的结果(8),支持多种编码支持来自各种网站的信息的编码、GBK、BIG5、unicode、UTF8和软件自动转换为GBK代码,并进行统一处理。软件自动识别站点的组织结构,并自动识别站点的代码。管理表单、根据需要自定义表单,以便轻松收集各种内容,例如收集软件的单独表单、照片收集的图片表单等。(9),信息导入按需要导出提供信息导入导出器,以便与其他软件(如CRM OA)无缝连接软件提供了强大的信息记录导入导出功能,可以导入和导出所有通道、一条记录。可以导入(例如Excel/Access),或直接导航到指定的数据库。与信息发布服务器一起使用时,可以将信息发布到任何位置。(10),支持模板读取任何类型的信息,软件都会自动创建读取模板,以便快速读取。所有信息任何信息表格都可以自定义美丽的阅读模板,或在任何通道上设置不同的阅读模板。(11),支持多页内容重组如果目标数据源的文章在目标网站上分页显示,系统可以自动重新配置。软件运行可靠性高,收集速度快,系统资源占用少多次改造的软件收集基本模块稳定、收集速度快、系统资源少。可同时以多线程运行,而不占用大量系统资源。采集速度快到了原地。软件可以完全执行无人值守的信息收集,而不会造成7*24小时的中断。使用时体验更多详细功能。(12),其他特性列表:1、支持多种语言:支持多种语言,包括简体中文、繁体中文、英语、日语、韩语支持多种站点类型,包括2、html和RSS3、登录、验证后收集支持4、收集需要软件支持登录和授权码的网站信息,完全模仿收集过程。5、附件收集支持收集照片附件、收集多媒体附件、收集音频和视频附件、自动映射和关联附件和正文6、完全结构化提取将网页中的非结构化数据提取为特定的结构化信息数据。web搜索以web页面为最小单位,基于可视化的web块分析以web页面块为最小单位,垂直搜索以结构化数据为最小单位。然后,将该数据存储在数据库中,以进一步处理(例如,解码、分类等)、最终分词、索引和搜索方式满足用户的需要。在此过程中,数据从非结构化数据提取为结构化数据,经过深入加工,然后以非结构化和结构化的方式返回给用户。7、数据存储在本地,可以随时查看信息。收集的信息自动存储在本地数据库中,因此您可以随时查看信息。8、多行图层,多任务9、批量数据收集支持10、软件实用、易用、功能强大11、可移植、可扩展、可自定义1.6系统配置要求需要WindowsNT4/Windows 2000 Server或更新的操作系统。需要Microsoft SQL Server 7/2000或其他ODBC界面硬件平台:英特尔至强1G或更高版本的CPU,1000M或更高RAM,40GM或更高硬盘空间1.7系统性能l支持多线程收集。l数据收集级别g或更高的单机。l数据和数据源同步更新小于10秒。l数据同步发布小于10秒。第二章:用户指南2.1综合设置2.1.1管理数据库新建数据库通过“系统(s)”主菜单下的“新建数据库功能”菜单,您可以创建全新的信息收集和管理数据库。默认情况下,新数据库会创建用于管理信息(如文章和新闻)的“新闻表格”,不能删除此表格。创建新数据库时,建议将数据库文件存储在与操作系统不同的驱动器上。这样可以更安全地维护数据库中的信息内容。备份数据库备份数据库的功能允许您压缩当前使用的数据库,并将其备份到其他目录。供将来使用。压缩数据库desktop的软件版本使用Microsoft ACCESS数据库,因此删除记录时不会自动释放删除记录占用的空间。因此,必须定期压缩当前使用的数据库,以减少数据库占用硬盘资源的空间。SQL Server版本软件不需要使用压缩数据库的功能。软件也屏蔽了此功能。2.1.2管理表单塑形的概念互联网信息采编发系统中的表格与数据库中的表格相同。通常,必须为每种信息类型创建一个存储空间。不同之处在于,必须在每个表格中预设一些字段,以便统一管理数据库中的所有表格记录。通常,这些字段包含以下部分:显示控制信息字段:密码字段、字符颜色字段、字符背景颜色字段、图标字段显示后续追踪资讯栏位:资讯来源地址栏位通道信息字段:通道信息,监视器通道信息填写表格下面以创建图书馆管理表格为例,逐步说明如何创建自己的管理表格。在主菜单栏上,找到“工具”=“管理系统表单”菜单,然后单击弹出菜单上的“新建表单”按钮。在表单标题编辑框中输入“书籍表单”,然后在表单名称编辑框中输入“tblBookSheet”。注意:如果表单名称或表单标题为空,则无法成功生成表单。单击“存储”按钮后,将显示一条消息,说明您已成功填写了名为“书表单”的表单,书表单下有三个字段:“记录号”、“通道名”和“源文字地址”。这三个字段是软件管理一个表格中的记录之一所需的字段。不能删除或更改名称或属性。记录号用于标识表格中所有记录的唯一id。通道名称用于标识记录所属的通道。源地址用于标识信息来自哪里。表单标题此字段用于轻松标记表单。“必须输入”,建议表单标题在整个数据库中是唯一的。表单名称此字段用于在数据库中创建表格的名称,其值不能与数据库中的其他表格名称重复。“在数据库中必须唯一”。字段值的长度不能超过20个字符(40个字母字符),命名约定与Windows中的文件命名约定相同。可以使用与表单标题相同的名称,但建议使用tblXXXSheet作为命名规范。读取模板此字段用于标识表格的信息内容读取模板的路径,可以是文件路径名(如e : quick reader readt model tblbooksheet . html),也可以是网络的路径名(如33636363http:/www . xww . xbooksheet . html)也可以是相对路径,例如: ready model TBL booksheet . html(如果在: c programname files collection software quick reader中安装程序,则此相对路径为c program name如果没有该表格的读取模板,则可以不在“读取模板”字段中输入值。上次创建此表格中的所有字段后,使用软件提供的“创建模板”创建这些字段。添加字段例如,假定您要填写图书信息管理表格,则管理图表需要以下字段:字段标题字段名称说明属性书名fldBookName用于存储书的名称字符型、长度40、Jacky和主题密钥作者fldBookAuthor书作者字符类型,长度30购买日期您可以使用fldPurchaseDate控制或统计日期类型图书价格fldBookPrice价格浮点类型借款人fldUserName当前贷款用户名文字,长度40贷款日期fldBrowDate贷款日期类型图书简介fldBookMemo该书的说明注释类型如果选择了刚刚创建的“书籍表格”,然后单击“新字段”按钮,节点将添加到“书籍表格”下,编辑框中将预输入“新字段”,您可以输入字段标题,也可以在列表的“字段标题”下输入。现在,在“编辑节点”中输入书本名称,然后单击列表中的字段名,在编辑框中输入fldBookName。选择“文字”作为字段类型,选择“长度=40”,选择“设置Jackie=是,允许空值”作为“否”。单击“保存”按钮。如果没有任何错误,就是说系统成功地在图书表格中添加了图书名称字段。根据这个图书馆里的需求样式,可以完成图书表格的制作。表格中的每个属性将在下面详细介绍。字段标题此字段用于显式标记字段的名称,在同一表格中字段名不能重复。最大长度不能超过50字节。字段名称此字段用于在表单中隐式显示字段名,同一表单中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理吸痰操作话术规范
- 自主游戏培训体系构建
- 少儿马术培训体系构建
- 2025合同法中的撤销权
- 2025企业合并调整劳动合同
- 2025短期劳动合同试用期间范本
- 2025简易买卖合同范本
- 2025餐馆员工劳动合同模板
- 2025至2030中国互联网理财行业市场发展现状及发展模式与投资发展报告
- 2025-2030智慧零售产品入市调查研究报告
- (完整版)培养学生的责任担当
- 2022年徐州市泉山区工会系统招聘考试题库及答案解析
- 屋面彩钢瓦施工技术交底
- 小学三年级部编版下学期语文期末复习题〔有答案〕
- 剪映入门教程PPT
- 2021-2022学年浙江省杭州市西湖区杭州绿城育华教育集团一年级下学期期末语文试卷
- 超星学习通线上考试操作指南(教师篇)
- 招聘求职简历制作表格模板可编辑下载 精品简历模板 标准表格单页04
- 趣味心理测试题目与评分标准
- 野马归野读书交流会
- 庞中华行书字帖(共36页)
评论
0/150
提交评论