下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、物联网)互联网信息采集系统用户手册军犬互联网信息采集系统用户手册 V5.0第壹章:系统介绍 31.1 软件简介 31.2 互联网信息采集和挖掘 31.3 互联网采集系统流程图 31.4 系统应用领域: 41.5 软件特点 41.6 系统配置要求 131.7 系统性能 13第二章:使用手册 142.1 综合设置 142.1.1 数据库管理 142.1.2 表单管理 142.1.3 频道管理 182.1.4 模板管理 192.2 信息采集 192.2.1 站点基本属性 192.2.2 提交访问数据 202.2.3 站点链接预览 212.2.4 采集过滤 222.2.5 分页模板 222.2.6 附
2、件采集设置 23字段提取设置 24字段采后处理 252.3 站点管理 252.3.1 采集站点管理 252.3.2 扫描采集源 252.3.3 采集日志 262.4 信息管理 26信息管理 262.4.2 附件管理 272.4.3 记录导入 272.4.4 信息导出 282.5 信息发布 28登录发布服务器 282.5.2 获取发布权限的信息 292.5.3 新建发布表单发布映射 292.5.4 发布表单映射管理 292.5.5 发布频道映射管理 30第壹章:系统介绍1.1 软件简介抽取、信息采集是指利用计算机软件技术, 针对定制的目标数据源, 实时进行信息采集、 挖掘、处理,从而为各种信息服
3、务系统提供数据输入的整个过程。军犬信息采集专家是壹款基于人工智能的自动学习技术,功能强大、简单实用的互 联网信息采集和监控软件。1.2 互联网信息采集和挖掘要求从互联网上对特定目标数据源或不特定目标数据源进行采集和监控,且对信息进行 结构化抽取保存为本地结构化数据库,然后按业务流程需求和其它模块结合,导入和应用且 服务于到电子行业平台。互联网数据采集和挖掘技术是指利用计算机软件技术,针对定制的目标数据源,实时进 行信息采集、抽取、挖掘、处理,从而为各种信息服务系统提供数据输入,且按业务所需, 进行数据发布、分析的整个过程。1.3 互联网采集系统流程图第壹步:确定采集任务。 第二步:每个采集任务
4、,我们有多个目标数据源可供采集。 第三步:针对不同的目标数据源,进行不同的采集配置,以确保能采集到数据。 第四步:调度采集任务,和目标站点同步更新,增量采集。 第五步:采集到数据结果,完成数据异构到同构的过程。 第六步:通过发布服务器,将数据发布到应用平台。1.4 系统应用领域:1、搜索引擎和垂直搜索 2、综合门户和行业门户3、电子政务和电子商务4、知识管理和知识共享5 、企业竞争情报系统6 、BI 商业智能系统7、信息咨询和信息增值8、信息安全和信息监控1.5 软件特点(1) 、过滤干净,智能化抽取正文,且图文关联图:采集的目标源图:采集后“干净”的正文结果(2) 、数据导出接口丰富,能够将
5、数据导出成各种主流关系型数据结构。(3) 、配置简单 对于新闻资讯采集,只需输入待采集目标网站的地址或某个主题页面地址,软件即会自 动学习网站的风格,且自动提取网站的资讯,无需配置模板,目标网站风格发生变化,软件 自动学习。对于数据采集软件提供了通俗易懂的站点配置向导,维护人员稍加培训即可配置出任何 的信息采集。对于复杂的采集过程,通过壹张采集卡脚本即可实现信息的自动采集和监控。 图:输入“网址” ,完成配置工作,完成配置工作图:支持关键字采集,直接输入关键字,壹步设置输入“关键字”(4) 、所采即所得,所采即可见图:所采即所得,所采即可见(5) 、增量采集和自动更新增加采集:对于初次采集目标
6、网站,软件支持完全采集;而对于已采集过的站点支持增量采集。支持自动更新:自动检测站点是否发生更新,且不会遗漏任何壹个重要的信息。(6) 、采集结果自动排重不是利用简单的规则判断 ,而是利用内容的相似性进行排重判断 ,准确性高 ,不会因为标题或内容的少许变化而产生漏判 ,即使把标题进行了改头换面 ,系统也会正确判定。(7) 、内置强大的信息监控能够通过壹个关键字广域监控互联网上任何壹个站点上的关联信息。也能够通过设置监控频道监控任何站点所采集到含有关键字的信息。对于数值字段能够设置监控误差监控数值出当下壹定范围内的信息。信息监控达到字段级。您能够对任何壹个采集目标网站设置监控属性,监控周期达到了
7、秒级。对于发生变化的信息能够于短时间内采集到本地。图:独有的监控功能,可能对采集后的结果进行进壹步监控和过滤强大的站点管理工具能够对所有采集对象进行集中管理和各种操作图:对所有采集对象进行集中管理和各种操作图:随心所欲自定义导航和分类图:综全的选项配置,提升采集的性能图:对采集后的结果能够马上进行修改和编辑(8) 、支持多种编码支持多种网站的信息的编码, GBK 、BIG5 、UNICODE 、UTF8 ,软件会自动转换成 GBK码进行统壹的处理。软件即会自动识别网站的组织结构,自动识别网站的编码。 表单管理,随心所欲自定义表单,方便采集不同的内容,如采集软件用单独的表单,采 集图片用图片表单
8、。(9) 、信息导入导出随心所欲 提供信息导入导出和其它软件可作无缝连接,如 CRMOA 软件提供有强大的信息记录导入导出功能,您能够对任何壹个频道、壹条记录进行导入 和导出。能够导成 Excel/Access 等,也能够直接导到指定的数据库。和信息发布服务器结合使用能够将信息发布到任何壹个地方。(10) 、支持阅读模板 任何壹种信息类型,软件均会自动创建壹个阅读模板方便了您快速阅读; 任何信息您能够对任何壹种信息表单定制壹款漂亮的阅读模板,也能够对任何壹个频道 设置不同的阅读模板。(11) 、支持多页面内容重组对于目标数据源的壹篇文章于目标网站上分页显示,系统能自动对其重组 .软件运行稳定、
9、采集速度快、占用系统资源少7*24 小历经多次改造的软件采集底层模块运行稳定、采集速度快,点用系统资源少。可多线程 且发运行,而不占有过多的系统资源。采集速度快到瞬间到位。软件完全能够实现 时不间断无人值守的信息采集。更多细节功能有待于您于使用中去体验。(12) 、其它特点列表:、支持多种语言 :支持简体中文、繁体中文、英文、日文、韩文等多国语言、支持多种站点类型:包括 html 和 rss、支持登录、验证后采集、软件支持需要登录和需要验证码的网站信息采集,采集过程完全仿人工。、支持附件采集 包括图片附件采集、多媒体附件采集、音视频附件采集、附件和正文自动映射和关联 、完全结构化抽取将网页的非
10、结构化数据抽取成特定的结构化信息数据。 网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,垂直搜 索是以结构化数据为最小单位。 然后将这些数据存储到数据库, 进行进壹步的加工处理, 如: 去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化 的方式和结构化的方式返回给用户。、数据保存到本地,您能够随时查阅信息。 采集到信息自动保存到本地数据库,您能够随时查阅信息。、多线层、多任务、支持海量数据采集10 、软件实用、易用、功能强大11 、可移植、可扩展、可定制1.6 系统配置要求需要 Windo
11、wsNT4/Windows2000Server 或更新的操作系统。需要 MicrosoftSQLServer7/2000 或其它 ODBC 接口 硬件平台: intelxeon1G 之上 CPU, 1000M 之上 RAM ,硬盘空间 40GM 之1.7 系统性能支持多线程采集。单机于数据采集于 G 级之上。数据和数据源同步更新小于 10 秒级。数据同步发布小于 10 秒级。第二章:使用手册2.1 综合设置数据库管理新建数据库通过“系统 (S) ”主菜单下的“新建数据库”功能菜单,您能够创建壹个全新的信息采集 和管理数据库。新建的数据库,默认会创建壹个新闻表单 ,该表单主要用于文章、新闻 等资
12、讯信息管理,该表单不允被删除。我们建议:您于新建数据库时希望能将数据库文件存 储于和操作系统不同的驱动盘下,这样数据库中的信息内容会更安全壹些。备份数据库 通过备份数据库的功能,您能够将当前正于使用的数据库压缩且备份到另壹个目录下。以备以后的使用。压缩数据库由于桌面版的软件版本使用了微软的 ACCESS 数据库, 该数据库于您删除记录时不会自 动释放已删除记录所占用的空间。所以需要您不定期地对当前正于使用的数据库进行压缩, 以减少数据库占用硬盘资源的空间。对于 SQLServer 版本的软件,则无需使用压缩数据库的功能。软件也将该功能屏蔽。表单管理表单的概念互联网信息采编发系统中的表单等同于数
13、据库中的表。通俗地说需要为每种信息类 型创建壹个存储空间。不同的是为了能够对数据库中的所有表单记录进行统壹的管理,需要 于各个表单中预置壹些字段,通常这些字段含以下几个部分: 显示控制信息字段:密码字段、文字颜色字段、文字背景颜色字段、显示图标字段 后续跟踪信息字段:信息来源地址字段频道信息字段:频道信息,监控频道信息创建表单 下面以创建壹个图书管理表单为例,逐步向您说明如何创建壹个属于自己的管理表单。 找到主菜单栏中的“工具” = 系统表单管理 菜单,于弹出的于表单管理器中点击“新 建表单”按钮。于“表单标题”编辑框中输入“图书表单” ,于“表单名称”编辑框中输入 “ tblBookShee
14、t ”。注意:如果“表单名称”或“表单标题”为空将不能成功地创建表单。 点击“保存”按钮,这时系统会提示您已成功地创建了壹个名称“图书表单”的表单, 且于图书表单下下挂三个字段“记录编号”、“频道名称” 、“源文地址” 。这个三个字段是软件中对壹个表单中任何壹条记录进行管理的必要的字段。您不可删除或更改名称或属性。记 录编号用于标识表单中任何壹条记录的唯壹的标识。频道名称用于标识该记录从属于哪个频 道;而源文地址则用于标识信息来源于何处。表单标题该字段用于通俗易懂地标示表单。 必须输入 ,我们建议您表单标题做到整个数据库是 唯壹的。表单名称 该字段用于于数据库中创建对应表单的名称,该字段的值不
15、能和数据库中其它的表单名 称重复 需要于数据库中唯壹 。字段值长度不能超过 20 个汉字( 40 个英文字母) ,命名规则 同 Windows 中的文件命名规则相同。 能够取和表单标题相同的名称,但建议采用tblXXXSheet 作为命名规范。阅读模板该字段用于标识该表单的信息内容阅读模板的路径,能够是文件路径名称如: e:Quickreaderreadmodeltblbooksheet.html , 也 能 够 是 网 络 上 的 某 个 路 径 名 如:http:/tblbooksheet.html。也能够是相对路径 ,如 :readmodeltblbooksheet.html(如果您 将
16、程序安 装于采集 软件QuickReader, 那么 该相对 路径相当于采集软件 QuickReaderreadmodeltblbooksheet.html)如果没有该表单对应的阅读模板, “阅读模板”字段能够不输入任何值。等最后创建完 该表单所有字段后利用软件提供的“创建模板”进行创建。添加字段以创建图书信息管理表单为例,假设管理图图需要以下字段:字段标题字段名称说明属性图书名称 fldBookName 用于保存图书的名称字符型,长度40 ,查重键,主题键作者 fldBookAuthor 图书作者字符型,长度 30购买日期 fldPurchaseDate 可用于控制或统计日期型图书价格 fl
17、dBookPrice 价格浮点型借阅人 fldUserName 当前借阅用户名称字符型,长度 40借阅日期 fldBrowDate 借阅日期日期型图书简介 fldBookMemo 有关该图书的说明备注型选中刚才新建的“图书表单”后,点击“新建字段”按钮,将于“图书表单”下增加壹 个结点,编辑框中预输入了“新字段” ,你能够于这里输入字段标题,也能够于列表中的“字 段标题”中输入。当下,于结点编辑中输入“图书名称”后,点击列表中的“字段名称”于 编辑框中输入“ fldBookName ”。选择“字段类型”为“字符” ,“长度”输入 40 ,“设为查 重键”选择“是” ,“允许为空”选择“否” 。
18、点击“保存”按钮。如果没有报错表明系统已 成功地图书表单上增加了“图书名称”字段。可按照上述图书管理的需求表格,完成于图书表单的创建工作。 下面将对表单各个属性进行详细地说明。字段标题 该字段用于通俗显式地标示字段的名称,于同壹个表单中字段名称不能重复。最大长度 不能超过 50 个字节。字段名称 该字段用于于表单中隐式地标示字段名称,于同壹个表单中字段名称不能重复。最大长 度不能超过 50 个字节, 命名规则同 Windows 中的文件命名。 建议采用 fldXXX 作为该值的 输入规范。字段类型目前字段类型有:字符型、日期型、整型、浮点型和备注型 5 种字段类型,能够根据实 际需要从这 5
19、种类型中选择。不同类型的字段于输入字段值时将有不同的控件和限制。能够 于以后对其进行修改。字段长度 字段长度只能“字符型”的字段有效,其它类型输入长度是无效的,对于字符型长度值 默认为 50 个字节。设为查重键该字段能够选择为“是”或“否” 。可根据实际需要设置壹些字段为查重键。如我们于 “图书表单”中设置“图书名称”为查重键,这样,以后于输入每壹本书的属性时,系统将 查找是否存于有相同图书名称的记录。主题字段该字段能够选择为“是”或“否” 。用于标识壹条信息中的最主要的信息的字段。如新 闻表单中的新闻标题。我们于“图书表单”中能够设置“图书名称”为主题字段。识别标签该字段将用于文档识别、网络
20、信息采集时对该字段值的自动识别。如以后需要自动从文 本中识别“图书名称”的值,则能够输入“图书名称;名称;图书; BOOKNAME; ”等作为 图书名称字段的识别标签,各个标签之间以“;”或“;”分隔。默认值该值将用于于识别、 录入或采集时没有得到该字段的值是将用默认值填入。如有字段 “性别”,于没有识别到“性别”字段的值时,将用默认值“女”或“男”作为“性别”的值。于列表中显示用于控制属性字段于概览表单内容时是否于列表中显示。列表宽度用于控制属性字段于概览表单时显示于列表中的长度。对齐格式用于控制属性字段于概览时于列表中的对齐格式,有三种选择:左对齐、居中对齐和右 对齐。可选择以前的值用于控
21、制于录入该表单的资讯时,该属性字段可否从以前录入的值中选择壹个。如有属性字段“民族” ,则于录入记录信息时遇到该属性字段既能够手工输入也能够从以前的值中 选取壹个。允许为空用于控制属性字段是否允许为空, 如果设置不空时, 于录入或采集该表单的资讯记录时, 发现该字段没有值的记录将被丢弃或要求录入该字段。如“图书表单”中要求“图书名称” 不为空,那么如果“图书名称”为空的话,该记录就变得没必要了。修改属性 于使用表单的过程中,仍能够表单的属性进行修改和编辑,但不能修改表单名称和字段 名称。修改后的属性能够立即于使用中生效。特别提示:于信息采集的过程中软件不允许您对表单进行修改。删除表单通过“删除
22、表单”按钮能够删除掉壹些不再使用的表单。注意:删除表单时,表单中的所有记录将被同时删除,另外建立于该表单基础上的所有 栏目也将被删除。删除字段通过“删除字段”按钮能够删除掉壹些不再使用的属性字段。 注意:删除字段时将同时删除表单中该字段的所有数据。上移下移字段您能够通过“上移”按钮将表单中的壹个字段上移或下移到到壹个指定的位置。以改变 字段于列表和阅读模板中显示顺序。创建阅读模板您能够随时使用“表单管理器”中的“创建模板”功能为某个表单创建壹个由系统生成 的阅读模板。阅读模板主要是便于您快速阅读信息。您也能够自己壹个漂亮的阅读模板。如 何创建阅读模板,请参照阅读模板壹节。远程表单管理远程表单管
23、理对于使用了互联网信息采编发系统的用户才会显示。对于普通的用户不会显示有该节点。主要用于管理远程发布服务器上的分配给指定用户允许使用的发布表 单。只有于发布服务器上分配给用户允许发布的表单后才会于该节点下显示有关联的表单信 息。用户能够通过表单管理器来浏览远程表单的信息。但不能修改表单属性。2.1.3 频道管理创建频道选中壹个结点作为新建频道的父目录, 点击右键, 于弹出的右键菜单上选择 “新建频道”, 于弹出的“频道属性”对话框中输入频道的名称,且选择壹个表单,默认为“新闻表单” , 我们选择前面表单管理中创建的“图书表单” 。如果存于有该频道的阅读模板,能够浏览输 入模板的路径。最后,仍能
24、够为该频道选择壹个适合的图标。如果图标列表中没有合适的图标,也能够找到壹个合适的图标文件,且将图标文件放置于安装目录的 Icon 目录下。重启软件,就能 够更新该栏目的图标为您刚才放置的图标。修改频道属性能够通过右键菜单或双击某个频道,均能够弹出频道属性对话框,能够于属性对话框中 修改频道的各个属性(不能修改栏目所对应的表单)后保存即可。删除频道通过右键菜单能够删除选中的频道,注意删除频道时将同时删除其子频道的所有信息。 如果该频道及其子频道下的记录比较多,删除可能需要壹段时间,请耐心等待。隐藏频道于频道较多的时候,能够通过隐藏频道功能隐藏壹些栏目于导航树上的显示。刷新频道通过刷新频道,能够重
25、新于导航树上显示那些被隐藏的子频道。清空频道 清空频道,将会将频道中的所有记录均清空,但不会影响到其子频道的信息。 设置频道密码 设置了频道密码后,能够控制频道的访问权限,再次访问需要输入密码才能够访问。设置标记 仍能够将频道标记为重要(或壹般)的状态,标记为重要状态的频道文字将以加粗的方 式显示,相反标记为壹般的频道则以非加粗的方式显示。仍能够设置或取消频道结点的文字 颜色。而也能够通过 取消所有文字颜色 来取消所有已设置文字显示颜色的频道的颜色。拖动频道 通过将选中的频道拖动到其它频道下,能够改变频道的父结点。下次生成导航树时将会 把被拖动的频道显示于新的父频道下,以改变信息分类结构。2.
26、1.4 模板管理阅读模板的作用 通过阅读模板能够将表单中的信息内以网页的形式快速展现,以便让您快速阅读。联网信息采编发系统能够支持对每个频道定义壹个不同的模板也能够是同壹表单共用壹个 阅读模板。如何设计模板 下面以壹个新闻阅读模板作为示例,说明如何设计模板。模板中必须包含您要为哪个信 息表单中要快速阅读的字段设置的阅读模板。如上述模板中要显示新闻作者,新闻来源,所 属频道,收录日期和新闻内容以及新闻关联附件等。设计好的模板中主要于各位单元格中放id= 字段名称 name= 字段名置“表单管理”中各个要显示的字段的字段名称。主要放置称 。这里要特别说明是放置字段名称,而非字段标题2.2 信息采集
27、站点基本属性 于增加或编辑站点属性时,需要设置站点的的第壹步就是设置采集站点的基本属性。站 点基本信息包括:站点地址 站点地址设定了从该站点哪个页面开始采集。能够壹些网站的首页,能够是网站中某个 主题的页面地址,也能够是某个论坛的地址。仍能够是某个RSS 站点的链接地址。站点名称 站点名称主要用于显示地标识该站点,以便于以后站点维护和管理。特别说明:当您于输入了站点的地址后,能够点击旁边的小球。该功能既能够帮您取得 站点的名称,也能够取得下面要说到的站点类型和站点编码。站点类型 您能够手工设置站点的类型,也能够由软件自动识别。目前有俩种类型的站点类型:普通 HTML 站点和聚类 RSS 站点。
28、目前大部的站点仍是普通的 HTML 站点,软件会自动识别 出该站点上所有的信息链接; 聚类 RSS 站点是近几年兴起的壹种信息聚合方式, 这里面可能 包含了多个不同网站相同或关联主题的信息链接。只要您输入壹个地址,软件自动识别站点 类型。站点编码 站点编码用于显示地告诉软件该站点的网页采用了哪种编码模式,如繁体网页壹般采用BIG5 编码;壹些网站的网页则采用 UTF8 编码。 对于不同的编码网页软件需要进行统壹的编 码转换处理后再进行提取。壹般软件会自动识别网站的编码模式。而对于不能识别出站点的 编码模式,则需要用户手工设定采集站点的编码模式。这样,能够最大地保证网站的信息采 全。需要使用代理
29、有些站点可能需要设置代理信息才能访问和采集,而且其它的站点且不需要代理。而如 果所有需采集的网站均需要通过代理,你只需设置 默认采集属性 中的代理信息后,以后增加每个站点均会自动采用该代理。不需使用代理的采集壹般比使用代理采集速度要快。该网站需要登录于采集壹些如论坛或其它需要您输入登录账号的站点时,需要设置登录用户名和密码。 登录时需要输入验证码有些网站于采集时除了需要登录外,仍要求登录时输入壹个图片或文字形式的验证码才 能采集。这里就需要您设置如何提取和识别验证码。 需要使用代理、网站需要登录详见登录目标网站 ;登录时需要输入验证码,详见验证 码识别允许自动周期检测该站的更新且采集对于壹些需
30、要长期采集其发布的最新信息,适当地设置每个站点的更新周期,能够加快 每次的更新速度。因为有些站点是 1 个星期更新壹次,而有些站点几分钟就更新壹次。通过 设置的周期猎手能够快速检测且更新达到更新周期的站点。2.2.2 提交访问数据为什么要提交数据 有些时候,我们为了准确地控制采集页面,或是为了登录等的要求,需要于访问网页时 提交壹些数据给目标网站。目标网站于解析了这些数据后就会按照数据中的要求返回相应的 页面。您只需把要提交的访问数据拷贝到该页面的顶端最大的编辑框中,软件就会自动解析这 些数据。您能够修改解析后的参数列表中的某些参数值。比如username=abcd&userpswd=134&
31、classid=23&pageno=2能够解释成这样的: 用户名 :abcd 密码 134 要访问类别 ID 为 23 的第二页上的信息。 只 要这些信息符合目标网站的要求,就会返回相应的页面。如何获得访问数据 我们知道了访问数据的重要性,我们就要知道如何才能获得访问数据。获得访问数据的 方法有很多,我们于此推荐壹种最可靠最有效的获取访问数据的方法。您能够于互联网上下载壹些捕包工具,然后先手工访问目标网站。然后于捕包工具中找 到需要提交的数据,且拷贝出来。2.2.3 站点链接预览站点链接预览和设置 进入该页面后,软件会解析采集目标页面上所有的链接信息,且以树状的形式显示。用 户选择任何壹点条记
32、录后,点击右键,能够弹出控制菜单。复制链接地址拷贝当前选中的链接信息中的链接地址。复制链接标题拷贝当前选中的链接信各的链接标题。浏览原文件于网页浏览器中打开原文查见。 打开该链接将会于软件的链接预览窗口选中的链接下展开该链接记录的子链接信息。 设为典型页面设置为您要采集的感兴趣的链接信息。您能够多设置几个,以作后面的字 段信息提取测试的测试页面。采集深度采集深度是指您要对该目标链接采集到第几层。设置提取特殊的链接地址于采集过程中经常会遇到壹些信息内容是于弹出式的窗口上显示的,其脚本类似于 :javascript:privateWin(200708766)的链接地址,而该链接地址的实际地址可能是
33、这样的:http:/testsmth.asp?id=200708766 那么这个时候您就要告诉软件说,您要提取出这类特殊的链接地址,且把这些链接地址 转换成真实的链接地址。那么链接地址特征:就输入 :privateWin(1)真实的链接地址请输入 :http:/testsmth.asp?id=1这样软件就会自动提取中所有链接中符合 privateWin() 的链接变量,且转换成真实的 链接地址。这种情况,壹般的用户能够跳过该节。2.2.4 采集过滤采集过滤控制设置 为了加快采集有效信息,直接过滤或不采集明显地无效信息,我们就需要于采集过滤控 制中设置壹些过滤控制条件。您能够从“链接地址” 、“
34、链接标题”和“信息正文”中“包含”或“不包含”某个关键 字的链接进行控制,控制动作有:不采集,采集不提取,采集且提取。如设置链接地址中包 含有 123 的不采集。而采集不提取的概念是,只采集到符合条件的链接地址的信息,且根 据采集深度分析出子链接,但不会提取该页面上的信息。而采集且提取,则不但会分析子链 接而且仍会提取该页面的信息。设置信息链接提取范围为了更精确地控制采集,比如我们只要采集图2 中的社会新闻中的链接信息。我们就要用设定信息链接信息范围。请于网页的源文件中找到链接的开始标识和结束标识。更详细的 设置,请参阅字段信息提取 。链接扩展名采集控制控制采集提取链接的扩展名 采不采集外网或
35、不同的专内容 根据需要设置需不需要采集外部的网站的信息。2.2.5 分页模板为了壹次性从目标网站上采集更多的信息,我们能够通过配置壹些目标网站上有规律的 网页链接,如分页信息链接。http:/test.asp?pageno=2http:/test.asp?pageno=200表示了从第 2 页到第 200 页。当然我们能够手工壹个壹个的添加到链接模板中, 也能够 壹次性由软件自动生成。自动生成的方式如下:http:/test.asp?pageno=2,200,1 ,表示从第 2 页到 200 页,每次增加壹页。2.2.6 附件采集设置附件识别方法 :使用扩展名提取设置您要提取的附件扩展名, 每
36、个扩展名以 “;”作分隔, 如:jpg;gif;zip; 等。使用特征符提取您要设置附件链接中必须包含有关键字的附件才要采集。各个关键字也 是以“ ;”分隔。不采集就不会识别和采集任何附件。附件保存方式设置适当的附件保存方式来保存站点中已识别的附件信息和文件。 目前有 3 种方式能够 选择:保存到数据库:该方式将自动下载附件且将附件以压缩或不压缩的方式存储到知识库中 的附件表单中。选中 保存前压缩附件 能够减少附件于数据库中的占用空间。保存到文件夹: 该方式将会把附件直接下载到指定的文件夹。 注意文件夹路径不能为空, 否则将采用第壹种方式。保存附件链接:该方式将不下载已识别出的附件,而只是保存
37、附件的链接地址。该方式 采集速度快。但缺点是壹旦目标站点的文件被删除或更改,链接地址方法将变得无效。信息 和就失去完整性。2.2.7 新闻自动识别软件具有自动学习新闻或资讯的目标网站,能够自动学习简体中文、繁体中文、英文等 多国语言的新闻资讯。如果您要识别新闻的作者,则需要作者识别标签。常见的标签有:记者;编辑 ;作者 ;通讯员等。每个标签以“ ;”作分隔。同样要识别来源和发布日期等也要输入相应的标签。只采集最新文章的链接地址 软件将只采集目标网站的最新信息的链接地址和链接标题,而不会去识别链接中的正文 信息。自动重组文章的所有页面 很多目标网站会将长的新闻文章分配到多个页面中显示。勾选该选项
38、后软件就会自动重 组这些类型的新闻信息。正文长度小于阈值不保存 用户能够设定阈值来限制新闻的长度,如果长度小于阈值就不保存。 文章中的附件数大于阈值不保存当新闻中的附件数量大于阈值就不保存不采集。2.2.8 字段提取设置通过本节的学习您将学会如何从壹个网页中提取出每个字段的信息。提取信息的方法有4 种:通过智能标签提取如我们想提取壹个电影信息的片名,能够用“片名;影片 ;”等识别标签来提取;这种方法简单适用于多数的网站。通过正则表达式提取 对于熟悉正则表达式的高级用户能够使用正则表达到来提取页面中的信息。 指定壹个特定的值您能够直接为某个表单字段指定链接地址、链接标题、采集日期、采集时间或者自
39、己指定壹个特定的值。通过前后标识提取 这种方法虽然简单,但却经常使用。比如我们要提取影片的名称,影片于页面中的信息 如下: 影片 :XXXXXXXX那么我们能够采用前标识符为 :影片 : 后标识符为 : 来提取,这样提取到的内 容为XXXXXXXX那么我们不勾选“保留字段值中的 HTML 代码”,将得到的字段值为:XXXXXXXX提取该字段的附件 对于壹些大文本的字段,我们能够勾选“提取该字段的附件”让采集软件自动识别和提 取字段内的附件。如此循环,直到表单中所有的字段信息提取方法均配置完成。2.2.9 字段采后处理用户能够对采集到的字段值作以下处理:字段内容替换能够查找某个特征值,替换成另壹
40、个字符串。字段中需要保留 HTML 标签能够设定字段中要不要保留 HTML 标签,及要保留哪些标签。字段值前插于字段值前面插入壹个指定的特征串字段值后追加于字段值后追加壹个指定的特征串特殊截取处理能够截取左边的几个字符;能够截取中间的字符,设定从哪里开始截取,截取几个;能 够取右边的几个字符。字段值的后处理是使得采集到的信息更符合您的要求。2.3 站点管理2.3.1 采集站点管理通过站点管理器能够管理所有采集站点列表。删除:能够从站点列表中删除某个站点。复制 :能够复制壹个相同规则的站点, 可是采集的入口地址和壹些重要的关联信息需要改 变。编辑:能够修改站点的采集规则。如果站点的保存栏目已被删
41、除,该站点将壹直处于禁 用状态。直到您设置了壹个有效的保存栏目,且设置启用后才会使该站点使能。向上:能够提高站点的采集优先级。向下:能够降低站点的采集优先级。禁用 / 启用:能够设置站点的采集使能或处于禁用状态。复位:如果站点已经采集了,但下壹个采集周期仍没到达。为了让该站点加入本次的采 集列表中,能够设置该站点处于复位状态来实现。清除日志:清除站点的采集日志。详细可参见下节的采集日志管理壹节。2.3.2 扫描采集源 选中某个频道后,点击右键能够弹出该频道下所有采集站点,如果选择扫描所有子频道 将列出该频道下所有子频道的采集站点。您能够于该对话框中对相应的采集站点进行操作。 操作功能同站点管理
42、。点击扫描将关闭对话,且开始根据设置对站点进行检测更新和采集。2.3.3 采集日志采集日志管理 软件于采集每个壹站点均将对应壹个采集日志和学习数据文件。您能够通过日志管理器 来实现清除所有采集日志,也能够于日志列表中通过双击打开某个日志链接来阅读原文。清除采集日志 清除日志功能将清除掉所有站点的采集日志。建议:如果没有特殊情况(如全部站点重新采集和学习)不要使用清除日志功能。因为 站点日志被清除后,于下壹次采集过程中需要重新学习,增加了采集时间。但不会影响学习后的采集时间。2.4 信息管理2.4.1 信息管理添加和编辑信息记录于添加或编辑信息记录时,视您当前正于使用的表单能够快速弹出录入或编辑
43、信息记录 的窗口。能够于导航树上选中某个栏目后,通过右键菜单中的新建文档(对于文档表单)或 新记录记录(其它表单)来增加记录。也能够通过工具栏上的“新建”按钮来弹出编辑界面。文档表单的信息编辑界面采用了仿 Word 的窗口, 能够于上面进行文字编辑或插入图片 等。保存时能够保存成纯文本方式也能够保存成多彩格式。建议:如果没有必要保存成多彩格式的文档就采用纯文本的方式,这是因为保存成多彩 格式的方法占用的空间比后者大。而对于非文档类型的表单于新建或编辑时会弹出各个记录录入窗口。需要注意的是:如 果表单中设定的字段为数字型的,只能输入数字,而日期型的字段则预先输入当日的日期。信息内容阅读于概览信息
44、记录时,您能够通过右键菜单或通过快捷键进行快速阅读。如果正于阅读的 信息记录所于栏目已设定有阅读模板,则软件将会先下载模板文件,然后将信息记录的各个 字段输入到模板中进行显示。如果没有设定阅读模板,则会弹出信息记录的编辑窗口。注意:如果遇到没有弹出信息记录的编辑窗口,而且于浏览页面中报找不到文件,这时 需要您检查壹下该栏目的模板文件的路径是否设置正确。删除信息记录软件于很多地方提供有删除功能, 能够很方便地删除掉无用的记录。 于浏览记录列表中, 能够通过右键菜单或快捷键删除掉列表上选中的记录。删除时会提示“您是否确实要删除选 中的记录”字样的警告。如果对于那些已设置了密码的信息记录于删除时会要
45、求用户输入记 录密码。信息记录分类 您能够于概览列表中通过将选中的记录拖动到另壹个相同表单的不同栏目下。如果要将 资讯记录拖动另壹个表单下的栏目中,改变分类操作将不会成功的,但不会改变记录原来的 分类。浏览原文 对于那些从网络上采集到的记录,能够通过右键菜单来浏览原文。如果信息记录设置了 密码,需要输入密码才能允许浏览。设置标识设置(取消)密码 用户能够对信息记录设置密码,已设置了密码的记录也可解除密码。密码虽然已采用了 加密的方式。可是信息的安全性更多的仍是需要用户自己保证正于使用计算机的安全。设置其它标记 互联网信息采编发系统为了突出某些信息记录的特殊性或重要性能够采用设置图 标、设置加粗
46、、设置文字颜色或设置背景颜色等方式来实现。点击“ Ctrl+B ”能够快速对选 中的记录进行加粗或取消加粗显示。2.4.2 附件管理 互联网信息采编发系统能够支持对任何表单任何记录插入附件,附件格式能够是图 片或文件。增加附件时能够选择放置附件到知识库或放置到文件夹中,对于入库的附件仍能 够选择采用压缩或不压缩的方法。选择压缩的方法能够减小占用知识库空间,而选择不压缩 的方法能够很方便地支持附件于其它应用程序中使用。插入的附件,于自动发布时将随着信息记录壹起发布。无需单独发布。2.4.3 记录导入互联网信息采集专家目前能够支持俩种格式的信息导入功能,即从 Excel 文件导入 和 Access 文件中导入。首先选择且打开壹个您要记录所于的 EXCEL 或 ACC
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 针织厂应急处置制度
- 电子商务平台客户服务策略及客户满意度提升
- 航空货运的物流效率改进措施探讨
- 内部人事流动管理制度
- 内部员工上洗手间制度
- 内部员工转岗管理制度
- 内部子公司借款制度
- 内部审计工作指导员制度
- 内部流程审核制度
- 内部离岗制度
- JBT 10364-2014 液压单向阀标准规范
- 中建履约过程风险发函时点提示及函件指引(2023年)
- 海洋生态学课件二
- GB/T 24475-2023电梯远程报警系统
- HCIA-Security 华为认证初级网络安全工程师实验手册
- 《美学原理》导论-课件
- SB/T 10130-2008绞肉机技术条件
- GM/T 0031-2014安全电子签章密码技术规范
- GB/T 492-1989钠基润滑脂
- 立法建议书6篇
- 2023年苏州工业职业技术学院单招综合素质考试笔试模拟试题及答案解析
评论
0/150
提交评论