TRSDP用户手册.doc_第1页
TRSDP用户手册.doc_第2页
TRSDP用户手册.doc_第3页
TRSDP用户手册.doc_第4页
TRSDP用户手册.doc_第5页
已阅读5页,还剩132页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据加工工具数据加工工具 用用 户户 手手 册册 版本:2.0 北京拓尔思(TRS)信息技术有限公司 版版版权权权说说说明明明 本手册由北京拓尔思(TRS)信息技术有限公司(以下简称 TRS 公司)出版,版权属 TRS 公司所有。未经出版者正式书 面许可,不得以任何方式复制本文档的部分或全部内容。 北京拓尔思(TRS)信息技术有限公司 版权所有。保留所有权利。 是北京拓尔思(是北京拓尔思(TRSTRS)信息技术有限公司的注册商标)信息技术有限公司的注册商标 目目目 录录录 版权说明版权说明1 目目 录录1 关于本手册关于本手册1 读者对象1 手册组织1 用户反馈2 联系地址2 第第 1 1 章章 TRSDPTRSDP 总体概述总体概述.1 1.1 TRSDP2.0 的简介1 1.2 菜单与工具条3 1.2.1 菜单项介绍3 1.2.2 工具条介绍5 1.3 TRSDP 的窗口.9 1.3.1 分类树浏览窗口9 1.3.2 记录概览窗口10 1.3.3 记录编辑窗口13 1.3.4 编辑参考窗口14 1.4 什么是“当前记录” .15 1.5 操作流程示例15 第第 2 章章 TRSDP 的功能配置的功能配置.- 19 - 2.1 配置工作模式.- 20 - 2.1.1 工作模式的概念 .- 20 - 2.1.2 工作模式的界面 .- 21 - 2.2 配置加工模板.- 21 - 2.2.1 加工模板的概念 .- 21 - 2.2.2 加工模板的界面 .- 21 - 2.2.3 加工模板的编辑 .- 23 - 2.3 配置分类树.- 27 - 2.4 窗口的显示与隐藏.- 28 - 2.5 TRSDP 与$CODE- 29 - 2.5.1 TRS 数据库的字段类型.- 29 - 2.5.2 TRSDP 与$CODE 的密切关系.- 29 - 2.5.3 如何为数据库配置$CODE - 31 - 2.6 TRSDP 的加工控制 - 35 - 2.7 TRSDP 的工程管理 - 36 - 2.7.1 启动工程管理 .- 37 - 2.7.2 工程管理的功能 .- 38 - 第第 3 章章 脱机工作模式脱机工作模式 .- 39 - 3.1 工作原理- 39 - 3.2 配置目标数据库- 39 - 3.2.1 如何启动目标库配置功能 .- 39 - 3.2.2 目标库配置的界面 .- 41 - 3.3 记录的插入与编辑- 42 - 3.3.1 插入记录的方式一:加载目录 .- 43 - 3.3.2 插入记录的方式二:加载文件 - 44 - 3.3.3 插入记录的方式三:按类型加载文件 - 45 - 3.4 与 OCR 的集成- 52 - 3.4.1 TRSDP 对 OCR 的集成.- 53 - 3.4.2 启动 OCR 工具.- 53 - 3.4.3 导入 OCR 工程.- 54 - 第第 4 章章 联机工作模式联机工作模式 .- 56 - 4.1 工作原理.- 56 - 4.2 配置源数据库.- 56 - 4.3 配置目标数据库.- 61 - 4.4 数据的导出与编辑.- 61 - 4.5 TRS 检索表达式.- 62 - 4.5.1“检索表达式”的组成:- 62 - 4.5.2“逻辑运算表达式”的组成- 62 - 4.5.3 “字段逻辑表达式”的组成.- 63 - 4.5.4 “检索键值列表”的组成.- 63 - 4.5.5 “限定运算表达式”的组成.- 63 - 4.5.6 检索表达式中各种运算符的优先级 .- 64 - 第第 5 章章 TRSDP 的编辑功能的编辑功能.- 65 - 5.1 编辑窗口.- 65 - 5.1.1 如何编辑记录 .- 66 - 5.1.2 如何上传数据 .- 68 - 5.2 编辑参考窗口.- 71 - 5.2.1 使用编辑参考功能 .- 72 - 5.3 如何为记录分类.- 74 - 第第 6 章章 TRSDP 的记录概览功能的记录概览功能.- 76 - 6.1 记录的四个状态.- 76 - 6.2 工具介绍.- 76 - 6.3 状态的修改.- 78 - 6.4 记录的保存.- 78 - 6.5 记录的删除.- 78 - 6.6 记录的导出.- 79 - 6.7 记录的入库.- 79 - 第第 7 章章 分类树的使用与管理分类树的使用与管理 .- 83 - 7.1 分类树的概念.- 83 - 7.2 系统自带的分类树.- 83 - 7.3 分类树的管理.- 83 - 7.3.1 分类树编辑器的启动 .- 84 - 7.3.2 分类树编辑器的功能 .- 85 - 附录附录 1 TRSDP 常见问题解答常见问题解答- 88 - 附录附录 2 TRS 4 CAPI 错误信息错误信息- 89 - 1系统错误- 89 - 2网络错误- 95 - 3数据库操作错误- 97 - 4检索错误- 100 - 5分词错误- 101 - 6RPC 错误.- 102 - 7服务器端 API 错误.- 102 - 8客户端 API 错误.- 108 - 9命令语言错误- 109 - 10WIN32 错误.- 110 - 关关关于于于本本本手手手册册册 本手册将详细介绍 TRS 数据加工工具(TRS Data Processor, 简写为 TRSDP)的使用方法、注意事项。 TRSDP 主要用于将各种类型的数据加工成为 TRS 记录,并载入到 TRS 数据库中, 从而进一步实现海量数据的管理与检索。 本工具提供了丰富的数据加工手段,并与清华文通 OCR 工具集成,实现纸本 数据的电子化管理。 读者对象 本手册适用于熟悉 Windows 系列操作系统的使用,对 TRS 系列产品有一定了 解,并打算安装使用 TRSDP 产品的用户。 手册组织 本手册着重描述 TRSDP 工具的使用方法,分为如下几个部分: 第 1 章 TRSDP 总体概述; 第 2 章 TRSDP 的功能配置; 第 3 章 脱机工作模式; 第 4 章 联机工作模式; 第 5 章 TRSDP 的编辑功能; 第 6 章 TRSDP 的记录概览功能; 第 7 章 分类树的使用与管理。 本手册的附录包括 2 个部分,附录 1 记录的是 TRSDP 常见问题的解答;附录 2 详细描述了使用使用 TRSDP 工具可能会碰到的一些错误信息,用户可以随时查阅。 用户反馈 TRS 公司感谢您使用 TRS 产品。如果您发现本手册中有错误或者产品运行不 正确,或者您对本手册有任何意见和建议,请及时与 TRS 公司联系。您的意见将 是我们做版本修订时的重要依据。 联系地址 TRS 总部总部 营销服务中心:营销服务中心: 北京市朝阳区安翔北里 11 号院西北角北京创业大厦 B 座 1008、1009 室 邮编:100101 电话传真Email: 产品研发中心:产品研发中心: 北京 北四环中路 35 号健翔桥 北京信息工程学院图书馆三层 邮编:100101 电话传真Email: 上海分公司上海分公司 上海市陕西北路 66 号文锦大厦 1505A 邮编:200041 电话51168967/51168968 传真转 1024 Email: 广州分公司广州分公司 广州市先烈路 76 号 中侨大厦 16 层 H 室 邮编:510070 电话传真Email: 成都办事处成都办事处 成都市洗面桥街 29 号四川咨询产业大厦 1309 室 邮编:610041 电话传真Email: 长沙办事处长沙办事处 湖南省长沙市韶山北路 81 号君临天厦 605 室 邮编:410011 电话Email: Website: 第第第 1 1 1 章章章 T T TR R RS S SD D DP P P 总总总体体体概概概述述述 本章将详细介绍 TRSDP 界面的各个菜单、工具项,以及各个编辑窗口的功能 和操作方法,并对操作流程作简要介绍,使得用户对该产品有个初步、整体的认识。 1.1 TRSDP2.0 的简介 TRSDP(TRS Data Processor,TRS 数据加工工具)是北京拓尔思(TRS)信息技 术有限公司于 2004 年 5 月推出的专门用于数据加工的产品。 TRSDP 面向所有 TRS 产品的用户,主要功能是:(1)帮助用户把本地各种 类型的文档资料加载到 TRS 数据库中,从而为实现后续的检索、发布做好基础。 (2)对 TRS 数据库中的数据进行联机加工。 TRSDP 结合了 TRS 公司其他产品的优秀特点,并研究了用户的实际需求,提 供了强大的文档处理功能,提供了众多人性化、便捷的操作方法,以提高各种资源 的加工速度,适应现代快节奏的工作模式。 TRSDP 2.0 版本在 1.0 的基础上作了一些完善和增强。 TRSDP1.0具备如下的功能与特点: 强大的加工处理能力 TRSDP 可以把 WORD/EXCEL/POWERPOINT/RTF/PDF/HTML/XML/TXT 等格式文档的 常见版本的文本内容抽取并转换为 TRS 记录。转换时的速度和精确度较高,并且不 需要本地机器上安装有 Microsoft Office、Adobe Acrobat 等软件。 完善的分类功能 用户对内容分类的需求已经越来越迫切。在 TRSDP 中提供了对记录进行分类的 功能,并提供了完整的分类树编辑、保存功能。请参考分类树的使用与管理一 章。 方便的标引手段 TRSDP 提供了拖动分类、默认值、可选值、编辑参考等方便的手段来加快记录 标引速度。 统一的存储方式 XML TRSDP 所有的后台数据全部使用 XML 方式来存储:包括选项的配置、分类树、 加工模板、记录数据等等,都用 XML 来增强可扩展性。 灵活的字段配置 TRSDP 引入了模板的概念,提供了方便的加工模板编辑手段,用户可以快速的 为待加工数据定制字段信息。 TRSDP2.0 相对于 TRSDP1.0 做了如下一些功能的增强功能的增强: 1.可以同时选择多种类型的文件,由 TRSDP 工具内部区分文件类型并做出相应的处 理; 2.可以按照目录加载各种类型的文件; 3.集成了 TRS CKM 功能,可以自动根据文本内容提取主题词; 4.增强了模板的功能,添加了“分类号”、 “分类名”、 “主题词”、 “FTP”,并可以设定概览 字段、摘要字段; 5.增加了数据 FTP 的功能,可以把任何本地文件上传到服务器并生成对应的 TRS 记 录; 6.调整了窗口的显示与隐藏的功能,更加方便用户的操作; 7.添加加工时的控制功能(PDF 按页抽取、XML 的处理方式等) ; 8.加入了对 TRSDP 工程的打开、保存和管理,并且每条记录后台都有独立的 TRS 文件进行管理; 9.修改了记录概览窗口的显示模式,通过加工模板控制概览信息、提示信息; 10.参考编辑窗口实现了内容的多行提取; 11.模板编辑的时候,字段的自动标引选项可以与字段类型智能的绑定,从而减少用 户的手动操作; 12.其他一些人性化的功能。 TRSDP 运行时的界面整体效果如下图: 图 11 TRSDP 的整体运行效果 1.2 菜单与工具条 TRSDP 提供了诸多菜单、工具项来辅助用户完成一系列重要的工作,下面逐 一做细致的介绍。 1.2.1 菜单项介绍 图 1-2 菜单项 最为重要的两个菜单是配置配置、加工加工。 配置配置菜单效果如下图所示: 图 1-3 配置配置菜单项 配置配置菜单提供了如下功能: 表 1-1 配置配置菜单项 项目名称项目名称项目功能项目功能 加工模板启动加工模板配置选项,请参考第 2 章TRSDP 的功能配置 加工控制控制数据加工时候的一些处理参数,请参考TRSDP 的加工控制 工程管理用来管理 TRSDP 的工程文件,请参考TRSDP 的工程管理 字段可选值打开字段可选值窗口 分类树编辑 器 启动分类树的编辑器,使用方法请参考第 7 章分类树的使用与管 理 脱机模式请参考第 3 章脱机工作模式 联机模式请参考第 4 章联机工作模式 加工加工菜单效果请参考下图所示: 图 1-4 加工加工菜单项 1.加载目录加载目录:指定一个目录,将该目录、及其子目录下的指定类型的文 件全部加载到 TRSDP 的当前工程中,TRSDP 将在内部进行文件类型 的区分,并对可以抽取文本的文件类型抽取出文本,生成对应的 TRS 记录。详细使用方法请参考“插入记录的方式一:加载目录” 一节。 2.加载文件加载文件:在弹出的对话框中,选择要处理的文件,TRSDP 将在内部 进行文件类型的区分,并对可以抽取文本的文件类型抽取出文本,生 成对应的 TRS 记录。详细使用方法请参考“插入记录的方式二:加载 文件”一节。 3.按类型加载文件按类型加载文件:点击弹出菜单中的文件类型,将根据指定的数据类 型选择文件并处理。详细使用方法请参考“插入记录的方式三:按类 型加载文件” 。 4.启动文通启动文通 OCR 工具工具: 如果您机器上安装了清华文通 OCR 工具,通过 点击这个按钮可以直接启动之。详细使用方法请参考“3.4 与 OCR 的 集成”一节。 5.导入文通导入文通 OCR 工程工程:使用这个功能可以把 OCR 的工程文件(*.prj)直接 导入到 TRSDP 工具中,生成与工程中的图片对应的 TRS 记录。详细 使用方法请参考“3.4 与 OCR 的集成”一节。 6.TRS/XML 文件入库文件入库:把通过 TRSDP 保存得到的 TRS 文件或者 XML 文件执行入库操作。 1.2.2 工具条介绍 图 1-5 工具条 上面的工具条,各个子项目依次为: 表 1-2 工具条的项目 功能图标说明 新建文档新建一个空文档,可以向该文档中任意添加记录并编辑。 打开文档打开一个已经存在的文档,可以是任何类型的文档。 保存文档把当前文档保存为 TRS 格式或者 XML 格式。 工程管理管理 TRSDP 的所有工程文件。 剪切剪切当前选中的内容。 复制复制当前选中的内容。 粘贴将当前剪贴板中的数据放到当前光标的位置。 打印将当前文档内容输出到打印机。 通用配置配置工作模式、加工模板、分类树、数据库等信息。 源数据库联机模式下,指定下载记录的来源数据库,从这里读取记录 进行编辑。 目标数据库联机模式下,将编辑结束的记录更新到指定的数据库。 目标数据库脱机模式下,将编辑结束的记录写入到指定的数据库。 TRS/XML 文件入库 选择 TRS 文件,或者 TRSDP 生成的 XML 文件,执行入库工 作。 加工控制控制数据加工时候的配置项目。 显示/隐藏 分类树窗口 对分类树浏览窗口进行显示或者隐藏。 显示/隐藏 概览窗口 对记录概览窗口进行显示或者隐藏。 显示/隐藏 编辑窗口 对记录编辑窗口进行显示或者隐藏。 显示/隐藏 参考窗口 对记录的编辑参考窗口进行显示或者隐藏。 加载目录把指定目录、子目录下所有符合要求的文件加载处理。 加载文件把选择的各种类型文件加载到 TRSDP 进行处理。 按类型加载插入记录,将各种类型的文档执行文本抽取生成 TRS 记录供 编辑。 文通 OCR加载问题 OCR 的工程文件。 字段可选值点击本图标选择模板文件,点击下拉按钮列出模板中设定的 字段可选值。 联机帮助启动 TRSDP 的联机帮助文件。 版本信息列出本产品的当前版本信息。 其中,如下两项含有下拉菜单: 插入记录:插入记录: 图 1-6 插入记录 点击图 1-6 菜单中的任意一项,选择符合该选项后缀类型的单个或者多个文件, 系统将自动把这些文件的文本抽取出来并生成 TRS 记录。 详细使用方法,请参考“记录的插入与编辑”部分。 字段可选值字段可选值的使用:的使用: 图 1-7 字段可选值的使用方法 用户在配置加工模板时,可以为字段设置一些可选值,在记录编辑时,则可以 调用可选值实现快速编辑。本工具项就是用来查看可选值、刷新可选值并将可选值 设置为字段值的。 当用户打开“通用配置”对话框并点击【确认确认】按钮后,系统将自动把选择的 模板的字段可选值读取到这里来。如上图的提示信息所示,我们可以通过点击上图 下方的【选择来源选择来源】图标来指定不同的模板,以便从这个模板中获得字段可选值, 操作效果如下图所示: 图 1-8 打开其他模板 当用户试图打开已有的其他模板加载字段可选值时,系统会自动选取本系统安 装目录下的 Templets 文件夹,方便用户的操作。 下面是按住鼠标拖动窗口后的效果: 图 1-9 字段可选值的使用 在上图中,通过双击字段可选值列表中的节点,如上图中双击“责任编辑” , 系统将自动把“其他责任者责任方式”字段赋值为“责任编辑” 。同样道理,每次 双击鼠标都会自动寻找该名称的字段并完成赋值,当记录中没有该字段时,就不会 进一步赋值。 1.3 TRSDP 的窗口 1.3.1 分类树浏览窗口 分类树浏览器的主要功能是帮助选择分类节点,实现记录的快速分类。 点击这里,查看分类树的使用和管理方法。 点击这里,查看如何在系统中选择浏览分类树。 点击这里,查看显示或隐藏分类树浏览窗口的方法。 下面是分类树浏览窗口的效果: 图 1-10 分类树浏览器效果 分类树浏览窗口一次可以打开多个分类树进行浏览。该窗口的工具条提供了两 个辅助功能: 1. 导入导入 可以选择新的分类树导入浏览。 2. 管理管理 可以将当前显示出来的几个分类树同时进行维护管理操作。具体使用方法,请 参考分类树的使用与管理一章。 1.3.2 记录概览窗口 点击这里,查看记录概览窗口的详细说明。 点击这里,查看显示或者隐藏记录概览窗口的方法。 导入浏览新的分类法 管理、维护分类法 分类节点的代码 分类节点的名称 记录概览窗口中,显示的是当前所有记录各个字段的内容概要。 下面显示的是记录概览窗口的效果图: 图 1-11 记录概览窗口效果 记录概览窗口中显示的内容包括四个要点: 记录当前的状态记录当前的状态,通过、四种图标表示当前记录的不同状态, 详细情况请参考“记录的四个状态”一节; 记录索引号记录索引号,如图 1-11 所示的1、2,就是表示这是本工程的第多少条记录; 概览信息概览信息,如图 1-11 所示的“1 建立完善中国国家”中去掉“1”之后的 内容就是概览信息,这些信息是根据模板中设定的概览字段取出来的; 提示信息提示信息,如图 1-11 所示的下方的黄色提示框,这些信息也是根据模板中设 定的提示字段取出来的。 记录概览窗口的工具条中,提供了五个辅助功能: 表 1-3 记录概览窗口的功能 工具名称工具名称图标图标功能介绍功能介绍 导出记录把选择的记录导出为 TRS 或者 XML 文件。 删除记录删除当前列表中选择的 TRS 记录。 保存修改对记录编辑器中当前编辑的记录进行保存。 修改状态把选择的记录的状态修改为“已编完” 。 记录入库把选择的记录装入到 TRS 数据库。 使用帮助查看本概览窗口工具的使用方法。 要了解概览窗口的详细内容,请参考TRSDP 的记录概览功能一章。 1.3.3 记录编辑窗口 图 1-12 记录编辑窗口 本图的上半部分是 TRSDP 的记录编辑器,所有对记录字段的编辑都在这里实 现。 1.3.4 编辑参考窗口 图 1-13 编辑参考窗口 本图的下半部分是 TRSDP 的记录编辑参考器,利用右键菜单中提供的功能可 以实现快速编辑。 1.4 什么是“当前记录” “当前记录”是指当前激活的记录。 当 TRSDP 的一个视图中有多条 TRS 记录时,用户可以通过在记录概览窗口中 双击某条记录,这条记录将自动被设置为“当前记录”,“当前记录”对应的 TRS 文件将在记录编辑窗口中显示出来,对前面一条记录所做的修改将自动被保存该记 录对应的文件。用户还可以在记录编辑窗口中的任意位置双击鼠标,则在记录概览 窗口中将自动把当前记录设置为选择状态。 当用户插入一条新记录时,该条记录将自动被设置为“当前记录” 。 当用户一次插入多条记录时,则最后插入的记录将自动被设置为“当前记录” 。 在编辑参考窗口中显示的内容,总是从“当前记录”中取得的。 1.5 操作流程示例 为了便于新用户对 TRSDP 的使用方法有个整体的印象,我们特提供使用本工 具加工一个 WORD 文件的例子,来简要讲解操作流程,对于其中详细的功能项, 请参考本手册中对应的章节。 启动 TRSDP 运行已经安装好的 TRSDP 工具。 配置加工模板、工作模式以及分类树 在运行 TRSDP 后弹出的对话框中配置我们需要的加工模板、分类树等信息。 选择脱机工作模式脱机工作模式。 图 1-14 配置页面 从 WORD 文件生成 TRS 记录 在工具栏上选择插入记录的图标,并选择来自来自 WORD 文件文件。 图 1-15 插入 WORD 文件 选择 WORD 文件 在弹出的“选择源文件”对话框中选择一个 WORD 文件并确定,系统将把这 个文件的内容抽取出来并生成一条 TRS 记录。 编辑 TRS 记录 编辑这条 TRS 记录,把各个字段调整为我们想要的内容。 图 1-16 编辑记录 为 TRS 记录分类 如何为 TRS 记录进行分类,请参考 5.3 一节。下图展示的是分类后的效果: 图 1-17 为记录分类 记录入库 把编辑结束的记录入库。通过点击 TRS 记录概览窗口上的图标来启动数据入 库过程,详细的入库过程,请参考 6.6 节。 图 1-18 执行记录入库 结束编辑与入库,退出 TRSDP 系统。 分类号与分类名信息 第第第 2 2 2 章章章 T T TR R RS S SD D DP P P 的的的功功功能能能配配配置置置 TRSDP 启动时,首先弹出的就是配置对话框。在这个对话框中,我们可以配 置数据加工时需要的模板、工作模式、分类树、目标数据库等。其中,工作模板部 分又提供了完备而方便的手段来编辑模板。 下图是进行功能配置的页面图示: 图 2-1 模板配置功能 除了在 TRSDP 启动时会弹出图 2-1 所示的配置对话框,还有两种途径可以打 开这个对话框: 1 使用工具条上的功能使用工具条上的功能 当前可用的模板模板编辑工具当前模板名称使用当前模板操作数据库 当前可用的分类法设定工作模式 点击鼠标可以直接编辑 设定 TRS 目标数据库 图 2-2 通过工具条启动模板配置页面 2 使用菜单项使用菜单项 图 2-3 通过菜单项启动模板配置页面 2.1 配置工作模式 2.1.1 工作模式的概念 处理数据时,我们有多种方式可以选择: 1. 把本地的各种文档数据生成 TRS 记录,然后写入到 TRS 数据库中; 2. 把已经写入到数据库中的记录导出来,进行二次编辑后再更新回原库。 对于第一种方式,我们称之为“脱机模式脱机模式” ,对于第二种方式,我们称之为 “联机模式联机模式” 。 每种模式都是不同的操作流程,在启动 TRSDP 后,用户需要先选择好工作模 式,以便系统对该模式的流程进行初始化。当然,在某种工作模式下,用户可以随 时调整并进入另外的模式。配置工作模式的方法,请参考下图的红色区域。 2.1.2 工作模式的界面 图 2-4 设置工作模式 如果用户在某种工作模式下想转入另外一种工作模式,也需要到这里来进行调 整。 2.2 配置加工模板 2.2.1 加工模板的概念 加工模板是为数据加工、数据入库,以及创建数据库服务的。在加工模板中可 以设定加工数据时生成的 TRS 记录的字段,为了方便后续编辑工作,还可以在模 板中为各个字段设定默认值和可选值。 2.2.2 加工模板的界面 下图中,红色圈出的区域是用来实现加工模板配置的。 图 2-5 配置加工模板 从上图中可以看出来,加工模板分为三个部分:当前可用模板列表、模板编辑、 数据库操作。 当前可用模板列表当前可用模板列表: 上图红色区域左侧部分列出了当前可以使用的加工模板。TRSDP 在启动时, 会自动搜索其运行目录下的 Templets 文件夹,将该文件夹下所有的 XML 文件加载 进来。 对模板列表提供了四个可用的功能: 1.删除模板删除模板:点击图标,可以把当前模板列表中高亮显示的模板文件 彻底删除; 2.加载模板加载模板:点击图标,把存放在其他目录中的模板文件加载到列表 中; 3.新建模板新建模板:点击图标,可以新建一个模板文件; 4.保存模板保存模板:点击图标,把当前编辑的模板保存到模板文件,保存时, 建议用户保存到系统自动提示的目录(TRSDP 运行目录下的 Templets 文件夹) ,这样可以让 TRSDP 系统启动时自动加载; 上图的界面中,用户可以通过双击左侧“可选模板可选模板”列表中任意模板的名称打 开它,打开后模板的字段配置信息将被显示在列表中,同时当前模板的名称也被显 示出来。 模板编辑模板编辑: 请参考“加工模板的编辑”一节。 数据库操作数据库操作: 根据 TRS Server 数据库的要求,在入库时必须保证 TRS 文件的所有字段被 TRS Server 中目标数据库的所有字段完全包含(即:要入库的 TRS 文件的所有字 段,在目标数据库中必须要有完全一样的字段,当然,数据库中的字段可以比 TRS 文件的字段数多) 。 为了使得用户对新模板下编辑的 TRS 文件可以方便的入库,我们在这里提供 了一个在 TRS Server 上直接创建数据库的功能项,创建的数据库在字段名称、字 段属性上与模板中的设定是一致的。 创建数据库时,对所有的“日期型” 、 “数值型” 、 “字符串型” 、 “二进制型”的 字段,都默认设置为允许多值,如果用户需要修改这些属性,可以在 TRS Admin 工具中实现。 表 2-1 数据库操作的功能项 功能功能图标图标说明说明 建立数据库使用当前加工模板的字段列表和字段 属性直接创建数据库。 2.2.3 加工模板的编辑 TRSDP 提供了完整的手段来辅助用户编辑加工模板。 图 2-6 加工模板的编辑 上图中,左上角的 加工模板 位置显示的是当前活动模板的名称。 加工模板编辑框中各个子项的介绍: 表 2-2 加工模板的编辑功能项 项目名称项目名称功功 能能 介介 绍绍 字段名称用来输入或者修改字段的名称。 自动标引建立字段与自动提取的文档属性之间的映射。 类型指定字段的类型。类型的取值与 TRS Server 提供的数据类型一 致。 默认值指定字段默认的取值。如该字段没有自动标引或者自动标引提 取的内容为空,则该字段值取其默认值。 可选值指定字段多个可用值,便于后续的编辑,查看使用方法。 属性指定该字段的值将被作为记录概览窗口中记录的概览信息或者 提示信息。 备注用来说明本字段的一些附属信息。 其中, “自动标引” 、 “类型”和“属性”提供了下拉菜单供选择。 模板编辑时的“自动标引”功能 1. “自动标引自动标引”的概念 数据加工时,我们事先要在加工模板中为 TRS 记录定制所需的字段,同时, 为了尽可能的让系统自动从源数据中提取某些字段内容,我们需要在加工模板中为 字段指定“自动标引”的类型。 “自动标引”下拉菜单中的选项,就是 TRSDP 能够 自动从源数据中提取出来的字段值。由于是 TRSDP 内部处理的功能, “自动标引” 下拉菜单是不允许用户在外部进行编辑修改的。 选中一个 WORD、EXCEL、PPT 或者 PDF 文件,使用右键菜单查看其属性, 我们会看到诸如“标题 主题 作者 关键词 日期 备注”等信息,加工数据时, TRSDP 系统可以自动的提取出这些信息,为了让 TRSDP 系统把这些提取出的信息 写入到 TRS 记录对应的字段上,我们就需要用“自动标引”的方式,在自动提取 的信息与字段之间做映射。 2. “自动标引自动标引”的选项 “自动标引”下拉列表中有如下选项: 图 2-7 “自动标引”的可选项 下面来逐项介绍“自动标引自动标引”的可选项。 首先我们要记住上面提到的信息:“自动标引自动标引”选项中的“标题标题 主题主题 作者作者 关键词关键词 日期日期 备注备注”等项目,是从 WORD、EXCEL、PPT 或者 PDF 文件中自动获 得的,如果文件类型为 PPT、EXCEL 或者 PDF,则除了上述 6 个属性外,还可以 提取“页码页码 总页数总页数”两个属性。 标题标题是从源文件的属性中提取出来的标题内容; 正文正文是把源文件的文本内容抽取出来,作为该字段的值; 源文源文是把源文件的本地路径完整记录下来,从而在数据入库时把该文件作 为二进制数据流加载到 TRS 数据库中; FTP是把本地文件上传到 FTP 服务器,并把上传后的相对路径记录到这 个字段中,将来在数据发布时可以组合成一个有效的下载链接。 分类号分类号是在使用记录分类时,把当前分类节点的号码记录在本字段(分类的 具体方法,请参考 5.3 一节) ; 分类名分类名是在使用记录分类时,把当前分类节点的名称记录在本字段;(分类 的具体方法,请参考 5.3 一节) ; 主题词主题词是使用 TRS CKM 自动从当前源文件的正文内容中,自动提取出来的 主题词列表,默认情况下有 8 个主题词。 主题主题是从源文件的属性中提取出来的主题信息; 关键词关键词是从源文件的属性中提取出来的关键词; 作者作者是从源文件的属性中提取出来的作者信息; 备注备注是从源文件的属性中提取出来的备注信息; 日期日期是从源文件的属性中提取出来的日期信息; 页码页码对于 EXCEL、PPT、PDF 文件,可以按页进行文本抽取,这里记录 下来当前处理的页码索引号; 总页数总页数对于 EXCEL、PPT、PDF 文件,可以得到文件的总页数。 模板编辑时的“类型”功能 字段类型主要用在使用当前模板创建 TRS 数据库的时候,如果数据库已经存 在,则这个设置在数据加工的时候并没有用处。 对于“类型” ,有如下选项: 图 2-8 字段“类型”的可选项 TRS 数据库有六种不同类型的字段,它们是: 1 DATE日期型字段 2 NUMBER数值型字段 3 CHAR字符串型字段 4 PHRASE短语型字段 5 DOCUMENT全文型字段 6 BIT二进制型字段 上图中列出的六种字段类型的可选项,就是与 TRS Server 中的 DATE、NUMBER、CHAR、PHARSE、DOCUMENT、BIT 一一对应。在使用当前 模板创建数据库时,字段类型是必需的。 模板编辑时的“属性”功能 在“记录概览窗口”一节中我们了解到,记录概览窗口显示的内容包括记录概 览信息和记录提示信息,这些信息的获得,首先是要在模板中把相应的字段设置为 “概览”属性或者“提示”属性。 图 2-9 字段“属性”的可选项 模板的编辑工具 首先,用户将鼠标放置到模板编辑区域的任何单元格中,都会激活对该单元格 的编辑,目前单元格有两种类型:文本编辑框,下拉菜单框。 其次,提供了如下工具实现对模板字段的编辑: 表 2-3 模板编辑工具 功能功能图标图标说明说明 新建字段插入一个新字段。 删除字段删除当前激活的字段。 向上移动将当前激活的字段向上移动。 向下移动将当前激活的字段向下移动。 与数据库同步从指定的数据库中导出库结构作为模 板字段。 与 TRS 文件同步从指定的 TRS 文件中导出字段作为模 板字段。 对于编辑好的模板,用户可以点击模板列表上方的“ 保存保存”按钮进行保存; 如果修改了当前打开的模板、或者从数据库中导出新的库结构作为模板、或者从指 定的 TRS 文件中导出了字段列表,在切换模板或者点击加工模板界面上的【确定确定】 按钮时,系统都将自动提示用户进行保存,用户可以根据实际需要来决定是否存储 修改后的模板。 2.3 配置分类树 分类树的概念、使用和管理,请参考“分类树的使用与管理”一章。如何使用 分类树为记录分类也请参考 5.3 节的专门介绍。 在 TRSDP 启动后弹出的配置对话框的如下位置进行分类树的配置: 图 2-10 配置分类树 如上图配置分类树的区域所示,TRSDP 系统启动时,会自动加载与它同路径 下的“Taxonomies”文件夹,将找到的所有 XML 文件,都作为可供选择使用的分 类树列出来,用户在列表中选择本次编辑要使用的分类树(可以多选) ,点击【确确 定定】按钮后即可使用。 2.4 窗口的显示与隐藏 分类树浏览窗口、记录概览窗口、记录编辑窗口、编辑参考窗口这四个视窗都 是可以根据实际需要进行显示和隐藏的。 我们可以通过菜单项查看查看分类浏览窗口分类浏览窗口 、 查看查看记录概览窗口记录概览窗口 、 查查 看看记录编辑窗口记录编辑窗口 、 查看查看参考编辑窗口参考编辑窗口来分别启动对四个视窗的显示与隐 藏,或者通过工具栏上的 四个图标来启动。 图 2-11 “查看”菜单项 关于分类树浏览窗口分类树浏览窗口的详细描述,请参考相关链接; 关于记录概览窗口记录概览窗口的详细描述,请参考相关链接; 关于记录编辑窗口记录编辑窗口的详细描述,请参考相关链接; 关于编辑参考窗口编辑参考窗口的详细描述,请参考相关链接。 2.5 TRSDP 与$CODE 2.5.1 TRS 数据库的字段类型 上文中提到 TRS 数据库有六种不同的字段类型,他们是: 1.DATE日期型字段 2.NUMBER数值型字段 3.CHAR字符串型字段 4.PHRASE短语型字段 5.DOCUMENT全文型字段 6.BIT二进制型字段 这些字段类型的详细解释,用户可以从数据库系统概览或者TRS 数据库 加载格式规范的有关章节查看到,在这里,我们着重对 CHAR 类型做一个解释。 CHAR 型字段可以用来存储任何形式的字符串。单个字符串的最大长度可以在 建库时指定,但不能超过 255 个字符,在数据加载时将截断超过规定长度的字符串, 而只保留字符串的前部。CHAR 型字段允许多值。在数据加载时,CHAR 型字段有 两个特殊的字段值,即$USER 和$CODE(不区分大小写) ,$USER 表示当前进行 操作的用户名,$CODE 表示该记录加载到数据库中后的唯一顺序码,记录一旦加 载,其唯一顺序码就始终保持不变,并且记录之间以加载的时间先后为序。将 $USER 和$CODE 作为字段的缺省值,即可进行相应意义字段值的自动加载。 2.5.2 TRSDP 与$CODE 的密切关系 TRSDP 将使用$CODE 作为记录的唯一索引。需要说明的是,我们不使用 TRS 数据库中“记录号”来索引记录,是为了避开多个用户同时操作同一个数据库时可 能引发的记录号改变。 上文“加工模板的编辑”中提到,我们可以从指定的数据库中导出库结构作为 当前使用的模板,在导出时,TRSDP 系统会自动把默认值为$CODE 的字段隐藏起 来,不被导入到模板中。 上文“加工模板的编辑”中同样提到,在编辑模板时可以使用当前模板的配置 信息直接在指定的服务器上创建数据库,在创建数据库时,系统在后台自动为数据 库生成了一个默认值为$CODE、名称为“FIELD_DOLLAR_CODE”的字段。 在后面将要介绍的“脱机工作模式”下,当用户把选中的记录载入到 TRS 数 据库时,数据库会为默认值为$CODE 的字段自动赋值。 在后面将要介绍的“联机工作模式”下,在从源数据库中导出数据时,TRSDP 系统会检测源数据库中是否有默认值为$CODE 的字段,如果没有,会提示用户先 为该数据库添加这种字段,如下图所示: 图 2-12 $CODE 字段的提示 原则上,如果联机模式下源数据库中没有这种类型的字段,我们强烈推荐用户 先为该库创建这种字段,否则,导出记录并编辑结束后,将无法更新源记录, $CODE 是 TRSDP 系统中索引记录的唯一条件。 从 TRS 源数据库中导出记录时,默认值为$CODE 的字段也会被显示出来,例 如下例: 图 2-13 显示出来的$CODE 字段 用户一定不要编辑这种默认值为$CODE 的字段内容,如上面的 字段值,不要试图修改,否则会导致该记录无法 Update 到数据库中。 2.5.3 如何为数据库配置$CODE 1. 对于新建数据库 如上文所述,使用 TRSDP 的当前模板结构创建数据库时,TRSDP 系统会自动 添加一个名为“FIELD_DOLLAR_CODE”默认值为$CODE 的字段。 使用 TRS ADMIN 管理员工具管理员工具在指定的服务器上新建数据库时,我们要在数 据库结构中添加一个字段,保证该字段的类型为 CHAR、默认值为$CODE。如下 图中,我们新建了一个名为“SID”的字段: 图 2-14 用 TRS ADMIN 新建含有$CODE 字段的数据库 2. 对于已经存在的数据库 如何为一个没有默认值为$CODE 的字段的现有数据库尤其是已经有很多 数据的数据库添加这种字段呢?请按照下面的步骤执行: 1. 启动 TRS ADMIN,即 TRS 管理员工具; 2. 选择我们想要处理的数据库,为之添加一个符合上述要求的字段; 如下图我们给名为“test”的数据库添加 SID 字段,注意 test 数据库已经有了 1000 条数据。 图 2-15 用 TRS ADMIN 为现有库添加$CODE 字段 3. 打开数据库,更新数据库的记录 选择 TRS ADMIN 中的菜单项记录记录更新记录更新记录,在弹出的对话框中选择 所有记录所有记录 ,如下图: 图 2-16 更新记录 在上图中点击右上方的新建图标,在弹出的对话框中的字段名字段名列表中双 击刚才新建的那个字段,如我们这里的“SID”: 图 2-17 新建表达式 双击后,会在表达式表达式栏目中有了字段名称,如“SID” ,我们在其后输入 “=$CODE” ,如下图所示: 图 2-18 修改字段值为$CODE 点击【确定确定】按钮,等记录更新结束后,我们就可以看到这个数据库中所有的 记录都已经添加了唯一的标识码了,如下图所示: 图 2-19 数据库修改结果 至此,我们就完成了对已经存在的数据库添加默认值为$CODE 的 CHAR 类型 字段。 2.6 TRSDP 的加工控制 TRSDP 的加工控制是通过设置相应的信息来控制 TRSDP 对某些类型的数据进 行加工时所采用的方式。主要包括: PDF 文件按页进行抽取文件按页进行抽取:对于使用“加载目录”或者“加载文件”两种方式 自动处理 PDF 文件的时候,如果这个选项选中了,则 PDF 文件的每一页都将 被单独执行文本抽取并生成对应的 TRS 记录,这样的效果就是 PDF 文件有多 少页,就要多少个 TRS 记录与之对应。如果该项没有选中,则整个 PDF 文件 地内容将被一次性抽取并生成对应的 TRS 记录。该功能与“按类型加载文件” 方式下使用【 PDF按页抽取按页抽取】的效果是一样的。 Excel 文件按文件按 Sheet 进行抽取进行抽取:Excel 文件我们可以把每个 Sheet 抽取成一条独 立的记录,如果要这样做,就在这里把这个对勾选中。 PowerPoint 文件按页进行抽取文件按页进行抽取:与 PDF 原理类似,TRDP 可以对 PPT 文件按 页抽取文本,每一页生成一条独立的 TRS 记录。 由于 Excel 和 PowerPint 按页进行文本抽取用到的机会比较少,我们在“按类 型加载文件”的方式中就没有提供单独的入口。 下图展示的是加工控制项的界面效果: 图 2-20 加工控制界面 上图中,还包括对 XML 文件处理模式的设定: 按按“记录级记录级”模式处理模式处理:“记录级”是指把 XML 文件展开为 TRS 记录。 按按“字段级字段级”模式处理模式处理:“字段级”是指把 XML 文件内容完整的读入到 TRS 记录 的正文字段中。 对 XML 处理的方法以及“记录级” 、 “字段级”的概念,请参考“对 XML 文件的 处理”一节。 2.7 TRSDP 的工程管理 从 TRSDP2.0 版本开始,引入了工程的概念。 TRSDP 工程是指用户把当前编辑的记录列表、记录状态等信息保存到一个 XML 文件中,该文件的后缀是“*.DPJ” 。用户可以随时把以前保存的工程文件打 开并继续进行处理。 由于从 TRSDP2.0 开始,我们对编辑的 TRS 记录后台都是用临时文件保存的, 这就会造成临时文件不能及时清除的问题,所以,我们在 TRSDP 中提供了“工程 管理”的功能,通过删除不再需要的工程文件,来删除该工程中 TRS 记录对应的 临时文件。 2.7.1 启动工程管理 可以通过如下两个方法来启动工程管理: 1.通过菜单项 点击【配置】【 工程管理】菜单项,可以启动工程管理的功能,如下图 所示: 图 2-21 启动“工程管理”的菜单项 2.通过工具条 在工具栏中点击图标 也可以启动工程管理的功能。 工程管理功能的界面效果,如图 2-22 所示。 2.7.2 工程管理的功能 图 2-22 “工程管理”的界面 工程管理界面上分为两个主体部分:上面的“管理工具”和下面的工程列表。 “管理工具”中提供了四个功能: 表 2-4 工程管理的管理工具 功能功能图标图标说明说明 添加工程将一个已存在的 TRSDP 工程添加到工程列表。 搜索工程从指定的目录(及子目录)中搜索 TRSDP 工程文 件。 删除工程将选中的工程彻底删除,并删除该工程的临时文件。 从列表中删除将选中的工程从管理列表中删除掉,并不删除工程 对应的原文件。 打开工程将高亮显示的工程在 TRSDP 中打开。 工程列表分类两栏:“选择” 、 “TRSDP 工程文件” 。 “选择”栏是可以勾选的。如果用户要删除某些工程,就必须在这里把目标工 程勾选上。 “TRSDP 工程文件”给出了本地机器历史上保存的 TRSDP 工程文件的详细路 径和名称。 如果要使用“打开工程”的功能,则必须把指定的工程选中也就是如图 2- 22 所示的“F:TRSDP 工程 2.dpj” ,把目标工程所在的行高亮显示。 第第第 3 3 3 章章章 脱脱脱机机机工工工作作作模模模式式式 3.1 工作原理 正如在上文配置工作模式中描述的那样,脱机模式下的工作,主要是把本地的 各种文档格式处理成为 TRS 记录,然后对 TRS 记录进行编辑、入库。 配置好 TRSDP 系统运行时需要的工作模板、分类树等信息后,系统自动创建 一个名为“TRSDP1”的空文件,用户可以在这个文件中插入 TRS 记录(请参考记 录的插入与编辑部分) ,并进行记

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论