已阅读5页,还剩229页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
全文检索服务器 用 户 手 册 版本:v4.x 目录 - i - 目目目 录录录 关于本手册关于本手册1 读者对象1 手册组织1 用户反馈2 联系地址3 第一部分 系统概述 第第 1 章章 基本概念基本概念4 1.1 用户组4 1.2 用户5 1.3 数据库7 1.4 数据库字段11 1.5 视图14 1.6 视图字段15 1.7 数据格式17 1.8 词典18 1.8.1 分词词典20 1.8.2 附加分词词典20 1.8.3 停用词典21 1.8.4 附加停用词典22 1.8.5 稀疏词典22 1.8.6 主题词典22 1.8.7 同义词典25 1.8.8 反义词典25 1.8.9 其它词典26 第第 2 章章 字段与索引字段与索引27 2.1 字段类型27 2.1.1 日期型字段27 2.1.2 数值型字段28 2.1.3 字符串型字段28 - ii - 目录 2.1.4 短语型字段29 2.1.5 全文型字段29 2.1.6 二进制型字段30 2.2 索引类型30 2.3 索引策略31 2.3.1 按词索引策略31 2.3.2 按字索引策略32 2.3.3 按关键词索引策略32 2.3.4 二元组索引策略33 第第 3 章章 权限权限34 3.1 权限级别34 3.1.1 用户级权限34 3.1.2 数据库级权限35 3.1.3 字段级权限36 3.1.4 记录级权限36 3.2 权限管理37 3.3 权限检查38 3.3.1 用户组操作38 3.3.2 用户操作38 3.3.3 数据库操作38 3.3.4 数据库字段操作40 3.3.5 视图操作40 3.3.6 视图字段操作41 3.3.7 数据格式操作42 3.3.8 词典操作42 第第 4 章章 数据库加载与检索数据库加载与检索44 4.1 数据库加载44 4.2 数据库检索44 4.2.1 运算符44 4.2.2 运算符的等价关系48 4.2.3 运算符与字段的关系49 4.2.4 统计函数51 4.2.5 检索函数51 4.2.6 统计表达式52 4.2.7 检索表达式53 4.2.8 检索键值55 目录 - iii - 4.2.9 特殊键值59 第第 5 章章 系统配置系统配置60 5.1 物理内存数60 5.2 用户实例最大空闲时间60 5.3 用户实例最小空闲时间61 5.4 检索超时时间61 5.5 检索结果记录的排序限制61 5.6 最大检索历史步数62 5.7 最大下载结果记录数62 5.8 空闲状态起止始时间62 5.9 缺省数据库属性63 5.10 缺省知识词典集 .63 5.11 数据库路径集 .63 5.12 缺省数据库备份设备 .63 5.13 临时文件存放路径 .63 第二部分 系统安装 第第 6 章章 服务器服务器在在 windows 下的安装下的安装 .67 6.1 trs 服务器目录结构.67 6.2 安装前的准备工作71 6.2.1 软件及硬件环境71 6.2.2 确认安装方式71 6.3 安装步骤72 6.4 安装后的工作77 6.4.1 启动服务器77 6.4.2 关闭服务器79 6.4.3 服务器升级80 6.5 安装失败后的处理81 6.5.1 安装失败的原因及解决方法81 6.5.2 安装失败后的清理工作81 第第 7 章章 服务器在服务器在 unix 下的安装下的安装82 7.1 trs 服务器目录结构.82 7.2 安装前的准备工作85 7.2.1 软件及硬件环境85 - iv - 目录 7.2.2 确定服务器的用户帐号86 7.2.3 确认安装方式86 7.3 安装步骤87 7.4 安装后的工作89 7.4.1 启动服务器89 7.4.2 关闭服务器90 7.4.3 服务器升级91 7.5 安装失败后的处理92 7.5.1 安装失败的原因及解决方法92 7.5.2 安装失败后的清理工作92 第第 8 章章 管理员工具的安装管理员工具的安装93 8.1 trs 管理员简介 .93 8.2 trs 管理员的目录结构 .93 8.3 系统安装要求94 8.4 安装过程94 8.5 卸载过程99 8.6 安装过程中的问题100 第第 9 章章 关于数据镜像模块关于数据镜像模块101 9.1 功能描述101 9.2 实施准备102 9.2.1 主节点的准备工作102 9.2.2 子节点的准备工作102 9.3 镜像初始化102 9.3.1 手工初始化103 9.3.2 自动初始化103 9.4 镜像的运行103 9.5 新增镜像的子节点104 9.6 新增镜像的数据库104 9.7 当镜像数据库被破坏时104 第第 10 章章 服务器工具服务器工具105 10.1 服务器管理员105 10.1.1 指定与服务器连接的端口号105 10.1.2 列出服务器中所有在线客户端的信息106 10.1.3 强制清除指定的用户实例106 10.1.4 获取系统超级用户的口令106 目录 - v - 10.1.5 刷新日志缓冲区107 10.1.6 在线备份服务器系统107 10.1.7 恢复服务器系统107 10.2 数据库加载工具107 10.2.1 指定与服务器连接的端口号108 10.2.2 命令开关选项108 10.2.3 指定目标数据库109 10.2.4 指定源数据文件109 10.2.5 指定控制文件109 第第 11 章章 配置文件配置文件110 11.1 服务器运行参数配置文件110 11.2 服务器数据镜像配置文件122 11.3 插件配置文件125 第三部分 数据库加载格式规范 第第 12 章章 准备加准备加载载131 12.1 数据库的准备131 12.2 准备加载文件132 第第 13 章章 数据文件数据文件134 13.1 trs 格式文件 .134 13.1.1 标准格式135 13.1.2 字段内部标识号标记格式139 13.1.3 字段顺序号标记格式141 13.1.4 无字段标记格式142 13.1.5 全文格式143 13.1.6 注释信息144 13.1.7 标记引导符前缀145 13.2 国际标准格式147 13.2.1 iso2709 记录格式.147 13.2.2 xml 记录格式148 13.3 批处理数据文件150 第第 14 章章 加载多媒体数据加载多媒体数据152 14.1 加载 document 字段的多媒体数据.152 14.1.1 数据格式控制符153 - vi - 目录 14.1.2 存储方式控制符154 14.1.3 加载格式说明155 14.2 加载 bit 字段的多媒体数据 .157 14.3 应用举例158 第第 15 章章 控制文件控制文件160 15.1 控制文件的格式160 15.2 控制文件的变量160 15.2.1 record_file_format.162 15.2.2 bit_format_default.162 15.2.3 html_base_default162 15.2.4 data_path_default163 15.2.5 date_century_default163 15.2.6 ignore_record_crypt163 15.2.7 file_suffix_prior164 15.2.8 sync_create_index .164 15.2.9 class_bit_store 164 15.2.10 class_document_store165 15.2.11 waive_document_affix 165 15.2.12 waive_oemfilter_text166 15.2.13 keep_text_actual166 15.2.14 check_text_iterative .166 15.2.15 multi_value_separater.167 15.2.16 section_tag_prefix.167 15.2.17 start_record_from167 15.2.18 process_record_number .168 15.2.19 max_commit_number.168 15.2.20 max_error_number168 15.2.21 column_name_sequence168 15.2.22 xml_segment_mark169 15.2.23 xml_newline_mark.170 15.2.24 xml_hitshow_mark.170 15.2.25 xml_filter_cdata171 15.2.26 xml_overwrite_pi172 15.3 控制文件举例173 第第 16 章章 日期的入库格式日期的入库格式174 第第 17 章章 词典的加载词典的加载177 目录 - vii - 附录附录 a trs 保留字保留字 180 附录附录 b trs 错误信息错误信息.182 1. 系统调用错误表(17000 17399)182 2. 虚拟平台模块错误表(17400 17499)186 3. 网络调用错误表(17500 17999)188 4. 数据库索引模块错误表(18000 18499)190 5. 数据库检索模块错误表(18500 18899)192 6. 分词系统错误表(18900 18999)193 7. 远过程调用错误表(19000 19499)194 8. 系统 key 错误表(19500 19999)194 9. 数据词典模块错误表(20000 20999)194 10. 应用程序接口错误表(21000 21999)200 11. 命令语言错误表(22000 22999)201 附录附录 c win32 错误信息错误信息203 关于本手册 - 1 - 关关关于于于本本本手手手册册册 本手册介绍的主要内容可以分为以下各个部分。第一部分介绍 trs 全文检索 服务器主要特点、trs 中各对象的定义和作用、trs 的体系结构,第二部分介绍了 trs 全文检索服务器和管理员工具(客户机)的在安装前的准备工作、具体的安装 步骤,以及安装后的工作,第三部分介绍在 trs 数据库加载前组织各种数据文件 所必须遵循的格式规范。本手册没有涉及任何 trs 工具的使用方法和 trs 数据库 加载工具的使用方法,是一个了解 trs 概念和 trs 全文检索服务器的说明性手册。 读者对象 本手册的读者为 trs 系统安装人员、trs 系统管理员,以及任何希望对 trs 系统有一个全面深入详细了解的 trs 用户。 手册组织 本手册的内容由三部分组成,第一部分:系统概述;第二部分:系统安装;第 三部分:数据库加载格式规范。具体组织如下: 第 1 章基本概念 第 2 章字段与索引 第 3 章权限 第 4 章数据加载与检索 第 5 章系统配置 第 6 章服务器在 windows 下的安装 第 7 章服务器在 unix 系统下的安装 第 8 章管理员工具的安装 第 9 章关于数据镜像模块 第 10 章 服务器工具 - 2 - 关于本手册 第 11 章 配置文件 第 12 章 准备加载 第 13 章 数据文件 第 14 章 加载多媒体数据 第 15 章 控制文件 第 16 章 日期的入库格式 第 17 章 词典的加载 附录 a trs 保留字 附录 b trs 错误信息 附录 c win32 错误信息 用户反馈 trs 公司感谢您使用 trs 产品。如果您发现本手册中有错误或者产品运行不 正确,或者您对本手册有任何意见和建议,请及时与 trs 公司联系。您的意见将 是我们做版本修订时的重要依据。 关于本手册 - 3 - 联系地址 trs 总部总部 营销服务中心:营销服务中心: 北京市海淀区花园东路 10 号高德大厦 401 室 邮编:100083 电话传真email: 产品研发中心:产品研发中心: 北京 北四环中路 35 号健翔桥 北京信息工程学院图书馆三层 邮编:100101 电话传真email: 上海分公司上海分公司 上海市成都北路 333 号 招商局广场南楼 1505 室 邮编:200041 电话08 传真email: 广州分公司广州分公司 广州市先烈路 76 号 中侨大厦 16 层 h 室 邮编:510070 电话传真email: 成都办事处成都办事处 成都市洗面桥街 29 号四川咨询产业大厦 1309 室 邮编:610041 电话传真email: website:. - 4 - 第 1 章 基本概念 第一部分 系统概述 第第第 1 1 1 章章章 基基基本本本概概概念念念 trs 系统中的对象包括: 用户组 用户 数据库 数据库字段 视图 视图字段 数据格式 词典 所有这些对象都具有一致的命名规则: 对象名可以是中文,英文或中英文的组合,最长为 31 个字符。 对象名内英文字母的大小写无关。 对象名只能包括 a-z,a-z,0-9,_,或汉字。 除数据格式外,对象名不能是 trs 保留字(关键词)。 同一属域内的对象不能重名。 第 1 章 基本概念 第 2 章 字段与索引 第 3 章 权限 第 4 章 数据加载与检索 第 5 章 系统配置 第 1 章 基本概念 - 5 - 1.1 用户组 trs 具有独立于操作系统的用户组管理机制。用户组的设立,使得系统对数据 的安全控制更加完善,也更加简单方便。每个 trs 系统可支持多达 65535 个用户 组。 用户组对象具有下列属性: 名称名称 名称是 trs 用户组对象名,即用户组名。用户组名与用户组名之间,以及用 户组名与用户名之间不能重复。 注释信息注释信息 注释信息是对 trs 用户组对象进行说明的信息。 系统安装时,将自动创建两个用户组:administrator 和 guest。系统还 有一个匿名用户组。 1.2 用户 trs 具有独立于操作系统的用户管理机制。要访问 trs 系统,必须首先申请 一个用户帐号。用户帐号是实现系统及数据安全的主要手段,也是系统记费的主要 依据。每个 trs 系统可支持多达 65535 个用户。 用户对象具有下列属性: 名称名称 名称是 trs 用户对象名,即用户帐号名,也就是用户名。用户名与用户名之 间,以及用户名与用户组名之间不能重复。 登录口令登录口令 登录口令是该用户登录到 trs 系统时必须输入的口令。设置登录口令的目的 主要是为了保证用户帐号的私用性。 登录互斥开关登录互斥开关 - 6 - 第 1 章 基本概念 登录互斥开关决定该用户是否允许同时从多个不同的 ip 地址进行登录。 密级密级 密级定义了该用户在 trs 系统的接触机密数据的级别。数值越小,级别越高。 对于数据库中使用密级加密的数据记录,只有当用户的密级值不大于记录的密 级值时,才能看到该记录的内容。 类型类型 用户的类型实际上是用户在 trs 系统中的权限级别。trs 系统有四种用户类 型: 系统数据库管理员(dba) 用户组数据库管理员(gda) 系统资源用户(resource) 系统登录用户(connect) 所属用户组所属用户组 即该用户所在的用户组。用户也可属于匿名用户组。 最大检索历史步数最大检索历史步数 最大检索历史步数是指用户在进行数据库查询时,需要保存的最大检索历史步 数。保存的检索历史可以在以后检索中直接引用,而不需要重新检索。 最大下载记录数最大下载记录数 最大下载记录数是指用户在进行数据库查询时,允许一次下载的最大检索结果 记录数。 缺省附加分词词典缺省附加分词词典 该用户在创建数据库时,如果数据库的附加分词词典指定为缺省值,则系统自 动为数据库指定这里所给出的附加分词词典。 缺省附加停用词典缺省附加停用词典 该用户在创建数据库时,如果数据库的附加停用词典指定为缺省值,则系统自 动为数据库指定这里所给出的附加停用词典。 缺省稀疏词典缺省稀疏词典 该用户在创建数据库时,如果数据库的稀疏词典指定为缺省值,则系统自动为 数据库指定这里所给出的稀疏词典。 注释信息注释信息 第 1 章 基本概念 - 7 - 注释信息是对 trs 用户对象进行说明的信息。 系统安装时,将自动创建两个用户:system 和 pub。 system 是 trs 系统的超级用户,其主要特征有: 是 dba 用户。 属于 administrator 用户组。 不能被注销。 不能修改名称。 可由自己修改口令。 可创建和注销其它任何用户。 可清除任何用户的口令。 可修改任何用户的除口令以外的任何属性。 可授予或收回任何用户的任何权限。 pub 是 trs 系统的一个公共用户,其只要特征有: 是 connect 用户。 属于 guest 用户组。 不能修改名称。 没有口令,也不允许设置口令。 可被 system 用户注销。 对 trs 系统数据对象的操作,必须通过相关的权限检查。 trs 用户还有其它一些特点: 每一个用户组中允许有多个 dba 用户。 每一个用户组中允许有多个 gda 用户。 任何用户可修改“自己”的某些属性,这些属性包括: 登录口令 登录互斥开关 最大检索历史步数 缺省附加分词词典 缺省附加停用词典 缺省稀疏词典 注释信息 其它项只能由 system 用户管理。 - 8 - 第 1 章 基本概念 1.3 数据库 数据库是 trs 系统中的主要数据对象,它物理地存储了用户加载到系统中的 所有数据资料。每个 trs 系统可管理多达数十亿个数据库。数据库实际上是一个 物理数据表,表的每一行是一个数据记录,每一列则是一个数据字段,行与列的交 叉点即为字段值。 数据库的规模主要指两个方面:能够容纳的最大记录数和数据库文件的最大容 量。一个数据库的最大记录数取决于操作系统的位数和 trs 所采用的文件系统的 位数:在 32 位文件系统中,最多可容纳 4 亿多条记录,而在 64 位文件系统中,如 果是 32 位操作系统,则最多可容纳 20 多亿条记录,如果是 64 位操作系统,则最 多可容纳 40 多亿条记录。制约数据库文件最大容量的唯一因素是文件系统的位数, 如果 trs 采用了 32 位文件系统,则单个文件的大小不能超过 2g 字节(nt 平台不 能超过 4g 字节) ,但如果采用 64 位文件系统,则单个文件的容量实际上没有限制。 操作系统与文件系统的位数没有必然的联系,许多操作系统与文件系统的位数没有必然的联系,许多 32 位操作系统都支持位操作系统都支持 64 位文件位文件 系统系统,如 win32、linux、solaris 等,所以在 32 位操作系统上,trs 也尽可能地 采用 64 位文件系统。 每个记录的最大长度为每个记录的最大长度为 256m 字节,每个字段值的最大长度为字节,每个字段值的最大长度为 16m 字节(但字节(但 以独立文件方式,即以独立文件方式,即 alone 方式存储的字段值的长度不受此限制)方式存储的字段值的长度不受此限制) 。但在实际中, 如果一个记录(或字段值)太长,会引起操作系统忙于虚拟内存的交换,使机器性 能急剧下降,所以系统人为地限制一个记录的最大长度为机器物理内存兆字节数的 64 的倍数(最小为 1)兆字节,如物理内存为 128m,则允许的最大记录长度为 2m 字节。 数据库对象具有下列属性: 名称名称 名称是 trs 数据库的对象名,即数据库名,是访问、维护和管理该数据库的 入口。数据库名不能与属于同一用户的其它数据库、视图以及各种词典同名。 别名 别名是该数据库名的别称,一般是为了方便使用而给出的数据库名的缩写,或 其英文名称。数据库别名与数据库名具有同等的地位。一个数据库可以定义多 个别名。 所有者所有者 所有者表明哪个用户拥有该数据库。所有者与名称(别名)唯一确定一个数据 第 1 章 基本概念 - 9 - 库对象。所有者对该数据库能够进行任何操作,而不受其它数据安全控制的制 约。 缺省检索字段缺省检索字段 缺省检索字段是指在对该数据库进行查询时,检索表达式中没有明确指定检索 目标字段的子表达式所默认的目标字段。 分词词典分词词典 分词词典是该数据库按词索引时所引用的词典。如果不为数据库指定分词词典, 则该数据库将按字索引。 附加分词词典附加分词词典 附加分词词典是该数据库按词索引时所引用的扩充词典。 停用词典停用词典 停用词典是该数据库按词索引时所引用的不允许索引的词典。 附加停用词典附加停用词典 附加停用词典是该数据库按词索引时所引用的不允许索引的扩充词典。 稀疏词典稀疏词典 稀疏词典该数据库按词索引时所引用的允许索引的词典。如果不为数据库指定 稀疏词典,则该数据库索引所有不属于停用词典和附加停用词典中的词汇。 公共访问权限公共访问权限 公共访问权限是指 trs 系统中所有用户对该数据库所拥有的权限。对数据库 可设置的公共访问权限共有五种: 记录检索权 数据更新权 数据索引权 数据库结构修改权 数据库删除权 词根索引开关词根索引开关 词根索引开关决定数据库的短语型和全文型字段数据中的英文串是否按词根进 行索引。如果设置该开关,则索引不区分大小写。 - 10 - 第 1 章 基本概念 大小写敏感开关大小写敏感开关 大小写敏感开关决定数据库的字符型、短语型和全文型字段数据中的英文串是 否区分大小写进行索引。 数字索引开关数字索引开关 数字索引开关决定数据库的短语型和全文型字段数据中的数词是否进行索引。 二元组索引开关二元组索引开关 二元组索引开关决定数据库的短语型和全文型字段是否建立二元组索引。 压缩索引开关压缩索引开关 压缩索引开关决定数据库是否建立压缩索引。不压缩索引时,索引与检索速度 会稍有提高,但空间膨胀率会显著增大,所以在实际使用时总是压缩索引,以 获得较好的时空比。 数据字符集数据字符集 数据字符集是指存储在数据库中的非英文数据所使用的字符集。trs 系统支持 的字符集有: 简体中文(gb2312、gbk、gb18030) 繁体中文(big5) 纯英文(english) 数据宿主系统数据宿主系统 有一类应用:trs 系统只管理和维护索引,而数据存储在其它系统中。数据宿 主系统就是用来描述存储数据的系统的信息。描述信息对 trs 没有实际的意 义,如果数据库没有数据宿主系统,则 trs 系统负责管理数据库的数据。 数据存放路径数据存放路径 数据存放路径指明数据库数据文件的存储目录。 注释信息注释信息 注释信息是对 trs 数据库对象进行说明的信息。 在定义数据库时,对每一个属性都必须给出其正确取值。在数据库加载之前, 对数据库的属性可以进行任意修改。 在加载了数据后,下列属性不再允许修改: 数据字符集 第 1 章 基本概念 - 11 - 数据宿主系统 数据存放路径 当创建了索引后,下列属性不再允许修改: 分词词典 附加分词词典 停用词典 附加停用词典 稀疏词典 缺省检索字段 词根索引开关 大小写敏感开关 数字索引开关 二元组索引开关 压缩索引开关 1.4 数据库字段 数据库字段是 trs 系统对不同数据类型进行存储和管理的主要依据,也是对 数据库进行查询的唯一入口,所有的查询操作都是在一定的字段上进行的。每个数 据库可定义 1 到 1023 个字段。 数据库字段对象具有下列属性: 名称名称 名称是 trs 数据库字段的对象名,即字段名,是访问、维护和管理该数据库 字段的入口。字段名不能与同一数据库中的其它字段同名。 别名别名 别名是该字段名的别称,一般是为了方便使用而给出的字段名的缩写,或其英 文名称。字段别名与字段名具有同等的地位。一个字段可以定义多个别名。 所属数据库所属数据库 所属数据库指示该字段是哪个数据库的字段。所属数据库与名称(别名)唯一 确定一个数据库字段对象。 数据类型数据类型 数据类型即字段类型,它决定了该字段所能存储的数据类型。trs 能够存储和 - 12 - 第 1 章 基本概念 索引六种类型的数据: 日期型(date) 数值型(number) 字符串型(char) 短语型(phrase) 全文型(document) 二进制型(bit) 缺省字段值缺省字段值 缺省字段值是指在数据库加载时,对于未给出字段值的 date、number 或 char 型字段所对应的缺省取值。 字段值格式字段值格式 该属性对于不同的字段类型有不同的意义: 对于 char 型字段,字段值格式是指数据库加载时,给出的字段值所必 须遵循的格式。 对于 date 和 number 型字段,字段值格式是指输出字段值时使用的格 式,并且由外部完成字段值的格式化。 对于其他类型的字段,该属性没有意义。 字段值范围字段值范围 字段值范围是指在加载数据时,date、number 或 char 型字段的合法取 值的集合。 字段显示名字段显示名 字段显示名是在用户界面上该字段的对应名字。 显示区宽度显示区宽度 显示区宽度是字段值在用户界面上显示区域的缺省宽度单位数。 显示区高度显示区高度 显示区高度是字段值在用户界面上显示区域的缺省高度单位数。 公共查询开关公共查询开关 公共查询开关决定是否允许 trs 系统中的所有用户在该字段上进行查询。 禁止索引开关禁止索引开关 禁止索引开关决定该字段是否建立索引。bit 字段始终不建索引。 第 1 章 基本概念 - 13 - 多值允许开关多值允许开关 多值允许开关决定在一个记录中该字段是否允许存在多个值。phrase 和 document 字段始终不允许多个字段值。 值唯一性开关值唯一性开关 值唯一性开关决定在数据库的所有记录中,该字段(date、number 或 char 型字段)是否允许出现重复的字段值。 空值禁止开关空值禁止开关 空值禁止开关决定在一个记录中该字段(date、number 或 char 型字段) 是否允许没有字段值。 最大长度或精度最大长度或精度 该属性对于不同的字段类型有不同的意义: 对于 char 型字段,该属性表示单个字段值的最大取值长度,超过规定 长度的字符将被忽略。字符串型单个字段值的最大长度是字符串型单个字段值的最大长度是 255 个字节个字节。 对于 number 型字段,该属性表示字段值的小数位精度,或整数位的位 数。支持三种子类型,具体如下: 限定值限定值说明说明 0 6数据为小数位精度为 0 到 6 位的实数。 限定值即为小数位的精度。 表示范围是 32 位二进制单精度浮点数。表示整数时可确保 7 位十位十 进制有符号整数进制有符号整数,即:9999999。 100 114数据为小数位精度为 0 到 14 位的实数。 限定值减去 100 后,即为小数位的精度。 表示范围是 64 位二进制双精度浮点数。表示整数时可确保 15 位位 十进制有符号整数十进制有符号整数,即:999999999999999。 32数据为 0 到 32 位十进制有符号整数位十进制有符号整数。 表示范围是:99999999999999999999999999999999。 对于其他类型的字段,该属性没有意义。 索引属性索引属性 索引属性是指 document 字段的倒排索引项所包含的索引属性名表。trs 系统支持的倒排索引属性包括: 段落(seg) 句子(sen) - 14 - 第 1 章 基本概念 位置(pos) 在指定 document 字段的倒排索引属性名表时,可以使用其中之一,或者 多个的组合。 索引存放路径索引存放路径 索引存放路径指明该字段的索引文件的存储目录。 注释信息注释信息 注释信息是对 trs 数据库字段对象进行说明的信息。 在定义数据库字段时,对每一个属性都必须给出其正确取值。在数据库加载之 前,对数据库字段的属性可以进行任意修改。 在加载了数据后,下列属性不再允许修改: 数据类型 缺省字段值 字段值格式 字段值范围 多值允许开关 值唯一性开关 空值禁止开关 最大长度或精度 当创建了索引后,下列属性不再允许修改: 禁止索引开关 索引属性 索引存放路径 除了可定义的字段外,每个数据库都有一个固定的名为 docid 的逻辑字段。 该字段的内容是数据库记录的物理记录号,可用来查询数据库记录。一个记录加载 到数据库以后就有了一个唯一的物理记录号,除非对该记录进行修改,其值将始终 保持不变。 1.5 视图 视图是 trs 系统中的一种辅助数据对象。trs 系统支持对数据库记录和字段 进行直接的授权机制来实现数据的安全保密性控制,但有时显得有些烦琐。通过视 第 1 章 基本概念 - 15 - 图来限制某些用户对数据库字段和记录的查询,就可以用一种简便的方式间接地完 成对数据库记录和字段查询权的控制。 视图实际上是一个逻辑数据表,它是逻辑地从一个或多个数据库中抽取一个或 多个字段并满足指定条件的记录。视图并不物理地存储数据,只是描述了组成该视 图的数据所遵循的逻辑。每个 trs 系统可管理多达数十亿个视图,每个视图中可 包含 1 到 128 个数据库。 视图对象具有下列属性: 名称名称 名称是 trs 视图的对象名,即视图名,是访问、维护和管理该视图的入口。 视图名不能与属于同一用户的其它视图、数据库以及各种词典同名。 别名别名 别名是该视图名的别称,一般是为了方便使用而给出的视图名的缩写,或其英 文名称。视图别名与视图名具有同等的地位。一个视图可以定义多个别名。 所有者所有者 所有者表明哪个用户拥有该视图。所有者与名称(别名)唯一确定一个视图对 象。所有者对该视图能够进行任何操作,而不受其它数据安全控制的制约。 缺省检索字段缺省检索字段 缺省检索字段是指在对该视图进行查询时,检索表达式没有明确指定检索目标 字段的子表达式所默认的目标字段。 公共访问权限公共访问权限 公共访问权限是指 trs 系统中所有用户对该视图所拥有的权限。对视图可设 置的公共访问权限共有三种: 记录检索权 视图结构修改权 视图删除权 所含数据库所含数据库 所含数据库是指该视图中所包含的数据库。视图中不能包含视图。 记录选取条件记录选取条件 记录选取条件实际上是一个对该视图所包含的每个数据库进行检索的检索表达 式。记录抽取条件中的检索目标字段(包括缺省的目标字段)动态地对应于该 视图所包含的每个数据库中的字段,而不是该视图的字段。 - 16 - 第 1 章 基本概念 注释信息注释信息 注释信息是对 trs 视图对象进行说明的信息。 一般情况下,视图只能用于数据的查询,而不支持对数据的“增、删、改”等 操作,但 trs 系统支持一种特殊的视图:数据库自动分裂模式视图,简称为自动 模式视图。这种视图不但支持对数据记录的维护,而且随着数据记录的增加,能够 自动分裂数据库,以维持数据库的规模。 1.6 视图字段 视图字段是对视图进行查询的唯一入口,所有的查询操作都是在一定的字段上 进行的。每个视图可定义 1 到 1023 个字段,每个字段可映射 1 到 64 个数据库中的 某个字段。 视图字段对象具有下列属性: 名称名称 名称是 trs 视图字段的对象名,即字段名,是访问、维护和管理该视图字段 的入口。字段名不能与同一视图中的其它字段同名。 别名别名 别名是该字段名的别称,一般是为了方便使用而给出的字段名的缩写,或其英 文名称。字段别名与字段名具有同等的地位。一个字段可以定义多个别名。 所属视图所属视图 所属视图指示该字段是哪个视图的字段。所属视图与名称(别名)唯一确定一 个视图字段对象。 数据类型数据类型 数据类型即字段类型,它表明了该字段所映射的数据库字段所存储的数据类型。 对应于数据库字段,视图字段也有六种类型: 日期型(date) 数值型(number) 字符串型(char) 短语型(phrase) 全文型(document) 二进制型(bit) 第 1 章 基本概念 - 17 - 字段显示名字段显示名 字段显示名是上用户界面上该字段的对应名字。 显示区宽度显示区宽度 显示区宽度是字段值在用户界面上显示区域的缺省宽度单位数。 显示区高度显示区高度 显示区高度是字段值在用户界面上显示区域的缺省高度单位数。 公共查询开关公共查询开关 公共查询开关决定是否允许 trs 系统中的所有用户在该字段上进行查询。 数据库字段映射数据库字段映射 数据库字段映射决定了该字段对应于哪些数据库中的哪个字段。 注释信息注释信息 注释信息是对 trs 视图字段对象进行说明的信息。 1.7 数据格式 数据格式用来说明多媒体数据的格式类型。在数据库加载时,trs 系统将根据 数据格式确定相应的数据存储方式,使用相应的分词方法;在数据输出时,trs 系 统将根据数据格式对数据进行相应的处理,便于浏览。每个 trs 系统可管理多达 1023 个数据格式对象。 数据格式对象具有下列属性: 名称名称 名称是 trs 数据格式的对象名,即数据格式名,是访问、维护和管理该数据 格式的入口。数据格式名不能重复。 所属类所属类 即该数据格式属于哪种格式类型。trs 系统把数据格式划分成六种类型: 纯文本(text) 格式文档(doc) 图像(image) - 18 - 第 1 章 基本概念 音频(audio) 视频(video) 自定义(bit) 文件后缀文件后缀 文件后缀是指该数据格式的数据文件通常使用的文件名后缀。 压缩开关压缩开关 压缩开关决定该数据格式的数据是否需要进行无损压缩。 注释信息注释信息 注释信息是对数据格式对象进行说明的信息。 trs 系统在安装时,将自动创建下列数据格式对象(名称): bit(不确定格式的二进制数据) text(文本数据格式) word(microsoft word 文件格式) ws(wordstar 文件格式) wp(wordprofect 文件格式) xcl(microsoft excel 文件格式) wps(金山 wps 文件格式) s2(方正、华光二扫文件格式) doc(不确定格式的文档文件格式) audio(不确定格式的音频文件格式) image(通用图象文件格式) video(不确定格式的视频文件格式) avi(avi 动画文件格式) mpeg(mpeg 压缩动画文件格式) wave(wave 音频文件格式) midi(midi 音频文件格式) cda(cd 音频文件格式) ps(postscript 文件格式) gif(gif 图象文件格式) tif(tif 图象文件格式) pcx(pcx 图象文件格式) bmp(bmp 图象文件格式) jpeg(jpeg 图象文件格式) html(html 超文本文件格式) 第 1 章 基本概念 - 19 - pdf(adobe pdf 文件格式) ppt(microsoft power piont 文件格式) rtf(rich text 文件格式) trs 系统允许用户自己定义新的数据格式,或者修改已有的数据格式。数据格 式一旦定义,就不允许删除,所以必须谨慎,只有超级用户(即 system 用户) 有权创建新的数据格式。 1.8 词典 trs 的全文检索不单是一种快速的字串匹配系统,要获得良好的检索效果,必 须使用一系列知识词典。词典对象是 trs 系统中非常重要的基础资源,是按词索 引和检索技术的根本依据。 词典对象具有下列属性: 名称名称 名称是 trs 词典的对象名,即词典名,是访问、维护和管理该词典的入口。 词典名不能与属于同一用户的其它视图、数据库以及各种词典同名。 所有者所有者 所有者表明哪个用户拥有该词典。所有者与名称(别名)唯一确定一个词典对 象。所有者对该词典能够进行任何操作,而不受其它数据安全控制的制约。 类型类型 按用途划分,trs 系统有八种类型的词典: 分词词典(segment) 附加分词词典(segmentex) 停用词典(stop) 附加停用词典(stopex) 稀疏词典(sparse) 主题词典(thesaurus) 同义词典(synonym) 反义词典(antonym) 其中,分词词典、附加分词词典、停用词典、附加停用词典和稀疏词典是用来 建立数据库的索引并进行查询的词典,统称为索引词典;主题词典、同义词典 和反义词典是用于智能概念扩展检索的词典,统称为辅助知识词典。 - 20 - 第 1 章 基本概念 公共访问权限公共访问权限 公共访问权限是指 trs 系统中所有用户对该词典所拥有的权限。对词典可设 置的公共访问权限共有三种: 引用权(检索权) 维护权(更新权) 删除权 字符集字符集 字符集是指该词典语言版本。trs 系统支持的字符集有: 简体中文(gb2312、gbk、gb18030) 繁体中文(big5) 纯英文(english) 注释信息注释信息 注释信息是对 trs 词典对象进行说明的信息。 系统安装时,将自动创建以下几部系统缺省词典:分词词典、停用词典、主题 词典、同义词典和反义词典。 1.8.1 分词词典 中文按词索引和检索是 trs 的主要特点之一,内嵌的分词系统采用以词典为 基础的分词算法。分词词典用于汉语自动分词,由若干个汉语词汇组成,词典中的 英文词汇不起作用。每部分词词典可容纳多达 10 万条词汇,每个词汇的最大长度 为 20 个字节,即 10 个汉字。 trs 系统提供的缺省分词词典的每个词汇具有语法属性,以提高分词的准确性。 用户定义的分词词典或增加的词汇则没有属性。该分词词典是经过加密处理的,用 户可以浏览词典的词汇,但不能浏览其属性。 分词词典的使用要点: 在创建数据库时引用分词词典。分词词典被引用后,一般不允许再对该词典进 行维护,除非重新创建数据库的索引。 在一般情况下均使用系统提供的缺省分词词典。 对英文数据库不使用分词词典。 一般不对系统缺省分词词典进行维护,当需要加入用户专业词汇时,可通过创 建附加分词词典来实现。 第 1 章 基本概念 - 21 - 分词词典中的英文词汇不起作用,因此不要在分词词典中加入英文词汇。 生僻词并不一定要加入到分词词典,这些词即使不在词典中,也能检索。 trs 系统提供一个特殊空分词词典,其特殊性在于:词典中没有任何词项,并 且不能维护;当数据库引用该词典时,将按字建立索引(这就是这个词典的特殊性) ,并用来指定“所有的单字都建索引” ,以便能够进行单个字的查询(见 2.3.2 和 2.3.4 节) 。因此也把该词典叫做“全字词典全字词典” 。 系统安装时,该词典将被自动创建。 1.8.2 附加分词词典 附加分词词典是分词词典的补充。trs 提供的缺省分词词典是一部通用的分词 词典,在多数情况下没有包括用户应用的特殊词汇。在这种情况下,一般不是对系 统缺省分词词典进行维护,而是通过建立新的附加分词词典来定义新的词汇,系统 在自动分词时将同时参考分词词典和附加分词词典中的词汇。 附加分词词典由一系列词汇组成,词典中的英文词汇不起作用。每部附加分词 词典可容纳多达 5 千条词汇,每个词汇的最大长度为 20 个字节,即 10 个汉字。 附加分词词典的使用要点: 在创建数据库时引用附加分词词典。附加分词词典被引用后,一般不允许再对 该词典进行维护,除非重新创建数据库的索引。 在一般情况下均使用系统提供的缺省分词词典。即使在数据库不引用任何附加 分词词典,用户应用的特殊词汇也能进行检索。 对英文数据库不使用分词词典。 附加分词词典中的英文词汇不起作用,因此不要在附加分词词典中加入英文词 汇。 附加分词词典一般包含了某个领域的专业词汇。 1.8.3 停用词典 停用词典又称为禁用词典,它是由一系列没有检索意义的高频词组成的,如英 文文献中的“the” 、 “of” 、 “and” 、 “to”等,中文文献中的“的” 、 “关于” 、 “但是” 、 “而且”等。从相关性方面讲,文献中的这些词没有检索意义,因为这些词会出现 在每篇文献中。在检索系统中,通常使用停用词典来过滤掉文献中没有检索意义的 - 22 - 第 1 章 基本概念 词,以最大限度地减少数据库的空间膨胀率、加快查询速度。 停用词典中的词汇可以是中英文标点符号、中英文高频词等。每部停用词典可 容纳多达 3 千条词汇,每个词汇的最大长度为 10 个字节,即 5 个汉字。 停用词典的使用要点: 在创建数据库时引用停用词典。 一般不对系统缺省停用词典进行维护,当需要过滤更多的无意义词时,可通过 创建附加停用词典来实现。 无论是中文数据库,还是英文数据库,均可引用停用词典。 并不是语言中所有的高频词都需要作为停用词,例如“家” 、 “世界”是高频词, 但对大多数社会科学资料数据库来说,它们可能是重要的词汇。一个词是不是 需要作为停用词,与数据库的领域特点有关,如在计算机科学文献中, “计算 机”可作为停用词,因为它几乎出现在每一篇文献中,没有检索意义。 1.8.4 附加停用词典 附加停用词典是停用词典的补充。trs 提供的缺省停用词典是一部通用的停用 词典,不包括特殊领域的无检索意义的词汇。在这种情况下,一般不是对系统缺省 停用词典进行维护,而是通过建立新的附加停用词典来满足特殊要求。 附加停用词典中的词汇可以是中英文标点符号、中英文高频词等。每部附加停 用词典可容纳多达 1 千条词汇,每个词汇的最大长度为 10 个字节,即 5 个汉字。 附加停用词典的使用要点: 在创建数据库时引用附加停用词典。 无论是中文数据库,还是英文数据库,均可引用附加停用词典。 附加停用词典一般包含了某个领域的高频词。 1.8.5 稀疏词典 在某些应用领域中,用户并不需要进行全文检索,而希望从文献中自动抽取一 些词汇作为检索的关键词,也就是说并不需要索引文献中的所有词汇,而只需索引 其中一些关键词。稀疏词典就是存储这些关键词汇的词典。 第 1 章 基本概念 - 23 - 关键词既可是中文词,也可是英文词。每部稀疏词典可容纳多达 5 千条词汇, 每个词汇的最大长度为 20 个字节,即 10 个汉字。 稀疏词典的使用要点: 在创建数据库时引用稀疏词典。稀疏词典被引用后,一般不允许再对该词典进 行维护,除非重新创建数据库的索引。 稀疏词典一般单独使用。 稀疏词典中的词
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025学年南阳市部分校高三语文上学期11月考试卷附答案解析
- 公司石脑油吸附分离装置操作工设备技术规程
- 安置房项目机电安装施工组织设计
- 个人承包工程挂靠公司协议书
- 2026年北师大版(2022)小学劳动技术六年级上册期末综合测试卷及答案(三套)
- 函数的概念及其表示(2考点+8大题型15种考向)-2026年新高考数学一轮复习(讲义+专练)原卷版
- 技术培训实施管理细则
- 河流地貌的发育(同步训练)-2026年高考地理一轮复习(解析版)
- 《边做边学-After Effects 2021影视后期合成案例教》课件 第5章 创建文字
- 动词的时态和语态(学生版)-高考英语高频考点复习
- 2025天津滨海传媒发展有限公司招聘13人考试笔试备考试题及答案解析
- 2025年安康旬阳市人民医院招聘(15人)笔试考试参考题库及答案解析
- 货物贸易外汇管理
- 2025年中国浙江省公安民警心理测验真题及答案
- 美食嘉年华策划方案
- 烹调工艺与营养职业规划
- 广东定额套价培训
- 化疗药物配置操作规范
- (2025版)低位前切除术后肠道功能障碍诊疗规范专家共识解读
- 道路交通安全法题库选择及答案解析
- 客户服务安全培训手册
评论
0/150
提交评论