TRS全文检索参数_第1页
TRS全文检索参数_第2页
TRS全文检索参数_第3页
TRS全文检索参数_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目项目 数数 量量 具体参数具体参数 全文检 索数据 库 1 要求与地方志目前使用的网站内容管理系统同品牌 或能够进行无缝要求与地方志目前使用的网站内容管理系统同品牌 或能够进行无缝 衔接 衔接 要求原厂服务要求原厂服务 且必须原厂家在南宁当地有常驻技术人员且必须原厂家在南宁当地有常驻技术人员 投标时必投标时必 须提供加盖公章的原厂服务承诺书须提供加盖公章的原厂服务承诺书 1616 个并发个并发 LicensesLicenses 版本版本 全文检索数据库系统用以搭建站内全文检索应用 及实现统一入口跨全 站搜索的网站全文检索应用 具体要求如下 系统技术要求系统技术要求 实现结构化和非结构化数据的统一检索 并全部字段都能建立 索引 实现基于元数据 meta data 和全文 full text 的 联合查询 支持多种数据源数据的全文索引 可自动将关系型数据库 如 Oracle SQL Server MySQL Sybase 中的数据导入全文数 据库 并自动保持同步更新 使用户在享有关系型数据库卓越 的数据处理功能的同时 拥有实时全文检索功能 支持 Text HTML XML RTF MS OFFICE 文档 Word Execl Powerpoint 和 PDF 文件自动建立索引 支持 GB18030 和 UTF8 大字符集 便于对中文偏僻字和各国文 字的支持 词典管理 检索时能够让用户自行维护词典 包括同义词典 近义词典 反义词典 主题词典进行扩展检索 允许使用文中的任意字 词 短语 句和片段进行检索 汉语分词准确率及字词混合索引机制 切分正确率达到 99 1 以上 由于汉语分词不能达到 100 准确 所以中文检索 系统需要提供一种索引方式 字词混合索引 保证一定查准率 的同时提供 100 查全率 支持对检索结果的各种排序 检索结果与检索词的相关度排序 基于字段的排序 后进先出的快速排序 同时对多库检索结果 可以进行混排 LIFO 后进先出的快速排序 对实际运行系统 的性能提高有很大作用 TOPn 排序可通过结果记录数的裁减以 减少检索历史的存储来提高检索速度 支持有多个文本字段和非文本字段参与的相关排序 自动分库 Partitioning 充分利用多库并行检索技术 进 一步提高了检索速度 使得数据加载速度保持稳定 进一步提 高了数据更新速度 自然语言检索 输入一个检索串或一句话 分词后进行高频词 过滤 词语个数限定 词语之间的位置关系等处理 根据词语 在文章中的位置和频度 以及词语的倒文档频度 计算相关度 按相关度高低排序后输出结果 为了专题检索的需要 必须提供布尔算符 关系算符 邻近 算符 同在算符 频率算符 截词符 通配符 以及长检索表 达式的支持 1MB 字节 检索结果的分类统计等分析功能 统计检索结果在各库表 中的分布情况 检索结果的分类统计 支持用正则表达式来筛 选分类统计的目标字段值 并支持抽取部分子串组成新的类别 西文大小写无关检索 全半角无关检索 中文简繁体扩展检 索 具有系统级 数据库级 记录级和字段级四级安全控制机制 支持数据的加密与压缩传输 支持主流的操作系统平台 Windows Linux Solaris AIX HPUX 支持主流开发平台 提供 CAPI Java API Net API 二次开 发接口 支持分布式检索和负载均衡集群功能 实现海量数据的无限 扩展 实现高并发用户的高性能访问 系统功能要求系统功能要求 全方位检索手段 提供多种检索运算符 包括外部特征与正文 内容的各种逻辑组合检索 与 或 非 异或 位置检索 同 段 同句 相差几个字以及前后次序有关等 二次检索 渐 进检索 模糊检索 历史检索 词根检索 大小写敏感检索 概念检索 对检索结果按与检索表达式的相关性程度排序等 支持扩展检索 包括主题词典自动扩展检索 同义词 反义词 自动扩展检索 全半角自动扩展检索 简繁体自动扩展检索等 支持语义检索 支持长句检索 系统可自动分词 按句子语义 进行检索 并可选择关键词再次检索 支持检索结果的分类统计与分析 统计检索结果在各库表中的 分布情况 检索结果的分类统计 支持用正则表达式来筛选分 类统计的目标字段值 并支持抽取部分子串组成新的类别 支持检索结果排序 支持多字段加权的相关性排序 并且可 以设置文档的不同字段以不同的权重 提升关键字段的权重 Date Number 类型字段按大小排序 Char 类型提供按内码 拼音 笔画等三种排序方式 相似文档检索 百度新闻搜索的相同新闻 Google 的类似网页 文章消重 相关文章推荐 系统性能要求系统性能要求 G 级数据全文检索响应在毫秒之内 全文检索数据库的 零 空间膨胀率 10 20 数据索引更新时间平均小于 0 02s 记录 每条记录 4kb T 级文本数据库 一个任意词的检索都在 1 秒钟之内 检索智能词典能按需扩展 汉语切分正确率达到 99 1 以上 全文数据加载和索引单机速度为 10GB 小时 元数据加载和索 引单机速度为 16GB 小时 千万记录的全文数据单机查询速度为 0 x 秒 十亿记录的元数 据单机查询速度在 3 秒内 全文检 索网关 1 支持主流关系数据库 支持 Oracle DB2 SQL Server Sybase MySQL 和人大金仓 KingbaseES 等关系数 据库 支持 RDBMS 中格式化文档的全文检索 能够自动对关 系数据库大对象字段中存储的格式化文档 支持主流文档如 Word Powerpoint Excel PDF WPS 等文件进行全文检索 数据同步和一致 可以保证索引和数据的同步 从而 保证查询的结果是完全正确的 支持完全更新和增量更新 完全更新是把关系型数据 库中数据一次性全部导入到全文数据库中 不重复执行 增量 更新是只对发生变化的数据进行数据同步 并以一定的时间周 期循环执行 支持多种类型的任务配置 支持从关系型数据库到全 文数据库的多种任务配置 支持表和视图 关系数据库中的表和视图均可以作为 同步操作的数据源 自动化程度高 用户只需要按步跟随 任务创建向导 的提示就可以创建更新任务 可设置的定时执行任务 对创建好的任务 用户可以 设置其自动定时执行 如 用户可以设置一个增量更新任务每 隔 5 分钟执行一次 即每隔 5 分钟将关系数据库表中数据的修 改向全文数据库中进行一次索引的更新 全文检 索信息 发布应 用服务 器系统 多语种的支持 通过对UTF8编码方式的支持 实现了对多语种内容的发布及检索 多种内容格式的支持 对TRS全文检索数据库 文档文件 图文混排内容 流媒体文件等 各种格式内容 提供了完备的发布支持 灵活的内容表现 通过频道 Channel 及模板 Templet 技术 实现内容与表现的真正 分离 无论是更换内容还是改变显示 都将变成一件非常轻松的事情 而频道与模板在多应用间的高度重用 更加降低了维护的成本 强大的检索功能 基于TRS在全文检索中的领先技术及其对主流关系数据库的良好支 持 借助精确检索 全文检索 关联检索等技术 TRS WAS提供了强大 的内容检索功能 帮助客户更快更准确地找到正确的内容 内容维护 可以通过Web方式对数据库中的内容进行增加 删除 修改等维护 操作 提供了方便的内容维护途径 缓存功能 TRS WAS产品提供了内容展现的缓存功能 在内容实时发布的基础 上 可以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论