




已阅读5页,还剩35页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
企业文档信息安全系统解决方案 人民检察院 内部文档信息安全系统 解决方案 二二 九九年年六六月月 企业文档信息安全系统解决方案 前前 言言 随着我省检察机关信息化建设及计算机 存储设备及网络的快速 发展 电子信息已经成为单位重要信息载体 我们的沟通方式也越 来越多样化 如邮件 即时消息 移动存储等等 但在提高我们工 作效率及质量的同时 也带来了新的问题 如何在信息技术高速发 展及人才频繁流动的今天保证我们的系统及单位信息安全 病毒防 护 外部访问控制 内外网物理隔离以及其它针对外部网络的访问 控制系统 难以解决内部的信息安全问题 数据备份 灾难恢复可 以保证系统损坏造成信息丢失 但内部人员可以轻松地将计算机中 的机密信息通过各种方式泄露出去 这种数据流失 特别是一些涉密 资料 给检察机关造成了损失是致命的 也是更难防范的 一 单位一 单位信息安全信息安全现状现状 现在一提到信息安全 人们首先想到的就是病毒 黑客入侵 在媒体的宣传下 病毒 黑客已经成为危害信息安全的罪魁祸首 然而 人们却忽视了组织内部人员有意或无意对信息的窥探或窃取 从常理角度出发 内部人员更易获取信息 因为内部人员可以很容 易地辨识信息存储地 另外也不需要他们拥有精深的IT知识 只要 会操作计算机 就可以轻易的获取公司机密文件 相对而言 黑客 从外部窃取资料就比较困难 首先他们要突破防火墙等重重关卡 然后还要辨别哪些是他们想要的信息 这就对黑客提出了比较高的 技术要求 网络经济发展给信息安全产品带来新的挑战 防火墙 防病毒 企业文档信息安全系统解决方案 信息加密 入侵检测等已经基本解决了抵御外来入侵的困扰 但是 内部用户引起的信息泄密问题成为当前信息安全的新的焦点 建立 起有效的事前预防 事后追究机制成了众多单位的当务之急 FBI和CSI在2002年对484家公司进行了网络安全专项调查 调查 结果显示 超过85 的安全威胁来自公司内部 有6 来自内部未授权 的存取 有4 来自专利信息被窃取 有3 来自内部人员的财务欺骗 而只有2 是来自黑客的攻击 在损失金额上 由于内部人员泄密导 致了60 565 000美元的损失 是黑客所造成损失的16倍 病毒所 造成损失的12倍 这组数据充分说明了内部人员泄密的严重危害 同时也提醒国内组织应加强网络内部安全建设 因此 不管是以乐观还是悲观的心态来看待网络安全的现状以及 未来的发展前景 我们都应充分意识到这样一个事实 来自内部的 威胁已经成为危害网络安全的首要因素 内忧甚于外患 如何建立 一个可信并可控的内部网络 Trusted 文档资料数据存储初步可以考虑 直接使用服务器自带硬盘 如数量很大的时候 可采用 RA ID5 磁盘阵列 部署 SAN Storage Area Network 存储区域网 存储方案 IBM 服务器通过光纤通 道直接连接 IBMDS4100 磁盘柜 可同时提供大量工作站的检索访问需求 四四 系统初步设计系统初步设计 系统采用独特的加密技术以及国际公认的加密算法 在充分保证用户信息 安全基础上 更多采用人性化设计 尽量贴近用户现行管理模式 硬件环境及 工作习惯 减少对用户的影响 内部文档信息安全系统解决方案 第 4 页 共 34 页 1 设计原则设计原则 系统设计应以 安全 为核心 以 完善 实用 快速 稳定 为设计之 根本 设计原则如下 系统必须有稳定的系统架构 完善的功能模块 创新的处理非规则纸张的处理方案 使原纸质资料数字化快捷 方便 并且不损伤原资料 安全保密方面必须提供多种权限控制 根据不同角色授予不同权限 应用高新电子技术 防止伪造或篡改卷宗 保证数据的可靠性 资料信息完善 包括多种静态 动态影象的资料 为各种应用系统提供接口 能方便的从现行 OA 中提取数据 用户使用界面专业 简洁 操作简单 最少的鼠标点击次数 提供查询 处理 打印 输入输出等常规功能 提供统计 分析及数据挖掘功能 采取多种存储和备份方式 既保证数据调用的速度 又能保证数据的安 全性 2 设计目标设计目标 实现原有纸质资料的数字化存储 实现任意角色 任意目录的授权控制 实现单位内部资料的联网检索 授权范围内 实现文档信息安全管理系统与其它系统 如 OA 的无逢连接 实现阅读时的防拷贝 打印等资料外泄的控制 实现资料脱离单位应用环境后不能读取的控制 内部文档信息安全系统解决方案 第 5 页 共 34 页 3 系统框架系统框架 如上图所示 整个系统由三个大的子系统构成 一是文档管理系统 二是 资料存储或读取时的加解密系统 三是查询的时候的全文搜索系统 主要功能 集中在文档资料的管理系统上 包含资料目录的授权 用户权限控制 文件添 加 含自动批量后台上传 断点续传等 查看防外泄控制及查询等等常用功能 接下来我们先主要介绍下管理功能的相关模块部分 内部文档信息安全系统解决方案 第 6 页 共 34 页 4 分模块设计分模块设计 4 1 用户管理用户管理 用户管理对系统管理员开放 可添加 删除用户 添加 删除用户角色 以角色形式管理用户 对同属一个角色的用户设置权限 包括对一个目录及其 子目录中文档的操作权限 可分别设置上传 下载 修改 加锁 解锁 分类 删除 还原 版本比较 修改通知等一系列权限 可设置用户私有目录的空间 限制 作为网络硬盘使用 4 2 目录管理目录管理 目录管理对系统管理员开放 可修改目录结构 包括添加 删除目录和子 目录 目录分为系统目录和用户目录 系统目录只能由系统管理员建立 用户 目录可由一般用户在系统目录下自建 并且可以设置目录的访问权限 到角色 或具体的用户 及目录所保存文档资料的关键词用于搜索 4 3 文件上传文件上传 具有权限的用户选择目录 选择本地文档 执行上传操作 系统自动生成 唯一文件编号 用户可输入版本号 缺省为 1 0 版本 本上传部分采用 C S 结 构或由客户端控件来完成 主要为用户提供断点续传和批量文件的后台多线程 传递等等功能 方便用户提交后不用等待传输完成 传输的控制交由系统来完 成 另一方面在整个传输中 包含从用户 PC 机到服务器的提交过程和服务器的 存储两个部分 为防止网络截获或复制数据包采用非对称加密技术和存储加密 技术 保证数据的安全 没有对应用户 文档创建者 的私匙是无法解密该文 件 4 4 文件查看文件查看 具有权限的用户选择系统中的文档 可在线查看文件内容 查看的时候不 内部文档信息安全系统解决方案 第 7 页 共 34 页 是直接打开该文档 而是通过我公司提供的统一阅读器来打开该文档 在打开 的过程中系统自动进行授权判断 调用对应解密密钥尽心解密 控制打印 复 制等 而且整个阅读器由 flash 来制作 可以很好的控制用户通过 IE 缓存或系 统缓存来获得文件 如下图 4 5 在线编辑在线编辑 具有权限的用户选择系统中的文档 可在线编辑文档内容 结合 Office 应用软件实现 在打开后接管 office 的功能菜单 防止另存或打印导致文档资 料外泄 编辑结束并提交后 系统自动加密存储到服务器并修改文档版本号 保留旧版本的文档 同样文件从服务器读取的时候都由系统自动判断授权后进 行解密 编辑后在进行加密保存 所有过程对用户都是透明的 4 6 文件下载文件下载 具有权限的用户选择系统中的文档 可下载文档到本地 但下载下来的是 内部文档信息安全系统解决方案 第 8 页 共 34 页 加过密的文档 不能直接使用 office 等软件直接打开 必须使用系统提供的阅 读器进行用户登录后才能阅读 登录的时候判断用户授权获得相应解密密钥 非法获得的文档同样不能打开 4 7 智能提醒智能提醒 类似单位内部 QQ 聊天工具 客户端开机自动登陆 当系统中有人修改或添 加文档时 能够自动弹出提示对话框 当用鼠标点击查看时根据所登陆的权限 自动打开此文档 工具还能在线一对一或一对多的信息交流 4 8 文件检索文件检索 具有权限的用户可以对文档进行全文搜索 环境搜索 模糊与准确定位及 自定义搜索 本功能后台部份的功能 包含索引库的构建 搜索智能提示等 由全文检索子系统来完成 本部分只是实现 WEB 的调用和结果的显示 4 9 文件信息查询文件信息查询 具有权限的用户可以按版本查询文档 并能够比较版本差异 可按照指定 日期统计查询被删除的文件数量 分别是那些文档等信息 访问频率较高的文 档 4 10 日志查询日志查询 具有权限的用户可以查询每个用户的所有操作包括操作用户 时间 操作 类型等的日志 能记录所有文档的历史版本 包括版本回滚 文档同步等功能 查看文档的异动过程 事件类型有 创建文档 读取文档 签出文档 签入文 档 取消签出文档 4 11 系统备份系统备份 对于系统数据库和文档 具有权限的用户可以进行自动各份 异地备份 内部文档信息安全系统解决方案 第 9 页 共 34 页 增量备份 五五 主要功能设计主要功能设计 1 文档上传部分文档上传部分 1 11 1 功能要求功能要求 本组件实现将客户端文件批量压缩打包上传到服务器 再在服务器解压缩 的任务 本组件以 DLL 动态链接库的形式提供 供应用程序调用 共有 2 个 一个是客户端组件 负责文件的压缩 打包 以及向服务器上传 一个是服务 器端组件 负责文件的解压缩 功能要求如下 客户端组件功能要求 客户端组件功能要求 1 文档压缩打包 调用程序指定一个或多个本地文档资料 客户端组件批量进行压缩打 包 2 上传 客户端组件将以上打包文件向服务器发送 服务器采用 FTP 服务接受 打包文件 客户端组件并向服务器端组件发送文件解压后的放置路径 以 及采用 MD5 算法 生成文件摘要 也向服务器端组件发送 在整个传输过 程中通过文档加解密系统进行数据加解密 在数据上传中 因为用户中止或因其他原因导致的中断 在其后可以 进行断点续传 服务器端组件功能要求 服务器端组件功能要求 服务器端打包文件的解收由 FTP 服务进行 在接收到一个完整的打包文件 后 由服务器端组件根据文件摘要检查文件传送的正确性 进行解压缩和解密 放置到服务器端指定的存储路径中 1 21 2 性能要求性能要求 从系统设计上必须满足在客户端将多个文档资料打包上传的需要 对于非 内部文档信息安全系统解决方案 第 10 页 共 34 页 压缩或低压缩格式的文档资料 具有显著的数据压缩效果 减少网络传送时间 满足在上传中因用户中止或因其他原因导致的中断后再进行断点续传的需要 并通过文件摘要 保证服务器端最后解压缩 解密输出的是正确接收的文件 1 31 3 客户端组件设计客户端组件设计 调用程序 指通用调用本组件实现上传功能的应用程序 通过组件的 ConnectFtp 接口函数连接 FTP 服务器 通过 Upload 函数接口上传文件 首先加密 压缩文件打包 压缩算法采用 无损压缩 以便使服务器端能完全还原文件 然后生成打包文件的文件摘要 文件摘要是由 MD5 算法生成的 128 字节文件 不同文件生成同样文件摘要的机 率几乎为零 因此可以作为判断文件传送的正确性之用 数据传送中 客户端组件与 FTP 服务建立 TCP 连接 向服务器传送打包文 件数据 在文件上传中调用程序可通过 Stop 接口函数中止传送 如果文件上传已完毕 客户端组件与服务器端组件建立另一 TCP 连接 向 服务器端组件传送文件摘要 各压缩文件信息 各文件在服务器的保存路径 供服务器端组件检查和解压缩 服务器端组件验证上传文件后向客户端组件返 回正确或错误信息 客户端组件通过 uploadImages xml 文件管理压缩包的续传 当一个压缩包 上传开始的时候 客户端组件向 uploadImages xml 添加记录 保存被压缩文件 信息 在上传完毕且得到服务器端组件返回正确信息后 删除该记录和压缩包 如果上传被用户中止或因其它原因中断 该记录和压缩包仍然存在 调用程序 可读取 uploadImages xml 文件 选择待断点续传的压缩包 通过 ResumeUpload 接口函数进行续传 客户端组件通过 FTP 协议向 FTP 服务获知文 件断点 继续文件上传 1 41 4 客户端组件接口设计客户端组件接口设计 客户端组件 uploadImages dll 向调用程序提供以下接口 ConnectFtp 功能说明 内部文档信息安全系统解决方案 第 11 页 共 34 页 连接 FTP 服务器 输入参数 string ftpUser FTP 服务用户名 string ftpPass FTP 服务口令 string serverIp 服务器 IP 地址 string ftpPort FTP 服务端口号 返回结果 bool 连接成功与否 Upload 功能说明 指定文件并压缩上传 输入参数 string files 待上传的各文件名 含路径 以逗号分隔 string savePath 各文件在服务器的保存路径 以逗号分隔 返回结果 int 1 成功 1 错误 0 被中止 ResumeUpload 功能说明 对于被中断上传的压缩包 进行断点续传 输入参数 string continueId xml 中的待续传包记录号 返回结果 int 1 成功 1 错误 0 被中止 Stop 功能说明 在文件上传中中止传送 ErrorInfo 功能说明 得到错误信息字符串 内部文档信息安全系统解决方案 第 12 页 共 34 页 返回结果 string 1 51 5 客户端组件流程图客户端组件流程图 1 5 11 5 1 新上传流程图新上传流程图 开始 调用程序传入文件信 息参数 压缩文件 生成文件摘要 发送结束 调用程序 要求中止 向FTP服务发送 文件数据 向服务器端组件 发送文件信息 结束 删除本地压缩文 件 文件摘要和 XML记录 保存打包文件名和 文件细目到XML Y N N Y 接收服务器端组 件返回信息 传送正确 向调用程序返回 错误结果 向调用程序返回 正确结果 向调用程序返回 中止结果 Y N 内部文档信息安全系统解决方案 第 13 页 共 34 页 1 5 21 5 2 断点续传流程图断点续传流程图 内部文档信息安全系统解决方案 第 14 页 共 34 页 开始 调用程序根据XML 指定续传包 发送结束 调用程序 要求中止 向FTP服务续传 文件数据 向服务器端组件 发送文件信息 Y N N Y 从FTP服务获得文 件断点 删除本地压缩文 件 文件摘要和 XML记录 接收服务端组件 返回信息 传送正确 向调用程序返回 错误结果 向调用程序返回 正确结果 向调用程序返回 中止结果 Y N 结束 1 61 6 服务器端组件服务器端组件设计设计 服务器端组件在应用中处在后台长期运行状态 等待客户端组件传送信息 在得到 内部文档信息安全系统解决方案 第 15 页 共 34 页 客户端组件传送的传送文件摘要 各压缩文件信息 各文件在服务器的保 存路径信息后 根据文件摘要检查 FTP 服务收到的压缩包文件的正确性 向客 户端组件返回结果 如果压缩包正确 按照客户端组件的要求 把压缩包文件 解压缩到正确的路径 删除压缩包 然后继续等待下一客户端信息 1 71 7 服务器端组件接口设计服务器端组件接口设计 服务器端组件 serverImages dll 向调用程序提供以下接口 Start 功能说明 启动服务器端组件 等待接收客户端信息 进行解压缩 输入参数 string ftpPath 上传压缩包所在路径 FTP 存储路径 返回结果 bool 启动成功与否 Stop 功能说明 停止服务器端组件运行 ErrorInfo 功能说明 得到错误信息字符串 返回结果 string 内部文档信息安全系统解决方案 第 16 页 共 34 页 1 81 8 服务器端组件流程图服务器端组件流程图 开始 根据文件摘要检 查收包正确性 向客户端组件 返回信息 接收客户端组件 所发文件信息 传送正确 等待客户端信息 收到信息 调用程序 要求退出 解压缩到 指定路径 结束 删除压 缩文件 Y N Y N N Y 2 文档加解密部分文档加解密部分 本部分主要达到将文档资料加密 只有经过授权的用户才能通过网页下载 打开浏览的功能 以防止文档在传输过程中丢失泄露 内部文档信息安全系统解决方案 第 17 页 共 34 页 2 12 1 功能要求功能要求 本系统主要分为相对分离的两部分 一部分是加密端 一部分是 WEB 服务 器端 即解密端 解密端和加密端是一对多关系 多个用户 每个用户的加密 密钥都不一样 文挡在加密端加密后 通过文档管理系统传输到解密端 操作 员通过网页将已加密的文档导入系统 经过授权的用户通过网页方式登陆后 发出对文档的请求后 WEB 服务器进行解密生成临时文件 该临时文件由系统自 带的阅读器来调用 无法在其它系统打开 该用户可下载浏览该文档 在这个 过程中 解密仅对此用户有效 用户下载完成后临时文件便自动删除 其他用 户如想下载 仍需要登陆并发出请求启动 WEB 服务器再次进行解密 2 22 2 定义定义 对称加密算法 即加密端和解密端的密钥一致的算法 该种算法速度快 适用于对大数据量进行加密 不对称加密算法 加密端和解密端的密钥不一致的算法 该种算法由公钥 进行加密 由且只能由私钥进行解密 私钥由解密端掌握 需向该解密端发送 加密信息的加密端得到公钥 该种算法速度慢 不适合对大数据量进行加密 密钥 用于数据加密或解密的字符串或二进制串 2 32 3 处理流程处理流程 文档 加密 解密 加密文档 解密文档解密文档解密文档 下载 用户自行拷贝导入 内部文档信息安全系统解决方案 第 18 页 共 34 页 2 42 4 总体结构和模块外部设计总体结构和模块外部设计 模块子模块 提供 net 文件调用接口 ClsRsa 加解密算法类 clsDes 加解密算法类 可执行文件 OCX 控件或 API 控件 需开发 clsRnd 加解密算法类 加密端 VB 运行时支持文件 VB 提供 clsInterface 类 提供 net 文件访 问接口 clsRsa 加解密算法类 clsDes 加解密算法类 解密组件 dll 文件 需开发 clsRnd 加解密算法类 文件上传组件接口 dll 文件 配合上传部分使 用 用户权限认证 ASP Net 文件 下载文档 ASP Net 文件 发布已加密文档 ASP Net 文件 用户管理 ASP Net 文件 生成公钥私钥 ASP Net 文件 删除已导入加密文档 ASP Net 文件 ASP Net 文件 需开发 查看日志 ASP Net 文件 解密端 HTML 文件 需开发 加密算法采取不对称加密算法和对称加密算法结合的办法 在文档加密和 解密的过程中 加密端在加密时生成对称加密算法密钥 文档由该生成的对称 加密算法密钥进行加密 对称加密算法密钥由系统管理员事先生成设定的不对 称加密算法公钥进行加密 加密后的对称加密算法密钥与文档加密数据一并拷 贝至解密端 设计为包含在一个文件中 在解密时首先通过保存在解密端中的 私钥解密对称加密算法密钥 再由对称算法及其密钥解密文档 这样做的原因在于 文档是大数据量 因此必须采用适合加密大数据量的 对称算法 但是由于对称算法加密和解密采取同样的密钥 如果单纯采取对称 算法 将导致解密密钥保存在所有加密端和解密端之上 大大增大了泄密的可 能性 所以应结合采用加密和解密密钥不一样的不对称加密算法 对称算法密 钥由加密端在加密时临时生成 并由不对称加密算法加密后一并传输 这样就 只有解密端 WEB 服务器 计算机保存有最终的解密密钥 内部文档信息安全系统解决方案 第 19 页 共 34 页 具体的对称加密算法计划采用 DES 算法和 Rnd 随机数序列算法结合的办法 不对称加密算法计划采用 RSA 算法 2 52 5 功能分配功能分配 模块 功能 加密端 主窗口 clsRsa 类 clsDes 类 clsRnd 类 clsInterface 类 用户权限认 证 ASP 文件 下载文档 ASP 文件 文档加密 文档解密 下载 模块 功能 用户权 限认证 net 文件 net 文 件上 传组 件 发布 文档 net 文 件 用户管 理 net 文件 生成公钥 私钥 net 文 件 删除已导 入加密文 档 net 文 件 查看日志 net 文件 clsRsa 类 发布已加 密文档 用户管理 生成公钥 私钥 删除已导 入的加密 文档 查看日志 2 62 6 外部接口设计外部接口设计 在加密端 软件以 WINDOWS 的 API 或 OCX 控件形式提供给页面调用 可对 上传组件提供的一个或多个文件进行加密 存放可由系统自动指定的保存文件 也可由用户自行指定保存文件 由用户启动进行单个文件加密或批量加密 加 密过程中及加密结束后系统给出相应提示 在解密端 软件以 WEB 服务程序形式运行 用户在与 WEB 服务器相连的网 络中通过浏览器方式进行操作 系统对所有用户给出登录界面 下载链接列表 发布加密文档界面 对系统管理员还给出日志查阅列表 用户管理界面 密钥 生成界面 同时 WEB 服务需要 IIS 服务器的支持 内部文档信息安全系统解决方案 第 20 页 共 34 页 连接 WEB 服务器端 即解密端 进行操作的用户客户机应配备访问 WEB 服 务器所应具备的基本硬件条件 连接 WEB 服务器端 即解密端 进行操作的用户客户机应安装浏览器 以 及处理有关下载文件的软件 比如处理 EXCEL 文档和 WORD 文档所需的 OFFICE 软件 2 72 7 内部接口设计内部接口设计 加密端与解密端之间的接口通过用户自己拷贝或上传加密文档并导入解密 端的方式实现 在解密端 用户首先发出 URL 到 IIS 服务器 IIS 服务器调用 ASP 和 HTML 文件 实现网页界面和数据库访问功能 ASP 文件再调用解密组件 和文件上传组件实现解密文档 生成密钥 已加密文档上传保存等后台功能 2 82 8 安全保密设计安全保密设计 根据上述设计 在不能获得解密密钥的情况下 文档加密后被破解的难度 极大 在实际应用中近于不可能 而解密密钥只存于解密端 WEB 服务器 计 算机中 注册表 又由于保存用户认证信息的数据库也保证在解密端 WEB 服 务器 计算机中 因此解密端 WEB 服务器 的安全 包括注册表和保存有密 钥的数据库 解密组件的文件夹的安全成为系统安全的关键 为防止他人获得 解密密钥 数据库文件 解密组件 DLL 文件 进行解密和破解用户认证的研 究分析 应该保证只有具备相应权限的人员才能直接进入解密端 WEB 服务器 计算机进行操作 以及有关文件夹不能被不具备权限的网络用户访问读取 在 操作系统中设置 不能被 WEB 用户访问读取 在 IIS 管理器中设置 2 92 9 维护设计维护设计 由于主要程序基本都是 B S 结构 不存在太多的升级 服务器端的升级程 序做出修改后 主要通过在解密端拷贝覆盖 API 控件或 OCX 控件 在加密端拷 贝覆盖加密组件 DLL 文件 ASP 文件 HTML 文件的方式进行维护升级 数据 库结构做出修改后 如果需要保留现有数据 通过直接打开库文件的方式进行 内部文档信息安全系统解决方案 第 21 页 共 34 页 修改 后期视升级的频繁性也可考虑做成自动升级服务 便于升级 3 全文搜索引擎全文搜索引擎平台平台 系统文档资料在服务器端安全存放后 可通过调用我公司提供的全能搜索 平台提供对结构化数据和非机构化数据的全文搜索能力 下面简要介绍下我公 司的全能搜索平台 3 13 1 站点检索系统站点检索系统 随着专网内容以及数目的不断丰富 网站的维护人员往往需要开始考虑如 何为所辖网站设计方便的信息查找功能 即使网站已经具备了良好的导航功能 越来越多的来访者还是习惯直接检索所需要的信息 而不是花更多的时间在网 站上浏览 全全 能能 内内 容容 检检 索索 系系 统统 结构化数据 非结构化数据 伊 天 园 专 网 关系数据库内容检索引擎 RDBMS Gateway 全文检索服务器 Server 网站 社区 站点检索系统 搜索引擎系统 RDBMS Gateway 专业数据库 RDBMS Gateway Internet 因特网 内部文档信息安全系统解决方案 第 22 页 共 34 页 专业检索系统就是为网站提供全方位的信息检索功能而设计 它是全能内 容检索系统的一个有机组成部分 利用它可以方便地实施一个或多个网站的站 内搜索引擎功能 站点检索系统可以周期性地监控网站上的信息变化情况 对 发生变化的信息自动建立索引 能够实现针对网页内容的全文检索以及针对网 页各类属性的特征检索 维护人员可以方便地把检索控件嵌入到任何栏目或网 页中 3 1 13 1 1 要求要求 智能检索智能检索 要求在查全和查准方面比一般搜索引擎系统高 智能检索技术包括智能中 文分词 采用了上万条歧义排除规则 广义同义词检索 主题词典控制检索以 及相似性检索 相关度排序和时间排序相关度排序和时间排序 检索结果的输出顺序是衡量站内检索质量的重要指标之一 站点检索系统 提供相关度排序和时间排序两种有效的排序输出方式 相关度排序以检索词与 网页的相关性为依据对检索结果排序 相关性是对词频 词位 词在文章中出 现的位置 以及文件大小等因素综合评价的结果 时间排序则可以保证把最新 的网页优先输出 这两种排序方式充分满足了用户对站点检索结果的浏览要求 在搜索引擎中被普遍采用的超链分析方法对站内检索结果的排序基本不起作用 增量更新增量更新 站点检索系统采用增量更新方式对网站内容进行更新 即每次检查网站的 变化时 只对新添加或发生变化的网页进行更新 索引性能明显优于只能进行 完全更新的系统 并且把对网站本身的访问压力降至最小 开放性开放性 站点检索系统把网页的内容进行各种自动标引后 统一存储在数据库中 内容检索服务器或 SQL Server 数据库 使这些信息成为可以再开发利用的 资源 内部文档信息安全系统解决方案 第 23 页 共 34 页 3 1 23 1 2 体系结构体系结构 站点检索系统有三个逻辑部分组成 即网页采集 Site Search 内容检 索服务器 以及 Web 查询模块 网页采集是一个智能化的网络资源采集软件模块 它可以自动采集目标网 站上的网页信息 然后提交给内容检索服务器建立内容索引 网页自动采集还 能够按照设定的时间周期自动监控目标网站的变化 并更新发生变化的网页的 索引 内容检索服务器可以对网页资源建立全面的索引信息 包括网页 URL 名称 标题 日期 大小 以及内容的全文索引 它是提供检索服务的核心服务器 Web 查询模块是最终为网络用户提供检索服务的软件模块 它负责接收网 络用户的检索请求 并向内容检索服务器提出检索请求 并将检索结果提交给 用户 3 1 33 1 3 标准标准 智能全文检索 快 全 准智能全文检索 快 全 准 采用按词和二元组混合索引方式 配备了专业排除歧义知识库 提高了中 网站 1网站 2 网站 n 网页采集 Web 检索模块 Web 服务器 用户 检索服务器 各类索引 内部文档信息安全系统解决方案 第 24 页 共 34 页 文全文检索的检索速度和检索效果 智能检索技术包括智能中文分词 广义同 义词检索 主题词典控制检索以及相似性检索等 支持结构化数据和非结构化数据的同时检索 比如可以对网页的时间 作 者 标题 关键词以及全文各个属性进行复杂的组合检索 随着 XML 的普及和 推广 这种检索需求会越来越多 检索应提供关键词 短语 组合检索 位置 检索 逻辑检索表达式 二次检索等多种检索方式 满足不同用户对检索的不 同要求 检索应采用先进的多级索引技术 CACHE 技术等 在单服务器上能够提供 更高的性能 比如在 500 万篇新闻资料上 实际用户 检索速度为秒级 要求 在实际测试的 120 万篇报刊资料 如从 1947 2000 年的人民日报 平均检索速 度小于 0 2 秒 动态索引更新 永不停顿的内容检索动态索引更新 永不停顿的内容检索 网站检索系统中的信息采集和维护管理工具采用自动和人工两种方式 支 持远程维护和管理 通过设置任务计划可以实现远程无人值守的维护更新托管 方式 更新及时 可以达到分钟级自动监测 支持增量更新 确保检索网站最 新的资料 信息的采集和维护更新采用多线程并发搜索技术 可以根据网络带宽情况 动态调节线程数目 对于大型的网站 支持分布式采集 采集任务可以分派到 多台机器上执行 全面接管各种内容 网页 数据库 格式化文件等全面接管各种内容 网页 数据库 格式化文件等 应支持检索静态网页 动态网页 文件系统的目录文件等 通过集成的其 他相关技术和产品可以支持对关系数据库中内容的检索 支持对各种格式化文 档的检索 如 PDF MS Office 文件 和网站整体结构的无缝集成 开放接口 方便定制和网站整体结构的无缝集成 开放接口 方便定制 在系统结构方面支持三层结构 每层都支持服务器群级 支持 Linux NT Solaris HP UX AIX 等各种主流 UNIX 操作系统 支持 IIS TOMCAT BEA WebLogic IBM Websphere 等各种应用服务器 可以很容易的集成到网站已有 的系统结构中 内部文档信息安全系统解决方案 第 25 页 共 34 页 网站检索系统要提供模版级 组件级和应用编程接口级等多种检索的客户 化手段 方便用户根据自己网站的检索要求来灵活进行定制 网站检索系统允许用户通过配置一些参数来自定义网站检索界面 无需作 任何的编程 对于更复杂的检索界面要求 允许用户通过调用 ADO COM 组件或 Javabeans 组件来写 ASP 或 JSP 页面脚本 可以更好的与现有的网站结构进行 结合 如果需要更高级的检索应用系统 可以通过信息检索发布和服务系统实 现对检索信息的安全访问控制和各种高级的信息服务功能 包括用户管理 频 道管理 不同频道的模版管理 资料库 发布 个性化订阅 网站内容管理等 一体化管理一体化管理 维护简单 实施成本低维护简单 实施成本低 网站检索系统提供从网站信息的采集 分类 索引建库到检索服务的一体 化管理手段 并且只需安装一次既完成了所有相关模块 相关系统的自动化安 装配置和运行 这种安装的自动化和使用的简单性 将大大降低系统的实施成 本和维护成本 3 1 43 1 4 性能指标性能指标 在 G 级数据集合上达到亚秒级检索速度 数据索引更新时间平均小于 0 02s 记录 每条记录 4Kb 全文检索数据库的索引空间膨胀率 0 5 全文数据库可以容纳 10 亿条记录 对每条记录的大小没有限制 3 23 2 关系数据库内容检索引擎关系数据库内容检索引擎 关系数据库全文检索引擎 能够在超大规模数据量和高强度并发访问的网 络系统中 成为关系数据库的智能 高速查询加速器 传统关系数据库缺乏对存储在 大对象 中的数据的内容进行检索和分析 的核心功能 互联网和电子商务的迅速发展 对传统的关系数据库应用提出了 更高的要求 必须对数据仓库中的内容进行全面的理解和利用 XML 标准的普 及 更要求对半结构化数据提供高级智能查询功能 需要全面实现关系型数据 内部文档信息安全系统解决方案 第 26 页 共 34 页 库与全文数据库之间的数据共享以及两者之间的双向数据迁移 通过该系统 各种 Web 应用服务器可以透明地连接 Oracle SQL Server DB2 Sybase 和 Informix 五大主流数据库 构成应用中的最佳数据层解决方案 使用户在享有 主流关系型数据库卓越的数据处理功能的同时 拥有比较好的全文检索功能 近年来 关系数据库管理系统开发商也推出了具有中文全文检索的产品 但内容检索是和本地语言密切相关的 为此要求全文检索功能包括中文按词索 引 字索引的 BI GRAM 基于语义辞典等语言学知识的智能检索 以及中文自 动分类和自动摘要等先进技术 我公司全能检索平台提供的关系数据库全文检索引擎是经过大数据量实际 检验的同类产品 千万级数据的全文检索 其产品用户有云南省检察机关 甘 肃省检察机关 新华网 BBS 论坛系统等 其可靠性 查询性能和检索效果较好 3 2 13 2 1 主要特点 主要特点 支持所有主流 RDBMS 的主流应用版本 TRS for RDBMS Gatewat 体系结构 内部文档信息安全系统解决方案 第 27 页 共 34 页 TRS for RDBMS Gateway 支持 Oracle DB2 SQL Server Sybase 和 Informix 五大关系数据库 并能够支持每种数据库系统的多个不同主流版本 支持 RDBMS 中格式化文档的全文检索 TRS for RDBMS Gateway 内置文档格式分析和过滤组件 能够自动对 RDBMS 中大对象字段中存贮的格式化文档 如 Word Powerpoint Excel PDF 等文件进行全文检索 三层结构 在应用服务器一级的集成 数据库 TRS Server Web 应用服务器可以分 布在不同的机器和平台上 在关键应用中可以有效地实现负载平衡 应用服务 器一级的集成也充分保证 TRS for RDBMS Gateway 的技术路线不受 RDBMS 版本 变化的影响 不仅能够充分利用最新的数据库技术成果 而且能够对老的系统 提供支持 挖掘信息的最大价值 自动化程度高 用户只需要按步跟随 任务创建向导 的提示就可以创建更新任务 智能 化定时运行工具 全面实现工作的无人监管 数据同步和一致 保证查询的结果是完全正确的 使用和维护简单 可视化的管理与配置工具使系统简单易用 轻松实现信息管理 3 2 23 2 2 所需环境所需环境 运行环境运行环境 Microsoft Windows NT 4 0 SP3 以上 或 Windows 2000 128MB 以上内存 20MB 硬盘空间用于安装文件及临时空间 出错日志需要另外的空 间 大数据量迁移时需保证系统的临时目录下有足够的空间 Internet Explorer 4 0 以上 相应的数据库客户端软件 数据库环境 数据库环境 Oracle 8 8i 如进行 TRS 到 RDBMS 的数据迁移 需要 FTP 内部文档信息安全系统解决方案 第 28 页 共 34 页 Server DB2 5 2 以上 Microsoft SQL Server 6 5 7 0 2000 Sybase SQL Server 11 以上 Informix 7 3 以上 TRS Server 4 0 4 历史资料处理部分历史资料处理部分 本部分主要负责处理历史纸质资料的翻拍后的图像处理 一般我们为系统 提供两种格式存放 一是彩色的用于查看 二是黑白的用于打印 系统自动转 化处理 处理效果如下图所示 截图是我公司在检察院行业的应用截图 资料阅读窗口 彩色 参考 内部文档信息安全系统解决方案 第 29 页 共 34 页 资料阅读窗口 黑白 参考 内部文档信息安全系统解决方案 第 30 页 共 34 页 4 14 1 与其它历史资料电子化处理系统之比较与其它历史资料电子化处理系统之比较 普饵市院翻拍方案普饵市院翻拍方案单一扫描方案单一扫描方案缩微方案缩微方案 成 本 方 面 成本低 1 光盘存储成本低 只需小心收藏 2 耗材成本低 约人民币 2 3 元 张 3 凋阅成本低 只需一般微机 4 存储时间长 存储具有连续性 每次拷贝不会影响原影像的清晰度 5 还原成本低 只需要连接一台打 印机 便可轻松还原 加盖公章生效 成本较高 1 单台扫描仪价格在几万到几十万之间 2 购买了高于本单位实际需求的扫描设 备 会造成设备利用率不高投入不足产出 购买了低于本单位实际需求的扫描设备 会造成工作严重积压 导致应用失败 成本高 1 缩微存储成本高 需保存适当温度 湿度 配 以专业胶片柜 2 耗材成本高 一卷 100 英尺缩微胶卷可存储 4000 5000 张 A4 文件 约合人民币 100 元 卷 3 调阅成本高 需购置昂贵的专业缩微调阅设备 4 存储时间长 在适当的温湿度环境下可长期保 存 但每次拷贝影像的清晰度会大不如前 5 还原成本高 需购置昂贵的专业影像还原机 还原打印 制 备 与 调 阅 方 面 可方便地自行制备 亦可外包加工 调阅方便 1 任何有光驱的微机都可单盘调阅 2 可进行网络调阅 配以光盘塔或 磁盘阵列达到资源共享 3 调阅速度快 电脑内部读取 4 阅读符合一般习惯 支持扫描方案 制备复杂 自行加工较难实现 制备要求 1 对不平整的纸张需烫平加工 工作量 大 2 需拆装原始装订 对原始件的平整度 要求高 调阅不便 1 需购置专业缩微阅读机进行调阅 2 不可网络调阅 调阅方案具有独占性 不可同 时调阅 3 调阅速度慢 需要胶卷库找到所需文件所在胶 卷 拿到阅读机阅读 且不能直接定位到所查找影 像 4 阅读不符合一般习惯 所看到的为反白影像 且需上下翻找 造成视觉疲劳 内部文档信息安全系统解决方案 第 31 页 共 34 页 技术特点技术特点数码
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025福建漳州市交通发展集团有限公司招聘4人笔试历年参考题库附带答案详解
- 2025福建永泰闽投抽水蓄能有限公司招聘33人笔试历年参考题库附带答案详解
- 2025福建宁德福投新能源投资有限公司招聘1人笔试历年参考题库附带答案详解
- 2025福建厦门国贸控股集团有限公司中层干部招聘2人笔试历年参考题库附带答案详解
- 2025福建南平武夷有轨电车有限公司社会招聘模拟试卷及参考答案详解1套
- 2025年安徽水安建设集团股份有限公司第二批次招聘6人笔试历年参考题库附带答案详解
- 2025中国航空发动机集团有限公司校园招聘笔试历年参考题库附带答案详解
- 2025甘肃兰州市公安局城关分局招聘警务辅助人员30人考前自测高频考点模拟试题及答案详解(易错题)
- 2025呼伦贝尔市政务服务与数据管理局所属事业单位竞争性比选工作人员考前自测高频考点模拟试题含答案详解
- 2025江苏苏州工业园区东沙湖小学后勤辅助人员招聘模拟试卷及1套参考答案详解
- 2025年全国初中应用物理竞赛试题及答案
- 中学历史教学设计知到课后答案智慧树章节测试答案2025年春四川师范大学
- 2024全国职业院校技能大赛中职组“艺术设计”赛项备考试题库(含答案)
- 2025年新版汉字听写大赛题库及参考答案
- 路基分层自动版
- 2025年成人高考成考(专升本)教育理论试题与参考答案
- 新建屋顶分布式光伏发电项目施工方案
- 内蒙古建筑图集 DBJ-T 03-76-2018 自保温砌块建筑构造图集
- 食品仓储业食品安全从业人员培训
- 教育强国建设的意义与路径探索
- 关于成立特种设备安全管理机构的通知(模板)
评论
0/150
提交评论