TNT速递凭证数字化加工系统方案.doc_第1页
TNT速递凭证数字化加工系统方案.doc_第2页
TNT速递凭证数字化加工系统方案.doc_第3页
TNT速递凭证数字化加工系统方案.doc_第4页
TNT速递凭证数字化加工系统方案.doc_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

TNT凭证数字系统方案建议书XX软件有限公司2011-02-09总论上海XX软件有限公司是一家专业从事“内容管理技术”领域的产品研制、开发和服务的高科技公司。在数字化方面有着突出的优势:1. 先进的软件架构:对于本次项目我们不是根据需求去重新开发,而是架构在一个自主知识产权的影像软件平台的基础上配置和二次开发,该平台在全国几十个用户大规模使用,验证了核心的稳定性。自主研发的核心平台XX超效影像捕获和索引平台通过国家软件著作权认证(沪DGY-2003-0494),所有客户化的工作均通过稳定的核心平台来完成。2. 我们不仅是提供一个数字化系统,更是帮助客户去针对实际业务情况和今后的发展要求去规划整体架构,整个过程中会对数字化场地、业务单据的设计改造、档案流转箱的配备和流程的合理化等提出建议。3. 电子档案管理系统不同于一般的系统,海量的影像存储的特性使得查询响应时间变得非常重要,同时也提出了数据安全性问题,我们运用先进的三角架构解决了大数据量的存储优化问题,使用先进的索引建立方案实现了海量数据的高效查询响应,并在后台使用CAS架构的归档存储解决了数据存储的安全问题等。4. 在XX超效工作流平台的支持下,能很方便配置出一个适合TNT业务的工作流水线,任何对影像的相同的简单操作被剥离出来分解成单独的工作节点,不仅如此更可以随着用户今后需求变化随时通过图形化流程配置工具来修改,充分发挥操作人员的工作效率。5. 所有的软件平台都是开放的接口化的,可以与TNT的其它系统等系统接口的二次开发的工作会变得非常简单。6. 目前在上海浦东金桥开发区拥有2800平米的数字化加工处理中心,拥有近800位专业数字化操作员,拥有每月4000万页的数字化处理能力。目前累计完成约十亿张档案、票据等各类型档案的数字化服务工作,使得我们在档案数字化领域积累了丰富的经验。7. XX科技是通过ISO9001-2000质量体系认证的客户资料扫描加工专业服务商,公司的组织架构、项目管理体系、软件开发思想、生产流程灵活配置完全贯穿了ISO的管理理念,将ISO9001-2000质量体系要求渗透到公司的每一工作环节中,同时将ISO9001-2000质量体系融入到整个数字化加工软件及操作流程中。8. 针对每一个工作岗位都有详细的作业指导书,让每一个工作人员清楚的知道自己的岗位职责和工作内容。9. XX超效影像捕获索引平台是由XX公司自主研发,经过多年的研究以及用户的实际应用,已经成为稳定高效的数字化处理系统,具有XX公司旨在为客户提供最优秀的数字化服务,我们始终坚信“细节决定成败”,在每一个细节上提供给客户最可靠可信的服务。我们也希望通过最先进的技术以及最优质的服务的同时分享到客户的成功经验,与中国国防信息部共同发展、壮大、前进。目录第一章项目概要51.1项目需求5第二章档案数字化整体技术方案52.1方案设计52.1.1设计原则52.1.2数字化加工平台介绍72.1.3数字化加工平台功能模块82.1.4数字化系统架构92.2档案数字化处理流程102.2.1扫描112.2.2质检122.2.3类型标识132.2.4索引录入142.2.5生产内容抽检152.2.6载入152.3与其它系统的接口方案16第三章安全防扩散系统解决方案193.1文件安全防扩散193.2文件生命周期保护193.3法规遵从文件归档管理193.4桌面文件自动同步备份203.5内外网文件安全便捷传递203.6安全防扩散系统的功能特点203.6.1技术领先性203.6.2高安全性能213.6.3操作管理易用性223.6.4运行的可靠性23第四章引文解析系统方案234.1系统功能:244.1.1数据采集244.1.2类目编辑及查询统计254.1.3格式文件检索26第五章系统集群架构方案275.1存储背景285.2iCAS概述295.3存储解决方案325.4使用本方案的优势325.4.1合理的存储架构325.4.2兼容性325.4.3业务持续性335.4.4高安全性335.4.5高访问效率335.4.6在线备份335.4.7灵活的扩充能力335.4.8文件的自我修复345.4.9系统的管理与维护34第六章服务方案34第七章结语36附件:371.1上海XX软件有限公司介绍371.2通过国家正式认证的标准数字化处理流程401.3XX数字化加工中心介绍401.4典型案例43典型案例一:上海市社会保险基金结算管理中心资料管理中心资料信息管理软件系统43典型案例二:上海市房地产交易中心(扫描外包服务)44典型案例三:北京移动通信有限责任公司(扫描加工服务)45典型案例四:杭州城建档案馆(系统集成)46典型案例五:丽水城建档案馆(数字档案馆及数字化扫描)47预算报价:48第一章 项目概要1.1 项目背景档案数字化是一项关系档案事业能否稳定、持续、健康发展的战略决策,在档案信息化建设中作用日益突显。近几年,我国物流行业迅猛发展,而同时进入信息化社会后,计算机使用率日益普及,电子数据存储、网络通讯技术不断推陈出新,依托计算机技术管理、存储、发布各类数字信息资源已成为全社会普遍使用的一种手段。在这样一个大环境中,各个行业的数字信息资源管理工作蕴营而生,并逐步形成一个鲜明数字时代特色,即各级档案馆(室)、凭证、图纸数字化建设进程进一步加快,数字化形式的档案信息数据饱有量呈快速上升趋势,利用网络方式进行查询的利用人群不断壮大,同时纸质资料数字化知识结构向多元化发展。各级部门围绕档案数字化建设正在酝酿和进行着一场关系档案工作稳定、持续、健康发展的重大变革。本次TNT针对凭证资料的数字化加工的需求,充份体现了TNT绿色物流行业的前瞻性,也体现了TNT的信息化建设以及凭证的管理正在一步一步走向成熟。1.2 项目需求建立稳定高效的数字化处理系统。第二章 凭证发票数字化整体技术方案2.1 方案设计本方案旨在将本公司在为用户做物流凭证数字化系统中流程的一些意见、建议和规划。2.1.1 设计原则根据本项目的特点,我们在解决方案和计划安排中,坚持贯彻了如下的原则:(一) 项目严格质量控制原则我们公司的项目管理工作,一直严格遵循ISO9001-2000质量体系标准要求,项目组织架构、项目工作运行机制、生产软件开发编制、工作流程设计,都应用了ISO9001-2000质量体系标准。对ISO9001-2000质量体系标准的执行与落实,是解决方案设计的主线和最高原则。(二) 计算机综合高效管理原则将质量控制方法、项目管理方案、生产工艺流程、安全方案、质量验收方案与计算机生产系统和管理系统,紧密有机的结合在一起。在软件的开发和配置中,全面体现各个方面、各个层次的管理思想。形成计算机数据化的,而不是人为概念化的综合管理机制。将计算机的管理方式,渗透到各个管理和生产环节。将各类管理理念和方法,集中体现在计算机软件系统中。具有丰富的针对系统的各类统计功能。如错误考核统计、影像数量统计、积较考核统计等等。方便用户对操作人员进行管理,以便提高操作人员的责任心和技术能力。(三) 简单合理原则在生产软件开发上、硬件设备的选型上和工作任务的设计上,务求使各项操作尽量的简单化。在流动生产中,将人员变动造成的影响,降到最低。使员工经过简单的培训,即能上岗操作。(四) 软件流程灵活调整搭配整个系统节点的设计基于XX超效工作流平台,流程可灵活调整,细化。(五) 统一管理、优化配置、循序渐进以一个工作区域为整体,实现统一的项目管理。在区内,基于项目试点工作经验,通过灵活、合理的生产设备和人员的调动、拆分与组合,以最优化的配置,适应不同扫描加工量的需求。使项目得以按计划、循序渐进的进行。(六) 完全响应和追求完美在所有工作方案的设计中,将完全响应各项需求和要求。以我公司“满足顾客的需求、完善对顾客的服务、实现对顾客的承诺、超越顾客的期望”的方针为一切工作的指导思想。2.1.2 数字化加工平台介绍超效影像捕获及索引软件超效影像捕获及索引软件平台是一个提供纸质文档影像高速高效自动化处理的软件平台,它建立在高速扫描、影像处理、精确OCR技术、海量存储的现代计算机技术的基础上,最大限度的实现系统的伸缩性和可重塑性,为资料快速电子化建设提供了一个强大的实现手段。超效影像捕获及索引软件平台以高速扫描仪为信息入口,将纸质信息转换成数字影像文档,并提供一系列图像处理技术,诸如去黑边、修偏,降噪音等来保证图像的真实可靠,并通过OCR/ICR等先进技术来自动识别图像特征和关键信息区域内容,实现“以文本为检索对象,以原稿图像为检索结果”的索引建立模式。产品功能与特点:1) 支持业界所有和TWAIN标准兼容的扫描仪2) 支持复杂的图像处理(纠偏、去黑边等等)3) 通过图像分析技术自动定位扫描不清晰影像4) 内嵌国内外多种OCR识别引擎能根据内容特征选择识别5) 通过结合XX公司的iCAS可达到文件安全防扩散6) 自动识别单据上所有位置所有类型的条码7) 针对不通单据可灵活配置著录界面8) 人性化操作界面使人需干预的工作简单化9) 可提供客户接口来二次开发2.1.3 数字化加工平台功能模块1) 影像获取模块支持业界所有符合TWAIN标准的扫描仪,实现纸质单据的高速扫描,以获得高质量单据影像。完善的影像处理功能,如:影像多幅显示,校正,去黑边,增强对比度,放大,缩小,旋转等。根据需求,系统可以配备先进的条形码(BARCODE)、OCR/ICR Engine。2) 影像质量控制模块可以辅助工作人员对档案影像进行质量检查,及时发现不合格的影像进行重新扫描,从而保证了档案影像的有效性。此外,此功能模块可以随时对影像服务器中的档案影像及其索引进行维护。3) 索引自动生成服务器系统利用先进的OCR/ICR 、BARCODE引擎,根据预先定义的索引模板,自动识别单据影像的要素,从而实现自动建立索引的功能。4) 索引校验根据预先定义的索引模板,可以支持用户手工建立索引,或者作为索引自动生成服务器的校验工作站,对自动识别后的索引要素进行检查和修正。5) 索引生成它将帮助系统完成索引的载入、生成、汇总等工作。根据不同行业用户的不同需求,系统提供了业界最完备的索引建立方案,有效满足各类用户的需求。一套完整的索引建立方案包括确定索引类型和选择索引建立流程。系统可通过手工、自动和混合等三种方式建立索引,并利用用业界最先进的OCR/ICR、BARCODE引擎读取条形码、磁码以及配备最大限度提高索引建立的自动化程度和精确度。6) 影像查询帮助用户在任何地点、任何时间通过多种方式快速、安全获取所需文档资料。通过WEB服务器,用户使用WEB浏览器通过InterNet/IntraNet登入系统查询影像文件7) 质量跟踪系统该系统可以对系统记录下的实体资料及所产生影像资料实行全程监控,将影像质量问题与每个单点操作人员进行对应,可准确的对影像质量产生问题的环节及人员进行定位,同时系统可快速定位记录中的任意一卷资料所处的位置和状态,方便响应客户查询正加工状态下的资料查询需求;(具体详细功能将在下文中着重展开)8) 掺沙子系统该模块将对各工序质量检查工作质量进行检查;它是认为将有一些有问题的影像数据放入数字化加工处理流程中,而各个环节的质量检查岗位应当将这部分有问题的影像数据标注出来,系统将利用该项科学、简易的方法来检查质量检查岗位的质量状态,使得有人参与的节点都能通过系统进行有效的控制,将监督工作进行健康的循环。9) 系统管理系统管理软件提供系统后台的管理、维护及辅助功能。主要包括:文档定义,索引定义,工作台和查询网点管理,工作流管理、安全管理、数据及影像备份、转储等功能。完善的管理功能使得系统在工作中更加有效,更加可靠。10) 报表统计系统完成对各工种的工作监控和工作量统计,并支持对各种日志的查询和维护。2.1.4 数字化系统架构 2.2 档案数字化处理流程档案接收人员将资料通过扫描进行数字化,档案数字化工作人员只需要登录XX大厅程序即可进行所有被授权的操作。整个档案数字化处理过程完全根据我们的工作流软件平台来配置各个节点,如下图所示。下面对其主要节点进行一一介绍。2.2.1 扫描对于扫描程序,均通过统一TWAIN接口调用,按实际情况进行操作,流程如下图:(图 资料扫描功能流程)扫描前由系统生成业务流水号对应的条码并打印在主件上,目的是在扫描主件后能够通过条码来自动识别业务流水号,方便归类,提高准确率。生成方式采用CODE128码方式生成条形码。对于前台扫描系统,我们还可提供单点登录模式,当操作人员登录现在的系统时,通过整合进行用户验证,登录并显示具有权限的功能模块。扫描主要功能如下: 使用Twain接口开发的兼容几乎所有品牌扫描仪。 支持黑白彩色双流输出。 支持速度从每分钟3页至每分钟120页的扫描仪。 自动纠偏技术。 自动去除黑边框。 支持去杂点、降噪音等图像处理技术。2.2.2 质检为了充分利用扫描仪的高速不间断工作和发挥工作流的优势,将质检影像独立于扫描使得人工干预的工作变得简单单一,这样提高工作质量的同时减少了工作强度。影像质检系统主要功能对获取的影像进行自动处理和人工操作,以保证进入系统的影像是真实有效可用。系统会通过一些技术手段初步判断影像扫描是否清晰,不清晰内容有:检查倾斜:如果扫描时进纸发生倾斜,扫描软件能够自动纠正,但在倾斜角度过大时(15度)无法自动纠偏,需要重新扫描该影像。检查图像清晰度:对于某些特殊的资料,可能需要校正扫描对比度和亮度才能获得最佳图像效果。检查折角:纸质单据有折角的区域扫描不到正确的影像,需要重新扫描该影像。系统会自动判断影像长宽来是否要根据配置来旋转切合、拼接等。提供很多诸如旋转,去杂质,橡皮擦图像处理工具。提供影像添加、删除、替换、修改顺序等批次操作工具。提供方法镜、放大缩小显示、显示比例等查看工具。检查黑边:扫描软件能够自动判断纸张大小并切除扫描结果中无效的黑边,但对于极个别特殊的纸张可能切除有误,需要重新扫描该影像。检查空白页:扫描软件能够自动去除扫描结果中的空白页,但是对于某些特殊的纸张(过薄透光)可能无法正确切除,需要手动删除该影像。(图 影像质检功能流程)2.2.3 类型标识影像识别系统主要功能通过一些影像特征识别技术来自动区分各种类型的单据,自动识别影像类型的方法有ICR/OCR/Barcode等,对于没有特殊标记的单据则只能通过人工来识别。系统根据配置的识别方法对扫描单据进行识别。可根据单据上某一个区域的固定特征来标记影像类型。可根据单据上所附带条码信息来标记影像类型。在没有任何固定特征情况下,更具配置快捷键手动方便的定义影像类型。(图 识别内部功能流程)(图 条码识别方式)(图 特征识别方式)影像类型在XXSGCC(即统一配置中心)里进行设置,如核表、退休申报表、企业信息登记表、经办人身份证复印件等。在对扫描后的影像进行类型识别的过程中,通过人工方式可以将事先维护好的类型给影像进行分类,这样在今后查询过程中就可以根据类型进行检索,方便查询调阅。同时对各业务类型的某种资料设置是否必备,系统在提交时可以验证该业务类型的资料是否齐全,这也从另一方面保证了业务资料的完整性,降低人为失误率。2.2.4 索引录入索引采集系统主要功能通过对单据影像上索引区域的定义采集图像对应的索引。对于每个客户个性化的索引信息均是通过管理员配置来定义,配置内容包括字段长度,类型等。系统通过集成各个专业厂商识别引擎自动识别影像区域所包含的信息内容。提供操作员关键影像放大显示对应索引录入方式。提供二次录入和比对两种方式来保证索引采集正确性。为每一个索引字段提供脚本编写的触发器,用户可以通过简单编写脚本来为索引提供丰富来源。著录的界面和著录的内容随时可以配置,排版风格可以在今后的使用中调整,无需二次开发。2.2.5 生产内容抽检为了保证所有扫描的影像都是今后可查询利用的,索引信息都是正确的,需要有一定的手段来检查和校验,我们的影像和索引的抽检程序可以配置抽检参数,是通过国家的GB-2828抽检标准来执行的,在一定数量内容中抽样,发现有不符合规范的即认为这批内容不合格全部需要重新生产。2.2.6 载入载入是一个自动处理的环节,自动将扫描完的影像和录入确认后的索引载入到影像系统的服务器中,载入时间可以设置,可以实时载入,也可以定时载入。如下图所示:(图 自动载入内部流程)2.3 与其它系统的接口方案档案数字化系统建立后并不是孤立存在的,而是与多个不同系统相互进行数据交互,实现影像系统带来的最大效益。本项目支持提供如下接口。1) 与业务系统接口能够提供给用户业务系统调阅影像的接口,用在办公系统中,能通过办公系统调用影像系统的接口函数,即时调阅出需要查看的影像资料进行查阅。通过建立与用户系统的数据接口,在进行工作的时候,可以在相关系统操作界面,通过向影像系统的查询服务器传递查询条件,如与影像相关的等关键字信息,再由影像系统的查询服务器从影像系统的索引服务器检索得到相应的影像位置,并返回URL链接地址给办公系统并显示最终所需调阅的影像。 业务系统影像系统的查询服务器发送查询条件(个人基本资料、业务受理号等)返回URL链接地址社保工作人员即可基于影像所记录的参保人病历、诊断证明书、费用明细清单、发票等资料受理各项业务或进行费用审核。也可通过接口调用出参保人历史的就诊记录,对参保人的社保行为进行跟踪统计分析,使每次相对独立的业务资料之间能形成有效关联,为社保政策的制定和调整提供有力的现实依据。2) 匹配数据接口影像系统可以通过调用业务系统提供的接口函数,从用户系统获取与影像有关的数据,载入到影像系统得到相应的索引信息,通过这样的方式可以大大提高档案数字化的效率和准确率。(一) 调用数据接口界面设计,在主界面按F1可分别调出业务数据接口。(二) 通过输入身份证号,从业务系统返回姓名、身份证、单位代码、单位名称(三) 返回的值自动填入输入框第三章 安全防扩散系统解决方案3.1 文件安全防扩散采用全程驱动级透明加解密技术,具有防拷贝,防拷屏,控制文件使用次数、使用时间等功能,使得加密后的文件在企业内部流通不受影响,离开企业环境则无法使用,防扩散解决方案除可对存储在iCAS中的文件实施防扩散保护外还可将其应用于客户端PC环境,这样就将企业中的一些核心数据牢牢限定在了企业内部环境中,从而有效保证了企业中的一些核心数据的安全性。3.2 安全防扩散系统的功能特点3.2.1 技术领先性1) 软硬一体,高性价比,完全图形化使用界面,免维护2) 内容指纹寻址存储(CAS)架构l 最适合非结构化数据存储l 实现高效率和安全性3) 机密文件安全防扩散l 全程驱动级透明加密l 防拷贝,防拷屏,控制文件使用次数l 有效防止核心数据外泄4) 文件元数据管理l 自动提取文件原有索引信息l 自定义文件扩展索引信息5) 全文检索工具对数据进行深度挖掘,快速找到需要的资源全文检索:实现快速资源定位6) 文件全生命周期管理:文件修改后自动保存旧版本,支持查看历史版本信息文件全生命周期管理7) 重复数据删除技术,节省成本8) 文件使用频率智能统计9) 可整合AD、LDAP等进行身份统一认证3.2.2 高安全性能1) 用户分布式授权管理l 多用户,多角色,多部门的多维度权限控制l 授权层级管理2) 文件的精细化操作权限管理l 基于每个文件进行l 权限包括查看、下载、修改、删除等l 同时授权可以针对用户、用户组、角色进行 3) 对于私密文件(夹)用户可设置密码进行保护4) 详细的访问日志及操作审计,l 可查询和回溯任何人在系统上的操作l 确保系统的使用透明和可控性 操作审计日志3.2.3 操作管理易用性1) 两种可选易操作的用户访问方式l C/S集成资源管理器访问方式(Deskentry),l B/S浏览器访问方式(Webentry)独特的集成到资源管理器访问方式2) 系统管理员专用配置和维护管理入口3) 桌面文件自动网络同步备份l 定时同步l 同步目录设置4) 文档检索l 普通检索l 高级检索l 全文检索l 使用关键字进行模糊检索5) 配额管理l 用户配额管理l 文件夹配额管理l 支持用户存储空间的灵活分配和变更 6) 易扩充,以节点为单位进行无限扩容,容量扩充的同时不会引起整体性能下降3.2.4 运行的可靠性1) 全冗余设计,具有冗余电源,冗余网卡,支持双机异地容灾2) 具备数据容错与保护技术 3) 可热插拔、可在线更换故障的组件,保证业务的连续性4) 硬件主动报警监控功能可以及时发现硬件问题第四章 引文解析系统方案对于图像内容的检索,首先必须要借助于OCR识别引擎,然后通过录入相应的关键字索引信息对整个图像中的内容检索。一、采用OCR识别引擎1、 高速、批量的扫描,强大的THOCR识别2、 对于大批量纸介质资料,有两种处理方式,一种是系统自动处理,无需任何人工干预,以PDF文件格式输入检索数据库;另一种是通过TH-OCR提供独有的校对程序,得到高质量文本文件,从而获得全文字的PDF、Word、HTML等格式文件。3、 采用国际通用流行的图像格式(TIF、PDF、JPG等),100%原文重现4、T-Center能够接收多种格式的电子文档入库,以及其他数据库信息导入。5、海量的数据存储。6、管理端可建立上千个全文库文件分类。7、基于Web的用户管理安全、规范、灵活、权限分明。8、检索端点数根据用户需求进行最大限度的开放。9、高容量信息检索,亚秒级检索速度,多方式检索手段。二、对影像建立图像信息检索索引库使用现有的计算机图像检索技术,用术语数据库中的术语图像模板,在图像文件数据库中,对所有图像进行匹配(此功能在数字化过程中相当于类型识别+著录录入),将含有相关术语或者关键字的图像进行索引,记录相应的编号,生成图像术语检索索引数据库。这样,用户在检索图像内容的时候,只需输入相应的术语或者关键字,软件自动找到相应的术语编码,再链接到相应的索引数据库,显示出相应的编号,从而直接点编号对应图像内容。由于图像检索涉及比较复杂的算法,速度将会受到限制,只要事先做好完善的索引库,用户检索时,可以直接找到索引编号,而无需遍历所有图像数据库,从而解决网络检索速度的问题。索引数据库也随着数据库的内容不断更新,每当用上传新的模板以后,即会自动以此模板遍全部图像数据库,将含有相同图像的页码编入索引数据库中,所以索引数据库可以是动态的。此部分需要二次开发,以下为开发工作量预估:序号项目工作内容数量单位总金额序号阶段工作量(人天)工作量评估说明1)前期调研5可行性分析等2)需求分析与系统设计30需求分析、并对需求做系统设计3)数据采集56开发类目编辑139类目查询统计484)优化功能测试30集成测试、系统测试5)交付实施10用户现场调式、实施、生产环境的配置和程序更新,以及用户操作培训小 计3184.1 系统功能:4.1.1 数据采集1、采用多线程并发搜索技术。2、提供多种采集范围控制方式,包括在指定网站内,在指定域内,以及在指定IP地址范围等方式。3、可以设置多种采集控制方式,包括采集的大小、超时限制等。4、提供高效更新功能,对于已经采集过的影像,更新时只采集发生变化和新加入的资源。5、可以灵活设定采集结果的存储方式,具有开放性。4.1.2 类目编辑及查询统计1. 支持Web Browser/Web Server检索方式; 2. 智能中文分词:采用先进的自动分词系统,根据大量的语料统计和分析,建立了上万条的歧义排除规则,因此检索“华人”不会把仅仅包含“中华人民共和国”的文章检索出来。3. 支持结构化数据和非结构化数据的混合检索;4. 允许使用文中的任意字、词、句和片段进行检索;5. 全方位检索手段:与、或、非、异或;6. 对数值、日期等特征字段可以进行比较和范围检索;7. 支持任意一致的通配符检索(模糊检索);8. 支持多网站的全文检索9. 具备中文自动分词系统,能有效提高分词准确性10. 采用智能中文分词技术,建立高效索引库11. 支持实时索引(1分钟内)12. 支持增量式实时索引13. 多线程设计,支持大量并发用户访问,每秒并发达到50个以上14. 支持在结果中查询15. 支持GBK、BIG5、UTF8、GB18030等编码,采用UTF8编码方式实现多语言和多文种内容的检索及展现。16. 支持中文、英文和中英文混合检索17. 多样化排序,包括按抓取时间排序、按相关性排序18. 多种条件组合检索:包括标题、正文以及日期范围检索19. 支持关键词逻辑表达式组合检索20. 检索结果支持基于查询关键词的动态摘要21. 支持检索关键词的高亮显示22. 将所检索到的信息可按设定的模版显示23. 检索结果模板自定义如:如文章标题、文章栏目、简介、作者、点击率、时间以及文章类别等24. 支持根据自动分类的类目进行检索25. 采用KNN、SVM为基础的相关性算法4.1.3 格式文件检索支持MS OFFICE, PDF, HTML,可以对.pdf;.rtf;.doc;.xls;.ppt;.pps;.xml等文件直接进行检索。第五章 系统集群架构方案 以现有总装部的数字化生产线的两台服务器,可分别做为应用服务器和索引数据库服务器,而将数字化后的数据放入CAS存储,这样不仅能解决影像并发的问题,更能能很好的为数字化后的影像存在提供高效安全的空间。(详情请看4.1节)。我公司提供的档案数字解决方案不仅包含内容管理平台、影像系统、历史资料清理、扫描外包咨询服务,还是非结构化数据存储设备,内容地址存储CAS的厂商,提供最适合内容影像系统后台存储设备。对于应用服务器来说,不管是Apache、IIS还是其他容器,图片是最消耗资源的,于是我们有必要将图片与索引数据进行分离,这是基本大型数据池都会采用的策略,他们都有独立的存储,甚至很多台存储。这样的架构可以降低提供访问请求的服务器系统压力,并且可以保证系统不会因为图片问题而崩溃,在应用服务器和数据服务器上,可以进行不同的配置优化,比如apache在配置ContentType的时候可以尽量少支持,尽可能少的LoadModule,保证更高的系统消耗和执行效率。XX公司在上海的数字化加工处理中心,同时并行处理的我台服务器并且200T的在线处理能量,月产量100万页,在高效稳定的超效影像捕获索引平台以及CAS存储的架构下,能够非常高效的处理用户的档案。目前累计已为上海市房地交易中心处理约1亿张档案。5.1 存储背景现在企业每天都会产生大量非结构化数据,据统计数据表明,全球每存储量需求增长量达到次方级,其中80%以上为非结构化数据,本产品正是针对非结构化数据存储归档的CAS存储设备。CAS(Content Addressing Storage)是目前最佳的非结构化数据归档存储方案,CAS主要适合于存储固定内容数据,但CAS不会代替SAN、NAS,CAS和SAN、NAS是存储架构上的三驾马车,并驾齐驱。在设计一个企业级数据中心的时候,一定要考虑SAN、NAS和CAS三方面,才能从长远的角度来给客户提供一个整体的存储架构。如果只是考虑SAN肯定是有缺陷的,只是考虑NAS也是有缺陷的,只有三方面都考虑,才能从长远的角度把用户的数据在信息生命周期管理的架构下进行分类存放,SAN、NAS在存储文件的时候是按照地址存放文件,用户找文件的时候一定要知道它放在哪个磁盘分区的哪个目录里,否则就要搜索。而CAS没有分区、没有目录,用户不需要记住文件路径,只需要把数据交给CAS,CAS给用户一个数字指纹,相当于公民身份证,靠一串数字和字母组合的数字指纹来识别用户存储的数据。当用户需要找这个数据的时候,要提交数字指纹来获取数据,所以它的技术和传统的SAN、NAS是完全不同的。更重要的是,由于CAS存储数据方式的不同,导致跟NAS、SAN最大的不同点就是CAS的免维护性。这种免维护性,一方面减少了维护系统的人工成本开销,在NAS和SAN的情况下,一个管理员最多只能管理十几个TB的数据,而在CAS的情况下,一个管理员则能够轻松管理500TB的数据。另一方面,免维护性也增加了数据的安全性和可靠性,例如,在NAS和SAN中,管理员可能在维护过程中意外甚至有意地删除、修改数据,在CAS中,数据的修改是无法实现的,系统会根据最初数据存储的情况自动修复。此外,当用户的数据量越来越大的时候,其数据就一定要放在CAS,因为当用户的数据从1TB扩展到50TB的时候,SAN的性能会急剧下降,所以必须把固定内容数据、长期的具有历史保存价值的数据剥离出来,使SAN“瘦身”,让SAN的性能重新回到高效,使现有的存储达到更好的优化,NAS也是一样。由此可见,CAS的出现是对SAN和NAS的补充,唯有从SAN、NAS和CAS三方面来考虑存储,才是一个完整的存储架构。CASNASSAN应用适合归档影像、音频视频等非结构化数据,能有效达到归档和防篡改等功能适合大量经常要被修改的网络文件存放适合数据库应用结构基于IP的网络的访问,提供应用系统调用接口基于网络访问主机需要通过HBA卡访问扩容能力以节点为单位进行扩容扩容受机头负载限制同NAS性能网格运算,性能无瓶颈,从1TB扩充至50TB性能不会有下降性能会随着容量提升有比较明显下降同NAS共享接入网络,技术上无共享障碍,根据具体应用部署可以是共享方式共享同一块数据区域需要另外安装软件,对性能有影响5.2 iCAS概述(一) 产品定位我们公司的 iCAS产品是一个高效、稳定、易扩展的基于内容寻址的智能存储。它可以存储管理海量非结构化数据,为企业提供安全高效的数据访问;区别与普通的类似NAS等存储,iCAS通过提供专用的数据访问接口以及对存储内容进行加密保护来保证用户访问数据的安全性,并且iCAS可以轻松扩展到几十甚至上百TB的存储能力。(二) 产品特点l 易用性连接网线开机即可正常使用,无需进行各种繁琐的设置。l 高效性达到150MB/s的数据存取能力。l 稳定性iCAS具有自我管理和各种事件响应能力,可以实时监控本身的资源使用情况、磁盘的健康状况、存储容量等各种情况,并当上述情况发生异常时具备报警功能(例如发送email给系统管理员)。l 安全性提供专用的数据访问接口,普通用户无法轻易获取iCAS中存储的内容。对存储内容进行加密保护,即使磁盘被盗也不会泄漏机密数据。将存储内容进行分块,并根据特定算法打乱数据序列,将每块数据直接存储在裸磁盘上,绕开操作系统的文件系统,进一步保证内容的安全性,同时具有对病毒的免疫能力。当iCAS监测到自身状态异常时,提供不同的数据访问安全策略来保护存储数据的安全;共有3中安全策略:ReadWriteHighNormalLowiCAS会自动对存储内容进行定期校验,如果发现文件损坏会尝试进行修复,如果无法修复则发送email给指定人员。l 对存储空间的更有效利用通过计算文件的内容指纹(CF)来保证同样内容的文件只会在iCAS中存在一份,更有效地使用存储空间。l 易扩展单个iCAS节点已具有高达5.5TB的用户可用容量,多个iCAS节点可以进行级联轻松扩展到几十甚至上百TB的存储容量,并且随着iCAS节点的增加不会造成整个系统效率的下降,因为每个iCAS节点都具备独立的运算和自我管理能力。l 数据复制iCAS节点间可以配置实现数据复制功能,并提供以下3种复制策略:实时同步实时复制并且主从机都成功才算操作成功,效率相应较低,可保证任一时间点主从机数据的一致性异步实时复制,但是复制操作在独立线程中执行,效率相对同步高,但不保证任一时间点主从机数据的一致性定时可以配置复制操作在某个特定时间执行(三) iCAS主要技术规格iCAS技术一栏表有效容量5.5TB数据容错支持,最多可损坏4块硬盘不影像系统正常使用网口2*1GB以太网管理端口电源标配760W( 21)冗余服务器专用电源、全电压范围自适应服务器专业电源、115V/60Hz ,230V /50Hz自适应环境及规范环境温度运行时10至35,非运行时-40至+70周围环境相对湿度非运行时95%,于25至30温度下不凝结噪音运行模式中,于侧位测量声压50Dba;环境温28时测得声强为6.2dBA静电释放每项英特尔环境温度测试规范15KV安全标准CCC设备结构尺寸高3U 宽450mm 长647mm重量约23公斤5.3 存储解决方案电子档案文件(比如数字化后的电子影像)对中国国防信息部是非常重要的,为了确保数据的安全性,我们可以结合在线(包括冷热备)和离线存储相结合。5.4 使用本方案的优势CAS提供开发的接口,可以很简便的与任何ORACLE、SQLSERVER等数据库衔接,并能够与SAN、NAS合作并用。针对本项目,我方将提供软件接口,供总装OA或者相关系统调阅影像。5.4.1 合理的存储架构CAS和SAN、NAS是存储架构上的三驾马车,并驾齐驱。在设计一个企业级数据中心的时候,一定要考虑所要存储的数据的类型和将来的发展计划,才能从长远的角度来给客户提供一个整体的存储架构。才能从长远的角度把用户的数据在信息生命周期管理的架构下进行分类存放我们仔细的分析了现在中国国防信息部所需要存储数据的要求。其中都为非结构化的数据。所以我们此次方案中继续采用最适合非机构化数据的CAS的存储架构。提高整个存储系统的速度并且降低了存储系统的成本。CAS的数据安全保护,强大的扩容能力,免维护等功能。为中国国防信息部现在数据的高效安全使用和将来的扩容打下了良好的基础。5.4.2 兼容性在此方案中选用的设备XX归档存储设备CAS-3E50。是专业的基于CAS架构的分布式存储设备。具有众多的成功案例。并和多个影像系统有通用的接口,接入网络既能与系统整合。新添加设备100%能无缝加入现有系统。所有设备能进行集中,有效的管理。无需对应用系统有任何修改。5.4.3 业务持续性2台CAS-3E50的备份使用,在保证数据安全的前提下,提供了高效,灵活的同步方式。保证了当存储出现问题时。5分钟内切换至备用设备。保障了业务持续可用。5.4.4 高安全性iCAS设备具有CAS架构,真正的内容地址存储,绕开的文件系统的安全隐患;iCAS使用了节点内部RAID技术,使设备在4块硬盘发生损坏的时候也不会丢失数据iCAS独特的智能防数据崩溃技术,一旦有硬盘发生故障进行系统重构的时候,可以通过设置安全级别使存储自动停止对外写入服务,而保留读取服务,兼顾的可用性的同时提高了安全性。5.4.5 高访问效率由于iCAS使用的是CAS架构,抛弃了文件系统,存储上使用数字指纹索引,传输上使用最底层TCP/IP协议,基于IP的访问去除了客户端的限制,在经过授权的情况下可以给到客户端

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论