档案数据化及专题档案数据库建设需求

上传人：转*** IP属地：广东上传时间：2024-05-05 格式：DOCX 页数：11 大小：28.14KB 积分：7.2 举报 版权申诉

已阅读5页，还剩6页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

档案数据化及专题档案数据库建设需求一、项目概述围绕构建数字化决策、执行、服务、监督和评价体系，拓展档案数据智慧服务场景”“充分挖掘馆室藏档案数据资源，为科学决策、史料研究提供档案数据支撑”。为积极响应全省档案工作数字化改革工作要求，加快档案数字化转型示范区建设，市档案馆着力打造档案数据化治理平台，推进档案专题知识库建设。二、内容及要求（一）建设内容：序号名称单位1档案数据化（OCR）内容建设页（A4面幅）2档案数据化治理平台套3机构沿革知识库建设套4民生档案专题库建设套1.通过对市档案馆现有的文书类档案进行分析，形成对机构沿革专题知识数据库结构设计建设所需的规范和标准，搭建通用文书档案知识数据抽取引擎，在此基础上建设档案数据化治理平台，以实现对现有的机构沿革相关档案知识数据的抽取和挖掘，形成机构沿革专题知识库。2.根据机构沿革专题知识库完成机构沿革知识图谱的建设，提供知识库的展示界面系统。3.结合我馆现有的五类民生类档案电子化数据进行分析与抽取，设计多类型档案数据的弹性关系关联网络结构，搭建民生档案知识图谱，建设五类民生档案知识数据利用平台。4.完成项目所涉系统平台的等级保护测评、备案工作。5.完成1000万页馆藏档案图像的全文OCR识别服务。（二）建设要求：1.档案数据化内容建设（OCR）：有针对性地选取专题性较强的样本，基于人工智能深度学习技术，完成1000万页市档案馆建国后馆藏实体档案的数字化图像的文字识别（OCR）工作。OCR成果保存为TXT文本格式、双层PDF文件格式、OFD文件格式。成果数量以A4页折算统计。1.1技术要求：（1）支持多种图片格式识别，包含但不限于如下格式：JPG、BMP、PDF、TIF、TIFF。（2）支持对大角度倾斜（90°、180°、270°）和小角度倾斜（小于5°）的图像的识别，不影响其文字识别效果。（3）将文字识别结果、文字坐标信息等进行处理，生成高精度的双层PDF文件、TXT文件。（4）将成果数据（双层PDF文件）按照市档案馆要求的文件名、路径存储，同时生成OFD文件。（5）从市档案馆综合业务系统中按目录结构提取档案电子数据，保持文件命名格式、目录结构不变。（6）全文识别服务应覆盖多语言，包括简体中文（含手写体）、繁体中文（含手写体）,支持中文横版和竖版排列文字识别，支持对档案中涵盖的多种文件类型。（7）识别结果应有较高的准确度。OCR识别标准应符合《DA/T77-2019纸质档案数字复制件光学字符识别（OCR）工作规范》。对档案中文、数字、英文印刷体的识别准确率在95%以上，手写体识别准确率达到80%以上。（8）识别的全文文本作为知识抽取基础数据。（9）OCR识别所需的计算机各种硬件设备、软件系统由中标方提供，应符合国家相关法律法规和标准的要求。其中，软件系统应为正版软件，计算机硬盘由招标方提供。（10）计算机数据存储介质应符合安全要求并严格管理。项目中使用的移动硬盘、U盘等存储介质应交由档案馆管理并登记编号。项目结束后，移动硬盘、U盘、已用光盘等存储介质应全部移交给档案馆，上交的移动存储介质编号应与登记的编号相一致。如有因违反相关规定而造成不良后果，由中标方承担相关责任。1.2性能要求：（1）支持连续7*24小时不间断地工作。（2）支持多并发，在硬件配置足够的情况下，能够满足业务所需的识别访问量。业务处理复杂繁忙时，系统仍可保持稳定的运行。（3）在高并发的情况下保证系统整体的数据一致性、完整性和正确性，具有较高的成熟度。（4）环境适用性强、接口标准，接口响应时间不超过2秒，单线程（引擎）单张处理时间小于0.2秒/张。（5）项目所涉及的软硬件设备在隔离互联网环境下可正常运作，拥有对电子档案的防泄密、防篡改功能。2.档案数据化治理平台治理对象为全宗卷和各全宗中的已完成数据化（OCR）的档案资源，建设含有任务管理、数据管理、通用档案数据引擎、数据校核等功能的档案数据治理平台。2.1性能要求（1）搭建通用文书档案结构化数据抽取引擎，并实现数据校核功能。（2）支持连续7*24小时不间断地工作。（3）数据治理平台在高并发使用的情况下保证系统整体的数据一致性、完整性和正确性，具有较高的成熟度。（4）数据治理平台以及专题数据库展示界面的页面响应时间小于1秒。（5）在文本数据准确的情况下，基于NLP自然语言处理技术的数据抽取准确率高于80%。2.2功能模块模块名称功能功能描述用户管理对用户基础信息进行管理维护，以满足多用户协同工作支持对用户信息的导入与导出、用户权限信息的管理维护以及用户基础信息的维护数据管理对数据进行管理与维护支持原始数据以及结构化数据的管理确保其在数据在流转过程中遵循多模态数据标准任务管理对不同类型任务的可视化管理支持数据化治理人员，流程，任务配置管理数据校核支持对抽取结果做校对基于已有的结构化数据成果，对机器抽取的数据进行对比核对与修改数据导出对构建的知识成果数据进行导出支持根据数据查询结果进行数据导出功能；可支持不同下游任务标准数据导出模板管理对数据模板进行管理和配置多模态数据挖掘整理任务配置，支持原始形态数据抵达目标结构化数据引擎管理对数据抽取引擎进行管理用于配置和管理使用数据抽取引擎支持复合抽取任务3.机构沿革专题库建设基于档案数据化治理平台的的功能，对相应档案数据进行处理，输出机构沿革专题知识库。3.1专题知识库结构设计规范和标准按照一定的规范抽取术语与融合数据技术，形成专题知识库设计规范和标准：（1）根据机构沿革知识图谱建设需求形成专门的文书档案抽取引擎，并将该引擎集成到数据化治理平台，用于后续已完成OCR文书档案的数据抽取、辅助档案智能管理（2）专题知识库结构设计规范标准应尽可能多的覆盖本体相关信息，包括但不限于基础信息、时空信息、事件信息、演变过程信息、人物信息，数据格式包括但不限于结构化的文本格式、数字格式、日期格式、图像格式。（3）专题知识库结构设计规范标准应具有开放性，例如声像（图片、视频）档案库接入规范，便于后续新数据的利用。（4）基于信息抽取技术UIE（UniversalInformationExtraction），搭建沿革事件抽取模型，机构沿革的实体抽取模型及关系抽取模型。（5）构建机构沿革专题数据库，完成机构沿革档案数据知识化，实现存储的机构沿革信息可通过可视化知识图谱方式进行浏览。3.2机构沿革知识图谱检索展示平台：3.2.1展示要求：（1）在机构沿革专题数据库的基础上，设计并构建机构沿革知识图谱检索展示平台。提供多种维度的精准及模糊两种检索方式，通过智能联想、结果关联性匹配，实现时间、实体等多要素组合关联查询。（2）展示界面的页面响应时间小于1秒。（3）在高并发使用的情况下保证系统整体的数据一致性、完整性和正确性，具有较高的成熟度。3.2.2核心功能要求：核心功能功能要求功能描述知识呈现对知识数据进行可视化呈现根据不同的知识数据类型来设计不同的数据呈现方式，以多样化的形式展现知识数据知识检索对知识数据进行检索实现根据用户输入的内容进行知识数据的模糊与精确检索，同时呈现知识数据的关联信息知识溯源对呈现的知识数据进行可视化的溯源实现知识溯源能力，并进行可视化呈现4.民生档案知识库建设结合已有的细颗粒度结构化数据，对已完成电子化的婚姻、学籍、出生证明、退休、契税（具体以采购人实际要求为准）五类民生档案数据（以下称五类民生档案数据），进行跨门类档案知识关联，搭建民生档案专题知识库，以实现民生档案的智慧化利用。形成五类民生档案数据的多层级、跨门类的弹性关联知识网络，充分挖掘各类档案中的隐性知识。以个人为主体，拓扑展示多类档案中人与人、人与事件的关联关系，显示效果区分关联度，并可提示隐性关联的排序以及隐性关联显性化所需提问信息。4.1民生档案专题知识库（1）设计基于五类民生档案数据的新型多层数据关联关系网络结构。（2）自动检测照片在档案扫描件中的位置并进行自动抽取，完成对婚姻、学籍类民生档案的图像抽取工作，并建立对应人物的关联关系，基于馆内已有的电子化数据，完成对出生证明、退休档案、契税档案五类民生档案的知识数据抽取工作，并建立对应人物的关联关系。（3）基于以上多层数据关联关系网络结构化数据，建设民生档案知识利用平台；设计高效的容错容缺关联关系网络，利用关联度评分神经网络模型，构建一个多层级、跨五类民生档案的弹性关联知识网络。实现智能联想、关联性匹配、智能推荐、人物关系数据网络可视化、关联档案导出等。为查询民生档案信息提供便利，提高档案利用效率。4.2利用平台4.2.1性能要求①在文本数据准确的情况下，基于NLP自然语言处理技术的数据抽取准确率高于80%；②以拓扑图形式进行数据组织显示；③实现查询结果的关联度排序；④在高并发使用的情况下保证系统整体的数据一致性、完整性和正确性，具有较高的成熟度；⑤数据自动抽取速度小于0.5秒/页（在GPU机器上）。4.2.2核心功能要求核心功能功能要求功能描述数据可视化对数据实体及其关系进行可视化呈现对知识数据进行可视化呈现；展现实体与实体之间的关联关系；支持多级实体数据的展开以及关系详情数据的查看；智能联想实现检索内容的智能联想查询根据用户输入的检索关键字进行全库智能检索，并实时反馈用户；智能推荐对实体关联信息进行智能推荐基于已有的实体知识，进行关联度计算、排序与知识推理的关联消歧，实现知识数据的智能推荐功能；关联检索基于关键词的实体及关系知识检索根据输入的检索词进行实体知识精准与模糊检索；支持基于实体和关系的路径检索；5.专题知识库数据抽取数量要求为建设专题知识库，需对不同全宗档案数据做相应抽取，抽取权重分配以专题知识库建设具体需求为准，项目总体抽取数据应不少于10万条。交付的数据存储格式应采用通用的数据格式（RDF、关系型数据库等）。6.系统开发要求部署环境：服务端操作系统、数据库、中间件符合信创部署要求终端适配：信创终端及其他架构设计：B/S可嵌入性：机构沿革展示平台，民生档案智慧利用平台可嵌入市档案馆现有信息系统三、建设原则本次项目建设遵循的基本技术原则如下：1.稳定性原则。系统处理能力和稳定性完全满足业务的峰值要求，适应各种特殊情况给系统带来的压力。具有系统资源回收能力，避免系统长时间运行后逐渐消耗系统资源（如内存泄漏）而引起系统崩溃。2.开放性原则。系统架构清晰，基于IT业界标准，对系统中的各种网络协议、硬件接口、数据接口等进行统一规划，满足采购人现有系统及其他主流第三方软件的信息交互要求，为未来的系统扩展奠定基础。3.可扩展性原则。软件体系结构不依赖于硬件设备，系统总体架构和软件体系结构要有可扩展性，要充分考虑到未来业务的发展带来的数据规模的发展、管理需求的变化以及系统保障级别的提高，方便对新需求的扩展和支持。4.高效性原则。系统具备高效快速的的数据处理能力，确保在多任务大数据量情况下仍能快速、高效、准确地处理各类数据处理和数据交互任务，并根据其他模块要求及时交换数据。5.安全性原则。系统必须建立在成熟稳定的硬件环境和应用软件基础上，可提供完善的备份恢复策略、安全控制机制、运行管理监控流程和故障处理手段来保障系统的安全、稳定，并需要保证终端到后台整体服务器的安全性。6.可维护性原则。系统产品设计需要兼顾业务操作的便利性，技术扩展的简便规范性，及系统部署的易操作性。四、项目实施工期本项目全部内容需于2023年10月30日前完成并交付。五、质量保证1.实施单位须保证所提供产品符合国家有关规定。实施单位须保证所提供产品具有合法的版权或使用权，本项目采购的产品，如在本项目范围内使用过程中出现版权或使用权纠纷，应由实施单位负责，采购人不承担责任。2.实施单位必须保证免费解决项目所涉及的技术问题，包括将机构沿革展示平台，民生档案智慧利用平台嵌入市档案馆现有信息系统的适配改造和技术对接，如因技术原因无法满足采购人需求，由此产生的风险由实施单位承担。3.实施单位需为本项目设置项目经理1人，开发人员2名及以上，OCR数据化服务驻场工程师1人，数据抽取模型训练工程师1人。中标方应指定具有两年以上同类项目管理经验的人员作为项目经理，未经采购人同意不得随意更换项目经理；若原指定项目经理不能满足采购人工作要求，应根据采购人要求及时更换。中标方需派驻工程师一名，常驻于招标方，负责处理项目建设的日常运维实施、数据质检、沟通协调及常见故障排除等工作以及招标人交办的项目相关工作任务，包括但不限于数据化档案目录内容分析、档案原文质量分析等数据化相关内容的协助工作。六、项目验收1.采购人将组织对供应商进行履约验收，出具验收书，存档备查。如果发现与应标文件或合同要求不符，供应商须承担由此发生的一切损失和费用，并承担相应的法律责任。2.项目验收要求：2.1.档案数据化（OCR）内容建设（1）项目成果格式符合项目要求，数量符合合同约定。（2）OCR识别成果质量标准应符合《DA/T77-2019纸质档案数字复制件光学字符识别（OCR）工作规范》。（3）OCR成果验收按照批次进行，供应商应对每批次的OCR成果进行人工抽检的方式进行质检，并留存质检记录，质检通过后方可向采购人提交验收。（4）批次

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

档案数据化及专题档案数据库建设需求

文档简介

温馨提示

最新文档

评论

档案数据化及专题档案数据库建设需求

文档简介

温馨提示

最新文档

评论

相关文档