版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
详解非结构化数据治理
随着互联网技术的日新月异,内容数据逐渐在各行业的业务中占据更重
要的地位。日常的业务过程中,需要处理的大量电子文档、图片、音
频、视频等,都属于内容数据范畴。
例如,某银行的无人营业网点的远程业务办理中,要求用户上传身份
证、签字页等扫描件,来核实用户身份。为其做后端支撑的影像管理平
台,就属于典型的内容管理系统。基于该类平台,企业替代了业务处理
中的纸质化传输,实现了海量非结构化内容数据的采集、加工、传递及
服务的全生命周期的数据整合,大幅提升了生产效率。
•电子预约码•流程优化
•移动银行预约•业务监泅
・微信预约•业务无纸化
网点智能化整体业务示意
内容管理系统,除了管理非结构化的内容数据(如图片、语音、视频
等),还需要实现内容文件的元数据(如文件标签)的管理,才能为业
务系统提供服务,如批次上传/下载、标签化、全文检索、生命周期管
理、文件加工转存、断点续传等。
对内容数据进行收集、存储、管理和利用的整个过程,已经成为企业提
高业务效率和提高盈利能力的有效方法。
01非结构化数据概述
"非结构化数据"是什么?相较于记录了生产、业务、交易和客户信息等的
结构化数据,非结构化的信息涵盖了更为广泛的内容。非结构化数据指的
是:数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库
二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、
XML、HTML、各类报表、图像和音频/视频信息等。
相对于结构化数据,非结构化数据具有以下特点:数据存储占比高、数据
格式多样、结构不标准且复杂、信息量丰富、处理门槛高。
当前行业公认:非结构化数据占数据总量的80%以上。结构化数据仅占
到全部数据量的20%,其余80%都是以文件形式存在的非结构化和半结
构化数据,非结构化数据包含各种办公文档、图片、视频、音频、设计文
档、日志文件、机器数据等。
非结构化数据的占比图
非结构化数据没有预定义的数据模型,不方便用数据库二维逻辑表来表
现。
下面对比一下结构化数据和非结构化数据的区别:
结构化数据,是指由二维表结构来逻辑表达和实现的数据,严格地遵循数
据格式与长度规范,主要通过关系型数据库进行存储和管理。
结构化数据格式形式如图下:
idnamegenderphoneaddress
1female3337899湖北省武汉市
2王二male3337499广东省深圳市福田区
3李三female3339003广东省深圳孤山区厂.
结构化数据
非结构化数据,是数据结构不规则或不完整,没有预定义的数据模型,不
方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文
本、图片、HTML、各类报表、图像和音频/视频信息等。
02非结构化数据管理存在的问题
1、数据种类繁杂,形式多样
由于企业日常经营管理和业务管理的需要,建立了功能各异的应用系统
或信息化管理平台,而这些管理系统和平台中生成了形式多样的非结构
化文档数据,用以支撑企业的各类管理工作。
除此之外,还有大量与管理相关的非结构化文档数据散存在员工个人工
作电脑中。这些数据种类繁杂,有的来源于外部,有的是经过内部整理
编研形成的,有的则是完全产生于内部;涵盖了不同格式、不同存储载
体、不同管理阶段的非结构化文档数据。
一般来说,企业拥有形式多样的存储设备,包括个人工作电脑以及信息
化管理平台中管理的设备,且归属于不同的专业领域,业务活动中产生
的非结构化文档数据除了常见的与办公活动相关的非结构化文档数据
外,还包括了如照片、视频、设计图纸等多种形式。目前,这些不同种
类的非结构化文档数据基本处于分散状态,很难进行有效的关联和整
合。
2、信息孤岛造成数据割裂现象严重
由于信息系统建设具有阶段性特征,已有的信息系统建设之初仅以单个
的业务需求为目标,彼此孤立,存在着比较严重的孤岛现象,系统之间
缺少横向的数据接口,且数据标准不统一。即便是归档后进入档案系统
之中的文档数据也难以实现有效的管理与集成。
例如,企业业务活动中存在着很多简称、全称以及英文名称并行使用的
情况,很多数据标签对应同一个事物、同一个意思却使用不同的标签
值。随着企业对数据资产价值需求的日益提升,这种现象的弊端亦凸
显,打通企业非结构化文档数据的"任督二脉",实现其资产价值势在必
行。
3、存在过多的“账外”非结构化文档数据,缺少统一管控
由于企业的归档制度不够完善,集团制订的归档范围未将一些应归档但
无法通过系统流转的文档纳入其中,部门相当一部分非结构化文档数据
仍保存在个人电脑之中,没有统一的管理和控制,难以进行检索和共享
利用,导致企业文档数据资产存在着流失的风险。
4、非结构化文档数据管理功能不全
如不支持有版本的非结构化文档数据管理,使用口径不统一,相同文件
分散在不同的业务系统中,无版本控制导致无法确定系统中版本是否为
最新。再如,业务系统缺少归档功能和接口,导致部门无法及时提交应
归档保存的非结构化文档数据,导致非结构化文档数据资产容易丢失。
同时,许多非结构化文档数据往往以"附件"的形式存在于系统中,难以
检索与利用。
企业一些信息系统(如0A系统、ERP系统等)中文档多以表单(如办
文单)的形式进行流转,需要办理的文档通常作为表单的附件,其中既
有word或pdf等格式的文本文档,也有多种格式的图片、音视频文件
等。这些非结构化文档往往只能借助其所依附的表单信息或者简单的文
件标题等元数据加以检索和利用,检全率低,开发利用不足,难以开展
深度的数据挖掘与分析。
5、相关制度体系不健全、管理缺位
企业现有的文档管理制度并不是建立在彻底的数据清理基础之上,因
此,对于企业中生成哪些非结构化文档,哪些需要归档,如何进行归
档?如何进行管理和利用等问题,现有制度中均缺少系统、细致、可操
作的规定和描述。
而且,非结构化文档数据缺少必要的分类及元数据项。尤其是文档生命
周期流程,即从文档生成、流转、办结到归档、保存、利用的全过程,
并没有非常清晰和规范的管理流程和要求。
同时,企业业务活动往往涉及多个参与方,既有企业内部的部门,也有
外单位,协同管理与归口管理的矛盾突出。这就对企业的非结构化文档
数据管理提出了更高的要求,尤其是非结构化文档数据的准确性、及时
性、一致性、安全性等方面。
此外,企业非结构化文档数据类型包括内部发文、外部发文、收文、签
报、合同、业务文件附件及归档之后的档案。除了归档之后的档案数据
是由数字档案管理系统进行集中统一管理之外,归档之前的非结构化文
档数据往往处于分散管理的状态,存在着失存、失真、失控和失用等诸
多问题,直接影响了后端档案数据的质量,影响了文档数据资产价值的
发挥。
针对上述问题,要想真正实现企业文档数据资产的科学管理,非结构化
文档数据管理势在必行。
03非结构化数据治理体系规划
由于非结构化文档数据数量大、范围广、数据状态繁杂,涉及部门、人
员和系统众多,正所谓牵一发而动全身。因此,要顺利开展非结构化文
档数据的治理,必须充分做好前期的准备工作和规划。
在“摸清家底"一现状调查和现状评估的基础上,结合《信息技术服务治
理第5部分:数据治理规范》提出的数据治理框架,从顶层设计、数据
治理环境、数据治理和数据治理过程四大部分开展非结构化文档数据的
管理。
或甯清用
企业的Ig-ijH标
业务11-:分析:
现状分析与对你,
□
财,
及H经济效益分析及陵期收果
隼结构化文档敏物的的用
M内纤期就坏地分析
行业环埴分析
企业内邰不埴分析
图1企业非结构化文档数据治理棍架
1、顶层设计
企业的发展战略、管理模式和关键业务活动对于企业信息化及其数据治
理的方向和目标起着决定性的导向作用,同时,企业各级部门及人员对
于非结构化文档数据管理的理解与期望也将影响数据治理方案的设计。
因此,首先可以通过对企业关键业务活动的流程进行调查与分析,借助
成熟度矩阵来评估企业非结构化文档数据在不同业务活动中的现状水
平,并根据相关制度规范或行业标杆进行对标,找出差异点,作为项目
开展的现实基础。
然后,在上述活动的基础上,制定企业非结构化文档数据项目的实施规
划,包括定位、阶段、原则和目标,作为项目开展的基础与依据。
2、数据治理环境
任何管理活动的开展都离不开所处的环境,后者是前者赖以生存的生态
系统。国内外宏观环境、行业环境和企业内部环境构成了环境要素的三
个层面。
在这三个层面中需要纵向考虑政策、制度标准、趋势、文化、传统等要
素对于项目的影响作用,要遵循法律法规、行业监管、内部管控,满足
数据风险控制、数据安全和隐私的要求。
识别并评估市场发展、数据清理、竞争地位和技术变革等变化,规划并
满足数据治理对各类资源的需求,包括人员、经费和基础设施。
尤其要关注企业文化、体制传统对管理活动实施的潜在影响,区别有利
因素和阻碍因素。
3、数据治理框架
在前述两个步骤的基础上,围绕数据标准、数据质量、数据安全、元数
据管理、内容管理和文档全生命周期管理等方面,搭建企业非结构化文
档数据管理系统平台,在企业内部打通各业务系统之间的壁垒,在统一
的平台之上规范非结构化文档数据的管理,同时融合元数据管理和内容
管理。
业务厥统
II结构化之杓散利应川希统平行
OA系统
分类订阅
个人中心通知公告,新闻旬S|生产专题|「生产月报|企业制度|
分类尊肮I文件篇选风控系统
|苕销题]法律专题|教育培训]电力技术论坛
热搜攵档I相关推荐权限中请在g娴读C
1列vrrrrfn1
办公厅文档考倏算部文档埠[企业都支归库]法务那文档岸[外外门户
包箱郁文档屋制型的财务部文科蟀11:/J'".1电r商务平台|
科环部文档库基建部文箝库|妥购部文档阵|国际磊文档阵1法务系统I
部门❷椒
[,宇普案愠1
文竹年人资部文榜噂纪世部文林库||审计部文料阵|党建部文档库
双创平台
党纲巡视“文H库一埋部文档咔]安安部文样村I亚务事办公公文nw|1外本管理系统i
型?文储库|直宜属警档库
工委文档库।资产财务一体化系统।
企业明秋|文件管理|上传管理[]教据源泞理卜
F裁管理
元数据管理系统企业内容管理宿统
无数据分析功施下疝数据航量管理内容采集.内容甘[・•■•
图3企业非结构化文档数据管理平台-应用架构示例
文档类型关联着文档的元数据,不同的文档类型具备不同的文档元数据
集合,也对应着不同的管理策略和机制。因此,需要统一制定符合管理
和利用要求的非结构化文档数据元数据标准体系。
内容管理理念则作用于数据管理平台底层,以数据内容为中心统一存
储、管理企业内部已建、在建、未系统化管理的非结构化文档数据,为
上层业务管理、知识管理、智能搜索等业务应用的建设提供支撑。
4、数据治理过程
按照项目管理流程的一般要求,针对企业非结构化文档数据管理具体目
标和内容,进行统筹规划、构建运行、监控评价、改进优化四个阶段的
流程控制。
在此过程中,由于项目涉及企业各个层级、各个部门的众多人员、系统
及工作流程,为了保证项目的顺利实施,需要在项目开展的同时进行变
革管理(ChangeManagement),通过调研、宣贯和培训等手段加
强企业员工对项目的认知和接受程度。
04非结构化数据治理解决方案
非结构化数据管理在企业实践中主要体现为ECM企业内容管理,其解
决方案是通过企业内容管理系统来得到各项非结构化数据管理工作的具
体落地实施。
内容是指各类文档中包含的数据,其中以文本、图像、音频、视频等非
结构化数据为主。ECM企业内容管理是指以一种战略或方法,来帮助
企业获取、管理、存储、保护、利用和洞察企业组织流程相关的非结构
化数据,如下图所示。
会议纪要
技术白皮书
emails
Q销I
SOPs
非
结
构E
化企业内容管理C
数EnterpriseContentManagement
据
iSi+fil
演示乂
=各类单据
ECM企业内容管理是一种专注于非结构化数据领域的软件类型,其涵
盖了企业网盘、文档管理、知识管理、文件安全交换、工程协同设计、
文件安全外发、档案管理、影像文件管理、电子文档安全管理、文档
云、ISO质量文件体系管理、GMP质量文件体系管理、非结构化数据
管理平台、工程内容管理等应用软件,以及基于AI智能和Graph知识
图谱技术的智能推荐、智能搜索、智能定密、智能安全分析等内容智能
应用。
ECM企业内容管理系统可以帮助企业内容管理战略落地,通过内容获
取、管理、存储、保护、利用等方式挖掘和释放内容价值,最终促进企
业数字化转型,提升企业运营效率,并获得企业商业洞察能力与长远竞
争优势。
Gartner于2017年修正了企业内容管理的定义:企业内容管理是一种
服务,包括内容协作平台、内容服务平台和内容业务平台。具体表现为
具有通用API接口和多储存库的平台型软件,服务于多分支组织机构和
各种应用场景。
ContentServicesFramework
Gartner在《预测2019:内容服务的技术融合》中提出:越来越多的
内容创新数字业务促进了对元数据解决方案需求的增长,使得通过使用
人工智能来实现以前只能通过人类专业知识才能实现的自动化解决方案
变得更加具有可行性。
进一步分析Gartner内容服务框架,其主要包括内容管理平台、内容服
务应用和内容组件。其中内容管理平台是底层内容统一存储和统一管理
的基础平台,提供各种API接口和Connector连接器等集成支撑;内
容服务应用强调以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理给药制度试题及答案
- 2025年江西吉安市青原区人民医院(吉安市青原区总医院)面向社会招聘6人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 2025年横峰县人民医院招聘编外专业技术人员1人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 2025年北京市顺义区卫生健康委员会招聘事业单位高层次人才2人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 2025年下半年浙江杭州市丁桥医院招聘编外工作人员1人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 2025年2026广西玉林市第二人民医院人才招聘40人(第一批)笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 危险废物制度
- 2025河北沧州市任丘园区产业发展集团有限公司招聘10人笔试参考题库附带答案详解
- 2025年甘肃省临夏州和政羊智慧文旅发展有限公司招聘52人笔试参考题库附带答案详解
- 2025山西文化旅游投资控股集团有限公司社会招聘专业型人才3人笔试参考题库附带答案详解
- 老年患者多病共存精准管理策略
- 四川省遂宁市2026届高三上学期一诊考试英语试卷(含答案无听力音频有听力原文)
- 福建省宁德市2025-2026学年高三上学期期末考试语文试题(含答案)
- 建筑施工行业2026年春节节前全员安全教育培训
- 2026届高考语文复习:小说人物形象复习
- 2026及未来5年中国防病毒网关行业市场全景调查及发展前景研判报告
- 2026年山东省烟草专卖局(公司)高校毕业生招聘流程笔试备考试题及答案解析
- 附图武陵源风景名胜区总体规划总平面和功能分区图样本
- 八年级下册《昆虫记》核心阅读思考题(附答案解析)
- 脱碳塔CO2脱气塔设计计算
- 产品报价单货物报价表(通用版)
评论
0/150
提交评论