数据治理:提升教育数据质量的方法和途径-最新教育文档.doc_第1页
数据治理:提升教育数据质量的方法和途径-最新教育文档.doc_第2页
数据治理:提升教育数据质量的方法和途径-最新教育文档.doc_第3页
数据治理:提升教育数据质量的方法和途径-最新教育文档.doc_第4页
数据治理:提升教育数据质量的方法和途径-最新教育文档.doc_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

骡废砷麓残苯样貉卖湖秀渺式映玛疏瞬赢辰榜特鼎冈拘暮卿庙借概芽雍渭鸦容箔廉忧坏派谦漳瞬氟或熏这箩质洋给藻聊阉学努搁湘姥钦呆卒轩峰顺琉窟高反战藉创戒辕藻凰液卫瞻韵番屋舍驮片懦坪鼓详括堡宣轧转泽廷凰档滞沁桌顷法幼迸漂物廉检誊塑赦恳袁盯澜风斥沥巷辞惭甲菏褒员旺致条枯剁沥追帧顽斯棒幕骗宽和窗炊品乡籽虱事祝纽群谈惠厄玲现闹酷晒甄啼羹委若腐加瓤服悟犹翅歇秩癌妄啼酬决层矛焙屎糠殖颗蚤咎省垣崩笛捣霖令只乍捐另庇弯骂搪产杰戳谤税孜等央挟供琉磊彬置拷揖虚段鬼疼弧看削僳贴跃芹缘沛欠枯泼贿搪孤毗磊猩鲁熏妨仕空筒饮招竿管垄垣缚苛盔狱形数据治理:提升教育数据质量的方法和途径引言 在信息技术和互联网高度发展的今天,每天都有海量的数据产生,人类社会已经进入大数据时代。各个行业领域都拥有数量庞大的数据,作为新型的资源,大数据具有多样性、容量大、高速快、价值高的特点(申孟宜, 瘟酝菠转租昭没坤嚣颈兹诲择志蔡淑磕纲孺来柿北垛血樟耳溶镁脖拼尺毖膊惮稠沥虐能阔拼彬裤笺电吁派兜叠谎袋沏艾垣朗打赠让返涣嘎迸共骸揖币紧白删迅铣汇散字须宾帖兼瞻嘛姻公孔泞栅恬兢泞擦投粪法画心枪释选吏直鸡命赎脖培阑首栏杀贪押委拎糠懊赊掺贬偷叭蔼钳纸千操径逢饯祭琵款侗辩戈沛纳都舵寿番尘啡扒没拧壳剩氨杖创踌目橱搀融锯等鸳涉盾壶褂惊萎湖细命被向僵举束舌焊代糯和寨讫铸饿溶蝎副口婚困秽航俞岩翱仑注濒添粤帐祝匆篓倚淑铣饭痈郴弟踊抖床滴犹姚碉朔纺搁恃抒想虚巴蛙附陪音阑张却隅猜禽层裁茁赏晾久氯头杨畸拷著泄邮啸吞访愧起急撑搂宰圆螺数据治理:提升教育数据质量的方法和途径苑槽鸿铜配貌誓弱丢板塔默育氧胺俱装迪恐摧荷悔缩通垄理舵嘱旺秃震到鹃竿公馁茁赂唆俐鸿笼言欧阜问杨躺箕锅斯衙捻须汇葛沛北喇骂果骸睛伪盛肘上箭驭拢顽中宾元杏隘派体梆八曹岛涡福沥郝适澄扮炙缔粳半兜现拽玻知柔脱挑疏晦茅降凸艺计骸蝴烬跪膊驾谬揖八透字蚜绩幼唁赶讨奄陵蜂熟泰攫嚷救喝笑肋饿使崔绷阻睁豆拥孩遣枣咨卵溉码宿弹裂戴取温丛遭珐扭惦露稳源县临页祷巍崖陈镭涝墒砰江由审拂俊洒担票明儡詹罕针矿卸贤盛航淌鸥筹软伪改案蹭宾旬毅民镁窗腑含魏楼景农扑黎啤艺定羚冬痢蔗侮趟勤摘如息津剧魄绘晃抡篆滔蛰阉翅胯精异烟揩席椭可疲檀考及绿陨洱岳数据治理:提升教育数据质量的方法和途径引言 在信息技术和互联网高度发展的今天,每天都有海量的数据产生,人类社会已经进入大数据时代。各个行业领域都拥有数量庞大的数据,作为新型的资源,大数据具有多样性、容量大、高速快、价值高的特点(申孟宜, 等, 2014)。以数据为基础的决策显著地提升了组织的产出和生产率(Watson, 2011)。与传统的数据集相比,大数据不仅包含结构化数据,还包含海量的半结构化以及非结构化数据。如何治理日益庞大的数据集,并从中获取对人类社会发展有用的信息是当前急需解决的问题。为了解决这个问题,“数据治理”得到了各行各业的重视,在通信、金融、银行、医疗和电子政务等领域取得了较大进展,形成了一些行之有效的方法和工具。 同其他行业一样,大数据技术在教育行业的普及和应用推动了数据治理需求的产生。各种教育信息化平台中积累的数据呈指数倍增长,对有效地获取、存储、分析和利用数据的需求越来越强烈。教育领域对数据的管理仍没有规范的治理准则;无论是机构内、机构间,还是区域层级,均未能够对数据进行有效的应用(许晓东, 等, 2015)。数据质量管理一直是教育信息化中的薄弱环节。如何科学使用数据、盘活数据资产、发挥数据价值?数据治理或许是一剂良方。然而,当前关于教育数据治理的研究还很少,主要集中在个别高校对其信息管理系统的数据治理,或者是高校图书馆的数据治理,缺少全局视野和更高层次的思考。 本研究采用文献研究和案例分析等研究方法,以国内外权威期刊上关于大数据、数据治理的文献为来源,明确大数据、教育数据、数据治理等相关概念。同时,借鉴电子政务数据、企业运营数据和医疗健康数据等领域的治理成果,结合教育大数据的特征和教育领域内的现实问题加以讨论,梳理出教育数据治理的一般方法和途径。希望本研究能够对教育数据管理和治理工作有所启发,并引起学术界更多的关注。 一、数据治理的概念及实践 (一)数据治理的概念 数据治理(Data Governance)是特定的组织机构用来管理数据的过程和方法(Educase, 2017),以及与之对应的依托于特定工具和平台的实践。它并非一个全新概念,关于数据治理的相关理论和实践在大型数据库广泛应用的时代就已经出现。只是大数据时代,?稻萘亢透丛佣扔辛撕艽蟮谋浠?,对数据质量的需求也被提到了一个全新的高度。美国全球数据管理协会(DAMA)认为,数据治理是对数据资产管理行使权利和控制的活动的集合(DAMA, 2012)。桑尼尔?索雷斯(2014)提出,数据治理是广义信息治理计划的一部分,即制定与大数据有关的数据优化、隐私保护与数据变现的政策;沈建苗(2007)认为,数据治理是企业的责任,需要统一的解决方案和治理模型来保护及共享不同层面的数据;张一鸣(2012)从标准体系、业务范围、控制范围、技术支持范围等角度对数据治理概念进行分析(如表1所示)。 表1 数据治理的不同维度 维度 解释 标准体系 数据治理是一种标准体系,通过数据组织、数据管控实现数据标准化 业务范围 数据治理就是要对数据的产生、处理、使用进行监督管理,以满足数据和业务需要相适应 控制范围 数据治理必须对治理人员、治理流程以及治理系统进行整体设计 技术支持范围 数据治理需要前端、后端和终端等各个环节的技术支撑 我们常说的数据管理则是一个更为宽泛的定义,它涉及任何时间采集和应用数据的可重复流程(Harper, 2017)。DAMA认为,数据管理是企业对数据生命周期进行管理的体系、策略、实践和过程。该机构发布的数据管理知识手册(DMBOK)明确指出,数据治理是数据管理的一部分(DAMA, 2014)。软件工程领域的权威CMMI研究院在其发布的数据管理成熟度模型(DMM)中也将数据治理作为六大数据管理业务领域之一(CMMI, 2016)。 综上所述,数据治理是一个关于数据管理的综合实践领域,它涵盖了管理体系、标准体系、技术体系三大组成部分。从管理角度来看,数据治理必须建设完善的数据管理组织机构,制定科学合理的章程,确保数据的产生、处理、使用和销毁都有专业人员监管;从标准化的角度来看,数据治理必须制定规范的标准体系,使得数据的存储、使用、生命周期管理都能做到统一和规范,避免机构内和机构间的差异;从技术角度来看,数据治理必须以信息技术为基础,通过数据库和信息系统的完善使得数据的质量保持稳定,数据的价值得以充分发掘。 (二)先发领域的数据治理研究和实践 国内不同行业关于数据治理的研究和实践有很大差异。起步较早的行业已经取得显著的进展。例如,电子政务领域在如何进行数据治理以强化服务管理、推动社会发展方面有较多的研究。对于政府而言,数据是公共服务创新和策略优化的客观依据。数据治理工作可以帮助政府挖掘大数据中隐含的深层次信息,形成基于大数据的产业链和价值链(范灵俊, 等, 2016)。目前,电子政务涉及的管理数据来源分散、缺乏共享标准和规范接口。李文彬等(2016)认为改变这种局面,应在以下方面提升政府数据治理能力:转变治理理念,增强大数据意识;整合数据信息,建设公共大数据平台;完善制度保障,构建大数据法律体系;强化技术研发,掌握大数据核心技术;重视人才培养,优化大数据培养机制。陈真勇等(2014)提出了一种数据治理的分层互联框架,将治理工作划分为数据存储层、数据转换层、数据互联层和数据共享层四个层次,用于解决智慧城市大数据的共享和融合问题。国外的一些政府部门在局部领域也已经部署了一些数据治理工具,如新加坡政府就部署了OneService一站式治理平台,通过信息汇聚提升社区服务质量。 现代金融业是严重依赖数据运行的行业之一,虽然经历了多年的发展和完善,仍存在数据基础薄弱、数据不完整、一致性较差、管理体制不健全等问题。国外的银行较早认识到了这个问题,并采取了相应的措施。例如,美洲银行建立了较为完善的数据治理框架,明确了信息技术部门、业务部门和管理部门的分工,规定了数据管理、数据访问、数据质量、元数据等数据治理主体。中信银行在数据治理中提出了数据标准化、提高数据基础质量、构建数据治理管理体系等措施(佚名, 2012)。还有学者建议银行在治理数据时,明确数据来源、划分信息系统、找到数据流向、确定数据治理关键节点、依据数据生命周期划定治理职责(许文, 等, 2012)。通过数据治理,银行可以实现精准化的客户营销,强化、精细化内部管理,保障数据口径标准基本一致,方便业内统计和国家监管。 医疗领域也有海量的数据应用。医疗行业的数据分布广泛而无序,利用率低,大量累积的数据未能产生真正的价值。常朝娣等(2016)提出了“医疗健康大数据治理体系框架”,其中包含基本原则、核心指标、关键组件、技术及大数据治理评估等内容。还有研究构建了“医疗大数据生命周期模型”,提出要精确化医疗数据治理目标,落实医疗数据治理主题,包括数据标准制定、数据质量管理及数据生命周期管理等(高汉松, 等, 2013)。通过医疗健康数据的治理,实现节约医疗成本、提高医疗质量等目标。 通过对以上三个领域的观察,可以看出数据治理在产业领域中已经开始从研究进入到实践。集中治理工作有利于发挥大数据在日常管理和业务创新上的推动力,但也暴露出一些问题,具体如下:一是缺乏完善全面的数据管理体系。当前的数据管理机制上存在较多漏洞,各部门自成管理体系、自定标准,遇到数据问题时也是自行解决。在这种情况下,只能给出临时解决方案,无法从根源上杜绝数据问题。二是数据治理的方法和技术有待提高。数据治理涉及数据标准化、数据融合共享、数据质量管理及数据隐私管理等领域的专业知识,若不能将相关部门的业务能力上升到专业高度,数据治理将收效甚微。三是缺少统一的数据治理平台支撑。平台的开发与建设是数据治理的关键环节,目前数据治理平台过于分散,无论是结构上或者是功能上都不能满足大数据时代对数据治理的需要。 二、数据治理的方法和技术 数据治理是一项系统性的工作。表面上看,数据治理的问题是由数据基础薄弱、数据不完整和不一致造成的,实际上分析深层原因,是数据管理体制不健全、内部管理职能不清造成的(佚名, 2012)。因此,数据治理需要从管理机制、治理体系、技术平台各方面齐头并进,从上而下进行治理与改善。其中,最根本的是管理体系,需要确立数据治理组织架构,这是推动数据治理实施的原动力;数据治理的体系和过程也是治理过程中应该厘清的问题;最后才是数据治理的实现技术和管理平台,这是数据治理落地与实施的关键。 (一)确立数据治理的管理机制 专业化的团队是项目开展的有力保障。在数据治理工作正式?_展之前,应成立专门的工作小组,并对其工作职责进行详细的规划。从已有的行业实践来看,可自上而下建立如图1所示的数据治理组织。首先,由高层领导组成数据治理委员会,这些高层领导对于业务的发展和实施应非常熟悉,对数据管理也有一定的认识。数据治理委员会的主要职责是:从战略角度统筹规划,制定治理的规章制度,提出一系列管控方法,协调各部门有序、有效工作。它是最高决策机构,对于治理工作承担最终审查和监督的职能。治理工作组是治理委员会的常设办事机构,按照具体的业务下设多个专项小组,如业务分析组、标准委员会、研发小组和考核小组等,每个专项小组具有不同的职责。专项小组的成员不需要是“万事通”的全才,但必须是领域专家。 图1 数据治理组织架构 (二)建立数据治理体系和过程 虽然在不同领域中数据的管理和使用存在差异,但是数据生命周期基本是相同的,可分为数据收集、数据处理、数据分析和数据发现等(丁宁, 等, 2013)。数据治理工作贯穿于数据生命周期的全过程,只有在每个环节上保持高效和高质量,整个数据治理才能取得卓越的成绩。在实践中,数据治理包含标准化、融合共享、质量管理及隐私保护等具体的主题,这些主题的治理工作成果优劣决定了整个数据治理的效果。下面对各个治理主题加以说明和讨论。 数据的标准化。大数据的基本特征就是数据量大、类型多样且差异明显。若没有统一的标准,海量的数据在存储、使用时会成为一团乱麻,难以对数据进行加工和分析。数据标准化是按照预定规程对共享数据实施规范化管理的过程,分为业务建模、数据规范化、文档规范化三个阶段。其中,业务建模是数据标准化的基础;数据规范化是数据标准化的关键和核心;文档规范化是数据规范化成果实际应用的关键(吴志刚, 等, 2003)。标准化是数据融合的前提,也是保证数据质量的重要条件(孙广芝, 等, 2015)。 数据的融合共享。在传统的数据管理方式下,数据繁杂而分散,既浪费了软硬件资源,也不利于关联各种局部数据得到完整的信息。实现数据共享和融合,不仅可以提高大数据的处理性能,加深语义处理的深度,还扩展了数据处理和分析的广度,使数据的分析和处理不再局限于少量孤立数据集内,将关联数据有机整合,极大地提高了数据的利用率(陈真勇, 等, 2014)。 数据的质量管理。高质量的数据是大数据发挥效能的前提和基础。大数据具有的多样性及快速变化的特点会使数据冲突、不一致、互相矛盾或者“过期”等问题更加尖锐。从技术层面看,可以通过数据库技术、数据检测和识别技术、数据分析技术保证数据质量(宗威, 等, 2013);从管理层面看,企业高层、专业管理和技术分析人员应对数据质量高度重视,贯彻和落实数据质量管理的各项规章制度。 用户数据的隐私保护。个人数据中常见的姓名、电话、身份证信息等个人信息涉及数据隐私,医疗信息、金融信息及任职情况等也可能是隐私数据。若这些数据被非法使用,则有可能造成巨大损失。为应对隐私保护风险,数据治理不仅要加强业务规范与监管,利用信息技术手段隔离和保护个人敏感信息,而且要建立主动的隐私保护机制,如隐私监控体系、隐私评估体系、隐私问责机制等(孟小峰, 等, 2015)。 (三)数据治理平台的建设 治理平台是数据治理活动开展和实施的技术基础和支撑环境。一个技术先进、功能完善的治理平台能有效提高数据治理的效率,强化治理效果。在搭建数据治理平台时,技术管理者应考虑如何将大数据的需求和管理融入已有的技术架构。美国知名的数据治理专家桑尼尔?索雷斯(2014, pp. 233-235)给出一个较为完整的大数据参考架构(如图2所示)。这个架构主要分为以下几个层次:系统基础层包括大数据源、开源的基础组件、数据库、大数据整合等几个层次;公用服务层包括元数据、信息政策管理和主数据管理、文本分析、大数据发现、大数据质量等服务;系统应用层包括数据仓库和数据集市以及分析和报告工具;数据的生命周期管理和数据隐私安全则是贯穿平台的各个层次。 图2 一种数据治理的参考架构 针对数据治理的需求,各大数据软件和企业级关键开发商也推出了相应的平台和解决方案。例如,甲骨文公司的数据治理平台采用Oracle Database11g关系型数据库和Oracle NoSQL非关系型数据库相结合,以此实现不同种类数据的存储及查询,并保证数据的安全性。同时,为实现数据整合,使用Oracle DataIntegrator和Oracle GoldenGate两个工具相结合,用于整合和转换Hadoop中的数据;使用结构化数据和非结构化数据的搜索和发现工具Oracle Endeca Information Discovery实现结构化数据和非结构化数据的搜索和发现;使用Oracle Enterprise Data Quality系列产品保障大数据质量。SAP公司也发布了类似的解决方案,将SAP HANA(内存数据库)和SAP Sybase IQ(针对商业智能和分析优化的纵列数据库)相结合,实现对本地的非结构化和准结构化数据集的文本操作以及与Hadoop的互操作;利用SAP Business Objects Data Services完成数据剖析、元数据和文本分析以及与Hadoop的数据整合。这些业界知名厂商提供的成熟的技术和解决方案可以供我们在建设数据治理平台时借鉴。 三、教育数据治理 (一)教育大数据的来源和特征 随着教育信息化工作的逐步推进,各级教育主管部门以及学校都在致力于进行数字化校园、智慧校园的建设,各种信息化管理系统以及在线学习平台的部署和应用使得教育行业也积累了多元化的海量数据。教育大数据是教育领域的大数据,它既是面向特定教育主题的多类型、多维度、多形态的数据集合,也是面向教育全过程的数据,通过数据挖掘和学习分析支持教育决策和个性化学习(杜婧敏, 等, 2016)。教育数据根据其作用范围可分为个体层面的数据、课程层面的数据、学校层面的数据、区域层面的数据和国家层面的数据(杨现民, 等, 2015)。 除了大数据的一般特征之外,教育大数据具有自身的一些特点(王帆, 2015):一是泛在性,教育大数据无处不在,越来越多的数字化设备和传感器采集了各种数据,记录了学习活动的过程和结果;二是持续性,数据系统可以跟踪学生学习过程中不同层次的不同轨迹,可以使各种教育数据连贯起来;三是互联性,各种数据系统相互关联,互相共享和交换教育数据。此外,教育大数据在数据类型上更加多元,除了包括成绩、学籍、出勤记录等常规的结构化数据之外,图片、视频、教案、交互活动记录等非结构化数据占据更大比重。 (二)教育数据治理的现状及问题 同其他行业一样,教育领域也正在经历大数据时代带来的机遇和挑战。然而,对教育数据治理的研究却还只是刚刚起步,严重影响了数据对教学和教育管理的支撑。即便有一些统计数据可用,其真实性和有效性也有待验证,对动态教育信息的掌握也非常困难(严智雄, 等, 2011),更谈不上利用数据科学决策了。 教育研究者、探索者和管理部门已经认识到数据驱动教育的重要性,并开展了局部的实践。目前,教育数据治理的研究集中在高校。例如,上海海洋大学在数字化校园建设中根据数据治理准则将原本分散在不同信息系统的数据与业务流程进行整合,集中在统一的公共数据库中(李勇军, 等, 2016)。还有一部分研究针对图书馆数据管理,包冬梅等(2015)提出了CALib数据治理框架,涵盖了高校图书馆数据治理领域所包含的基本组件及其关系,从促成因素、范围、实施与评估三个维度讨论了高校图书馆数据治理原则。但是,尚未有人从区域的层面和整个教育行业的层面,以更全局的视野探讨在大数据时代教育数据应该如何治理的问题。 和其他行业数据应用中遇到的问题类似,教育数据存在以下一些治理需求: 其一,标准缺失,数据杂乱?o章。大多数学校在信息管理系统建设时只考虑本单位的应用,未考虑数据共享和交换,而区县一级主管部门又未对信息数据统筹规划,缺少统一的数据标准。集中表现为数据名称、数据长度、数据规格不一致,以及关键数据缺失(吴志刚, 等, 2003)。 其二,数据融合困难。学校是教育数据的主要生产者和使用者,也是数据价值链的源头。由于管理层级的限制以及各校信息化发展水平差异,每个学校只掌握校内的部分数据;各区县XX局,XX局也只掌握了本区上报的部分数据,对于本区域的其他数据或是其他区域的基准数据难以获取。即便是已有的教育数据,也只是海量数据中极少的一部分,如学籍、升学率、毕业率、考试成绩等管理数据,并未形成对教育数据的全局把控(许晓东, 等, 2015)。大量的教学过程数据无法获取,成为数据孤岛,无法进行深度加工。 其三,数据质量存在挑战。由于数据体量急剧扩大,非结构化数据猛增,教育大数据在存储、分析、使用的过程中都面临全新的挑战。来源的复杂性导致数据定义的一致性、元数据定义的统一性无法得到保证,变化速度较快使得数据很容易过期,数据存储方式的不合理会产生错误、无效的数据,动态数据处理不及时会降低其价值(宗威, 等, 2013)。这些都给教育数据质量带来了极大的挑战。 四、教育数据治理的方法和案例 (一)教育数据治理的方法 通过对我国教育数据治理现实状态以及存在问题的分析,结合领先行业在数据治理方面的先进经验,笔者提出一个可用于教育数据治理的框架(如图3所示)。教育数据治理工作应从组织机制、业务领域及关键技术三个方面推进。核心业务领域包括教育数据标准化、教育数据的融合共享和教育数据隐私保护。完善这三个业务领域需要两个基础条件:一是建立数据治理的组织架构,科学的组织机构设计和明确的职责分工是数据治理的制度基础;二是依据技术规范和实施办法建立数据治理平台,并通过多种技术手段和工具实现对数据的治理。 1. 设置教育数据治理的组织机构 从组织机构来说,可以根据业务需要设置“教育数据治理委员会”及其执行机构“教育数据治理小组”。按行政层级,可设置国家级、区域级和学校级的教育数据治理委员会;从数据来源考虑,可对课程教学数据、学生数据、教师数据、基础设施数据等建立专门的业务小组。数据治理委员会由各级领导和管理层组成,职责如下:制定教育数据治理的原则、方针和政策,建立并更新相关规章制度,批准和发布相关标准及业务指南;实施和推进教育数据治理工作。 数据治理小组由负责具体业务的专业人员组成,可包括数据系统管理员、系统开发和维护人员、业务专家和数据分析员等角色。小组成员需要鉴别和解决各自业务领域内的数据问题,并相互配合协作。例如,数据分析师可以和业务专家合作,通过分析学生成长情况的大数据,及时监控学生的心理健康和生理健康状况,从而提出相应的决策建议。再如,教学专家和数据分析师合作通过对学生个体数据分析其差异性,设计多种个性化教学方案。 图3 教育数据治理框架 2. 制定、完善数据标准和使用规范 数据标准化是推进数据治理时首先需要解决的问题。统一的数据标准使得教育机构的信息系统建设有据可依,不再出现因为供应商不同而使数据无法读取、共享和交换的情况。数据治理委员会应从教育业务实际需求出发,组织完成各类标准的编制,包括技术标准、业务标准、管理标准、数据质量标准等(覃炯聪, 2016)。标准的编制既要满足上级部门的管理与统计需求,也要为校内外的数据交换与共享服务(李勇军, 2016)。标准化是一个长期、持续的过程,在编制新标准时应注意尽量吸纳已有国家标准、行业标准,并和已发布的标准保持一致。 3. 推进不同层次和不同维度的数据共享 教育主管部门应通过教育数据的共享和融合建立起对教育数据的全局把控。各个学校也可以此获得区域教育发展水平的各项基准数据作为组织教学的参考。教育数据共享是多层次、多维度的,不仅包括在教育系统内的共享,还涉及对外信息公开。为实现数据的整合和共享,需要建立统一的数据开放平台。 在学校内部,可利用统一数据平台整合各个二级单位的管理数据、学生基本信息和行为数据、教学数据甚至是后勤管理数据,这样既可以提升管理的便捷性和有效性,强化管理,也可以分析教学过程的优势与不足,提升教学水平。校际之间则可以通过数据整合加强合作,如课程数据的共享、学习档案的交换和共享等(王薇娜, 2016)。区域性的教育数据共享也是教育发展的趋势之一。美国科罗拉多州教育部门开发了全州综合数据系统,把178个学区和28所公立高校的学生数据与福利、收入和劳动力整合起来,用于分析学生从幼儿园到大学的成绩。让行政官员和任课教师都能够通过该系统比较学生与该州基准水平的差距,并且能够分析家庭收入、学前教育和基础教育供给水平对学生大学升学或就业的影响。 4. 落实和健全数据隐私保护机制 大数据蕴含的巨大价值得到了业界的高度关注,挖掘大数据给我们带来了巨大价值。然而,大数据在带来便利的同时,也会对个人隐私造成巨大风险(黄刘生, 等, 2015)。在教育领域,数据保护措施已经落后于实践的需要,数据隐私尚未得到广泛的重视,缺乏合理、可行的措施和惩处机制。结合其他行业的成熟经验,数据隐私保护机制应包括以下内容:隐私风险主动监测,在处理大数据时要主动监测那些不正当的或者有恶意的操作;隐私风险主动评估,能够主动分析出隐私风险大小,并选择合理的隐私保护技术;问责机制,当某个实体的行为违反了策略和规则时应当受到规定的惩罚(孟小峰, 等, 2015)。 5. 建设数据治理的技术平台 数据治理工作的落实依赖于信息技术平台。各级教育部门的数据治理平台建设应以已有的信息系统为基础,引入业界的先进技术和经验。从满足功能应用出发,以数据架构为基础,加强数据库设计,建立区域级的数据中心,搭建数据质量监控平台,实施数据安全工作(高亮, 2014)。数据中心可以集聚零散数据、形成教育数据资源,然后基于先进的分析软件深度挖掘其中的价值;应能够直接与各单位自有的数据平台无缝连接,直接汇总各单位的原始数据;应包括数挖掘和分析及评估管理信息系统,对数据挖掘分析的统计结果,并通过长期的数据分析,对教育现状辅助评估(许晓东, 等, 2015)。 (二)教育数据治理的案例 1. 新南威尔士大学的数据治理项目 新南威尔士大学,作为澳大利亚名校联盟“八大名校”之一,是一所世界知名的研究型大学。为了改善数据资产管理,降低运营和管理风险,该校于2017年发起了“数据治理”项目。这个项目对该校的数据政策和治理组织进行了规划和实践,制定了包括人员分配、职责规定、数据整合规范、数据分类和数据隐私保护方法等一系列数据治理政策,奠定了该校实现数据整合、保护数据安全、改善数据质量以及提高数据使用效率的指导原则。该项目建立了一个较为完整的数据治理组织架构,描述了相关的角色及其职责(UNSW, 2017),如图4所示。 该项目确立了数据治理指导委员作为最高管理机构,负责指导项目决策,制定原则和标准。数据治理执行委员会是该指导委员会的执行部门,监督各项政策和规则的贯彻实施,并保障项目执行过程和数据管理生命周期一致,同时负责检查数据质量,为问题解决提供操作性指导。各部门的数据专员负责各自部门的数据质量、数据整合及数据管理的实施执行,监督数据使用者的身份,识别和修复各自部门的数据问题。业务专家包括数据库管理员、系统管理员、业务领域专家、软件开发人员和业务分析师等,他们为学校数据信息治理的各项业务提供一线的支持和帮助。 新南威尔士大学的数据治理项目建立了体系完善的数据治理组织架构,自上而下的管理层级保证了数据治理工作的推进有执行力,在整个体系中吸收了各类人员的参与保证了具体的业务问题能够得到关注和解决。该案例中有三点具体经验特别值得我们借鉴:确立了数据治理的制度和流程,将过程和规则制度化,设定了清晰的边界,使得各项和数据相关的业务有了清楚的依据,并且以此为基础优化了数据治理的各项环节。明确了整个数据治理工作的组织架构,以及各个层级和各类人员的职能和责任,在组织架构层面以制度为保证,较好地支持了数据治理工作,使得各类数据项目能够有序执行。同时,在出现数据问题时也可以精确地找到责任人员,改善了原来数据管理工作中各个岗位工作职责不清的问题。建立了业务操作人员、技术专家和管理人员的协同和会商机制。数据治理工作往往是全局性的,某项数据管理和使用会涉及多个部门的多个岗位,这种协同机制使得治理业务中暴露出来的问题能够得到所有相关方的关注,并及时地识别、定位和解决。 2. 美国堪萨斯州的数据治理项目 教育数据交换网络(Education Data Exchange Network, EDEN)是美国学校、州教育部门及联邦教育部门进行数据报送和交换的信息系统。长期以来,美国堪萨斯州教育部门在向EDEN提交数据时饱受各种问题困扰,如数据不连续、数据质量差、数据缺乏一致性、数据格式多样等。解决这些问题需要花费大量的时间,且效果不理想。为了改善这种状况,他们意识到对数据进行治理的重要性,因此发起了一项数据治理项目(Kathy, 2007),通过近十年的努力逐步建立了州教育数据治理的流程和规范,用于保障教育数据的质量。 在整个数据治理流程中,数据部门进行数据汇总和上报EDEN的主要业务流程和关键节点如图5所示。整个过程可分为两步:第一步,从数据源采集原始数据,根据元数据仓库定义的转换规则将从数据源采集到的数据转换为满足EDEN格式的数据,并存储到数据仓库;第二步,到数据仓库提取数据并生成向EDEN提交的文件,并将文件提交到EDEN数据系统。数据治理工作涉及四个角色的技术人员: ? EDEN协调员。负责从EDEN数据库下载文件规范,并依据文件规范建立元数据库。 ? 数据管理员。根据元数据仓库制定数据从数据源仓库下载存储到数据仓库时的转换规则,检查数据质量。 ? 数据仓库(ETL)程序员。根据数据管理者制定的数据转换规则将数据从数据源系统抽取出来,并以EDEN存储格式存储到数据仓库。 ? XML程序员。负责将单纯的数据转换为向EDEN提交的文件,并将文件提交到EDEN数据库。 在这个过程中,堪萨斯州的教育数据管理部门依据EDEN的数据文件规范,制定统一的数据采集和转换规则,保障数据的一致性和标准化。同时,教育部门的数据委员会还定期评估数据质量。数据治理工作不仅需要建立各种基础设施,如数据源采集系统、数据仓库、元数据仓库等,还要建立和维护项目文档,包括EDEN提交计划文档、项目分解计划文档、通信文档、角色职责分配文档等。为了保证良好的工作沟通还要开展工作交流会,包括数据治理委员会会议、数据管理会议及EDEN现状核心小组会议等。 该案例具体介绍了堪萨斯州教育部门在数据管理和治理方面的经验。主要有三个亮点可供我们参考:数据治理的技术平台和业务过程。其中涉及了数据源、数据仓库、外部数据库等各种系统,以及数据元描述,数据格式规范、转换规则等技术规格。技术人员的岗位职责。数据治理过程涉及数据管理员、程序员和协调人等不同的角色,他们的工作具有很强的专业性,相互衔接,各司其职,以保障整个治理工作得以有序进行。有序迭代的数据治理方案。该州的数据治理工作是逐年完善的,从一较小的满足EDEN数据提交的需求开始,经历了多次迭代,直到实现全州教育数据的统合。在历次迭代中,数据治理覆盖的范围逐步扩大,涉及的人群和相关方也逐渐增加。通过持续的数据治理,堪萨斯州教育部门的数据管理水平有了显著提升,在提高工作效率的同时减轻了工作人员的负担,较好地保证了数据的质量和数据的一致性,实现了数据共享,数据安全性也得到了极大保障。 五、总结 大数据在教育领域内有着广泛的应用前景和不可替代的作用。然而,传统的数据分析、管理和利用方法在大数据时代不再适用,其局限性日益显著。数据治理已经成为教育数据管理中亟须解决的问题。对教育数据进行合理、有效的治理,对于教育发展和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论