版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 我国开放政府数据“脏数据”问题研究及应对 摘要:数据质量是影响开放数据价值生成的关键因素。本文采用网络调查和数据分析方法, 对13个开放数据平台中的数千个数据集进行分析, 归纳出29类“脏数据”, 统计了北京、上海和哈尔滨三地的数据质量问题分布情况。文章建议在引进“数据清洗”和“质量检查”环节、采用标准规范等方面借鉴先进经验, 提升和保障数据质量。“开放政府数据” (Open Government Data, OGD) 运动能够释放数据价值, 产生积极的社会和经济效益, 在世界范围得到了快速发展。2013年10月, 麦肯锡研究院的报告预测1, 在教育、交通、能源及医疗等七个领域, 开放数据每
2、年将为全球释放约3万亿至5万亿美元的潜在经济价值;报告同时指出, 在一些领域 (如交通) 使用开放数据的最大障碍之一是“数据质量”。经合组织 (OECD) 认为, 为确保OGD创造价值, 政府面临的最重要任务是2: (1) 识别高价值的数据; (2) 保障数据质量; (3) 培育需求及促进数据使用。“开放政府合作组织” (Open Government Partnership, OGP) 对各成员国20122015年行动计划的评估发现, 低价值和低质量数据引发了数据供给与需求之间的“鸿沟”3。提高数据质量, 避免因劣质数据而带来的消极影响, 始终是数据管理领域最严峻的挑战之一4。据估算, 美国
3、每年因劣质数据造成的损失高达6千亿美元5,6, 包括数据错误引起的医疗事故及电信设备故障排除引发的延误等, 零售业标价错误造成的损失及公司缺陷数据引起的财政损失等。OGD领域的数据质量问题也日益凸显, 澳大利亚昆士兰大学S.Sadiq等的研究发现, 美国数据门户Data.Gov上的枪支犯罪者数据集曾存在数据不完整、不一致和记录重复等问题7。巴西学者M.I.S.Oliveira等对巴西13个数据门户的分析发现, CSV数据文件中有记录重复、字段定义不一致等问题8。英国开放知识国际 (Open Knowledge International) 的网站开辟专栏O/bad-dat
4、a/展示了“坏数据” (Bad Data) 的实例9。在我国, “政府数据资源共享开放工程”位列促进大数据发展行动纲要规划的十大数据工程之首10。从2012年开始, 已有20多个地方政府建设和发布了数据开放网站 (或栏目) , 随着数据量的增加, 数据质量也日益得到关注10,11。目前, 数据质量管理面临的问题和挑战主要有错误发现、错误修复和近似查询处理等6。在此背景下, 我国开放政府数据是否存在“脏数据”, 有哪些主要的质量问题及如何应对, 就成为本文要回答的问题。1 脏数据的分类数据质量 (Data Quality) 是“数据满足任务需求的程度”, 数据质量问题指“给使用这些数据的应用带来
5、潜在影响的一系列数据表现”12, 那些不符合要求或标准规范的质量差的数据常常被称为“脏数据” (Dirty Data) 或“坏数据” (Bad Data) 13。“脏数据”的分类可以帮助人们更好地理解和发现数据质量问题, 相关学者从不同视角研究取得了一系列成果。Rahm等14,15分别从模式层和实例层分析了单源/多源数据常见的9类质量问题, 如糟糕的模式设计, 冗余、互相矛盾或者不一致的数据, 拼写错误和命名冲突等。Kim等16提出如图1所示的33种“脏数据”的分类系统, 分为缺失的数据和没有缺失的数据两大类, 没有缺失的数据又分为了错误的数据和没有错误的数据。Oliveria等17将21个质
6、量问题划分为四个粒度级别 (Granularity Level) :单元/列/行、单表、多表和多源。Li等18利用规则将38类企业脏数据分为五个维度:准确性、完整性、时效性、一致性和唯一性。Gschwandtner等19分析的对象是“面向时间的数据”, 将脏数据分为单源和多源两大类。Almeida等20基于数据仓库的多维数据模型, 将30个质量问题归为五组:单值、多值、元组、列和整个关系表。图1 Kim等提出的“脏数据”分类系统这些研究主要面向传统的数据管理领域, 如数据仓库、企业信息系统等。Laranjeiro等21则面向大数据, 通过文献分析将24个质量问题映射到五个质量维度:可访问性、准
7、确性、完整性、时效性和一致性。在伴随大数据而兴起的“数据新闻” (Data Journalism) 领域, 美国数字媒体网站Quartz于2015年整理出“坏数据手册” (Bad Data Guide) , 将45个质量问题分成四个方面:数据源问题、人为问题、专家可以解决的问题和开发者可以解决的问题13。在上述工作的基础上, 面向我国开放政府数据的实践, 在深入调查和分析基础上, 本文归纳出OGD领域29类“脏数据”, 见表1。该表分为“模式层” (7类) 和“实例层” (22类) 两个层次, 前者指数据的模式定义, 含完整性、一致性和准确性三个维度;后者指开放的数据本身, 含正确性、规范性、
8、开放性等八个维度。维度的选择基于数据质量的核心维度22和开放数据原则, 包括数据应是完整的、原始的、及时的、可获取的、机器可读的和开放许可等23,24。不同于传统领域, “开放性”和“安全或隐私”是两个新的维度, 相应地有7类“脏数据”是开放数据所独有的, 它们在表1中通过星号 (*) 标记。表1中的脏数据实例全部来自各地的实际开放数据。表1 我国OGD领域脏数据的分类表1 德国OGD领域脏数据的分类2 调查内容与方法为尽可能全面地发现各种质量问题, 笔者在选取政府开放数据网站/平台时, 综合考察数据集的个数、是否有模式定义及是否提供了多种格式的文件。选取的13个网站见表2, 数据集的个数等指
9、标在不断变化, 表中的数据取自2017年912月。调查的对象是各网站数据目录中的数据集, 不包括接口 (API) 和应用等其他开放资源。表2 调查对象地方政府开放数据网站/平台2.1 数据集及数据文件对开放数据本身的调查是本文的重点和核心。研究通过下载数据集的数据文件, 考察和分析文件中的数据, 依据脏数据的基本特征 (见表1) , 有可能发现实例层的16类质量问题, 即正确性 (D8D12) 、一致性 (D13D15) 、完整性 (D17D18) 、唯一性 (D20) 、规范性 (D21D24) 与安全或隐私 (D29) 等维度下的“脏数据”。例如, “哈尔滨市建设项目选址意见书信息”数据集
10、的Excel文件中含有846条记录, 每条记录8个字段。图2抽取了10条记录, 展示了其中存在的五类“脏数据”:“建设项目名称”“建设位置”“占地面积”和“建设规模”四列存在“数据值缺失” (D17) 现象, “占地面积”和“建设规模”两列“数据没有单位” (D23) 与部分单元是“不合理值 (0) ” (D10) , “建设位置”列的值出现“数据笼统 (不详细) ” (D8) 现象, “出证日期”列的取值“格式不规范” (D22) 。此外, 文件中还存在“未知值表达不一致” (D14) 问题:NULL与*都在表示“无数据或未知值”。图2“脏数据”示例 (浅色的数据单元和列存在质量问题)对开放
11、性维度下的质量问题D25和D26, 则要依据文件格式来判别。在我国各地采用的文件格式 (见表2) 中, XLS (即Excel) 与Word是微软公司专有格式, 不符合开放标准, PDF、Word与HTML不是机器可读的。在开放数据网站中, 当一个数据资源有多个文件时, 只要一个文件符合开放标准或是机器可读的, 我们则认定不存在质量问题D25或D26。当没有数据文件可供下载、文件不能下载或数据只在网页 (HTML) 上, 我们则认为存在问题D27 (不能开放获取) , 但提供了API接口的除外。当数据存在于PDF、Word文档或网页的新闻稿、政府文件或统计报告中, 不是原始数据的可能性就比较大
12、 (D28) , 这方面问题突出的是新疆的开放数据 (详见表1“实例”一列) 。2.2 数据模式定义图2中“出证日期”列的取值“格式不规范”问题与数据模式的定义有关。根据国家标准数据元和交换格式信息交换日期和时间表示法 (GB/T 7408-2005) , 日期的格式应为:YYYYMMDD (如20090320) , 开放数据实际中以YYYY-MM-DD、YYYY.MM.DD或YYYY/MM/DD等格式居多。因此, 与普通的“文本类型”区分开, 日期类数据应定义为“日期类型”。图3 模式定义中的质量问题对数据模式定义的调查是本文的另一个重点。图2展示了“哈尔滨市建设项目选址意见书信息”数据集的
13、模式定义, 其中存在三类质量问题:类型定义错误 (D5) 、命名不准确 (D6) 和未定义数据单位 (D7) 。一个开放数据网站是数百个乃至数千个数据集的集合, 模式定义的一致性尤为重要。例如, 一个网站在字段的命名规则上应保持一致, 但调查发现在哈尔滨、北京等地存在着“名称”与“企业名称”、“地址”与“企业通讯地址”在不同的数据集中混用的现象 (D3) 。一个数据集中的数据资源的不同格式文件也应在模式上保持一致, 但在哈尔滨和广州等的开放数据中普遍存在XLS与XML模式不一致问题 (D4) 。图4对比了“哈尔滨市考试中心基本信息”数据集的两种格式数据, XLS数据的“标题”为中文名称 (如“
14、地址”) , 而XML数据的“元素名称”则为汉语拼音缩写 (如DZ, 应为“地址”) , 造成用户难以理解与使用这些XML数据。图4 两种格式数据的模式不一致2.3 多种格式数据的一致性同一数据资源不同格式的文件, 不仅数据模式应一致, 其中的数据更应保持一致。但调查发现, 上海、广州和哈尔滨等地存在着“同一数据集的不同格式文件的数据不一致”问题 (D16) 。图5 两种格式数据不一致例如, 上海“摄像头设置地点”的XLS文件中的第9条数据为“金沙江路/真光路”, 但CSV文件的相应数据却是“?金沙江路/真光路”。广州“黄埔区信用信息双公示行政处罚”的XLS数据共有14列, 但相应的CSV数据
15、的一些行却出现了第15或16列, 见图5。哈尔滨的一些数据集也有类似情况, 即CSV中数据串列了。W3C Web数据最佳实践 (DWBP) 工作组将“以多种格式提供数据” (Provide data in multiple formats) 列为35个“最佳实践” (Best Practice, BP) 之一 (BP14) 25, 它可以节省用户在数据转换上的时间和成本。理想状态下, 各种格式的数据应是完全等价的, 用户只要任意选择其一即可使用。如果不同格式数据的质量不同, 反而会给用户带来选择数据的成本和代价。鉴于D4和D16两类质量问题的隐蔽性强、难以发现, 我们认为它们是开放数据质量管理
16、的新情况和新挑战, 应引起各级政府数据管理者的重视。2.4 通过元数据判别时效性2016年9月19日, 印发政务信息资源共享管理暂行办法第十三条规定:按照“谁主管, 谁提供, 谁负责”的原则, 提供部门应及时维护和更新信息, 保障数据的完整性、准确性、时效性和可用性, 确保所提供的共享信息与本部门所掌握信息的一致性26。为判别一个数据集的时效性, 即数据是否陈旧或过时 (D19) , 需要依照元数据“最后更新时间”和“更新频率”的值。以贵州“全省户籍人口统计数据”为例, 它的“最后更新时间”和“更新频率”分别为“2016-10-17”和“年”, 同时数据文件中给出的是20102014年的数据,
17、 则可判定该数据集没有及时更新。在贵州省的网站中共有130个数据集在2017年没有更新, 占比27.6%, 而其他数据集则得到了及时更新, 占比72.4%。广州、深圳和佛山等地的数据文件中增加了“更新日期”字段, 方便了用户判别其时效性。而北京和上海等地没有“更新频率”或“最后更新时间”的元数据, 造成很多数据集的时效性无法判别。2.5 参照外部权威数据源当网站内的信息不足以判别数据质量状况时, 就需要参照外部权威数据源。例如, 北京的“高校”数据集是2012年10月29日发布的, 能否反映当前实际情况呢?对比教育部的最新数据 (截至2017年5月31日) 27, 里面没有“中国科学院大学”,
18、 因此认定该数据集是过时的。2012年7月19日发布的“机场班车线路”只有9条线路, 而首都国际机场网站上公布的线路已达18条, 表明该数据不仅过时、而且不准确。政府开放数据应是权威的数据源, 但要达到这一目标还需要在质量管理等方面加强工作。2.6 隐私泄露问题随着开放数据的深入, 隐私保护和安全问题日益得到关注28。实践上, 深圳政府数据开放平台用户服务条款、贵阳数据开放授权协议和数据东莞网使用协议等均含有“隐私保护声明”, 承诺网站不主动将用户个人信息泄露给任何第三方。2017年5月1日起施行的我国首部政府数据共享开放条例贵阳市政府数据共享开放条例规定29:涉及国家秘密的、商业秘密的、个人
19、隐私的和法律法规规定不得开放的其他政府数据不能向社会开放。2017年6月1日起施行的中华人民共和国网络安全法第四十二条规定30:网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意, 不得向他人提供个人信息。同时将“个人信息”定义为:以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息, 包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等。美国列入个人信息保护范围的数据包括名字、身份证号码、邮件地址、IP地址、电话号码等31。欧盟个人数据保护法指出, 身份证号码、定位数据、网络标识符、基因、经济、文化、社会身份等隐私受法律
20、保护32。笔者在调查过程中, 重点考察数据中是否含有“自然人的姓名”“电话”“住址”和“身份证号码”等敏感信息, 发现浙江、贵州和哈尔滨等地的个别开放数据存在隐私泄露问题 (D29) 或风险, 见图6 (只给出数据文件的标题行, 隐去了数据) 。图6 个人敏感数据示例相对照的是, 贵阳对“导游人员名单”等、东莞对“公证员信息”等进行了脱敏处理, 见图7。图7 经脱敏处理的个人信息示例表1中D29类脏数据也包括“泄露的商业秘密”, 这方面已有学者做了专门研究33。3 结果分析本节以“开放数据网站/平台”为单位, 对数据质量问题进行整体分析。3.1 各平台数据模式对比表2中的13个开放数据平台中有
21、8个给出了模式定义, 其中广东和东莞没有“类型定义” (质量差) , 其余6家的对比见表3。普遍存在的问题是字段的英文命名不规范、数据类型单一和数值型数据无单位, 规范的做法是统一采用英文单词命名、区分各种数据类型 (文本、枚举、布尔型、数值与日期等) 及将“单位”单独定义为一列等。表3 各平台数据模式的对比数据模式定义的缺陷或缺失是实例层在“一致性”和“规范性”等维度的质量问题的根源, 因此“数据模式质量”在整个开放数据质量管理中处于基础性位置, 应优先得到提升和保障。3.2 北京的数据质量问题图8 北京市存在的主要脏数据类型 (前10名)在调查的北京市726个开放数据集中, 出现次数最多的
22、质量问题是“数据值缺失” (D17) , 共有311个数据集存在不同程度的数据不完整现象。接下来是“数据过于笼统” (D8) 、“不合理值或错误值” (D10) 、“未知值表达不一致” (D14) 及“一列的数据格式不一致” (D15) 等, 见图8。调查共发现631个质量问题, 按照正确性、完整性、规范性和开放性等八个维度统计占比, 结果见图9。其中, 完整性问题的比例最高, 达49%;其次是正确性问题, 占18%。图9 北京市各维度质量问题占比3.3 上海的数据质量问题图10 上海市存在的主要脏数据类型 (前10名)上海市的用户评价机制从准确性、及时性、满意性和可用性等方面对数据集打分,
23、得分一星到五星的数据集共324个。调查结果见图10, 出现的质量问题依次是“数据值缺失” (D17) 、“不合理值或错误值” (D10) 、“数据陈旧或过时” (D19) 、“一列的数据格式不一致” (D15) 及“数据过于笼统” (D8) 等。发现的324个质量问题在八个维度上的分布情况见图11, 排在前两位的同样是完整性问题 (30%) 和正确性问题 (20%) 。图11 上海市各维度质量问题的占比3.4 哈尔滨的数据质量问题哈尔滨市的数据开放专栏于2016年底上线, 据媒体报道, 其整体水平处于全国前列。通过对672个数据集的调查, 较多的质量问题是“数据值缺失” (D17) 、“数据过
24、于笼统” (D8) 、“不合理值或错误值” (D10) 、“同一数据集的不同格式文件的数据不一致” (D16) 及“一列的数据格式不一致” (D15) 等, 见图12。发现的760个质量问题在八个维度上的分布情况见图13, 其中正确性问题突出, 占32%, 其次是完整性问题, 占30%。图12 哈尔滨市存在的主要脏数据类型 (前10名)图13 哈尔滨市各维度质量问题的占比3.5 三地对比从全部被调查数据集的五个方面:无问题的数据集个数占比、有一个问题的数据集个数占比、有两个问题的数据集个数占比、有两个以上问题的数据集个数占比及平均一个数据集的问题个数 (问题个数/数据集个数) , 对三地进行对
25、比, 结果见表4和图14。可见, 总体上北京和上海的数据集质量状况相当, 要好于哈尔滨。表4 三地各类数据集的占比图14 三地各类数据集占比的对比图进一步, 从表1选出严重影响用户可用性的两组六类质量问题:“正确性”下的D10 (不合理值或错误值) 、D11 (列与列的值的位置相互串位) 和D12 (出现乱码) , “开放性”下的D26 (文件格式不是机器可读的) 、D27 (数据不能被下载) 和D28 (不是原始数据) , 对比三地至少有一个质量问题的数据集个数的占比, 见表5。可见, 北京的“不可用”数据集的占比要明显少于上海和哈尔滨两地。表5 三地“不可用”数据集的占比需要说明的是, 由
26、于方法 (见第2节) 的局限、技术手段的不足、数据过时及背景材料的缺乏等, 笔者不可能发现所有的质量问题 (特别是正确性问题) , 发现的质量问题其危害程度也会因用户需求的不同而有差异。4 对策建议提升和保障数据质量是我国政府数据共享开放工程的核心工作之一。“十三五”国家信息化规划在强化数据资源管理、推进数据开放部分指出, 要加强“数据资源目录管理、整合管理、质量管理、安全管理, 提高数据准确性、可用性、可靠性”34。我国各级政府的开放数据政策文件对“数据质量”的规定包括数据校核、数据质量评估、数据生命周期的质量管理和数据弄虚作假行为处理等35。本文仅从借鉴各国先进经验的角度, 提出以下可操作
27、层面的对策建议。4.1 发布之前的数据清洗“数据清洗” (Data Cleaning) 是为提高数据质量而对数据进行预处理的过程36。数据仓库装载数据之前要进行数据清洗15, 在大数据的质量管理中, 数据清洗也起到了关键作用5。在开放政府数据领域, 澳大利亚等在数据发布周期中引入了“数据清洗”环节37, 用以实现各字段 (如日期、年龄和邮政编码等) 的格式统一、空值补齐及非文本信息移除等, 见图15。图15 数据清洗前后对比图 (澳大利亚)各级政府通过合适的技术、工具、规范和工作流程, 可以“清洗”表1中“正确性” (D9D12) 、“一致性” (D13D15) 、“完整性” (D17) 、“
28、唯一性” (D20) 和“规范性” (D21D24) 等维度下的10余种“脏数据”, 有效提升数据质量。数据管理部门将数据文件转化为开放标准下的机器可读格式 (如CSV、XML和JSON等) , 可以提升数据的开放程度, 解决D25和D26这两个质量问题。用来消除原始数据中敏感信息的数据脱敏技术, 可以有效防范隐私泄露问题 (D29) 。2016年9月28日贵州省质监局发布的政府数据数据脱敏工作指南地方标准38, 规范了数据脱敏的方法、过程、技术原则和管理原则。北京对敏感数据, 如29家医院的176万个病例, 经脱敏处理后向特定用户开放39。4.2 采用标准规范在数据清洗过程中, 需要标准规范指导“数据格式统一”等操作。爱尔兰“开放数据技术框架”采用了30余项标准40, 部分见表6。表6 爱尔兰采用的部分标准规范我国各地也应遵循国家标准GB/T 7408和GB/T 12406等来规范“日期/时间”和“币值”等数据的取值格式和内容。4.3 质量检查新西兰政府机构在Dt.nz上开放数据前要进行质量检查41,42, 包括开放许可、数据格式、更新时间和是否删除任何个人身份信息等。美国交通部对开放数据质量的评价共有两个维度下的10个问题, 满分是35, 见表742,43。表7 美国交通部开放数据质量检查表英国和欧盟还建议用户在使用开放数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东省中山市纪中教育集团2024-2025学年八年级下学期期中道德与法治试题(含答案)
- 通辽市护士招聘考试题库及答案
- 天津市护士招聘考试题库及答案
- 2026年广东揭阳市高三二模高考英语试卷试题(含答案详解)
- 美发师初级题库及答案
- 宿州市护士招聘考试题库及答案
- 四平市护士招聘考试题库及答案
- 刑法总则试题及解析
- 26年超适应症用药合规指引
- 医学26年:肛周脓肿诊疗要点 查房课件
- 贵州艺辰纸业有限责任公司年产15万吨化学机械木浆的林纸一体化生产线及配套的纸板生产线(一期)环评报告
- 鳞翅目检疫性害虫课件
- 离子色谱资料讲解课件
- 硬笔书法 撇和捺的写法课件
- JJG 444-2023标准轨道衡
- 《产业基础创新发展目录(2021年版)》(8.5发布)
- GB/T 15530.6-2008铜管折边和铜合金对焊环松套钢法兰
- GRR培训-完整版课件
- 重庆普通专升本英语真题09-18
- 葬经原文及译文全解
- 专业工程分包申请表
评论
0/150
提交评论