结构化大数据通信协议_第1页
结构化大数据通信协议_第2页
结构化大数据通信协议_第3页
结构化大数据通信协议_第4页
结构化大数据通信协议_第5页
已阅读5页,还剩14页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

说 明 书- -1结构化大数据通信协议技术领域结构化大数据通信协议是一种通信协议,也是一种让数据成为合格的结构化大数据的技术。结构化大数据通信协议也类似于 ETL,ETL 是处理现有的信息系统所产生的数据的问题,而结构化大数据通信协议是在设计信息系统之初就开始预防数据产生问题。ETL 是为数据治病,结构化大数据通信协议是预防数据产生疾病。ETL 是对现有技术所产生的问题进行小修小补,结构化大数据通信协议提出了新的数据处理方案。结构化大数据通信协议也是一种软件开发模式,利用结构化大数据通信协议所建立的各种信息系统都是大数据信息系统,只要以镜像的方式把各大数据信息系统中的数据上传到大数据中心即可累加成合格的结构化大数据。合格的结构化大数据是不经 ETL 转换即可高效挖掘的结构化数据。背景技术随着大数据时代的到来,人们发现各行各业已有很多信息系统,然而信息系统虽多却不能满足大数据时代的需求,信息孤岛严重,难以互联互通,数据共享困难,各行各业已有很多数据,然而数据虽多,却难以高效挖掘。目前是利用关系数据库来解决这些问题,但只能解决局部的问题,不能从根本上解决问题。结构化大数据通信协议就是针对这些问题而创立的。结构化大数据通信协议来源于模仿大脑记忆、联想、思维,始于 1982年,那时想让计算机模仿大脑的联想功能。发明内容结构化大数据通信协议是通过对数据的优化及软件开发模式的改变而避免信息孤岛问题、互联互通问题、数据共享问题产生,并使数据容易挖掘。结构化大数据通信协议可使数据具有 12个技术特性:“唯一性、归属性、可识别性、独立性、完整性、规范性、与系统的耦合性(耦合度为零) 、结构统一性、可累加性、可移植性、时间性、真实性” ,只有同时满足 12个技术特性的数据才是合格的结构化大数据。发明所要解决的技术问题发明所要解决的技术问题是大数据 4V中“数据类型多(Variety) ”问题及“数据速度快(velocity) ”问题。所针对的具体的技术问题:各行各业已有很多信息系统,然而信息系统虽多却不能满足大数据时代的需求,信息孤岛严重,难以互联互通,数据共享困难;各行各业已有很多数据,然而数据虽多,却难以高效挖掘。有益效果实现互联互通、数据共享容易,查询速度快,数据挖掘容易。具体实施方式结构化大数据通信协议的创新表现在如下 5个方面:1、首次提出了结构化大数据的 12个技术特性,只有同时满足 12个技术特性的数据才能成为合格的结构化大数据。为使数据满足 12个技术特性,创立了与 12个技术特性相对应的 12个数据优化方法。2、通信的基础是双方必须采用同一个协议。结构化大数据通信协议所提出的“结构化大数据的 12个技术特性”就是结构化数据互联互通的“通信协议”。说 明 书- -23、在结构化大数据的每一条数据中都增加了体现“数据的唯一性”和“数据的归属性”的数据项。现有数据库技术由于都是用于处理小数据,都没有考虑这两个数据项的作用,现有的数据中也都没有这两个数据项。这两个数据项是表明一个数据是不是合格的结构化大数据的关键数据项。4、特别强调数据的标准化、规范化。因为大数据环境中,标准化、规范化的数据能自动模仿大脑的联想功能,从而大幅度提高查询数据的速度和灵活性。关系数据库对数据不加任何限制,完全由数据库的设计人员自己定义;结构化大数据通信协议对数据的限制非常严格,绝对不充许设计人员任意定义数据,所有数据都必须是规范的,这也是让大数据容易挖掘的一项重要措施。5、利用结构化大数据的 12个技术特性为大数据的真实性提供保障。小数据只是在某个单位内部使用,大数据是在很多单位之间使用,因此大数据的真实性、公证性、权威、不可悔改性就显得非常重要。结构化大数据通信协议在对数据优化时是以“万能数据结构表”(如表一所示)来存贮数据,“万能数据结构表”可以用一张表存贮各种各样的结构化数据。表一:万能数据结构表存贮数据的例子ID 事物代号 事物属性 事物属性值 超长属性值 单位 附件 时间1099 1280 数据来源 广州第一医院 2014.5.31100 1280 事物分类 病历 2014.5.31101 1280 事物分类 住院病历 2014.5.31102 1280 事物分类 医疗费用 2014.5.31103 1280 身份证号 XXXXXXXXXX 2014.5.31104 1280 住院号 XXXXXXXXXX 2014.5.31105 1280 姓名 张三 2014.5.31106 1280 性别 男 2014.5.31107 1280 中药费 56 元 2014.5.31108 1280 西药费 72 元 2014.5.31109 1280 其它费用 180 元 2014.5.3说明 1:合格的结构化大数据的 12个技术特性及 12个数据优化方法合格的结构化大数据具有 12个技术特性,或者说只有同时满足 12个技术特性的结构化数据才是合格的结构化大数据。结构化大数据通信协议就是使结构化数据满足 12个技术特性的方法。为使数据拥有结构化大数据的 12个技术特性,结构化大数据通信协议提出了 12种相应的数据优化方法。1、数据的唯一性数据的唯一性:同一事物的各种数据在生存周期中,在不同的信息系统中,都应该是唯一的、可识别的,不能因时间、空间的变化而变成不可识别的数据。数据的唯一性所针对的问题:当前的同一事物的各种数据在不同的信息系统中的表达形式各不相同,在大数据挖掘时难以准确地识别。例如,同一商品,在不同的经销商的信息系统中具有不同的编码;同一患者在不同的医院就医时,患者的住院号各不相同,在大数据环境中查患者病史时,会因为与患者相关的数据没有一个统一的标识码而难以查询。数据优化方法一:让同一事物的所有数据,在不同的时间、空间、环境中,都必须含有一个(或若干个)唯一的、统一的大数据识别码。大数据识别码是数据的身份证、车牌号。大数据识别码与关系数说 明 书- -3据库中的 ID有本质的差异,ID 只是在一张表的范围内标识数据,大数据识别码是在大数据的范围内标识数据。大数据范围:不同的大数据所涉及到的范围不同。在国际贸易中,大数据范围是全球,国家医疗大数据的大数据范围是医疗行业,广州大数据的数据范围是广州市。大数据识别码可分为两种,一种是某个具体事物的识别码,犹如设备的序列号,但与设备的序列号有本质的差异,设备序列号是企业自己编写的,大数据识别码需要按国际统一的标准来编码;另一种是某类事物的识别码。例如,在了解某种型号的手机在各个经销商的销售情况时,就需要该种型号手机的大数据识别码,因为手机由全世界数十万个经销商销售,手机厂家需要与全世界数十万信息系统互联互通。与人相关的数据全应含有身份证号,以确保在全球范围内,在任何时间段,与某人相关的数据都是唯一的,可识别为同一个人的。大数据会涉及到多个不同的信息系统,而小数据只是在同一个信息系统中生存,因此在大数据环境中,数据的唯一性就非常重要,没有统一的、标准的、规范的识别码会导致数据挖掘非常困难。数据的唯一性是大数据挖掘、分析的基础。大数据识别码必须使可以方便数据分类统计。2、数据的归属性数据的归属性:数据不仅要反映事物的各种属性,也要反映出数据是归谁所有(或者说由谁采集、或者说从何而来)。数据优化方法二:每一个事物的数据中都要含有“数据来源”数据项。“数据来源”是结构化数据具有了“归属性”,一般情况下,可用单位名称来表示“数据来源”。大数据源于成千上万家单位,若不标明“数据来源”,在大数据挖掘时会引起识别混乱。3、数据的识别性数据的识别性:是指让信息系统可识别,让人也可识别。进一步而言,不但要让自己的信息系统识别,也要能让他人的信息系统识别,不但要让自己能识别,也要让他人能识别。数据的识别性所针对的问题:关系数据库中的数据只有数据库的设计人员自己和自己的信息系统可识别。其它人、其它信息系统只能通过软件对数据库中的数据进行解释、注释、翻译之后才能识别。数据优化方法三:以适当的冗余使数据可识别,尽量用标准的、规范的自然语言来表达数据,尽量避免用代码来表达数据。在对数据进行优化时的原则是“让相应领域的技术人员能看懂,让别人的信息系统也能识别,而不能只是数据库的设计人员能看懂,也不只是自己的系统能识别。”在大数据环境中,数据的最重要、最关键的一个特性就是“数据的识别性”。关系数据库的一个策略是:尽量减少数据冗余。关系数据库在降低了数据冗余的同时却增加了识别数据的难度。结构化大数据通信协议的策略与关系数据库正好相反。结构化大数据通信协议的策略:以适当的冗余而使数据具有可识别性,从而使数据可以让他人读懂,也让他人的信息系统能识别。关系数据库是一种“数据、数据结构、程序、数据库系统四者密不可分的数据库”。因为关系数据库中的数据脱离具体的表结构和程序以后就变成了无意义的数据,关系数据库中的数据只有在特定的表中才具有意义。“万能数据结构表”是一种“数据与程序无关的数据结构”,或者说是一种“是什么就是什么,与程序无关”。因为“万能数据结构表”中的数据脱离其数据结构后,其数据的真实含义不变。“万能数说 明 书- -4据结构表”中的数据是用标准的、规范的自然语言而表达的,只要懂自然语言,谁都可以看懂“万能数据结构表”中的数据的真实含义。从表面上看,关系数据库减少了数据冗余,这是其一大优点。然而,这也是关系数据库的最大缺点之一。关系数据库在减少了数据冗余的同时,也导致了数据失真。数据失真的结果就导致了“信息交换、信息孤岛、数据挖掘难”等等问题。在关系数据库中,只有通过编写大量的程序,才能解决数据失真问题。无数事实表明,关系数据库因数据冗余问题而付出了非常高昂的代价。当“数据与程序密不可分”时,要存贮、读取、查询数据就必须编写大量的程序。当“数据与程序无关时”,只要编写一个通用的程序,其它人借助这个程序就可以非常方便地存贮、读取、查询数据,而不必每开发一个数据库都开发大量的软件。结构化大数据通信协议的一个原则:基本上不考虑数据冗余问题,以空间换取智能和使用方便,让数据自己说话,而不是让程序替数据说话。而关系数据则是通过应用程序而代替数据说话。用数据代替程序:宁愿增加大量的“冗余”,也要使数据具有独立性、完整性、可识别性。或者说为了使数据具有独立性、完整性、可识别性,不考虑数据冗余问题,无论增加多少冗余都可以。在用关系数据库设计信息系统时,总是用程序来解读数据库中的数据。这种策略所带来的严重恶果就是在处理数据时需要编写大量的程序,不编写程序就无法处理数据。 结构化大数据通信协议的策略:不惜一切代价,让数据自己说话,杜绝用程序当翻译!“让数据自已说话”的目的是:无论把一个数据放到任何地方、任何环境中都能独立地、完整地表达出同样的、完整的含义。在大数据时代,一个数据会出现在不同的信息系统中,因此,必须确保数据在不同的信息系统中、不同的环境中都有相同的含义。结构化大数据通信协议使数据具有“独立性、完整性、识别性、唯一性、归属性”的目的就是让数据自己说话,在大数据环境中,这样可以大幅度地减少编写程序的数量。关系数据库中的数据没有独立性,也没有完整性,关系数据库做不到“让数据自己说话”。关系数据库中的数据需要借助各种“关系”才能表达出完整的含义。结构化大数据通信协议可以让数据自己说话,而关系数据库中的数据需要配备“七大姑八大姨”的“关系”才能准确地表达出相应的含义。关系数据库的“七大姑八大姨”的“关系”:数据与数据库系统具有密不可分的关系,数据与表结构具有密不可分的关系,数据与应用程序具有密不可分的关系,数据与数据库中的众多表之间具有密不可分的关系。关系数据库中的数据必须依靠关系数据库系统、数据结构、数据类型、应用程序才具有意义。当关系数据库系统中的数据脱离了相应的关系数据库系统、数据结构、数据类型、应用程序之后就变成了无意义的数据。当前的信息系统所存在的“信息孤岛问题、信息交换问题、数据接口问题、互联互通问题、系统的升级换代问题”等等,都是由于关系数据库系统中的数据不能自己说话而造成的。用关系数据库系统设计电子病历系统时,对“患者基本情况”会采用如下形式:表二:患者基本情况表(关系数据库中的表)ID HZXM GZDW ZB XB ZZ NL RQ HF BXRQ MZ CSZ26 胡凤 橡胶厂 工人 0 蒙古路 2 号 32 1991-4-3 已 1991-4-3 汉 本人上述形式的数据是小数据时代的经典结构形式。其实“字段名”也是很重要的信息,必须用标准的、规范的自然语言来描述。“患者基本情况”经过结构化大数据通信协议进行优化之后,在“万能数据结构表”中的表达形式:说 明 书- -5表三:患者基本情况表(万能数据结构表)ID 事物代号 事物属性 事物属性值 超长属性值 单位 附件 时间100 1001 数据来源 上海市第一医院 101 1001 事物分类 病历 102 1001 事物分类 住院病历 103 1001 事物分类 入院病历 104 1001 事物分类 患者基本情况 105 1001 患者编号 SH10-199103Z21 106 1001 健康卡号 XXXXXXXXXXXX09 107 1001 身份证号 XXXXXXXXXXXXXX 108 1001 姓名 胡风 109 1001 工作单位 上海橡胶厂 110 1001 职别 工人 111 1001 性别 女 112 1001 住址 蒙古路 20 号 113 1001 年龄 32 114 1001 入院日期 1991-4-30 115 1001 婚否 已婚 116 1001 病史采取日期 1991-4-30 117 1001 民族 汉 118 1001 病情陈述者 本人 通过上述两张表的对比发现,用“万能数据结构表”所表达的信息是一种完全用自然语言所表达的不失真的信息,这种信息无论放在什么地方其含义都是一样的。从表面上看用“万能数据结构表”所存贮的信息会多占据一倍左右的存贮空间,但这样存贮数据可以减少很多复杂的数据抽取、转换工作。“万能数据结构表”中的“数据冗余”就是让“数据自己说话”,让数据不依赖数据库系统、不依赖数据结构,不依赖数据类型,不依赖应用程序。结构化大数据通信协议的策略是“以空间换智能及使用方便”。与 30年前相比,目前硬盘的存贮容量已提高了 10万倍以上,多占据一倍左右的存贮空间的代价很低,可以忽略不计。“让数据自己说话”就是让数据犹如自然语言那样,可以准确、无误地表达应有的含义,不需要注释,也不需要应用程序的解读。4、数据的独立性数据的独立性:数据不依靠数据库系统、不依靠数据结构、不依靠注释、不依靠应用程序而独立地表达出某种含义。针对的问题:关系数据库中的数据不具有独立性,需要借助于注释、数据结构、应用程序才能解读数据的含义。关系数据库中的很多表的字段名用的是不规范的字母缩写,在呈现给用户时,需要通过信息系统为表加上表头才能表达出数据的真正含义。数据优化方法四:通过一定的数据冗余而是数据可以自己说话,让“数据不依靠数据库系统、不依靠数据结构、不依靠注释、不依靠应用程序而独立地表达出某种含义”,如上表三所示的万能数据结构表可实现数据的独立性。5、数据的完整性数据的完整性:数据不依靠数据库系统、不依靠数据结构、不依靠注释、不依靠应用程序而完整地表达出某种含义。说 明 书- -6针对的问题:关系数据库中的数据不具有完整性,需要借助于注释、数据结构、应用程序才能解读数据完整的含义。数据优化方法五:通过一定的数据冗余而是数据可以自己说话,让“数据不依靠数据库系统、不依靠数据结构、不依靠注释、不依靠应用程序而独立地表达出某种含义”,如上表三所示的万能数据结构表可实现数据的独立性。6、数据的规范性数据的规范性:数据应为标准的、规范的、统一的、无歧义的。针对的问题:当前的各种信息系统中的数据不规范导致数据挖掘非常困难。数据优化方法六:应在信息系统设计、数据采集阶段就确保数据是规范的。数据的规范性需要建立在“国标大数据标准、国家大数据标准、行业大数据标准”的基础之上,而不是建立在某个单位内部的数据标准、规范的基础之上。只有符合“国标大数据标准、国家大数据标准、行业大数据标准”的规范的数据才有资格成为合格的结构化大数据。当前的问题是各家单位的数据规范只是自己制订的,各不相同,没有“国标大数据标准、国家大数据标准、行业大数据标准” ,这是阻碍大数据发展的一个大障碍。有了标准、规范,并按标准、规范执行,那么在对大数据进行挖掘时,不再需要 ETL。如何体现结构化大数据的规范性:在设计信息系统时就要考虑数据的规范性,在采集、生成数据时,必须严格按照“国标大数据标准、国家大数据标准、各行各业大数据标准”输入数据、生成数据,只有这样,信息系统所生成的数据才是规范的数据。各行各业的数据的标准化、规范化是一项工程量巨大的工程。只有做好这项工作,才能确保“结构化大数据的规范性” 。数据的标准化是大数据的基础。可以说没有数据的标准化就没有合格的大数据。大数据工程,标准先行。从某一方面而言,由于目前国际上、国内的各行各业都未能做好数据标准化工作,所以目前根本就没有合格的大数据!“信息系统名、数据库名、表名、字段名、数据库中的数据”都要用标准的、规范的、统一的自然语言,尽量避免使用不规范的代码,这是让数据自然形成“联想关系”的关键,也是实现万能查询的关键。这也是结构化大数据通信协议主张数据规范化的一个非常重要的原因!在大数据环境中,这种“联想关系”可为数据挖掘带来极大的便利,可以大幅度地提高查询数据的速度。关系数据库理论对数据基本上没有任何限制,全部由设计人员任意定义。这是关系数据库中的数据非常难以挖掘的一个根本原因。结构化大数据通信协议对数据的要求、限制非常严格。严格要求数据必须是标准的、规范的、统一的,必须满足 12个技术特性,每一个数据都必须严格符合国际标准、国家标准、行业标准。严禁设计人员任意私自定义数据。数据犹如通用机械地零部件,必须标准化才可以。大数据标准涉及到每一个行业,也涉及到各种各样的业务。大数据标准涉及数据的标准、数据结构的标准、业务的标准、业务流程的标准、信息系统标准等。在大数据时代,一定要在信息系统中采用统一的、标准的、规范的自然言,尽量避免用代码。这是确保数据独立性、数据的完整性和数据的识别性,降低数据与系统的耦合度的必要措施。7、数据与系统的耦合性说 明 书- -7数据与系统的耦合性:数据与系统的耦合度越高,数据对系统的依赖程度就越高。当数据对系统的依赖程度比较高时,数据一旦脱离了原有的系统就变成了无意义的数据。如果说一个数据不需要任何信息系统的解读,用户就能读懂,那么该数据与信息系统的耦合度为零。针对的问题:关系数据库中的数据与信息系统的耦合度非常高。关系数据库中的数据与数据库系统、与数据结构、与应用程序是密不可分的,关系数据库中的数据一旦脱离了原信息系统到了大数据环境中之后,就变成了无意义的数据。数据优化方法七:必须确保每一个数据与信息系统的耦合度为零。以适当的数据冗余而使数据具有独立性、完整性、识别性、规范性、唯一性、归属性,以数据的独立性、数据的完整性、数据的识别性、数据的规范性、数据的唯一性、数据的归属性而确保每一个数据都是与信息系统耦合度为零的数据。大数据的数据来源于成千上万家单位的系统,因此,大数据中的数据应该是与系统的耦合度为零的数据,否则就需要编写很多的应用程度来解读数据,这会增加处理数据的难度、成本。人们用自然语言所编写的各种文章就是相应专业的人员可直接读懂的,不需要任何的信息系统的解读,因此,这种数据与信息系统的耦合度为零。在大数据中,其数据量数以千亿条计,如果其中的每一个数据都与系统都有一定的耦合度,那么就需要编写海量的程序才能解读大数据。如果说大数据中的每一个数据都是与信息系统的耦合度为零的数据,那么在处理大数据时,就不必再编写任何程序对数据进行解读。关系数据库的设计者习惯用代码来表示各种数据。例如,有的设计人员用“0”代表女性,用“1”代表男性,而有的设计人员用“W”代表女性,用“M”代表男性。面对成千上万的信息系统所产生的数千亿条以上的数据,这种不标准、不规范的代码就会为大数据挖掘带来巨大灾难。用关系数据库所建立的信息系统之所以会产生严重的信息孤岛问题,一个重要原因在于关系数据库中的数据是不完整的、不独立的、难以识别的。关系数据库是用各种“关系”来表达各种事物间的关系。关系数据库中的数据与关系数据库系统、表结构以及相应的应用程序密不可分,一旦分开,关系数据库中的数据将会变成无意义的数据,正是这种“关系”导致关系数据库必然产生“信息孤岛”。“万能数据结构表”中的数据与数据库系统、表结构及应用程序无关,可以完全脱离数据库系统、表结构及应用程序而独立地存在。“表一”中的数据是经过结构化大数据通信协议进行优化后的数据,这样的数据即使脱离表结构也能表达出原来的含义。大数据的原则:尽量避免代码,尽量用标准的自然语言。判断数据是不是合格的大数据的方法:与信息系统耦合度为零的数据才有资格成为合格的大数据。推论:由于当前的关系数据库中的数据全部都是与信息系统密切耦合的数据,所以当前的关系数据库中的数据都不是合格的大数据。8、数据结构的统一性数据结构的统一性:合格的结构化大数据的数据结构必须是统一的。目前只有“万能数据结构表”可以使数据实现“数据结构的统一性”。针对的问题:各个关系数据库中的数据的数据结构各不相同。数据优化方法八:结构化大数据通信协议利用“万能数据结构表”(如下表四所示)来实现数据的“数据结构的统一性”。结构化大数据通信协议不充许设计人员设计任何数据结构,所有结构化数据都说 明 书- -8必须存贮在一张,或若干张结构完全一样的、标准的、统一的表中。用关系数据库理论做不到数据结构的标准化。表四:万能数据结构表可实现数据结构的统一性ID 事物代号 事物属性 事物属性值 超长属性值 单位 附件 时间100 1001 数据来源 上海市第一人民医院 101 1001 事物分类 病历 102 1001 事物分类 住院病历 103 1001 事物分类 入院病历 104 1001 事物分类 患者基本情况 105 1001 患者编号 SH10-19910430Z21 106 1001 健康卡号 XXXXXXXXXXXXX09 107 1001 身份证号 XXXXXXXXXXXXXXX 108 1001 姓名 胡风 109 1001 工作单位 上海橡胶厂 110 1001 职别 工人 111 1001 性别 女 112 1001 住址 上海市蒙古路 20 号 113 1001 年龄 32 114 1001 入院日期 1991/4/30 115 1001 婚否 已婚 116 1001 病史采取日期 1991-4-30 117 1001 民族 汉 118 1001 病情陈述者 本人 10000 52367 数据来源 广州动物园10001 52367 事物分类 动物管理系统 10002 52367 事物分类 企鹅 10003 52367 事物分类 帝企鹅 10004 52367 事物分类 动物档案 10005 52367 大数据识别码 GZQE0003 10006 52367 名字 汉武帝 10007 52367 购入日期 2013-3-21 10008 52367 身高 1.2 m 10009 52367 体重 20 kg 10010 52367 出生日期 2011-4-2 10011 52367 照片 JPG 10012 52367 笼舍编号 098 10013 52367 管理员 张三 10014 52367 父 GZQE0001 10015 52367 母 GZQE0002 10016 52367 性别 雄 关系数据库的最大问题就是数据结构不标准。关系数据库理论对数据结构没有任何限制,完全由设计人员自由定义数据结构。数据结构标准化是处理大数据的基础,数据结构不标准会导致数据处理非常困难。9、数据的累加性说 明 书- -9数据的累加性:是指“使数据可以(犹如图书那样)不经任何处理即可累加在一起”。针对的问题:当前的关系数据库系统已产生了很多数据,然而这些数据都不能累加成大数据。数据优化方法九:数据的累加性可通过“数据的唯一性、数据的归属性、数据的识别性、数据的独立性、数据的完整性、数据的规范性、数据与系统的耦合性、数据结构的统一性”来实现的,也可以说只有同时拥有这些属性的数据才具有累加性。传统的写在纸上的信息具有可累加性,图书馆就是众多图书之和,档案馆就是众多档案之和。数据若具有累加性,那么,广州市政府各部门的数据全部以镜像方式集中存贮到云平台之后就等于建立了广州市大数据,全国 97.8万家医疗机构的所有数据全部以镜像的方式上传到国家医疗大数据中心就等于建成了国家医疗大数据。可惜的是,当前的各种信息系统中的数据不具有累加性。10、数据的移植性数据的移植性:“无论把数据移植到任何环境中,数据都能保持原有含义不变,能让各种信息系统识别,能让用户识别”,这样的数据才具有移植性。针对的问题:用关系数据库所建立的信息系统难以互联互通,即一个系统中数据不能移植到另一个系统中。数据优化方法十:数据的移植性是通过“数据的唯一性、数据的归属性、数据的识别性、数据的独立性、数据的完整性、数据的规范性、数据与系统的耦合性、数据结构的统一性”来实现的,也可以说只有同时有具有这些属性的数据才具有移植性。数据的移植性关系到信息系统的互联互通。具有移植性的数据才能任意地在各个系统之间互联互通。数据的移植性与数据的累加性是一样的,具有移植性的数据也具有累加性,只是数据的移植性是用来体现数据是否可以在各个系统之间互联互通,数据的累加性指的是能否把众多的小数据累加成大数据。11、数据的时间性数据的时间性:大数据中的每一个数据都应有相应的时间。数据优化方法十一:为每一个数据增加时间戳。12、数据的真实性数据的真实性:小数据犹如自己记帐而产生的数据,大数据犹如不同单位之间的资金来往而产生的数据,因此大数据的真实性就是非常重要的。数据优化方法十二:必须把数据防伪、数据防篡改当作重要工作,可通过第三方认证、第三方公证、第三方数据备案的方法使数据的真实性得到保证。说明 2:数据的唯一性是实现“数据全球通”的基础在班、组这样的小环境中可以用每个人的姓名而区分出每一个人,然而在全国范围内,由于人数太多,重名的很多,因此仅靠姓名就不能准确无误地识别出每一个人。大数据时代以前的关系数据库中的数据只是应用于某个机构内部,因此各个数据就容易识别,然而如果把关系数据库中的数据放到大数据环境中,那么这些数据就成了不可识别的数据。在大数据环境中,有关人的所有数据都必须含有“身份证号”,这是为了表明数据的唯一性。关系数据库用“ID”来表明每张表中的数据的唯一性。关系数据库所考虑的只是一张表中的数据的唯一性问题,而未考虑大数据环境中的数据唯一性问题。例如,在很多医疗信息系统中,只是用“门诊说 明 书- -10号”、“住院号”来标识患者的信息,而未含有患者的身份证号。如果要在国家医疗大数据环境中查询某个患者的病史数据,那么,就会由于患者的数据中未含有身份证号而为查询造成非常大的困难,因为患者的病史数据有可能包含在全国 97.8万家医疗机构所产生的数百万张以上的表中。在大数据环境中,每个事物的数据的“数据的唯一性”就是一个非常重要的问题。“数据的唯一性”是确保数据在大数据环境中具有“数据的识别性”的一个关键。例如,在生产厂家、经销商的信息系统中,同一件商品的代号都必须是全球唯一的、统一的、标准的,这样才能确保在大数据环境中数据是可识别的。然而,目前国际上还未做到这一点,各家企业的信息系统都有自己的编码方式,各不相同,针对同一种商品,不同企业的编码是不一样的,这为数据的全球通及大数据分析造成了很大的困难。合格的大数据应该是:在药店买一盒药,可以根据这盒药上面的唯一的编码而查询到这盒药的整个生产、流通环节各种相关情况,是哪个厂家生产的,何时生产,何时出厂,中间经过了哪几个中间商。世界经济最需要的是“数据全球通”,即全球所有企业的信息系统中的各种数据都可以“互联互通”,或者说“全球任何两个企业的信息系统之间都可以及时地发送、接收任何商品的数据。”当前的实际情况是:每家企业都有独有的产品编码规则,当企业接到订单时,还需要手工把订单数据转换为自己的信息系统可识别的数据,然后自己的系统才能处理客户的订单数据,只有极少数的企业的信息系统可以直接处理上游企业发来的数据。这种“全球数据都不通”的现象的根本原因就在于当前的数据缺乏“数据的唯一性”,没有国际统一的、标准的商品编码标准为“数据的唯一性”提供支持。要跟踪一种商品在世界各地的流通情况,“数据的唯一性”是基础。一种商品的数据会出现在全球数百万个企业的信息系统中,只有体现“数据的唯一性”的大数据识别码才能准确无误地从数百万个信息系统中把这种商品的数据识别出来。全球大数据统一编码、解码(可称作为大数据识别码)是大数据中的一项非常重要的工作,也是一项非常复杂的工作。在国际贸易中订单、商品的全球统一编码、解码就非常重要,这是商品“数据全球通”的基础。对企业而言,在大数据时代,订单、商品数据的国际标准、国家标准、行业标准是全球企业实现“数据全球通”的基础。没有订单、商品的标准,企业就不能进入到大数据时代。说明 3:数据的归属性是区分大数据与小数据的一个关键如果从关系数据库理论的角度来看,增加“数据来源”会使系统中产生大量的冗余数据。然而,在大数据时代,所要处理的数据来源于数百万个以上的信息系统,因此,就非常有必要说清楚各个数据从何而来,不然,就无法区分众多的数据。在大数据环境中,“数据来源”就是非常关键的数据,也是必不可少的。在大数据中,为每一个数据都增加“数据来源”数据项的目的就是让数据无论在哪里都能独立地、完整地表达出其完整的含义。数据如物,人类社会的各种物都有其主,数据也应有其主。区分大数据与小数据的一个关键指标就是数据中是否含有“数据来源”。凡是不含有“数据来源”的数据都是小数据,都是不合格的结构化大数据,这是关系数据库高手很难理解的,然而这也是数据库技术人员的思想观念是否已转到大数据时代的一个标志。大数据所面对的是:数十万家以上的单位,数百万个以上的信息系统,数千万以上的表,数万亿以上的数据。在大数据环境中,没有“数据来源”就会引起大混乱。在大数据时代,有了“数据来源”可以大幅度减少编写程序代码的行数,在数据交换时就需要有“数据来源”,数据共享时,需要有“数据来源”。说明 4:数据的标准化、规范化是实现万能查询的关键说 明 书- -11结构化大数据通信协议是在模仿大脑的记忆、联想、思维的基础上而创立的,开始于 1982年,当时是希望计算机能模仿人的大脑的联想功能(即查询)。人的大脑在处理数据时所采用的技术是“超级高保真数据处理技术”。“数据的标准化、规范化是实现万能查询的关键”,这需要从人的大脑的超级高保真数据处理技术的角度来理解。目前人们都是从计算机技术的角度来解读什么是“数据”,实际上从人的大脑记忆、联想、思维的角度来解读什么是“数据”才是最合适的。人的大脑是大自然界最优秀的“计算机”。人的大脑中所存贮的才是真正合格的“数据”。人的大脑中的“数据”是“超级高保真数据”。人的大脑中的数据都是模拟数据,几乎是不失真的,是超级的高保真数据,是真正的数据,能非常真实地反映自然界的各种事物,是自然界的各种事物的在大脑中的一个缩影。人的大脑中的数据与数据之间的关系是以事物的自然属性而自然地建立起来的自然关系,可以真实地反映到自然界的各种事物之间微妙关系,这才是大脑具有超强功能的根本。计算机中的数据是死的,人的大脑中的信息是活的。大脑可以突破时间、空间,随时地激活大脑中的“各种事物”,回放过去的各种场景。计算机也可以放电影,但是计算机不能为电影中的各个事物建立联想关系。人的大脑可以由一个场景而联想到另一个场景,计算机就不能。大脑在回忆北京的故宫、长城时,眨眼间就可回忆起在上海的黄埔,又一眨眼就跑到了贵州黄果树。大脑可实现“瞬间数千年,眨眼九万里”。计算机中的数据与数据之间没有什么关系,然而任何输入到人的大脑中的事物的信息,人的大脑都会自动地与大脑中的相关事物信息之间形成联想关系,这种联想关系是根据事物的自然属性而建立的。人的大脑的超级高保真数据处理技术主要有四种:1、超级高保真数据采集技术;2、超级高保真数据存贮及再现技术;3、超级高保真形成数据与数据之间的关系技术(形成联想关系);4、超级高保真利用数据之间的关系技术(即以联想来处理数据)。用当前的技术可以比较好地模仿大脑的“超级高保真数据采集技术”及“超级高保真数据存贮及再现技术”。然而现有技术无法全面实现(甚至说根本无法模仿)大脑的“超级高保真形成数据与数据之间的关系技术”和大脑的“超级高保真数据处理技术”,这两种技术才是大脑具有超级功能的根本。超级高保真数据采集技术:大脑是通过视觉、听觉、触觉、嗅觉、味觉、痛觉等感觉器官而采集数据。超级高保真存贮及真实再现数据技术:大脑不但可以以超级高保真的形式存贮数据,犹如把自然界的事物“搬”到了大脑中,而且还可突破时间、空间使以往的事物随意再现(联想)。大脑中的数据是自然界真实的具体的事物的缩影。超级高保真建立数据之间的关系技术:大脑不但可以采集、存贮数据,更重要的是,大脑可以自动地让数据在大脑中形成相似联想、接近联想、同时联想关系。大脑中的数据联想关系是根据事物的自然属性而自然地建立的。大脑不只是超级高保真存贮了数据,而且还超级高保真地存贮了数据与数据之间的自然关系。这是现有技术难以模仿的。超级高保真利用数据之间的关系技术(数据处理技术):计算机所处理的只是数字信号,而人的大脑所处理的全是模拟信号。大脑以相似联想、同时联想、接近联想等方式处理超级高保真的模拟数据(即大脑思维)。现有技术根本无法全面模仿这种技术,只能局部模仿。说 明 书- -12下面用事例比较详细地说明“大脑的超级高保真数据处理技术”。主要说明:自然事物、事物的属性、大脑根据事物的属性而进行联想、推理,以及数据与数据之间的联想关系是根据事物的自然属性而建立的。1、“人可以通过听声音而判断出你是在敲铁块,还是在敲木头。”这是因为,在人的大脑的记忆中,敲铁块发出的声音已非常自然地与铁块联系在一起,敲木头的声音已非常自然地与木头自然地联系在一起,这些信息都是人们在日常生活中所接收到的。因此,人们可以通过声音而联想到相应的事物。计算机也可以存贮音像文件,然而计算机不能实现声音与图像之间的自然联系,也不能灵活地识别声音和图像。2、“我在手中轻轻地把松花蛋抛起几次,就可以判断出这个松花蛋是不是好的。”这是因为好的松花蛋在手中轻抛时,手掌就会感到一种轻微的颤动,而生鸡蛋、熟鸡蛋就不会产生颤动,坏的松花蛋也不会产生颤动。在我的大脑的记忆中,颤动已与松花蛋自然地建立了联系。3、“买鸡蛋时,把鸡蛋拿在手中轻轻地摇一摇就可以判断出鸡蛋的好坏。”坏鸡蛋,或者说放时间长的鸡蛋,用手轻轻地摇一摇,鸡蛋里面的蛋黄、蛋清就会动,而好鸡蛋中的蛋黄蛋清就不会动。在我的大脑记忆中,这些有关鸡蛋的信息,已自然地与鸡蛋的好坏建立起了联系。4、“看见窗外树在动,就知道刮风了。”人的大脑中已存贮了风吹树动的信息。5、“看见窗外的树在动,就知道那是有人在摇树。”因为人摇树与风吹树是不一样的。风吹树,很多树都动。人摇树,只有一棵树在动,其它树不动。而且人摇树引起的树动,与风吹树引起的树动是有差别的。与人的大脑相比,关系数据库中的数据几乎是百分之百的失真数据。关系数据库是人为地为数据建立关系,关系数据库理论认为这是关系数据库的最突出的优势,然而这才是关系数据库的最致命的缺陷!因为,人为地为数据建立关系,破坏了自然界的事物之间本身的自然联系。关系数据库不能象人的大脑那样根据事物的自然属性而建立联系。关系数据库的一个优点是数据冗余非常小。然而这也是关系数据库的致命缺陷!因为关系数据库在降低了数据冗余的同时也导致数据严重失真。严重失真的数据就不能根据事物的自然属性而自然地建立关系。关系数据库把数据存贮在不同的表中,这样就割裂了事物与事物之间的自然属性之间的关系。关系数据库把同一类事物的数据存贮在同一张表中,不同类的事物的数据存贮在不同的表中。大脑是根据事物的自然属性而对事物进行分类,事物是不是同一类,由事物的自然属性决定,拥有相同属性的事物就是同一类事物。塑料盆、塑料杯子、塑料袋子、塑料桶,形态各不相同,大脑是根据塑料的自然属性而把它们归为一类。对于塑料杯子、玻璃杯子、钢杯子,大脑是根据“杯子”的自然属性而把它们归为一类。大脑中的数据都在同一张表中,大脑根据事物的自然属性就可以非常灵活地对各种数据进行分类。“数据”并不只是一个代号、符号,真正的“数据”应该是自然界的具体事物的缩影。人的大脑可以把敲铁块所发出的声音自然地与铁联系在一起,关系数据库就不能让“数据”实现这样的自然联系。结构化大数据通信协议模仿了大脑的超级高保真数据处理技术。结构化大数据通信协议就是要坚决铲除关系数据库中的“人为关系”,让数据独立地、自然地根据事物的自然属性而建立“自然的关系”。关系数据库中的关系是人为建立的,破坏了事物之间的自然关系。要想使计算机接近人的大脑的超级思说 明 书- -13维功能,就必须象大脑那样使数据尽量地少失真,使数据能够根据事物的自然属性而建立自然的关系。也必须坚决地铲除人为地为数据建立的关系,因为人为的关系肯定会破坏数据与数据之间的自然关系。计算机中的“数据”的概念非常狭隘。“数据”不应该只是“数字”、“代号”,而且还应该是自然界的事物的真实反映,更重要的是也应该反映出“数据”与“数据”之间的自然关系。计算机中的“手机”只是数字,而人的大脑中的“手机”却是真实的“手机”的真实的反映,大脑通过视觉、听觉、触觉接收到了海量的有关“手机”的各种各样的信号。合格的“数据”应该是失真程度最少的,能够比较全面地反映具体的事物,也能真实反映出事物之间的自然关系。关系数据库中的数据不能真实地反映出数据与数据之间的自然关系。数据与数据之间的关系绝对不能人为地建立,而应该是由事物本身的自然属性而自然地建立关系。结构化大数据通信协议是通过一定量的“数据冗余”而使数据尽量地少失真,使“数据”与“数据”之间自然地根据事物的自然属性而建立“自然的关系”。“信息系统名、数据库名、表名、字段名”要用标准化的、统一的、规范的自然语言,尽量不用代码,以便实现“联想”。信息系统的名称、数据库的名称、表名、字段名都是非常重要的事物属性,都具有重要含义。关系数据库系统的设计人员习惯于用代码、英文缩写、汉语拼音缩写作为数据库名、表名、字段名。这就导致普通用户看不懂关系数据库中的数据。关系数据库忽视了这种信息,因为它所处理的是小数据。在大数据环境中,这些信息就是非常重要的,不能缺省。在结构化大数据通信协议中,为了使数据具有独立性、完整性、可识别性,在每个数据中都增加了“信息系统的名称、数据库的名称、表名”,“信息系统的名称、数据库的名称、表名”实际上是事物的“分类”,或者说是事物的属性。这种做法是关系数据高手所难以理解的、不可思议的,因为这种做法增加了大量的数据冗余。结构化大数据通信协议在“数据冗余”与“数据的独立性、数据的完整性、数据的识别性、数据与系统的耦合度”之间选择后者。其目的是让不懂技术的普通人也能看懂数据的真实含义。关系数据库的数据冗余非常少,但其代价是,不懂技术的普通人看不懂关系数据库中的数据,关系数据库中的数据只能存贮在相应的数据库中,一旦脱离了相应的数据库就变成了无意义的数据。关系数据库中的数据需要通过大量的应用程序的翻译才能让普通用户读懂。如果数据库中的数据都是标准化的、规范化的,那么,这些数据就可以自然地根据“万能数据结构表”中的“事物属性”和“事物属性值”而自动地联立起自然的“联想”关系(通过索引而建立)。由于利用结构化大数据通信协议所建立的各种信息系统所产生的数据全部存贮在一张,或若干张结构完全一样的“万能数据结构表”中,所以可以很容易地编写出通用的“万能查询”工具。例如,如果全国的各种医疗信息系统都是用结构化大数据通信协议而建立的,那么就可以通过患者的身份证号而方便地从国家医疗大数据中心而“联想”(查询)到患者的病史数据。因为患者的病史中的每条数据中都含有身份证号(大数据识别码),通过患者的身份证号就可以“联想”到与患者有关的所有数据。而当前的各种医疗数据中不一定含有患者身份证号,所以从全国各家医院的信息系统中查询患者的病史数据就非常困难。结构化大数据通信协议之所以用大量的“数据冗余”而使数据满足 12个技术特性,其根本目的就是为了使数据成为“高保真的数据”,“数据冗余”弥补了数据的失真,只有“高保真的数据”才能使信息系统可以象人的大脑那样实现“超级高保真数据处理”。说 明 书- -14说明 5:不必进行 ETL转换即可高效挖掘并可实现万能查询要对当前的全国的医疗数据进行挖掘将是非常困难的,原因在于当前的各种信息系统中的数据不标准、不规范。例如:医疗行业有数百万张表,数千亿条记录,各表的结构各不相同。对如此之多的结构各不相同的表中的数据进行挖掘、查询,需要编写大量的程序度。如果全国的各家医疗机构的各种信息系统全部是按结构化大数据通信协议而设计,那么对这样的信息系统所产生的数据进行挖掘、查询将是很容易的。因为这些信息系统全都采用“万能数据结构表”,其中的数据全是标准的、规范的、统一的。表五:两种方法的数据挖掘、查询效果对比表序号对比内容 用关系数据库而建设的当前的全国医疗的各种信息系统用结构化大数据通信协议而建设的全国医疗的各种信息系统1 表的数量及结构数百万张以上的表,各表结构各不相同。 数百万张表,各表的结构完全相同,全部采用“万能数据结构表”。2 数据量 数千亿条 数千亿条3 ETL、数据挖掘因各家医疗机构的数据全都不标准、不规范、不统一,ETL 的难度非常高,数据挖掘成本非常高。因性别、症状名称、疾病名称、药名各不相同,不统一,数据挖掘、统计、分析非常困难。在信息系统的设计阶段,在数据采集阶段,在产生数据阶段,全部都采用标准的、规范的、全国统一的数据,不需要 ETL就已是标准的、规范的、全国统一的数据,数据挖掘、统计、分析非常容易。4 以查询患者病史为例要对全国的数百万张结构各不相同的表进行查询,需要编写大量的程序,成本非常高。各医疗机构是以住院号、门诊号作为标识而记录患者的各种数据,而各家医院的住院号、门诊号的编码各不相同,相互之间没有规律,在全国范围内查患者病史数据很难。需要先根据患者的名称、身份证号从全国 97.8万医疗机构的信息系统中分别查询患者是否有就诊记录,若有还要查相应的住院号、门诊号,然后再根据住院号、门诊号而从各种表中查询患者的病史数据。(注:由于原来没有“数据的唯一性”、大数据识别码的概念,同一患者的医疗数据,在不同的医疗机构的表现形式各不相同,识别方式也各不相同,不能保持“唯一”。)数据百万张表,结构完全相同。因此,可以通过技术处理,编写一个通用的查询工具,使用户在查询数据时犹如查询一张表中的内容。因为与

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论