大数据导论 教案全套 林子雨 第1-7章 大数据概述-数据处理与分析_第1页
大数据导论 教案全套 林子雨 第1-7章 大数据概述-数据处理与分析_第2页
大数据导论 教案全套 林子雨 第1-7章 大数据概述-数据处理与分析_第3页
大数据导论 教案全套 林子雨 第1-7章 大数据概述-数据处理与分析_第4页
大数据导论 教案全套 林子雨 第1-7章 大数据概述-数据处理与分析_第5页
已阅读5页,还剩142页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

教案内容第1章大数据概述1.1数据1.1.1数据的概念数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,是可识别的、抽象的符号。数据和信息是两个不同的概念,信息是较为宏观的概念,它由数据的有序排列组合而成,传达给读者某个概念方法等,而数据则是构成信息的基本单位,离散的数据没有任何实用价值。数据也被称为“未来的石油”。1.1.2数据类型文本、图片、音频、视频1.1.3数据组织形式计算机系统中的数据组织形式主要有两种,即文件和数据库。(1)文件:计算机系统中的很多数据都是以文件形式存在的,比如一个WORD文件、一个文本文件、一个网页文件、一个图片文件等等(2)数据库:计算机系统中另一种非常重要的数据组织形式就是数据库,今天,数据库已经成为计算机软件开发的基础和核心。1.1.4数据的使用第一步数据清洗,第二步数据管理,第三步数据分析数据使用的实例:数据仓库1.1.5数据的价值性在过去,一旦数据的基本用途实现了,往往就会被删除,一方面是由于过去的存储技术落后,人们需要删除旧数据来存储新数据,另一方面则是人们没有认识到数据的潜在价值。数据的价值不会因为不断被使用而削减,反而会因为不断重组而产生更大的价值。各类收集来的数据都应当被尽可能长时间地保存下来,同时也应当在一定条件下与全社会分享,并产生价值。1.1.6数据爆炸人类进入信息社会以后,数据以自然方式增长,其产生不以人的意志为转移。从1986年开始到2010年的20年时间里,全球数据的数量增长了100倍,今后的数据量增长速度将更快,我们正生活在一个“数据爆炸”的时代。1.2大数据时代1.2.1第三次信息化浪潮根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革表1-1三次信息化浪潮信息化浪潮发生时间标志解决问题代表企业第一次浪潮1980年前后个人计算机信息处理Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等第二次浪潮1995年前后互联网信息传输雅虎、谷歌、阿里巴巴、百度、腾讯等第三次浪潮2010年前后物联网、云计算和大数据信息爆炸将涌现出一批新的市场标杆企业1.2.2信息科技为大数据时代提供技术支撑1.存储设备容量不断增加2.CPU处理能力大幅提升在信息化基础设施方面,据工业和信息化部官网消息,截至2019年12月底,我国互联网宽带接入端口数量达9.16亿个,其中,光纤接入端口占互联网接入端口的比重达91.3%;光缆线路总长度已达4750万公里,相当于在京沪高铁线上往返1.8万余次。同时,近五年来固定宽带和移动宽带资费平均下降90%,速率提升6倍。目前,我国已基本实现“城市光纤到楼入户,农村宽带进乡入村”。据中国信息通信研究院(简称中国信通院)数据,截至2020年2月底,全国建设开通5G基站达16.4万个,5G网络建设基础不断夯实。2020年中国将建设60万~80万个5G基站。3.网络带宽不断增加1.2.3数据产生方式的变革促成大数据时代的来临1.3大数据的发展历程阶段时间内容第一阶段:萌芽期上世纪90年代至本世纪初随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。第二阶段:成熟期本世纪前十年Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行其道。第三阶段:大规模应用期2010年以后大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高。1.4世界各国的大数据发展战略国家战略美国稳步实施“三步走”战略,打造面向未来的大数据创新生态英国紧抓大数据产业机遇,应对脱欧后的经济挑战法国通过发展创新性解决方案并应用于实践来促进大数据发展韩国以大数据等技术为核心应对第四次工业革命日本开放公共数据,夯实应用开发中国实施国家大数据战略,加快建设数字中国1.4.1美国美国是率先将大数据从商业概念上升至国家战略的国家,通过稳步实施“三步走”战略,在大数据技术研发、商业应用以及保障国家安全等方面已全面构筑起全球领先优势。第一步是快速部署大数据核心技术研究,并在部分领域积极开发大数据应用。第二步是调整政策框架与法律规章,积极应对大数据发展带来的隐私保护等问题。第三步是强化数据驱动的体系和能力建设,为提升国家整体竞争力提供长远保障。1.4.2英国英国政府于2010上线政府数据网站D.uk,同美国的D平台功能类似,但主要侧重于大数据信息挖掘和获取能力的提升。在2012年发布了新的政府数字化战略,实现大数据驱动的社会经济增长2013年英国政府加大了对大数据领域研究的资金支持。1.4.3法国2011年7月,法国启动了开放数据项目,通过实现公共数据在移动终端上的使用,最大限度地挖掘数据的应用价值。项目内容涉及交通、文化、旅游和环境等领域。2013年12月,法国政府发布《数字化路线图》,明确了大数据是未来要大力支持的战略性高新技术。此外,法国中小企业、创新和数字经济部推出大数据规划,在2013年至2018年在法国巴黎等地创建大数据孵化器。1.4.4韩国韩国的智能终端普及率以及移动互联网接入速度一直位居世界前列,这使得其数据产出量也达到了世界先进水平。在朴槿惠政府倡导的“创意经济”国家发展方针指导下,韩国多个部门提出了具体的大数据发展计划。2016年年底,韩国发布以大数据等技术为基础的《智能信息社会中长期综合对策》,以积极应对第四次工业革命的挑战。1.4.5日本2010年5月,日本发达信息通信网络社会推进战略本部发布了以实现国民本位的电子政府、加强地区间的互助关系等为目标的《信息通信技术新战略》。2012年6月,日本IT战略本部发布电子政务开放数据战略草案。2012年7月,日本政府推出了《面向2020年的ICT综合战略》,大数据成为发展的重点。2013年6月,日本公布新IT战略——创新最尖端IT国家宣言,明确了2013-2020年期间以发展开放公共数据为核心的日本新IT国家战略。1.4.6中国2015年8月,国务院印发了《促进大数据发展行动纲要》。党的十八届五中全会将大数据上升为国家战略。在党的十九大报告中,习近平总书记明确指出:“推动互联网、大数据、人工智能和实体经济深度融合”。2018年4月22日-24日,首届“数字中国”建设峰会在福建省福州市举行。1.5大数据的概念1.5.1数据量大根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律)。人类在最近两年产生的数据量相当于之前产生的全部数据量。预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍。1.5.2数据类型繁多大数据是由结构化和非结构化数据组成的10%的结构化数据,存储在数据库中90%的非结构化数据,它们与人类信息密切相关1.5.3处理速度快从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少。1秒定律:这一点也是和传统的数据挖掘技术有着本质的不同。1.5.4价值密度低 价值密度低,商业价值高。 以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,但是具有很高的商业价值。1.6大数据的影响1.6.1大数据对科学研究的影响图灵奖获得者、著名数据库专家JimGray博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论、计算和数据四种范式。1.6.2大数据对社会发展的影响大数据决策逐渐成为一种新的决策方式。大数据成为提升国家治理能力的新途径。大数据应用有力促进了信息技术与各行业的深度融合。大数据开发大大推动了新技术和新应用的不断涌现。1.6.3大数据对就业市场的影响大数据的兴起使得数据科学家成为热门职业。麦肯锡报告,到2018年,在“具有深入分析能力的人才”方面,美国面临着14万到19万的缺口,“可以利用大数据分析来做出有效决策的经理和分析师”缺口则会达到150万。国内有大数据专家估算过,5年内国内的大数据人才缺口会达到130万,以大数据应用较多的互联网金融为例,这一行业每年增速达到4倍,届时,仅互联网金融需要的大数据人才就是现在需求的4倍以上。根据第四届中国贵州人才博览会发布《全国大数据人才需求指数报告》,2016年2月份,贵阳大数据人才月薪已逼近8000元。1.6.4大数据对人才培养的影响大数据时代到底需要什么样的人才?一是计算机技术相关人才,包括平台搭建和应用开发二是统计学相关人才,包括数学、建模、算法三是业务人才,就是要有一定的专业领域知识,只有明白目标领域知识的人才能了解数据的意义以及指导数据分析的方向并判断数据分析结果的可信性1.7大数据的应用大数据无处不在,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都已经融入了大数据的印迹就企业而言,对大数据的掌握程度可以转化为经济价值的源泉。就政府而言,大数据的发展将会提高政府科学决策水平,改变政府传统“拍脑袋”式决策,变为用数据说话,利用大数据分析社会、经济、人文生活等规律,从而为国家宏观调控、战略决策、产业布局等夯实根基。在医疗领域,大数据也有不俗表现。大数据也悄然地影响着绿茵场上强弱的较量。1.8大数据产业大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合。产业链环节包含内容IT基础设施层包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业,比如,提供数据中心解决方案的IBM、惠普和戴尔等,提供存储解决方案的EMC,提供虚拟化管理软件的微软、思杰、SUN、Redhat等数据源层大数据生态圈里的数据提供者,是生物大数据(生物信息学领域的各类研究机构)、交通大数据(交通主管部门)、医疗大数据(各大医院、体检机构)、政务大数据(政府部门)、电商大数据(淘宝、天猫、苏宁云商、京东等电商)、社交网络大数据(微博、微信、人人网等)、搜索引擎大数据(百度、谷歌等)等各种数据的来源数据管理层包括数据抽取、转换、存储和管理等服务的各类企业或产品,比如分布式文件系统(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、数据库和数据仓库(Oracle、MySQL、SQLServer、HBase、GreenPlum等)数据分析层包括提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品,比如,分布式计算框架MapReduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等数据平台层包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品,比如阿里巴巴、谷歌、中国电信、百度等数据应用层提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或政府部门,比如交通主管部门、各大医疗机构、菜鸟网络、国家电网等1.9高校大数据专业

1.9.1大数据专业的人才培养目标大数据专业致力于培养符合国家战略及大数据产业发展需求,具备较好的数据素养和数理基础、扎实的编程基础以及大数据基础知识与技能,熟练掌握大数据采集、预处理、存储、处理、分析、应用技术,能够运用大数据思维、模型和工具解决实际问题的高级复合型人才。大数据专业的毕业生能在互联网企业、金融机构、科研院所、高等院校等从事大数据分析、挖掘、处理、服务、应用和研究工作,亦可从事各行业大数据系统的集成、设计、开发、管理、维护等工作,也适合在高等院校及科研院所的相关交叉学科继续深造。1.9.2毕业生就业岗位1.9.3大数据专业知识体系从学科角度而言,大数据可以理解为一个跨多学科领域的,从数据中获取知识的科学方法、技术和系统的集合。因此,大数据专业知识体系涵盖了计算机、数学、统计学等多个学科领域,结合了诸多领域中的理论和技术,包括应用数学、统计学、模式识别、机器学习、人工智能、深度学习、数据可视化、数据挖掘、数据仓库、分布式计算、云计算、系统架构设计等。从大数据分析角度而言(如图所示),典型的大数据分析过程包括:数据采集与预处理、数据存储与管理、数据处理与分析、数据可视化等。因此,大数据专业知识体系涵盖了数据采集与预处理技术、数据存储与管理技术、数据处理与分析技术、数据可视化技术等。同时,在分析过程中,对商业领域的业务知识也需要一定的理解。1.9.4大数据专业课程体系大数据专业课程体系涵盖通识教育课、学科基础课、专业基础课、专业核心课和专业课,具体如下:(1)通识教育课:思政类课程、军体类课程、外语课、创新创业课等;(2)学科基础课:高等数学、线性代数、概率论与数理统计等;(3)专业基础课:程序设计、计算机系统基础及组成原理、离散数学、计算机网络、算法与数据结构、数据库系统、操作系统、软件工程等;(4)专业核心课:大数据导论、网络爬虫与数据采集、数据清洗、NoSQL数据库、数据可视化、分布式并行编程、机器学习等;(5)专业课:云计算、数据安全、数据仓库、数据挖掘等。1.9.5大数据专业的编程语言1.C语言C语言是一门面向过程的计算机编程语言,与C++、Java等面向对象编程语言有所不同。C语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、仅产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。C语言描述问题比汇编语言迅速、工作量小、可读性好、易于调试、修改和移植,而代码质量与汇编语言相当。C语言一般只比汇编语言代码生成的目标程序效率低10%~20%。因此,C语言可以编写系统软件。C语言在一些编程语言排行榜中长期排在第一的位置。C语言具有很多优点,主要如下:(1)它具有现代高级程序设计语言的基本语法特征,并且是编写操作系统的首选语言,与计算机硬件打交道时灵巧且高效,目前几乎所有的操作系统(如Windows、Unix和Linux等)均是由C语言编写的;(2)常用的面向对象程序设计语言(例如C++和Java),其基本语法源于C语言。C语言甚至是其它编程语言的母语言,比如Java语言就是用C语言编写的。(3)简洁紧凑,灵活方便。C语言一共只有32个关键字,9种控制语句,程序书写自由,主要用小写字母表示,它把高级语言的基本结构和语句与低级语言的实用性结合了起来。C语言一般作为学习计算机程序设计语言的入门语言。2.C++C++是C语言的继承,是一门以C为基础发展而来的、面向对象的高级程序设计语言,它既可以进行C语言的过程化程序设计,又可以进行以继承和多态为特点的面向对象的程序设计。C++不仅拥有计算机高效运行的实用性特征,同时还致力于提高大规模程序的编程质量与程序设计语言的问题描述能力。C++的优点主要包括:(1)实现了面向对象程序设计,处理运行速度非常快,大部分的游戏软件都是由C++来编写的。(2)语言非常灵活,功能非常强大。(3)非常严谨、精确和数理化,标准定义很细致。(4)语言的语法思路层次分明。大数据领域的不少产品都是使用C++开发的(即产品本身是由C++编写的),包括一些NoSQL数据库(ScyllaDB、MongoDB、Aerospike、Kudu、SequoiaDB)、数据仓库Impala、实时流计算框架Hurricane和Heron、资源调度框架Mesos等。但是,谈到大数据开发语言,C++要明显逊色于Java,很多大数据应用程序(比如Hadoop程序等)都是使用Java开发的,而不是使用C++。3.JavaJava是目前最热门的编程语言之一,在一些编程语言排行榜中长期排在前三名。虽然Java没有和R、Python一样好的可视化功能,也不是统计建模的最佳工具,但是,如果需要建立一个庞大的应用系统,那么Java通常会是较为理想的选择。由于Java具有简单、面向对象、分布式、鲁棒、安全、体系结构中立、可移植、高性能、多线程以及动态性等诸多优良特性,因此,被大量应用于企业大型系统开发中,企业对于Java人才的需求一直比较旺盛。Java语言与大数据存在较为紧密的联系,Java在大数据领域有着广泛的应用,是大数据应用程序开发的常用语言。作为大数据领域热门的大数据处理框架Hadoop和Flink等,其框架本身都是采用Java语言开发的,编写Hadoop应用程序也首选Java语言。而目前热门的分布式计算框架Spark,也支持采用Java语言编写应用程序。4.PythonPython是目前国内外很多大学里流行的入门语言,学习门槛低,简单易用,开发员可以使用Python来构建桌面应用程序和Web应用程序,此外,Python在学术界备受欢迎,常被用于科学计算、数据分析和生物信息学等领域。Python是最近几年发展最为迅速的编程语言,在一些编程语言排行榜当中甚至已经进入了前三名。Python的主要优点如下:(1)可以使用多种执行方式。可以直接在命令行执行相关命令,也可以用函数的方式执行相关命令,或者也可以用面向对象的方式执行相关命令。(2)语法简洁,且强制缩格,程序具有很好的可读性。(3)跨平台。支持多种开发平台,如Windows、Linux、MacOSX、Solaris等。(4)面向对象。Python既支持面向过程,又支持面向对象,这使得其编程更加灵活。(5)丰富的第三方库。Python有丰富且强大的库,而且由于Python的开源特性,第三方库非常多,如Web开发、爬虫、科学计算等。在数据分析领域,Python是广受欢迎的编程语言,网络数据采集(比如网络爬虫)、数据清洗、数据分析与挖掘、数据可视化等环节,通常都使用Python语言编写程序。5.ScalaScala是一门类似Java的多范式语言,它整合了面向对象编程和函数式编程的最佳特性,具有诸多优点,主要包括以下几个方面:(1)具备强大的并发性,支持函数式编程,可以更好地支持分布式系统;(2)Scala兼容Java,可以与Java互操作;(3)Scala代码简洁优雅;(4)Scala支持高效的交互式编程;(5)Scala是Spark的开发语言。Spark是当前热门的大数据处理技术,开发Spark应用程序时,首选编程语言是Scala,因为Spark框架自身就是使用Scala语言开发的,用Scala语言编写Spark应用程序,可以获得最高的性能。Spark的流行也迅速提升了Scala的影响力。流计算框架Flink的部分模块也是使用Scala语言开发的,也可以使用Scala语言编写Flink应用程序。6.R语言R是专门为统计和数据分析开发的语言,具有数据建模、统计分析和可视化等功能,简单易上手。R语言主要具有如下优点:(1)免费开源。R的源代码可以自由下载使用,也有已编译的可执行文件版本可以下载。(2)简单易学。虽然R与其他程序设计语言相比结构相对松散,使用变量前不需要明确定义变量类型等,但是,仍然保留了程序设计语言的基础逻辑与自然的语言风格。(3)几乎兼容全部平台。除了支持OSX、Linux、Windows之外,甚至可以在iOS设备上编辑和运行R程序,还可以在iPhone等移动设备上安装R程序。(4)多领域的统计资源。学者和数据分析师开发了很多R语言包,涉及到统计的各个方面,资源很丰富。(5)出色的图形统计功能。除了基本统计直方图、折线图等,还可以绘制一些高级的图形,而这些是SPSS这类软件所不能匹敌的。总体而言,R和Python都是比较流行的数据分析语言。相对而言,数学和统计领域的工作者更多使用R语言,而计算机领域的工作者更多使用Python。大数据处理框架Spark也提供了对R语言的支持。1.10本章小结人类已经步入大数据时代,我们的生活被数据所“环绕”,并被数据深刻变革。作为大数据时代的公民,我们应该接近数据,了解数据,并利用好数据。因此,本章首先从数据入手,讲解了数据的概念、类型、组织形式、数据价值等内容,然后,把视角切入到大数据时代,介绍了大数据时代到来的背景及其发展历程。接下来,讨论了大数据的“4V”特性以及大数据对科学研究、社会发展、就业市场和人才培养的影响,并简要介绍了大数据在不同领域的应用和大数据产业。最后,对高校大数据专业的建设做了简要探讨。教案内容2.1云计算2.1.1云计算概念云计算概念:通过网络、以服务的方式,为千家万户提供非常廉价的IT资源云计算特点:超大规模计算、虚拟化、高可靠性和安全性、通用性、动态扩展性、按需服务、降低成本传统IT资源获取方式:自建机房(1)初期成本高,周期长(2)后期需要自己维护,使用成本高(3)IT资源供应量有限云计算:企业不需要自建IT基础设施,可以租用云端资源(1)初期零成本,瞬时可获得(2)后期免维护,使用成本低(3)在供应IT资源量方面“予取予求”2.1.2云计算服务模式和类型2.1.3云计算数据中心数据中心是云计算的温床。云计算推动数据中心向虚拟化和云架构的转型,不断提高IT基础架构的灵活性,以降低IT、能源和空间成本,从而让客户能够快速地提高业务敏捷性。2.1.4云计算的应用政务云上可以部署公共安全管理、容灾备份、城市管理、应急管理、智能交通、社会保障等应用,通过集约化建设、管理和运行,可以实现信息资源整合和政务资源共享,推动政务管理创新,加快向服务型政府转型教育云可以有效整合幼儿教育、中小学教育、高等教育以及继续教育等优质教育资源,逐步实现教育信息共享、教育资源共享及教育资源深度挖掘等目标中小企业云能够让企业以低廉的成本建立财务、供应链、客户关系等管理应用系统,大大降低企业信息化门槛,迅速提升企业信息化水平,增强企业市场竞争力。医疗云可以推动医院与医院、医院与社区、医院与急救中心、医院与家庭之间的服务共享,并形成一套全新的医疗健康服务系统,从而有效地提高医疗保健的质量。2.1.5云计算产业云计算产业作为战略性新兴产业,近些年得到了迅速发展,形成了成熟的产业链结构,产业涵盖硬件与设备制造、基础设施运营、软件与解决方案供应商、基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)、终端设备、云安全、云计算交付/咨询/认证等环节。2.2物联网2.2.1物联网的概念物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起,形成人与物、物与物相联,实现信息化和远程管理控制。图2-7物联网体系架构2.2.2物联网关键技术物联网中的关键技术包括识别和感知技术(二维码、RFID、传感器等)、网络与通信技术、数据挖掘与融合技术等。2.2.3物联网的应用物联网已经广泛应用于智能交通、智慧医疗、智能家居、环保监测、智能安防、智能物流、智能电网、智慧农业、智能工业等领域,对国民经济与社会发展起到了重要的推动作用。2.2.4物联网产业完整的物联网产业链主要包括核心感应器件提供商、感知层末端设备提供商、网络提供商、软件与行业解决方案提供商、系统集成商、运营及服务提供商等六大环节。物联网产业链2.3大数据与云计算、物联网的关系云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者既有区别又有联系。大数据、云计算和物联网之间的关系2.4大数据与人工智能2.4.1人工智能概念人工智能(ArtificialIntelligence),英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以与人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。2.4.2人工智能关键技术人工智能包含了机器学习、知识图谱、自然语言处理、人机交互、计算机视觉、生物特征识别、AR/VR等7个关键技术。1.机器学习强调三个关键词:算法、经验、性能,其处理过程如图所示。在数据的基础上,通过算法构建出模型并对模型进行评估。评估的性能如果达到要求,就用该模型来测试其他的数据;如果达不到要求,就要调整算法来重新建立模型,再次进行评估。如此循环往复,最终获得满意的模型来处理其他数据。2.知识图谱知识图谱(KnowledgeGraph)又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。3.自然语言处理自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理的应用包罗万象,例如:机器翻译、手写体和印刷体字符识别、语音识别、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等4.人机交互人机交互是一门研究系统与用户之间的交互关系的学科。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。人机交互是与认知心理学、人机工程学、多媒体技术、虚拟现实技术等密切相关的综合学科。5.计算机视觉计算机视觉是一门研究如何使机器“看”的科学,更进一步地说,是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量的机器视觉,并进一步做图形处理,成为更适合人眼观察或传送给仪器检测的图像。6.生物特征识别生物特征识别技术涉及的内容十分广泛,包括指纹、掌纹、人脸、虹膜、指静脉、声纹、步态等多种生物特征,其识别过程涉及到图像处理、计算机视觉、语音识别、机器学习等多项技术。7.VR/AR虚拟现实(VR)/增强现实(AR)是以计算机为核心的新型视听技术。结合相关科学技术,在一定范围内生成与真实环境在视觉、听觉、触感等方面高度近似的数字化环境。2.4.3人工智能的应用1.智能制造智能制造(IntelligentManufacturing,IM)是一种由智能机器和人类专家共同组成的人机一体化智能系统,它在制造过程中能进行智能活动,诸如分析、推理、判断、构思和决策等2.智能家居智能家居通过物联网技术将家中的各种设备(如音视频设备、照明系统、窗帘控制、空调控制、安防系统、数字影院系统、影音服务器、影柜系统、网络家电等)连接到一起,提供家电控制、照明控制、电话远程控制、室内外遥控、防盗报警、环境监测、暖通控制、红外转发以及可编程定时控制等多种功能和手段3.智能金融人工智能与金融的全面融合,以人工智能、大数据、云计算、区块链等高新科技为核心要素,全面赋能金融机构,提升金融机构的服务效率,拓展金融服务的广度和深度,使得全社会都能获得平等、高效、专业的金融服务,实现金融服务的智能化、个性化、定制化。人工智能在金融领域的应用如下:(1)智能获取客户(2)身份识别(3)大数据风控(4)智能投资顾问(5)智能客服(6)金融云4.智能交通智能交通是未来交通系统的发展方向,它是将先进的信息技术、数据通讯传输技术、电子传感技术、控制技术及计算机技术等有效地集成运用于整个地面交通管理系统而建立的一种在大范围内、全方位发挥作用的,实时、准确、高效的综合交通运输管理系统。5.智能安防智能安防是兼顾了整体城市管理系统、环保监测系统、交通管理系统、应急指挥系统等应用的综合体系。特别是车联网的兴起,在公共交通管理上、车辆事故处理上、车辆偷盗防范上可以更加快捷准确的跟踪定位处理。还可以随时随地的通过车辆获取更加精准的灾难事故信息、道路流量信息、车辆位置信息、公共设施安全信息、气象信息等等信息来源。6.智能医疗借助于物联网/云计算技术、人工智能的专家系统、嵌入式系统的智能化设备,可以构建起完善的物联网医疗体系,使全民平等地享受顶级的医疗服务,解决或减少由于医疗资源缺乏,导致看病难、医患关系紧张、事故频发等现象。7.智能物流使用智能搜索、推理规划、计算机视觉以及智能机器人等技术,实现货物运输过程的自动化运作和高效率优化管理,提高物流效率。8.智能零售人工智能在零售领域的应用已经十分广泛,无人便利店、智慧供应链、客流统计等等都是的热门方向。2.4.4人工智能产业1.智能基础设施建设(1)智能芯片(2)智能传感器(3)分布式计算框架2.智能信息和数据在人工智能数据采集、存储、处理和分析方面的企业主要有两种:一种是数据集提供商;另一种是数据采集、存储、处理和分析综合性厂商。3.智能技术服务提供人工智能的技术平台和算法模型提供人工智能的整体解决方案提供人工智能在线服务4.智能产品智能机器人智能运载工具智能终端自然语言处理计算机视觉生物特征识别VR/AR人机交互2.4.5大数据与人工智能的关系人工智能和大数据的百度指数1.人工智能与大数据的联系人工智能需要数据来建立其智能,特别是机器学习大数据技术为人工智能提供了强大的存储能力和计算能力2.人工智能与大数据的区别人工智能与大数据也存在着明显的区别,人工智能是一种计算形式,而大数据是一种传统计算,它不会根据结果采取行动,只是寻找结果二者要达成的目标和实现目标的手段不同2.5大数据与区块链2.5.1从比特币说起2008年10月31日,中本聪的比特币论文《比特币:一种点对点的电子现金系统》,2009年1月3日,在位于芬兰赫尔辛基的服务器上,至今匿名的神秘技术极客中本聪生成了第一个比特币区块,即所谓的比特币“创世区块”2.5.2区块链原理1.从记账开始讲起2.比特币要解决的第一个问题:防篡改3、在比特币的世界中如何进行交易4.比特币要解决的第二个问题:去中心化记账哈希函数的作用:将任意长度的字符串,转变成固定长度的输出(比如256位),输出的值就被称为哈希值。在每个区块上,增加区块头,其中记录了父区块的哈希值。通过每个区块存储父区块的哈希值,把所有区块按照顺序组织起来,形成区块链。比特币和区块链的本质:就是一个人人可见的大账本,只记录交易。核心技术:通过密码学+数据结构,保证账本记录不被篡改。核心功能:创造信任。法币依靠政府公信力,比特币依靠技术。中心化记账的缺点然而历史上所有由中心化机构记账的加密数字货币尝试,都失败了。中心化记账的缺点:1、拒绝服务攻击2、厌倦后停止服务3、中心机构易被攻击。比如破坏服务器、网络,监守自盗,法律终止,政府干预。所以比特币需要解决第二个问题:去中心化。去中心化记账:人人都可以记账,每个人都可以保留完整账本。任何人都可以下载开源程序,参与P2P网络,监听全世界发送的交易,成为记账节点,参与记账。去中心化记账流程1、某人发起一笔交易以后,他向全网广播2、每个记账节点,持续监听、传播全网的交易。收到一笔新交易,验证准确性以后,将其放入交易池,并继续向其他节点传播3、因为网络传播,同一时间,不同记账节点的交易池不一定相同4、每隔10分钟,从所有记账节点当中,按照某种方式抽取1名,将其交易池作为下一个区块,并向全网广播5、其他节点根据最新的区块中的交易,删除自己交易池中已经记录的交易,继续记账,等待下一次被选中2.5.3区块链定义区块链是利用块链式数据结构来验证与存储数据、利用分布式节点共识算法来生成和更新数据、利用密码学的方式保证数据传输和访问安全的一种全新的分布式基础架构与计算范式。区块链的三要素是交易、区块和链。交易:一次操作,导致账本状态的一次改变,如添加一条记录区块:记录一段时间内发生的交易和状态结果,是对当前账本状态的一次共识链:由一个个区块按照发生顺序串联而成,是整个状态变化的日志记录2.5.4区块链的应用从科技层面来看,区块链涉及数学、密码学、互联网和计算机编程等很多科学技术问题。从应用视角来看,简单来说,区块链是一个分布式的共享账本和数据库,具有去中心化、不可篡改、全程留痕、可以追溯、集体维护、公开透明等特点。这些特点保证了区块链的“诚实”与“透明”,为区块链创造信任奠定了坚实的基础。而区块链丰富的应用场景,基本上都基于区块链能够解决信息不对称问题,实现多个主体之间的协作信任与一致行动。金融领域、物流领域、物联网领域、版权保护、教育行业、数字政务、公益和慈善、实体资产、社交2.5.5大数据与区块链的关系1.大数据与区块链的区别(1)数据量。区块链技术是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式,区块链处理的数据量更小,是细致的处理方式。而大数据管理的是海量数据,要求广度和数量,处理方式上也会更粗糙。(2)结构化和非结构化。区块链是结构定义严谨的块,通过指针组成的链,是典型的结构化数据,而大数据需要处理的更多的是非结构化数据。(3)独立和整合。区块链系统为保证安全性,信息是相对独立的,而大数据的重点是信息的整合分析。(4)直接和间接。区块链是一个分布式账本,本质上就是一个数据库,而大数据指的是对数据的深度分析和挖掘,是一种间接的数据。(5)CAP理论。C(Consistency)是一致性,它是指任何一个读操作总是能够读到之前完成的写操作的结果,也就是在分布式环境中,多点的数据是一致的。A(Availability)是可用性,它是指快速获取数据,可以在确定的时间内返回操作结果。P(ToleranceofNetworkPartition)是分区容忍性,它是指当出现网络分区的情况时(即系统中的一部分节点无法和其他节点进行通信),分离的系统也能够正常运行。CAP理论告诉我们,一个分布式系统不可能同时满足一致性、可用性和分区容忍性这3个需求,最多只能同时满足其中2个,正所谓“鱼和熊掌不可兼得”。大数据通常选择实现AP,而区块链则选择实现CP。(6)基础网络。大数据底层的基础设施通常是计算机集群,而区块链则是基于P2P网络。(7)价值来源。对于大数据而言,数据是信息,需要从数据中提炼得到价值。而对于区块链而言,数据是资产,是价值的传承。(8)计算模式。在大数据的场景中,是把一件事情分给多个人做,比如,在MapReduce计算框架中,一个大型任务会被分解成很多个子任务,分配给很多个节点同时去计算。而在区块链的场景中,是让多个人重复做一件事情,比如,P2P网络中的很多个节点同时记录一笔交易。2.大数据与区块链的联系区块链的可信任性、安全性和不可篡改性,正在让更多数据被释放出来,区块链会对大数据产生深远的影响:(1)区块链使大数据极大降低信用成本(2)区块链是构建大数据时代的信任基石(3)区块链是促进大数据价值流通的管道2.6本章小结云计算、物联网、大数据、人工智能和区块链,代表了人类IT技术的最新发展趋势,五大技术深刻变革着我们的生产和生活。五种技术中,人工智能具有较长的发展历史,在上个世纪五六十年代就已经被提出,并在2016年附近迎来了又一次发展高潮。云计算、物联网和大数据在2010年附近迎来一次大发展,目前正在各大领域不断深化应用。区块链在2019年迅速崛起,引起广泛关注,其应用领域正在不断拓展。本章对云计算、物联网、人工智能和区块链做了简要的介绍,并且梳理了大数据与这四种技术的紧密关系。相信五种技术的融合发展、相互助力,一定会给人类社会的未来发展带来更多的新变化。教案内容第3章大数据基础知识本章介绍与培养大数据人才的数据素养息息相关的一系列大数据基础知识,包括大数据安全、大数据思维、大数据伦理、数据共享、数据开放、大数据交易等。3.1大数据安全本节首先介绍数据安全,并指出大数据安全与传统数据安全的不同,然后讨论大数据安全问题并给出相关的典型案例。3.1.1传统数据安全传统的数据安全的威胁主要包括以下3个方面:(1)计算机病毒(2)黑客攻击(3)数据信息存储介质的损坏3.1.2大数据安全与传统数据安全的不同大数据安全表现出与传统数据安全不同的特征,具体来说有以下几个方面:大数据成为网络攻击的显著目标、大数据加大隐私泄露风险、大数据技术被应用到攻击手段中、大数据成为高级可持续攻击(APT)的载体3.1.3大数据安全问题1.隐私和个人信息安全问题2.国家安全问题(1)大数据成为国家之间博弈的新战场(2)自媒体平台成为影响国家意识形态安全的重要因素3.1.4典型案例1.棱镜门事件2.维基解密3.Facebook数据滥用事件4.手机应用软件过度采集个人信息5.12306数据泄露6.免费WiFi窃取用户信息7.收集个人隐私信息的“探针盒子”3.2大数据思维本节首先介绍传统的思维方式,并指出大数据时代需要新的思维方式,然后介绍大数据思维方式,包括全样而非抽样、效率而非精确、相关而非因果、以数据为中心、“我为人人,人人为我”等,最后给出运用大数据思维的具体实例。3.2.1传统的思维方式机械思维第一,世界变化的规律是确定的,这一点从托勒密到牛顿大家都认可。第二,因为有确定性做保障,因此规律不仅是可以被认识的,而且可以用简单的公式或者语言描述清楚。这一点在牛顿之前,大部分人并不认可,而是简单地把规律归结为神的作用。第三,这些规律应该是放之四海而皆准的,可以应用到各种未知领域指导实践,这种认识是在牛顿之后才有的。3.2.2大数据时代需要新的思维方式不确定性在我们生活的世界里无处不在,由于不确定性是这个世界的重要特征,以至于我们按照传统的方法——机械论的方法,很难做出准确的预测世界的不确定性,折射出在信息时代的方法论:获得更多的信息,有助于消除不确定性,因此,谁掌握了信息,谁就能够获取财富,这就如同在工业时代,谁掌握了资本谁就能获取财富一样。数据学家认为,世界的本质是数据。通过采集、量化、计算、分析各种事物,来重新解释和定义这个世界,并通过数据来消除不确定性,对未来加以预测转变思维方式,努力把身边的事物量化,以数据的形式加以对待,这是实现大数据时代思维方式转变的“核心”3.2.3大数据思维方式大数据时代最大的转变就是思维方式的3种转变:全样而非抽样、效率而非精确、相关而非因果。此外,人类研究和解决问题的思维方式,正在朝着“以数据为中心”和“我为人人,人人为我”的方式迈进。1.全样而非抽样2.效率而非精确3.相关而非因果4.以数据为中心5.我为人人,人人为我3.2.4运用大数据思维的具体实例1.商品比价网站D2.啤酒与尿布3.零售商Target的基于大数据的商品营销4.吸烟有害身体健康的法律诉讼5.基于大数据的药品研发6.基于大数据的谷歌广告7.搜索引擎“点击模型”8.迪士尼MagicBand手环9.谷歌流感趋势预测10.大数据的简单算法比小数据的复杂算法更有效11.谷歌翻译3.3大数据伦理本节首先介绍大数据伦理的概念,然后给出大数据伦理典型案例,最后指出大数据的伦理问题。3.3.1大数据伦理概念“伦理”是指一系列指导行为的观念,是从概念角度上对道德现象的哲学思考。它不仅包含着对人与人、人与社会和人与自然之间关系处理中的行为规范,而且也深刻地蕴涵着依照一定原则来规范行为的深刻道理。科技伦理是指科学技术创新与运用活动中的道德标准和行为准则,是一种观念与概念上的道德哲学思考。它规定了科学技术共同体应遵守的价值观、行为规范和社会责任范畴。“大数据伦理问题”,就属于科技伦理的范畴,指的是由于大数据技术的产生和使用而引发的社会问题,是集体和人与人之间关系的行为准则问题。3.3.2大数据伦理典型案例1.大麦网“撞库”事件所谓的“撞库”是黑客通过收集互联网已泄露的用户和密码信息,生成对应的字典表,尝试批量登陆其他网站后,得到一系列可以登录的用户。很多用户在不同网站使用的是相同的帐号密码,因此黑客可以通过获取用户在A网站的账户从而尝试登录B网站,这就可以理解为撞库攻击。也就是说撞库简单的理解就是:黑客“凑巧”获取到了一些用户的数据(用户名密码),再应用到其他网站登录系统。2.大数据“杀熟”3.隐性偏差问题4.“信息茧房”问题3.3.3大数据的伦理问题1.隐私泄露问题大数据时代下的隐私与传统隐私的最大区别在于隐私的数据化,即隐私主要以“个人数据”的形式出现。而在大数据时代,个人数据随时随地可被收集,它的有效保护面临着巨大的挑战。进入大数据时代,就进入了一张巨大且隐形的监控网中,我们时刻被暴露在“第三只眼”的监视之下,并留下一条永远存在的“数据足迹”。这些直接被采集的数据,已经涉及到个人的很多隐私,此外,针对这些数据的二次使用,还会给个体带来更多的隐私权侵犯。2.数据安全问题一些信息技术本身就存在安全漏洞,可能导致数据泄露、伪造、失真等问题,影响数据安全。智能手机是当今泄漏用户数据的重要途径。部分智能家居产品存在安全问题也是不争的事实,给用户的数据安全带来了极大的风险,造成用户隐私的泄露。3.数字鸿沟问题数字鸿沟总是指向信息时代的不公平,尤其在信息基础设施、信息工具以及信息的获取与使用等领域,或者可以认为是信息时代的“马太效应”,即先进技术的成果不能为人公正分享,于是造成“富者越富、穷者越穷”的情况。4.数据独裁问题所谓的“数据独裁”是指在大数据时代,由于数据量的爆炸式增长,导致做出判断和选择的难度徒增,迫使人们必须完全依赖数据的预测和结论才能做出最终的决策。从某个角度来讲,就是让数据统治人类,使人类彻底走向唯数据主义。5.数据垄断问题企业掌握的数据量越多,越有利于发挥数据的作用,也越有利于最大化消费者福利和社会福利。有些企业为了获取更高的经济利益,而故意地不进行数据信息的共享,将所有的数据信息掌握在自己的手中,进行了大数据的垄断。因数据而产生的垄断问题,至少包括以下几类:一是数据可能造成进入壁垒或扩张壁垒,二是拥有大数据形成市场支配地位并滥用,三是因数据产品而形成市场支配地位并滥用,四是涉及数据方面的垄断协议,五是数据资产的并购。一旦大数据企业形成数据垄断,就会出现消费者在日常生活中被迫地接受服务及提供个人信息的情况。6.数据的真实可靠问题7.人的主体地位问题在一切皆数据的条件下,人的主体地位逐渐消失。3.4数据共享3.4.1数据孤岛问题1.政府的数据孤岛问题由于各政府部门建设数据库所采用的技术、平台及网络标准不统一,导致政府职能部门之间难以实现数据对接与共享。纵向上各级垂直管理部门建设的政府信息系统形成“数据烟囱”,横向上部门间各业务条块则自建系统形成“数据孤岛”,政府公共信息资源的存储彼此独立、管理分散。作为政府最重要资产之一的政务数据,因为数据量太大、太散、难以有效融合等问题,严重影响到了数据价值的发挥,大大浪费了各地政府部门在信息化系统建设方面的大量投入。2.企业的数据孤岛问题企业管理职能精细划分,信息系统围绕不同的管理阶段和管理职能展开,如客户管理系统、生产系统、销售系统、采购系统、订单系统、仓储系统和财务系统等,所有数据被封存在各系统中,让完整的业务链上孤岛林立,信息的共享、反馈难,数据孤岛问题是企业信息化建设中的最大难题。3.4.2数据孤岛问题产生的原因1.政府数据孤岛的产生原因有些政府部门错误地将数据资源等同于一般资源,认为占有就是财富,热衷于搜集,但不愿共享;有些部门只盯着自己的数据服务系统,结果因为数据标准、系统接口等技术原因,无法与外单位、外部门联通;还有些地方,对大数据缺乏顶层设计,导致各条线、各部门固有的本位主义作祟,壁垒林立,数据无法流动。2.企业数据孤岛的产生原因不同企业之间,属于不同的经营主体,有着各自的利益,彼此之间数据不共享,产生企业之间的数据孤岛,这种是比较普遍的情况。企业内部也往往会存在大量数据孤岛,这些数据孤岛的形成主要有两个方面的原因:以功能为标准的部门划分导致数据孤岛、不同类型、不同版本的信息化管理系统导致数据孤岛。3.4.3消除数据孤岛的重要意义1.对于政府的意义加强政府数据共享开放和大数据服务能力,促进跨领域、跨部门合作,推进数据信息交换,打破部门壁垒,遏制数据孤岛和重复建设,有助于提高行政效率,转变思维观念,推动传统的职能型政府转型为服务型智慧政府。政府数据共享的重要意义表现在以下两个方面:首先,有助于提升资源利用率;其次,有助于推动政府转型。2.对于企业的意义首先,打通企业内部的数据孤岛,实现所有系统数据互通共享,对建立企业自身的大数据平台和企业信息化建设都有重大意义。其次,打通企业之间的数据孤岛,实现不同企业的数据共享,有利于企业获得更好的经营发展能力。3.4.4实现数据共享所面临的挑战1.在政府层面的挑战不愿共享开放、不敢共享开放、不会共享开放、数据中心共享开放作用不强。2.在企业层面的挑战系统孤岛挑战、组织架构挑战、数据合作挑战。3.4.5推进数据共享开放的举措1.在政府层面的举措积极开放政府数据资源,提高政府职能部门之间和具有不同创新资源的主体之间的数据共享广度,促进区域内形成“数据共享池”。要改变政府职能部门“数据孤岛”现象,立足于数据资源的共享互换,设定相对明确的数据标准,实现部门之间的数据对接与共享,推进在制度创新方面的系统集成化,为科技创新提供必要条件。要促进准确及时的数据信息传递,提高部门条线管理、“一站式”企业网上办事和政府服务项目“一网通办”的网络信息功能,提高数据质量的可靠性、稳定性与权威性,增加相关信息平台的使用覆盖面,让现存数据“连起来”、“用起来”。2.在企业层面的举措在企业内部,破除“数据孤岛”,推进数据融合。在不同企业之间,建立企业数据共享联盟。3.4.6数据共享案例1.案例1:菜鸟物流2.案例2:政府一站式平台——i厦门3.案例3:浙江打通政府数据,让群众最多跑一次3.5数据开放3.5.1政府开放数据的理论基础1.数据资产理论在大数据时代,数据已经被当作一种重要的战略资源,也可以成为一种资产。数据资产是无形资产的延伸,是主要以知识形态存在的重要经济资源,是为其所有者或合法使用者提供某种权利、优势和效益的固定资产。数据资产的类型有很多,常见的数据资产包括书面技术新材料、数据与文档、技术软件、物理资产(主要指通信协议类)、员工与客户(包括竞争对手)、企业形象和声誉以及服务等。同其他资产一样,数据资产也是企业价值创造的工具和资本。作为现代企业和政府,拥有数据的规模、活性,以及收集、运用数据的能力,将决定企业和政府的核心竞争力。2.数据权理论数据权的概念发起于英国,主要将其视为信息社会的一项基本公民权利,让政府所拥有的数据集能够被公众申请和使用,并且按照标准公布数据。因此,早期的数据权理念强调的是公民利用信息的权利。随着数据的进一步开放,大型网络公司对于历史文献资料的数据化,商业集团对于客户资料的搜集,政府部门对于个人信息的调查与掌握,社会化媒体对于社会交往的渗透与呈现,使国家和政府加强了对数据主权的关注,并将其纳入到数据主权的范畴。数据主权源于信息主权。信息主权是国家主权在信息活动中的体现,国家对于政权管辖地域内任何信息的制造、传播和交易活动,以及相关的组织和制度拥有最高权力。数据权包括两个方面:数据主权和数据权利。数据主权的主体是国家,是一个国家独立自主对本国数据进行管理和利用的权力。数据权利的主体是公民,是相对应于公民数据采集义务而形成的对数据利用的权利,这种对数据的利用又是建立在数据主权之下的。只有在数据主权法定框架下,公民才可自由行使数据权利。公民的数据权利,是一项新兴的基本人权,它是信息时代的产物,是公民个人的基本权利。公民数据权的保护,不仅具有正当合理性,而且已经成为一种人权保障的世界性趋势。3.开放政府理论开放政府最早出现在20世纪50年代信息自由立法的介绍当中。1957年Park的论文“开放政府原则:依据宪法的知情权”中首次提出开放政府理念,其核心是关于信息自由方面的内容。随着很多国家对信息法案的修订,尤其在2009年奥巴马政府公布了《开放政府指令》后,开放政府的理论又被重新提起。2009年1月21日,在关于政府透明和开放化的备忘录上,奥巴马总统指示美国行政管理预算局局长发布一份《政府开放指令》,开放政府由此提出。自2009年开放政府理念被重新提起后,世界各国都在努力使用信息技术革新政府,并在2011年建立了以美国领导的“开放政府联盟”。3.5.2政府信息公开与政府数据开放的联系与区别政府信息公开与政府数据开放是一对既相互区别又相互联系的概念。政府信息公开主要是为了对公众知情权的满足而出现的,信息公开既可以理解为一项制度,又可以理解为一种行为。作为一项制度,主要是指国家和地方制定并用于规范和调整信息公开活动的法规规定;作为一种行为,主要是指掌握信息的主体,即行政机关、单位向不特定的社会对象发布信息,或者向特定的对象提供所掌握的信息的活动。政府数据开放是政府信息公开的嬗变必然,将开放对象延伸至原始数据的粒度。政府数据开放强调的是数据的再利用,公众可以分享数据利用创造的经济和社会价值,并且可以根据对数据的分析判断政府的决策是否合理。政府数据开放强调的是数据的再利用,公众可以分享数据利用创造的经济和社会价值,并且可以根据对数据的分析判断政府的决策是否合理。政府信息公开更侧重对与公众相关信息通过报纸、互联网、电视等媒体的发布,更强调程序公开,正义公开仍是难点。3.5.3政府数据开放的重要意义1.政府开放数据有利于促进开放透明政府的形成政府开放数据是更高层次的政府信息公开,而政府信息公开也将推动政府民主法治进程。如果说政府信息公开还是处于起步阶段,那么政府开放数据则是更高层次的政务公开。数据是政府手中的重要资源,政府开放数据的范围、程度、速度都代表着政府开放的程度。2.政府开放数据有利于创新创业和经济增长美国是气象灾害频发的国家,为减少气象灾害带来的严重损失,2014年3月,美国白宫宣布:将气象数据发布在D上,随后,与气象相关的企业服务应运而生,包括各种气象播报、气象顾问、气象保险等,形成了一个新的产业链,创造出了极高的经济价值。政府数据的再利用,在欧洲也创造出很高的经济价值。2010年欧盟公布的数据显示,欧洲利用政府公开的数据创造出的价值就达到320亿欧元,同时带来了更多的商业和就业机会。3.政府开放数据有利于社会治理创新政府数据的开放不仅打破了政府部门对数据的垄断,促进了数据价值的最大发挥,同时也构建起了政府同市场、社会、公众之间互动的平台。数据分享和大数据技术应用,不仅可以有效推动政府各部门在公共活动中实现协同治理,提高政府决策的水平,也能够充分调动各方的积极性来完成社会事务,实现社会治理机制的创新,给公众的生活带来便利,比如缓解交通压力、增强食品安全、解决环境污染等。3.6大数据交易3.6.1概述大数据交易应当是买卖数据的活动,是以货币为交易媒介获取数据这种商品的过程,具有3种特征:一是标的物受到严格的限制,只有经过处理之后的数据才能交易;二是涉及的主体众多,包括数据提供方、数据购买方、数据平台等;三是交易过程繁琐,涉及大数据的多个产业链,如数据源的获取、数据安全的保障、数据的后续利用等。目前进行数据交易的形式有以下几种:(1)大数据交易公司(2)数据交易所(3)API模式(4)其他大数据交易是大数据产业生态系统中的重要一环,与大数据交易相关的其他环节包括数据源、大数据硬件层、大数据技术层、大数据应用层、大数据衍生层等。3.6.2大数据交易发展现状数据交易由来已久,并不是最近几年才出现的新型交易方式。进入大数据时代以后,大数据资源愈加丰富。庞大的大数据资源为大数据交易的兴起奠定了坚实的基础。2014年以来,国内不仅出现了数据堂、京东万象、中关村数海、浪潮卓数、聚合数据等一批数据交易平台,各地方政府也成立了混合所有制形式的数据交易机构,包括贵阳大数据交易所、上海数据交易中心、长江大数据交易中心(武汉)、浙江大数据交易中心等。3.6.3大数据交易平台1.交易平台的类型大数据交易平台主要包括综合数据服务平台和第三方数据交易平台两种。综合数据服务平台为用户提供定制化的数据服务,由于需要涉及数据的处理加工,因此,该类型平台的业务相对复杂,国内大数据交易平台大多属于这种类型。而第三方数据交易平台业务则相对简单明确,主要负责对交易过程的监管,通常可以提供数据出售、数据购买、数据供应方查询以及数据需求发布等服务。2.交易平台的数据来源政府公开数据、企业内部数据、数据供应方数据、网页爬虫数据3.交易平台的产品类型API、数据包、云服务、解决方案、数据定制服务、数据产品4.交易平台涉及的主要领域国内外大数据交易平台产品涉及的主要领域包括政府、经济、教育、环境、法律、医疗、人文、地理、交通、通信、人工智能、商业、农业、工业等。了解交易平台产品涉及的主要领域,可以帮助用户根据自己的个性化需求有针对性地选择合适的交易平台。国内外交易平台基本上都涉及到多个领域,平台提供的多领域数据,可以较好满足目前广泛存在的用户对跨学科、跨领域数据的需求。5.平台的交易规则相对于国外的数据交易公司来说,国内的数据交易平台大多发布了成系统的总体规则,规定更详细,在很多方面也更严格。如《中关村数海大数据交易平台规则》、《贵阳大数据交易所702公约》、《上海数据交易中心(ChinaDEP)数据交易规则》等,以条文的形式对整个平台的运营体系、遵守原则都进行了详细规定,明确了交易主体、交易对象、交易资格、交易品种、交易格式、数据定价、交易融合和交易确权等内容。随着我国数据流通行业的发展,部分企业间已经推出了跨企业的数据交易规则或自律准则。可以说,目前我国建立广泛的数据流通行业自律公约的时机已经相对成熟,行业内部各企业对数据交易自律性协议的需求呼之欲出。6.交易平台的运营模式大数据交易平台的运营模式主要包括两种:一种是兼具中介和数据处理加工功能的交易平台;另一种是只具备中介功能的交易平台。7.代表性的大数据交易平台贵阳大数据交易所、上海数据交易中心、华东江苏大数据交易中心、浙江大数据交易中心。教案内容第4章大数据应用4.1大数据在互联网领域的应用4.1.1什么是推荐系统互联网的飞速发展使我们进入了信息过载的时代,搜索引擎可以帮助我们查找内容,但只能解决明确的需求。为了让用户从海量信息中高效地获得自己所需的信息,推荐系统应运而生。推荐系统是大数据在互联网领域的典型应用,它可以通过分析用户的历史记录来了解用户的喜好,从而主动为用户推荐其感兴趣的信息,满足用户的个性化推荐需求。推荐系统是自动联系用户和物品的一种工具,和搜索引擎相比,推荐系统通过研究用户的兴趣偏好,进行个性化计算。推荐系统可发现用户的兴趣点,帮助用户从海量信息中去发掘自己潜在的需求。4.1.2长尾理论推荐系统可以创造全新的商业和经济模式,帮助实现长尾商品的销售。“长尾”概念于2004年提出,用来描述以亚马逊为代表的电子商务网站的商业和经济模式。电子商务网站销售种类繁多,虽然绝大多数商品都不热门,但这些不热门的商品总数量极其庞大,所累计的总销售额将是一个可观的数字,也许会超过热门商品所带来的销售额。因此,可以通过发掘长尾商品并推荐给感兴趣的用户来提高销售额。这需要通过个性化推荐来实现。热门推荐是常用的推荐方式,广泛应用于各类网站中,如热门排行榜。但热门推荐的主要缺陷在于推荐的范围有限,所推荐的内容在一定时期内也相对固定。无法实现长尾商品的推荐。个性化推荐可通过推荐系统来实现。推荐系统通过发掘用户的行为记录,找到用户的个性化需求,发现用户潜在的消费倾向,从而将长尾商品准确地推荐给需要它的用户,进而提升销量,实现用户与商家的双赢。4.1.3推荐方法推荐系统的本质是建立用户与物品的联系,根据推荐算法的不同,推荐方法包括如下几类:专家推荐:人工推荐,由资深的专业人士来进行物品的筛选和推荐,需要较多的人力成本。基于统计的推荐:基于统计信息的推荐(如热门推荐),易于实现,但对用户个性化偏好的描述能力较弱。基于内容的推荐:通过机器学习的方法去描述内容的特征,并基于内容的特征来发现与之相似的内容。协同过滤推荐:应用最早和最为成功的推荐方法之一,利用与目标用户相似的用户已有的商品评价信息,来预测目标用户对特定商品的喜好程度。混合推荐:结合多种推荐算法来提升推荐效果。4.1.4推荐系统模型图推荐系统基本架构4.1.5推荐系统的应用目前推荐系统已广泛应用于电子商务、在线视频、在线音乐、社交网络等各类网站和应用中。如亚马逊网站利用用户的浏览历史记录来为用户推荐商品,推荐的主要是用户未浏览过,但可能感兴趣、有潜在购买可能性的商品。推荐系统在在线音乐应用中也逐渐发挥作用。音乐相比于电影数量更为庞大,个人口味偏向也更为明显,仅依靠热门推荐是远远不够的。虾米音乐网根据用户的音乐收藏记录来分析用户的音乐偏好,以进行推荐。例如,推荐同一风格的歌曲,或是推荐同一歌手的其他歌曲。4.2大数据在生物医学领域的应用4.2.1流行病预测从谷歌流感趋势看大数据的应用价值。“谷歌流感趋势”,通过跟踪搜索词相关数据来判断全美地区的流感情况。4.2.2智慧医疗1.促进优质医疗资源的共享2.避免患者重复检查3.促进医疗智能化4.2.3生物信息学生物信息学是研究生物信息的采集、处理、存储、传播、分析和解释等方面的学科,也是随着生命科学和计算机科学的迅猛发展、生命科学和计算机科学相结合形成的一门新学科,它通过综合利用生物学、计算机科学和信息技术,揭示大量而复杂的生物数据所蕴含的生物学奥秘。和互联网数据相比,生物信息学领域的数据更是典型的大数据。生物大数据使得我们可以利用先进的数据科学知识,更加深入地了解生物学过程、作物表型、疾病致病基因等。用大数据分析技术,可以从个人健康档案中有效预测个人健康趋势,并为其提供疾病预防建议,达到“治未病”的目的。4.2.4案例:基于大数据的综合健康服务平台目标:构建覆盖全生命周期、内涵丰富、结构合理的以人为本全面连续的综合健康服务体系,利用大数据技术和智能设备技术,提供线上线下相结合的公众健康服务,实现“未病先防、已病早治、既病防变、愈后防复”,满足社会公众多层次、多方位的健康服务需求,提升人民群众的身心健康水平。4.3大数据在物流领域的应用4.3.1智能物流的概念智能物流,又称智慧物流,是利用集成智能化技术,使物流系统能模仿人的智能,具有思维、感知、学习、推理判断和自行解决物流中某些问题的能力,从而实现物流资源优化调度和有效配置、物流系统效率提升的现代化物流管理模式。4.3.2智能物流的作用(1)提高物流的信息化和智能化水平(2)降低物流成本和提高物流效率(3)提高物流活动的一体化4.3.3智能物流的应用国内许多城市都在围绕智慧港口、多式联运、冷链物流、城市配送等方面,着力推进物联网在大型物流企业、大型物流园区的系统级应用。还可以将射频标签识别技术、定位技术、自动化技术以及相关的软件信息技术,集成到生产及物流信息系统领域,探索利用物联网技术实现物流环节的全流程管理模式,开发面向物流行业的公共信息服务平台,优化物流系统的配送中心网络布局,集成分布式仓储管理及流通渠道建设,最大限度地减少物流环节、简化物流过程,提高物流系统的快速反应能力。此外,还可以进行跨领域信息资源整合,建设基于卫星定位、视频监控、数据分析等技术的大型综合性公共物流服务平台,发展供应链物流管理。4.3.4大数据是智能物流的关键在物流领域有两个著名的理论——“黑大陆说”和“物流冰山说”。这两个理论都旨在说明物流活动的模糊性和巨大潜力。发现隐藏在海量数据背后的有价值的信息,是大数据的重要商业价值。大数据是打开物流领域这块神秘的“黑大陆”的一把金钥匙。大数据将推动物流行业从粗放式服务到个性化服务的转变,颠覆整个物流行业的商业模式。4.3.5中国智能物流骨干网——菜鸟智能物流案例:阿里巴巴的中国智能物流骨干网(地网)菜鸟网络到底是什么?中国智能物流骨干网,又名“菜鸟”,菜鸟网络计划在5到8年内,打造一个全国性的超级物流网。这个网络能在24小时内将货物运抵国内任何地区,能支撑日均300亿元(年度约10万亿元)的巨量网络零售额。1000亿元投资物流基础设施,强强联手共建智能骨干网络。物流信息系统向所有的制造商、网商、快递公司、第三方物流公司完全开放。4.4大数据在城市管理领域的应用4.4.1智能交通智能交通将先进的信息技术、数据通信传输技术、电子传感技术、控制技术以及计算机技术等,有效集成并运用于整个地面交通管理,同时可以利用城市实时交通信息、社交网络和天气数据来优化最新的交通情况。4.4.2环保监测1.森林监视2.环境保护大数据已经被广泛应用于污染监测领域,借助大数据技术,采集各项环境质量指标信息,集成整合到数据中心进行数据分析,并把分析结果用于指导下一步环境治理方案的制定,可以有效提升环境整治的效果。中国水污染地图中国空气污染地图中国固废污染地图汽车尾气污染治理4.4.3城市规划利用地理数据可以研究全国城市扩张模拟、城市建成区识别。利用公交IC卡数据,可以开展城市居民通勤分析、职住分析、人的行为分析、人的识别、重大事件影响分析、规划项目实施评估分析​等。利用移动手机通话数据,可以研究城市联系、居民属性、活动关系及其对城市交通的影响。利用社交网络数据,可以研究城市功能分区、城市网络活动与等级、城市社会网络体系等。利用出租车定位数据,可以开展城市交通研究。利用搜房网的住房销售和出租数据,同时结合网络爬虫获取的居民住房地理位置和周边设施条件数据,就可以评价一个城区的住房分布和质量情况。4.4.4安防领域中国的很多城市都在开展平安城市建设,在城市的各个角落密布成千上万个摄像头,7×24小时不间断采集各个位置的视频监控数据,数据量之大,超乎想象。除了视频监控数据,安防领域还包含大量其他类型的数据,包括结构化、半结构化和非结构化数据。4.4.5疫情防控(1)大数据助力疫情防控(2)大数据精准资源调配(3)大数据护航复工复产4.5大数据在金融领域的应用4.5.1高频交易高频交易(High-FrequencyTrading,HFT)是指从那些人们无法利用的极为短暂的市场变化中寻求获利的计算机化交易,比如,某种证券买入价和卖出价差价的微小变化,或者某只股票在不同交易所之间的微小价差。为了从高频交易中获得更高的利润,一些金融机构开始引入大数据技术来决定交易。4.5.2市场情绪分析市场情绪分析是交易者在日常交易工作中不可或缺的一环,根据市场情绪分析、技术分析和基本面分析,可以帮助交易者做出更好的决策。大数据技术在市场情绪分析中大有用武之地。4.5.3信贷风险分析大数据分析技术已经能够为企业信贷风险分析助一臂之力。通过收集和分析大量中小微企业用户日常交易行为的数据,判断其业务范畴、经营状况、信用状况、用户定位、资金需求和行业发展趋势,解决由于其财务制度的不健全而无法真正了解其真实经营状况的难题,让金融机构放贷有信心、管理有保障。4.5.4大数据征信大数据征信就是利用信息技术优势,将不同信贷机构、消费场景、支离破碎的海量数据整合起来,经过数据清洗、模型分析、校验等一系列流程后,加工融合成真正有用的信息。4.6大数据在汽车领域的应用为了实现无人驾驶的功能,谷歌无人驾驶汽车上配备了大量传感器,包括雷达、车道保持系统、激光测距系统、红外摄像头、立体视觉、GPS导航系统、车轮角度编码器等,这些传感器每秒产生1GB数据,每年产生的数据量将达到约2PB。大数据分析技术将帮助无人驾驶系统做出更加智能的驾驶动作决策,比人类驾车更加安全、舒适、节能、环保。4.7大数据在零售领域的应用4.7.1发现关联购买行为4.7.2客户群体细分4.7.3供应链管理4.8大数据在餐饮领域的应用4.8.1餐饮行业拥抱大数据4.8.2餐饮O2O:餐饮O2O(OnlineToOffline)模式是指无缝整合线上线下资源,形成以数据驱动的O2O闭环运营模式。1.大数据驱动的团购模式2.利用大数据为用户推荐消费内容3.利用大数据调整线下门店布局4.利用大数据控制店内人流量4.9大数据在电信领域的应用预测客户行为,发现行为趋势,并找出公司服务过程中存在缺陷的环节,从而帮助公司及时采取措施保留客户。4.10大数据在能源领域的应用智能电网的发展,离不开大数据技术的发展和应用,大数据技术是组成整个智能电网的技术基石。4.11大数据在体育和娱乐领域的应用4.11.1训练球队:大数据可以有效帮助一支球队进一步提升整体实力和水平。4.11.2投拍影视作品4.11.3预测比赛结果:大数据可以预测比赛结果却是具有一定的科学根据的,它用数据来说话,通过对海量相关数据进行综合分析,得出一个预测判断。本质上而言,大数据预测就是基于大数据和预测模型去预测未来某件事情的概率。利用大数据预测比赛结果,将对人们生活产生深刻的影响。4.12大数据在安全领域的应用4.12.1大数据与国家安全4.12.2应用大数据技术防御网络攻击云计算和大数据的出现,为网络安全产品带来了深刻的变革。今天,基于云计算和大数据技术的云杀毒软件,已经广泛应用于企业信息安全保护。云杀毒通过网状的大量客户端对网络中软件行为的异常监测,获取互联网中木马、恶意程序的最新信息,传送到云端,利用先进的云计算基础设施和大数据技术进行自动分析和处理,能及时发现未知病毒代码、未知威胁、0day漏洞等恶意攻击,再把病毒和木马

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论