版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能与大数据——
大数据及其相关技术人工智能与大数据在新培养计划中,是一门面向非计算机类专业学生的普适课程目的了解这个信息化时代了解最新的信息技术进入21世纪,人类全面迈向一个信息时代在新的世纪里,信息技术已成为其他高新技术的先导,可以为其他高新技术的发展提供了最新知识和技术的基础2人工智能与大数据在新培养计划中,是一门面向非计算机类专业学生的普适课程目的能够使用大数据思维去看待行业发展具备把新信息技术引入到行业发展中的思路创造新的行业发展模式信息技术与信息产业的发展水平,已成为衡量一个国家现代化和综合国力的重要标志3信息技术的发展催生大数据的产生网络技术电话线拨号+“猫”几K、几十KADSL宽带1999年/ADSL:1Mbps/8MbpsADSL2+:24Mbps光纤网络逐渐普及几十M、几百M、千M4信息技术的发展催生大数据的产生移动通信1G:即第一代移动通信技术,20世纪80年代,仅限语音、模拟信号,2.4Kbit/s只有“国家标准”,没有“国际标准”我国采用了英国的TACS全入网通信系统技术2G:20世纪90年代,数字调制技术,语音和短信息,115~384Kbit/s全球移动通信系统GSM我国1995年开始建设GSM网络,发展了近2.8亿用户,超过固定电话用户数,展现了占据世界移动通信领域一极的潜力5信息技术的发展催生大数据的产生移动通信3G:能够处理图像、音乐、视频等,全球漫游,2Mbps欧洲WCDMA,源于GSM网络,最好3G技术美国CDMA2000,高通提出中国TD-SCDMA,大唐电信开发,中国第一个国际通信标准4G:终端设备智能化,接口开放,集3G与WLAN于一体,移动互联,100Mbps中国TD-LTE-Advanced欧洲标准化组织FDD-LTE-Advance中国4G基站占全球70%6信息技术的发展催生大数据的产生移动通信5G:快速,泛在——万物互联,低功耗、低时延5G投票结果:第一种是华为的POLAR技术用于短码,第二种是高通的LDPC技术用于长码速度高达10Gbps2019年6月6日,中国正式下发5G牌照7信息技术的发展催生大数据的产生互联网+“互联网+”简单的说就是“互联网+传统行业”,利用信息和互联网平台,使得互联网与传统行业进行融合,利用互联网具备的优势特点,创造新的发展机会。2015年7月4日,国务院印发《国务院关于积极推进“互联网+”行动的指导意见》。2020年5月22日,国务院政府工作报告中提出,全面推进“互联网+”,打造数字经济新优势。
8信息技术的发展催生大数据的产生物联网是一个基于互联网、传统电信网等的信息承载体,它让所有能够被独立寻址的普通物理对象形成互联互通的网络。9信息技术的发展催生大数据的产生40ZB,1ZB=109TB1040000大数据概述从“数据”到“大数据”时至今日,“数据”变身“大数据”,“开启了一次重大的时代转型”。“大数据”这一概念的形成,有三个标志性事件:2008年9月,美国《自然》(Nature)杂志专刊——Thenextgoogle,第一次正式提出“大数据”概念。2011年2月1日,《科学》(Science)杂志专刊——Dealingwithdata,通过社会调查的方式,第一次综合分析了大数据对人们生活造成的影响,详细描述了人类面临的“数据困境”。2011年5月,麦肯锡研究院发布报告——Bigdata:Thenextfrontierforinnovation,competition,andproductivity,第一次给大数据做出相对清晰的定义。11大数据概述大数据(bigdata)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。时间上常规技术和方法随机分析法传统计算机技术“新”12大数据概述特征海量性全球的数据资料存储量到2020年将达到40ZB,比先前的预估高出14%;其中中国将占全球数据产量的22%40ZB的数据量约等于地球上沙滩上所有沙粒总和的47倍;如果把40ZB全存到蓝光光碟中,光碟的重量将与424台尼米兹(Nimitz)级航母相当;或是平均每人拥有5247GB的数据量13
1MB(Megabyte兆字节简称“兆”)=1024KB,
1GB(Gigabyte吉字节又称“千兆”)=1024MB,
1TB(Trillionbyte万亿字节太字节)=1024GB,
1PB(Petabyte千万亿字节拍字节)=1024TB,
1EB(Exabyte百亿亿字节艾字节)=1024PB,
1ZB(Zettabyte十万亿亿字节泽字节)=1024EB大数据概述特征多样性结构化数据、半结构化数据和非结构化数据非结构化的数据已占到数据总量的90%新型多结构数据,包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等来自信息管理系统、网络信息系统、物联网系统、科学实验系统等重要特征“人自身的生活行为也在不断创造大量数据”14大数据概述特征快速性随着现代感测、互联网、计算机技术的发展,数据生成、储存、分析、处理的速度远远超出人们的想象力,这是大数据区别于传统数据或小数据的显著特征价值密度低,但高价值大数据有巨大的潜在价值,但同其呈几何指数爆发式增长相比,某一对象或模块数据的价值密度较低,这无疑给我们开发海量数据增加了难度和成本啤酒和尿布谷歌与流感15大数据概述“用数据说话”、“让数据发声”,已成为人类认知世界的一种全新方法。16美国著名管理学家爱德华·戴明所言:“我们信靠上帝。除了上帝,任何人都必须用数据来说话。”(1)有数据可说在大数据时代,“万物皆数”,“量化一切”,“一切都将被数据化”。人类生活在一个海量、动态、多样的数据世界中,数据无处不在、无时不有、无人不用,数据就像阳光、空气、水分一样常见,好比放大镜、望远镜、显微镜那般重要。(2)说数据可靠大数据中的“数据”真实可靠,它实质上是表征事物现象的一种符号语言和逻辑关系,其可靠性的数理哲学基础是世界同构原理。世界具有物质统一性,统一的世界中的一切事物都存在着时空一致性的同构关系。这意味着任何事物的属性和规律,只要通过适当编码,均可以通过统一的数字信号表达出来。大数据概述来源17互联网每天产生的全部内容可以刻满6.4亿张DVDGoogle每天需要处理24PB的数据网民每天在Facebook上要花费234亿分钟,被移动互联网使用者发送和接收的数据高达44PB全球每秒发送290万封电子邮件,一分钟读一篇的话,足够一个人昼夜不停地读5.5年每天会有2.88万个小时的视频上传到YouTube,足够一个人昼夜不停地观看3.3年Twitter上每天发布5000万条消息,假设10秒就浏览一条消息,足够一个人昼夜不停地浏览16年大数据概述来源18随着人类活动的进一步扩展,数据规模会急剧膨胀,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的各行业累积的数据量越来越大,数据类型也越来越多、越来越复杂,已经超越了传统数据管理系统、处理模式的能力范围,于是“大数据”这样一个概念才会应运而生。大数据概述来源19按产生数据的主体划分1)少量企业应用产生的数据如关系型数据库中的数据和数据仓库中的数据等。2)大量人产生的数据如推特、微博、通信软件、移动通信数据、电子商务在线交易日志数据、企业应用的相关评论数据等。3)巨量机器产生的数据如应用服务器日志、各类传感器数据、图像和视频监控数据、二维码和条形码(条码)扫描数据等。01大数据概述来源20按数据存储的形式划分大数据不仅仅体现在数据量大,还体现在数据类型多。如此海量的数据中,仅有20%左右属于结构化的数据,80%的数据属于广泛存在于社交网络、物联网、电子商务等领域的非结构化数据。结构化数据简单来说就是数据库,如企业ERP、财务系统、医疗HIS数据库、教育一卡通、政府行政审批、其他核心数据库等数据。非结构化数据包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频、视频信息等数据。02大数据概述来源21按数据来源的行业划分1)以BAT为代表的互联网公司百度公司数据总量超过了千PB级别,阿里巴巴公司保存的数据量超过了百PB级别,拥有90%以上的电商数据,腾讯公司总存储数据量经压缩处理以后仍然超过了百PB级别,数据量月增加达到10%。2)电信、金融、保险、电力、石化系统电信行业数据年度用户数据增长超过10%,金融每年产生的数据超过数十PB,保险系统的数据量也超过了PB级别,电力与石化方面,仅国家电网采集获得的数据总量就达到了数十PB,石油化工领域每年产生和保存下来的数据量也将近百PB级别。3)公共安全、医疗、交通领域一个中、大型城市,一个月的交通卡口记录数可以达到3亿条;整个医疗卫生行业一年能够保存下来的数据就可达到数百PB级别;航班往返一次产生的数据就达到TB级别;列车、水陆路运输产生的各种视频、文本类数据,每年保存下来的也达到数十PB。
03大数据概述来源22按数据来源的行业划分4)气象、地理、政务等领域中国气象局保存的数据将近10PB,每年约增数百TB;各种地图和地理位置信息每年约数十PB;政务数据则涵盖了旅游、教育、交通、医疗等多个门类,且多为结构化数据。5)制造业和其他传统行业制造业的大数据类型以产品设计数据、企业生产环节的业务数据和生产监控数据为主。其中产品设计数据以文件为主,非结构化,共享要求较高,保存时间较长;企业生产环节的业务数据主要是数据库结构化数据,而生产监控数据则数据量非常大。在其他传统行业,虽然线下商业销售、农林牧渔业、线下餐饮、食品、科研、物流运输等行业数据量剧增,但是数据量还处于积累期,整体体量都不算大,多则达到PB级别,少则数十TB或数百TB级别。
03大数据概述来源23常用的大数据获取途径1)系统日志采集可以使用海量数据采集工具,用于系统日志采集,如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等,这些工具均采用分布式架构,能满足大数据的日志数据采集和传输需求。043)APP移动端数据采集APP是获取用户移动端数据的一种有效方法,APP中的SDK插件可以将用户使用APP的信息汇总给指定服务器,即便用户在没有访问时,也能获知用户终端的相关信息,包括安装应用的数量和类型等。单个APP用户规模有限,数据量有限;但数十万APP用户,获取的用户终端数据和部分行为数据也会达到数亿的量级。4)与数据服务机构进行合作数据服务机构通常具备规范的数据共享和交易渠道,人们可以在平台上快速、明确地获取自己所需要的数据。而对于企业生产经营数据或学科研究数据等保密性要求较高的数据,也可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。2)互联网数据采集通过网络爬虫或网站公开API等方式从网站上获取数据信息,该方法可以数据从网页中抽取出来,将其存储为统一的本地数据文件,它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。除了网站中包含的内容之外,还可以使用DPI或DFI等带宽管理技术实现对网络流量的采集。大数据概述应用场景用户画像人在网络世界中的行为集合代表了他在网络世界中的“性格”,这个集合就描述了他的网络个性和用户特征(UserProfile)。从数据拥有者,也就是企业角度来看,他们掌握了所有用户在网络世界中“某方面”的行为习惯,如用户浏览了哪些网页、搜索了哪些关键词、购买了哪些商品、留下了哪些评价等,企业都会收集汇总。如何将如此庞杂的数据转换为商业价值,成为现在企业越来越关注的问题。面对高质量、多维度的海量数据,如何建立精准的用户模型就显得尤为重要,用户画像的概念也就应运而生。24大数据概述应用场景用户画像价值25精准营销用户统计数据挖掘效果评估指导产品研发优化用户体验大数据概述应用场景推荐系统个性化推荐在我们的生活中无处不在。早餐买了几根油条,老板就会顺便问一下需不需要再来一碗豆浆;去买帽子的时候,服务员会推荐围巾。随着互联网的发展,这种线下推荐也逐步被搬到了线上,成为各大网站吸引用户、增加收益的法宝。26大数据概述应用场景互联网金融互联网金融是指以依托于支付、云计算、社交网络以及搜索引擎等互联网工具,实现资金融通、支付和信息中介等业务的一种新兴金融。互联网金融是在实现安全、移动等网络技术水平上,被用户熟悉接受后自然而然为适应新的需求而产生的新模式及新业务。27“三步走战略”——平台、数据、金融平台、数据、金融相互影响的格局在这种形势下破局的点在哪里?就在于连接平台、用户、金融等方面的工具——大数据大数据概述行业大数据28环境教育行业医疗行业农业智慧城市零售行业金融行业大数据概述行业大数据环境大数据29互联网技术、物联网技术巨大发展前景迅猛发展环境信息化高速发展期国家环保部门重视通过方案积极建设环境数据服务和环保云平台国家发展还是市场需求大数据概述行业大数据环境大数据环境数据都是海量的,信息具有很强的时间和空间特征30在时间维度上,环境数据可分为历史数据和实时数据,而各种预报系统则可以产生预报数据。在空间维度上,跟地理位置有关。如:各省级环保部门——传统环境数据监测大量布建低成本的空气质量环境监测设备大数据概述行业大数据环境大数据31环境数据的来源各类传感器产生的环境数据政府部门,权威机构环境监测系统对外提供的数据服务各类第三方环境数据源政府职能部门,环保机构和非政府组织发表的与环境有关的报告大数据概述行业大数据环境大数据32环境预测数据中国天气网每日发布的天气预报环境云大数据平台与南京大学大气科学学院大气环境研究中心联合发布的每日空气质量趋势预报中央气象台每小时发布的城市天气实况第三方环境数据平台PM25.in每小时更新的全国空气质量实况环境实况数据各类网站国家环保部数据中心公众环境研究中心各类环境传感器大数据概述行业大数据环境大数据33大数据概述行业大数据环境大数据34大数据概述35大数据的技术支撑人工智能概述人工智能与大数据“大数据时代的到来,使得人工智能行业复苏”规律人工智能(AI):它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。探索智能的实质生产能与人类智能相似的方式做出反应的智能机器世界三大尖端技术之一(基因工程、纳米科学、人工智能)36人工智能概述人机大战棋类游戏一直被视为顶级人类智力及人工智能的试金石国际象棋世界冠军加里·卡斯帕罗夫对国际象棋人工智能程序“深蓝”的国际象棋比赛在1997年的国际象棋人机大战中,国际象棋人工智能首次以总比分战胜国际象棋顶尖棋手围棋是最后的阵地2016年3月,阿尔法以总比分4比1战胜李世石2017年5月,阿尔法以总比分3比0战胜柯洁37人工智能概述人工智能与阿尔法围棋阿尔法围棋自我学习的过程结合了数百万人类围棋专家的棋谱,以及强化学习的监督学习进行了自我训练。神经网络大脑结合了监督学习和强化学习,训练形成策略网络(policynetwork),将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布训练出一个价值网络(valuenetwork)对自我对弈进行预测,预测所有可行落子位置的结果38云计算概述大数据存储计算大数据和云计算一体两面大数据是云计算的处理对象云计算是大数据的处理工具39G=f(x)我们的目标云计算大数据云计算技术云计算定义长定义云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。短定义云计算是通过网络按需提供可动态伸缩的廉价计算服务。40云计算技术云计算的7个特点41超大规模虚拟化高可靠性通用性高可伸缩性按需服务极其廉价云计算技术云计算按服务类型大致分为三类42将软件作为服务SaaS(SoftwareasaService)将平台作为服务PaaS(PlatformasaService)将基础设施作为服务IaaS(InfrastructureasaService)针对性更强,它将某些特定应用软件功能封装成服务如:SalesforceonlineCRM对资源的抽象层次更进一步,提供用户应用程序运行环境如:GoogleAppEngineMicrosoftWindowsAzure将硬件设备等基础资源封装成服务供用户使用如:AmazonEC2/S3专用通用云计算技术国外云计算的先行者43率先在全球提供了弹性计算云EC2(ElasticComputingCloud)和简单存储服务S3(SimpleStorageService),为企业提供计算和存储服务。收费的服务项目包括存储空间、带宽、CPU资源以及月租费。AWS服务的种类非常齐全全球用户数量已经超过100万云计算技术国外云计算的先行者44最大的云计算技术的使用者谷歌搜索引擎就建立在分布在200多个站点、超过100万台的服务器的支撑之上,而且这些设施的数量正在迅猛增长发表学术论文的形式公开其云计算三大法宝:GFS、MapReduce和Bigtable,并在美国、中国等高校开设如何进行云计算编程的课程采用GoogleDocs之类的应用,用户数据会保存在互联网上的某个位置,可以通过任何一个与互联网相连的终端十分便利地访问和共享这些数据谷歌已经允许第三方在谷歌的云计算中通过GoogleAppEngine运行大型并行应用程序云计算技术国外云计算的先行者45微软于2008年10月推出了WindowsAzure操作系统。Azure(译为“蓝天”)是继Windows取代DOS之后,微软的又一次颠覆性转型。微软的云平台包括几十万台服务器.在中国,微软2014年3月27日宣布由世纪互联负责运营的MicrosoftAzure公有云服务正式商用,这是国内首个正式商用的国际公有云服务平台。Azure的底层是微软全球基础服务系统,由遍布全球的第四代数据中心构成。微软将为WindowsA
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工作人员中应当遵守回避制度
- 2026汕尾市专职消防员招聘考试题库及答案
- 2026三明市辅警招聘面试题及答案
- 物理光学题目及答案初二
- 内蒙古呼和浩特市 2026 届高三年级第二次质量数据监测政治+答案
- 用户反馈渠道畅通快速响应
- 2026年下棋规则幼儿园
- 2026年奶油的分类幼儿园
- 2026年幼儿园防意外课件
- 2026年幼儿园干净的水果
- 2026届高考地理三轮培优复习 海水性质与海水运动
- 2025年上海市公安机关辅警招聘(面试)复习题及答案
- 2026年及未来5年市场数据中国动物模型行业发展运行现状及投资潜力预测报告
- 电网检修工程预算定额(2020年版)全5册excel版
- 儿童自闭症康复机构运营方案
- 2025年新疆克拉玛依市初中学业水平模拟测试道德与法治、历史试卷卷-初中道德与法治
- 2026年广东省佛山市顺德区中考语文一模试卷
- 足疗店内部劳动保障制度
- 最全医疗机构基本标准(试行)2023年
- GB/T 14916-2022识别卡物理特性
- GB/T 19835-2005自限温伴热带
评论
0/150
提交评论