《人工智能通识基础》课件 第6章 大数据基础与应用_第1页
《人工智能通识基础》课件 第6章 大数据基础与应用_第2页
《人工智能通识基础》课件 第6章 大数据基础与应用_第3页
《人工智能通识基础》课件 第6章 大数据基础与应用_第4页
《人工智能通识基础》课件 第6章 大数据基础与应用_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据基础与应用人工智能通识基础1.大数据的定义2.大数据的特性3.大数据架构4.大数据技术5.数据可视化6.云计算目录Contents大数据的定义01案例导入假设你是一家大型超市的经理。你每天要处理成千上万顾客的购物数据。这些数据包括顾客买了什么、什么时候买的、花了多少钱等等。你可以让收银员记录下每一笔交易。你会用电脑系统把它们存起来。你可能会想知道哪种商品卖得最好,或者顾客最喜欢在哪个时间段购物。有了这些分析结果,你就可以做出更好的决策,比如多进一些卖得好的商品,或者调整营业时间来吸引更多顾客。1大数据的定义什么是大数据?大数据(BigData)的定义为是指无法通过主流软件工具在合理时间内进行捕捉、管理、处理的海量、高增长率和多样化的信息资产。指规模巨大、类型复杂多样,在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。大数据涉及的数据量通常以TB(太字节)、PB(拍字节)或EB(艾字节)为单位,甚至更高。1.1大数据的诞生1998年,谷歌创始人拉里·佩奇和谢尔盖·布林在斯坦福大学攻读博士学位时,提出了一种新的网页排序算法PageRank,这标志着大数据技术在互联网领域的首次应用。PageRank算法通过分析网页之间的链接关系来确定网页的重要性,这一创新的技术为后来的搜索引擎优化和网络营销奠定了基础。1.2大数据的历史脉络与发展阶段1.3大数据的核心作用大数据的核心作用在于其强大的决策支持能力,它通过分析海量数据揭示出潜在的模式和趋势,从而为企业和组织提供了前所未有的洞察力。企业能更好地理解市场需求,预测市场趋势,制定更有效的营销策略和产品开发计划。供应链管理中,大数据可以帮助企业预测库存需求,优化物流,减少浪费。金融机构能够识别和预防潜在的欺诈行为,降低信贷风险。医疗领域中的大数据有助于疾病预测、个性化治疗计划的制定,及药物研发的加速。总之,大数据的影响深远,它不仅改变了我们处理信息的方式,还推动了各行各业的数字化转型,成为现代社会不可或缺的一部分。1.4大数据在人工智能中的角色大数据为人工智能提供了丰富的“燃料”。大数据与人工智能的结合,使得人工智能可以更好地理解和预测人类行为、提高决策效率、提高生产力和生活质量。大数据不仅是人工智能的基石,也是推动人工智能应用深化的关键。大数据与人工智能的交汇不仅推动了技术的进步,也为社会经济的发展带来了新的动力。随着大数据技术的不断发展和创新,我们可以预见,随着技术的不断发展和应用的深入,大数据与人工智能的结合将在未来发挥更加重要的作用,推动各行各业实现数字化转型和智能化升级。大数据的特性022大数据的特性2.1大数据的数据量(Volume)大数据的“数据量”特性指的是数据的规模和数量,通常从TB(太字节)到PB(拍字节)甚至更多。这一特性要求使用高效的存储和处理技术,如分布式存储系统和并行计算框架。在金融领域,中国交通银行信用卡中心实施了一个电子渠道实时反欺诈监控交易系统。该系统通过实时接收电子渠道交易数据,并整合银行内系统业务数据,以实现快速建模、实时告警与在线智能监控报表等功能。系统利用分布式实时数据采集技术和实时决策引擎,帮助信用卡中心高效整合多系统业务数据,处理海量高并发线上行为数据,识别恶意用户和欺诈行为,并实时预警和处置。通过引入机器学习框架,对少量数据进行分析、挖掘构建并周期性更新反欺诈规则和反欺诈模型。这一案例展示了大数据技术在金融领域的应用潜力,通过整合和分析海量数据,显著提升了金融机构的风险管理和运营效率。2.2大数据的速度(Velocity)大数据的速度特性指的是数据的生成、传输和处理速度非常快,需要实时或近实时的处理能力。这一特性要求大数据系统具备高并发、低延迟的能力,以支持实时分析和决策。具体来说,大数据的速度特性主要体现在以下几个方面。数据实时产生数据传输速度快数据存储速度快数据处理速度快数据更新速度快2.3大数据的种类(Variety)大数据的种类多特性指的是数据的类型和来源极其丰富,包括结构化数据、半结构化数据和非结构化数据。这种种类多体现在数据的类型、维度、格式、版本和形态等方面的复杂多变性。ValenceHealth使用MapR公司的数据融合平台(ConvergedDataPlatform)来建立一个数据湖并作为公司主要的数据仓库。Valence每天从3000个数据输入源接收45种不同类型的数据,这些关键数据包括实验室测试结果、患者健康记录、处方、疫苗记录、药店优惠、账单和付款,以及医生和医院的账单。这些数据的多样性和复杂性使得Valence能够提升决策来改善医保结果和财务状况。该公司快速增长的客户和日益增加的相关数据量正在压垮现有的技术基础设施。这个案例展示了大数据多样性特性在实际应用中的复杂性和挑战性,以及如何通过整合多种数据类型来实现业务目标。2.4大数据的真实性(Veracity)大数据的真实性特性指的是数据的质量和可信度。在大数据环境中,由于数据来源广泛且多样,容易出现错误、冗余和不一致的数据,这会影响最终分析的准确性和可靠性。为确保大数据的真实性,需要采用数据清洗、元数据管理、数据治理等手段。浙江移动隶属于中国移动通信集团有限公司,是浙江省内规模最大的电信运营商。浙江移动成立企业级数据治理组织委员会,明确领域数据治理组织,组建跨部门数据治理专题组织,确保数据治理工作顺利开展。浙江移动将数据业务融合化,实现数据跨系统前后融通,业务数据化提升数据质量,以主数据治理为抓手,开展源端数据质量治理,解决跨系统共享数据的一致性问题,实现数据真正能用、好用、快用。浙江移动的数据治理体系建设取得了显著成效,现已纳管公司数据资产超万项,数据汇聚时长由周缩短至天,数据开放时长由周缩短至小时,对内赋能47项跨域数据创新应用,对外支撑大数据收入提升超60%。这些举措和效果体现了大数据真实性的重要性,确保了数据的高质量和可信度。2.5大数据的价值(Value)大数据的价值特性指的是从海量、低价值密度的数据中挖掘出有价值的信息,这种价值的实现类似于“沙里淘金”,需要通过有效的管理和分析大数据来发现新的知识,创造新的价值,并推动社会的进步。沃尔玛早在1969年就开始使用计算机来跟踪存货,1974年将其分销中心与各家商场运用计算机进行库存控制。1983年,沃尔玛所有门店都开始采用条形码扫描系统。1987年,沃尔玛完成了公司内部的卫星系统的安装,该系统使得总部、分销中心和各个商场之间可以实现实时、双向的数据和声音传输。这些在当时还是小众和超前的信息技术的应用,为沃尔玛最近20年的崛起打下了坚实的地基。通过这些数据,沃尔玛能够分析顾客的购买行为,从而供应最佳的销售服务。沃尔玛一直致力于改善自身的数据采集技术,从条形码扫描到安装卫星系统实现双向数据传输,整个公司都充满了数据基因。2012年4月,沃尔玛又收购了一家研究网络社交基因的公司Kosmix,在数据基因的基础上,又增加了社交基因。这种数据驱动的策略使得沃尔玛能够更精准地了解客户需求,优化库存管理,提升销售效率。大数据架构033.1大数据架构的定义与框架大数据架构是指一种分布式并行架构,它将数据分散存储在多个服务器上,极大提高了数据处理速度。这种架构将数据插入并行数据库管理系统,利用MapReduce和Hadoop等技术进行高效的数据处理。大数据架构的核心目的是实现对海量数据的存储、计算、管理和分析,并且能够高效扩展,适应业务的快速发展。1.数据采集技术框架2.数据存储技术框架3.数据处理和分析框架4.数据治理3.2大数据架构的关键技术大数据架构的关键技术涵盖了从数据采集、存储、处理到分析的整个数据处理流程。1.数据采集技术框架:将分散在不同来源的海量数据汇集到一起。2.数据存储技术框架:将数据分片存储在多个节点上,确保高可靠性和高可用性。3.数据处理框架:对存储的数据进行处理和分析。4.数据分析技术框架:将处理后的数据转化为实际的应用结果。5.数据集成与转换技术:确保来自不同来源的数据兼容并以统一的方式构建。6.数据安全和隐私技术:实施访问控制、加密敏感数据并遵循法规遵从准则,以保护大数据基础设施免遭破坏和未经授权的访问。3.3Hadoop体系架构的深入解析Hadoop是一个由Apache基金会开发的一个开源的分布式存储和计算框架,以其可扩展性、高容错性和成本效益著称。它支持多种数据处理任务,拥有丰富的生态系统。它通过HDFS(HadoopDistributedFileSystem)和MapReduce等组件,支持大规模数据集的分布式存储和处理。假如有一个巨大的图书馆,里面有成千上万本书。现在,你想要找到所有关于“猫”的故事。如果只靠你自己,这将是一个非常耗时的任务,因为你需要一本一本地检查每本书的内容。这就像在没有Hadoop的情况下处理大量数据——非常慢且困难。现在,假设你可以召集一群朋友来帮忙。你把图书馆分成几个区域,每个朋友负责检查一个区域里的书。每个人都在自己的区域里寻找关于“猫”的故事,然后把找到的结果告诉你。这样,任务就被分解成了小块,可以同时进行,大大加快了整个搜索过程。Hadoop就像是组织这次搜索活动的工具。它把巨大的数据集(图书馆里的所有书)分成小块(每个区域的书),然后分配给许多计算机(你的朋友们)去处理。每台计算机都运行一个叫作MapReduce的程序,这个程序告诉计算机如何搜索数据(比如,如何找到关于“猫”的故事)。当所有计算机完成它们的任务后,Hadoop再把所有的结果汇总起来,就像你把朋友们找到的故事汇总起来一样。3.3Hadoop体系架构的深入解析1.HadoopDistributedFileSystem(HDFS)HDFS是Hadoop的主要存储组件,负责管理大型数据集。关键特性包括可扩展性、容错性和高吞吐量。2.YetAnotherResourceNegotiator(YARN)YARN是Hadoop的资源管理和调度框架。它负责为应用程序提供计算资源(如CPU、内存等)。3.MapReduceMapReduce是Hadoop的处理组件,它是编程模型和框架,用于在商品硬件集群中并行处理大型数据集。4.HadoopEcosystemHadoop生态系统是一系列工具和框架的集合,以集成的方式用于存储、管理和处理大数据。5.Hadoop的可扩展性和容错性Hadoop架构提供了可扩展性、容错性和成本效益的存储和处理能力,使其成为大数据应用的流行选择。大数据技术04案例导入假如你在一家大型超市工作,每天都有成千上万的顾客进来购物。你想知道顾客喜欢买什么、什么时候来购物,以及他们的购物习惯。这时候,大数据分析技术就像是一个聪明的助手,帮助你从这些海量的购物数据中找出有用的信息。4大数据技术01大数据采集技术涉及到从各种来源自动获取信息的过程,这些来源可能包括传感器、互联网、物联网设备等。数据类型广泛,可以是页面数据、交互数据、社交媒体数据等。数据采集03处理大规模数据通常需要使用分布式计算框架,比如Hadoop和Spark。数据处理02在存储方面,大数据生态系统中通常会使用分布式文件系统如Hadoop的HDFS或NoSQL数据库来管理大规模数据集。这些技术能够高效地存储和处理PB级别的数据量。数据存储04分析过程包括简单的查询分析、流分析以及更复杂的分析,如机器学习和图计算等。这一步骤建立在强大的计算处理层之上,利用各种算法和模型对数据进行深入挖掘,以获得有价值的洞察。数据分析4.1大数据采集技术假如目前正在准备一场大型家庭聚会,需要了解每个家庭成员的口味和饮食偏好,以便准备大家喜欢的食物。你开始通过电话、微信和面对面交谈等多种方式采集信息。这个过程就像是大数据采集技术在互联网上进行的操作。大数据采集技术就像是你采集家庭成员饮食偏好的过程,但它是在网络上进行的,而且规模要大得多。它使用特殊的计算机程序,比如网络爬虫,来“打电话”给互联网上的每一个角落,采集各种信息,比如人们在社交媒体上发布的状态、网上购物的历史记录、甚至是天气预报等。这些信息就像是家庭成员告诉你的饮食偏好,它们可能是结构化的(比如数据库中的表格),也可能是非结构化的(比如网页上的文本或图片)。大数据采集技术的目的是把这些分散在各处的信息采集起来,整理成有用的数据,就像你把家庭成员的饮食偏好记录下来,以便做出合适的菜肴。4.2大数据存储解决方案假如有一个巨大的衣橱,里面装满了各种各样的衣服。随着时间的推移,你的衣服越来越多,衣橱也越来越满。现在,你需要一种方法来整理这些衣服,让你能够快速找到你想穿的那件衣服,同时还能容纳更多的衣服。大数据存储技术就像是一个超级智能的衣橱管理系统。它不仅能够让你把衣服(数据)分门别类地存放,还能让你在需要的时候快速找到它们。这个系统会自动帮你把衣服(数据)分散存放在不同的小衣橱(服务器)里,这样即使其中一个衣橱(服务器)出了问题,你的衣服(数据)也不会丢失,因为它们在其他地方还有备份。就像你可能会把夏天的衣服和冬天的衣服分开存放一样,大数据存储技术也允许你根据数据的类型和用途来组织数据。而且,这个系统还能随着你的衣服(数据)数量的增加而扩展,就像你可以随时增加新的小衣橱(服务器)一样。所以,简单来说,大数据存储技术就是一种帮助我们管理大量数据的方法,它让我们能够存储、组织和快速找到数据,就像一个超级智能的衣橱管理系统。4.3大数据的处理技术假如你在一家大型超市工作,你的任务是分析顾客的购物习惯,以便超市能更好地摆放商品和做促销活动。每天,超市里有成千上万的顾客,他们购买各种各样的商品,产生大量的购物数据。现在,你需要一种方法来处理这些数据,找出哪些商品最受欢迎,哪些商品经常一起被购买,以及顾客的购买习惯等信息。这就像是在一大堆杂乱无章的购物小票中找到规律。大数据处理技术就像是一个超级智能的助手,它能帮你快速整理和分析这些数据。它可以把数据分成小块,让多台计算机同时工作,这样就能更快地得到结果。它还能找出数据中的模式和趋势,比如告诉你哪些商品在周末卖得最好,或者哪些商品经常一起被购买。就像你可能会用计算器来加总一长串数字一样,大数据处理技术使用复杂的算法和程序来分析数据。它还能学习和适应,随着时间的推移,它会变得越来越擅长于找出有用的信息。所以,简单来说,大数据处理技术就是一种帮助我们从大量数据中提取有用信息的方法,它让我们能够理解数据,做出更好的决策,就像一个超级智能的助手帮你分析超市的购物数据一样。4.4大数据分析方法大数据分析技术是一套复杂的工具和方法,旨在从海量、多样化的数据集中提取有价值的信息和洞察。这些技术包括数据挖掘、机器学习、预测分析、统计分析和数据可视化等。数据挖掘

数据可视化实时分析

文本分析和自然语言处理大数据处理框架

机器学习预测分析

统计分析数据可视化055.1数据可视化的内涵与价值数据可视化是将复杂的数据集转换成图形或图表的过程,它利用人类视觉系统对图形和颜色的敏感性,使得数据中的信息更容易被识别和记忆。5.2数据可视化的策略与方法5.2数据可视化的策略与方法数据读取与预处理描述性统计分析选择合适的可视化工具多样式数据可视化展示实时数据更新与展示交互式可视化数据可视化与机器学习结合5.3数据可视化工具的选择与应用序号名称特点1图表秀提供免费的在线图表制作工具,支持自由布局与联动交互分析,操作简单。适合具体的业务可视化分析场景,如销售额分析、库存分析等。2Plotly交互性、多样图表类型、与多种工具兼容、外观美观、在线分享。适用于数据分析、业务展示、教育与培训。3D3.js灵活性与可定制性的极致,允许开发者从头开始构建图表。适用于复杂图表、高度定制化需求、交互性强的应用。4ChartCube图表类型丰富,颜色清爽,审美在线,支持拖拽制作图表。适合需要多种图表类型和导出格式丰富的场景。5Flourish国外知名的免费可视化在线网站,模板多样,操作简单。适合需要大量模板选择和简单操作的场景。6PowerBI由微软研发。它通过连接数百个数据源进行数据清洗、数据建模、数据可视化,生成丰富的交互式可视化仪表盘报告,发布到Web和移动设备上。适用于销售分析、市场分析、财务分析、运营分析和客户关系管理等多种业务场景。7TableauTableau是一款强大的数据可视化工具,它允许用户快速连接、准备和分析数据。Tableau提供了丰富的可视化选项,包括地图、图表和图形等。适用于业务分析、市场研究、财务规划和人力资源管理等场景。5.3数据可视化工具的选择与应用图表秀简介图表秀是一款在线可视化数据图表制作工具。它旨在为用户提供简单易用的图表制作服务,支持快速生成各种传统图表和高级可视化图表,并提供动态演示与便捷分享功能。5.3数据可视化工具的选择与应用图表秀简介5.4数据可视化在多领域的应用教育领域医疗领域零售领域金融行业政府领域数据可视化云计算06案例导入假如你有一堆照片和视频,但是手机存不下了。有了云计算,你可以把这些照片和视频上传到这个大电脑上,然后你就可以在任何有网络的地方,用任何设备来看它们。而且,如果你需要更多的空间或者想要更快的服务,你只需要告诉这个大电脑,它就可以给你更多的资源,就像你想要更多的水,只需要打开水龙头一样简单。6.1云计算的定义与本质云计算是一种基于互联网的计算服务模式,它允许用户通过网络访问和使用存储在远程服务器上的数据和应用程序。云计算的本质在于其服务模式的转变,从传统的软件产品销售转变为服务的提供。它将计算资源抽象化,使用户能够根据需求获取服务,而无须关心底层技术细节。云计算的资源是虚拟化的,可以在不同的物理硬件上动态分配,以满足用户的需求。这种模式大大提高了资源的利用率和灵活性,降低了用户的成本。云计算的服务模式通常包括基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)。总体而言,云计算的定义与本质在于其提供了一种高效、灵活、可扩展的计算资源获取方式,它通过互联

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论