大学计算机教程-计算与人工智能导论(第4版)课件 第10章 云计算与大数据_第1页
大学计算机教程-计算与人工智能导论(第4版)课件 第10章 云计算与大数据_第2页
大学计算机教程-计算与人工智能导论(第4版)课件 第10章 云计算与大数据_第3页
大学计算机教程-计算与人工智能导论(第4版)课件 第10章 云计算与大数据_第4页
大学计算机教程-计算与人工智能导论(第4版)课件 第10章 云计算与大数据_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第10章云计算与大数据10.1云计算10.2大数据10.1云计算概述云计算是一种通过互联网按需提供计算资源和服务的技术,用户无需购买和维护硬件,只需按使用量付费。云计算将硬件基础设施、软件平台和服务能力抽象为在线服务,为用户提供高性价比、动态扩展、灵活可靠的解决方案。10.1云计算概述10.1.1云计算基本功能云计算平台在向用户提供服务时,通常具备以下核心功能:网络资源访问:用户可通过互联网随时随地访问云端资源;资源弹性伸缩:支持计算资源的动态扩容与释放;资源虚拟化池化:通过虚拟化技术,实现资源共享与动态分配;用户自主配置:用户可通过平台界面自行申请、配置、管理所需资源;按量计费:按实际使用量收费,降低使用门槛。云计算10.1云计算概述10.1.2服务模型云计算中的服务模型定义了不同层次的服务和资源如何以不同的方式提供给用户,从用户体验的角度出发,服务模型主要分为软件即服务、平台即服务和基础设施即服务。10.1云计算概述10.1.2软件即服务(SaaS)SaaS是通过网络提供软件服务的模式,用户无需购买软件,只需租用基于Web的应用,随时随地通过互联网访问。SaaS的优势是低成本、快速部署、运维托管和灵活访问。SaaS的主要功能是随时随地访问、支持公开协议、安全保障和多租户架构。10.1云计算概述10.1.2SaaS的经典案例10.1云计算概述10.1.2平台即服务(PaaS)PaaS是提供服务器平台和开发环境的云服务,包含操作系统、编程环境等,支持应用开发、部署与运行,无需关注底层硬件。PaaS的主要优势是开发简单、部署快捷与维护统一。PaaS的主要功能是良好的开发环境、丰富的服务、自动资源调度和精细的管理监控。10.1云计算概述10.1.2PaaS的经典案例10.1云计算概述10.1.2基础设施即服务(IaaS)IaaS是通过互联网按需提供计算基础设施的云服务,用户无需购置硬件,按使用量付费,灵活调整资源规模。PaaS的主要功能是资源抽象、负载管理、数据管理、资源部署、安全管理和计费管理。10.1云计算概述10.1.2IaaS的经典案例10.1云计算概述10.1.2三种服务模型的比较服务模型服务对象使用方式关键技术用户的权限SaaS企业和终端用户上传数据Web服务技术、互联网应用开发技术等完全的管理控制PaaS应用开发者上传数据、程序代码云平台技术、数据管理技术等有限的管理控制IaaS需要硬件资源的用户上传数据、程序代码、环境配置虚拟化技术、分布式存储等仅限使用和配置10.1云计算概述10.1.3部署模型在云计算中主要有三种部署模式:公有云、私有云和混合云。公有云是由提供商向公众提供的成本较低的服务,存在一定的安全风险。私有云是由提供商专为单一组织建设的云计算系统,管理复杂度较高且规模受限。混合云结合了公有云和私有云的特点。它提供了两者的优点,是一种折衷方案。私有云公有云混合云10.1云计算概述10.1.3部署模型应用10.2大数据基本概念大数据是指体量庞大、类型多样、增长迅猛的数据集合,其规模和复杂度超出传统数据处理系统的处理能力。随着物联网(IoT)和可穿戴设备的普及,数据生成速度呈现爆炸式增长,大数据已成为推动产业变革与技术创新的重要驱动力。大数据的核心价值在于其对现实世界的深度洞察。通过高效的数据分析与处理,大数据能够帮助企业与政府优化决策流程、提升运行效率,并挖掘出新的业务与社会价值。10.2大数据数据的整体体系智慧知识信息数据智能提炼信息之间的联系数据中提炼出的逻辑、规律原始素材数据是对客观事物的记录,以符号、文字、图形等形式表现,构成金字塔的最底层。它们是最基础、原始、未经加工的事实,通常孤立存在,缺乏直接意义,但蕴含着潜在的价值。信息是从数据中提取出的、经过加工、组织和解释的有意义内容,能够为决策或认知提供支持。信息具备传递与转换的能力,使得原始数据获得了实际价值。知识是金字塔中的第三层,代表从信息中提炼出的深层理解与系统性洞察。它不仅是信息的累积,更是信息经过分析综合与抽象后的结构化认知,体现了人们对特定领域的认知能力。智慧是金字塔的顶层,代表人类在已有知识的基础上,运用经验、判断与价值观对复杂问题做出理性分析与有效决策的能力。它不仅是知识的延伸,更体现了对知识的深度融合与灵活运用。10.2大数据大数据的特点大数据通常具有以下四个显著特征,统称为“4V”模型:数据量(Volume):数据规模庞大,单位通常为PB(1024TB)、EB(1024PB)甚至ZB(1024EB),未来可能达到YB(1024ZB)级别。数据种类(Variety):数据类型丰富,包括结构化数据(如关系型数据库)、半结构化数据(如日志文件、XML)以及非结构化数据(如图像、音频、文本等)。处理速度(Velocity):大数据处理要求高实时性,需在秒级时间内完成分析并给出反馈,否则数据的价值可能迅速流失。价值密度(Value):虽然数据量庞大,但真正具有高价值的信息仅占很小比例,因此必须借助高效的算法与模型,挖掘其中潜在的知识与规律。10.2大数据大数据的生命周期大数据的本质在于从海量、异构的数据中挖掘出具有潜在价值的信息。虽然数据的价值往往在被实际使用时才能显现,但其潜在价值有时需要在未来特定情境下才能被充分释放。从数据采集到结果展示,大数据处理流程一般可划分为五个主要阶段。数据采集数据预处理数据存储数据处理数据可视化10.2大数据数据采集大数据的生命周期中,数据采集是最初也是最关键的阶段,是数据分析的前提。它指的是通过各种技术手段实时或非实时地从不同的数据源中获取数据。这些数据源可以是各种设备、系统或平台,数据采集的目标是获取尽可能多的信息,以供后续分析和处理。结构化数据非结构化数据半结构化数据数据采集要求具有全面性、多维性和高效性。10.2大数据数据预处理采集到的数据往往会存在一些问题,这些问题使得数据质量无法满足实际需求。数据质量问题会对数据挖掘产生不良影响,甚至造成误导和损失。为了确保后续数据处理操作的能够得到可靠的结果,需要对数据集进行预处理。预处理的目的是将数据集转换为符合数据挖掘算法要求的格式,提高数据的质量和有效性。数据清洗数据集成数据转换数据规约10.2大数据数据清洗采集数据清洗是指对数据进行重新审查和校验的过程,其目的是删除重复数据、纠正数据中的错误,并确保数据的一致性和准确性。数据清洗的常用方法包括处理缺失值、检测离群点、不一致数据处理和冗余数据处理等,其中处理缺失值和检测离群点是两个典型的方法。10.2大数据数据集成数据集成是指将存储在不同系统、平台甚至不同地域的数据,进行整合并合并到统一的存储介质中,使之能够在一致的框架下进行查询和分析。数据集成过程通常面临以下几个挑战:字段意义问题:不同数据源中相同的字段可能代表不同的含义;字段结构问题:不同数据源在存储相同字段的数据时采用了不同的存储格式;字段冗余问题:字段之间的强相关性或字段间的可推导性;数据重复问题:数据集中可能存在多条相同的数据记录。10.2大数据数据转换在进行数据分析时,数据格式必须满足特定的要求。为此,通常需要在数据分析前对格式不统一的数据进行转换,使其符合统一的格式要求。常见的数据转换策略包括:平滑处理:去除数据中的噪声,从而提高数据质量;合计处理:对数据进行汇总或总结;泛化处理:用更高层次的概念替换低层次的概念;属性构造:在现有数据集的基础上生成新的属性;规格化处理:将数据按比例缩放到特定范围内,以消除不同属性间的量纲差异;数据离散化:将连续的数值型数据转换为离散数据。10.2大数据数据规约在数据系统中常常会出现重复数据条目或冗余属性。这些多余的元素不仅增加了数据存储和处理的复杂性,还可能影响分析结果的准确性。因此需要有效识别并移除这些重复的数据和冗余属性的技术,在尽可能保留数据集核心信息的前提下,缩小数据集规模。属性子集的选择:通过筛选出与分析任务相关的属性,从而减少数据维度;属性值归约:过减少属性值的可能取值范围,可以降低数据处理的复杂度;实例归约:通过抽样的方法减少数据集中的样本数量,而又尽量保持原数据的分布和代表性。10.2大数据数据挖掘的基本任务为了有效地分析和利用这些数据,强大的大数据处理技术成为必不可少的工具。大数据处理技术的快速发展,使我们能够从这些海量数据中挖掘有价值的信息。分类问题:它指的是根据数据的某些特定属性或特征,将具有相似属性的数据归类到同一类别中。聚类问题:将数据按照相似性划分为不同的类(簇)。与分类不同,聚类在分析之前并没有预设的分类标准,而是通过算法发现数据之间的内在联系。关联分析:通过分析大规模数据中各个元素之间的关系,挖掘有价值的关联信息。10.2大数据数据挖掘的开源工具WekaSPSSHive源自新西兰怀卡托大学基于Java的开源机器学习和数据挖掘软件支持数据预处理、分类、聚类、关联分析及数据可视化IBM开发

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论