版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据与人工智能导论IntroductiontoBigDataandArtificialIntelligence厚德·博学·求是·创新CH7大数据技术及处理流程学习目标了解数据的采集与预处理的概念和相关技术、大数据时代的数据存储和管理技术知识目标熟悉数据处理与分析技术,包括批处理计算、流计算、图计算和查询分析计算方面的技术能力目标培养学生能够运用所学知识解决实际问题。素养目标第7章大数据技术及处理流程主要内容7.1概述7.2数据采集与预处理7.3数据存储和管理7.4数据处理与分析7.5数据可视化7.6 数据安全和隐私保护7.1概述7.1概述大量化快速化多样化价值化大数据不仅仅是数据的“大量化”,而是包含“快速化”、“多样化”和“价值化”等多重属性7.1概述7.1概述大数据是由结构化和非结构化数据组成的,10%的结构化数据,存储在数据库中,90%的非结构化数据,它们与人类信息密切相关。科学研究–基因组–LHC加速器–地球与空间探测企业应用–Email、文档、文件–应用日志–交易记录Web1.0数据–文本–图像–视频–查询日志/点击流–Twitter/Blog/SNS–WikiWeb2.0数据从数据分析全流程的角度,大数据技术主要包括数据采集与预处理、数据存储和管理、数据处理与分析、数据可视化、数据安全和隐私保护等几个层面的内容。7.1概述7.1概述大数据技术的不同层面及其功能7.1概述7.1概述技术层面功能数据采集与预处理1.利用ETL工具将分布的、异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,如关系数据、平面数据文件等,最后加载到数据仓库或数据集市中成为联机分析处理、数据挖掘的基础;2.利用日志采集工具(如Flume、Kaka等)把实时采集的数据作为流计算系统的输入,进行实时处理分析;3.利用网页爬虫程序到互联网网站中爬取数据ETL是“Extract”、“Transform”、“Load”三个单词的首字母缩写,即“抽取”、“转换”、“装载”,日常中常简称其为数据抽取。ETL工具是一组软件工具,用于从一个或多个源提取、转换数据并将其加载到目标系统或数据库中7.1概述技术层面功能数据存储和管理利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理数据处理与分析利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析数据可视化对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据数据安全和隐私保护在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全7.1概述7.1概述典型的数据分析过程包括(如图):数据采集与预处理、数据存储与管理、数据处理与分析、数据可视化等,具体如下:7.1概述7.2数据采集与预处理数据采集与预处理包含了数据采集和数据预处理两大任务数据采集是指从传感器和智能设备、企业在线系统、企业离线系统、社交网络和互联网平台等获取数据的过程。需要采集的数据包括RFID数据、传感器数据、用户行为数据、社交网络交互数据及移动互联网数据等各种类型的结构化、半结构化及非结构化的海量数据。数据采集技术是大数据技术的重要组成部分,已经广泛应用于国民经济各个领域,随着大数据技术的发展和普及,大数据采集技术会迎来更加广阔的发展前景。7.2.1数据采集的概念7.2数据采集与预处理数据采集与预处理包含了数据采集和数据预处理两大任务数据预处理是一个广泛的领域,其总体目标是为后续的数据分析工作提供可靠和高质量的数据,减少数据集规模,提高数据抽象程度和数据分析效率。数据预处理的任务主要包括数据清洗、集成、转换和脱敏等。7.2.1数据采集的概念7.2数据采集与预处理数据采集,又称“数据获取”,是数据分析的入口,也是数据分析过程中相当重要的一个环节,它通过各种技术手段把外部各种数据源产生的数据实时或非实时地采集并加以利用。7.2.1数据采集的概念
传统的数据采集大数据采集数据源来源单一,数据量相对较少来源多样,数据量大数据类型结构单一数据类型丰富,包括结构化、半结构化和非结构化数据存储关系数据库和并行数据仓库分布式数据库,分布式文件系统7.2数据采集与预处理7.2.2数据采集的三大要点0203多维性全面性高效性017.2数据采集与预处理全面性。数据量足够大具有分析价值、数据面足够全支撑分析需求。多维性。数据更重要的是能满足分析需求。必须能够灵活、快速自定义数据的多种属性和不同类型、从而满足不同的分析目标。高效性。高效性包含技术执行的高效性、团队内部成员协同的高效性以及数据分析需求和目标实现的高效性。7.2.2数据采集的三大要点7.2数据采集与预处理7.2.3数据采集的据源互联网数据日志文件传感器企业业务系统数据将感受到的信息,按一定规律变换成为电信号或其他所需形式的信息输出“网络爬虫”,一个在网上到处或定向抓取网页数据的程序对业务平台日志信息进行采集,然后进行数据分析借助于ETL工具,把分散在企业不同位置的业务系统的数据,抽取、转换,供后续的商务智能分析使用举例:大数据的数据类型1.结构化数据源结构化数据是指具有固定格式和定义的数据,通常存储在关系型数据库中,如MySQL、Oracle等。示例:企业内部的销售数据、客户信息、财务报表等。2.半结构化数据源半结构化数据是指具有一定格式但又不完全遵循关系型数据库结构的数据,如XML等格式的文件。示例:社交媒体上的用户信息、网络日志、电子邮件等。举例:大数据的数据类型3.非结构化数据源非结构化数据是指没有固定格式或定义的数据,如文本、图像、音频、视频等。示例:社交媒体上的用户评论、新闻报道、网页内容、监控视频等。7.2数据采集与预处理数据清洗是指将大量原始数据中的“脏”数据“洗掉”,它是发现并纠正数据文件中可识别的错误的最后一道程序,包括检査数据一致性,处理无效值和缺失值等。比如,在构建数据仓库时,由于数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来,而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。要按照一定的规则把“脏数据”给“洗掉”,这就是“数据清洗”。7.2.4数据清洗7.2数据采集与预处理需要清洗的数据的主要类型残缺数据错误数据重复数据7.2.4数据清洗7.2数据采集与预处理需要清洗的数据的主要类型残缺数据这一类数据主要是指重要信息的缺失,如供应商的名称、分公司的名称客户的区域信息缺失、业务系统中主表与明细表不能匹配等。将这一类数据过滤出来,按缺失的内容分别写人不同Exeel文件并反馈给客户,要求在规定的时间内补全,补全后才写入数据仓库。7.2.4数据清洗7.2数据采集与预处理需要清洗的数据的主要类型错误数据这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行翔断直接写人后台数据库造成的,例妞数值数据以全角数字字符形式输人、字符串数据后面有个回车操作、日期格式不正确、日期越界等。这一类数据也要分类,类似于全角字符、据前后有不可见字符的问题,只能通过写SOL语句的方式找出来,然后要求客户在业务系统修正之后抽取。日期格式不正确的或者是日期越界的错误会导致ETL运行失败,这一类错误需要去业务系统数据库用SOL的方式挑出来,交给业务主管部门限期修正,修正之后再抽取。7.2.4数据清洗7.2数据采集与预处理需要清洗的数据的主要类型重复数据对于这一类数据--特别是在维表中--将重复数据记录的所有字段导出来,让客户确认并整理。7.2.4数据清洗7.2数据采集与预处理数据清洗的内容一致性检查无效值和缺失值的处理7.2.4数据清洗7.2数据采集与预处理数据清洗的内容一致性检查一致性检查(consisteneycheck)是根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据例如,用1-7级量表测量的变量出现了0值,体重出现了负数,都应视为超出正常值域范围SPSS、SAS和Excel等计算机软件都能够根据定义的取值范围,自动识别每个超出范围的变量值。逻辑上不一致的答案可能以多种形式出现7.2.4数据清洗7.2数据采集与预处理数据清洗的内容无效值和缺失值的处理由于调查、编码和录人误差,数据中可能存在一些无效值和缺失值,需要进行适当的处理。常用的处理方法有估算、整例删除、变量删除和成对删除。7.2.4数据清洗7.2数据采集与预处理数据清洗的内容无效值和缺失值的处理估算(esmation)。最简单的方法就是用某个变量的样本均值、中位数或众数代替无效值和缺失值。这种方法简单,但没有充分考虑数据中已有的信息,误差可能较大。另一种方法就是根据调查对象对其他问题的答案,通过变量之间的相关分析或逻辑推论进行估计。例如,某一产品的拥有情况可能与家庭收人有关,可以根据调查对象的家庭收入推算拥有这-产品的可能性。7.2.4数据清洗7.2数据采集与预处理数据清洗的内容无效值和缺失值的处理整例删除(casewisedeletion)是剔除含有缺失值的样本。由于很多问卷都可能存在缺失值,这种方法的结果可能导致有效样本量大大减少,无法充分利用已经收集到的数据。因此,只适合关键变量缺失,或者含有无效值或缺失值的样本比重很小的情况。7.2.4数据清洗7.2数据采集与预处理数据清洗的内容无效值和缺失值的处理变量删除(variabledeletion)。如果某一变量的无效值和缺失值很多,而且该变量对于所研究的问题不是特别重要,则可以考虑将该变量删除。这种方法减少了供分析用的变量数目,但没有改变样本量7.2.4数据清洗7.2数据采集与预处理数据清洗的内容无效值和缺失值的处理成对删除(painwisedeletion)是用一个特殊码(通常是9、99、999等)代表无效值和缺失值,同时保留数据集中的全部变量和样本。但是,在具体计算时只采用有完整案的样本,因而不同的分析因涉及的变量不同,其有效样本量也会有所不同。这是一种保守的处理方法,最大限度地保留了数据集中的可用信息7.2.4数据清洗7.3数据存储和管理文件系统(如操作系统的文件系统)关系数据库(Oracle、SQLServer等)数据仓库(一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。)并行数据库(一种能够在多台机器上分布存储数据,可以在台机器上并行处理查询的数据库。)7.3.1传统的数据存储和管理技术7.3数据存储和管理文件系统文件系统操作系统用于明确存储设备(常见的是磁盘,也有基于NANDFlash的固态硬盘)或分区上的文件的方法和数据结构,即在存储设备上组织文件的方法。操作系统中负责管理和存储文件信息的软件机构称为文件管理系统,简称“文件系统”。文件系统由3部分组成:文件系统的接口,对象及属性,对对象操纵和管理的软件集合。从系统角度来看,文件系统是对文件存储设备的空间进行组织和分配,负责文件存储并对存入的文件进行保护和检索的系统。7.3.1传统的数据存储和管理技术7.3数据存储和管理关系数据库数据库指的是以一定方式储存在一起、能为多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。对数据库进行统一管理的软件被称为“数据库管理系统”,在不引起歧义的情况下,经常会混用“数据库”和“数据库管理系统”这两个概念。7.3.1传统的数据存储和管理技术7.3数据存储和管理关系数据库一个关系数据库可以看成是许多关系表的集合,每个关系表可以看成-张二维表格,如表所示的学生信息表。7.3.1传统的数据存储和管理技术学号姓名性别年龄考试成绩202401012101张明男2186202401012102李嘉男2097202401012103王浩男2178202401012104赵辰女20957.3数据存储和管理数据仓库数据仓库(datawarehouse)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。(I)面向主题。操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是投照一定的主题进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。7.3.1传统的数据存储和管理技术7.3数据存储和管理数据仓库(2)集成。数据仓库的数据来自分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成、统一与综合之后才能进人数据仓库。(3)相对稳定。数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,涉及的操作主要是数据的查询。7.3.1传统的数据存储和管理技术7.3数据存储和管理数据仓库(4)反映历史变化。在构建数据仓库时,会每隔一定的时间(比如每周、每天或每小时)从数据源抽取数据并加载到数据仓库,比如,1月1日晚上12点“抓拍”数据源中的数据保存到数据仓库,然后1月2日、1月3日一直到月底,每天“抓拍”数据源中的数据保存到数据仓库,这样,经过一个月以后,数据仓库中就会保存了1月份每天的数据“快照”,由此得到的31份数据“快照”,就可以用来进行商务智能分析,例如分析一个商品在1个月内的销量变化情况。7.3.1传统的数据存储和管理技术7.3数据存储和管理并行数据库并行数据库是指在无共享的体系结构中进行数据操作的数据库系统。这些系统大部分采用了关系数据模型并且支持SQL语句查询,但为了能够并行执行SQL的查询操作,系统中采用了2个关键技术:关系表的水平划分和SQL查询的分区执行。7.3.1传统的数据存储和管理技术7.3数据存储和管理并行数据库并行数据库系统的目标是高性能和高可用性,通过多个节点并行执行数据库任务,提高整个数据库系统的性能和可用性。最近不断涌现一些提高系统性能的新技术,如索引、压缩、实体化视图、结果缓存、I/O共享等,这些技术都比较成熟且经得起时间的考验。7.3.1传统的数据存储和管理技术7.3数据存储和管理并行数据库并行数据库系统的主要缺点就是没有较好的弹性,而这种特性对中小型企业和初创企业是有利的。人们在对并行数据库进行设计和优化的时候认为集群中节点的数量是固定的,若需要对集群进行扩展和收缩,则必须为数据转移过程制订周全的计划。7.3.1传统的数据存储和管理技术7.3数据存储和管理并行数据库并行数据库的另一个问题就是系统的容错性较差,过去人们认为节点故障是个特例,并不经常出现,因此系统只提供事务级别的容错功能,如果在查询过程中节点发生故障,那么整个查询都要从头开始重新执行。这种重启任务的策略使得并行数据库难以在拥有数以千个节点的集群上处理较长的查询,因为在这类集群中节点的故障经常发生。7.3.1传统的数据存储和管理技术7.3数据存储和管理(1)分布式文件系统(DFS)一种通过网络实现文件在多台主机上进行分布式存储的文件系统。谷歌分布式文件系统(GFS),通过网络实现文件在多台机器上的分布式存储,较好地满足了大规模数据存储的需求。Hadoop海杜普分布式文件系统(HDFS)是针对GFS的开源实现,提供了在廉价服务器集群中进行大规模分布式文件存储的能力。7.3.2大数据时代的数据存储和管理技术7.3数据存储和管理(2)NewSQL和NoSQL数据库NewSQL是对各种新的可扩展、高性能数据库的简称,它们有两个显著的共同特点:都支持关系数据模型以及都使用SQL作为其主要的接口。NoSQL是对非关系型数据库的统称,面向是类似键/值、列族、文档等非关系模型。有灵活的水平可扩展性,可以支持海量数据存储。7.3.2大数据时代的数据存储和管理技术7.3数据存储和管理NoSQL通常NoSQL,数据库具有以下几个特点。①灵活的可扩展性。②灵活的数据模型。③与云计算紧密融合。7.3.2大数据时代的数据存储和管理技术7.3数据存储和管理大数据引发数据库架构变革综合来看,大数据时代的到来,引发了数据库架构的变革。以前,业界和学术界追求的方向是一种架构支持多类应用(onesizefitsall),如图7-2所示,包括事务型应用(OLTP系统)、分析型应用(OLAP、数据仓库)和互联网应用(Web2.0)。7.3.2大数据时代的数据存储和管理技术7.3数据存储和管理大数据引发数据库架构变革但是实践证明,这种理想愿景是不可能实现的,不同应用场景的数据管理需求截然不同,一种数据库架构根本无法满足所有场景。因此,到了大数据时代,数据库架构开始向着多元化方向发展,并形成了传统关系数据库(0ldSQL)、NoSQL数据库和NewSQL数据库3个阵营,三者各有自己的应用场景和发展空间。尤其是传统关系数据库,并没有就此被其他两者完全取代,在基本架构不变的基础上,许多关系数据库产品开始引人内存计算和一体机技术以提升处理性能。7.3.2大数据时代的数据存储和管理技术7.4数据处理与分析在数据处理与分析环节,可以利用数据挖掘和机器学习算法,并结合大数据处理技术(MapReduce和Spark等),对海量数据进行计算,得到有价值的结果,服务于生产和生活。7.4数据处理与分析7.4数据处理与分析机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。7.4.1数据挖掘和机器学习算法7.4数据处理与分析数据挖掘是指从大量的数据中通过算法搜索隐藏于数据中的信息的过程。数据挖掘可以视为机器学习与数据库的交叉,它主要利用机器学习界提供的算法来分析海量数据,利用数据库界提供的存储技术来管理海量数据。从知识的来源角度而言,数据挖掘领域的很多知识也间接来自于统计学界7.4.1数据挖掘和机器学习算法7.4数据处理与分析典型的机器学习和数据挖掘算法包括分类、聚类、回归分析和关联规则等。分类聚类回归分析关联规则7.4.1数据挖掘和机器学习算法7.4数据处理与分析典型的机器学习和数据挖掘算法包括分类、聚类、回归分析和关联规则等。分类:分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别中。可以应用到应用分类、趋势预测中,如淘宝商铺将用户在一段时间内的购买情况划分成不同的类根据情况向用户推荐关联类的商品,从而增加商铺的销售量。7.4.1数据挖掘和机器学习算法7.4数据处理与分析典型的机器学习和数据挖掘算法包括分类、聚类、回归分析和关联规则等。聚类:聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几不类别。属于同一类别的数据问的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低7.4.1数据挖掘和机器学习算法7.4数据处理与分析典型的机器学习和数据挖掘算法包括分类、聚类、回归分析和关联规则等。回归分析:回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中,回归分析可以被应用到各个方面。如通过对本季度销售的回归分析,对下一季度的销售趋势做出预测以及针对性的营销改变。7.4.1数据挖掘和机器学习算法7.4数据处理与分析典型的机器学习和数据挖掘算法包括分类、聚类、回归分析和关联规则等。关联规则:关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求,各银行在自己的ATM机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。7.4.1数据挖掘和机器学习算法7.4数据处理与分析实际上,由于企业内部存在多种不同的应用场景,因此,大数据处理的问题复杂多样,单一的技术是无法满足不同类型的计算需求的,MapReduce只是大数据处理技术中的一种,它代表了针对大规模数据的批量处理技术,除此以外,还有查询分析计算、图计算、流计算等多种大数据处理分析技术7.4.2大数据处理与分析技术7.4数据处理与分析7.4.2大数据处理与分析技术大数据计算模式解决问题代表产品批处理计算针对大规模数据的批量处理MapReduce、Spark等流计算针对流数据的实时计算Storm、S4、Flume、Streams、Puma、DStream、Super
Mario、银河流数据处理平台等图计算针对大规模图结构数据的处理Pregel、GraphX、Giraph、PowerGraph、Hama等查询分析计算大规模数据的存储管理和查询分析Dremel、Hive、Cassandra、Impala等大数据处理分析技术模型及其代表产品7.5数据可视化7.5.1数据可视化的概念数据可视化是指将大型数据集中的数据以图形图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。虽然可视化在数据分析领域并非最具技术挑战性的部分,但它是整个数据分析流程中最重要的一个环节。7.5数据可视化7.5.2数据可视化的重要作用在大数据时代,数据容量和复杂性的不断增加,限制了普通用户从大数据中直接获取知识,可视化的需求越来越大,依靠可视化手段进行数据分析必将成为大数据分析流程的主要环节之一。在大数据时代,可视化技术可以支持实现多种不同的目标。观测、跟踪数据分析数据辅助理解数据增强数据吸引力7.5数据可视化7.5.2数据可视化的重要作用在大数据时代,可视化技术可以支持实现多种不同的目标。观测、跟踪数据利用变化的数据生成实时变化的可视化图表,可以让人们一眼看出各种参数的动态变化过程,有效地跟踪各种参数值。例如,百度地图提供实时路况服务,可以查询包括郑州在内的各大城市的实时交通路况信息7.5数据可视化7.5.2数据可视化的重要作用在大数据时代,可视化技术可以支持实现多种不同的目标。分析数据利用可视化技术,实时呈现当前分析结果,引导用户参与分析过程,根据用户反馈信息执行后续分析操作,完成用户与分析算法的全程交互,实现数据分析算法与用户领域知识的完美结合。7.5数据可视化7.5.2数据可视化的重要作用在大数据时代,可视化技术可以支持实现多种不同的目标。分析数据一个典型的可视化分析过程如图7-4所示,数据首先被转化为图像呈现给用户用户通过视觉系统进行观察分析,同时结合自己的领域背景知识,对可视化图像进行认知从而理解和分析数据的内涵与特征。随后,用户还可以根据分析结果,通过改变可视化程序系统的设置,来交互式地改变输出的可视化图像,从而可以根据自己的需求从不同角度对数据进行理解。7.5数据可视化7.5.2数据可视化的重要作用在大数据时代,可视化技术可以支持实现多种不同的目标。辅助理解数据帮助普通用户更快、更准确地理解数据背后的含义,如用不同的颜色区分不同对象、用动画显示变化过程、用图结构展现对象之间的复杂关系等。7.5数据可视化7.5.2数据可视化的重要作用在大数据时代,可视化技术可以支持实现多种不同的目标。辅助理解数据例如,微软亚洲研究院设计开的人立方关系搜索,能从超过10亿的中文网页中自动地抽取出人名、地名、机构名以及中文短语,并通过算法自动计算出它们之间存在关系的可能性,最终以可视化的关系图形式呈现结果7.5数据可视化7.5.2数据可视化的重要作用在大数据时代,可视化技术可以支持实现多种不同的目标。增强数据吸引力枯燥的数据被制作成具有强大视觉冲击力和说服力的图像,可以大大增强读者的阅读兴趣。可视化的图表新闻就是一个非常受欢迎的应用。在海量的新闻信息面前,读者的时间和精力都开始显得有些捉襟见肘。7.5数据可视化7.5.3数据可视化案例本节给出数据可视化的几个典型案例,包括全球黑客活动、互联网地图、编程语言之间的影响力关系图、百度迁徙、世界国家健康与财富之间的关系、3D可视化互联网地图APP等7.5数据可视化7.5.3数据可视化案例数据可视化的几个典型案例全球黑客活动安全供应商Norse打造了一张能够反映全球范围内黑客攻击频率的地图,它利用Norse的“蜜罐”攻击陷阱显示出所有实时渗透攻击活动。7.5数据可视化7.5.3数据可视化案例数据可视化的几个典型案例互联网地图为了探究互联网这个庞大的宇宙,俄罗斯工程师RuslanEnikeev根据2011年底的数据将全球196个国家的35万个网站数据整合起来,并根据200多万个网站链接将这些“星球”通过关系链联系起来,每一个“星球”的大小根据其网站流量来决定,而“星球”之间的距离远近则根据链接出现的频率、强度和用户跳转时创建的链接来确定,由此绘制得到了“互联网地图”7.5数据可视化7.5.3数据可视化案例数据可视化的几个典型案例编程语言之间的影响力关系图通过TIOBE的编程语言排行榜,我们可以了解每门编程语言的热门程度,但是,无法反映不同编程语言之间的相互影响关系。RamioGómez利用来自Freebase上的编程语言维护表里的数据(包含超过3900万个主题、2011种类型以及超过30000个属性),绘制了编程语言之间的影响力关系图7.5数据可视化7.5.3数据可视化案例数据可视化的几个典型案例世界国家健康与财富之间的关系“世界国家健康与财富之间的关系”利用可视化技术,把世界上200个国家,从1810年到2010年历时200年其各国国民的健康、财富变化数据(收集了1000多万个数据)制作成三维动画进行了直观展示。7.6数据安全和隐私保护7.6.1数据安全数据安全技术种类繁多,主要包括身份认证技术、防火墙技术、访问控制技术、入侵检测技术和加密技术等。身份认证技术防火墙技术访问控制技术入侵检测技术加密技术7.6数据安全和隐私保护7.6.1数据安全身份认证技术在对该项技术进行使用时,会通过对操作者身份信息的认证,确定操作者是否为非法人侵者,进而对网络数据进行保护。该项技术主要用于操作系统间的数据访问保护,是较为常用、高效的数据安全保护技术。7.6数据安全和隐私保护7.6.1数据安全防火墙技术。防火墙是一种保护计算机网络安全的技术性措施,它通过在网络边界上建立相应的网络通信监控系统来隔离内部和外部网络,以阻挡来自外部的网络入侵7.6数据安全和隐私保护7.6.1数据安全访问控制技术。访问控制是指系统对用户身份及其所属的预先定义的策略组限制其使用数据资源能力的手段。通常用于系统管理员控制用户对服务器、目录、文件等网络资源的访问。访问控制是主体依据某些控制策略或权限对客体本身或其资源进行的不同授权访问它是系统保密性、完整性、可用性和合法使用性的重要基础,是网络安全防范和资源保护的关键策略之一。7.6数据安全和隐私保护7.6.1数据安全侵检测技术。该项技术属于主动防御技术中的一种,能够实现对网络病毒的有效防御与拦截,能够对信息数据形成有效保护。人侵检测是集响应计算机误用与检测于一体的技术,包括攻击预测、威慑以及检测等内容。在具体进行检测时,首先会对用户与系统活动展开监测、分析,明确系统弱点与整体构造;其次会对已知攻击实施识别,并在识别后发出预警;最后会对数据文件以及系统完整性进行评估。7.6数据安全和隐私保护7.6.1数据安全加密技术。加密技术包括两个元素:算法和密钥。算法是将普通的文本(或者可以理解的信息)与一串数字(密钥)的结合,产生不可理解的密文的步骤,密钥是用来对数据进行编码和解码的一种算法。在安全保密中,可通过适当的密钥加密技术和管理机制来保证网络的信息安全。7.6数据安全和隐私保护7.6.2隐私保护技术在大数据时代的影响之下,隐私安全问题频发,在进行隐私保护相关工作的开展中,需要能够针对隐私暴露的现阶段发展实际情况,有针对性地进行改善。主要可以借助数据水印的合理性应用,明确用户数据使用的实际需要,并且能够将用户的身份信息加以识别,在不影响用户正常使用数据的前提之下,对数据载体使用检测的方法实现融人,数据水印技术的合理应用能够充分保护原创。7.6数据安全和隐私保护7.6.2隐私保护技术可以借助数据水印的合理性应用,明确用户数据使用的实际需要,并且能够将用户的身份信息加以识别,在不影响用户正常使用数据的前提之下,对数据载体使用检测的方法实现融人,数据水印技术的合理应用能够充分保护原创。7.6数据安全和隐私保护7.6.2隐私保护技术在进行用户隐私的保护中,应当能够充分使用保护技术,顺应大数据背景发展的实际需要。用户隐私保护的渠道更加众多,同时能够贯穿于数据产生的全过程,主要是针对生产收购以及加工存储的各项环节,同时能够在数据运输当中实现隐私安全保护体系的构建,在数据的整个生命周期当中,实现对用户信息的保护,并能够使用信息过滤技术以及位置匿名技术等,对个人信息中的敏感部分加以保护,实现用户隐私的合理保护,建立和完善数据信息保护系统。本章结束
Thankyouforlistening厚德·博学·求是·创新大数据与人工智能导论IntroductiontoBigDataandArtificialIntelligence厚德·博学·求是·创新CH8人工智能初探第8章人工智能初探
主要内容8.1人工智能的概念和思想8.2人工智能的发展历程8.3人工智能发展的重大事件8.4未来发展与奇点的遐想8.5本章小结8.1人工智能的概念和思想人工智能的概念人工智能—ArtificialIntelligence,英文缩写AI。麦卡锡等在1956年达特茅斯会议中提出:对于人工智能预期目标的设想是“精确地描述学习的每个方面或智能的任何其他特征,从而可以制造出一个机器来模拟学习或智能”。目前人们普遍认为:人工智能是研究人类智能活动的规律,构造具有一定智能的人工系统,研究如何让计算机去完成以往需要人的智力才能胜任的工作,也就是研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术。8.1.1思想的萌芽8.1人工智能的概念和思想8.1.1思想的萌芽1666年,数学家和哲学家莱布尼茨出版《论组合的艺术》,创立了数理逻辑的新思想。这个时期的巴斯卡和莱布尼茨,已经萌生了会产生智能机器的想法,这便是人工智能思想的萌芽。8.1人工智能的概念和思想8.1.1思想的萌芽1943年,沃伦·麦卡洛克(WarrenMcCulloch)和沃尔特·皮茨(WalterPitts)发表了一篇划时代的论文,提出了第一个人工神经元模型,为神经网络研究奠定了基石。这一模型试图用数学和逻辑来模拟人脑神经元的工作方式,麦卡洛克和皮茨的模型虽然远不及今天的深度学习网络复杂,但它的核心思想却极具前瞻性:通过简单的“开关”机制(类似于神经元的激活与抑制),可以实现逻辑运算。8.1人工智能的概念和思想8.1.2图灵和他的密码破译机二战时期,电子计算机还没有出现,而德国海陆空全军上下都装备了一种叫“enigma”(恩尼格玛)的机器。它主要由三部分组成,分别是键盘、编码器和显示板。由于盟军需要尽快破解经“恩尼格玛”加密的情报,于是英国从剑桥大学招来了包括图灵在内的四位优秀的数学家,进行密码破译。图灵的设想是用机器打败机器。功夫不负有心人,图灵发明一种名为“Bombe(炸弹)”的破译机,大大缩短了破译时间,为盟军赢得胜利奠定了基础。8.1人工智能的概念和思想8.1.3图灵机图灵机的基本构造人工智能历史上的第一座里程碑,便是图灵机。在1936年,数学家艾伦·麦席恩·图灵提出了一个抽象的计算模型的构想——图灵机。左图便是图灵机的基本构造,我们可以简单地将其理解为三部分:纸带、程序和处理盒。图灵机这种虚拟的计算机器实际上是一种理想中的计算模型,它的基本思想是用机械操作来模拟人们用纸笔进行数学运算的过程。8.1人工智能的概念和思想8.1.5图灵测试:何谓机器智能?1950年,图灵发表了一篇划时代的论文,这也为他正式获得了“人工智能之父”这一桂冠。图灵提出了一个测试方法,这个方法就是通常说的“图灵测试”。图灵测试为人工智能的概念与方向做出了进一步的解释与分析,也为人工智能做出了基本的标准。为纪念图灵对计算机科学和人工智能领域的贡献,美国计算机协会(ACM)于1966年设立了“A.M.图灵奖(ACM
A.MTuringAward)”,简称“图灵奖(TuringAward)”。8.1人工智能的概念和思想89因为机器在图灵测试上一次又一次的失败,人类基于机器通过这种测试的困难度,反而创造出图灵测试最广泛的应用场景,这种应用在网络上随处可见——图形验证码。验证码的英文单词“Captchac”其实就是“CompletelyAutomatedPublicTuringtesttotellComputersandHumansApart(通过图灵测试来完全自动地分辨出计算机和人类)”这句话的首字母缩写。8.1.4图灵测试:何谓机器智能?8.2人工智能的发展历程8.2.2人工智能发展的6个阶段从1956年至今,人工智能从20世纪50年代出现到现在,共经过了6个阶段,如图所示。8.2人工智能的发展历程第一阶段:起步发展期(1956年——20世纪60年代初)。1956年,在美国达特茅斯学院举办会议上,计算机科学家约翰·麦卡锡提出了“人工智能”一词,标志着人工智能这门学科的诞生。麦卡锡也因此被誉为是“人工智能之父”。1956年:艾伦·纽厄尔与赫伯特·西蒙,开发首个能自动证明数学定理的程序,成功证明《数学原理》中52条定理。1958年:约翰·麦卡锡发明LISP语言,专为AI研究设计,支持符号处理和递归算法。1959年:亚瑟·塞缪尔开发首个具有自我学习能力的跳棋程序,通过强化学习击败人类棋手。8.2.2人工智能发展的6个阶段约翰·麦卡锡8.2人工智能的发展历程第二阶段:反思发展期(20世纪60年代——70年代初)。人工智能发展初期的突破性进展大大提升了人们对人工智能的期望,很多人因此将人工智能神话,认为它能够解决已有科技无法解决的许多问题,但接二连三的失败和预期目标的落空使人工智能的发展走入低谷。1965年:美国ALPAC(自动语言处理咨询委员会)报告指出机器翻译效率低下且成本高昂,远未达到实用水平。1966年:
ELIZA通过模式匹配模拟心理治疗对话,初期引发轰动,但随后暴露其缺乏真实理解能力。1969年:马文·明斯基与西摩尔·派普特在《感知机》一书中证明单层感知机无法解决异或(XOR)等非线性问题,导致神经网络研究停滞。1973年:莱特希尔报告批评AI研究未能实现承诺,称其“缺乏实际应用价值”。引发全球对AI可行性的质疑。8.2.2人工智能发展的6个阶段8.2人工智能的发展历程第三阶段:应用发展期(20世纪70年代初——80年代中)。经过一代人的努力之后,20世纪70年代出现的专家系统模拟人类专家的知识和经验解决特定领域的问题,成效显著,推动人工智能走入应用发展的新高潮。1972年:斯坦福大学开发的MYCIN能通过规则推理诊断血液感染疾病,准确率接近人类专家。1980年:卡内基梅隆大学为DEC公司开发的XCON系统,用于自动配置计算机硬件,累计节省数亿美元成本。1985年:杰弗里·辛顿等。提出多层感知机和反向传播算法雏形,突破单层感知机局限,为神经网络复兴埋下伏笔。8.2.2人工智能发展的6个阶段8.2人工智能的发展历程第四阶段:低迷发展期(20世纪80年代中——90年代中)。经过实践应用,人们发现专家系统存在应用领域狭窄、缺乏常识性知识、知识获取困难、推理方法单一、缺乏分布式功能和难以与现有数据库兼容等问题,因此一度将人工智能打入冷宫,相关科研经费大幅度缩减,人工智能相关研究也步入了长达10年的低迷期。1987年:专家系统依赖人工构建知识库,更新与维护成本高昂,企业逐渐放弃大规模部署。1992年:专为AI开发的LISP计算机因价格昂贵、通用计算机性能提升而失去市场,相关企业陆续破产。1990年代中期:尽管1986年反向传播算法提出,但因算力不足、数据稀缺,多层神经网络难以实用化。8.2.2人工智能发展的6个阶段8.2人工智能的发展历程第五阶段:稳步发展期(20世纪90年代中——2010年)。互联网技术的发展和高性能计算机的出现,加速了人工智能的创新研究,人们渐渐使用人工智能算法来解决数据采集和处理中的很多问题,促使人工智能技术进一步走向实用化。1997年:IBM超级计算机“深蓝”,依赖暴力搜索与专用硬件优化,击败世界冠军卡斯帕罗夫。2006年:杰弗里·辛顿等提出深度信念网络(DBN)与逐层训练方法,开启神经网络复兴序幕。8.2.2人工智能发展的6个阶段8.2人工智能的发展历程第六阶段:蓬勃发展期(2011年至今)。随着大数据、云计算、互联网和物联网等信息技术的广泛应用,以深度神经网络、大语言模型、生成式AI为代表的人工智能技术飞速发展,使得人工智能出现在越来越多的场景中,成为了与人们日常生活生活息息相关的一项技术。8.2.2人工智能发展的6个阶段8.2人工智能的发展历程2010年代:深度学习革命与基础技术突破2011年:IBMWatson在《危险边缘》中战胜人类冠军事件:IBMWatson通过自然语言处理与知识库检索,击败人类智力竞赛冠军。意义:展示非结构化数据处理能力,推动问答系统与知识图谱发展。2012年:AlexNet引爆深度学习革命事件:AlexNet在ImageNet图像识别竞赛中夺冠,错误率较传统方法降低超10%。影响:CNN(卷积神经网络)成为计算机视觉标准架构,GPU加速训练成为主流。2014年:生成对抗网络(GAN)提出事件:伊恩·古德费洛提出GAN框架,实现图像、音频等内容的生成与增强。应用:Deepfake技术、艺术创作、数据增强。2015年:TensorFlow开源事件:谷歌开源深度学习框架TensorFlow,降低AI开发门槛。意义:加速算法迭代,推动工业界与学术界协作。2016年:AlphaGo击败李世石事件:DeepMind的AlphaGo以4:1战胜围棋世界冠军李世石,使用蒙特卡洛树搜索与深度强化学习。影响:强化学习技术引发全球关注,AI进入公众视野。2017年:Transformer模型诞生事件:谷歌团队提出Transformer架构,取代RNN成为自然语言处理(NLP)核心模型。衍生:BERT(2018)、GPT系列(2018–今)均基于此架构。8.2.2人工智能发展的6个阶段8.2人工智能的发展历程2020年代:大模型与通用AI探索2020年:GPT-3发布事件:OpenAI推出1750亿参数的GPT-3,展示零样本与小样本学习能力。意义:生成式AI进入实用阶段,推动聊天机器人、代码生成等应用。2021年:多模态模型突破案例:OpenAI的图文跨模态理解,DeepMind的统一处理文本、图像、音频。影响:AI从单模态向多模态智能演进。2022年:ChatGPT引爆生成式AI浪潮事件:OpenAI发布对话模型ChatGPT,基于GPT-3.5,支持连续对话与复杂任务处理。意义:2个月用户破亿,掀起AI平民化与商业化热潮。2023年:GPT-4与多模态大模型事件:GPT-4支持图文混合输入,逻辑推理能力显著提升。谷歌推出Gemini,实现跨模态生成。趋势:大模型向通用人工智能(AGI)迈进,引发伦理与监管讨论。2023年:AI芯片与算力竞赛案例:英伟达推出H100GPU,专为Transformer模型优化。特斯拉Dojo超算支持自动驾驶模型训练。意义:硬件迭代支撑更大规模模型训练。2024年:Sora与视频生成突破事件:OpenAI发布文生视频模型Sora,可生成60秒高清连贯视频。影响:重塑影视、游戏、广告等内容创作范式。2025年:DeepSeek聚焦“效率+伦理”双轮驱动,通过技术突破与生态合作巩固其在全球AI市场的领先地位。8.2.2人工智能发展的6个阶段8.2人工智能的发展历程8.2.3影响人工智能发展的三大因素(1)算力,是支撑AI技术运行的硬件基础,它决定了AI模型的训练速度和推理能力。随着摩尔定律的延续,计算机硬件性能不断提升,为AI技术的发展提供了强大的动力。GPU(图形处理器)显著提升了计算机的性能,拥有远超CPU的并行计算能力。GPU使训练深度神经网络的速度提升255倍计算能力突破12000GFLOPS2006年2017年GPU:TITANXpCPU:Core2ExtremeX680047GFLOPS8.2人工智能的发展历程8.2.3影响人工智能发展的三大因素(2)算法,算法是AI技术的核心,它决定了AI模型的性能和智能水平。优秀的算法能够使AI模型更加准确地识别、理解和预测数据,从而提高AI的决策能力和自主学习能力。在过去的几年里,深度学习算法取得了突破性进展,使得AI在图像识别、语音识别、自然语言处理等领域取得了前所未有的成绩。随着算法研究的不断深入,越来越多的优化算法和创新模型被提出,为AI技术的发展注入了新的活力。算法突破算法突破推动AI技术成熟和实用化传统神经网络深度神经网络8.2人工智能的发展历程8.2.3影响人工智能发展的三大因素数据井喷全球数据中心数据量年均增速40%(3)算料(数据),数据被誉为AI的“食粮”,是训练和优化AI模型的基础。没有足够多样化、高质量的数据,再先进的算法和强大的算力也难以发挥出应有的效能。随着大数据时代的到来,来自全球的海量数据为人工智能的发展提供了良好的基础。8.4未来发展与奇点的遐想数学中的奇点是指不符合逻辑的点,只能无限接近。例如,任何一个自然数除以一个越来越接近于零的数,其结果将趋近于无限大。0102物理学中的奇点如天体物理学中,大质量恒星经历超新星爆炸后会变成体积接近于零、密度无穷大的点,即黑洞,这是各种物理定律失效的地点。8.4.1奇点理论8.4未来发展与奇点的遐想在人工智能领域,有一个著名的奇点理论,它提出于2005年,预言:人工智能领域的突破会使计算机变得比人更聪明,计算机的智能超越人类智慧的那一刻,就是奇点。提出这种“奇点理论”的人,是美国未来学家雷·库兹韦尔(RayKurzweil),他把这一“奇点时刻”设定为2045年。未来学家雷·库兹韦尔(RayKurzweil)8.4.1奇点理论8.4未来发展与奇点的遐想8.4.1奇点理论雷·库兹韦尔在其2005年著作《奇点临近》中,对奇点理论进行深入探讨并做出预测。他依据技术发展的指数增长趋势,预测2045年奇点将会到来。他认为届时人工智能将超越人类智能,引发社会、经济等多方面的深刻变革。库兹韦尔的观点和预测,极大地推动了奇点理论在科技界和公众中的传播与讨论。尼克·博斯特罗姆尼克·博斯特罗姆在2014年出版《超级智能》,提出超级智能可能带来生存风险的观点。他强调超级智能一旦出现,其目标若与人类价值观冲突,将对人类生存构成威胁。他构建“控制问题”模型,探讨如何引导超级智能符合人类利益。博斯特罗姆的观点为奇点理论研究引入风险视角,促使人们在期待技术进步时,重视潜在危险。雷·库兹韦尔8.4未来发展与奇点的遐想随着算法、算力(计算能力)和算料(数据)等“三算”方面的快速发展,人工智能发展将会出现怎样的趋势与特征呢?一是从专用人工智能(弱人工智能)向通用智能(强人工智能)发展。8.4.2趋势与展望专用人工智能是指在特定的任务领域内,能够表现出与人类智能相似能力的人工智能系统。它专注于解决某一个明确的问题,比如图像识别中的面部识别系统。这种系统只能在设计它的特定任务范围内工作,不能像人类一样将知识和技能迁移到其他不同领域。通用人工智能,也称为强人工智能,是一种理论上能够像人类一样进行思考、学习和解决问题的人工智能。它具有自我意识、情感和理解能力,能够在各种不同的任务和环境下灵活地应用知识和技能,就像一个具有完整智能的人一样,甚至在某一方面超越人类智能。8.4未来发展与奇点的遐想随着算法、算力(计算能力)和算料(数据)等“三算”方面的快速发展,人工智能发展将会出现怎样的趋势与特征呢?二是从人工智能向人机混合智能发展。8.4.2趋势与展望人机混合智能是由“人-机-环境”相互作用而产生的新型智能系统,它既不同于人类智能,也不同于人工智能。其重点在于将人类的认知模式与计算机的优势计算能力相结合,充分发挥人和机器的长处,形成一种新的智能形式。8.4未来发展与奇点的遐想随着算法、算力(计算能力)和算料(数据)等“三算”方面的快速发展,人工智能发展将会出现怎样的趋势与特征呢?三是从“人工+智能”向自主智能系统发展。8.4.2趋势与展望“人工+智能”(Human-DependentAI)
指传统人工智能系统,其核心特征是高度依赖人类设计,功能局限于特定任务,需人类提供规则、数据和干预。自主智能系统(AutonomousIntelligentSystems)
指能够独立感知、决策、学习和行动的AI系统,其核心特征是自适应性与环境交互能力。从“人工+智能”到自主智能系统的演进,标志着AI从被动执行工具向主动决策主体的质变。这一过程依赖算力、算法与数据的协同突破,但也面临技术伦理与社会治理的深层挑战。未来的AI将不仅是“解决问题的手段”,更可能成为重塑人类文明范式的核心参与者。8.4未来发展与奇点的遐想随着算法、算力(计算能力)和算料(数据)等“三算”方面的快速发展,人工智能发展将会出现怎样的趋势与特征呢?四是人工智能将加速与其他学科领域交叉渗透。8.4.2趋势与展望最终目标:通过交叉渗透,AI将不仅是“技术杠杆”,更成为连接人类知识孤岛的桥梁,推动文明向更高复杂度演进。8.4未来发展与奇点的遐想随着算法、算力(计算能力)和算料(数据)等“三算”方面的快速发展,人工智能发展将会出现怎样的趋势与特征呢?五是人工智能产业将蓬勃发展。8.4.2趋势与展望人工智能产业的蓬勃发展源于技术、需求、政策与资本的四重共振:技术层面,算法、算力、数据的协同突破催生“AI工业化”浪潮;市场层面,从企业增效到消费升级,需求端持续释放动能;生态层面,全产业链协同推动应用场景指数级扩展。未来挑战:将聚焦于技术伦理、可持续性与全球竞合,但长期来看,AI作为“新一代生产力引擎”的地位不可动摇,其产业化进程将重塑全球经济格局与人类文明形态。8.4未来发展与奇点的遐想随着算法、算力(计算能力)和算料(数据)等“三算”方面的快速发展,人工智能发展将会出现怎样的趋势与特征呢?六是人工智能将推动人类进入普惠型智能社会,“人工智能+X”的创新模式将随着技术和产业的发展日趋成熟。8.4.2趋势与展望定义:
普惠型智能社会是指通过人工智能技术的广泛渗透与低成本应用,使社会各阶层、各领域均能公平享受智能化服务,实现资源高效配置、公共服务均等化及生活质量全面提升的社会形态。核心特征:广泛覆盖:技术下沉至偏远地区与弱势群体(如AI远程医疗覆盖乡村)。低成本化:开源框架(如TensorFlow)与云计算降低使用门槛。服务均等:教育、医疗等基础服务打破地域与收入限制(如AI辅助诊断系统费用仅为传统1/10)。人工智能正从“精英技术”转向“大众工具”,其核心价值不仅是效率提升,更在于通过“人工智能+X”模式重塑社会公平。8.4未来发展与奇点的遐想随着算法、算力(计算能力)和算料(数据)等“三算”方面的快速发展,人工智能发展将会出现怎样的趋势与特征呢?七是人工智能领域的国际竞争将日益激烈。8.4.2趋势与展望全球主要经济体已明确将人工智能(AI)视为国家战略的核心组成部分,通过制定专项政策、加大资金投入、推动技术研发和产业应用,以争夺未来科技与经济的主导权。总结:AI国家战略的全球共识.技术主导权:各国均将AI视为未来经济增长和国家安全的核心驱动力。差异化路径:美国重基础研发,中国强应用落地,欧盟推伦理规则,日韩聚焦垂直领域。长期博弈:技术自主(如芯片)、数据主权、人才争夺成为竞争焦点,国际合作与对抗并存。未来趋势:全球AI竞争将加速技术迭代与产业变革,同时催生新的治理框架和国际秩序。谢谢
Thankyouforlistening厚德·博学·求是·创新大数据与人工智能导论IntroductiontoBigDataandArtificialIntelligence厚德·博学·求是·创新CH9机器学习与深度学习学习目标了解机器学习、深度学习和人工神经网络的基本概念与原理;了解机器学习与人工神经网络的主要应用领域。知识目标了解机器学习与人工神经网络的核心技术。能力目标建立以科技报国的社会责任感。素养目标第9章机器学习与深度学习主要内容9.1
机器学习概述9.2
机器学习分类9.3
机器学习应用9.4
深度学习概述9.5
人工神经网络概述9.6
人工神经网络分类9.7
人工神经网络应用9.1机器学习概述机器学习(machinelearning:ML)是人工智能的重要分支,是一类算法的总称,其目标是从历史数据中挖掘出隐含的规律,并用于未来的任务处理。机器学习的研究方式通常是基于数据产生“模型”,在解决新问题时,使用模型帮助人们进行判断、预测。9.1机器学习概述9.1.1机器学习的定义广义上:机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。实践的意义上:机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。机器学习方法:计算机利用已有的数据(经验),得出了某种模型(迟到的规律),并利用此模型预测未来(是否迟到)的一种方法。机器学习与历史经验归纳过程对比图9.1.2机器学习发展历程20世纪50-60年代早期理论框架的初步建立出现一些重要模型与算法,如线性回归、决策树、隐马尔可夫模型等。机器学习开始应用于语音识别、分类等实际问题机器学习兴起期1980年代1990年代后期发展期支持向量机等新的机器学习算法的提出,统计学习理论的发展2010年代以后深度学习模型,特别是多层神经网络,在计算机视觉、自然语言处理等领域取得了显著成就。繁荣期9.1机器学习概述9.1机器学习概述9.1.3机器学习流程机器学习专注于让机器从大量的数据中模拟人类思考和归纳总结的过程,获得计算模型并自动判断和推测相应的输出结果。机器学习的一般流程可以概括为数据采集、数据预处理、训练模型和测试模型及评估等阶段。9.1.3机器学习流程1.数据采集主要包括收集与问题相关的数据,并确保数据的质量和完整性;对数据进行探索性分析,了解数据的特征、分布和相关性;对数据进行预处理,包括数据清洗、缺失值处理、特征选择、特征转换等。2.数据预处理对收集到的数据进行预处理,包括数据的清洗、数据的转换、数据标准化、缺失值的处理、特征的提取、数据的降维等。9.1.3机器学习流程3.模型选择和训练根据问题的类型和数据的特点选择适合的机器学习算法。(1)选择机器学习模型进行训练:首先,根据要处理的数据有没有标签来确定选择监督学习模型还是非监督学习模型;其次,根据预测值是离散的还是连续的,确定采用分类问题算法还是回归问题算法。在选择模型时,通常会比较不同模型训练的结果,优先考虑性能最佳的。(2)使用训练集对选定的模型进行训练,并调整模型的超参数。可以使用交叉验证等技术来评估模型的性能和泛化能力。9.1.3机器学习流程4.模型测试及评估使用验证集评估模型的性能,并根据评估结果调整模型的参数。如果模型性能不满足需求,可以尝试改进特征工程、调整模型结构或尝试其他算法。使用测试集对最终确定的模型进行评估,验证模型的泛化能力。如果模型通过测试,可以将其部署到实际应用中进行预测和推断。监测模型在实际应用中的性能,并根据需要进行模型更新和改进。模型测试和部署步骤通常是迭代性的,需要不断地进行调整和改进。不同的机器学习任务可能会有所差异,因此具体的步骤可能会有所调整和扩展。9.2机器学习分类根据不同的学习路径,机器学习的类型主要有4种划分方式。按方法划分,可以将机器学习模型分为线性模型和非线性模型。按学习理论划分:监督学习、无监督学习和强化学习。按任务划分:回归模型、分类模型和结构化学习模型。按求解算法划分:生成模型和判别模型。9.2机器学习分类——按学习理论分类监督学习、无监督学习和强化学习9.2机器学习分类——按学习理论分类有三个人分别叫S、U和R,他们每天上山去采蘑菇。S首先回想以前所见过的蘑菇,记住蘑菇的颜色、形状等信息,到了森林里,他通过经验就能分辨出蘑菇有毒还是无毒。U不认识蘑菇,他看到山上的蘑菇虽然多,不过外观只有三种。于是,他采了三种蘑菇并分别放在三个筐里。R先采了一筐蘑菇回去,然后观察顾客的行为。顾客不吃的蘑菇,他不再采;他还特别留意顾客说哪种蘑菇好吃。R的蘑菇越来越好,慢慢采到了森林里最好吃的那种蘑菇。监督学习无监督学习强化学习9.3机器学习应用9.3机器学习应用1.模式识别模式识别是从工业界发展起来的,而机器学习来自于计算机学科,二者为人工智能的两个方面。模式识别的主要方法都是机器学习的主要方法。2.数据挖掘数据挖掘是利用机器学习等方法在数据中寻找规律和知识的领域。数据挖掘=机器学习+数据库9.3机器学习应用3.统计学习统计学习是与机器学习高度重叠的学料,机器学习中的大多数方法都来自于统计学,统计学的发展促进了机器学习的兴盛。区别:统计学习重点关注的是统计模型的发展与优化,侧重于数学;而机器学习重点关注的是如何解决问题,侧重于实践。4.计算机视觉计算机视觉的主要基础是图像处理和机器学习。图像处理技术用于将图像处理为适合进入机器学习模型的输入,机器学习则负责从图像中识别出相关的模式。手写字符、军牌、人脸等的识别都是计算机视觉和模式识别的应用。9.3机器学习应用5.自然语言处理自然语言处理是让机器理解人类语言的一门技术。在自然语言处理中,大量使用了编译原理相关的技术,如语法分析等。6.语音识别语音识别是利用自然语言处理、机器学习等相关技术实现对人类语音识别的技术。语音识别的主要基础是自然语言处理和机器学习。9.4深度学习概述9.4.1深度学习定义深度学习(deeplearning)特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上,结合当代大数据和大算力的发展而发展出来的。目前,深度学习是解决强人工智能这一重大科技问题的最具潜力的技术途径,也是当前计算机、大数据科学和人工智能领域的研究热点。9.4深度学习概述深度学习提出一种让计算机自动学习模式特征的方法。深度学习具有更强的学习能力,还能够减少人为设计的不完备性。深度学习的基本架构是人工神经网络,针对不同的应用目标会有不同的表达结构,目的是为了更好地提取相应领域的特征。深度学习是基于数据驱动的,它对数据的依赖性很高,数据量越大,其性能表现也越好。同时,通过调整参数,还可以进一步提升其性能上限。9.4深度学习概述9.4.2深度学习特点深度学习最重要的特点是具有自动提取特征(即深度特征或深度特征表示)的能力。深度学习的本质是特征表征学习。深度学习的不同于传统的浅层学习,主要在于:(1)强调了模型结构的深度,通常有5层、6层,甚至10多层的隐层节点;(2)明确了特征学习的重要性。9.4深度学习概述9.4.3深度学习应用1.计算机视觉Face++:中国企业旷视科技(Megvii)开发的面部识别平台,被广泛应用于安全监控、身份验证、智能交互等多个领域。Yolo:一种流行的实时物体检测系统,特点是:实时检测、通用性强、易于训练和部署。Yolo被广泛应用于视频监控、自动驾驶、工业自动化等领域。SAM是由MetaAI实验室于2023年提出的,它是一个强大的图像分割模型,可以分割图像中的任何对象。SAM可以应用于图像编辑、增强现实、内容理解等多个领域。SAM主要应用于客服机器人、教育辅导、内容创作、编程助手。9.4深度学习概述9.4.3深度学习应用2.自然语言处理ChatGPT是由OpenAI开发的基于深度学习的自然语言处理模型。它能够生成连贯的对话,理解和回答用户的问题,并提供丰富的信息。2022年ChatGPT的发布OpenAI推出了专门针对对话任务优化的ChatGPT。它能够进行更自然的对话、理解上下文并生成更为连贯的回复。9.4深度学习概述9.4.3深度学习应用3.博弈AlphaGo是由DeepMind开发的一个基于深度学习的围棋人工智能程序,它目标是通过深度学习和强化学习,开发出能够在围棋对弈中超越人类顶尖棋手的AI。AlphaGo的成功标志着人工智能在复杂博弈中的重要突破,主要应用于棋局分析、游戏对战、商业决策等领域。9.4深度学习概述9.4.3深度学习应用4.机器人技术机器人技术在集成方面的应用非常广泛,它涉及将机器人系统与各种工业流程、信息技术、控制系统和其他自动化设备结合,以提高效率、减少错误、增强灵活性和降低成本。机器人的主要应用领域有:工业自动化集成、物流与供应链管理、智能生产线等。9.5人工神经网络概述人工神经网络自诞生以来,就在人工智能领域占据着举足轻重的地位,并发挥着重要作用。20世纪80年代以来,人工神经网络研究不断取得重大进展,与其有关的理论、方法已经发展成了一门涉及物理学、数学、计算机科学和神经生物学的交叉学料。人工神经网络在视觉、听觉等感知智能,机器翻译、语音识别和聊天机器人等语言智能,棋类、游戏等决策类应用,以及艺术创造等方面取得了重要成就。9.5.1人工神经网络定义人工神经网络(artificialneuralnetwork,ANN),简称神经网络(NN),是基于生物学中神经网络的基本原理,在理解和抽象了人脑结构和外界刺激响应机制后,以网络拓扑知识为理论基础,模拟人脑的神经系统对复杂信息的处理机制的一种数学模型。人工神经网络是由大量的简单处理单元经广泛并行互连形成的一种网络系统。它是对人脑系统的简化、抽象和模拟,具有人脑功能的许多基本特征。目前,人工神经网络已成为许多高科技领域的一个热门话题。在人工智能领域,它已实际应用于决策支持、模式识别、专家系统、机器学习等许多方面。人体神经细胞结构神经元,又称神经细胞。每个神经元可以有一或多个树突,可以接受刺激并将兴奋传入细胞体。每个神经元只有一个轴突,可以把兴奋从胞体传送到另一个神经元或其他组织,如肌肉或腺体。突触两个神经元之间或神经元与效应器细胞之间相互接触、井借以传递信息的部位。突触由突触前、突触后和突触间隙组成。突触前为前一个神经元的轴突末端,而突触后是下一个神经元的胞体或树突。突触前细胞借助神经递质,将信息传送到到突触后细胞。人脑神经系统的特征(1)记忆和存储功能人脑神经系统的记忆和处理功能是有机地结合在一起的。(2)高度并行性人脑大约有1011~1012个神经元,每个神经元又有103~105个突触,即每个神经元都可以和其他103~105个神经元相连,这就提供了非常巨大的存储容量和并行度。例如,人可以非常迅速地识别出一幅十分复杂的图像。(3)分布式功能
人类大脑的各
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 证券公司财务审计岗位面试全攻略
- 快消品行业招聘面试要点
- 非国有股东参与治理对国有企业投融资效率的影响研究
- 考虑压应力影响的高阻尼橡胶支座力学性能研究
- 教育咨询师高级岗位面试经验
- 教育机构师资力量面试要点解答
- 企业财务会计岗位工作面试技巧
- 杂志出版业品牌运营经理的职责范围
- 企业营销业务分析师招聘面试指南
- 消防单位安保队伍专业技能培训材料
- 陕西省西安市高陵区2024-2025学年七年级下学期开学考试语文试题(含答案)
- 检验科管理经验交流
- 生产过程异常处理流程
- 《热力学基础》课件
- 水产养殖与渔业技术作业指导书
- 2025年江苏农林职业技术学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 《IABP的临床应用》课件
- 冀教版八年级下册英语全册教学设计
- 【MOOC】电路基础-西北工业大学 中国大学慕课MOOC答案
- 社保基金风险管理及内控措施
- 气管插管气管切开吸痰术气管插管气管切开吸痰术
评论
0/150
提交评论