版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能通识教育模块1初识人工智能目
录模块2人工智能支撑运作平台模块3人工智能关键技术模块4人工智能应用(一)模块5人工智能应用(二)模块6人工智能前沿模块7人工智能与社会模块3结构:单元1自然语言处理技术单元2机器学习技术单元3深度学习技术单元4机器视觉与机器听觉单元5跨媒体分析与推理技术单元6虚拟现实与增强现实技术
模块3人工智能关键技术学习目标:了解人工智能的基本概念和发展历程。理解人工智能的基本概念和原理。了解人工智能的关键技术。培养具有人工智能思维解决实际问题的能力
模块3人工智能关键技术学习重点:理解自然语言处理的含义及常见应用;2.了解机器学习、深度学习之间的关系;3.理解机器视觉与机器听觉的原理和应用场景;4.了解跨媒体(模态)技术应用;5.了解虚拟现实技术与增强现实技术的区别及应用。单元1自然语言处理技术模块3人工智能关键技术3.1.1什么是自然语言处理自然语言处理是将人类交流沟通所用的语言经过处理转化,成为机器所能理解的机器语言,是一种研究语言能力的模型和算法框架,是语言学和计算机科学的交叉学科。其研究可分为自然语言理解(让机器读懂我们日常的表达)和自然语言生成(让机器生成我们所能懂的话)。单元1自然语言处理技术模块3人工智能关键技术3.1.2自然语言处理的典型应用自然语言处理正在人们的日常生活中扮演着越来越重要的角色。机器翻译是指利用计算机将一种自然语言转换为另一种自然语言的过程,是自然语言处理的一个分支。聊天机器人是一个用来模拟人类对话或聊天的程序,它能够与人类进行对话和交流。聊天机器人利用自然语言处理技术来理解人类的语言输入,并生成相应的回复。单元1自然语言处理技术模块3人工智能关键技术3.1.3自然语言处理的发展趋势自然语言处理(NLP)技术的快速进步和应用扩展,预示着它在未来将继续发挥重要作用。从更强大的预训练模型到普及的个性化应用,NLP正在成为推动智能化和自动化发展的关键技术之一。自然语言处理的发展趋势有以下几个方面:1.更强大的预训练模型2.多模态学习3.实时和高效的NLP4.个人化和情境感知5.普及和民主化单元2机器学习技术模块3人工智能关键技术3.2.1监督学习的流程和框架监督并不是指人站在机器旁边看机器做的对不对,而是上面的流程:选择一个适合目标任务的数学模型、先把一部分已知的“问题和答案”(训练集)给机器去学习、机器总结出了自己的“方法论”、人类把“新的问题”(测试集)给机器,让他去解答。单元2机器学习技术模块3人工智能关键技术3.2.2监督学习的案例随着计算机技术的飞速发展,机器学习和人工智能领域取得了令人瞩目的成就。其中,手写数字识别技术作为一种重要的人工智能技术,已经广泛应用于图像处理、语音识别、自然语言处理等领域。而MNIST手写数字识别是机器学习和深度学习领域中的一个经典问题,也是机器学习和人工智能领域的入门级问题之一。单元2机器学习技术模块3人工智能关键技术3.2.3数据集与损失函数如何判断所学的目标函数好还是不好呢?要回答这个问题,我们首先需要制定一个评价机制。简单来说,根据数据给出的xi,yi的组合,我们希望所学的函数f尽可能满足f(xi)=yi,或者至少f(xi)≈yi。根据这一原则,我们可以定义一个距离函数,用以表示f(X)和Y的距离有多远。在机器学习领域,这样的距离函数叫做损失函数(lossfunction)。单元2机器学习技术模块3人工智能关键技术3.2.4无监督学习的主要任务无监督学习则不同。这里的数据没有预先标注,换句话说,机器不知道哪些数据代表什么。它的任务是通过分析这些没有标签的数据,自己去发现其中的模式、结构或关系。我们可以把无监督学习比作一个侦探的任务。想象你是一个侦探,被放在一个陌生的城市,没有任何提示。你要通过观察这座城市的建筑、街道、居民活动等,去自己发现这座城市的规则和结构。比如,你可能会发现城市的不同区域有着不同风格的建筑,人们的衣着也有所不同,或者某些特定区域在特定时间会变得特别繁忙。这些发现都是基于你自己对环境的观察,而没有人告诉你哪里是商业区,哪里是住宅区。单元3深度学习技术模块3人工智能关键技术3.3.1深度学习的发展历程深度学习是一种机器学习方法,它是机器学习领域中的一个重要分支,旨在让机器能够像人一样思考和行动。深度学习的核心在于使用多层人工神经网络(由算法建模而成,能够像人的大脑一样工作)来模拟人脑的学习过程,通过学习大量数据中的内在规律和表示层次,从而实现对图像、语音、文本等复杂数据的处理和分析。模块3人工智能关键技术单元3深度学习技术模块3人工智能关键技术3.3.2深度学习的工作原理深度学习使用多层人工神经网络,这是由输入和输出之间节点的几个“隐藏层”组成的网络。人工神经网络通过将非线性函数应用于输入值的加权求和,以此转换输入数据。该转换称为神经层,该函数则称为神经元。层的中间输出称为特征,会用作下一层的输入。神经网络会通过重复转换来学习多层非线性特征(比如边缘和形状),之后会在最后一层汇总这些特征以生成(对更复杂物体的)预测。
模块3人工智能关键技术单元3深度学习技术模块3人工智能关键技术3.3.3深度学习的关键—GPU先进的深度学习神经网络可能有数百万乃至十亿以上的参数需要通过反向传播进行调整。此外,它们需要大量的训练数据才能实现较高的准确度,这意味着成千上万乃至数百万的输入样本必须同时进行向前和向后传输。由于神经网络由大量相同的神经元构建而成,因此本质上具有高度并行性。这种并行性自然而然地映射到了GPU上,与只用CPU的训练相比,计算速度大大提升,使其成为训练大型复杂神经网络系统的首选平台。推理运算的并行性质也使其十分宜于在GPU上执行模块3人工智能关键技术单元3深度学习技术模块3人工智能关键技术3.3.4深度学习案例深度学习算法有许多不同的变体,比如以下几种:只将信息从一层向前馈送至下一层的人工神经网络称为前馈人工神经网络。多层感知器是一种前馈ANN,由至少三层节点组成:输入层、隐藏层和输出层。MLP擅长使用已标记的输入进行分类预测。它们是可应用于各种场景的灵活网络。卷积神经网络是识别物体的图像处理器。在某些情况下,CNN图像识别表现优于人类,包括识别猫、血液中的癌症迹象以及MRI扫描影像中的肿瘤。CNN已成为当今自动驾驶汽车的点睛之笔。在医疗健康方面,它们可以加快医学成像发现疾病的速度,并且更快速地挽救生命。时间递归神经网络是解析语言模式和序列数据的数学工具并为企业提供能够实现听力和语音的自然语言处理的大脑。RNN应用程序不仅限于自然语言处理和语音识别。其还可用于语言翻译、股票预测和程序化交易。模块3人工智能关键技术单元4机器视觉与机器听觉模块3人工智能关键技术3.4.1机器视觉计算机视觉是一个研究领域,旨在助力计算机使用复杂算法(可以是传统算法,也可以是基于深度学习的算法等)来理解数字图像和视频并提取有用的信息。作为人工智能技术应用最广泛的领域,视觉智能的核心是用“机器眼”来代替人眼,过去的计算机视觉还主要停留在图像信息表达和物体识别阶段,而现在进人人工智能阶更强调推理、决策和应用。模块3人工智能关键技术单元3深度学习技术模块3人工智能关键技术3.4.2机器视觉的原理机器视觉是一种让计算机“看见”并理解物体和环境的技术,其目的是通过图像处理技术和模式识别算法来模拟人类的视觉功能。通俗地讲,机器视觉就像是计算机的“眼睛”和“大脑”协同工作,以从图像或视频中提取有用的信息,来做出某种决定或操作。它的应用领域非常广泛,包括工业自动化、智能家居、机器人导航、医疗影像处理等。模块3人工智能关键技术单元3深度学习技术模块3人工智能关键技术3.4.3机器听觉语言是人与人之间交流的工具,也是人与机器之问交流的阻碍,人通过用外耳道收集外界的声波,将其传到鼓膜,引起了鼓膜的震动,再由听小骨传到内耳,刺激耳蜗内对声波敏感的听觉细胞,这些细胞就将声音的信息通过听觉神经在传给大脑皮层的一定区域,这样就产生了听觉,人能够听到声音了。那么能否让人工智能充当人与人之间的翻译,甚至让人与机器流畅对话呢?答案是肯定的。语音识别,作为人机交互的第一人口,已让这一梦想成为现实:可以与人对话的智能音箱,听得懂指令的智能家居设备,能懂多国语言的智能翻译,电话客服机器人…都已走进了我们的生活。模块3人工智能关键技术单元3深度学习技术模块3人工智能关键技术3.4.4语音识别技术的应用智能语音识别主要应用于以下三个领域,这也是语音识别商业化发展的主要方向。①语音输入系统将语音识别成文字,提升用户的效率,如微信语音转换文字、讯飞输入法等。②语音控制系统通过语音控制设备进行相关操作,彻底解放双手,如智能音箱智能汽车系统(见图3-22)等。③语音对话系统与语音输入系统和语音控制系统相比,语音对话系统更为复杂代表着语音识别的未来方向。模块3人工智能关键技术单元3深度学习技术模块3人工智能关键技术3.4.5声纹识别与语音识别相比,声纹识别的最大特点在于智能系统不仅会捕捉语音内容,还会根据声波特点、说话人的生理特征等参数,自动识别说话人的身份。因为每个人发出的声纹图谱会与其他人不同,声纹识别正式通过比对说话人在相同音素上的发声来判断是否为同一个人,从而实现“闻声识人”的功能。模块3人工智能关键技术单元5跨媒体分析与推理技术模块3人工智能关键技术3.5.1跨媒体分析与推理技术概述当前,以网络数据为代表的跨媒体数据呈现爆炸式增长的趋势,呈现出了跨模态、跨数据源的复杂关联及动态演化特性,跨媒体分析与推理技术针对多模态信息理解、交互、内容管理等需求,通过构建跨模态、跨平台的语义贯通与统一表征机制,进一步实现分析和推理以及对复杂认知目标的不断逼近,建立语义层级的逻辑推理机制,最终实现跨媒体类人智能推理。模块3人工智能关键技术单元5跨媒体分析与推理技术模块3人工智能关键技术3.5.2跨媒体分析推理技术研究框架跨媒体信息包含不同的模态(Modality)信息,如图像、视频、文本、语音等。多模态深度学习(ModalityDeepLearning)通过深度学习实现对多个模态信息的统一表征、转换及深层理解,是跨媒体分析推理任务涉及到的基础技术。人工智能的目的是让机器实现类人智能,因此让机器具有像人一样处理跨媒体信息的能力,是人工智能领域中重要的发展方向之一。其中,涉及到图像、视频和文本的图文理解任务是跨媒体分析领域主要的研究方向,旨在用文字辅助对视觉内容的理解,或以视觉内容刻画文字所表达的语义。模块3人工智能关键技术单元5跨媒体分析与推理技术模块3人工智能关键技术3.5.3图文转换图文转换也可以称为图文映射,负责将一个模态的信息转换至另一模态,常见的应用包括图像视频概述(基于输入图像或视频,输出描述该视觉内容的文本)、文本生成图像(基于文本内容生成对应语义的图像)等。模块3人工智能关键技术单元5跨媒体分析与推理技术模块3人工智能关键技术3.5.4应用举例人类在信息获取、环境感知、知识学习与表达等方面都是采用多模态的输人、输出方式。例如,如果一个人要在一片草坪上找到一朵盛开的花朵,既可以用眼睛看,也可以用鼻子闻,还可以用手触摸。这种跨媒体(多模态)的输人、输出方式也是人类智慧的重要体现之一。多模态AI则将视觉、语言、听觉等多种信息进行融合,其优势在于它能够超越单模态数据的限制,并提供对复杂情况更全面的理解,为计算机提供更接近于人类感知的场景。模块3人工智能关键技术单元5跨媒体分析与推理技术模块3人工智能关键技术3.5.5跨模态检索图文匹配和检索是多模态分析的基本任务,目标是学习一种多模态的相似性度量,对于给定的查询词,返回另一模态最相似的样本,该任务可分为全局匹配与局部检索两大类。跨模态检索任务的难点主要有不同模态特征具有异构性、底层内容和高层语义之间存在语义鸿沟、模态间信息不对齐等。模块3人工智能关键技术单元5跨媒体分析与推理技术模块3人工智能关键技术3.5.6基于知识图谱的视觉问答系统视觉问答系统是让计算机根据视觉信息回答用户所提出的问题,是跨媒体内容服务的一种高级形式。不同于现有的搜索引擎,问答系统返回的不再是基于关键词匹配的相关排序,而是精确的自然语言形式的答案信息。模块3人工智能关键技术单元5跨媒体分析与推理技术模块3人工智能关键技术3.5.7挑战与展望1.主要挑战虽然跨媒体分析推理目前已经取得了一定的进展,但仍存在一定的局限性:模型的处理准确率较低。虽然计算机视觉、自然语言处理和语音识别等领域的发展促进了跨媒体分析任务准确率的不断提高,但距离实现高水平人工智能还有很大差距。模型的推理能力较弱。现有模型实现了多模态信息在同一语义空间的映射,但缺乏高层逻辑推理能力,无法实现对未知信息的预测。2.未来展望基于深度学习的跨媒体分析与推理技术虽然取得了一定的进展,但还未达到人类的预期水平,在未来还可从以下几个方面对该任务进行深入探索:获取跨媒体信息更全面的高维序列表征,对声音、文本、图像特征使用更合理的融合方式进行表征。进行模型与技术的创新,重点提升文本信息的语义准确性和视觉一致性,尤其是长视频中多事件的顺序、联系,以进行更详尽的表达。模块3人工智能关键技术单元6虚拟现实与增强现实技术模块3人工智能关键技术3.6.1VR、AR的定义虚拟现实(virtualreality,VR)技术是一种利用计算机技术模拟生成三维空间虚拟环境,并为用户提供多种逼真的感官体验(包括视觉、听觉、触觉等)的真实感模拟技术。虚拟现实技术作为仿真技术的一个重要分支,综合了多种现代科学技术,包括计算机图形学、互联网技术、人机接口技术、多媒体技术等。增强现实(augmentedreality,AR)技术是一种实时地计算摄像机的位置及姿态并在摄像机捕捉到的真实场景的画面上叠加相应虚拟信息的技术。它将虚拟信息(包括计算机生成的图形、文字、声音、动画等)实时地叠加到由相机捕捉到的现实画面之上,以达到对真实世界进行增强的目的。模块3人工智能关键技术单元6虚拟现实与增强现实技术模块3人工智能关键技术3.6.2VR与AR的发展简史1.探索阶段(20世纪30年代-60年代)2.萌芽阶段(20世纪70年代-80年代)3.发展阶段(20世纪90年代-21世纪初)4.成熟阶段(21世纪初至今)模块3人工智能关键技术单元6虚拟现实与增强现实技术模块3人工智能关键技术3.6.3VR和AR的研究现状虚拟现实技术仍然是目前的研究热点,国内外高校和公司都在关注虚拟现实技术的发展。总体来说,美国、德国、日本等国家在虚拟现实技术方面发展较早,而我国在虚拟现实技术方面起步较晚,但发展很快,在某些领域,大有后来居上之势,研究单位主要以北京航空航天大学、浙江大学、清华大学等院校为主。模块3人工智能关键技术单元6虚拟现实与增强现实技术模块3人工智能关键技术3.6.4VR与AR的联系与区别虚拟现实与增强现实联系十分紧密,存在诸多相似之处。均需绘制虚拟信息:均需用户使用显示设备:均需进行实时交互:虽然二者有着不可分割的联系,但是虚拟现实与增强现实之间的区别也很明显。对于沉浸感的要求不同:对系统算力和资源的需求不同:侧重的应用领域不同:模块3人工智能关键技术单元6虚拟
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年体育产业扶贫与乡村振兴结合方案
- 2026年汽车维修新技术培训总结报告
- 耳鼻喉科手术后护理管理培训措施
- 手术室消防管理
- 精神科工作述职报告
- 核医学诊断介入措施
- 精神文化建设成果汇报
- 脑瘫患儿头控训练方案
- 充足的营养绘本
- 内分泌科甲亢病人甲状腺功能监测指南
- 玻璃隔断安装合同范本
- 2025年江苏事业单位招聘考试综合类专业能力测试试卷(法律类)全真
- 消除艾滋病、梅毒和乙肝母婴传播乡村医生培训会-课件
- 加装电梯现浇施工方案
- 三校生政治试卷真题及答案
- 2025至2030中国特殊反应堆行业项目调研及市场前景预测评估报告
- 分接箱土建基础施工方案
- 数据资产管理实践白皮书(2025版)
- 2025年北京市水务局所属事业单位招聘工作人员(179人)模拟试卷附答案详解
- 建筑弱电工程方案设计
- 2025年医生个人问题清单及整改措施
评论
0/150
提交评论