版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《人工智能素养与技能》目录AI意识AI应用0104AI思维AI技术AI安全AI伦理0203050603AI技术Artificialintelligencetechnology一.AI技术的概念
人工智能是指利用数字计算机或由数字计算机控制的机器,模拟、延伸和扩展人类智能,从而感知环境、获取知识并运用知识以实现特定目标的理论、方法、技术及其应用系统。从技术发展路径看,人工智能经历了从早期基于规则与逻辑的符号主义方法,到受生物神经网络启发的连接主义方法,再到近年来依赖大数据与强大算力的深度学习等多个关键阶段,标志着AI从模拟人类的逻辑推理能力向模拟人类的感知与学习能力不断深化。因此,AI技术的核心目标在于模拟人类完整的信息处理与行动能力体系,具体而言,即模拟人类的听、看、说、思考、学习、行动和应变能力的相关技术。二.AI技术的组成
AI技术旨在模拟人类的完整智能,涵盖模拟思想、模拟外貌和模拟行为三大维度的技术。模拟思想的技术是“脑”,它驱动模拟外观的“体”,并通过模拟行为的“感官与四肢”与内外世界进行互动。二.AI技术的组成
AI技术的组成如图所示。未来已来
AI时代
小结未来已来
AI时代
《人工智能素养与技能》课程团队:何汉武、潘梦鹞、梁志勇、王锋、张东霞《人工智能素养与技能》目录AI意识AI应用0104AI思维AI技术AI安全AI伦理0203050603AI技术Artificialintelligencetechnology1.理解AI算力的概念;2.理解AI算力的原理3.理解AI算力的硬件;4.理解AI算力的作用;5.理解AI算力的发展;6.理解云计算。知识目标1.AI算力Artificialintelligencecomputingpower1.培养AI算力思维。素养目标1.能够使用AI基本算力相关的知识和技能。技能目标一.AI算力的概念
算力、算法和数据构成了支撑人工智能的三大基石。在这三者中,算力宛如人工智能的“发动机”,是人工智能的基础。AI算力是指支撑AI算法训练和运行的计算能力,包括处理海量数据、执行复杂数学运算以及进行深度学习等任务的能力,主要是用于运行、训练和推理AI模型。在数据处理、模式识别、预测分析等复杂计算任务中,强大的计算能力必不可少。通常用TOPS(每秒万亿次操作)或FLOPS(每秒浮点运算次数)来算力标准衡量。一.AI算力的概念
AI算力使人工智能的“大脑”更为强大。AI依赖类似人脑中是由众多相互连接的简单计算单元构成多层结构的神经元网络。神经网络的训练过程是通过调整单元间的连接强度来识别数据中的模式和特征。网络层数和连接数越多,复杂性越高,模型的训练和运行需要大量计算资源支撑。
通用算力、智能算力、超级算力、量子算力“四算”基本涵盖了国内外最前沿的算力模式。四算的“融合”将为通用计算机、超级计算机、人工智能大模型和量子计算机构建一个庞大的“算力池”,助力其实现高速运算。云计算是基于通用计算技术,并通过虚拟化、分布式等关键技术实现的一次深刻的“服务化革命”,是支撑当今数字经济与AI浪潮最重要的基础设施形态之一。二.AI算力的原理
AI应用包括“训练”和“预测决策”过程。训练过程是指通过对已有数据进行学习,建立识别或预测特定目标的模型;预测决策过程是指用新数据来使用已训练模型完成特定的任务,例如垃圾邮件分类、人脸识别等。AI算力是支撑AI技术发展的关键因素,提供必要计算资源来处理和分析大量数据,训练复杂的算法模型,实现快速推理过程。二.AI算力的原理1.模型训练。深度学习模型通常包含数百万甚至数十亿个参数,它的训练需要强大算力支持,对大量数据进行多次迭代运算。2.模型推理。使用训练后的模型对新数据进行预测或分类。虽然模型推理的计算量通常小于模型训练,但仍需使用大量数据计算。例如,自动驾驶、智能机器人在实时环境中进行推理和响应需要高性能硬件和算法来实现。3.大规模数据实时处理。在自动驾驶、实时语音识别、实时视频分析等应用中需实时处理大量数据,需要强大的算力支持。4.模型调优和优化。复杂的深度学习模型需进行大量实验和调优以获得最佳性能,这一过程同样需要大量的计算资源来支持。。三.AI算力的硬件AI算力为算法提供计算支持,是人工智能的基石。计算硬件包括中央处理器(CPU)、图形处理单元(GPU)、张量处理单元(TPU)及专用AI芯片(ASIC),以及云计算平台和超级计算机集群等多元化服务,满足不同的人工智能应用场景。算力如同挖矿,算力水平越高,挖矿速度越快。。1.AI算力的硬件(1)中央处理器CPU。是运算和控制核心,在未来高性能计算中与其他专用芯片搭配使用。三.AI算力的硬件(2)图形处理器(GPU)。亦称显示核心、视觉处理器或显示芯片,是一种专门用于个人电脑、工作站、游戏机以及手机和平板电脑等移动设备上进行图像运算的微处理器。最初,GPU是为渲染图形而设计,然而其强大的并行处理能力使其在深度学习和人工智能领域得到广泛应用。三.AI算力的硬件
相较于CPU,GPU的计算能力显著更强,其并行数据处理流程大幅提升了运算能力,而高速内存则进一步加快了运算速度。GPU技术的应用极大地增强了计算能力,显著缩短了计算时间,有效处理了海量数据,大幅提高了机器学习和深度学习算法的训练效率和准确性,从而有力地推动了AI技术的发展与应用。
三.AI算力的硬件(3)现场可编程门阵列(FPGA)。是一种半定制电路,能够通过编程实现特定计算任务。其灵活性体现在可根据算法需求调整电路结构,预先将固定算法的数据流及执行指令写入硬件,从而节省指令获取和解码的时间,大幅提升运算效率。FPGA具备高度灵活性和高效性,同时拥有可编程、高性能和低功耗三大显著优势。三.AI算力的硬件(4)专用集成电路(ASIC)。专为特定任务而设计的芯片,旨在加速机器学习运算,例如去除噪声电路和播放视频电路。三.AI算力的硬件(5)神经网络处理器(NPU)。是专为深度学习算法设计的处理器,能够高效地处理神经网络计算任务。三.AI算力的硬件三.AI算力的硬件2.AI芯片关键特征
这是一种新型计算范式,适用于训练和推断、大数据处理,具备高数据精度、重构能力及开发功能等特点。(1)并行加速计算GPU。其拥有上千个简单核心及并行硬件线程,具备强大的并行运算能力和浮点运算能力,通用性强且效率高。然而,GPU无法独立工作,需受CPU控制。(2)半定制化FPGA。该方案低能耗、高性能且可编程,对使用者要求较高,适用于开发周期较短的IoT产品、传感器数据预处理工作,以及小型开发的试错升级迭代阶段。。三.AI算力的硬件(3)全定制化ASIC。这是一种为实现特定要求而定制的芯片,需求确定后进行专门设计。其功耗控制出色,性能稳定且可靠性高,但成本较高,定制后难以修改。(4)神经拟态类脑芯片。该芯片模拟生物神经网络的计算机制,将定制化的数字处理内核视为神经元,内存则充当突触角色。四.AI算力的作用
在人工智能的技术体系中,算力是与算法、数据并列的三大基础要素之一,是人工智能的“发动机”,其作用深刻地嵌入到AI系统从设计、训练到部署的全栈架构之中。(1)决定模型能力上限的架构基石。在体系结构层面,算力水平直接决定了可训练模型的规模、复杂度和精度。(2)驱动模型迭代与进化的核心燃料。模型的训练需要经历海量数据的反复计算与参数优化。强大的智能算力集群缩短了从实验到应用的研发周期,使得快速迭代、持续学习成为可能,加速了整体AI技术的演进速度。四.AI算力的作用(3)实现高效部署与应用的关键保障。在推理阶段,专用的智能算力能够以低延迟、高能效的方式运行模型,这是AI技术在终端设备、实时系统中可靠落地的决定性因素。其性能和能耗优势,是支撑数字经济新业态、新模式涌现的技术底座。(4)国家与产业的战略竞争焦点。算力在AI体系中的基础性与决定性作用,使智能算力规模与水平已成为衡量国家科技竞争力的核心指标。发展自主可控的先进算力,是构建安全、稳健的人工智能产业生态,赢得未来发展主动权的主战场。五.AI算力的发展
根据预测,到2025年,全球算力规模将突破3ZFlops;至2030年,将超过20ZFlops,AI算力在全球迅猛发展。2022年,我国AI算力规模达到268百亿亿次/秒(EFLOPS),超越通用算力规模,计算力水平位居全球第二,新增算力设施中智能算力占比超过一半。我国规划十余个高性能计算机集群智算中心。AI算力成为中国数字经济发展的新引擎。
AI算力已从后台支持走向前台核心,其应用场景贯穿了从前沿科研探索)到日常生活服务的全链条。(1)模型训练与研发。这是算力消耗最密集的阶段。需要海量算力处理庞大数据集,通过万亿次以上的并行计算,反复调整模型参数。如训练DeepSeek、文生图大模型、自动驾驶感知模型。一次训练可能需数千张GPU运行数月。
六.典型应用场景六.典型应用场景(2)模型推理与部署。将训练好的模型应用于实际生产环境,处理用户请求。如智能客服实时回复、手机拍照美颜、推荐系统生成下一屏内容。(3)云端集中式计算。在大型数据中心进行大规模训练和复杂推理。如云计算平台提供的AI服务、企业级AI模型训练。(4)边缘与终端计算。在靠近数据源或终端设备(如手机、汽车、摄像头)上进行实时推理。如自动驾驶的毫秒级决策、工业机器人的实时避障、手机的离线语音识别。六.典型应用场景(5)生成式AI。如生成文本、图像、代码、视频等。(6)科学发现与模拟。替代传统实验与仿真,在数字世界进行大规模科学计算。如AlphaFold预测蛋白质结构、气候模型预测天气、核聚变等离子体模拟。(7)复杂系统决策与优化。处理多变量、动态变化的环境。如电网动态调度、物流全球路径优化、金融高频交易。典型案例中国气象局“风云地球”平台
中国气象局携手华为云,成功构建了新一代气象超算系统,凭借千P级AI算力,全面革新了台风预警模式:
预警时间缩短:传统台风路径计算预报需耗时6小时,新系统借助AI物理模型与超算集群,计算时间缩短至1小时,计算效率提升85%。
精准分析:新系统实时解析来自10余颗气象卫星、雷达及地面观测站的百万级数据点,精准分析台风眼结构变化及外围环流特征。
典型案例
实战显效:在超强台风“杜苏芮”登陆前夕,系统提前72小时精准锁定福建晋江登陆点,误差仅为5公里;对浙江沿海的极端暴雨预警提前量达48小时,有效辅助转移群众超过30万人。
该系统投入使用后,台风预警时间平均提前45分钟,台风24小时路径预报误差缩减至62公里,大大缩短预警时间和提高预报准确度,显著降低灾害损失。未来AI算力扩容3倍,构建“台风数字孪生”预警体系。未来已来
AI时代
小结未来已来
AI时代
《人工智能素养与技能》课程团队:何汉武、潘梦鹞、梁志勇、王锋、张东霞《人工智能素养与技能》目录AI意识AI应用0104AI思维AI技术AI安全AI伦理0203050603AI技术Artificialintelligencetechnology1.理解AI算法的概念;2.理解AI算法的原理;3.理解AI算法的特点;4.理解AI算法的开发工具;5.理解AI算法的应用。知识目标2.AI算法Artificialintelligencecomputingpower1.培养AI算法思维。素养目标1.能够使用AI基本算法相关的知识和技能。技能目标一.AI算法的概念
算力、算法和数据是人工智能的三大支撑要素。其中,算法是人工智能的核心,被称为人工智能的灵魂。AI算法是指处理和计算海量数据,提炼知识的方法与规则。算法模仿人类的学习、推理及决策过程,广泛应用于解决分类、回归、聚类、推荐、生成等多个领域各类特定问题的计算过程。AI算法能够自主处理和分析复杂的数据集,学习其中的模式、独立做出决策。
AI算法包括基于统计的机器学习算法(MachineLearning)和深度学习算法(DeepLearning)两大类。一.AI算法的概念二.AI算法的原理1.机器学习算法
机器学习是指计算机模拟或实现人类的学习行为,获取新知识或技能,重新组织已有的知识结构,不断提升自身性能。使计算机具备类似人类的学习和思考能力,从已知数据中提取规律,并利用这些规律对未知数据进行预测。机器学习包括:(1)监督学习。通过已标记的训练数据进行学习,适用于分类和回归任务,例如支持向量机(SVM)、决策树和随机森林等。简而言之,这类似于“跟老师学”,在老师的指导下,学生从老师那里获得正确或错误的反馈。学习结果表现为函数,可以是概率函数、代数函数或人工神经网络模型。这就像解答有标准答案的练习题,在解题过程中,通过对照答案来分析问题并找出解决方法。其要求为每个样本提供预测量的真实值。。二.AI算法的原理(2)非监督学习。处理未标记的数据,旨在发现数据中的模式和结构,例如聚类算法(如K-means、层次聚类)和主成分分析(PCA)。简单来说,这相当于“自学标评”,在没有老师的环境中,学生自主学习,通常依据既定标准进行评价,或者无评价标准。采用聚类方法,学习结果表现为不同的类别。这就像所做的练习题没有标准答案,无法确定答案的正确性,缺乏参照。无需为每个样本提供预测量的真实值。(3)半监督学习。介于监督学习和非监督学习之间,结合少量标记数据和大量未标记数据进行学习。二.AI算法的原理(4)强化学习。通过奖励和惩罚机制来学习如何执行任务,例如Q-learning、SARSA和深度Q网络(DQN)。简而言之,这类似于“自学自评”,在没有老师的环境中,学生自我评价问题答案,以统计和动态规划技术为指导的学习方法。目标是获得一个策略来指导行动。例如,在围棋博弈中,根据盘面形势指导每一步的落子位置;在股票交易中,指导何时买入、何时卖出。二.AI算法的原理2.深度学习算法
深度学习是机器学习的高级形态,通过构建多层的神经网络(即深度神经网络),模拟人脑进行复杂信息机制处理,自动学习数据中的高阶特征和模式。深度学习是一种包含多个隐含层的神经网络结构,借助大量数据和训练发现数据的规律,执行模式识别、分类、预测等任务。深度学习包括:(1)卷积神经网络(CNN):专为图像处理设计,通过卷积核提取空间特征,代表性模型包括ResNet、VGG等。二.AI算法的原理(2)循环神经网络(RNN):适用于处理序列数据(如文本、时间序列),借助循环结构捕捉时序依赖关系,典型模型有LSTM、GRU等。(3)Transformer:基于自注意力机制(Self-Attention),擅长长距离依赖建模,主导自然语言处理(NLP)领域,代表模型如BERT、GPT等。(4)生成对抗网络(GAN):通过生成器和判别器的对抗训练,生成逼真数据,广泛应用于图像、音频等领域。三.深度学习算法应用领域
深度学习已成为驱动当代人工智能突破的核心引擎,其应用已广泛应用领域:(1)计算机视觉。涵盖图像分类、目标检测及人脸识别等多个领域。(2)自然语言处理(NLP)。涉及机器翻译、文本生成以及情感分析等多项技术。(3)语音处理。包括语音识别(如Siri)和语音合成等多种应用。(4)强化学习。结合深度学习深度强化学习(DRL),广泛应用游戏AI和机器人控制等领域。四.机器学习和深度学习的差异
机器学习和深度学习代表了两种不同的数据处理范式。(1)机器学习。计算机通过特定算法从数据中自主学习和提取规律,进行预测或决策,无需显式编程。该方法适用于中小规模数据集,特征工程对最终结果具有显著影响。主要适用于处理结构化数据,包括分类、回归、聚类等任务。(2)深度学习。作为机器学习的关键子集,通过多层神经网络高效处理复杂数据,并拥有自动提取特征的能力。深度学习的自动特征提取功能,显著降低了人工干预的必要性。该方法对数据量有较高要求,数据量越大,模型的性能通常越出色。深度学习显著优势在于擅长处理非结构化数据,包括图像、语音和文本等,广泛应用于计算机视觉和自然语言处理等领域。四.机器学习和深度学习的差异
机器学习和深度学习的差异如图所示。五.AI算法的特点AI算法主要通过数据驱动,以下几项是关键特性:(1)自适应性。具备随时间推移和新数据加入而自我优化的能力。(2)复杂性处理。能够高效处理高维数据及非线性关系。(3)不确定性应对。在数据不完整或存在噪声的情况下,依然能够做出合理决策。(4)可扩展性。具备处理大规模数据集的能力。六.AI算法的应用
随着人工智能技术的不断进步,AI算法能够解决以往只有人类才能处理的复杂问题,在金融科技、医疗保健、教育、娱乐、零售和制造等多个行业、领域得到广泛应用。(1)图像识别。广泛应用于面部识别、物体识别及医学影像分析等多个领域。
(2)语音识别。将语音转换为文本,广泛用于智能助手和语音命令功能中。
(3)自然语言处理。处理文本数据,应用于聊天机器人、机器翻译及情感分析等方面。
(4)预测与推荐系统。基于用户行为和偏好,预测并推荐商品或内容。典型案例多模态健康预警系统
传统的慢性病管理依赖体检数据来评估健康状态,无法清晰了解慢性病的状态和对慢性病进行预测。AI模型融合贯通体检中心、社区健康服务中心及可穿戴设备之间的数据,能够实时分析饮食记录、运动轨迹、血糖波动在内的多种数据。例如,当高血压患者连续三天盐分摄入超标、夜间睡眠呼吸暂停时,系统高发出血压健康预警。慢性病管理从原来的“亡羊补牢”方式改为“未雨绸缪”方式,降低高血压患者的急性发病率。未来已来
AI时代
小结未来已来
AI时代
《人工智能素养与技能》课程团队:何汉武、潘梦鹞、梁志勇、王锋、张东霞《人工智能素养与技能》目录AI意识AI应用0104AI思维AI技术AI安全AI伦理0203050603AI技术Artificialintelligencetechnology1.理解AI数据的概念;2.理解AI数据的作用;3.理解AIAI数据的处理;4.理解AI数据的重要性5.理解AI数据的典型应用场景。知识目标3.AI数据Artificialintelligencecomputingpower1.培养AI数据思维。素养目标1.能够使用AI基本数据相关的知识和技能。技能目标一.AI数据的概念
算力、算法和数据是人工智能的三大支撑要素。其中,数据被誉为人工智能的燃料、石油、血液和粮食,堪称其核心所在。没有数据的人工智能如同无源之水,难以前行。AI数据是指用于训练、评估和部署AI模型的各种类型数据。AI数据是训练和优化AI算法的基石,包括文本、图片、音频、视频、数字等各种形式。数据的质量和多样性决定了AI模型性能的优劣。一.AI数据的概念1.AI数据的类型
包括结构化(表格数据)、半结构化(JSON、XML)和非结构化(文本、图像、音频、视频等)数据。(1)文本数据。包括语言文本、文章、评论、邮件等。如常用于自然语言处理(NLP)的情感分析、文本分类、命名实体识别、文本生成等。(2)图像数据。包括照片、图像、地图等。应用于计算机视觉任务,如图像分类、目标检测、图像分割、人脸识别等。(3)音频数据。涉及语音、音乐、语音识别中的声音等。通常用于语音识别、语音合成、情感分析等任务。一.AI数据的概念(4)视频数据。包括视频剪辑、电影、监控录像等。用于动作识别、视频内容理解、视频摘要等任务。(5)结构化数据。涵盖数据库中的表格数据、日志文件、传感器数据等。常用于机器学习和数据挖掘任务,如预测、分类、聚类等。(6)地理空间数据。包括地图、卫星图像、地理信息系统(GIS)数据等。通常用于地理信息系统、地理空间分析等领域。(7)生物医学数据。涉及基因组数据、蛋白质数据、医学影像数据等。常用于生物信息学、医学影像分析、药物发现等领域。一.AI数据的概念(8)社交媒体数据。包括社交网络上的用户信息、帖子、评论等。用于社交网络分析、推荐系统等任务。(9)传感器数据。涵盖温度、湿度、压力、光线等各种传感器采集的数据。通常用于物联网、智能城市等领域。二.AI数据的作用(1)模型训练。数据被用于训练机器学习和深度学习模型,使AI系统能够识别模式和特征。(2)验证与测试。数据用于验证模型的准确性和泛化能力,确保其在未见过的数据上表现优异。(3)性能优化。通过对模型性能的持续监控和调整,数据能够助力提升AI系统的效率和准确性。
数据的真正价值在于其“可用性”,而非数量或存储位置。三.AI数据的处理1.AI数据的处理(1)主动收集。通过传感器、摄像头、麦克风等设备实时获取数据。(2)被动收集。从现有数据源,如社交媒体、网络日志、交易记录、公开数据、实验数据、企业内部数据等,提取所需信息。(3)数据标注。为所收集的数据添加标签或注释,以助AI系统准确理解数据内容。(4)数据清洗。剔除错误、重复或无关数据,确保数据的准确性和可用性。(5)数据预处理。转换数据格式,使其适配模型训练需求,如进行缩放、编码、归一化处理。三.AI数据的处理(6)特征工程。从原始数据中提炼有用特征,供算法有效利用。(7)AI模型训练数据。为实现精准视觉识别,需获取海量优质应用场景数据,确保数据规模充足且具代表性,以便模型学习各类模式和规律,例如大量图像数据用于训练图像识别模型,大量文本数据用于训练自然语言处理模型。(8)特征工程。再次强调从原始数据中提取关键特征,以支持算法的高效运行。三.AI数据的处理2.大模型数据工程
大模型数据包括训练数据集的数据采集、数据预处理、数据标注、质量评估、数据合成、开放共享等全生命周期。(1)数据预处理。多模态词元融合和实时处理成为主要发展方向,数据预处理技术正向多模态融合、智能化、实时性全面进化:一是多模态词元化序列向量的有效融合;二是自动化与智能化水平的持续提升;三是实时处理与流式数据处理能力的不断增强;四是边缘计算加速处理效率的趋势逐步显现。三.AI数据的处理(2)数据标注。标注技术要求高效处理大规模数据集,具备多模态数据和跨领域数据的综合处理能力。数据标注逐渐向专业化、智能化、多模态方向发展:一是自动化与智能化标注工具的创新;二是多模态数据标注技术的融合;三是持续学习与反馈机制的引入,促进标注质量和效率的提升。(3)质量评估。数据质量评估和模型反馈机制共同推动数据质量不断提升。人工智能数据集质量评估需求包括完整性、准确性、一致性、时效性和可解释性。三.AI数据的处理(4)数据合成。合成数据有望解决大模型的潜在数据瓶颈。合成数据技术创新趋势如下:一是合成数据模型的深度进化;二是多模态合成能力的不断突破,通过整合不同模态特征,生成声音、视频、3D模型等多种类型数据,丰富合成数据维度,为复杂场景应用(如自动驾驶、虚拟现实等)提供重要技术支持;三是强化学习与合成数据的融合发展;四是隐私保护与合规性技术的不断增强。四.AI数据的重要性
数据是AI发展核心资源,对于算法训练至关重要,有助于AI系统更好地学习和预测。(1)数据是AI的“智能之源”。模型训练的唯一依据是完全通过分析和学习海量数据而获得。AI模型的准确率、泛化能力取决于数据的质量、规模和代表性。(2)数据决定AI的“能力象限”。高质量的数据是训练出可靠、可信AI模型的基石。大规模数据使模型能够覆盖更多场景、学习更复杂的模式。多样化的数据有助于减少模型偏见,提升其在未知环境下的适应能力,确保其服务更公平、更包容。垂直、专业的领域数据是孕育行业大模型和专家系统的关键。四.AI数据的重要性(3)数据是连接技术与场景的“关键桥梁”。在产业应用中,AI不仅依靠历史数据训练,更依赖实时产生的业务数据进行推理、决策和持续优化。通过持续的数据反馈,AI模型可以实现迭代更新和性能提升,从静态模型进化为动态学习系统。(4)数据已成为数字时代的“新型生产要素”。高质量、大规模的数据集与算力、算法成为国家科技竞争和企业数字化转型的战略性基础资源。许多AI创新和商业模式都始于对特定数据资源的洞察、获取与利用能力。数据是AI发展的基础和关键支撑,对AI性能和表现有着深远影响。五.典型应用场景1.感知与认知智能场景
依赖大量标注数据,训练模型以理解物理世界。(1)计算机视觉:如安防监控、工业质检、医疗影像诊断。(2)语音与自然语言处理:如智能语音交互、内容审核与舆情分析。五.典型应用场景2.决策与预测智能场景
依赖结构化、时序性数据,训练模型发现规律、预测未来。(1)金融科技:如信用风控、量化投资。(2)智慧城市与交通:如交通流量预测、能源调度。(3)推荐系统:如电商与内容平台利用用户历史行为、物品属性、社交关系数据,实现个性化推荐。五.典型应用场景3.生成与创造智能场景
依赖高质量、多模态内容数据,训练模型进行原创性合成。(1)AIGC:如文生文/文生图/文生视频、数字人与虚拟内容。(2)设计与研发:如药物发现、材料科学。4.控制与协同智能场景
依赖仿真与环境交互数据,训练模型在物理世界做出精准动作。(1)自动驾驶:通过海量真实路况和仿真数据,训练车辆感知、决策、控制的全栈能力。(2)机器人操控:利用传感器数据、动作示教数据,使机器人学会抓取、行走、协作等技能。典型案例体检总检智能助手
体检是以健康为中心的预防性医学检查,医生通过询问病史、检查体格、实验室检测(如血液、尿液分析)及影像学检查(如B超、X光)等手段,全面评估体检人的健康情况。每次拿到厚厚的体检报告如难以看懂的天书,撰写体检报告的医生耗时费力。如今,AI体检总检智能助手能够迅速分析各项体检数据,生成条理清晰、简单易懂的报告,并为体检人提供针对性的健康建议。AI体检总检智能助手像私人健康管家,使体检发挥预防疾病的重要作用。未来已来
AI时代
小结未来已来
AI时代
《人工智能素养与技能》课程团队:何汉武、潘梦鹞、梁志勇、王锋、张东霞《人工智能素养与技能》目录AI意识AI应用0104AI思维AI技术AI安全AI伦理0203050603AI技术Artificialintelligencetechnology1.理解AI大模型的概念;2.理解AI大模型的特征;3.理解AI大模型训练;4.理解AI大模型的应用;5.理解AI大模型的发展6.理解AI数据的典型应用场景。知识目标4.AI大模型Artificialintelligencecomputingpower1.培养AI大模型思维。素养目标1.能够使用AI大模型生成文本、图片、声音、视频、代码等内容。技能目标一.AI大模型的概念1.AI大模型的概念AI大模型是指具备超大规模参数和复杂计算结构的机器学习模型,能够处理海量数据,完成自然语言处理、图像识别等多种复杂任务。AI大模型由数据驱动,实现具体AI算法,执行特定任务。一.AI大模型的概念2.按照通用和行业分类
可分为通用大模型与行业大模型。通用大模型是在海量、跨领域、通用数据上训练而成的基础性人工智能模型,具备广泛的知识覆盖和通用的任务处理能力。行业大模型是在通用大模型的基础上,注入特定行业的知识、数据和业务逻辑,进行深度优化和精调而成的专用型人工智能模型。行业垂直大模型的优点如下:(1)高性价比。在较小参数量模型的基础上,通过相对低成本的再训练或精调,能够达到较好的性能效果。目前,十亿至百亿级参数量的行业大模型是主流选择,相较于动辄千亿级以上参数量的通用大模型,能显著节省开发成本。一.AI大模型的概念(2)专业定制。基于开源模型进行开发,可根据需求调整模型结构、参数等,以更好地满足个性化应用需求。通过模型服务方式,机构可从平台提供的多种模型中快速选择合适的产品,包括厂商已开发的行业大模型初始版本。(3)数据安全。采用私有化部署方式,使机构能够更放心地利用私有数据提升应用效果,减少数据安全方面的顾虑。一.AI大模型的概念3.按照模态分类(1)单模态。仅能理解和处理单一类型的数据,例如文本。(2)多模态。能够理解和处理两种或以上类型的数据,例如同时处理文本、声音、图像等多种信息,类似于人脑的工作方式。二.AI大模型的训练AI大模型的训练和推理过程需要大量数据和计算资源,通过捕捉复杂的数据分布和特征解决复杂的任务和问题。AI大模型的数据训练过程包括以下两个主要阶段:(1)预训练与微调。大模型通常采用“预训练加微调”方式进行训练。在预训练阶段,模型在海量数据上进行学习,掌握通用语言、视觉模式。在微调阶段,模型针对特定任务进行精细调整。(2)多任务学习能力。在过微调后,大模型能够在语言翻译、文本摘要、问答系统、图像识别等多多种不同的任务中表现出色。三.生成式人工智能AIGC(生成式人工智能)基于算法、模型和规则,生成文本、图片、声音、视频、代码等多种形式的内容。AIGC提供生成式人工智能产品或服务时,必须遵守相关法律法规的要求。(1)文本生成。基于自然语言处理技术的文本内容生成,可分为非交互式和交互式两种。非交互式文本生成包括摘要/标题生成、文本风格迁移、文章生成、图像生成文本等。交互式文本生成则主要包括聊天机器人和文本交互游戏等。(2)图像生成。图像生成可分为图像编辑修改和图像自主生成两大类。图像编辑修改应用于图像超分辨率、图像修复、人脸替换、图像去水印、图像背景去除等方面。图像自主生成则涵盖端到端的生成过程,如真实图像生成卡通图像、参照图像生成绘画图像、真实图像生成素描图像、文本生成图像等。三.生成式人工智能(3)音频生成。音频生成包括语音克隆、人声替换、数字人播报、语音客服等应用。此外,还可基于对文本描述和图片内容的理解,生成场景化音频和乐曲。(4)视频生成。视频生成的原理与图像生成相似,主要分为视频编辑和视频自主生成。视频编辑应用于视频超分辨率、视频修复、视频画面剪辑等。视频自主生成则可用于图像生成视频和文本生成视频。(5)多模态生成。以上四种模态可以相互组合搭配,实现模态间的转换生成,如文本生成图像、文本生成音频、文本生成视频、图像生成文本、图像生成视频等。四.AI大模型的特征(1)参数量庞大。AI大模型通常拥有数亿至数百亿的参数量,相较于小模型,具备更强的表达能力和学习能力。(2)多层网络结构。大模型通常采用深度神经网络结构,包含多层神经元,能够学习到数据的多层次抽象表示。(3)依赖大规模数据集。大模型需使用大规模数据集进行训练,以充分挖掘模型潜力,避免过拟合,并提升泛化能力。(4)需高性能计算资源。训练大模型通常需大量的计算资源,如GPU集群或专门设计的硬件如TPU。五.AI大模型的发展1.大模型发展对算力需求的影响
大规模的训练和推理过程需要强大的高性能算力支持,高端AI芯片成为大模型高效训练和应用落地的核心要素,直接决定了大模型发展能力的高低。由于AI大模型的参数规模和训练数据量极为庞大,因此需依赖由千卡以上AI芯片构成的服务器集群来提供支撑。2.AI芯片的自研与算力优化
算力芯片是大模型的“动力引擎”,拥有丰富算力资源的企业具备强大的市场竞争力。强大的算力资源加速模型训练,提升市场响应速度,提高模型预测精度和整体性能。在大模型高算力需求推动下,各大厂商纷纷加大AI芯片的研发力度。五.AI大模型的发展3.计算、存储、网络的协同支持
大模型的研发训练高度依赖于高端芯片、集群及其生态系统。大语言模型的训练和推理过程受限于芯片的通信速度,需要计算、存储、网络三者协同工作,提供更优质算力支持。4.深度学习框架的关键作用
强大算力是深度学习等复杂计算的坚实基础。在训练过程中,高效的深度学习对确保大模型训练的稳定性和高效性至关重要。5.大规模算力集群的创新应用与突破
我国骨干厂商积极探索打造高性能算力集群,并通过协同优化、工具支持等手段,实现高效稳定的大模型训练,进一步提升算力的使用效率。六.AI大模型的应用(1)文本生成。能够生成各类高质量文本,如新闻稿、小说、诗歌等。依据输入的关键词或文本主题,生成相关性强且连贯的文本内容,为作家、广告从业者等提供灵感和创作辅助。(2)机器翻译。通过学习源语言与目标语言之间的映射关系,实现高效且准确的翻译。(3)问答系统。能够理解并精准回答用户提出的各类问题,为在线教育、智能客服等领域提供有力支持。(4)虚拟助手与聊天机器人。为用户提供即时支持,解答常见问题。能够准确理解用户意图和需求,给出恰当的回复和建议,提供智能、便捷的服务体验。(5)智能客服。作为在线客服,能够解答用户的各类问题和疑虑,提供个性化的服务方案。六.AI大模型的应用(6)社交媒体内容创作。创作社交媒体内容和帖子吸引用户关注和互动。根据用户兴趣和偏好,定制相关内容提升社交媒体活跃度和用户黏性。(7)创意艺术领域。能够创作绘画、音乐等富有创意的艺术作品,为艺术家和创作者提供灵感和素材支持。六.AI大模型的应用七.典型大模型及其应用1.ChatGPT模型ChatGPT(ChatGenerativePre-trainedTransformer)是OpenAI研发的大型语言模型,模型采用自注意力机制(Self-AttentionMechanism)的Transformer架构,由编码器(Encoder)和解码器(Decoder)两部分组成。GPT模型通过海量无监督文本数据的学习掌握语言的普遍规律,借助深度学习方法,通过多层神经网络对文本进行高效编码和解码。GPT模型具备自然语言理解和生成能力,生成流畅自然的文本。能够理解和学习人类语言,并进行对话,能够根据聊天内容进行互动,实现与人类交流,实现撰写邮件、视频脚本、文案、翻译、代码等多样化任务。七.典型大模型及其应用2.GPT-4o模型GPT-4o(o代表Omnimodel,即全能模型)实现了跨模态速度的突破,标志着AI性能的新飞跃。
模型架构:基于Transformer的多模态处理架构,通过多模态编码器和解码器同时处理文本、语音和图像输入。
模态兼容性:能够处理包括文本、声音和图像在内的多种数据形式,提供丰富的多模态交互体验,GPT-4主要针对文本数据。七.典型大模型及其应用
处理速度:具备极快的处理速度响应音频输入,平均响应时间为320毫秒,接近人类反应速度。
性能表现:在多语言处理、音频和视觉识别方面实现性能显著提升。
应用能力:文本处理、逻辑推理和编程智能能力,尤其在非英语文本处理上取得突破性进展,在英文文本和编程代码处理上与GPT-4Turbo持平。七.典型大模型及其应用3.OpenAISora文生视频大模型
是一款备受瞩目的文生视频大模型,能够根据用户输入的提示文本直接生成高质量、连贯的短视频。①文本到视频生成:用户只需要输入一段文字描述,即可生成一段与描述相符的动态视频(最长1分钟)。②高保真画面:生成视频包括复杂场景、多角色、特定动作及细节背景,画面逼真且物理逻辑合理。③多镜头表现:模拟推拉、平移、切换视角多种运镜效果,呈现出类似专业剪辑的叙事风格。④图像/视频扩展:能够基于静态图像生成动态视频、扩展视频时长。七.典型大模型及其应用Sora文生视频如图所示。七.典型大模型及其应用4.Gemini大模型GoogleDeepMind的人工智能模型,能够同时识别文本、图像、音频、视频和代码五种类型的信息。能够理解生成包括Python、Java、C++在内的主流编程语言的高质量代码,具备全面的安全性评估。5.国产大模型
包括文心一言、通义千问、豆包、kimi、智谱清言、腾讯混元等众多优秀模型。七.典型大模型及其应用6.DeepSeek模型
深度求索科技的推理模型,具有卓越性能和创新技术架构,结合Transformer和卷积神经网络(CNN)优点,能够高效处理长文本,捕捉局部特征。(1)构建完备的推理能力体系,实施参数规模的分层设计。(2)凸显高性价比优势,实现推理性能与成本的优化平衡。(3)创新双轨训练机制,以前沿技术驱动卓越性能。在技术架构层面,DeepSeek-R1采用独有的双轨训练机制。(4)强化灵活部署能力,拓宽模型应用边界。DeepSeek-R1在部署灵活性方面表现卓越,支持4bit量化压缩技术,通过对模型参数的压缩,在不影响模型性能的前提下,减少模型体积。(5)促进开源生态与商业服务的协同,重塑行业发展格局。(6)场景应用:垂直领域大模型,如讲课数字人;大模型平台:编教材+资料库+模型+AI伴读;公司+大模型=某个领域AI助手;看病内科模型;仓库管理大模型;律师+大模型=律师AI助手。六.AI大模型的应用典型案例AIGC内容安全检测防护平台
中国电信股份有限公司北京研究院开发了国际领先的AIGC内容安全检测防护平台,该平台具有自主知识产权,针对生成式人工智能在意识形态和幻觉等方面的风险构建,符合《生成式人工智能服务安全基本要求》。平台秉持“以攻促防”的建设理念,包括事前安全测评、事中实时防护、事后溯源优化,全面覆盖网信办规定的安全风险。平台从数据、模型、内容、伦理、认知安全等多个维度,全方位实施自动化AI安全治理。目前,该平台已在中国电信全网推广应用,有效助力全集团生成式人工智能产品服务识别安全风险,维护社会主义核心价值观。
未来已来
AI时代
小结未来已来
AI时代
《人工智能素养与技能》课程团队:何汉武、潘梦鹞、梁志勇、王锋、张东霞《人工智能素养与技能》目录AI意识AI应用0104AI思维AI技术AI安全AI伦理0203050603AI技术Artificialintelligencetechnology1.理解AI虚拟数字人的概念;2.理解AI虚拟数字人的原理3.理解AI虚拟数字人的特征;4.理解AI虚拟数字人的应用;5.理解AI虚拟数字人的典型应用场景。知识目标5.AI虚拟数字人Artificialintelligencecomputingpower1.培养AI虚拟数字人思维;2.培养应用AI虚拟数字人能力。素养目标1.能够使用AI虚拟数字人生成数字人形象、动画等内容。技能目标一.AI虚拟数字人的概念1.AI虚拟数字人的概念AI虚拟数字人(VirtualDigitalHuman)是通过计算机技术构建,拥有近似人类的外貌、行为和思想特征的具备类人特质的数字形象。AI虚拟数字人是元宇宙中自然人进行虚拟时空感知的核心载体。这些数字化人物形象与人类形象高度接近,广泛应用用于游戏开发、虚拟现实、电影制作以及人机交互等领域。
AI虚拟数字人系统包括语音克隆系统、语音合成系统、形象建模系统、形象驱动系统和人机交互系统。1.语音克隆系统
是指通过使用和训练一个新的模型,实现对特定发音人声音的精准复制。二.AI虚拟数字人的原理二.AI虚拟数字人的原理
将输入的文本信号序列经过适当的韵律处理后,通过特定的合成器,生成高自然度、高音质、表现力丰富的语音输出,使计算机或相关系统能够拥有类似人类的语言能力。个性化语音合成技术通过对不同人的语音特征参数进行深入分析,提取说话人的独特语音特征参数应用于语音合成系统,实现个性化的语音合成。二.AI虚拟数字人的原理
虚拟教学主播通过语音克隆技术,精准克隆虚拟主播的语音特征,将文本进行适当的韵律处理后,通过虚拟教学主播生成高自然度、高相似度、表现力丰富的语音输出,使得虚拟教学主播能够像“本人”一样自然流利地发声。语音合成系统主要由前端处理、韵律处理和合成单元三部分组成。语音合成如图所示。3.形象生成
借助计算机动画建模技术,根据特定的人物设定要求,对虚拟数字人的外形进行创作,生成具有人类外观的动画形象。虚拟主播形象通过对主讲真人的面部、身体、头发及服装进行精细的3D建模,打造出具有虚拟主播外观的动画角色,具备高度的拟真效果。二.AI虚拟数字人的原理二.AI虚拟数字人的原理4.动画生成
通过合成语音来驱动虚拟形象动画,使其具备人类行为特征。具体过程:首先利用音素识别器实时识别输入的语音信号,然后结合动态视素生成算法,将识别结果转化为相应的面部动画参数序列,驱动一个3D头部模型,同步生成面部动画,完成虚拟教学主播的行为动画制作。这样就能根据语音或文字内容实时驱动虚拟形象的口唇动作和面部表情,生成逼真的面部动画。动画生成如图所示。二.AI虚拟数字人的原理5.人机交互辅助系统
将虚拟主播与机器人、5G移动通信技术有机融合,具备语音讲解和视频播放的辅助教学功能。虚拟主播能够实时与主讲教师及学生进行语音互动教学,最终实现替代教师主持教学的目标,从而提升高校教学的标准化水平、解放师资力量,并显著提高教学效果与教学质量。该系统涵盖在线语音合成、在线语音识别、交互管理模块(包含教学机器人)、5G通信以及教学资料库服务器等核心组件。人机交互辅助系统如图所示。三.AI虚拟数字人的特征
元宇宙涵盖了自然人、虚拟数字人、高仿机器人三大主体,其中AI虚拟数字人被视为元宇宙的核心基础单元,为元宇宙的发展提供强劲动力,并推动数字虚拟世界与物理现实世界的深度融合,逐渐成为现实世界与数字世界交互的重要桥梁。AI虚拟数字人具备高度逼真的外观和行为表现,能够模仿人类的语言、表情、动作乃至情感反应,与现实世界的用户进行自然交互。虚拟数字人通常被赋予特定的人物身份,通过高度相似性视觉缩短与人类的心理距离,提供真实的情感互动体验。AI虚拟数字人技术主要研究人物形象生成、语音生成、动画生成、音视频合成及交互技术等领域。AI虚拟数字人技术解放、拓展人类的智力。三.AI虚拟数字人的特征(1)多模态AI深度融合:其“形、声、言、行”均由不同AI模块协同驱动:基于生成对抗网络、神经辐射场等生成高保真形象。声通过语音合成与音色克隆技术生成自然语音。言依赖自然语言处理模型进行对话与内容生成。行运用计算机视觉与动作生成模型驱动表情与肢体动作。(2)数据驱动与持续进化:其行为和知识库可通过数据训练不断优化和更新,具备学习和迭代能力。(3)实时交互性:能够通过语音、文字、手势甚至情绪感知与用户进行实时、双向的互动,而非单向播报。(4)情境感知与个性化反馈:结合用户画像和对话上下文,提供个性化、有记忆的回复与服务,互动更具“人情味”。三.AI虚拟数字人的特征(5)多场景任务执行力:可作为虚拟员工,执行特定的、程序性或智能性的任务,如智能客服、虚拟教师、带货主播等。(6)外貌与行为的可定制性:从超写实到卡通风格,从真人复刻到完全虚构,其形象、声音、性格均可按需定制,实现“千人千面”。(7)表情与动作的智能化:能根据对话内容自动生成匹配的面部微表情、口型、手势和身体语言,实现表情达意的协调统一。(8)可复制、可扩展、可全天候服务:一个成功模型可被无限复制,部署于多个平台,提供7×24小时不间断服务,突破了人类在时间、空间和体力上的局限。(9)IP化与品牌资产化:虚拟数字人可发展为独立的知识产权或品牌代言人,其形象、声音和互动风格本身即具有商业和情感价值。四.AI虚拟数字人的应用AI虚拟数字人技术朝着具备人类外观、行为和思想的高度拟人化方向发展,以及高级认知和情感理解能力,使其更加智能、逼真和人性化。虚拟数字人主要分为服务型和演艺型两大类,服务型包括虚拟员工、数字客服等,演艺型则涵盖虚拟主播、虚拟偶像、数字分身等。(1)客户服务:作为智能客服代表,提供全天候(24/7)的咨询和支持服务。(2)教育:扮演虚拟导师,提供个性化学习体验,并作为虚拟教师进行知识讲解。通过AI专业模型训练,具备专业知识问答、总结、创作、搜索等多重应用能力。四.AI虚拟数字人的应用四.AI虚拟数字人的应用(3)娱乐:虚拟主播和虚拟偶像参与表演与互动,为观众带来前所未有的全新体验。
(4)医疗健康:提供专业的健康指导,辅助心理治疗,或扮演虚拟护士的角色。
(5)营销与广告:在品牌宣传中担任虚拟代言人,提升品牌影响力。
(6)零售业:在虚拟商店中担任导购员,提供个性化的购物服务。
(7)智能家居:作为家庭助理,智能控制家居设备,并提供日程管理等服务。(8)复活亲人:通过将逝去亲人的文字描述、图片、视频和声音资料输入AI算法模型,生成一个具备逝者性格、记忆、图像、视频和声音的数字形象。四.AI虚拟数字人的应用五.典型应用场景AI虚拟数字人在新闻媒体的虚拟主播、品牌的虚拟代言人等众多领域扮演重要角色,为人类带来更多便利和乐趣。1.照片生成数字人形象(二维)
在360AI制作照片数字人:(1)形象定制:上传一张清晰的人脸照片(标准正脸)进行形象定制。(2)音色克隆:录制20秒音频,生成我的音色。(3)照片生成数字人形象。五.典型应用场景2.视频生成数字人形象(三维)
在360AI制作视频数字人:
(1)形象生成:上传视频进行形象生成。视频说明:·视频中只能包含一张脸。如果使用视频创建形象,您必须在上传的视频中讲话。·您的音频和嘴唇运动必须同步。·需避免环境噪音或其他声音(除了您的讲话)。·请保持适度的语速。语速过慢可能会降低嘴唇同步精度。·语速过快可能会导致嘴唇同步抖动。·视频时长必须在10秒到5分钟之间。五.典型应用场景·成功生成的形象,将保存在“我的形象”中,确保人物美观清晰,下次可直接使用。(2)音色克隆:20秒音频,即刻克隆。五.典型应用场景3.AI虚拟数字人动画生成
在360AI制作视频数字人:
(1)选择形象生成:从我的形象中选择制作好的形象。(2)输入说话内容:在文本框进行文字输入。(3)选择音色:从我的音色中选择制作好的音色。(4)视频生成数字人形象。五.典型应用场景3.摄像头扫描生成数字人形象(立体)
通过结构光、ToF或多相机阵列技术获取人体表面的三维数据点云,经过融合与处理后生成高精度网格模型,并通过纹理映射技术实现真实质感。
在iPhoneLiDAR制作照片数字人的步骤如下:(1)环境准备:确保光线均匀,无障碍物。(2)全身/人脸扫描:摄像头围绕人体移动,采集多角度数据。需完整移动一圈,并保持较低速度。(3)等待生成点云与网格信息,随后等待纹理映射完成。(4)如果使用的设备支持后期增强功能,则可自行调整拓扑结构。(5)导出为FBX、OBJ等格式。五.典型应用场景4.3D建模生成数字人形象(3D)
在腾讯混元3D制作照片数字人:(1)准备一张或多张个人照片(也可借助即梦AI辅助生成),要求分辨率高,多图需保持比例一致。(2)登录腾讯混元,选择“图生3D”功能并上传照片。(3)撰写提示词并设置参数(如面数、分辨率等)。(4)选择生成类型:几何+纹理(一次性完成)或几何→纹理分步(便于后续优化)。(5)点击“立即生成”,系统开始处理。(6)若结果不满意,进行优化处理,最终导出3D文件。5.AI虚拟数字人感知
在扣子平台制作智能体:
孔子-AI智能体如图所示。
制作智能体:(1)选择语音通话。(2)用户输入方式选择语音。
智能体可以通过语音感知用户说话,孔子和用户聊仁义礼智,古今的道德与学问!四.AI虚拟数字人的应用典型案例“AI刘强东”数字人直播2024年4月16日,京东家电家居采销直播间首次启用“AI刘强东”数字人进行直播。
技术应用:借助动态神经辐射场技术,生成高度逼真的虚拟形象,并与京东言犀大模型实现实时互动。
流量爆发:开播仅2小时,观看量即突破2000万,迅速登上平台热搜榜首。
带货成绩:带动京东家电家居品类成交额突破5000万元,其中家电类产品占比超过70%。典型案例
用户互动:AI实时解答产品参数和优惠机制,有效引导用户跳转下单。
行业影响:数字人直播具有巨大的商业潜力,“数字人+专业采销”全新直播模式为品牌推广、降低成本开辟了新路径,虚拟主播技术向规模化应用的发展。
未来已来
AI时代
小结未来已来
AI时代
《人工智能素养与技能》课程团队:何汉武、潘梦鹞、梁志勇、王锋、张东霞《人工智能素养与技能》目录AI意识AI应用0104AI思维AI技术AI安全AI伦理0203050603AI技术Artificialintelligencetechnology1.理解AI听觉的概念;2.理解AI听觉的基本原理;3.理解AI听觉的应用;4.理解AI听觉的典型应用场景。知识目标6.AI听觉Artificialintelligencecomputingpower1.培养AI听觉思维;2.培养应用AI听觉的能力。素养目标1.能够使用克隆声音、合成语言等AI听觉内容。技能目标一.AI听觉的概念
通过音频处理、语音识别、语音合成等技术,使机器或计算机系统具有类似于人类听觉系统的功能,能够接收、分析、理解并对声音刺激做出响应。AI听觉使计算机能够理解和处理人类的语音,实现对声音的识别、理解、生成和交互,模拟人类听觉的功能,能够识别、定位、分离和理解声音源,并能感知声音的情感和意义。二.AI听觉的基本原理1.人的语音要素
包括音色、音高、音强以及音长四要素。(1)音色。是指听觉感到的声音的特色,由声音频谱决定。音色是指这段话是谁说的,有一句俗语:未见其人先闻其声。(2)音高。是指音高度,即各种音调高低不同的声音,由机械波频率和波长决定。(3)音强。是指声音的大小,由声波振幅大小决定。(4)音长。是指声音的长短,由发音体振动时间决定。
语音四要素由不同语音特征参数共同决定,语音四要素又决定语音特性,导致人们听到不同(个性化)语音。二.AI听觉的基本原理2.语音特征参数
包括声学特征、韵律特征和语言特征。(1)声学特征。是指说话人语音的音色,包括基频频率、共振峰位置、共振峰带宽、共振峰强度、频谱倾斜等。(2)韵律特征。是指说话的方式,包括音素时间长短、音调和重音等(说话速率、音调和音量的变化)。(3)语言特征。包括选词、方言和口音。二.AI听觉的基本原理3.人耳听音过程
声波由耳廓收集后经过传导到达耳蜗,耳蜗内的听觉感受器将声音信号传递至听神经引发听觉。频率是声音的关键特征,表示发声物体在每秒内的振动次数,单位为赫兹。二.AI听觉的基本原理4.计算机听音频谱三要素(1)响度。最直观乐音要素,代表声音的强弱,可由波形幅度表示。(2)音调。表示人听到的声音调子的高低,可用频谱来描述。(3)音色。不同乐器演奏或者不同人来演唱所产生不同的听觉效果。频谱图中峰值之间的比例不同反映了声音音色的不同。二.AI听觉的基本原理5.AI智能语音技术
涵盖语音识别、语音合成、语音转换、语音编码等多种语音技术,是语音学与数字信号处理技术相融合交叉学科,涉及语言学、信息学、脑神经科学、计算机科学、心理学等多个学科领域。(1)语音识别(AutomaticSpeechRecognition,ASR)技术让机器通过识别和理解,将语音信号转换为相应的文本或命令。包括信号处理、模式识别、概率论和信息论、发声机理与听觉机理、人工智能等。语音识别技术基于循环神经网络(RNN)、长短时记忆网络(LSTM)、转录形状转换器(Transducer)等深度学习模型,实现人类语音转换为文字。二.AI听觉的基本原理
语音识别如图所示。二.AI听觉的基本原理
语音识别系统的基本架构包括以下四个主要部分:①声学模型。该模型负责计算给定语言学单元(如音素)与输入语音之间的匹配可能性,即从语音特征映射到音素;②词典。声学模型分析出的语音单元通过词典转换为相应的单词,即从音素映射到词;③语言模型。该模型计算各种不同文本序列搭配的可能性,即从词组合成句子;④解码器。解码器根据不同的可能性,推导出最有可能的文本序列,从而得到最终的识别结果。
语音合成包含输入文本、文本分析、韵律处理和声学处理等环节。语音合成(Text-To-Speech,简称TTS)技术,又称文语转换技术,将文本转换为语音信号,使计算机能够以声音形式输出文字信息。包括基于合成规则的方法、基于统计模型的方法以及基于深度学习的端到端模型等技术。二.AI听觉的基本原理
智能语音系统。为实现机器与人类的正常对话和交流,智能语音系统需完成一系列连贯任务,包括“识别”、“听清”、“理解”、“行动”以及“播报”。该系统涵盖语音唤醒、语音增强、声纹识别、语种识别和语音合成等功能。
语音克隆。通过使用和训练新模型,实现对新发音人声音的克隆。提升自然度、确保克隆语音与新发音人声音的高度相似是技术的难点。
语音转换。该技术通过对源说话人语音中的某些个性特征信息参数进行转换,使得转换后的语音在保持语音语义信息不变的前提下,具备目标说话人的语音个性特征。
语音合成质量判断标准包括两个方面:一是清晰度,即语音内容的清晰易懂程度;二是自然度,即产生声音与人类语言的相似程度。二.AI听觉的基本原理6.声纹识别技术
能够提取每个人独特的语音特征,实现“听音辨人”,在涉及说话人身份识别的场景中具有重要应用价值。在公安司法领域,声纹识别技术被用于处理电话骚扰、绑架、诈骗、勒索等声音信息;在门禁和考勤系统中,通过提取语音中的声纹特征进行登记和签到;在金融行业,声纹识别技术被应用于电话银行或远程证券交易中的客户身份确认;在刑侦领域,借助声纹识别技术判断监听电话中是否出现嫌疑人。二.AI听觉的基本原理6.声纹识别技术
声纹识别如图所示。三.AI听觉的应用(1)语音识别。语音识别技术使人们能够通过语音与计算机进行交互,例如使用语音助手、语音输入等功能。(2)语音合成。将文字转换成自然流畅的语音,广泛应用于语音播报、虚拟角色声音生成等领域。(3)情感分析。分析声音中的情感成分,识别说话人的情绪状态,如愉快、悲伤、愤怒等。该技术通常结合语音信号的声学特征和语言内容进行综合分析。(4)语音增强。通过降噪、去混响、声音增强等技术手段,改善语音信号质量,提升语音识别和语音合成的性能。(5)语音指令识别。识别并理解语音指令,实现语音控制的智能系统,如智能音箱、语音助手等。三.AI听觉的应用(6)语音识别系统定制。根据医疗、司法、金融等领域应用需求,定制开发语音识别系统。(7)声纹识别。通过分析人的语音特征,识别和验证说话人的身份信息,广泛应用于身份验证和安全访问控制。(8)音乐生成。利用人工智能技术创作音乐作品,涵盖音乐合成、音乐推荐等方面。(9)语音翻译。将一种语言的语音翻译成另一种语言的语音,结合语音识别和语音合成技术实现。(10)语音理解和处理。不仅识别语音中的单词,还需理解其含义及上下文。(11)语音分割。将长段语音分割成更小的单元,如句子或短语,以提高处理效率。(12)关键词检测。在语音中检测特定的关键词或短语。三.AI听觉的应用(13)实时语音分析。在语音实时传输过程中进行分析和处理。(14)音频分类。对不同类型的声音进行分类,如音乐、环境音、人声等。(15)语音交互系统。构建能与人类进行自然对话的系统,如聊天机器人和客户服务机器人。(16)医疗健康。在医疗领域,语音识别可帮助记录病人信息或辅助医生诊断,分析呼吸音、心跳声等生物声学信号,辅助疾病诊断。(17)教育和辅助工具。为视障人士提供语音阅读服务,或作为语言学习工具,辅助语言学习和发音纠正。(18)法律和安全领域。用于记录口供、法庭记录或安全监控。三.AI听觉的应用(19)多语言支持。现代语音识别系统能支持多种语言,满足全球化需求。(20)智能家居。根据语音指令控制家电等设备。(21)听力辅助设备。为听力障碍人士提供更好的沟通工具,利用AI个性化调整助听器或人工耳蜗,适应不同听力障碍者的需求。(22)安防监控。监测异常声音,如玻璃破碎、尖叫等,用于预警。(23)智能助手。如Siri、Alexa、GoogleAssistant等,能理解命令、回答问题和执行任务。(24)声源定位与分离。在嘈杂环境中识别和分离特定声音源,类似于人类的鸡尾酒会效应。
1.语言识别(1)在扣子平台查找智能体:①孙悟空-扣子AI智能体:②猪八戒-扣子AI智能体:(2)孙悟空智能体和猪八戒智能体通过语音识别技术进行对话。孙悟空和猪八戒智能体对话如图所示。四.典型应用场景四.典型应用场景2.声音克隆
在360AI克隆声音:
(1)音色克隆:20秒音频,即刻克隆。①使用提示:·我们支持录制音频进行音色克隆。·音色克隆时,语气和情感也会被克隆,请您按照期望的效果录制音频。·请确保单人,人声清晰,无背景噪音,音量一致,避免长时间沉默,避免使用不同的麦克风,避免空调或街道噪音。四.典型应用场景·请保证录制过程中讲话的时长大于5秒。·音色克隆成功后,使用克隆音色进行数字人视频合成、文本朗读等功能,需按照内容时长计费。·请确保录音完全由您本人录制,我们将全程采用安全加密措施来处理您提供的信息,并承诺未经您的授权不得使用这些信息。四.典型应用场景(2)录制音频:系统会提供一段涵盖不同声韵母和音调的标准文本供您朗读。请用自然、平稳、清晰的语调进行朗读,语速适中,感情可根据希望克隆的效果适当体现。需连续录制完成全部指定文本,以确保采集到足够丰富的音素特征。(3)生成我的音色:系统将上传音频至云端服务器。AI算法会在此环节对您的音频进行深度分析,提取包括音高、音色、共振峰、发音习惯等关键声学特征,并训练生成一个专属于您的轻量化声学模型,通常以“我的音色”标识。四.典型应用场景3.语言合成
在360AI合成语言:
(1)输入说话内容:在文本框进行文字输入。(2)选择音色:从我的音色中选择制作好的音色。典型案例声纹识别:公安破案的“听风者”,智能时代案件侦破新利器
声纹识别技术凭借其高精度和秒级检索等显著优势,已成为公安破案的重要工具。快商通通过其领先技术,助力多起案件高效侦破。
声纹具有唯一性和稳定
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年辽宁省瓦房店市高二生物下册期末考试模拟卷含答案【能力提升】
- 2026年吉林省德惠市高二生物下册期末考试模拟卷附参考答案【考试直接用】
- 2025年辽宁省大石桥市高二生物下册期末考试模拟卷及答案(考点梳理)
- 2026年河南省邓州市高二生物下册期末考试检测卷附参考答案【黄金题型】
- 2025年河南省新密市高二生物下册期末考试模拟卷带答案AB卷
- 2026年浙江省永康市高二生物下册期末考试测试卷及完整答案(考点梳理)
- 2026年山东省临清市高二生物下册期末考试测试卷附参考答案(能力提升)
- 2026年湖北省老河口市高二生物下册期末考试测试卷(B卷)附答案
- 2025年云南省个旧市高二生物下册期末考试考试卷(达标题)附答案
- 2026年江苏省泰兴市高二生物下册期末考试考试卷(培优A卷)附答案
- 员工培训效果评估报告模板学习成果转化与提升策略
- 遵义市观音水库移民安置及改复建专项工程环评报告
- 供应室消毒灭菌制度
- 采用起重机械进行安装的工程安全管理措施
- 2025循环流化床锅炉停(备)用维护保养导则
- JG/T 465-2014建筑光伏夹层玻璃用封边保护剂
- 非遗小调查课件
- 注册税务师历年真题答案2025
- 店面转协议书模板
- 25春国家开放大学《中国法律史》形考任务1-3参考答案
- 苏州2025年江苏苏州高新区教育系统招聘事业编制教师210人笔试历年参考题库附带答案详解
评论
0/150
提交评论