AIGC应用基础课件_第1页
AIGC应用基础课件_第2页
AIGC应用基础课件_第3页
AIGC应用基础课件_第4页
AIGC应用基础课件_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

创想引擎:大模型与AIGC2025

ChapterTwo时间:2025.03主讲教师:第二章思维导图201大模型基础02AIGC认知能够使用AIGC工具生成多模态内容(文本、图像、视频)能够评估AIGC内容的创新性、准确性与适用性能力目标培养对AI技术的开放态度与批判性思维适应技术迭代,强化终身学习能力素质目标理解大模型的定义、特征与分类,掌握AIGC的核心价值熟悉预训练、RLHF等关键技术,了解大模型产业生态知识目标学习目标本章导读

案例引入:AI修复《富春山居图》的启示

技术支撑:文心大模型1秒补全残缺画作

核心逻辑:大模型是AIGC的引擎,AIGC是技术落地的场景

关键问题:

大模型如何驱动内容生成?

AIGC如何重塑行业应用?中国古代水墨山水画的巅峰之笔《富春山居图》是元代画坛宗师、“元四家”之首黄公望晚年的杰作,这一传世名画于清代顺治年间遭火焚断为长短两卷,后来分别珍藏于浙江省博物馆和台北故宫博物院,焚毁部分原画内容无人知晓。在2022百度世界大会上,百度首席技术官王海峰展示了文心大模型“补全”《富春山居图》的过程,全程只用不到1秒钟就使得历史珍品重现当代。其风格与现存真迹一致,令专家大为震撼。这背后的秘密便是人工智能大模型和AIGC技术。AIGC是人工智能生成技术的一个分支,专注于创造性内容的生成,如文字、图像、声音、视频等。残画修复正是运用AIGC图像生成技术而达成的。大模型是AIGC背后的技术支撑与核心驱动力。本章从大模型的特征与训练机制出发,引领大家走入AIGC的奥秘世界。导

读PART01大模型基础创想引擎:大模型与AIGC大模型是基于深度学习技术构建的超大规模预训练模型,具有强大的泛化能力,可适应多种任务。典型的大模型有DeepSeek、GPT系列、BERT、ERNIE等。例如OpenAI的GPT系列,通过海量文本数据训练,能生成流畅自然的文本内容,广泛应用于写作、翻译等场景。大规模预训练模型定

义大模型的定义认识GPT大模型的特点规模庞大大模型通常拥有数十亿甚至数百亿个参数,能够处理复杂的任务和问题,并提供非常准确的答案和建议多模态数据处理可以处理文本数据,处理图像、音频和视频等多种模态数据,实现跨模态的理解与生成。能够更好地理解和处理现实世界中的信息,提供更加准确全面的服务与支持。强大的计算能力为了训练和运行大模型,需要使用强大的计算资源,如超级计算机和云计算平台等。基于深度学习技术大模型通常基于深度学习技术,如卷积神经网络(CNN)、循环神经网络(RNN)和Transformer架构等,帮助模型学习到数据中的深层次模式和规律,并生成高质量的输出。大模型的分类按任务类型分类语言大模型:专注于处理文本数据,如GPT系列,用于自然语言处理任务,包括写作、翻译、问答等。视觉大模型:处理图像数据,用于图像识别、分类、分割等视觉任务。跨模态大模型:处理和综合不同类型的数据(如文本、图像、声音),实现更复杂的理解和生成任务。按应用领域分类通用大模型:适用于多种任务和领域,具有广泛的适用性,如GPT-3。行业大模型:针对特定行业或领域进行优化,以满足特定需求,如医疗领域的医学影像分析模型。大模型的工作原理上下文学习根据输入的上下文信息,生成符合语境的内容,实现对特定任务的适应。例如,在对话场景中,模型根据之前的对话内容生成合适的回答。模型微调使用标注数据对预训练模型进行微调,使其更好地适应特定任务,提高性能。例如,在情感分析任务中,通过微调模型可使其更准确地识别文本中的情感倾向。训练机制基于海量数据进行无监督或弱监督训练,学习语言规律和知识结构,为后续任务提供基础。例如,通过互联网上的文本数据训练,模型能够学习到语言的语法、语义和风格等信息。预训练模型大模型的工作原理奖励模型微调构建一个奖励模型,基于包含人类对不同答案质量评分的数据集进行训练。学习如何评估模型输出的质量,为每个响应分配一个反映其优劣程度的分数。RLHF训练过程利用PPO算法进行强化学习,根据奖励模型的反馈调整生成策略。PPO通过平衡探索新策略与稳定性能之间的关系,确保模型逐渐优化其输出,以获得更高的奖励分数。监督模型微调监督模型微调是通过向预训练模型展示人工编写的高质量样本,来引导模型学习针对特定任务或查询的精确回应模式。这一步骤为模型提供了直接的、针对性的反馈,提升了输出的精确度和相关性。RLHF训练大模型的工作原理RLHF训练过程大模型产业发展0103050204OpenAI(GPT系列)OpenAI在大模型领域取得了全球瞩目的成就,其以ChatGPT为代表的GPT系列模型引领了文本生成和对话系统的潮流谷歌(BERT、LaMDA、VLM)谷歌凭借其TensorFlow框架和BERT、LaMDA、VLM等大模型,在自然语言理解和生成、机器翻译等领域保持领先地位Anthropic(Claude)Anthropic是一家位于美国旧金山的人工智能研究公司。该公司的大模型Claude以高质量的对话和丰富的细节著称,在对话理解、逻辑推理和创造性写作方面具有强大的能力。Meta(LLaMA)Meta(前身为Facebook)开发的LLaMA大模型家族包括不同规模的版本,在生成文本内容,对话理解及高效处理多任务方面表现出众。英伟达(Megatron-TuringNLG)Megatron-TuringNLG是由英伟达公司和微软公司合作开发的自然语言生成模型。该模型在2021年发布,是当时训练规模最大和最强的自然语言处理(NLP)模型之一,展示了技术创新和强大计算力相结合的新高度。国际大模型厂商及产品大模型产业发展国内大模型厂商及产品百度(文心)文心系列大模型(如文心一言)依托百度的飞桨平台,融合了搜索、图片、语音、自然语言处理等多领域知识,可为用户提供全面的基础模型服务和能力支持。腾讯(混元)腾讯的混元大模型(如腾讯元宝)针对特定领域提供了高性能和高准确度的服务,体现了腾讯在人工智能技术研发上的实力。腾讯大模型通过“龙头大模型+原有业务”模式,加强了社交平台、内容创作等方面的体验。京东(言犀)DeepSeek

大模型是由深度求索公司研发的高性能人工智能模型,专注于数学推理、代码生成和自然语言处理等领域。通过强化学习技术,DeepSeek在低资源场景下展现了卓越的推理能力和泛化性能,支持多模态任务处理。阿里云(通义)阿里云的通义大模型(如通义千问)在多个维度表现优异,特别是在服务能力、创新能力、平台能力及电商行业应用中获得了高度评价。深度求索(DeepSeek)言犀大模型是京东推出的一个大规模预训练语言模型,参数规模达到千亿级别,具备支持文字、语音、视觉多模态处理的能力,主要面向零售、物流、金融、医疗健康等产业领域应用华为(盘古)华为推出的盘古大模型,在人工智能综合性能和服务质量上不断提升,展示了其在人工智能领域的深厚技术积累。其他大模型字节跳动的豆包、智谱AI的智谱清言、科大讯飞的讯飞星火、中国科学院的紫东太初、月之暗面的Kimi、商汤科技的商量语言大模型等,都在各自领域展现了强大的技术和应用潜力。PART02AIGC认知创想引擎:大模型与AIGCAIGC的定义AIGC是利用人工智能技术生成文本、图像、音频、视频等内容,为各行业带来创新和效率提升。例如,通过AIGC技术可快速生成高质量的新闻报道、广告文案、绘画作品等。定义大模型是AIGC的核心技术支撑,为内容生成提供了强大的语言理解和生成能力。AIGC是大模型的应用方向,通过大模型实现各种内容的生成和创作。与大模型的关系AIGC的演进历史以专业生成内容(PGC)为主,由专业人员创作,内容质量高但效率低、成本高。例如,传统媒体的新闻报道、影视制作等,需要大量专业人员投入大量时间和精力。2.萌芽期用户生成内容(UGC)兴起,普通用户通过互联网平台创作和分享内容,数量庞大但质量参差不齐。例如,社交媒体上的用户分享的图片、视频、文字等内容,丰富了互联网的内容生态。1.兴起期AI生成内容(AIGC)成为主流,AI可独立生成高质量、多样化的内容,广泛应用于各行业。例如,在广告行业,AIGC可快速生成创意广告文案和设计,提高广告制作效率。4.智能爆发期AI辅助用户生成内容(AIUGC),AI为用户提供创意灵感和辅助创作工具,提高内容创作效率。例如,一些写作软件通过AI提供写作建议和灵感,帮助用户更快地完成创作。3.融合期AIGC的演进历史AIGC的核心价值文字音频图像视频游戏数字人AIGC+办公AIGC+医疗AIGC+文娱AIGC+金融AIGC+教育AIGC+财务AIGC的产业应用DeepSeekDeepSeek在文本生成任务中展现了强大的能力,能够根据用户输入生成连贯、逻辑清晰的文本内容,适用于创意写作、技术文档撰写、多轮对话等多种场景。ChatGPT能够生成与给定提示相关联的高质量文本,完成对话、问题解答、创意写作、翻译等任务。文心一言与通义千问能够与人对话互动、回答问题、协助创作,提供信息查询、技术支持、学习辅导、语言翻译等,具备更强的中文理解能力。Midjourney与StableDiffusionMidjourney通过简单的提示词即可生成高质量图像,适合于需要高效产出、风格多样化以及即时创作的场景;StableDiffusion提供了更为深入的自定义能力和更高的图像处理质量,适合那些对图像细节有高要求的艺术创作者和技术开发者。文心一格与通义万相文心一格支持多样化的艺术风格生成,以体验从传统国画到现代插画等多种视觉效果通义万相可提供高分辨率图像生成选项,支持特定尺寸定制,满足不同场景需求,并具备一定的交互式编辑及优化功能。度加创作度加创作工具是由百度开发的一款AI视频制作平台,它允许用户通过简单的文本输入自动生成包含丰富视觉效果和自动配音的视频内容。腾讯智影腾讯智影是一款基于AI技术的文字转视频解决方案,能够根据用户提供的文字脚本自动生成高质量的视频作品。剪映剪映最初是抖音官方推出的一款移动端视频编辑应用,现已发展成为跨平台的全能型视频编辑器。文本生成工具图片生成工具视频生成工具常用的AIGC工具应用领域语音识别:通过机器学习技术,计算机能够准确识别和理解人类的语音指令,实现语音交互。推荐系统:利用机器学习算法分析用户行为数据,为用户提供个性化的推荐内容。监督学习、无监督学习、强化学习监督学习通过标记数据进行训练,预测新数据的结果;无监督学习发现数据中的模式和结构;强化学习通过奖励和惩罚进行学习。机器学习是人工智能的核心技术之一,广泛应用于语音识别、推荐系统、金融预测等领域。金融预测:机器学习模型可以分析海量金融数据,预测市场趋势和风险,为投资决策提供支持。医疗诊断:在医疗领域,机器学习能够辅助医生进行疾病诊断,提高诊断的准确性和效率。人工智能的核心技术机器学习(ML)深度学习模仿人脑神经元的连接和工作方式,通过多层神经网络实现复杂的特征提取和模式识别。卷积神经网络(CNN)在图像识别领域表现出色,循环神经网络(RNN)则擅长处理序列数据。计算机视觉:深度学习推动了计算机视觉技术的发展,使计算机能够像人类一样“看”懂图像和视频。自然语言处理:在自然语言处理领域,深度学习模型能够理解语言的语义和结构,实现机器翻译和文本生成。医疗诊断:深度学习模型可以分析医学影像,辅助医生进行疾病诊断,提高诊断的准确性和效率。智能驾驶:在智能驾驶领域,深度学习技术用于环境感知和决策控制,提高自动驾驶的安全性和可靠性。模拟人脑神经网络的工作方式应用领域应用领域132深度学习(DL)人工智能的核心技术自然语言处理技术能够对文本进行分析和理解,实现语音识别、语言生成和机器翻译等功能。通过自然语言处理,计算机可以与人类进行自然流畅的交流,提高人机交互的体验。文本分析、语音识别、语言生成、机器翻译文本挖掘:自然语言处理技术可以对大量文本数据进行挖掘和分析,提取有价值的信息。情感分析:通过分析文本中的情感倾向,自然语言处理技术可以用于市场调研和舆情监测。智能助手:自然语言处理技术是智能助手的核心,使其能够理解用户的指令并提供相应的服务。智能客服:在客服领域,自然语言处理技术可以实现自动化的客户服务,提高服务效率和质量。应用领域自然语言处理(NLP)人工智能的核心技术0102图像识别、目标检测、图像生成计算机视觉技术使计算机能够识别和理解图像中的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论