人工智能通识教程（理工版）课件第10章人工智能与自然语言处理

上传人：h*** IP属地：山东上传时间：2026-03-22 格式：PPTX 页数：24 大小：4.16MB 积分：15 举报 版权申诉

已阅读5页，还剩19页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

人工智能通识（理工科）北京科技大学主要内容自然语言处理概述及发展语言学基础自然语言处理的主要应用领域词表示与词嵌入语言模型大语言模型自然语言处理概述自然语言处理（NaturalLanguageProcessing，NLP）是人工智能和计算语言学相结合的一个重要分支NLP实现计算机对人类自然语言的分析、理解和生成自然语言处理的发展以统计方法为主的自然语言处理基于规则的自然语言处理以统计方法和特征工程为主的自然语言处理基于深度学习的自然语言处理词法分析词法分析是将输入的句子或文本分解为最小的语言单位—词汇或词语（Lexemes）的过程分词分词是将连续的字符序列分割成具有明确含义的独立词语英文文本单词之间由空格或标点符号标识分隔中文文本借助一定规则或统计方法来进行分词例：“我爱自然语言处理”，分割为：“我”、“爱”、“自然语言处理”

词性标注词性标注为每个词语分配一个词性标签例：句子“我爱自然语言处理”中的“我”是名词，“爱”是动词。句法分析识别词语之间的语法关系句法树-将句子分解为层次化的结构句法规则S->NPVPNP->DetNVP->VNP语义分析将句子的语法结构转换为实际含义词义消歧根据上下文信息区分词汇的不同含义，确保理解的准确性语义表示

整个句子的语义信息转化为机器能够理解的形式例：“所有猫都是动物”可以表示为：∀x(Cat(x)→Animal(x))指代消解在文本中确定代词（如“他”、“它”）所指代的实体自然语言处理的主要应用领域机器翻译情感分析对话系统与聊天机器人问答系统语音识别与合成词表示与嵌入词表示是NLP核心环节，通过将词语转为向量为语义理解、信息检索、情感分析等任务提供关键特征支持传统方法-独热编码独热编码将每个单词类别转换为一个二进制向量，其中只有一个位置上的值为1，其余位置上的值为0词嵌入是将词汇映射到连续低维空间的技术，能让语义相似的词在向量空间中距离更近。tokend1d2d3d4dog-0.40.370.02-0.34cat-0.15-0.02-0.23-0.23lion0.19-0.40.35-0.48tiger-0.080.310.560.07elephant-0.04-0.090.11-0.06cheetah0.27-0.28-0.2-0.43monkey-0.02-0.67-0.21-0.48rabbit-0.04-0.3-0.18-0.47mouse0.09-0.46-0.35-0.24近义词与上位词分布式词表示中，相似的词会被映射到距离较近的向量空间分布式词表示可以通过训练模型自动学习到词汇之间的层级关系语言模型根据已有的词序列预测下一个词的概率N-gram模型是一种基于统计的语言模型，通过计算一组连续N个词语的联合概率来预测下一个词神经网络模型给定前面的词，模型通过神经网络的激活函数来生成下一个词的预测大语言模型概述在大规模语料库上进行训练，拥有数十亿甚至数千亿参数的深度学习模型基于Transformer架构训练过程通常包括预训练和微调两个阶段常用的大模型介绍大模型GPT系列：由OpenAI开发，包括GPT3.5、GPT4、GPT4o等版本。这些模型以其强大的语言生成能力和深刻的模型进化历程而闻名，是自然语言处理领域的重要模型之一。GPT模型是基于Transformer的解码器部分构建的，它采用了Transformer的自注意力机制来建模语言数据中的长距离依赖关系。文心一言：由百度开发，是一种基于Transformer架构的大型语言模型，旨在提供高效的自然语言处理能力。这是一种基于BERT（BidirectionalEncoderRepresentationsfromTransformers）的预训练语言模型，同样采用了Transformer架构。BERT是一种双向Transformer模型，它同时关注输入序列中前后的词汇，通过掩码语言模型（MaskedLanguageModel,MLM）进行训练，即模型会随机掩盖一部分输入词，然后通过上下文信息来预测这些被掩盖的词。BERT更适合分类、序列标注等任务，因其能够在双向上下文中进行预测，捕捉了更全面的上下文信息。豆包：字节跳动为创作者打造的AI助手，支持视频脚本撰写、文案生成、营销策划等，具备聊天机器人、写作助手、英语学习助手等功能。Kimi：由月之暗面（MoonshotAI）

公司开发的大语言模型，以其卓越的长文本处理能力和强大的上下文理解而闻名。天工：由昆仑万维开发，昆仑万维在AI领域的旗舰产品，采用MoE专家混合模型架构，响应速度快，训练及推理效率高。它支持超长上下文窗口，擅长图文对话、知识问答、生成式搜索等场景。通义千问：由阿里云开发，是基于Transformer架构的大型语言模型，提供多种参数规模的版本，如千问-1.8B、千问-7B、千问-14B和千问-72B等。百川：由王小川的百川智能开发，是一种大型语言模型，与智谱AI等成为中国大模型赛道的重要竞争者。为了使模型的输出更加符合人类的预期，百川模型采用了对齐技术，包括：人类反馈强化学习（RLHF）：通过人类的反馈信息，对模型的输出进行调整和优化，使其更加符合人类的预期。基于AI反馈的强化学习（RLAIF）：通过AI系统的反馈信息，对模型的输出进行调整和优化，提高模型的性能。智谱：由智谱AI开发，是一种基于GLM（GeneralLanguageModel）算法框架的大型语言模型，提供多种大模型服务，包括语言大模型、超拟人大模型、向量大模型与代码大模型等。智谱由多层Transformer组成，每层包含多头自注意力机制（Multi-HeadSelf-Attention）、前馈神经网络（Feed-forwardNeuralNetwork,FFN）、残差连接（ResidualConnection）和层归一化（LayerNormalization）等关键模块。这些模块共同作用，使得模型能够高效处理对话任务，通过对历史上下文的理解生成连贯的自然语言文本；使用混合专家模型（MoE）架构，参数规模达万亿，擅长处理复杂场景和多任务场景。腾讯混元：是腾讯自主研发的通用大语言模型，拥有超千亿参数规模，预训练语料超2万亿tokens，具有强大的中文理解与创作能力、逻辑推理能力，以及可靠的任务执行能力。基于深度学习中的Transformer架构，该架构的优势在于其强大的并行处理能力，使模型能够快速处理大量数据。使用混合专家模型（MoE）架构，参数规模达万亿，擅长处理复杂场景和多任务场景。通过优化预训练算法及策略，让混元大模型的幻觉相比主流开源大模型降低了30%至50%；通过强化学习的方法，让模型学会识别陷阱问题；通过位置编码优化，提高了超长文的处理效果和性能；提出思维链的新策略，让大模型能够像人一样结合实际的应用场景进行推理和决策。常用的大模型介绍文本-图片生成大模型（国内）文心知识增强大模型（以ERNIE-ViLG为例）：由百度研发。其背后的文心大模型（如ERNIE3.0/4.0）具备知识增强特性，能更精准地理解文本语义。ERNIE-ViLG作为文生图模型，受益于此，提升了根据复杂中文描述生成图像的准确性、丰富性和语义一致性。无界AI：提供多种风格图像生成服务的平台。该平台整合了前沿的多模态AI技术，并通过对现有大模型进行工程化优化、微调和对齐，确保生成内容的质量和符合法规标准。海若多模态大模型V1.0：由浪潮云发布，结合了视觉编码器、大语言模型和模态对齐模块的产线编排等技术手段，集成了文本生成图像、视觉语言对话以及文本搜索图像三大功能。这种技术组合使得模型能够深入理解用户的视觉输入和语言指令，实现图像、文本之间的无缝交互和统一语义空间对话。TextHarmony：由华东师范大学和字节跳动的研究人员共同开发的一款多模态生成模型，它在视觉文本理解与生成领域展现出卓越的能力。该模型通过创新的Slide-LoRA技术，有效解决了在单一模型中同时生成图像和文本时遇到的性能下降问题。Slide-LoRA通过动态聚合特定于模态和模态无关的低秩适应(LoRA)专家，实现了在保持参数增加极小化的同时，提高了模型对视觉和语言模态的生成一致性。Qwen2vl-Flux：阿里巴巴开源的多功能图像生成模型。它基于Qwen2VL语言模型和FLUX架构，能够根据图像或文本输入进行生成、编辑和融合，并提供精确的控制能力。文心一格：由百度发布，其模型训练结合了强大的基础模型和海量的图像数据。该模型旨在生成高质量、高真实感的图像，减少生成内容的‘机器味’，以满足商业应用的需求。通义万相-文本生成图像大模型（wanx-v1）：支持中英文双语输入，支持输入参考图片进行参考内容或者参考风格迁移，重点风格包括但不限于水彩、油画、中国画、素描、扁平插画、二次元、3D卡通。基于自研的Composer组合生成框架的AI绘画创作大模型，通过知识重组与可变维度扩散模型，加速收敛并提升最终生成图片的效果。这种技术使得生成的图像语义一致性更精准，布局自然、细节丰富、画面细腻、结果逼真。摩笔马良：由国产GPU芯片初创公司摩尔线程推出的一款人工智能图像生成和绘画创作工具，能够根据用户输入的文本描述自动创作出符合主题和风格的图片。常用的大模型介绍文本-图片生成大模型（国外）DALL-E2：由OpenAI研发，其核心是基于扩散模型（DiffusionModel）架构，并集成了CLIP文本编码器和Transformer先验模型来理解和关联文本与图像信息。CogView：基于Transformer架构的文本生成图像模型，采用自编码器-解码器的结构，包括文本编码器、图像解码器和跨模态嵌入空间。在生成高质量、符合文本描述的图像方面表现出色，并且在训练过程中采用了生成对抗网络（GAN）的思想，通过不断迭代训练，生成器能够生成越来越符合文本描述的图像，判别器也能越来越准确地判断图像的质量。Midjourney：它能够生成非常高质量且富有创意的图像。在艺术创作、设计等领域被广泛使用。Midjourney的底层技术主要包括生成对抗网络（GAN）、大型语言模型、自然语言处理（NLP）以及其他图像处理、计算机图形等技术。

StableDiffusion：这是一个开源的文本到图像生成模型。模型采用了文本编码器（TextEncoder）、自编码器（Autoencoder，用于处理图像数据，将其编码为低维度的潜在表示，并能够从潜在表示中重构出高质量的图像）、U-Net网络组成。

RecraftV3：Recraft公司推出的AI文本到图像生成模型，曾在HuggingFace的文本到图像模型排行榜上获得过高分/名列前茅。Imagen：由GoogleResearch开发的文本到图像扩散模型，它通过先进的AI技术实现了前所未有的照片级真实感和深度语言理解能力。GLIDE：OpenAI推出的文本到图像生成模型，基于扩散模型，能够生成高质量的图像。Make-A-Scene：Adobe推出的文本到图像生成模型，其最大特点是允许用户通过输入草图来精确控制生成画面的构图和布局，再结合文本描述生成复杂且真实感强的场景图像。Parti：Google推出的文本到图像生成模型，基于Transformer架构，能够生成高质量的图像。它在生成图像的细节和多样性方面表现出色，并且能够根据文本描述生成具有复杂结构的图像。CivitAI：一个专注于AI绘画的平台，提供了多种文本到图像生成模型，包括一些基于StableDiffusion的模型。CivitAI上的模型涵盖了多种风格和应用场景，用户可以根据自己的需求选择合适的模型进行图像生成。DreamStudio：一个提供文本到图像生成服务的平台，基于StableDiffusion模型，能够生成高质量的图像。它在生成图像的细节和真实感方面表现出色，并且支持用户对生成的图像进行后期处理。

常用的大模型介绍文本-视频生成大模型OpenAISora：Sora的技术架构基于DiffusionTransformer(DiT)模型构建，结合了Diffusion扩散模型和Transformer架构的优点。它能够处理复杂的视频数据，并生成高质量、高保真度的视频内容。智谱AI清影（Ying）：清影基于CogVideoX模型的最新技术进展和音效模型CogSound。CogVideoX在内容连贯性、可控性和训练效率等方面实现了多项创新，包括自研的三维变分自编码器结构(3DVAE)、因果三维卷积、端到端的视频理解模型CogVLM2-caption以及融合文本、时间、空间三个维度的transformer架构等。快手可灵：为快手AI团队自研，基于快手在视频技术方面的多年积累，采用类似Sora的DiT技术路线，结合多项自研技术创新。它能够生成时间长、帧率高，能准确处理复杂运动的视频，并且在完成度、创新度和参数表现上都有出色的表现。字节跳动豆包视频生成模型：豆包视频生成模型基于DiT架构，通过高效的DiT融合计算单元，让视频在大动态与运镜中自由切换，拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。全新设计的扩散模型训练方法攻克了多镜头切换的一致性难题，在镜头切换时可同时保持主体、风格、氛围的一致性。阿里通义万相：基于阿里自研的Composer组合生成框架的AI绘画创作大模型，提供了一系列的图像生成能力。上海人工智能实验室书生·筑梦2.0（Vchitect2.0）：书生·筑梦2.0采用了扩散式Transformer(DiffusionTransformer)网络模型，通过并行结构的Transformer模块处理视频的空间和时间信息，包括自注意力(self-attention)、交叉注意力(cross-attention)和时间注意力(temporal-attention)等。常用的大模型介绍其他多模态大模型CLIP（ContrastiveLanguage-ImagePre-training）：CLIP是一种基于对比学习的视觉语言模型，通过在大规模图像和文本数据集上进行预训练，学习图像和文本之间的对应关系。CLIP模型的核心是对图像和文本特征向量进行对比学习，将与图像内容相匹配的文本描述的特征向量拉近，同时将不匹配的文本描述的特征向量推远。这种方法使得模型在没有额外训练数据的情况下识别新的图像类别，展现出“零样本”（zero-shot）能力。BLIP（BilingualLanguage-ImagePre-training）：BLIP是一种通过自举字幕来高效利用噪声网络数据的视觉语言模型，通过融合理解与生成能力的多任务预训练框架，实现更高效的跨模态交互。BLIP模型的一个关键特点是其能同时胜任基于图像的理解性任务和生成性任务。它通过引入文本生成任务来提升模型对图像内容的理解深度，并能产出更准确、更自然的描述。BLIP2：BLIP2是BLIP的升级版，在保持原有优点的基础上，引入了Q-Former模块，它作为桥梁，可以高效地将冻结的图像编码器的特征与冻结的大语言模型相连接，从而以更少的可训练参数实现强大的性能。Flamingo：Flamingo是一种基于Transformer的视觉语言模型，通过在模型中引入图像特征和文本特征的交互，实现跨模态推理。Flamingo模型的特点在于其强大的文本生成能力，可以生成高质量的描述、问答和对话等文本内容。在实际应用中，Flamingo模型可用于图像描述、视觉问答、对话生成等多种任务。LLaVA（LargeLanguageandVisionAssistant）：

LLaVA是一种端到端训练的视觉语言模型。其核心是一个简单的投影层，用于将CLIP提取的图像特征对齐到大语言模型的词嵌入空间，从而激发LLM的视觉推理能力。LLaVA模型的特点在于其轻量级和高效性，可以在保证性能的同时，显著降低模型的计算复杂度和存储需求。MiniCPT：

MiniCPT是一种为边缘设备设计的轻量级视觉语言模型，基于高效的Transformer架构，通过对比学习预训练和精心设计的模型结构，在保持低功耗和小体积的同时实现高性能。MiniCPT模型的特点在于其快速而准确的图像分类和文本生成能力，适用于各种实时性要求较高的应用场景。InstructBLIP：InstructBLIP是一种基于指令学习的视觉语

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人工智能通识教程（理工版）课件第10章人工智能与自然语言处理

文档简介

温馨提示

最新文档

评论

人工智能通识教程（理工版）课件 第10章 人工智能与自然语言处理

文档简介

温馨提示

最新文档

评论

相关文档

人工智能通识教程（理工版）课件第10章人工智能与自然语言处理