《深度学习项目案例开发》课件-任务八：使用BERT预训练医学语言模型

上传人：青*** IP属地：福建上传时间：2025-03-13 格式：PPTX 页数：56 大小：1.27MB 积分：6 举报 版权申诉

已阅读5页，还剩51页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

任务八：使用BERT预训练医学语言模型Transformer基本结构任务导入01任务目标02任务导学03任务知识点04任务总结05任务导入/01近年来，随着自然语言处理技术的快速发展，预训练语言模型在各种任务中展现出了强大的性能。其中，BERT（BidirectionalEncoderRepresentationsfromTransformers）模型因其在广泛领域的出色表现而备受关注。在医学领域，语言模型的应用尤为重要，因为医学文本数据复杂且专业性强。使用BERT预训练医学语言模型可以有效地提升医疗文本的理解和处理能力。在医学语言处理任务中，BERT模型可用于信息抽取、命名实体识别、文本分类、医学问答等多个任务。例如，在电子健康记录中，BERT可以帮助自动提取患者的诊断信息、治疗方案以及药物使用情况，极大地提高了医疗信息处理的效率和准确性。此外，基于BERT的模型在医学文献的自动综述和疾病预测方面也展现出了潜力。任务目标/022.任务目标了解序列到序列

(seq2seq)

模型基本原理了解Transformer基本原理掌握Transformer的架构掌握分词器的工作原理掌握分词器、嵌入的工作原理了解注意力机制的原理知识目标能按照任务要求搭建基于Transformer的模型拓展能力能调用Transformer模型能使用分词器完成分词能使用嵌入嵌入机制处理完成嵌入词向量的生成能使用多头注意力机制计算注意力矩阵能力目标任务导学/034.任务知识RNN和LSTM在处理长序列时难以并行化，训练时间较长，且容易遇到梯度消失或爆炸问题，导致捕捉长距离依赖能力不足。为了解决这一问题，2017年提出了Transformer，它是一种革命性的神经网络架构，专为处理序列数据而设计。与传统的循环神经网络（RNNs）和长短时记忆网络（LSTMs）不同，Transformer基于自注意力机制来建模序列中的依赖关系。其核心思想是通过允许模型在处理每个输入位置时，对整个序列的其他位置进行注意力集中，增强了长距离依赖的捕捉能力，并提高了训练效率和模型的表达能力。什么是GAN（生成对抗网络）目前常用的语言大模型GPT和BERT都是基于Transformer架构的。GPT使用Transformer的解码器部分，通过自回归方法进行单向预训练，主要用于生成任务。而BERT使用Transformer的编码器部分，通过掩码语言模型进行双向预训练，主要用于理解任务。什么是GAN(生成对抗网络)任务知识点/04序列到序列（Sequence-to-Sequence，简称Seq2Seq）模型是一种广泛应用于自然语言处理任务的神经网络架构，旨在将一个序列转换为另一个序列。Seq2Seq模型通常由两个主要部分组成，编码器（Encoder）接收并处理输入序列，将其编码为一个固定长度的上下文向量（也称为隐状态或编码状态）。编码器通常是一个循环神经网络（RNN）、长短期记忆网络（LSTM）或门控循环单元（GRU）等。序列到序列(seq2seq)模型大部分seq2seq模型均由编码器和解码器构成。编码器会接收输入序列，并将其映射至某些中间表示（即一种n维向量）。然后，解码器会接收这个抽象向量，并将其转换成输出序列。下图以机器翻译作为序列到序列的问题的例子，展示了编码器-解码器的架构。序列到序列(seq2seq)模型的工作原理解码阶段，解码器从上下文向量开始，通过每一步预测下一个输出词。每一步的输入是前一步生成的词，直到生成终止标记为止。在输入阶段，输入序列被逐个词地输入到编码器中，编码器将每个词的嵌入表示传递到下一个时间步，并最终生成一个上下文向量。编码阶段，编码器的最后一个隐状态作为上下文向量，包含了整个输入序列的信息。序列到序列(seq2seq)模型的工作原理Transformer模型和时间序列模型在一些方面有相似之处，但它们在设计和应用上有显著不同。传统时间序列模型通常依赖于时间步之间的顺序关系。而Transformer使用编码器-解码器结构，通过多头自注意力机制并行处理整个序列。Transformer不依赖于顺序计算，因此更容易并行化，适合处理长序列数据。Transformer与传统序列模型的区别RNN/LSTM/GRU等传统时间序列模型由于其顺序计算的特性，训练和推理时计算效率较低，尤其在处理长序列时更为明显。Transformer由于其并行计算的特性，通过自注意力机制，可以显著提高计算效率，尤其在处理长序列时表现更好。Transformer模型和时间序列模型都用于处理序列数据，传统的序列模型通常应用于时间序列数据（如股票价格、天气数据），而Transformer更多应用于自然语言处理如机器翻译、文本生成、问答系统等。Transformer与传统序列模型的区别Transformer的基本结构由编码器（Encoder）和解码器（Decoder）两部分组成，每部分包含多个堆叠的相同层。此外还需要分词器、嵌入层、位置编码、多头注意力和一些基本组件如前馈层等，以下是Transformer的基本结构。Transformer基本结构Transformer基本结构编码器（‌Encoder）‌：‌作用：‌负责将输入序列转换为连续的表示，‌捕捉输入序列中的信息并建模其特征。‌结构：‌每个编码器层包含两个子层，‌分别是多头自注意力机制和全连接前馈网络。‌这些子层通过残差连接和LayerNormalization（‌LayerNorm）‌相互连接，‌帮助编码器更好地学习输入序列的表示。‌Transformer基本结构解码器（‌Decoder）‌：‌作用：‌根据编码器的输出和先前生成的部分序列来逐步生成输出序列。‌结构：‌每个解码器层也包含三个子层，‌分别是多头自注意力机制、‌编码器-解码器注意力机制和全连接前馈网络。‌类似编码器，‌解码器层也通过残差连接和LayerNormalization相互连接，‌帮助解码器生成输出序列。‌Transformer基本结构Transformer模型使用自注意力机制来建模输入序列中各个位置之间的依赖关系。‌通过自注意力机制，‌模型可以同时考虑输入序列中所有位置的信息，‌从而更好地捕捉全局依赖关系。‌这种结构使得Transformer模型在处理序列转导任务时具有强大的能力，‌尤其是在自然语言处理领域，‌如机器翻译、‌文本生成等任务中表现出了卓越的性能。任务总结序列到序列

(seq2seq)

模型的基本原理、结构和用途01掌握Transformer基本结构及其用途02了解和解码器和编码器的基本架构03任务八：使用BERT预训练医学语言模型Transformer工作流程分词器01嵌入式处理02注意力机制03编码解码04分词器/01分词器可将原始文本转换为由标记（即子词）组成的文本的初始数值表征。分词器之所以是模型的重要构成部分之一。分词器可将凝集性语言中的词分解为更易管理的组成部分、处理原始语料库中不存在的新词或外来词/特殊字符，并确保模型生成紧凑的文本表征。每种语言都有可选用的数量众多且各不相同的分词器。大部分基于Transformer的架构均使用经过训练的分词器，这些分词器旨在充分缩短典型序列的长度。WordPiece（应用于BERT）、SentencePiece（应用于T5或RoBerta）等分词器同样具有多个变体。通常使用tokenizer来实现分词器的功能，它能将将输入的自然语言文本分割成独立的词或子词单元，使得模型能够理解和处理文本数据。将句子"Thecatsatonthemat"分割成["The","cat","sat","on","the","mat"]。还需要将分割后的词或子词转换成模型可以处理的数字表示。例如，句子"Thecatsatonthemat"可能被转换成[2,17,35,10,2,49]，其中每个数字对应词汇表中的一个词或子词。最后还需要将特殊标记（如[CLS]表示分类，[SEP]表示分隔符）添加到输入序列中，模型输出后Tokenizer还负责将模型生成的数字序列转换回自然语言文本。这一步骤通常称为解码（Decoding）。嵌入式处理/02分词后的文本将由嵌入机制处理。嵌入向量是通过一种算法生成的，该算法可将原始数据转换为神经网络可使用的数值表征。这种数值表征通常被称为文本嵌入。常用的算法有Word2Vec、GloVe或fastText，它们将离散的词或子词表示为连续的、密集的向量，使得模型可以更高效地进行计算。通过训练，词嵌入向量能够捕捉到词之间的语义关系。分词嵌入式处理分词的嵌入式处理过程分为两步，第一步输入的词或子词通过嵌入层转换为固定维度的向量。这一步骤通常使用一个可训练的嵌入矩阵来完成。第二步加入位置编码，由于Transformer模型不具备处理序列顺序的内置机制，需要加入位置编码（PositionalEncoding）以提供序列位置信息。位置编码向量被添加到词嵌入向量中，使模型能够区分不同位置的词。位置编码通常使用正弦和余弦函数来生成，以确保不同位置的编码具有独特的表示。分词嵌入式处理位置编码通常使用正弦和余弦函数来生成，以确保不同位置的编码具有独特的表示。以下是位置编码的计算公式：其中：pos是词在序列中的位置。i是嵌入向量的维度索引。dmodel是嵌入向量的维度。分词嵌入式处理下面是实现Transformer词嵌入和位置编码的实例，使用TransformerEmbedding类同时实现了词嵌入和位置编码。输入的词ID通过嵌入层转换为向量，并添加位置编码以提供序列位置信息。输出的结果是一个包含词嵌入和位置编码的向量表示。分词嵌入式处理代码中输入一个形状为[2,5]的张量，其中2是批次大小，5是序列长度。输入张量表示两个序列，每个序列由五个词组成。input_seq这个张量表示第一个句子由词ID[1,2,3,4,5]组成。第二个句子由词ID[6,7,8,9,10]组成。模型将输入的词ID转换为嵌入向量，并添加位置编码。输出将是一个形状为[2,5,512]的张量，其中512是嵌入向量的维度。分词嵌入式处理注意力机制/03当一个场景进入人类视野时，往往会先关注场景中的一些重点，如动态的点或者突兀的颜色，剩下的静态场景可能会暂时性的忽略。例如在右面的图像中，按照人类的关注点使用颜色对重要的部分进行了标注。什么是注意力机制同样的在文本处理中，也需要根据上下文的信息去关注重点的文字信息。通过观察输入序列，并在每个输入时间步判断序列中的其它部分哪些是重要的。例如在下面的例子中，可以看到“ball”对“tennis”和“playing”有强烈的注意力，但“tennis”和“dog”之间的联系很微弱。什么是注意力机制注意力机制允许模型在处理序列数据时更加关注重要的信息，从而提高模型的精度和效率。注意力机制的核心思想是根据输入数据的不同部分赋予不同的权重，以高权重去聚焦重要信息，低权重去忽略不相关的信息，并且还可以不断调整权重，使得模型能够根据当前的任务需求动态地选择关注哪些信息。这种机制模仿了人类视觉和认知系统的特性，即人类在处理信息时会选择性地将注意力集中在某些特定的区域或特征上，同时忽略其他不相关的信息，模型因此具有更高的可扩展性和鲁棒性。注意力机制是自深度学习快速发展后广泛应用于自然语言处理、统计学习、图像检测，语音识别和计算机等领域的核心技术。注意力机制原理自注意力机制（Self-AttentionMechanism）是Transformer模型中的核心组件，它允许模型在处理输入序列时，通过给每个元素分配不同的权重，来聚焦于序列中不同位置的信息。Transformer架构中的注意力机制中由三个组件构成：查询（Query）、键（Key）和值（Value）。这三个组件中的每一个组件均有与之关联的权重矩阵，该矩阵通过优化过程进行训练。Transformer自注意力机制编码解码/04例如需要从一个文档中提取“人工智能项目”的摘要，就特别需要注意和关键字相关的信息。这时Query（查询）表示是当前你关注的部分，你想了解与它最相关的内容。比如，如果你正在生成关于“人工智能项目”的摘要部分，Query就是与“人工智能项目”相关的信息点。Key（键）表示是你可以访问的信息点，用于匹配Query。在上例中文档中每句话或每个段落都可以是一个Key。Value（值）与每个Key相关联的实际信息，如果Key与Query匹配，这些信息将被用来生成输出（即摘要）。在上面的例子中Value可能是与每个Key（话语或段落）相对应的详细内容。Q、K和V矩阵的作用文档中包含多个内容，包括“人工智能项目”、“团队信息”、“计划安排”，任务是生

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《深度学习项目案例开发》课件-任务八：使用BERT预训练医学语言模型

文档简介

温馨提示

最新文档

评论

《深度学习项目案例开发》课件-任务八：使用BERT预训练医学语言模型

文档简介

温馨提示

最新文档

评论

相关文档