版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第6章自然语言处理研究生教学版|2026扩展神经网络与深度学习|第6章1从教材中的分词、词向量、LSTM情感分析,走向2026年的大模型、多模态、推理模型与检索增强NLP教材主线•6.1NLP概述•6.2常用技术•6.3Word2Vec模型搭建与实现•6.4基于LSTM的评论情感分析本章升级视角•表示学习范式迁移•Transformer与预训练大模型•RAG/rerank/tooluse•多模态与推理时计算研究生关注点•方法抽象•工程权衡•评价指标•研究问题2026关键词•reasoningmodel•longcontext•multilingualretrieval•open-weightMoE•low-bitinference本讲的一个核心判断如果把教材第6章放到2026年来看,真正的主线已经从“单任务NLP模型”演化为“统一基础模型+检索增强+工具调用+多模态输入+可控推理”。但教材中的分词、停用词、词向量、序列建模并没有过时,它们变成了理解tokenizer、embedding、RAG、reranker、agent与evaluation的底层语义。学习目标与课堂组织第6章|自然语言处理神经网络与深度学习|第6章2学习目标A:懂教材•能概括教材第6章的知识结构•能解释分词、停用词、NER、词嵌入、Word2Vec、LSTM情感分析之间的逻辑链条•能说明“表示->模型->任务->评估”的基本范式学习目标B:懂演进•能说明Word2Vec到BERT到LLM的迁移•理解为什么NLP的主干从RNN转向Transformer与预训练•理解长上下文、推理模型、RAG对传统NLP的重构学习目标C:懂工程•能解释embedding/rerank/cache/quantization的角色•能分析中文NLP的预处理与部署差异•能把教材案例改写为现代工程栈学习目标D:懂研究•评价指标是否可靠?•大模型是否真的“理解”语言?•开源模型与闭源模型的研究价值如何比较?1-2节课建议安排第1节:6.1概述+6.2常用技术+6.3Word2Vec第2节:6.4LSTM情感分析+Transformer/LLM/RAG的2026扩展课堂互动建议:1)让学生比较“分词->词向量->LSTM”与“tokenizer->embedding->Transformer”的对应关系;2)让学生讨论中文企业搜索场景中为什么仅embedding不够,需要rerank;3)让学生设计一个面向课程论文的现代NLP系统图。教材第6章的知识地图第6章|自然语言处理神经网络与深度学习|第6章36.1自然语言处理概述•机器翻译•信息检索•自动文摘•问答系统•信息过滤•信息抽取•文本分类•语音识别6.2常用技术•分词•停用词过滤•词干提取•词形还原•命名实体识别•序列标注•词向量与词嵌入6.3Word2Vec模型搭建与实现•Word2Vec简介•Skip-Gram建模思路•文本预处理与词典构造•余弦相似度与近邻词6.4基于LSTM的评论情感分析•数据预处理•词向量与词ID映射•LSTM模型搭建•训练与测试教学重点1表示学习2序列建模3工程实现4现代扩展研究生层面不应只停留在“会调用库”,而要学会:把每个局部技术放回整个NLP系统链路中理解。NLP任务全景:教材中的任务,今天的统一系统第6章|自然语言处理神经网络与深度学习|第6章4机器翻译输入语言A,输出语言B信息检索从文档库中找相关内容自动文摘长文压缩为关键信息问答系统根据知识回答问题信息过滤给用户筛选感兴趣内容信息抽取抽取实体、关系、事件文本分类判断主题/情感/意图语音识别语音转文本2026统一视角这些任务在2026年越来越多地被统一到同一个基础模型栈中:Tokenizer/Embedding/BaseModel/InstructionTuning/Retrieval/ToolUse/Evaluation。也就是说,NLP不再只是“单任务模型集合”,而是“一个可组合的语言系统工程”。经典NLP流水线:教材的局部技术如何连成系统第6章|自然语言处理神经网络与深度学习|第6章5文本获取文本、语音、网页、评论、日志→预处理分词/清洗/停用词/规范化→表征TF-IDF/Word2Vec/Embedding→建模LSTM/Transformer/Rerank→输出分类、检索、摘要、问答教材中的方法论价值•分词与停用词:面向中文语料处理•NER/序列标注:结构化语义抽取•Word2Vec:从离散词到稠密表示•LSTM:从静态表示到上下文序列建模2026的系统化理解•预处理变成tokenizer+datacuration•词表示扩展为通用embedding与多模态token•任务模型扩展为基础模型+adapter+tooluse•后处理扩展为retrieval/guardrail/evaluator中文场景为什么仍有特殊性?•分词边界并不天然显式•专业术语、新词、命名实体频繁演化•企业知识库often混合文档、表格、邮件•长文本与多轮问答会放大检索质量问题表示学习的演进:从词袋到大模型embedding第6章|自然语言处理神经网络与深度学习|第6章6BoW/TF-IDF词项统计,稀疏高维优点:可解释、简单缺点:无上下文Word2Vec稠密低维,利用上下文优点:语义近邻缺点:多义词困难BERT/上下文化嵌入同一词在不同上下文取不同表示优点:语境敏感缺点:成本更高2026Embedding+RAG表示学习进入基础设施层与检索、排序、长上下文联动教材中已经明确指出:Word2Vec利用上下文,训练速度快,但“一词一向量”难以表达多义词;并提到BERT作为双向预训练模型的代表。研究生应把这一演进理解为:表示学习的单位,已经从“词”迁移为“token+context+task+toolstate”。Word2Vec:教材案例背后的建模思想第6章|自然语言处理神经网络与深度学习|第6章7CBOW给定上下文词,预测中心词适合高频词训练较稳定常被视为“更平滑”的语义建模Skip-Gram给定中心词,预测上下文词对低频词更友好教材案例采用这一思路与窗口采样、负采样密切相关教材实现关注参数skip_window:一侧窗口大小num_skips:每词生成样本数embedding_size:映射层维度batch_size:一次训练样本数评价方式训练后查看近邻词余弦相似度计算语义距离“词向量质量”由近邻合理性间接体现一句话理解Word2Vec的目标不是“记住词典”,而是在上下文共现统计中学习一个能够表达语义几何结构的低维空间。教材中的Word2Vec工程流程,以及它为什么还重要第6章|自然语言处理神经网络与深度学习|第6章8教材流程•读取停用词•Jieba分词•生成词表与编码•Skip-Gram训练词向量•以近邻词验证效果来自教材的重要判断Word2Vec考虑上下文,维度少、训练速度快,广泛用于各类任务;但“一词一向量”不能处理多义词,也难以针对特定任务直接优化。这正是后来上下文化预训练模型崛起的关键原因。现代对应物•训练词向量->预训练embedding模型•近邻词验证->retrieval/clustering/STS评估•单一词表示->上下文化token表示•静态词向量库->向量数据库与在线更新1#关键全局变量2skip_window=23num_skips=44embedding_size=1285batch_size=12867#训练时评估近邻词8sim=evaluate(get_embedding(x_test)).numpy()今天为什么还要讲Word2Vec?•它是embedding思想的第一性原理入门•它帮助理解“相似度空间”与“向量检索”•它让学生明白:表示学习不是黑箱,而是可被任务和数据分布塑造的几何结构基于LSTM的评论情感分析:教材案例的完整链条第6章|自然语言处理神经网络与深度学习|第6章9步骤1文本分类与标注积极/消极加载文本与标签步骤2分词与词典Jieba分词建立词典与索引步骤3训练词向量Word2Vec生成embedding步骤4构建LSTMEmbedding+LSTM+Dense步骤5训练与测试输入测试文本评估模型效果LSTM在这里解决什么问题?•词语顺序会影响情感极性•长距离依赖会影响整体语义判断•评论文本的局部词语与整体语调并不总是一致•门控机制让模型保留有效上下文、抑制噪声教材给出的流程总结处理输入文本->得到词向量->建立词ID映射->构建LSTM网络->训练模型->输入测试文本。这条链条非常适合讲授“从表示学习到任务建模”的闭环。为什么NLP的主干从RNN迁移到Transformer?第6章|自然语言处理神经网络与深度学习|第6章10比较维度RNN/LSTMTransformer并行性按时间步递归,训练难并行全序列并行,GPU友好长依赖理论可记忆,实际受梯度与路径限制注意力直接建立远距离关联预训练扩展性不适合超大规模预训练更适合统一预训练与微调上下文长度扩展代价较大长上下文仍昂贵,但更可扩展2026位置局部/流式/轻量场景仍有价值NLP主干与多模态主干的默认选择结论教材中的LSTM案例仍然是理解序列建模的好入口,但在2026年,自然语言处理的核心平台已经是Transformer+预训练+指令对齐。从教材到2026:推理模型、工具调用与多模态第6章|自然语言处理神经网络与深度学习|第6章11OpenAIo3的信号•属于“trainedtothinkforlonger”的推理模型•可在ChatGPT中组合使用web/files/Python/vision/imagetools•推理时计算成为能力来源之一Gemini2.5Pro的信号•thinkingmodel•原生多模态+长上下文•可处理text/audio/image/video/coderepository这对NLP的含义•NLP不再只看“文本生成”•模型开始在推理、检索、图文理解、表格理解、代码解释之间切换•语言成为统一接口,而不是唯一模态研究生课堂应该怎么讲?建议把“现代NLP系统”表述为:输入(文本/图像/表格/音频)->统一tokenizer/processor->基础模型->推理时计算->工具调用->检索与校验->输出。这样学生会意识到:传统NLP任务并没有消失,而是被重写为统一模型中的不同能力接口。RAG与rerank:现代NLP为什么重新拥抱“信息检索”第6章|自然语言处理神经网络与深度学习|第6章12教材中的信息检索把信息检索视为NLP的典型应用之一。这在2026年不仅没有边缘化,反而成为大模型系统落地的核心。RAG第一层•embedding召回•高覆盖,低精度•负责“别漏”Rerank第二层•cross-encoder/reranker•低覆盖,高精度•负责“别错”生成层•把检索结果纳入上下文•要求引用、归因、可验证•降低幻觉但不等于消除幻觉→→→2026的现实工程经验CohereRerank3.5把multilingualretrieval、reasoningcapability与长文档重排序明确产品化,这说明现代NLP工程不是“只有一个大模型”,而是“召回+重排+生成+评估”的系统。对中文企业搜索、FAQ、合同问答、邮件检索、知识库助手而言,这通常比单纯增加上下文窗口更稳定。开放权重NLP:多语言、多模态、本地部署正在变得可行第6章|自然语言处理神经网络与深度学习|第6章13Gemma4的代表性信息•open-weights•支持text+image,部分小模型支持audio•上下文最高256K•140+语言,多尺寸可部署MoE与部署权衡•Dense:实现简单,推理稳定•MoE:总参数大,但每token激活更少•适合在保持能力的同时控制延迟与成本教学上的意义•研究生可以在本地或实验室工作站复现实验•更容易做中文私有语料微调•更方便讨论可解释性、对齐与安全边界为什么这对第6章重要?因为教材把NLP放在“方法与应用”层面讲解,而2026年的NLP已经多了一层“模型治理与部署可得性”的维度。开放权重模型让课程作业不再只停留在API调用,而可以落到模型选择、微调策略、显存预算和数据治理。系统扩展:长上下文、低比特推理与Blackwell时代第6章|自然语言处理神经网络与深度学习|第6章14长上下文•Gemini2.5Pro:1Mtoken,2M即将到来(2025发布信息)•长上下文使文档问答、代码库分析、长会话更可行•但“能装下”不等于“能找准”NVFP4/Blackwell•NVIDIA将NVFP4作为Blackwell的超低精度推理格式•目标是在保持精度的同时降低内存与推理成本•这直接影响长上下文与多语言模型的部署可行性对NLP的直接影响•更长文档可在线处理•更大模型可进入企业私有化环境•边缘设备与本地工作站可运行更强的语言模型一句务实建议课程设计时不要把“上下文窗口更大”误认为系统一定更好。现代NLP系统更像三者协同:更好的检索+足够长的上下文+更低的推理成本。这也是为什么第6章的“信息检索”在2026年反而重新变得中心。研究问题与课堂讨论:NLP在2026年真正难的地方第6章|自然语言处理神经网络与深度学习|第6章15评价问题•BLEU/ROUGE/Accuracy够不够?•推理模型是否需要新的评测协议?•真实任务与benchmark的差距如何弥合
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026八年级下语文文言文倒装句方法
- 【 生物 】人体内废物的排出课件2025-2026学年人教版七年级下册生物
- 基层安全生产做法讲解
- 2024年保险公司绩效考核方案
- 2024届广东省普通高等学校招生适应性考试(五)历史试卷
- 2024年保洁人员职责范本
- 2024-2025学年高中数学必修2人教B版(单元测试)试题合集
- 2023年甘肃省兰州市中考理综物理试卷
- 2023年金融学知识点归纳
- 2023年秋会计本科高级财务会计形成性考核册答案
- 生物学湖南长沙市2026年高三年级模拟考试(长沙一模)(2.1-2.3)
- 克拉玛依市2026事业单位教师岗-教育综合知识-学科专业知识试卷(含答案)
- 2026春译林版(新教材)初中英语八年级下册(全册)各单元知识点复习要点梳理
- 1000以内数的认识+(课件)-2024-2025学年二年级下册数学人教版
- 2026年社会工作者考试全真模拟试卷
- 2026年天津市南开区高三下学期一模语文试卷和答案
- 肥料厂原料采购制度
- 水源保护区生态环境建设示范工程项目建议书
- 《特大型突发地质灾害隐患点认定与核销管理办法(试行)》
- 2026年江西省公安厅招聘警务辅助人员笔试试题(含答案)
- 新教材教科版六年级下册科学2-4《多种多样的动物》教学课件
评论
0/150
提交评论