版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大语言模型是如何炼成的语言模型的技术演变自然语言处理(NaturalLanguageProcessing,NLP)是人工智能与语言学交叉的研究领域,研究如何使计算机能够理解、分析、生成和处理人类语言,从而实现人机之间的自然语言通信。自20世纪50年代以来,自然语言处理经历了从基于规则,到统计模型,再到深度学习模型和预训练大模型,让机器和人类沟通变得前所未有的自然和高效。技术演变通过预先设定好的语法规则和词汇库,让计算机对文本进行分析、处理和生成。规则:由专家手工编写,涵盖词性、句法结构、语义关系等内容。基本思路:先对句子进行词法和语法的严格分析,再依赖语言学专家编写的规则,实现对语言的理解或翻译。核心工具:语法树是实现自动句法分析、翻译和语义理解的核心工具,帮助计算机按照预设规则识别句子成分及其关系。语法树:分层结构的图形表示,用来描述一个句子的组成单位(词、短语)在句法规则下的组织方式。每个节点代表一个语法成分,从句子的整体(根节点)逐层细分到具体的词语(叶子节点)。1.基于规则的NLP“我明天去学校”的语法树通过分析大量文本数据中词语的共现频率,建立概率模型,以预测词语之间的关系。两种核心方法是N-gram语言模型和隐马尔可夫模型(HMM)。2.基于统计的NLPN-gram语言模型N-gram语言模型是一种基于概率的统计语言模型,用于通过前面连续的 N−1个词来预测当前词出现的概率。N-gram的分类主要包括一元模型、二元模型和N元模型。分类定义示例一元模型1-gram假设每个词的出现与上下文无关,即词语之间相互独立。句子「我爱学习」一元模型预测:「我」「爱」「学习」二元模型2-gram假设当前词的出现只依赖于前一个词。句子:「我爱学校」二元模型预测:「我→爱」「爱→学校」三元模型3-gram假设当前词的出现依赖于前两个词。句子:「我爱我的学校」三元模型预测:「我爱→我的」「爱我的→学校」N元模型N-gram推广为任意N的情形,假设当前词的出现概率只依赖于前N-1个词。句子:「我爱我的学校很多」4-gram预测:「我爱我的→学校」通过分析大量文本数据中词语的共现频率,建立概率模型,以预测词语之间的关系。两种核心方法是N-gram语言模型和隐马尔可夫模型(HiddenMarkovModel,HMM)。2.基于统计的NLP隐马尔可夫模型隐马尔可夫模型是一种统计模型,用于描述一个系统在隐藏状态序列控制下产生可观测序列的过程。HMM假设系统在任一时刻只处于某一隐藏状态,该状态以一定概率转移,并以另一个概率生成一个观测值。两个关键点:隐藏的状态和可观测的现象核心思想:从可观测的现象预测隐藏的状态示例:天气预测可观测的现象看到朋友戴太阳眼镜看到朋友打伞看到朋友穿羽绒服隐藏的状态晴天雨天雪天HMM词向量是用多维实数向量来表示词语的一种数学方式,是一种把词语变成数字的方法。它用多个数字来代表一个词,让计算机能“看懂”词语之间的关系。Word2Vec是一种用神经网络技术来生成词向量的方法。它能把词语转化成一个由少量数字组成的向量,这些向量不仅能表示词语的意思,还能看出词语之间的相似程度。Word2Vec通过分析大量文本中词语和周围词语一起出现的情况,学习出哪些词语意思相近,让计算机更好地理解语言。3.深度学习模型示例:Word2Vec“香蕉”、“梨”、“跳远”的词向量分别为:香蕉:[0.72,0.14,0.58,0.80]梨:[0.70,0.12,0.60,0.79]跳远:[0.20,0.75,0.10,0.30]循环神经网络(RecurrentNeuralNetwork,RNN)是一种用于处理序列数据的神经网络模型,其特点是具有“循环连接”,能够在序列的每一个时间步上保留前一时刻的隐藏状态,并结合当前输入计算当前的输出。3.深度学习模型循环神经网络RNN基本结构图
大规模预训练语言模型通过在海量文本数据上进行自主学习,不仅掌握了词汇、句法等语言规律,更具备了处理复杂语言任务的能力。预训练的核心思想是“先通用学习,后专用应用”。在预训练阶段,模型不需要明确的任务目标,而是通过分析海量文本数据,学习语言的基本
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 上海工程技术大学《AUTOCAD 制图》2025-2026学年第一学期期末试卷(A卷)
- 上海工商职业技术学院《安装工程施工技术》2025-2026学年第一学期期末试卷(B卷)
- 上海工商职业技术学院《安全检测与监控》2025-2026学年第一学期期末试卷(A卷)
- 上海工商职业技术学院《Android 开发基础》2025-2026学年第一学期期末试卷(B卷)
- 上饶卫生健康职业学院《安全管理》2025-2026学年第一学期期末试卷(B卷)
- 初中生阅读方法提升主题班会说课稿
- 演唱 唱脸谱说课稿2025年初中音乐七年级下册(2024)人音版(2024 主编:赵季平杜永寿)
- 上海音乐学院《安全学原理》2025-2026学年第一学期期末试卷(B卷)
- 医学26年:甲减危象急救处理流程 查房课件
- 初中生2025心理强化说课稿
- 拆违控违培训课件
- 小学信息技术课堂中STEAM教育模式研究教学研究课题报告
- 算力设施产业图谱研究报告 -2024
- 2026年四川省事业单位联考《综合知识》试题及答案
- 公共洗手间卫生清洁培训
- 大连软件产业发展战略的深度剖析与对策构建
- 专题05平面向量(讲义)数学学业水平考试合格考总复习(原卷版)
- 细胞素功效课件
- 早产儿家庭环境改造与安全防护方案
- 2025广东中山市神湾镇人民政府所属事业单位招聘事业单位人员8人人参考题库及答案详解(真题汇编)
- 会计岗位招聘笔试题及解答(某大型国企)附答案
评论
0/150
提交评论