版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第6章自然语言处理——赵克玲本章目标了解自然语言处理的概念理解自然语言处理的基本技术原理掌握自然语言处理的应用场景自然语言处理导入创造智能的主要发展方向:运算能力、感知能力和认知能力。比尔盖茨说过“语言理解是人工智能皇冠上的明珠。”随着人工智能的快速发展,自然语言处理技术的应用越来越广泛。另外,如何通过计算机科学和统计方法作为手段,研究自然语言理解和生成也是人工智能领域的重要挑战之一。自然语言处理的定义自然语言处理(NaturalLanguageProcessing,NLP)是计算机科学领域与人工智能领域中一个重要的发展方向,研究的是人与计算机之间用自然语言进行有效通信的各种理论与方法,所以这里提到的自然语言处理是一门融语言学、计算机科学、数学于一体的科学。常见的自然语言处理语音助手翻译软件评论归纳技术:语音识别、问答系统技术:Seq2Seq、Encoder-Decoder技术:主题模型、情感分析自然语言处理的基本任务通常自然语言处理会用到以下基本任务:(1)分词:将句子分割成单词(2)词性标注:标注每个单词的词性,比如主语、谓语、宾语、动词等等(3)命名实体识别:在文本中识别出某类词是识别句子中的实体,一般识别这个实体我们经常会用到语料库,通常用来识别人名、地名、机构名这三类实体(4)去除停止词与低频词:去掉一些诸如“的”“了”“也”等词语,这些词语对于区分分档毫无帮助,不携带任何主题信息,低频词是出现次数较低的词语,比如一片采访稿的受访者名字,不能代表某一类主题。自然语言处理的基本任务分类任务(1)文本分类:是指计算机将载有信息的一篇文档映射到预先给定的某一类别或者某几个类别主题的过程。(2)文本主题:提取出能够体现文本内容主题的一些关键词,给出一段文本,确定出文本内容的主题,比如新闻,娱乐,体育等等。(3)情感分析:判断文本表达的情感,情感分析的任务涉及到的主题比较多时,一般利用自然语言处理技术识别,比如客户评论中正向或者负向的情感,或者是通过语音分析、写作分析得到情绪判别的结果。判断子句关系1.问答系统:问答机器人问答机器人的工作步骤:(1)针对提出的问题采用分类的机器学习算法判断问题类型,用于锁定问题的精准范围;(2)针对问题提取关键词,基于关键词的搜索既可以直接采用基于TF-IDF算法搜索,也可基于word2vec转变空间向量使用相似词进行搜索。(3)结合文档的主题等信息对侯选集的答案进行打分,最终返回得分最高的TopN侯选答案。判断子句关系2.自然语言推理:根据文本内容,推理出合理的信息文本间的推理关系,又称文本蕴含关系(TextualEntailment),作为一种基本的文本间语义联系,广泛存在于自然语言文本中。简单的来说文本蕴含关系描述的是两个文本之间的推理关系,其中一个文本作为前提(premise),另一个文本作为假设(hypothesis),如果根据前提P能推理得出假设H,那么就说P蕴含H,记作P->H,这跟一阶逻辑中的蕴含关系是类似的。自然语言推理案例
IDsentencelabelPremise
AdogjumpingforaFrisbeeinthesnow.
HypothesisExample1Ananimalisoutsideinthecoldweather,playingwithaplastictoy.entailmentExample2Acatwashedhisfaceandwhiskerswithhisfrontpaw.contradictionExample3Apetisenjoyingagameoffetchwithhisowner.neutral生成任务1.机器翻译机器翻译表示将文本翻译成另一种语言的文本,即利用计算机将一种自然语言转换为另外一种自然语言的过程,它是计算语言学的分支,是人工智能的终极目标之一,具有重要的科学研究价值。机器翻译:基于规则的翻译方法与人类类似,这种方法会先分析句子中的词性,将每个词翻译成目标语言,再根据相应的语法规则进行调整,来输出结果,显然这种翻译方法效果并不好,因为语言表达方法是非常灵活的,有限的语法和规则无法覆盖所有的语言现象。怎么How老old是are你You?机器翻译:基于统计的翻译方法第二个阶段是基于统计的翻译方法(SMT)。即根据词或短语找到所有可能的结果,再在庞大的语料库中进行搜索,统计每种结果出现的概率,将概率最高的结果进行输出。规则方法效率有很大提升,不过对语料库的依赖较大。不错的美好的Nice来伴随to遇见集会meet你你You?机器翻译:基于神经网络的翻译方法第三个阶段是基于神经网络的翻译方法(NMT)。通过学习大量的语料,比如平行语料库让神经网络自己学习语言的一些特征,找到输入和输出的关系,端到端的输出翻译结果,取得了不错的效果。机器翻译从基于词到基于短语再到基于句子从使用大规模平行语料库,到可以使用单语语料库,到实现零数据翻译零数据翻译指的就是参数共享,系统可以把翻译知识从一个语言迁移到其他语言,比如系统从来没有学习过日语和韩语的互译,但是会英语和日语以及英语和韩语的翻译,通过在句子前加入人工标记(token)来明确目标语言,零数据翻译模型将可以实现通过单一模型来翻译多种语言,而不需要增加新的参数,并且能够进一步提升翻译质量。自然语言处理技术发展1.N—gram基于统计的语言模型估计所有单词出现的联合概率对文本看成N元组的集合对所有元组的出现频数进行统计,构成特征向量N=1,词袋模型自然语言处理技术发展2.词向量:Word2Vec、Doc2Vec将词向量嵌入成密集的向量,词嵌入是将词汇、短语、句子乃至篇章的表达在大规模语料进行训练,得到一个多维语义空间上的表达,使得词汇、短语、句子乃至篇章之间的语义距离可以计算。自然语言处理技术发展3.神经网络:GNN、RNN、LSTM、Transform(1)RNN循环神经网络,擅长处理时间序列,循环神经网络可以对一个不定长的句子进行编码,描述句子的信息。(2)LSTM:使用了不同的函数去计算隐含层的状态。(3)GNN:卷积神经网络,它可以进行特征提取,N-gram是采用统计的方式,而CNN是用特征提取的方式,通常我们会将词向量拼接后使用CNN,在关系提取中有很多应用都采用CNN。对于语言模型这部分,采用语言模型预测,它是基于神经网络训练的语言模型,可以更加准确地预测下一个词或者是下一个句子的出现概率。语言模型预测自然语言处理技术发展4.编码-解码(Sequence2Sequence)Sequence2Sequence,即序列映射到另一个序列,以及Encoder-Decoder架构,它本身用于聊天机器人、机器翻译或者是一些问答系统中,Encoder-Decoder表示的是提取特征转换到另一个空间,可以实现一个句子到另一个句子的变换,这个技术就是机器翻译、对话生成、问答、转述的核心技术。编码-解码从文本中挖掘主题从文本中挖掘潜在主题,也就是语义分析。对于自然语言处理,借助于潜在的语义分析技术,计算机就可以从海量的数据中自动发掘出潜在的主题,进而完成对文本的内容概括和提炼。1.语义分析文本特征词袋模型是用于描述文本的一个简单的数学模型,也是常用的一种文本特征提取方式,词袋模型将一篇文档看作是一个“装有若干词语的袋子”,只考虑在文档中出现的次数,而忽略词语的顺序以及句子的结构。铭铭喜欢打篮球,也喜欢打乒乓球文本特征我们可以将其表示为一个形如(词语:出现次数)的二元组组成的集合,这个集合就是这段文本对应的“词袋”,词袋模型对文档进行了很大程度的简化,但一定程度上仍然保留了文档的主题信息。{(铭铭:1)(喜欢:2)(打:2)(篮球:1)(也:1)(乒乓球:1)}文本特征有了词袋之后,我们可以构造一个包含若干词语的词典,并借助这个词典将词袋转换为特征向量。序号123456词语铭铭喜欢打篮球也乒乓球
文本特征
序号1234词语铭铭喜欢篮球乒乓球文本特征在实际应用中,我们会使用一个公共的词典对语料库中的所有文档进行词频统计,我们以一个包含三篇文档的语料库为例:文档1:铭铭喜欢打篮球,也喜欢打乒乓球。文档2:铭铭去公园放风筝。文档3:铭铭的学校开设了人工智能课程。文本特征首先,我们从语料库中提取所有出现过的词语,并形成一个词典:序号1234词语铭铭喜欢打篮球序号5678词语也乒乓球去公园序号9101112词语放风筝的学校序号13131516词语开设了人工智能课程文本特征接下来,我们统计每篇文档中每个词语出现的次数。
铭铭喜欢打篮球也乒乓球去公园放风筝的学校开设了人工智能课程铭铭喜欢打篮球,也喜欢打乒乓球。1221100000000000铭铭去公园放风筝。1000001111000000铭铭的学校开设了人工智能课程1000000000111111统计结果即是三篇文档的词计数向量n1=(1,2,2,1,1,1,0,0,0,0,0,0,0,0,0,0)n2=(1,0,0,0,0,0,1,1,1,1,0,0,0,0,0,0)n3=(1,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1)文本特征利用词袋模型构造文本特征的基本流程。文本特征中文分词我们首先需要将句子中的词语分开,才能构建词袋模型,这个过程对于英语来讲比较容易,但对于中文而言,所有的词语连接在一起,计算机不知道一个字应该与其前后的字连成词语,还是自己形成一个词语,因此需要进行中文分词,大多基于匹配和统计学方法。去除停止词与低频词去除停止词和低频词,即去掉一些诸如“的”“了”“也”等词语,这些词语对于区分分档毫无帮助,不携带任何主题信息,低频词是出现次数较低的词语,比如一片采访稿的受访者的名字,不能代表某一类主题。词频率和逆文档频率词频率与逆文档频率是反映一个词语对于一篇文档重要性的两个指标。(1)词频率:一个词语在一篇文档中出现的频率,它等于这个词语在这段文本中出现的次数与这段文本词语中的总数的商。(2)逆文档频率:文档频率(documentfrequency)为语料库中出现过这个词语的文档总数与语料库中所有文本的总数的商,那么第i个词语的文档频率即为dfi=Di/D。而这个词语的逆文档频率即为文档频率的负对数,即idfi=log(D/(1+Di))。逆文档频率同样刻画了词语在文本中的重要性,其值越高,重要性越大。自然语言
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 产品助理面试题及竞品分析方法含答案
- 财务管理招聘全解析及答案集
- 软件测试工程师的成长路径与技能提升
- 市场专员面试要点及题目参考
- 税务客服专员培训题库与答案参考
- 刀具存储项目可行性分析报告范文(总投资12000万元)
- 深度解析(2026)《GBT 18793-2002信息技术 可扩展置标语言(XML)1.0》
- 深度解析(2026)《GBT 18737.4-2003纺织机械与附件 经轴 第4部分织轴、整经轴和分段整经轴边盘的质量等级》
- 针对BIM技术的负责人面试题集
- 中航工业安全工程师笔试题库及解析
- 切尔诺贝利核电站事故工程伦理分析
- 初中地理七年级上册第七章第四节俄罗斯
- 法院起诉收款账户确认书范本
- 课堂观察与评价的基本方法课件
- 私募基金内部人员交易管理制度模版
- 针对低层次学生的高考英语复习提分有效策略 高三英语复习备考讲座
- (完整)《走遍德国》配套练习答案
- 考研准考证模板word
- 周练习15- 牛津译林版八年级英语上册
- 电力电缆基础知识课件
- 代理记账申请表
评论
0/150
提交评论