自然语言处理ppt课件.ppt_第1页
自然语言处理ppt课件.ppt_第2页
自然语言处理ppt课件.ppt_第3页
自然语言处理ppt课件.ppt_第4页
自然语言处理ppt课件.ppt_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

自然语言处理 工具 jieba分词流程 1将所有文本进行数据清洗 词性标注 筛选出所有名词 并保存文件2爬取数据 制作景点 酒店名词的用户字典3根据2的用户字典对1中的名词进行筛选 词性标注 筛选出所有景点 酒店名词 并保存文件4在对3中保存文件进行keyword排序 关键词抽取 并保存文件 1 自然语言处理 1jieba系统简介 结巴 中文分词 做最好的Python中文分词组件 特点 支持三种分词模式支持繁体分词支持自定义词典MIT授权协议涉及算法 基于前缀词典实现词图扫描 生成句子中汉字所有可能成词情况所构成的有向无环图 DAG 采用动态规划查找最大概率路径 找出基于词频的最大切分组合 对于未登录词 采用了基于汉字成词能力的HMM模型 采用Viterbi算法进行计算 基于Viterbi算法的词性标注 分别基于tfidf和textrank模型抽取关键词 2 自然语言处理 2jieba系统框架jieba分词系统 主要实现三个模块 1分词2词性标注3关键词抽取其中 分词有三种模式 默认是精确模式 精确模式 试图将句子最精确地切开 适合文本分析 全模式 把句子中所有的可以成词的词语都扫描出来 速度非常快 但是不能解决歧义 搜索引擎模式 在精确模式的基础上 对长词再次切分 提高召回率 适合用于搜索引擎分词 3 自然语言处理 概念 NaturalLanguageProcessing Understanding 自然语言处理 理解希望机器能像人一样去理解语言 理解以人类自然语言为载体的文本所包含的信息 并完成一些特定任务 处理文本 中文分词 词性标注 命名实体识别命名实体识别的任务就是识别出待处理文本中的实体名词三大类 实体类 时间类和数字类七小类 人名 机构名 地名 时间 日期 货币和百分比关键词提取 关系抽取 信息抽取 依存分析 词嵌入应用 文本机器翻译 文本摘要 情感分析 知识图谱 问答系统 聊天机器人 4 自然语言处理 背景 如何表示词语所包含的语义 怎么用词语表示文本 让机器读懂 向量空间模型 词袋模型 1元素词出现为0 不出现为12元素为出现次数3元素为ti idf数值WordEmbedding 词嵌入 核心思想 此本无义 义由境生 语义相关的词语 具有相似的上下文环境 例如 苹果和梨子具有相似的上下文语境 怎么得到词向量 训练语料库 将每个词语训练成词向量 总结 语言的表示 词向量 Bags of word 维度高 过于稀疏 缺乏语义 模型简单WordEmbedding 维度低 更为稠密 包含语义 训练复杂 5 自然语言处理 实践基于gensim包和中文维基语料gensim word2vec模型介绍 6 自然语言处理 用Python做自然语言处理必知的八个工具 7 自然语言处理 加州大学洛杉矶分校UCLA在IN N OUT吃饱喝足后便开往很近的UCLA 我的点评 来到LA 还是要来看看世界名校UCLA的 找到了学校里的visitorparking停车场停车 一个小时USD3 不算贵 7出来走不远就可以看到熊的雕塑和UCLA的一家很大的礼品店 此外 我们还主要参观了UCLA的Student对面的图书馆 ChicanoStudiesResearchCenterLibrary RoyceHall还是挺漂亮的 图书馆也是学习环境很好的地方 顺利降落JFK 回到纽约 行程顺利结束 洛杉矶 加州 8 自然语言处理 分词词性标注 9

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论