




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
文本分析方法1.了解中文分词
2.了解语言模型
3.了解循环神经网络中文分词语言模型12循环神经网络31.中文分词1).基于字符串匹配的分词方法按照不同的扫描方式,逐个查找词库进行分词根据扫描方式可细分为:正向最大匹配,反向最大匹配,双向最大匹配,最小切分(即最短路径)2).全切分方法首先切分出与词库匹配的所有可能的词,再运用统计语言模型决定最优的切分结果优点在于可以解决分词中的歧义问题对于文本串“南京市长江大桥”首先找到匹配的所有词条(南京,市,长江,大桥,南京市,长江大桥,市长,江大桥,江大,桥),以词网格(wordlattices)形式表示接着做路径搜索,基于统计语言模型(例如n-gram)找到最优路径最后可能还需要命名实体识别最终结果P(南京市,长江,大桥)的语言模型得分最高,则为最优切分1.中文分词3).由字构词的分词方法可以理解为字的分类问题,也就是自然语言处理中的sequencelabeling问题通常做法是利用HMM,MAXENT,MEMM,CRF等预测文本串每个字的tag譬如B,E,I,S,这四个tag分别表示:beginning,inside,ending,single,也就是一个词的开始,中间,结束,以及单个字的词一般而言,方法一和方法二在工业界用得较多,方法三因为采用复杂的模型,虽准确率相对高,但耗时较大2.语言模型语言模型是用来计算一个句子产生概率的概率模型即P(w_1,w_2,w_3…w_m),m表示词的总个数根据贝叶斯公式:P(w_1,w_2,w_3…w_m)=P(w_1)P(w_2|w_1)P(w_3|w_1,w_2)…P(w_m|w_1,w_2…w_{m-1})。最简单的语言模型是N-Gram它利用马尔科夫假设,认为句子中每个单词只与其前n–1个单词有关,即假设产生w_m这个词的条件概率只依赖于前n–1个词,则有P(w_m|w_1,w_2…w_{m-1})=P(w_m|w_{m-n+1},w_{m-n+2}…w_{m-1})。其中n越大,模型可区别性越强,n越小,模型可靠性越高。2.语言模型神经网络语言模型ffnnlm(Feed-forwardNeuralNetLanguageModel)基于循环神经网络(recurrentneuralnetwork)的语言模型rnnlm神经网络模型解决了传统n-gram的两个缺陷:(1)词语之间的相似性可以通过词向量来体现;(2)自带平滑功能。3.循环神经网络循环神经网络源自于1982年由SarathaSathasivam提出的霍普菲尔德网络其特点是可以存在有向环,将上一次的输出作为本次的输入主要用途是处理和预测序列数据,挖掘数据中的时序信息以及语义信息的深度表达在语音识别、语言模型、机器翻译以及时序分析等方面实现了突破3.循环神经网络对于循环神经网络,一个非常重要的概念就是时刻循环神经网络会对于每一个时刻的输入结合当前模型的状态给出一个输出循环神经网络的主体结构A的输入除了来自输入层Xt,还有一个循环的边来提供当前时刻的状态在每一个时刻,循环神经网络的模块A会读取t时刻的输入Xt
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 洒水车租车合同协议书
- 电梯监理协议书
- 退还公款协议书
- 职员岗位协议书
- 烤烟专业化烘烤协议书
- 莱茵合作协议书
- 蓝城小镇协议书
- 税款划扣协议书
- 拱形棚造价合同协议书
- 租地改建协议书
- 测量员绩效考核评分表
- 圆柱的体积说课稿省公开课一等奖全国示范课微课金奖课件
- 高中化学高一化学环境保护资料省公开课一等奖全国示范课微课金奖
- 2024-2030年国内汽车电动尾门行业市场深度分析及发展现状与趋势研究报告
- JGJ79-2012 建筑地基处理技术规范
- 石药集团人才测评题库
- 医院财务科培训课件
- 四川省2023年普通高校对口招生统一考试数学试卷(解析版)
- 生物样本库建设方案
- lng基本知识及液化技术介绍
- 火灾自动报警系统调试记录
评论
0/150
提交评论