




全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于马尔科夫模型的命名实体识别NE识别的数学描述利用HMM解决序列标注问题,即给定一个观察值的序列,要寻找一个最优的标记序列,使得条件概率最大。根据贝叶斯公式可得:在NE识别问题中,X是给定的句子,观察值为词性或词,则上式中P(X)对所有的类别都是一样的,因此可以忽略不考虑。则上面的公式可以转化为下面的形式:即HMM实质式求解一个联合概率。上式中的标记序列Y可以看做是一个马尔科夫链,则对上式利用乘法公式有:基于HMM的NE识别的问题就是如何在给定的模型下,从一定观察值序列的所有可能的状态下,选取最有的标记序列。常用的方法是viterbi算法,它属于动态规划算法,动态规划的思想是把问题分解,先解决最基本的子问题,再逐步外推寻找更大的子问题的最优解,在有限步后达到整个问题的最优解,即得到最有的NE标记序列隐马尔科夫模型观察到的事件是状态的随机函数,该模型是一个双重的随机过程,其中模型的状态转换过程是不可观察的。可观察的事件的随机过程是隐藏的状态转换过程的随机函数。形式化的描述为一个五元组。1. S表示模型中的状态,N是模型的状态数。所有独立的状态定义为,且用来表示t时刻的状态。2. O表示每个状态的观察值,M表示每个状态上对应的可能的观察值的数目。观察值对应于模型系统的实际输出,观察值记为:3. 状态转移概率矩阵,其中,1=i,j=0,;且。4. 输出观察值概率分布矩阵,其中表示在状态下,t时刻出现的概率,即,1=j=N,1=k=M.5. 初始状态分布向量,其中,即在t=1时刻处于状态的概率,满足:。HMM模型需解决的三个问题:(1) 评估问题。给定一个观察序列,以及模型,如何有效的计算,也就是这个观测序列有多大可能是由该模型产生的;(2) 解码问题。给定观测序列以及模型,如何选择一个状态序列,使得观测序列O式最具可能的,即求解;(3) 学习问题。如何能够通过调整参数以最大化ICTCLAS分词的词性列表1. 名词 (1个一类,7个二类,5个三类)名词分为以下子类:n 名词nr 人名nr1 汉语姓氏nr2 汉语名字nrj 日语人名nrf 音译人名ns 地名nsf 音译地名nt 机构团体名nz 其它专名nl 名词性惯用语ng 名词性语素2. 时间词(1个一类,1个二类)t 时间词tg 时间词性语素3. 处所词(1个一类)s 处所词4. 方位词(1个一类)f 方位词5. 动词(1个一类,9个二类)v 动词vd 副动词vn 名动词vshi 动词“是”vyou 动词“有”vf 趋向动词vx 形式动词vi 不及物动词(内动词)vl 动词性惯用语vg 动词性语素6. 形容词(1个一类,4个二类)a 形容词ad 副形词an 名形词ag 形容词性语素al 形容词性惯用语7. 区别词(1个一类,2个二类)b 区别词bl 区别词性惯用语8. 状态词(1个一类)z 状态词9. 代词(1个一类,4个二类,6个三类)r 代词rr 人称代词rz 指示代词rzt 时间指示代词rzs 处所指示代词rzv 谓词性指示代词ry 疑问代词ryt 时间疑问代词rys 处所疑问代词ryv 谓词性疑问代词rg 代词性语素10. 数词(1个一类,1个二类)m 数词mq 数量词11. 量词(1个一类,2个二类)q 量词qv 动量词qt 时量词12. 副词(1个一类)d 副词13. 介词(1个一类,2个二类)p 介词pba 介词“把”pbei 介词“被”14. 连词(1个一类,1个二类)c 连词cc 并列连词15. 助词(1个一类,15个二类)u 助词uzhe 着ule 了 喽uguo 过ude1 的 底ude2 地ude3 得usuo 所udeng 等 等等 云云uyy 一样 一般 似的 般udh 的话uls 来讲 来说 而言 说来uzhi 之ulian 连 (“连小学生都会”)16. 叹词(1个一类)e 叹词17. 语气词(1个一类)y 语气词(delete yg)18. 拟声词(1个一类)o 拟声词19. 前缀(1个一类)h 前缀20. 后缀(1个一类)k 后缀21. 字符串(1个一类,2个二类)x 字符串xx 非语素字xu 网址URL22. 标点符号(1个一类,16个二类)w 标点符号wkz 左括号,全角:( 【 半角:( wyz 左引号,全角:“ wyy 右引号,全角:” wj 句号,全角:。ww 问号,全角:? 半角:?wt 叹号,全角:! 半角:!wd 逗号,全角:, 半角:,wf 分号,全
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030系泊灯行业发展趋势分析与未来投资战略咨询研究报告
- 2025至2030中国仓库货架行业发展趋势分析与未来投资战略咨询研究报告
- 2025-2030年生态环境行业市场深度调研及前景趋势与投资研究报告
- 2025-2030年工程复印纸产业市场深度调研及发展趋势与投资战略研究报告
- 草莓产业链投资合作及利润分配协议
- 厂房拆迁补偿与职工安置及教育培训协议
- 地铁工程专用电线电缆材料采购及安装协议
- 高端商务区停车位购置与商务配套服务协议
- 2025年中国耳机线行业市场深度研究及发展趋势预测报告
- 2025年中国线圈架行业市场发展前景及发展趋势与投资战略研究报告
- 2025年江苏高考政治试卷真题解读及答案讲解课件
- 2025年行政能力测验考试真题及答案
- 2025上半年山东高速集团有限公司社会招聘211人笔试参考题库附带答案详解析集合
- 2024年宁夏中卫沙坡头区招聘社区专职工作者真题
- 辽宁省点石联考2024-2025学年高二下学期6月份联合考试化学试题(含答案)
- 2025年江苏省南京市中考物理模拟练习卷(含答案)
- 人教部编版三年级下册语文各单元【习作范文】
- 2025高考全国一卷语文真题
- 教师普法考试题及答案
- 水冷空调项目可行性研究报告
- 2025年小产权房的买卖合同5篇
评论
0/150
提交评论