




已阅读5页,还剩19页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
文本分析挖掘实训平台,教学互动,按照下图点击智慧语义算法感知,基于字符串匹配的方法,基于规则的方法,基于统计的方法,中文分词的三种常用方法,中文分词,按照一定的策略将待分析的字符串与一个“充分大的”机器词典中的词条进行匹配。方法的三个要素分词词典文本扫描顺序:正向扫描、逆向扫描、双向扫描匹配原则:最大匹配、逐词匹配、最佳匹配,基于字符串匹配的分词方法(机械分词法、基于词典的方法),中文分词,基本思想把句子从左向右(或从右向左)遍历一遍,遇到词典里包含的最长的词就标识出来。假设分词词典中的最长词条所含汉字的个数为n,将待分词文本的前n个字符作为匹配字段,查找分词词典,若词典中有这样一个n字词,则将匹配字段作为一个词被切分出来。若词典中找不到这样的一个n字词,则将匹配字段去掉一个汉字,剩下的字符作为新的匹配字段,再进行匹配,如此进行下去,直到匹配成功为止。,最大匹配法(MaximumMatching),最大匹配法,最大匹配法,正向最大匹配法(ForwardMaximumMatching,FMM):从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。(错误率为1169。)逆向向最大匹配法(BackwardMaximumMatching,BMM):从右到左将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。(错误率为1245。)双向最大匹配法(Bi-directionMatchingmethod,BM):将正向最大匹配法得到的分词结果和逆向最大匹配法的到的结果进行比较,从而决定正确的分词方法。,分词词典“研究”,“研究生”,“生命”,“命”,“的”,“起源”,FMM:研究生/命/的/起源BMM:研究/生命/的/起源,研究生命的起源,最大匹配法,分词词典“内塔尼亚胡”,“内塔尼亚”,“胡说”,“说”,“的”,“的确”,“确实”,“实在”,“在理”,FMM:内塔尼亚胡/说/的确/实在/理BMM:内塔尼亚/胡说/的/确实/在理,内塔尼亚胡说的确实在理,最大匹配法,匹配策略,逐词遍历法把词典中的词按照由长到短递减的顺序逐字搜索整个待分词文本,一直到把全部的词切分出来为止。设立切分标志法分词时先找出切分标志,把句子切分为一些较短的字段,再用MM或其它的方法进行细加工。最佳匹配法在词典中按词频的大小顺序排列词条,以求缩短对分词词典的检索时间,达到最佳效果,从而降低分词的时间复杂度,加快分词速度。,优缺点,优点:简单,易于实现。缺点:存在交集型和组合型歧义切分问题词本身没有一个标准的定义,没有统一标准的词集,不同词典产生的歧义也不同缺乏自学习的智能性,基于语法和规则的分词方法,通过让计算机模拟人对句子的理解,达到识别词的效果。基本思想:在分词的同时,进行句法、语义分析,利用句法信息和语义信息来进行词性标注,以解决分词歧义现象。由于现有的语法知识、句法规则十分庞杂,基于句法和规则的分词法所能达到的精确度远远不能令人满意。目前这种分词系统还处在实验阶段。,基于统计的分词方法(无词典分词法),基本原理:根据字符串在语料库中出现的统计频率来决定其是否构成词。利用字与字间、词与词间的同现频率作为分词的依据,不一定需要建立完善的词典。但需要大规模的训练文本用来训练模型。利用统计语言模型计算出每种分词后句子出现的概率,并找出其中概率最大的作为分词结果。P(A1,A2,A3)P(B1,B2,B3)P(C1,C2,C3)P(研究,生命,的,起源)P(研究生,命,的,起源)主要的统计模型:N元文法模型、隐马尔科夫模型、条件随机场等。,N-gram模型(N元模型),基于一种假设,文本中第n个词的出现只与前面n-1个词相关,而与其它任何词都不相关,那么整句的概率就是各个词出现概率的乘积。对于一个句子S,假设S是由词序列w1,w2,w3,wn组成的,那么P(S)=P(w1w2w3wn)=P(w1)P(w2|w1)P(w3|w1w2)P(wn|w1w2wn-1)研究生命的起源P(S)=P(研究)P(生命|研究)P(的|研究,生命)P(起源|研究,生命,的)其中P(w1)表示第一个词w1出现的概率。P(w2|w1)是已知第一个词的前提下。第二个词出现的概率。以此类推,词wn出现的概率取决于它前面全部的词。,N-gram模型马尔可夫假设,为了解决参数空间过大的问题。引入了马尔可夫假设:一个词的出现的概率只与它前面出现的有限的一个或者几个词有关。例:若一个词的出现的概率仅与它前面出现的一个词有关。那么我们就称之为bigrammodel(二元模型)。即P(S)=P(w1,w2,w3,wn)=P(w1w2w3wn)=P(w1)P(w2|w1)P(w3|w1w2)P(wn|w1w2wn-1)P(w1)P(w2|w1)P(w3|w2)P(wi)|P(wi-1).P(wn|wn-1)研究生命的起源P(S)=P(研究)P(生命|研究)P(的|研究,生命)P(起源|研究,生命,的)P(研究)P(生命|研究)P(的|生命)P(起源|的),状态转移概率,P=0.28,P=0.15,P=0.12,P=0.35,P=0.38,P=0.38,P=0.12,P=0.63,P=0.5,黄,枯黄,绿,鲜绿,观测概率,P=0.005,P=0.87,P=0.125,P=0.005,P=0.87,P=0.125,P=0.005,P=0.87,P=0.125,黄,枯黄,绿,鲜绿,状态转移概率,观测概率,O,S,分词模型训练语料标注方式,中文分词,就是给一个句子作为输入,输出一个以“BEMS”组成的序列串,然后再进行切词,输入句子的分词结果。词头(Begin)、词中(Middle)、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农业机耕服务合同5篇
- 内部安全培训记录样本课件
- 装修公司营销推广方案(3篇)
- 化学实验室安全培训课件
- 创新岗位安全培训心得课件
- 化学品存放安全培训课件
- 第三单元课外古诗词诵读《赠从弟(其二)》(公开课一等奖创新教学设计)统编版语文八年级上册
- 创伤患者的分诊课件
- 创伤性湿肺课件
- 统编版语文三年级上册第三单元习作续写故事 +公开课一等奖创新教学设计
- 检验员技能测试题及答案
- 化学原电池教学课件
- 2025四川省水电投资经营集团有限公司所属电力公司员工招聘6人考试参考试题及答案解析
- 新疆劳动就业白皮书课件
- 视觉障碍老人护理指南
- 宠物医院建设方案(3篇)
- 2025年中学生法治素养竞赛题库及答案
- 《“高效办成一件事”2025年度第二批重点事项清单》知识解读
- 2025年飞行器设计与工程师考试试卷及答案
- 2025年三级律师试题题库及答案
- 智能化系统施工方案及技术措施
评论
0/150
提交评论