自然语言理解-词法分析.ppt_第1页
自然语言理解-词法分析.ppt_第2页
自然语言理解-词法分析.ppt_第3页
自然语言理解-词法分析.ppt_第4页
自然语言理解-词法分析.ppt_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、词法分析,刘贵全 ,词法分析,汉语分词 分词算法 汉语自动分词的困难 词性标注 未登录词的识别,汉语分词,1、从字符串中识别出词(word segmentation) “分”词 “合”词 2、分词的基本方法 最大匹配法(Maximum Match based approach) 概率方法(Probability approach to Word Segmentation),最大匹配法,长词优先原则,最大匹配法分词示例,S1=“计算语言学课程是三个学时,设定最大词长 MaxLen = 5 S2= ,分词词表,最大匹配法分词示例(续),(1)S2=;S1不为空,从S1左边取出候选子串W=计算语言学

2、; (2)查词表,“计算语言学”在词表中,将W加入到S2中,S2=“计算语言学/ ”,并将W从S1中去掉,此时S1=“课程是三个学时; (3)S1不为空,于是从S1左边取出候选子串W=课程是三个; (4)查词表,W不在词表中,将W最右边一个字去掉,得到W=课程是三; (5)查词表,W不在词表中,将W最右边一个字去掉,得到W=课程是; (6)查词表,W不在词表中,将W最右边一个字去掉,得到W=课程 (7)查词表,W在词表中,将W加入到S2中,S2=“计算语言学/ 课程/ ”,并将W从S1中去掉,此时S1=“是三个学时;,最大匹配法分词示例(续),(8)S1不为空,于是从S1左边取出候选子串W=是

3、三个学时; (9)查词表,W不在词表中,将W最右边一个字去掉,得到W=是三个课; (10)查词表,W不在词表中,将W最右边一个字去掉,得到W=是三个; (11)查词表,W不在词表中,将W最右边一个字去掉,得到W=是三 (12)查词表,W不在词表中,将W最右边一个字去掉,得到W=“是”,这时W是单字,将W加入到S2中,S2=“计算语言学/ 课程/ 是/ ”,并将 W从S1中去掉,此时S1=三个学时; (13)S1不为空,从S1左边取出候选子串W=三个学时; (14)查词表,W不在词表中,将W最右边一个字去掉,得到W=三个课; (15)查词表,W不在词表中,将W最右边一个字去掉,得到W=三个; (

4、16)查词表,W不在词表中,将W最右边一个字去掉,得到W=“三”,这时W是单字,将W加入到S2中,S2=“计算语言学/ 课程/ 是/ 三/ ”,并 将W从S1中去掉,此时S1=个学时;,最大匹配法分词示例(续),(17)S1不为空,从S1左边取出候选子串W=个学时; (18)查词表,W不在词表中,将W最右边一个字去掉,得到W=个课; (19)查词表,W不在词表中,将W最右边一个字去掉,得到W=“个”, 这时W是单字,将W加入到S2中,S2=“计算语言学/ 课程/ 是/ 三/ 个/ ,并将W从S1中去掉,此时S1=学时; (20)S1不为空,从S1左边取出候选子串W=学时; (21)查词表,W在

5、词表中,将W加入到S2中,S2=“计算语言学/ 课程/ 是/ 三/ 个/ 学时/ ,并将W从S1中去掉,此时S1=。 (22)S1为空,输出S2作为分词结果,分词过程结束。,最大匹配法分词的问题,一、最大词长的确定 (1)词长过短,长词就会被切错(“中华人民共和国”) (2)词长过长,效率就比较低 二、掩盖了分词歧义 A.“有意见分歧” (正向最大匹配和逆向最大匹配结果不同) 有意/ 见/ 分歧/ 有/ 意见/ 分歧/ B.“结合成分子时” (正向最大匹配和逆向最大匹配结果相同) 结合/ 成分/ 子时/,分词歧义的类型,一、交集型歧义 如果AB和BC都是词典中的词,那么如果待切分字串中包含“A

6、BC”这个子串,就必然会造成两种可能的切分:“AB/ C/ ” 和“A/ BC/ ”。这种类型的歧义就是交集型歧义。比如“网球场”就可能造成交集型歧义(网球/ 场/ : 网/ 球场/)。 二、组合型歧义 如果AB和A、B都是词典中的词,那么如果待切分字串中包含AB这个子串,就必然会造成两种可能的切分:AB/ 和A/ B/ 。这种类型的歧义就是组合型歧义。比如个人就可能造成组合型歧义( (我) 个人/ : (三) 个/ 人/ )。,分词歧义的类型(续),一、链长:交集型歧义字段中含有交集字段的个数,称为链长。 链长为1: 和尚未 链长为2: 结合成分 链长为3: 为人民工作 链长为4: 中国产品

7、质量 链长为6: 努力学习语法规则 二、混合型歧义: 这样的人才能经受住考验,双向最大匹配法可 以发现链长为奇数 的交集型歧义,但 无法发现链长为偶 数的交集型歧义,最大匹配法解决分词歧义的能力,能发现部分交集型歧义 无法发现组合型歧义 对最大匹配法进行扩展:增加歧义词表,规则等知识库,对于某些交集型歧义,可以通过增加回溯机制来改进最大匹配法的分词结果。 例如:“爱人民英雄” 顺向扫描的结果是:“爱人/ 民/ 英雄/”, 通过查词典知道“民”不在词典中,于是进行回溯,将“爱人”的尾字“人”取出与后面的“民”组成“人民”,再查词典,看“爱”,“人民”是否在词典中,如果在,就将分词结果调整为:“爱

8、/ 人民/ 英雄/”,最大概率法分词,基本思想是: (1)一个待切分的汉字串可能包含多种分词结果 (2)将其中概率最大的那个作为该字串的分词结果,路径1: 0135 路径2: 0235,该走哪条路呢?,最大概率法分词,S: 有意见分歧 W1: 有/ 意见/ 分歧/ W2: 有意/ 见/ 分歧/,Max(P(W1|S), P(W2|S) ?,P(W )= P(w1, w2, , wn) P(w1) P(w2) P(wn),独立性假设,一元语法,最大概率法分词,P(W1) = P(有) * P(意见) * P(分歧) = 1.8 10-9,P(W2) = P(有意) * P(见) * P(分歧)

9、= 1 10-11,P(W1) P(W2),最大概率分词算法,对一个待分词的字串S,按照从左到右的顺序取出全 部候选词w1, w2 , ,wi, , wn ; 2) 到词典中查出每个候选词的概率值P(wi) ,并记录每个候选词的全部左邻词; 3) 按照公式1计算每个候选词的累计概率,同时比较得到每个候选词的最佳左邻词; 4) 如果当前词wn是字串S的尾词,且累计概率P(wn)最大,则wn就是S的终点词; 5) 从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输出,即为S的分词结果。,最大概率分词算法示例,(1)对“有意见分歧”,从左到右进行一遍扫描,得到全部候选词: “有”,“有意”,“

10、意见”,“见”,“分歧”; (2)对每个候选词,记录下它的概率值,并将累计概率赋初值为0; (3)顺次计算各个候选词的累计概率值,同时记录每个候选词的最佳左 邻词: P(有)=P(有), P(有意) = P(有意), P(意见)=P(有) P(意见),(“意见”的最佳左邻词为“有”) P(见)=P(有意) P(见),(“见”的最佳左邻词为“有意”) P(意见)P(见) (4)“分歧”是尾词,“意见”是“分歧”的最佳左邻词,分词过程结束, 输出结果:有/ 意见/ 分歧/,最大概率法分词的问题,一、并不能解决所有的交集型歧义问题 “这事的确定不下来” W1= 这/ 事/ 的确/ 定/ 不/ 下来/

11、 W2= 这/ 事/ 的/ 确定/ 不/ 下来/ 二、无法解决组合型歧义问题 “做完作业才能看电视” W1= 做/ 完/ 作业/ 才能/ 看/ 电视/ W2= 做/ 完/ 作业/ 才/ 能/ 看/ 电视/,P(W1)P(W2),P(W1)P(W2),汉语自动分词的困难, 分词规范 “联合国教科文组织”是1个词吗? 分词歧义 未登录词识别,词性标注(pos tagging),语法体系 词性标记集的确定 一词多类现象 Time flies like an arrow. Time/n-v flies/v-n like/p-v an/Det arrow/n 把这篇报道编辑一下 把/q-p-v-n 这/

12、r 篇/q 报道/v-n 编辑/v-n 一/m-c 下/f-q-v,未登录词,中外的人名,地名(“雪村”,“老张”,“莎士比亚”,“叙利亚” ); 中外组织机构单位名称和商品品牌名(希望电脑,国际乒联,非常可乐); 专业领域的大量术语(线性回归,韦特比算法); 新词语,缩略语(“卡拉OK”,“E时代”,“打假”,“哈韩族”); 汉语重叠形式、离合词的分析 看看 家家 打听打听 高高兴兴 乐呵呵 看一看 看了看 黑不溜逑 古里古怪 游了一会儿泳 发理了没有 担什么心 幽了他一默,未登录词的识别,命名实体(Named Entity) 汉语人名:李素丽 老张 李四 王二麻子 汉语地名:定福庄 白沟

13、三义庙 韩村 河马甸 翻译人名:乔治布什 叶利钦 包法利夫人 翻译地名:阿尔卑斯山 新奥尔良 约克郡 机构名:方正公司 联想集团 国际卫生组织外贸部 数字、日期词、货币等 商标字号:非常可乐 乐凯 波导 杉杉 同仁堂 专业术语:万维网 主机板 模态逻辑 贝叶斯算法 缩略语:三个代表 五讲四美 打假扫黄 打非计生办 新词语:卡拉OK 波波族 美刀 港刀,未登录词识别的困难,未定义词没有明确边界 未定义词的构成单元(汉字)本身都可以独立成词,未登录词识别的依据,内部构成规律(用字规律) 外部环境(上下文) 重复出现规律,未登录词识别的研究进展,很成熟: 数字、日期、货币词 较成熟 中国人名、译名

14、中国地名 较困难 商标字号 机构名 很困难 专业术语 缩略语 新词语,数字、日期、货币词等识别,可以表达为正则表达式 由有限状态自动机识别,中国人名的内部构成规律,在汉语的未定义词中,中国人名是规律性最强,也是最容易识别的一类; 中国人名一般由以下部分组合而成: 姓:张、王、李、刘、诸葛、西门、范徐丽泰 名:李素丽,张华平,王杰、诸葛亮 前缀:老王,小李 后缀:王老,赵总 中国人名各组成部分用字比较有规律,中国人名的内部构成规律,台湾出版的中国姓氏集收集姓氏5544 个,其中:单姓3410 个,复姓1990 个,3字姓144 个。 中国目前仍使用的姓氏共737 个,其中,单姓729 个,复姓8

15、 个。 根据我们收集的300 万个人名统计:姓氏:974个,其中,单姓952个,复姓23 个,300万人名中出现汉字4064个。,中国人名的内部构成规律,中国人名各组成部分的组合规律 姓名 姓 名 前缀姓 姓后缀 姓姓名(海外已婚妇女),中国人名的上下文构成规律,身份词: 前:工人、教师、影星、犯人 后:先生、同志 前后:女士、教授、经理、小姐、总理 地名或机构名: 前:静海县大丘庄禹作敏 的字结构 前:年过七旬的王贵芝 动作词 前:批评,逮捕,选举 后:说,表示,吃,结婚,中国人名识别的难点,一些高频姓名用字在非姓名中也是高频字 姓氏:于,马,黄,张,向,常,高 名字:周鹏和同学,周鹏和同学

16、 人名内部相互成词,指姓与名、名与名之间本身就是一个已经被收录的词 王国维、高峰、汪洋、张朝阳 人名与其上下文组合成词 这里有关天培的壮烈; 费孝通向人大常委会提交书面报告 人名地名冲突 河北省刘庄,中文姓名识别方法,中文姓名识别方法 姓名库匹配,以姓作为触发信息,寻找潜在的名字 计算潜在姓名的概率估值及相应姓氏的姓名阀值,根据姓名概率评价函数和修饰规则对潜在的姓名进行筛选。,中文姓名识别方法,中文姓名识别方法,中文姓名识别方法,中国地名的识别,困难 地名数量大,缺乏明确、规范的定义。中华人民共和国地名录(1994)收集88026个,不包括相当一部分街道、胡同、村庄等小地方名称。 真实语料中地

17、名出现情况复杂。如地名简称、地名用词与其它普通词冲突、地名是其它专用名词的一部分,地名长度不一等。,机构名的内部构成规律,机构名的内部构成规律 机构名一般都是定中结构。 机构名的后缀一般比较集中,识别相对容易。 机构名左边界识别非常困难。 机构名中含有大量的人名、地名、企业字号等专有名称。在这些专有名称中,地名所占的比例最大,其中未登录地名又占了相当一部分的比例。所以机构名识别应在人名、地名等其他专名识别之后进行,其他专名识别的正确率对机构名识别正确率有较大影响。,机构名的内部构成规律,中文机构名用词非常广泛。通过对人民日报1998年1月中的10817个机构名所含的19986个词进行统计,共计27种词,其中名词最多(9941个),地名其次(5023个),以下依次为简称(1169个)、专有名词(1125个)、动词(848个)以及机构名(714个)等 机构名长度极其不固定 机构名很不稳定。随着社会发展,新机构不断涌现,旧机构不断被淘汰、改组或更名。,中文机构名称的识别,中文机构名称的类型 地名,如:北京大学,武汉大学 人名,如:中山大学,哈佛大学 学科、专业、部门系统,如:公

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论