版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1复习提纲中文信息处理概论徐润华,2014年秋季2语言信息处理语言信息处理语言信息处理就是用计算机对自然语言在语言信息处理就是用计算机对自然语言在各个层次(语素、词、短语、句子、段落各个层次(语素、词、短语、句子、段落、篇章)上的各种表现形式(图像、声音、篇章)上的各种表现形式(图像、声音、文本)的信息进行处理:输入、输出、文本)的信息进行处理:输入、输出、转换、存储、压缩、检索、抽取和提炼。转换、存储、压缩、检索、抽取和提炼。涉及智能处理时往往是“用计算模型”而非仅仅是“用计算机”。 3语言信息的抽取和提炼n数据是具体的,知识是概括的。n目前是数据太多而知识太少数据太多而知识太少,信息爆炸但
2、又面临知识获取的瓶颈问题。n数据挖掘数据挖掘从数据仓库数据仓库中挖掘知识,语言信语言信息处理息处理则要从语料库语料库中挖掘语言知识。4中文信息处理的特殊性中文信息处理的特殊性n汉字的特殊性:字数多,简体、繁体和异汉字的特殊性:字数多,简体、繁体和异体,与外文字符的协调处理。体,与外文字符的协调处理。n书面汉语的特殊性:需要进行词语切分。书面汉语的特殊性:需要进行词语切分。n汉语语音的特殊性:语音系统简单。汉语语音的特殊性:语音系统简单。n汉语语法的特殊性:形态贫乏汉语语法的特殊性:形态贫乏 。5中文信息处理的研究内容n基础研究:基础研究:包括汉字字符集的编码体系,中文信息处理的发展战略和基本方
3、法,汉语计算模型,汉语语料库和语言知识库的建设,系统自动评测,等等。n应用研究:应用研究:面向最终用户的系统软件和应系统软件和应用软件用软件的设计和研制。6中文信息处理的一些基础性技术研究课题n自动分词:自动分词:将口语或书面语中的词切开(词是基本的语言单位,很多应用研究需要先自动分词)。n词性标注:词性标注:标出词在具体上下文中的词类(词性序列目前是大多数句法分析器的输入)。n词义标注:词义标注:标出词在具体上下文中的义项或义类(服务于信息检索、机器翻译等应用研究)。n句法分析:句法分析:分析出句子中每个语法形式的结构关系和所处层次(服务于机器翻译等应用研究)。7中文信息处理的一些应用研究课
4、题一些应用研究课题n汉字识别(印刷体识别,手写识别,图片、视频中的汉字识别)n汉语语音识别(自动听写,口语查询,口语命令)n汉语语音合成(朗读机,自动查询中的口语反馈)n汉语信息检索(搜索引擎,自动文摘,文本分类)n汉外机器翻译(例如Google的在线翻译)n其他:汉字输入法,自动校对,机器辅助词典编撰,机器辅助汉语、汉字教学,少数民族语言信息处理,古代汉语信息处理,等等。8基于规则的方法基于规则的方法n用确定性的规则来做问题求解。理性主义方法。用确定性的规则来做问题求解。理性主义方法。n优势:便于利用专家知识,无须先做人工标注。优势:便于利用专家知识,无须先做人工标注。n困难:专家知识可能不
5、全面、不充分或不适用。困难:专家知识可能不全面、不充分或不适用。n自动分词的最大匹配法是一种基于规则的方法,自动分词的最大匹配法是一种基于规则的方法,用待切分汉字串中的子串去查词表,查到了就算用待切分汉字串中的子串去查词表,查到了就算是词(优先查找较长子串)。例如:是词(优先查找较长子串)。例如: 这这 首首 诗诗 太平太平 淡淡 了了n“太平淡太平淡”应该切成应该切成“太太/平淡平淡”还是还是“太平太平/淡淡”?汉语词汇学没有提供这种知识。?汉语词汇学没有提供这种知识。9基于统计的方法基于统计的方法n把从语料库中得到的统计数据作为模型参数,用把从语料库中得到的统计数据作为模型参数,用模型来做
6、问题求解。经验模型来做问题求解。经验主义方法。主义方法。n优势:系统容易构造,效果通常不错。优势:系统容易构造,效果通常不错。n困难:数据稀疏,领域转移困难。困难:数据稀疏,领域转移困难。n自动分词的概率方法是一种基于统计的方法,根自动分词的概率方法是一种基于统计的方法,根据词频表将待切分字串中所有可能的词都找出来据词频表将待切分字串中所有可能的词都找出来,然后求出一种概率乘积最大的切分。例如,然后求出一种概率乘积最大的切分。例如“太太平淡平淡”的各种可能切分中第一种概率乘积最大:的各种可能切分中第一种概率乘积最大: 太太 平淡平淡 太平太平 淡淡 太太 平平 淡淡10训练集、开发集、测试集n
7、通常把经过人工标注或人工校对的实验用语料库划分为训练集、开发集、测试集训练集、开发集、测试集三个集合,训练训练集用于集用于提供模型参数,开发集用于开发集用于实验过程中检验和改进模型性能,测试集用于测试集用于实验结束后最终评判模型性能。n计算机只能从训练集里学习模型参数。开发集和测试集则都是作为评测的标准答案。n例如,将实验用语料划分为10份,其中开发集和测试集各1份,其余8份作为训练集。11常用的性能评价指标n正确率:正确率:又称精确率(Precision),正确处理的实例正确处理的实例个数占所处理的实例个数的比率。例如,人名识别的个数占所处理的实例个数的比率。例如,人名识别的正确率等于正确识
8、别的人名个数除以系统认为是人名正确率等于正确识别的人名个数除以系统认为是人名的个数。的个数。n召回率:召回率:(Recall),正确处理的实例个数占应该处正确处理的实例个数占应该处理的实例个数的比率。例如,人名识别的召回率等于理的实例个数的比率。例如,人名识别的召回率等于正确识别的人名个数除以文本中实有的人名个数。正确识别的人名个数除以文本中实有的人名个数。n调和平均值:(F-measure),正确率和召回率的综合表示,F(2+1)PR/(2R+P), 通常取1,则F2PR/(R+P).12测试n封闭测试:封闭测试:运用从训练集里获取的数据(模型参数或规则)来测试训练集本身,目的是对模型的性能
9、有初步了解。但是,封闭测试成绩可能主要反映模型对训练集的过度学习(学了太多琐碎的、依赖于罕见语境的数据)。n开放测试:开放测试:运用从训练集里获取的数据来对测试集进行测试,目的是检验知识的覆盖能力。开放开放测试成绩通常低于封闭测试测试成绩通常低于封闭测试,但能够更真实地反映模型性能。13字型 用同一方法制作的字符造型的集合。根据造型方法可分为三类可分为三类 :n点阵字型点阵字型:用mn像素阵列表示字符造型,占用空间大,缩放质量难以保证 。n矢量字型矢量字型:用一组折线表示字符造型,占用空间小,但放大字号时不够美观 。n轮廓字型轮廓字型:用一组直线或曲线表示字符内外轮廓,字型质量高,占用空间小,
10、可无级变倍,目前视窗平台一般使用轮廓字型 。14字节、字符和编码字符集编码字符集n字节是计算机上信息存取的基本单位,一个字节字节是计算机上信息存取的基本单位,一个字节是是8个二进制位个二进制位,可表示28256种状态。n字符是文字单位,一个字符可以是一个字节,字符是文字单位,一个字符可以是一个字节,如ASCII字符,也可以由多个字节表示也可以由多个字节表示,如汉字。汉字字符集规模远大于256,因此不可能只用一个字节来表示。n将一批字符统一编码,让字符跟整数一一对应,将一批字符统一编码,让字符跟整数一一对应,以便于在计算机上表示,就形成一个编码字符集以便于在计算机上表示,就形成一个编码字符集。1
11、5ASCII字符字符n在计算机上,西文字符的编码在计算机上,西文字符的编码一般是由美国的标准信息交换码体系规定的,通称通称“ASCII码码”,该标准已被国际标准化组织接受为国际标准。nASCII码的7位版本,包括包括10个阿拉伯数字、个阿拉伯数字、52个大个大小写英文字母、小写英文字母、32个标点符号和运算符以及个标点符号和运算符以及34个控个控制码,共计制码,共计128个字符(个字符(27=128)。一个字节有8位,7位ASCII码只用后边7位,最高位是0 ,可以此区分ASCII字符与双字节字符。n编码空间的争夺,编码空间的争夺,“先入为主先入为主”:其他文字(包括中文)的编码需避开此一空间
12、。16中国信息交换用汉字编码字符集基本集(GB2312-80)n信息交换用,与国际标准ISO 2022相容 。n每个字符用两个字节编码,两个字节取值范围都每个字符用两个字节编码,两个字节取值范围都是是161161254254,编码空间为,编码空间为94948836 。n按字形编码按字形编码,多音字一码,同音字多码。n6763个通用汉字个通用汉字 ,加其他字符共,加其他字符共7445个。个。n一级汉字一级汉字3755个,按拼音排序;二级汉字个,按拼音排序;二级汉字3008个,按部首排序。个,按部首排序。n第一个汉字“啊”,编码为176, 161。n最后一个汉字“齄”,编码为247, 254。17
13、Big5:台湾地区的汉字字符集编码n通行于中国台湾地区和港澳地区。通行于中国台湾地区和港澳地区。n可用于信息交换和信息处理。n通常叫做“繁体中文繁体中文”。分为常用字和次常用字两个字面,每个字面都按照笔画数按照笔画数和部首来排序和部首来排序。n编码空间为:第一字节编码空间为:第一字节161161254254,第二字,第二字节节6464126126,161161254254,共有,共有1475814758个码位个码位。也是94区,但每区有94+63位。18GB13000(GBK)GB13000(GBK):汉字内码扩展规范nGB13000(GBKGBK)是一个指导性规范,由电子部科技质量司和国家技
14、术监督局标准化司于1995年12月颁布,可用于信息交换和信息处理。n其编码空间为:第一字节为其编码空间为:第一字节为129129254254,第二字节为,第二字节为6464254254(缺(缺127127),共有),共有2394023940个码位,其中汉字个码位,其中汉字2090720907个。个。nGBKGBK兼容兼容GB2312-80GB2312-80的所有汉字的所有汉字(6763个汉字的代码有简单的对应关系),而且在字汇一级支持CJK,涵盖涵盖Big5Big5(但代码不一致)(但代码不一致)。nGBKGBK缓解了汉字编码空间窄小的困难,但还不够缓解了汉字编码空间窄小的困难,但还不够。19
15、等长码等长码n对字符集中所有字符按固定的码长来编码,叫做对字符集中所有字符按固定的码长来编码,叫做等长码。例如等长码。例如ASCII码码是每个字符占一个字节、国国标码、标码、GBK和和UTF-16都是每个字符占两个字节。n等长码的缺点是缺乏灵活性缺乏灵活性:编码空间小,则能够使用的字符少;编码空间大,则文本空间浪费大。n例如,一个文本主要是英文字符,有少量汉字,用UTF-16则浪费大量空间。n又如,一些中文古籍用GBK编码仍然不够,若汉字使用三字节等长码,由于绝大多数汉字只需两字节,因此文本存储空间浪费一半。20等长码:UTF-16(Unicode)n各种字符(包括中英文)都是各种字符(包括中
16、英文)都是1616位编码。每个字符映位编码。每个字符映射为一个短整数(射为一个短整数(0 06553565535),计算机处理更方便。n有Little-endian和Big-endian两种形式。前者低位字节在前,Word软件中简称Unicode;后者高位字节在前。例如“買”字的Unicode编码是36023,前者存储为16进制的B78C,后者存储为16进制的8CB7,即分别为二进制的: B 7 8 C (1116+7)+ (816+12)256 36023 (816+12)256+ (1116+7) 36023 8 C B 721变长码变长码n若码长不固定,则称为变长码。如若码长不固定,则称
17、为变长码。如UTF-8 和和GB18030,其中ASCII字符用一个字节表示,汉字用24个字节表示。n变长码的优点:能有效地解决编码空间与文本存储空间的矛盾。n变长码的缺点:使用变长码时,要有办法识别字要有办法识别字符界限符界限。因此编程时比较麻烦。(麻烦留给程序员,方便留给用户。)22变长码:GB180302000n信息交换用汉字编码字符集基本集的扩充,是由信息产业部和国家质量技术监督局在2000年6月17日联合发布的,并作为一项强制性国家标准在2001年9月1日后正式执行。n单字节字符单字节字符:0127,兼容兼容ASCII字符字符。n双字节字符双字节字符:第一字节第一字节129254,第
18、二字节,第二字节64254(不包括(不包括127),兼容兼容GBK字符字符。n四字节字符四字节字符:第一字节第一字节129254,第二字节,第二字节4857,第三字节,第三字节129254 ,第四字节,第四字节4857,共有1587600个码位。例如“”:151, 50, 217, 5123GB18030如何表示字符界限?如何表示字符界限?n下面是一个GB18030编码的文本(每个字节用十进制整数表示): 150 55 206 57 185 214 206 70 97 48n请问这里面有几个字符?请问这里面有几个字符?每个字符由哪几个字节组成?24GB180302000的优点n这一标准既解决了
19、“汉字稀少文本”的存储问题,又解决了超大汉字字符集文本的存储问题。n所有的ASCII文本当然也是GB18030编码的文本。n兼容GBK编码,因此原先GB2312或GBK编码的文本当然也是GB18030编码的文本。nWindows操作系统对GB18030支持不够。25变长码:UTF8nUTF8是是Unicode的另一种具体实现,字符长度的另一种具体实现,字符长度不限,每个字节都有标志位不限,每个字节都有标志位,便于识别,如:n单字节:0*,表示ASCII字符n双字节:110* 10*n三字节三字节:1110* 10* 10*n四字节四字节:11110* 10* 10* 10*n以英文字符为主体的
20、文本,如果用UTF16存储则太浪费空间,变长码UTF-8解决了这一问题。n汉字16位编码,用三个字节,将8个标志位去掉便是汉字的UTF-16编码。26常见编码字符集常见编码字符集一览表字符集字符集码长码长码位数码位数汉字数汉字数备注备注ASCII1128/2560GB2312288366763简体GB1300022394020902兼容GB2312GB1803014161179620902兼容GBKBig5214758繁体UTF-1626553520902 Unicode,下同UTF-8146553520902 汉字码长3字节27汉字的输入码n汉字输入法也叫汉字编码,所编的是输入码,又输入码,
21、又叫叫“外码外码”,指键位表示(击键序列),不同于,指键位表示(击键序列),不同于字符集编码(字符集编码(“内码内码”)。n外码是为键盘输入服务的,内码是为信息交换和外码是为键盘输入服务的,内码是为信息交换和信息处理服务的信息处理服务的。输入法的目的输入法的目的就是要将汉字的将汉字的外码转换为内码外码转换为内码。n一个汉字一个汉字字形只有一个内码只有一个内码,但在一种输入法可可以有多个外码以有多个外码,例如“我”在基于拼音的输入法中有“w”、“wo”等外码。28输入码中的“重码”n一个内码只表示一个汉字。但在一些输入法中,在一些输入法中,一个外码可以表示几个汉字,这叫一个外码可以表示几个汉字,
22、这叫“重码重码”。重码就是输入码的歧义。例如在基于拼音的输入法中,“wo”可表示“我”、“握”、“窝”等。n字符集编码以汉字字形为单位,输入码可以以字、词、字串和句子为单位。因此不仅单字有重码,词也有重码,例如“wm”可表示“我们”、“文明”、“外面”等。29汉字键盘输入编码汉字键盘输入编码n码元码元:用来给汉字编码的汉字特征信息元素汉字特征信息元素(如音素、声韵、笔画、字根、部件等),码元的集合叫做码元集。n键元键元:输入汉字时的击键(如字母键、数字键等),键元的集合叫做键元集n编码方案编码方案:码元集对键元集的映射,以及一组完整的编码规则。n汉字输入编码的主要矛盾是输入速度与易学性的矛盾:
23、输入快的难学,易学的速度不快。30衡量汉字识别能力的指标指标n识别率识别率:正确识别的文字对全部输入文字的比率。n拒识率拒识率:拒绝识别(无法识别)的文字对全部输入文字的比率。n误识率误识率:错误识别的文字对全部输入文字的比率。31概率(probability)n设样本空间中共有n个样本点,事件A有m个,则事件A的概率为: P(A) m / nn例:一个语料库有835万词次,其中单词“为”出现3万次。若从该语料库中随机挑选一个词,这个词恰好是“为”的概率是多少?n 解:语料库规模足够大,可用相对频率来近似概率。此时中共有835万个样本点,事件A(单词是“为”)有3万个样本点,因此P(A)为3/
24、835.32概率的性质概率的性质n非负性非负性:P(A) 0n规范性规范性:P() = 1 (表示全部基本事件)n可加性可加性:对于无穷多个事件A1,A2,.,如果事件两两互不相容(相互独立),则 P(Ai)=P(Ai)n例:如果“为”字仅有两种读音,读wei4的概率为0.6,那么“为”字读音wei2的概率是多少?n 解:利用概率的规范性和可加性,“为”字读音wei2的概率是 10.60.433联合概率联合概率(Joint Probability)nP(AB)是事件是事件A和和B都发生的概率都发生的概率,叫联合概率。nP(AB) = P(BA).n例:求某字写做“为”且读音是wei4的概率。n
25、解:这里P(A)是“为”字的概率,P(B)是读音wei4的概率。求P(AB)的方法之一是从语料库中统计“为”读wei4的次数,用它除以该语料库所有字符的出现次数。n已知P(A)和P(B),是否可以据此求出P(AB)呢?34条件概率条件概率(conditional probability)n已知事件已知事件B发生的条件下事件发生的条件下事件A的概率的概率叫做A的条件概率: ,P(B) 0n由上式我们得出求联合概率的另一种方法: P(AB) = P(A) P(B|A) = P(B) P(A|B)n当且仅当当且仅当P(B|A)=P(B),(,(A的发生对于的发生对于B的发生毫的发生毫无影响,既不促发
26、也不抑制),有无影响,既不促发也不抑制),有P(AB)=P(A)P(B)。 )()()|(BPABPBAP35条件概率的计算条件概率的计算n例:求“为”字读音是wei4的概率。n 解:已知所考察的字是“为”,在这种情况下求它读音是wei4的概率。因此这是求条件概率。n P(Z读音wei4 | Z写做“为”) P(Z写做“为”且Z读音wei4) / P(Z写做“为”) (“为”读wei4的次数 / 所有字符的出现次数) (“为”的出现次数/所有字符的出现次数) “为”读wei4的次数 / “为”的出现次数36转移概率转移概率(transitive probability)n转移概率是从一个状态转
27、移到另一个状态的概率转移概率是从一个状态转移到另一个状态的概率,亦即事事件先后发生的条件概率件先后发生的条件概率。nP(W2=“的” | W1=“绿油油”),两事件先后发生,因此两事件先后发生,因此既是条件概率,也是转移概率既是条件概率,也是转移概率。nP(Wi=“编辑” | Ti=名词),两事件同时发生,因此只是条两事件同时发生,因此只是条件概率,不是转移概率件概率,不是转移概率。37自信息(Self-Information)n随机变量X有若干个取值,它取值为x是一随机事件,该事件的概率的负对数叫做该事件的自信息: I(x) = - log2 P(x)n自信息可理解为成功猜测某事件所需最多次
28、数自信息可理解为成功猜测某事件所需最多次数。(猜测过程中,对方只回答是或否,不提供其他信息。)n例:若硬币朝上概率为0.5,则猜测次数为 -log0.5=2n例:若骰子点数为3的概率为1/6,则猜测次数为 -log(1/6)=2.585n例:若“间”读阴平的概率是0.97,则猜测次数为 -log(0.97)=0.04438熵(Entropy)n熵是随机变量的各相关事件的自信息的概率加权平均值:n熵是随机变量的不确定性的度量,熵越大表明不确熵是随机变量的不确定性的度量,熵越大表明不确定性越大,熵为定性越大,熵为0时表示完全可以确定。时表示完全可以确定。39熵的计算n例:掷硬币有两种结果,假定正面
29、朝上和反面朝上的概率都是0.5;掷骰子有6种结果,假定每种结果的概率都是1/6。掷硬币的结果与掷骰子的结果这两个随机变量的熵孰大孰小?n 解:H(掷硬币)2(0.5log0.5)log21.0n H(掷骰子)6(1/6)log(1/6)log6=2.58n 掷骰子的结果这个随机变量的熵较大。由此可见由此可见,随机变量的分布同样均匀时,分布越广的,熵,随机变量的分布同样均匀时,分布越广的,熵越大。越大。40熵的计算n例:据统计,“间”读阴平的概率是0.97,读去声的概率是0.03;“藏”读zang4的概率是0.56,读cang2的概率是0.44。“间”的读音和“藏”的读音这两个随机变量孰大孰小?
30、n 解:H(“间”的读音)n0.97log0.970.03log0.03 0.19n H(“藏”的读音)n0.56log0.560.44log0.44 0.99n “藏”的读音这个随机变量的熵较大。由此可见,概由此可见,概率分布广度相同时,分布越均匀的,熵越大率分布广度相同时,分布越均匀的,熵越大。互信息(Mutual Information)n如果X和Y是一对随机变量,其概率分布为p(xy),则互信息互信息 I(X; Y)定义为知道知道Y值后值后X的不确定性的不确定性的减少量的减少量:42点式互信息点式互信息(pointwise mutual information)n点式互信息可用来衡量两
31、事件的相关程度。点式互信息可用来衡量两事件的相关程度。 n点式互信息为正值(点式互信息为正值(log底数大于底数大于1),表明两事),表明两事件正相关;点式互信息为件正相关;点式互信息为0(log底数为底数为1),表),表明两事件无关,点式互信息为负值(明两事件无关,点式互信息为负值(log底数小底数小于于1),表明两事件互相排斥。),表明两事件互相排斥。n上式的约束条件:三个概率均不为0。)()(),(log);(212121wPwPwwPwwI43点式互信息的计算例:某语料库规模 R1606115字次,“昂”出现40次,“扬”出现308次,“昂扬”出现7次,求“昂”和“扬”的互信息。n 解
32、:I(“昂”;“扬”)nlog(P(7/R) / P(40/R) / P(308)/R)9.83例:语料库同上,“的”出现55202次,“扬的”出现14次,求“扬”和“的”的互信息。n 解:I(“扬”;“的”)nlog(P(14/R) / P(308/R) / P(55202)/R)0.444分类(Classification)n分类是把样本归入已知类别,是有指导的分类是把样本归入已知类别,是有指导的(分类体系就是一种指导),聚类则是自动建立分类体聚类则是自动建立分类体系系并将样本归入这些类别,是无指导的,是无指导的。n自然语言处理的根本问题是歧义消解自然语言处理的根本问题是歧义消解:分词歧义
33、消解、词汇歧义消解、词性歧义消解、句法歧义消解,等等。n歧义消解就是分类歧义消解就是分类。例如,已知某兼类词有哪几个词性,要将它在文本中的每个词例一一归类。语言模型的基本作用就是分类,就是消解歧义语言模型的基本作用就是分类,就是消解歧义。45中文自动分词的必要性n文本分析的第一道工序n信息检索的预处理:提高查准率n语音合成的预处理:降低读音复杂性n汉字识别的后处理:提高识别正确率n语音识别的后处理:提高识别正确率n计算机辅助词典编撰:新词、新义项获取46最大匹配法最大匹配法n分词思想:长度最小的词串是最佳词串。n匹配:将汉字串跟底表中的词进行比较将汉字串跟底表中的词进行比较。n最大:长词优先长
34、词优先,或称“最少分词法”。 社会主义/市场/经济/ 而不切分为: 社会/主义/市场/经济/n长词优先原则在绝大多数情况下是对的。47最大匹配法的几个要点n底表底表:词语的静态查找表,是关于“什么是词”的明确定义,不需要词频数据,也不必将单字词列入。n最大词长最大词长:底表中最长词的长度,以字符为单位计算。n候选词:从某位置开始截取的一个字符串候选词:从某位置开始截取的一个字符串,初始初始长度为最大词长,或者剩余串长(当剩余串长小长度为最大词长,或者剩余串长(当剩余串长小于最大词长时)于最大词长时)。 候选词在底表中查找成功,便确定为词,找不到则找不到则将候选词末尾减一字将候选词末尾减一字,继
35、续查找。 候选词长度为长度为1时时不必查找,默认为词默认为词。48最大匹配法分词示例最大匹配法分词示例: :“时间就是” 查表失败输入字串:时间就是生命输出词串:底表-时间生命.候选词: 时间就是最大词长:4“时间就” 查表失败输入字串:时间就是生命输出词串:底表-时间生命.候选词: 时间就最大词长:4“时间” 查表成功输入字串:时间就是生命输出词串:底表-时间生命.候选词: 时间最大词长:4将“时间”添加到输出串输入字串:就是生命输出词串:时间/底表-时间生命.候选词: 最大词长:4“就是生命” 查表失败输入字串:就是生命输出词串:时间/底表-时间生命.候选词: 就是生命最大词长:4“就是生
36、” 查表失败输入字串:就是生命输出词串:时间/底表-时间生命.候选词: 就是生最大词长:4“就是” 查表失败输入字串:就是生命输出词串:时间/底表-时间生命.候选词: 就是最大词长:4单字不用查表,默认为词输入字串:就是生命输出词串:时间/底表-时间生命.候选词: 就最大词长:4将“就”添加到输出串输入字串:是生命输出词串:时间/就/底表-时间生命.候选词:最大词长:4“是生命” 查表失败输入字串:是生命输出词串:时间/就/底表-时间生命.候选词: 是生命最大词长:4“是生” 查表失败输入字串:是生命输出词串:时间/就/底表-时间生命.候选词: 是生最大词长:4单字不用查表,默认为词输入字串:
37、是生命输出词串:时间/就/底表-时间生命.候选词: 是最大词长:4将“是”添加到输出串输入字串:生命输出词串:时间/就/是/底表-时间生命.候选词: 最大词长:4“生命” 查表成功输入字串:生命输出词串:时间/就/是/底表-时间生命.候选词: 生命最大词长:4将“生命”添加到输出串输入字串:输出词串:时间/就/是/生命/底表-时间生命.候选词: 最大词长:464减字匹配和加字匹配n减字匹配需要预定最大词长(最大匹配法)(查减字匹配需要预定最大词长(最大匹配法)(查找成功终止)找成功终止)。n加字匹配无需预定最大词长(查找失败终止)加字匹配无需预定最大词长(查找失败终止)。基本思想是:n先设k=
38、1;n查词表中有没有与待切分串前k字相同的词,若无,则查找失败。n若有,则k=k+1,重复步骤2-3.加字匹配能减少许多无谓的查找。65正向匹配与逆向匹配n正向匹配:从串首开始做最大匹配,直到串尾。n逆向匹配:从串尾开始做最大匹配,直到逆向匹配:从串尾开始做最大匹配,直到串首串首。n据报道,逆向最大匹配比正向最大匹配的正确率要略高一些。66中文自动分词的三大难题中文自动分词的三大难题n未登录词:未登录词:自动分词主要是根据底表来进行的,真实文本中存在大量的未见于底表的词语,它对真实文本中存在大量的未见于底表的词语,它对自动分词正确率的影响最大。自动分词正确率的影响最大。n分词歧义:分词歧义:根
39、据底表,一个串可以切开也可以不切开(组合性歧义),或者可以切在这里也可以切在那里(交集型歧义),但从上下文来看,至但从上下文来看,至少有一种切法是不正确的。少有一种切法是不正确的。n分词不一致:分词不一致:上下文相同或相似情况下,一个串在分词语料库中有多种切法,在分词语料库中有多种切法,也许几种切法都有道理,但应该保持一致。但应该保持一致。67分词歧义n组合型歧义组合型歧义,例如: 从 马上 跳 下来 他 将来 我 校 讲学n交集型歧义交集型歧义,例如: 使用户 满意 研究生命 的 起源n组合型歧义出现概率低,消解更为困难。组合型歧义出现概率低,消解更为困难。68交集型歧义交集型歧义n如果一个
40、字串有多种切分位置,并且每个如果一个字串有多种切分位置,并且每个字在不同切法中属于不同的词字在不同切法中属于不同的词,那么这个字串称为交集型歧义字串,例如,“这篇文章太平淡了”。n链长:交集型歧义字串中相互交叠的词的个数,例如“提高人民生活水平”链长为7n歧义切分中,交集型歧义约为90%,其中链长为2和3的占90%.69交集型歧义字串n最大交集型歧义字串最大交集型歧义字串:句子中不被别的交集型歧义字不被别的交集型歧义字串所包含串所包含的交集型歧义字串,例如“你任何时候都可以来找我” 。n真歧义真歧义:存在两种以上经常可实现的切分形式 我国首次将卫星导航技术应用/于/植物保护 按规定,变价收入应
41、/用于/固定资产的更新改造 n伪歧义伪歧义:实际上只有一种可实现的切分形式,如“任何时候”、“充分发挥”n准伪歧义准伪歧义:基本上只有一种可实现的切分形式,如“主要是”70组合型歧义组合型歧义n定义一:如果一个字串是词,并且还可以看作如果一个字串是词,并且还可以看作是一个词串(至少包含两个词,每个词互不交是一个词串(至少包含两个词,每个词互不交叠)叠),那么这个字串就称为组合型歧义字串。 根据一个8.7万词的词表,组合型歧义字段共73470个,占84%,太多了!n定义二:并且并且在足够大的语料库中同时出在足够大的语料库中同时出现过两种切分形式现过两种切分形式 n定义二还不够严密,没跟切分不一致
42、区别跟切分不一致区别开来。71现有分词歧义消解方法的不足n交集型歧义消解交集型歧义消解n基于记忆的方法基于记忆的方法简单有效,但这是一种颗粒度极细的语言知识,难以大幅度提高其覆盖度(据报道只能覆盖50%)。n基于词频的方法基于词频的方法没有考虑单字词词频,有时会导致错误的选择。n组合型歧义消解组合型歧义消解n穷尽组合型歧义字串是一个困难的任务穷尽组合型歧义字串是一个困难的任务。n每种组合型字串的歧义消解每种组合型字串的歧义消解知识都是个性化的都是个性化的,无法无法推广推广到其他字串。72N元模型(元模型(Ngram)nN元模型认为,状态序列中的某个状态是否元模型认为,状态序列中的某个状态是否出现,只与它前面的出现,只与它前面的N1个状态有关(马个状态有关(马尔科夫假设)。尔科夫假设)。nN元模型求序列W的概率时,是在概率乘法定理基础上的简化。大大减少了计算量,缓解了数据稀疏问题。n马尔科夫假设并不完全符合语言实际马尔科夫假设并不完全符合语言实际。这既是模型的一个缺点,但同时也是为了实用而付出的必要代价。73Ngram举例 从词串“提高 人民 生活 水平”中,可提取:nBigrams:提高 人民,人民 生活,生活 水平nTigrams:提高 人民 生活,人民 生活 水平 从字串“提高人民生活水平”中,可提取
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2009年7月国开电大专科《办公室管理》期末纸质考试试题及答案
- 2026年中国磁流体真空密封件行业市场占有率及投资前景预测分析报告
- 2025年河北省石家庄市新华区公开招聘社区工作者344名笔试考试参考试题及答案解析
- 2025广东中山市板芙镇招聘公办中小学校临聘教师1人笔试考试备考试题及答案解析
- 2025观山湖区第七中学秋招聘临聘教师笔试考试参考试题及答案解析
- (人美2024版)美术三年级上册全册教学设计(新教材)
- 泌尿外科尿道结石清除方案
- 2025年委托诉讼合同
- 2025年科技项目合同范本范文
- 2025年六年级数学上册期末全真模拟提高卷(三)(A4版)(苏教版)
- 2025高考历史小论文10种题型范文
- 塔吊防碰撞安全培训课件
- 司机冬季安全培训简讯课件
- 锂电池pack工厂安全培训课件
- 安全使用人字梯注意事项
- 体育教学经验分享课件
- 2025年前端开发工程师求职面试指南与预测题
- 2025年度艺术品电子交易市场数字版权使用授权协议
- 2025年陕西省中考语文真题(含答案)
- 2025年中国邮政招聘笔试参考题库含答案解析
- 2025年事业单位笔试-甘肃-甘肃麻醉学(医疗招聘)历年参考题库典型考点含答案解析
评论
0/150
提交评论