(计算机软件与理论专业论文)中文专有名词识别的研究.pdf_第1页
(计算机软件与理论专业论文)中文专有名词识别的研究.pdf_第2页
(计算机软件与理论专业论文)中文专有名词识别的研究.pdf_第3页
(计算机软件与理论专业论文)中文专有名词识别的研究.pdf_第4页
(计算机软件与理论专业论文)中文专有名词识别的研究.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 中文专有名词的自动识别是提高汉语分词系统正确率的关键技术,研究并实现有效 的中文专有名词自动识别方法是本文的主要研究内容。 在深入研究现有中文专有名词识别方法的基础上,建立了一种基于支持向量机 ( s v m ) 的中文专有名词自动识别模型,并提出了四种不同的改进算法对中文专有名词进 行识剐:s v m 和概率统计组合算法、修正的s v m k 近c t ;( k n n ) 算法、修正的s v m 算 法、聚类的s v m 算法。 通过对s v m 的识别结果进行分析发现,s v m 和其它分类器一样,出错样本点多数 集中在分类超平面附近。在s v m 和概率统计组合算法中,对于分类超平面附近的样本 采用概率统计方法进行识别,对于距离分类超平面较远的样本仍然使用s v m 分类。 在修正s v m k n n 算法中,在特征空间中计算样本到s v m 最优超平面的距离,当 该距离大于给定的阈值时使用s v m 对样本进行分类,否则使用修正k n n 方法。对样本 在空间的不同分布使用不同的方法对s v m 的识别效果进行优化。 在采用修正s v m k n n 算法识别过程中发现,训练集存在不平衡性,影响传统s v m 算法的分类效果。因此提出了修正的s v m 算法,采用平移超平面的方法对传统s v m 算 法进行修正。 为了消除s v m 由于训练集中两类数目的样本不平衡而引起的分类错误,采用了聚 类的s v m 算法,对训练集采用基于核的k 均值算法进行聚类,从而减d , t 数据的不平 衡性,然后将聚类后的训练集利用s v m 算法进行学习得n i 1 1 练模型。 本文结合中文专有名词的特点,首先对训练语料中每个字进行分类标注及词性标 注,抽取特征向量的属性,将其转换为二进制表示,在此基础上建立训练集;分别建立 基于以土四种算法的专有名词识别模型,采用四种模型分别实现对测试语料中每个字的 分类标注j 根据分类结果识别出专有名词。实验结果表明,s v m 和概率统计组合算法、 修正的s v m k n n 算法、修正的s v m 算法、聚类的s v m 算法均比传统的s v m 算法更 具优越性,达到了较高的精确率和召回率。其中,s v m 和概率统计结合的混合模型的 识别效果最好。 关键词:中文专有名词;概率统计:修正s v m - k n n ;修正s v m ;聚类 大连理工大学硕士学位论文 s t u d yo nr e c o g n i t i o no f c h i n e s ep r o p e rn o u n a b s t r a c t c h i n e s ep r o p e rn o u nr e c o g n i t i o ni sa 1 1 i m p o r t a n tt e c h n i q u et oi m p r o v et h ea c c u r a c yo f s e g m e n t a t i o n 皿em a i nt a s k o ft h i sp a p e ri s s t u d y i n ga n di m p l e m e n t i n gt h e e f f e c t i v e a p p r o a c ho fe x t r a c t i n gp r o p e rn o u nf r o mc h i n e s et e x t s b a s e do nt h er e s e a r c ha n da n a l y s i so fc u r r e n ti d e n t i f i c a t i o nm e t h o d sf o rc h i n e s ep r o p e r n o u n ,t h i sp a p e rs e t su pam o d e lb a s e do ns u p p o r tv e c t o rm a c h i n e ( s v m ) t oi d e n t i f yc h i n e s e p r o p e rn o u n ,a n dp r e s e n t sf o u rd i f f e r e n tm e t h o d st oi m p r o v et h ep e r f o r m a n c eo fs v m s ,t h e f i r s ti st h ec o r r e s p o n d i n ga l g o r i t h mc o m b i n i n gs v mw i t hs t a t i s t i c a lm e t h o d ,t h es e c o n di s m o d i f i e ds v ma n dkn e a r e s tn e i g h b o r s ( k n n ) a l g o r i t h m ,t h et h i r di sm o d i f i e ds v m a l g o r i t h m ,t h ef o u r t hi sc l u s t e rs v ma l g o r i t h m a n a l y z i n gt h ec l a s s i f i c a t i o nr e s u l t so b t a i n e db ys o l es v m ,t h em i s c l a s s i f i e dt e s t i n g s a m p l e sb ys v m a r em o s t l yn e a rt h ed e c i s i o np l a n e i no r d e rt oi n c r e a s et h ea c c u r a c yo f s v m ah y b r i dm o d e lc o m b i n i n gs v mw i 血as t a t i s t i c a la p p r o a c hf o rc h i n e s ep r o p e rn o u ni s p r o p o s e d ,w h i c hi s ,i nt h er e g i o nn e a rt h ed e c i s i o np l a n e ,s t a t i s t i c a lm e t h o di su s e dt oc l a s s i f y t h es a m p l e si n s t e a do fs v m ,a n di nt h er e g i o nf a ra w a yf r o mt h ed e c i s i o np l a n e ,s v mi s u s e d am o d i f i e ds v m k n nc l a s s i f i e rc o m b i n e ds v mw i t hm o d i f i e dk n ni sp r e s e n t e di nt h e s a m ew a y d i f f e r e n tc l a s s i f i e r sa r eu s e df o rc l a s s i f y i n gt h ed i f f o r e n tt e s ts a m p l e si ns p a t i a l d i s t r i b u t i o n s t of i tt h eu n b a l a n c e dd a t a ,am o d i f i e dk n nc l a s s i f i e ri sp r o p o s e dt om o d i f y c l a s s i ck n n b e c a u s eo ft h eu n b a l a n c eo ft h et r a i n i n gs e t ( t h en e g a t i v es a m p l e sa r es i g n i f i c a n t l y o u t n u m b e r e db yt h ep o s i t i v eo n e s ) ,w h i c hw o r s e n st h ep e r f o r m a n c eo fs v m ,am o d i f i e d s v m c l a f i e rt oi d e n t i f yc h i n e s ep r o p e rn o u ni sp r o p o s e d aa l g o r i t h mc a l l e db o u n d a r y m o v e m e n ti su s e dt om o d i f ys v m c l u s t e rs v ma l g o r i t h mi sa l s op r o p o s e di no r d e rt or e d u c ec l a s s i f i c a t i o nm i s t a k e sc a u s e d b yt h eu n b a l a n c eo ft h en u m b e ro ft w ok i n d so fs a m p l e si nt r a i n i n gs e t i nt h i sa l g o r i t h m ,t h e t r a i n i n gs e tw a sc l u s t e r e du s i n gt h ek e r n e l b a s e dk - m e a n sc l u s t e r i n g t h u sam a c h i n el e a r n i n g m o d e li ss e tu pu s i n gs v ma l g o r i t h mt ot h et r a i n i n gs e tt h a th a sb e e nc l u s t e r e d i nt h i sp a p e r , f i r s t l y ,a c c o r d i n gt ot h ec h a r a c t e r i s t i c so fc h i n e s ep r o p e rn o l l r l ,w o r d si n t h et e x t sw e r es e g m e n t e da n da s s i g n e dp a r t - o f - s p e e c h ( p o s ) t a g s ,at r a i n i n gs e ti sc o n s t r u c t e d b ye x t r a c t i n gf e a t u r e so fv e c t o r s s e c o n d l y ,f o u rc h i n e s ep r o p e rn o o nr e c o g n i z i n gm o d e l sa r e s e tu pb a s e do nt h ea b o v ef o u rm e t h o d s l a s t l y ,t h ef i n a li d e n t i f i c a t i o nr e s u l t so ft h et e s t i n g 中文专有名词识别的研究 s e t sa r eo b t a i n e du s i n gf o u rc h i n e s ep r o p e rn o u nr e c o g n i z i n gm o d e l t h ee x p e r i m e n t a lr e s u l t s s h o wt h a tf o u rm o d e l sh a v ea l la c h i e v e dh i g h e rf m e a s u r et h a nt h es o l e s v m ,t h e ya l l i m p r o v et h ep e r f o r m a n c eo fs v m i nt h ef o u rd i f f e r e n tm o d e l s ,t h eh y b r i dm o d e lc o m b i n i n g s v mw i t has t a t i s t i e a lm e t h o dh a sa c h i e v e dt h eb e s ti d e m i 矗c a t i o nr e s u l t s k e yw o r d s :c h i n e s ep r o p e rn o u n ;s t a t i s t i c a lm e t h o d ;m o d i f i e ds v m - k n n ;m o d i f i e d s v m ;c l u s t e r i n g 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 作者签名:垂盛生日期:迎:垒:! 呈 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用 规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存+ r i p e 编学位论 文。 作者签名:主垒垒 导师签名董! 堑遮 丛年上月堕日 大连理工大学硕士学位论文 1 绪论 1 1 问题的提出 自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g ) 是指计算机对人类语言所做的分析,如 对语段进行自动分析,以判断其所用的语法结构,或对口头输入进行处理。更简单的说 法,就是采用计算机技术来研究和处理自然语言【1 】。自然语言处理是计算机科学领域与 人工智能领域中的一个重要方向,正成为计算机科学届的热门课题之一 为了达到让计算机理解自然语言的目的,需要进行三步工作:理解所出现的每个词; 从词义构造表示语句意义的结构;从句子语义结构表示言语的结构 2 1 。在这三个过程中, 需要着重解决如何有效地使用语法、语义、语用及与其相关的各种知识问题。汉语的理 解一般分为以下步骤:原文输入、自动分词及词性标注、语法及句法分析、语义及语用 和语境分析、生成目标形式表示、旬群及篇章理解等。词汇分析是基础,句子分析是中 心,篇章理解是最终目的。那么,一旦得到了句子成分的计算机表示,无论是应用于句 群划分、篇章理解,还是机器翻译、机器释义、人机对话或是情报检索等等方面,都有 着实际意义。 汉语的书面表达方式是以汉字作为最小单位的,但是在自然语言理解当中词是具有 意义的最小处理单位。把没有分割标志即没有词的边界的汉字串转换到符合语言实际的 词串即在书面汉语中建立词的边界,这就是汉语自动分词。汉语的自动分词是汉语信息 处理领域中的“瓶颈”问题,是自动文摘、文本挖掘、语音处理和机器翻译等语言工程 中的基础课题之一。 汉语自动分词研究的主要内容包括【3 】: ( 1 ) 分词规范问题:即确定什么是词、哪些可以作为分词的单位。 ( 2 ) 切分算法问题:即如何进行词的切分,以建立符合实际含义的词的边界。 ( 3 ) 歧义消除问题:即采取什么样的方式消除切分歧义。 ( 4 ) 未登录词识别问题:即如何进行词典中未登录词的识别。 其中,未登录词的识别问题是汉语自动分词中存在的一个难题【4 】。所谓未登录词是 指分词系统的词典中没有收录的词,主要包括专有名词、数词、时间词、专业及文化新 词等【”。专有名词主要是人名、地名或单位公司名。未登录词在文本中有非常高的使用 频度和比例,是影响自动分词正确率的主要原因之一。国内已经研究并提出了很多有效 的自动分词方法,当待切分的文本中不包含有未登录词时,能获得很高的精确率,但当 文本中含有未登录词时,其往往与前后的字词交叉组合,不仅增加了自身切分的难度,而 中文专有名词识别的研究 且严重地干扰了相邻词的正确切分。未登录词识别问题实际上已经成为词法分析实用化 的主要瓶颈,未登录词识别技术的突破将对提高汉语自动分词系统的正确率、词法分析 以及句法分析的准确性有很重要的作用。 汉语中的未登录词,如人名、地名、外国译名等专有名词,其构词方式相当随意, 种类繁多,形态组合各异,又缺乏可资辨识的启发标记( 如英文词语中的大写字母) ,同 时未登录词中的一些字有很多又是单字词。汉语词汇是一个开放的集合,无论建立多么 庞大的词典,都不可能穷举所有的词。而且,随着时间的推移,还会源源不断地出现大 量的新词。因此,要实现对未登录词的自动识别,有相当大的难度。 目前,经过十几年的研究,出现了一些实用的自动分词系统,这些系统在分词的精 确度和分词速度方面都具有相当的水平,但是同时在速度和精确度方面都仍然需要进一 步的研究。许多系统对歧义切分进行了较深入的研究和讨论,而未登录词问题是开放型 的系统所特有的,因此汉语中的未登录词问题直到近几年才开始得到重视,存在的困难 比较多,根据8 6 3 3 0 6 智能接口技术专家组9 8 年度对国内自动分词软件的评铡结果的 分析嘲,中国人名、中国地名和外国译名的正确率分别为9 l ,2 6 、6 9 1 2 和8 2 8 3 , 召回率仅为6 8 7 7 、6 0 4 7 和7 8 2 9 。因此,未登录词的自动识别仍然是一个迫切需 要解决的问题,精确率和召回率还有待进一步提高。 1 2 中文专有名词识别的意义 中文专有名词的识别属于未登录词识别的范畴之内,是一个非常复杂的问题。专有 名词大部分都是分词系统词典中未收录的词语,包括人名、地名、组织机构名、事件名、 货币名、商标名等。专有名词是影响分词精度提高的主要原因之一,由于专有名词引入 的分词错误比单纯的词表切分歧义还要严重,从而大大地降低了分词的精确率。若在分 词阶段未能把人名和地名等未登录词识别出来,则会对以后的词法、词义以及句法分析 造成不可逾越的障碍。而且分词阶段的错误率在翻译的过程中将会被“放大”,这严重 影响翻译的质量。 中文人名和地名是中文专有名词的重要组成部分。中文人名由姓氏和名字两部分组 成。中文姓氏有记载的就有几千之多【3 1 ,例如宋代姓解中收录了姓氏2 5 6 8 个,现代 的中文大词典中收录了1 9 4 2 个,而台湾出版的中国姓氏集更是收录了5 5 4 4 个。 中文名字的选取更是随心所欲,没有任何规则可循,完全根据个人的喜好,可以使用任 何汉字或汉字串作为名字。由此可见,要把所有中文名字都收入分词词典是不可能的, 这就要求分词系统具有自动识别中文人名的能力。 一z 一 大连理工大学硕士学位论文 中文地名不像人名那样纷繁复杂,无法枚举,因此目前有的汉语自动分词系统是通 过穷举法来实现的【4 l ,即将所有的地名加入到分词词典中。这对于面向真实文本的分词 系统来说是不太可取的,存在很多问题:首先随着时间的推移,新的地名会不断涌现, 很多地名会逐渐消失,因此地名实际上是不可能穷尽的其次即使可以穷举出来,地名 数量必然极其庞大,都放入分词词典中,一方面会使分词词典的规模急剧增加,增加系 统开销,降低了运行效率,另一方面也会增加各种歧义现象出现的概率,对切分精度也 有影响。因此,研究中国地名特点、用字规律、用词规律、构词规律和地名的上下文规 律,实现在真实文本中中文地名的自动识别是很有必要的。 1 3 中文专有名词识别的特点与难点 1 3 1 中文专有名词识别的特点 中文姓名的特点主要有【3 ,4 】: ( 1 ) 中文姓名一般由二字到四字组成,第一字为姓氏字( 复姓为前两字) ,其后的一 到两个字为名用字。 ( 2 ) 当今仍然使用、活跃的中文姓氏远没有某些姓氏典籍所列举的那么多,大概有 1 0 0 0 多个。 ( 3 ) 姓氏分布很不均匀,但相对集中。“王、李、刘、张、陈”这5 大姓就占了姓 名样本数的2 9 1 ,前1 8 个姓占5 0 3 ,前1 8 1 个姓占9 0 3 ,前5 8 6 个姓占9 8 6 , 其余姓氏仅占不到1 5 。 ( 4 ) 某些姓氏可用作单字词,其中不乏高频单字词。常用的姓氏如“王、黄、马、 高、于”等,不常用的姓氏如“从、那”等。 ( 5 ) 名字用字分布较姓氏用字要平缓、分散。共得到3 6 7 9 个名字用字,频率最高的 前1 7 个字的覆盖率为1 0 5 ,前8 0 个字为3 0 3 ,前2 0 7 个字为5 0 3 ,前11 2 2 个字 为9 0 4 。 ( 6 ) 名字用字涉及范围很广。从所属的词类看,不仅有实词,也有各类虚词。如副 词“常、太、必、非、更、也、级、又、皆”等,介词“以、向、从、于、把”,连词 “而、虽、且、与”等。从感情色彩看,多使用褒义字和中性字,但也出现了一些贬义 字或不太文雅的字,如“狼、恶、悲、暴、虫”等。 ( 7 ) 某些汉字即可用作姓氏,又可用作名字用字。如“林、方、金、江、万、颜、 童、柳”等。 上述各点,( 1 ) 、( 3 ) 和( 5 ) 赋予中文姓名具有统计意义上的可区别性,( 4 ) 和( 6 ) 使得部 分姓名模糊,( 7 ) 则导致相邻候选姓名之间产生交叉歧义。 中文专有名词识别的研究 中文地名的特点主要有f l , 4 1 : ( 1 ) 尽管在中国地名录有些地名没有被收录,但是,绝大部分没有收录的地名 的用字都可以被地名用字库覆盖。 ( 2 ) 中文地名用词一方面比较自由,分散,地名录中共享汉字3 6 8 5 个,出现次数 在e l ,l o 之间的地名用字占绝大多数。另一方面,中文地名用词又有相对集中的覆盏 能力。 ( 3 ) 地名结尾经常有地名特征词出现。但地名特征词出现的情况比较复杂:既可以 作为普通用词出现,并不表示真正的、具体的地名。又可以出现在地名其它位置或作为 地名的前部词。既可以有一个地名特征词出现,又可以同时有多个地名特征词连着出现。 这无疑增加了地名识别难度。 ( 4 ) 地名长度没有严格限制,不像中文姓名那样,长度在2 - 4 个汉字之间。在真实 文本中,经常会有地名简称出现。 ( 5 ) 地名用词的情况非常复杂。有一些词,如果在真实文本中出现,那么,作为地 名用词的可能性非常大,如“峨嵋山”中的“蛾嵋”。但是,可作单字词的汉字在地名 中经常出现,如“西直f j 、马家塔”。每一个单字均为高频单字词,在真实文本中, 作为地名出现的次数比较多,同时,作为非地名成分出现的次数也很多。 ( 6 ) 多字词可以在地名不同的位置出现,可以在地名首部出现,也可以在地名中部 出现。同时,相对于单字词来讲,地名词典中的多字词统计的信息不充分,对多字词的 判断也是地名识别中的一个难点。 ( 7 ) 地名有时同一些介词、动词、方位词之类的指示词出现,这些指示词对地名识 别能起到标志作用,如“到北京、万家寨附近”。但有些指示词也可以作为地名组成部 分在真实文本中出现,如“上甘岭、来复乡”。同时,这些词在文本中并不总是与地名 同时出现,如“在此基础上、从计划到组织”。 ( 8 ) 经常多个地名通过一些连接词或者连接符号的连接一起出现,如“吉林省,四平 市梨树县梨树镇霍家店村”。这样的地名多是表示行政地区的地名,这对地名识别来 讲,是一个有利的信息。 ( 9 ) 真实语料中地名可能和其它词语发生冲突,首先,连续出现的地名自身发生冲 突,如“重庆壹篮寿县”。地名还可能成为其他专有名词的一部分,如“大连市机械厂”, 地名作为机构名的部分。地名用字还可能与其相邻字成词,如“海宁市长安邮电局” 切分成“海宁市长安邮电局”。 综上所述,( 1 ) 、( 4 ) 和( 9 ) 增加了地名识别难度,( 3 ) 和( 7 ) 可能使候选地名产生交叉 歧义,( 2 ) 、( 5 ) 和( 6 ) 使部分地名边界模糊,( g ) n 有助于地名识别。 大连理工大学硕士学位论文 1 3 2 中文专有名词识别的难点 中文人名识别的难点在于如何正确确定出中文人名的左右边界。由于中文文本不含 有西方语言的形态特征如大写字母等可以作为识别人名的依据,而且中文人名的结构复 杂,表现形式多样,人名用字不仅可以自身成词,并能与相邻的字构成词。例如:“记 者吕国庆报道”,人名“吕国庆”中的“国庆”自身成词,“费孝通向人大常委 会提交书面报告”,人名“费孝通”的尾部与下文成词。又如“马”,可以当作名 词来指一种家畜,也可作姓。所有这些都增加了人名识别的难度。 中文地名识别的难点主要表现为: ( 1 ) 中文地名数量大,没有明确规范的地名定义,并且新的地名不断涌现。 ( 2 ) 地名长度没有一定的限制,不象中文人名那样,长度在2 4 个汉字之间。在真实 文本中,经常会有地名简称出现,如:“京”、滓”,也有长的如“双江拉鼓族佤族布 朗族傣族自治县”等。 ( 3 ) 地名内部相互成词,如“中山路”,这些多字词已被核心词典收录。 ( 4 ) 切分错误,如“兴城市”。 ( 5 ) 地名结尾带有特征词,如:市、乡、村、山、沟等,但地名特征词出现情况比 较复杂:既可作为普通用词出现,又可出现在地名结尾甚至出现在地名前部,如:“小 康村”、“拣金乡东沟村”等。 1 4 国内外研究现状 近几年来随着计算机信息检索技术的不断发展,中文专有名词识别已成为学术界研 究的热点课题,国内外很多学者和专家进行了深入的研究。根据查阅的文献,目前中文 专有名词识别的方法主要有:基于规则的方法【 】、基于统计的方法【l o - 2 0 、规则和统计 相结合的方法【2 1 捌等。 1 4 1 基于规则的方法 在中文专有名词识别的早期研究中,大多采用人工总结各种判定规则,然后通过规 则匹配的方法识别各种类型的专有名词。规则方法主要是利用两种信息:专有名词用字 分类和限制性成分【1 0 】。即:分析过程中,当扫描到具有明显特征的专有名词用字时,开 始触发专有名词的识别过程,并采集专有名词前后相关的成分,对专有名词的前后位置 进行限制。此外文献 9 】采用基于转换的错误驱动的方法来获取识别地名的上下文有关规 则,然后应用这些规则对当前标注结果进行转换来实现中文地名的识别。小规模测试的 结果表明,其准确率可以高达9 7 1 7 1 。 但是规则方法的缺点在于: 中文专有名词识别的研究 ( 1 ) 无论是人工总结出判定规则,还是收集规模巨大的专有名词库与真实语料库, 都是一个费时费力的浩大工程。 ( 2 ) 一旦增加新特征的专有名词,就必须对以前的规则重新修订,增加新规则,规 则方法很难扩展。 ( 3 ) 规则虽然可以保证很高的准确率,但是覆盖范围都是有限的,对于覆盖集之外的 专有名词就完全无能为力。 因此,目前中文专有名词识别的主流技术就是采用统计模型,以及统计和规则相结 合的方法。 1 4 2 基于统计的方法 中文专有名词识别系统中采用的统计模型主要有:隐马尔可夫模型1 0 ,1 1 l ( h i d d e n m a r k o vm o d e l ,h m m ) 、最大熵模型f l n ( m a x i m u me n t r o p ym o d e l ,m e ) 、决策树【1 a 】( d e c i s i o n t r e e ) 、b o o s t i n g 【14 ,悯、支持向量机【1 6 d 8 l ( s u p p o r tv e c t o rm a c h i n e , s v 岣以及传统的概率统 计方法【例。文献【1 0 】提出了种基于角色标注的专有名词识别方法,首先采用v i t e r b i 算法对切词结果进行角色标注,然后在此基础上进行模式最大匹配,最终实现中国人名 的识别。文献 1 3 采用决策树的方法,首先把专有名词识别问题看成一种分类问题,然 后用决策树的方法来解决这个分类问题。从语料库及现代汉语语素数据库中共统计出六 类知识,用这些知识作为属性构建了训练集,最后用c 4 5 算法生成了决策树。文献 1 9 1 采用传统的概率统计的方法对中国人名进行识别,针对姓名语料库来训练某个字作为姓 名组成部分的概率值,并用它们来计算某个候选字段作为姓名的概率,其中概率值大于 一定阂值的字段为识别出的中国人名。文献 1 7 1 采用支持向量机方法进行中国人名和组 织机构名的自动识别。文献 2 0 1 提出并实现了一种基于互信息的中国人名识别方法。该 方法充分挖掘姓名和其上下文信息的关联程度以及姓名用字之间关联程度的信息,引入 互信息对其进行定量的描述;提出中文姓名的上下文互信息、内部互信息等概念,并对 其建立了动态评价函数。 1 4 3 规则和统计相结合的方法 目前一些系统将统计与规则结合起来,它采用统计方法对专有名词进行识别,利用 规则机制对其进行校正过滤。例如,文献 2 1 1 使用从大规模真实文本语料库得到的统计 信息,通过计算人名的构词可信度和接续可信度并结合规则对中国人名进行识别。文献 2 2 1 针对有特征词的中文地名进行了研究,并实现了以统计为主、规则为辅的有特征词 的中文地名识别系统,该系统使用从大规模地名词典和真实文本语料库得到的统计信息 大连理工大学硕士学位论文 以及针对地名特点总结出来的规则,通过计算地名的构词可信度和接续可信度从而识别 中文地名。 1 4 4 存在的问题 早期的规则系统面对大规模真实文本束手无策的原因在于语言学家编写的有限的 规则不能够全面、准确地描写输入符号串到输出符号串的映射。在这种情况下,统计语 言模型以及统计和规则相结合的模型成为了当前主流技术。 但是这些解决方案仍然存在一些不足: ( 1 ) 统计方法依据概率识别在很大程度上依赖于训练语料的大小,所以为了得到较 高的识别精度,一般需较大规模的训练语料。 ( 2 ) 一般采取“单点激活”机制来触发专有名词的识别处理,如地名识别时需扫描 到“市”、“县”这样的特征词时才进行识别,这样往往丢失那些不具备明显特征的词。 ( 3 ) 专有名词的候选字段大都选取切分后的单字碎片,这样内部成词以及上下文成 词的专有名词很难召回。 1 5 本文的工作 针对现有解决方案存在的问题,本文首先采用支持向量机的方法对中文专有名词进 行识别,然后在此基础上提出t 4 个改进的方案。s v m 是v 印n i l 【l 在统计学习理论的基 础上发展起来的一种新的通用学习方法,它已表现出很多优于已有机器学习方法的性 能,如具有很好的泛化能力、高维处理能力、强大的非线性处理能力等,目前已经应用 到文本分类i 矧、日本语名词实体【2 5 】、组块识别伫6 】、中文外译名识别口7 】、日语依存关系 2 8 】 等方面。 与传统的统计方法相比,s v m 的优点在于: ( 1 ) 自动学习、自动识别,无需人工总结判定规则。 ( 2 ) 分类标注处理作用于测试语料中的每个字,因此无需激活。 ( 3 ) 由于特征向量的建立是针对每一个字进行的,所以即使自动分词时产生内部成 词或上下文成词的情况,也不会对识别造成影响。 ( 4 ) 由于s v m 显著的泛化能力,即用较少的训练样本就可以获得较好的识别效果, 并且对训练集之外的样本也具有很好的分类效果。 因此,s v m 克服了现有解决方案存在的问题,并取得了很好的识别效果。 本文在此基础上进一步研究了s v m 的有关内容,提出了以下4 种改进方案: ( 1 ) s v m 和概率统计组合算法 ( 2 ) 修正的s v m k n n 组合算法 中文专有名词识别的研究 ( 3 ) 修正的s v m 算法 “1 聚类的s v m 算法。 本文将以上的四种改进算法分别应用于中文专有名词识别系统中,构造了四种不同 的专有名词识别模型,采用开放测试对四种模型进行了测试。实验结果表明,均比传统 的s v m 算法更具优越性,达到了较高的精确率和召回率。此研究结果将不仅仅应用于专 有名词识别问题,而且也可作为通用性算法应用于其他的模式识别、机器学习问题t 一8 一 大连理工大学硕士学位论文 2 支持向量机 ,支持向量机是在统计学习理论的基础上发展起来的一种新的通用机器学习方法。统 计学 - 3 理论( s t a t i s t i c a ll e a r n i n gt h e o r y ,s l l ) 是一种专门的小样本统计理论【2 9 j 。现实世界 中存在大量我们尚无法准确认识但却可以进行观测的事物,统计是我们面对大量数据而 又缺乏理论模型时最基本的分析手段。基于数学统计的语言模型主要研究如何从一些观 察数据出发得出目前尚不能通过原理分析得到的规律,利用这些规律去分析客观对象, 对未来数据或无法观测的数据进行预测。 传统统计学所研究的是渐进理论,是在样本数目足够多的前提下进行研究的,所提 出的各种方法和结论只有在样本数趋向无穷大时其性能才有理论上的保证。而在多数实 际应用中,样本数目通常是有限的,因此这种前提条件却往往得不到满足,当问题处于 高维空间时尤其如此,这是很多传统统计方法都难以取得理想效果的原因之一。 v v a 口n m 等人早在2 0 世纪6 0 年代就开始研究有限样本情况下的机器学习问题,相 继提出了v c 维理论、结构风险最小化原理( s t r u c t u r a lr i s km i n i m i z a t i o n , s r m ) 。v c 维 理论为衡量预测模型的复杂度,提出了有效的理论框架。结构风险最小归纳原理是统计 学习理沦提出的一种运用于小样本学习问题的归纳原理,它包括了学习过程的一致性、 边界的理论和结构风险最小化原理等部分,克服了经验风险最小化方法的缺点。直到9 0 年代中,有限样本情况下的机器学习理论研究逐渐成熟起来,形成了一个较完整的理论 体系一统计学习理论。1 9 9 5 年,v v a p n i k 完整地构建了统计学习理论,提出了s v m 分 类,并详细给出了s 分类方法及其具有的众多优点。 支持向量机定义为:一种基于统计学习理论和线性分类思想的学习方法,其中支持 向量是对分类有较好区分能力的样本点,这些支持向量可以构造出空隙最大的最优分类 超平面。通过核函数变换的方法,支持向量机可将在低维空间无法线性分类的样本映射 到高维空间进行分类,很好的解决了有限数量样本的高维模型构造问题。本章将详细介 绍支持向量机的核心思想。 2 1 机器学习 2 1 1 机器学习的相关概念 当计算机应用到实际问题中时,通常可以显式地描述为:给定一组输入如何推出所 需的输出。也就是让计算机从样例中学习输入到输出的函数对应关系,这种使用样例来 合成计算机程序的过程称为机器学习方法3 0 1 。有关输入,输出函数关系的样例称为训练 数据。 中文专有名词识别的研究 输输出对通常反映了把输入映射到输出的种函数关系,当输入到输出存在内在 函数时,该函数称为目标函数。由学习算法输出的对目标函数的估计称为学习问题的解。 对于分类问题,该函数称为决策函数。从训练数据中学习并从假设空间中选择假设的算 法称为学习算法。有二元输出的问题称为二类问题,有多个类别的问题称为多类问题。 机器学习的一个基本问题是:通常训练数据是有噪声的,因此不能保证存在一个目 标函数能够正确地映射训练数据。还有一个更为基本的问题在于,即使能够找到与训练 数据一致的假设,它也可能无法对未见数据进行分类。一个假设正确分类训练集之外数 据的能力称为泛化性,这就是要优化的属性。泛化性准则对于学习算法附加了另一种约 束,因此一种好的机器学习算法要有好的泛化能力。 2 1 2 机器学习问题的表示 机器学习问题的基本模型硎,可以用图2 1 表示。其中,系统s 是研究的对象,它 在给定一定输入工下得到一定的输出y ,l m 是所求的学习机,输出为多。机器学习的 目的是根据给定的已知训练样本求取对系统输入输出之间依赖关系的估计,使它能够对 未知输出作出尽可能准确的预测。 预测输出多 图2 1 机器学习的基本模型 f i g 2 1t h eb a s l em o d e lo f m a c h i n el e a r n i n g 机器学习问题可以形式化地表示为:已知变量y 与输入x 之间存在一定的未知依赖 关系,即存在一个未知的联合概率f 阮力 和y 之间的确定性关系可以看作是一个特 例) ,机器学习就是根据甩个独立同分布观测样本 ( 而,乃) ,( 而,儿) ,( ,n ) , 在一组函数沙( 五) 中求一个最优的函数f ( x ,。) ,使预测的期望风险 r ) = i l ( y ,f ( x ,o ) ) d f ( x ,力 大连理工大学硕士学位论文 最小。其中驴( 鼻,) ) 称作预测函数集,q 为函数的广义参数,故扩似) ) 可以表示 任何函数集;工( ) ,f ( x ,) ) 为由于用厂( 葺) 对y 进行预测而造成的所示。不同类型的 学习问题有不同形式的损失函数。预测函数通常也称作学习函数、学习模型或学习机器。 2 2 线性可分s v n 支持向量机中最简单也是最早提出的模型是最大间隔分类器。最大间隔分类器用于 特征空间中线性可分的数据。 2 2 1 线性分类 设原始输入空间x r ”伽为输入空间的维数) ,y 表示输出域,对两类问题, r = 一1 ,1 ) 训练集是训练样例的集合,表示为s = ( 而,乃) , j ,y 2 ) ,( ,y f ) ) ,其中 而e x , 乃e y 是x t 的标记,若而属于正类,y l = 1 ,若葺属于负类,y 。= 一1 ,z 为样本 的个数。 两类问题的分类通常用一个实值函数艄按照这样的方式操作【3 0 】:当f ( x ) - 0 时,输 入x = ( x 1 ,) 7 赋给正类,否则赋给负类。当艄是线性函数时,即分类问题是线性分 类,函数可以写为: ,( x ) = + 6 = w ,葺+ 6 l = l 其中w 和b 称为权重向量和偏置,决策规则由s 弘优功) 给出,即r = s g n ( f ( x ) ) 。其几何 意义如图2 2 所示,式子 + 6 = 0 定义的超平面将输入空间x 分为两部分,这两 部分对应输入中的两类。 图2 2 二维训练集的分类超平面 f i g 2 2h y p e r p l a n eo f 2 - dt r a i n i n gs e t 中文专有名词识别自g 研究 2 。2 2 最大间隔分类器 最大间隔分类器是线性可分条件下的标准最优分类面。考虑用一个某特征空间的超 平面对给定训练数据集作二类分类问题,对于给定的样本点 s = ( x 。,儿) ,( 屯,y 2 ) ,o 。,y f ) ,而r ”,儿 - 1 ,1 ) ,在线性可分情况下,在特征空间 中可以构造多个分类平面( 如图2 3 所示的h o ,h i ,) ,这些超平面被定义为: 1 ,x + b = 0 这些超平面都能将两类数据无误差的完全分开,即都满足以下条件: i w x + b + l( ) ,= + 1 ) 1 w 工+ b 5 1【y ,= 一1 ) 合并表示为: 乃( 矽工+ 6 ) 1 ( 2 1 ) 在所有的超平面中,最大间隔分类器要寻找的是一个最优超平面( o p t i m a l h y p e r p l a n e ) 。这个最优超平面是指满足两类的分类f 确( m a r g i n ) 最大的超平面。分类间 隔被定义为;每类距离超平面最近的样本到超平面的距离之和。此分类间隔可以经过如 下的计算得到:如图2 3 ,设吼为最优超平面,在h o 两侧分别作一个经过距离h o 最近 的样本并且平行于凰的超平面,记为h 2 和h 3 。这两个超平面的表达式分别为: h 2 :) ,= w x + b = 1 ,h 3 :y = ,x + 6 = l 。 图2 3 最优超平面 f i g 2 3o p t i | 1 l a lh y p e r p l a n e 0 根据点到直线的距离公式可知:h 2 上某点到最优超平面凰的距离为: w x r + b i = 俪1 , 大连理工大学硕士学位论文 同理h 3 上某点到最优超平面h o 的距离也为商,因此分类间隔m 吐为: 击拈而 ( 2 2 ) 根据以上的分析可知:求解最优超平面相当于在式( 2 1 ) 的约束条件下,求式( 2 2 ) 的 最大值,即求解式( 2 3 ) 的二次规划问题: m i n i m i z e 顿叻2 圳 ( 2 3 ) s u b j e c tt o 只( w 工+ 6 ) lf = l ,z z 根据l a g r a n g e 方法,这个优化问题的解是由下面的拉格朗日泛函( 拉格朗日函数) 的鞍点 给出的: i 上( w ,b ,口) = :1 ( 缈w ) - 口, 【( 而) 一6 - 1 i - 1 其中口0 为拉格朗日乘子。为求解这个问题,即求最优解w 。,b o 和a o ,我们要对 拉格朗日函数关于w ,b 求其最小值,通过对相应的,b 求偏导,有: 掣= w 一毫y ,口x ,= o 鸶竽= 喜鹏一o 由此可得到最优超平面的系数w 。; 将式( 2 4 ) 和( 2 5 ) 代入原始拉格朗日函数中,可得到: ,1, 工( ,b ,口) = 劬一去e y , y ,吼q j 。i- ,j i 于是转化为以下的对偶问题: ,1i m a x

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论