(计算机应用技术专业论文)基于概念特征的中文文本分类研究.pdf_第1页
(计算机应用技术专业论文)基于概念特征的中文文本分类研究.pdf_第2页
(计算机应用技术专业论文)基于概念特征的中文文本分类研究.pdf_第3页
(计算机应用技术专业论文)基于概念特征的中文文本分类研究.pdf_第4页
(计算机应用技术专业论文)基于概念特征的中文文本分类研究.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

河北大学 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下进行的研究_ j 二作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写的研究成果,也不包含为获得河北大学或其他教育机构的学位或证书所使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了致 访十。 作者签名: 丞盎硅 日期:赴吐年厶月止日 学位论文使用授权声明 本人完全了解河北人学有关保留、使用学位论文的规定,即:学校有权保留并向国家有 关部fj 或机构送交论文的复印件和电子版,允许论文被查阅和借阅。学校可以公布论文的全 部或部分内容,可以采用影印、缩印或其他复制手段保存论文。 本学位论文属于 】、保密口,在年月日解密后适用本授权声明。 2 、不保密阿。 ( 请在以上相应方格内打4 ) 作者签名: 罢老:l i 垒日期:型! 皇年上月韭日 导师签名:翊显盔!日期:型堕年厶月且日 第1 章引言 1 1 研究背景 过去的十年是i n t e m e t 飞速发展的个时期。从9 0 年代初开始走向民用,到如今干 家万户的普及;从一开始只限于教育科研部门,到现在渗透到各行各业各领域。根据统 计i n t e m e t 上在线发布的网页达亿数量级并以每天百万页的速度增长【1 。从发展趋势来 看,互联网将成为人们获取信息的主要来源。 然而i n t e m e t 上信息海量、异构、动态的特性,却使我们有效利用i n t e r a c t 上的信 息变得很困难。比如从搜索引擎上随便输入一个查询,就能得到成千上万组页面,而真 正所需要的页面寥寥无几。对于网络我们期望的理想情况是:能够从网络上准确而全面 的获得个人想要的信息;希望网络能够提供个性化服务,根据个人的兴趣爱好提供想要 的信息:如果想了解某一事物时,网络能把这一事物的信息加以分1 7 9 j j 类的整理,既全 面又不失条理。这需要我们对i n t e m e t 上的资源进行有效的筛选、过滤、组织和整理, 而对这些信息进行分类、聚类则是一个重要的处理手段。 1 2 应用领域 对事物进行分类是人们认识自然的一种重要手段,在计算机出现之后,人们就开始 借助这- - n 器研究数据的自动分类问题。从计算的观点看,如果分类原则是事先通过示 例告诉讨算机的,那么计算机在示例基础上形成分类机制的过程就成为有监督的分类: 如果事先没有任何示例,。全凭数据自身在某种角度上的相似性来分类,这时自然就谈不 上遵守既定分类体系的问题,那么这种分类过程就称为无监督的分类,也称为自动聚类 问题。聚类和分类都是机器学习、统计等领域关注的课题。 文本分类枭类技术将大量的文本分门别类,依据文本的语义将它们划归为不同的 类别,从而可以更好的把握整个文本集。对于信息检索,利用文本分类技术可以有以下 类别,从而可以更好的把握整个文本集。对于信息检索,利用文本分类技术可以有以下 好处。 河北大学工学硕士学位论文 i i ii i 1 2 1 冗余过滤 在搜索引擎的建设中,如果不对采集的数据进行控制,就会在数据库中包含大量的 冗余文档。这些冗余文档在内容上相同或者类似,只是文档链接的网址的不同。美国斯 垣福大学教授n a r a y a n a ns h i v ak u m a r 对i n t e m e t 上网页进行统计的结果表明,近似网页 数占总网页数的比例高达2 2 f j j 。快速检测这些冗余文档并从资源库中删除,可以节省 大量的存储空间,提高信息检索的质量。如g o o g l e 搜索引擎使用的就是斯坦福大学的 近似网页检测算法1 2 j 。 1 2 2 对检索结果的组织 信息的加工和整理能够使人们更好地掌握信息。在搜索引擎上,随便输入一个查 询式,就能得到成千上万个返回结果,如果你想作全局了解,除了逐篇阅读别无他途。 一种可行的解决办法就是把获得的大量信息进行条理化,自动地将页面分类到不同的类 目当中p j 。 m a _ r t ia h e a r s t ,1 9 9 7 等开发了种称为“s c a r e r g a t h e r ”的技术,试图更合 理的组织检索结果。这种技术对检索到的结果页面进行聚类分类操作,按照页面彼此 之间的相似程度分为若干组,每组都有一个比较明确的主题,用户可以迅速扫描并选择 和目标最相关的一组。 1 2 3 个性化服务 我们在网络上检索信息的同时,也希望网络能够按照自己的意愿、兴趣来主动地提 供信息。一种解决的方法就是,信息提供方根据使用用户自己提供的一些信息,比如一 些感兴趣信息的文本范例,对其抽取特征进行分类。这样大量的用户群就会被分成若干 个兴趣不同的小的团体,对每一个小团体提供不同的服务。 1 3 研究现状 文本分类研究最早从2 0 世纪6 0 年代开始,但是发展比较缓慢。一直到2 0 世纪8 0 年代末,才有所改观。在此期间比较有效的分类系统主要是基于专家人工构建的基于知 第1 章引言 识工程的文本分类系统。其代表如卡内基集团为路透社开发的著名的c o n s t r u e 新闻自动 分类系统。 进入2 0 世纪9 0 年代,随着计算机硬件的快速发展以及i n t e m e t 网的普及,文本分 类展现出良好的应用前景,文本分类技术也得到了快速的发展。在此期间出现了基于机 器学习的文本分类技术。其分类效果大大超过了基于知识工程的文本分类方法。文本分 类进入了一个全新的阶段。机器学习文本分类算法通常是从预先分类好的文本集合中, “学习”出各个类别的特性,并根据这些特性对未知类别的文本进行分类。其分类的准确 率,分类速度,及建立分类系统的速度都比咀前有了本质的提高。 国内对于文本自动分类的研究起步较晚,1 9 8 1 年,侯汉清教授对于计算机在文本 分类工作中的应用做了探讨,并介绍了国外计算机管理分类表、计算机分类检索、计算 机自动分类、计算机编制分类表等方面的概况。此后,我国陆续研制出一批计算机辅助 分类系统和自动分类系统。例如,广东省中山图书馆的莫少强开发的计算机辅助图书分 类系统( c a b c ) 、清华大学吴军研制的自动分类系统、山西大学刘开瑛等人开发的金融 自动分类系统、东北大学图书馆的图书馆分类专家系统、上海交通大学王永成等研制的 基于神经网络优化算法的中文自动分类系统、广州西风公司研制开发的西风文本自动分 类系统等等。虽然中英文之间存在着较大差异而无法直接照搬国外的研究成果,但是, 随着中文信息处理技术特别是中文自动分词技术的日渐成熟,以此为基础的中文文本分 类技术的研究得到了快速发展,在短短2 0 年中就己经完成了从可行性探索到实用化阶 段的转变。 1 4 本文的工作 目前的文本分类系统主要都是以“关键词”作为特征,以关键词对应的概念作为特征 进行文本分类是人们研究的热点。然而“概念”本身比较抽象,如何将直观的关键词映射 到抽象的概念是问题的关键。我们借助了“知网”【5 提供的知识将关键词映射到其对应的 概念,以概念作为特征实现了“基于概念的文本分类系统”。本文的工作可以总结如下: ( 1 ) 特征抽取:在将关键词映射到对应的概念时可能会出现歧义,比如一个关键 词在不同的上下文对应不同的概念,也可能不同的关键词对应同一个概念。针对这种情 况,文章提出了一种概念消歧的方法并对专有名词进行了处理,有效的解决了该问题。 河北大学工学硕士学位论文 ( 2 ) 权重计算:在文本表示方法中,经常使用t f i d f 算法来计算权重。本文分析了 t f l d f 的不足,提出了改进的权重计算方法,并验证了其有效性。 ( 3 ) 分类算法:本文改进了传统的朴素贝叶斯分类算法,改进后的算法在训练样本集 不太大的情况下也能取得跟k n n 算法相当的分类效果。 ( 4 ) 在w i n d o w s 2 0 0 0 平台上,利用v c 6 0 实现了基于概念的文本分类系统。 1 5 文章组织 本文在全面论述文本分类的同时,重点研究了特征抽取、特征选择和分类算法。 全文的组织结构可以概括如下。 第一章引言。 第二章文本分类相关技术及相关资源。主要是对文本分类用到的一些相关领域的 知识以及一些中文信息资源如“知网”进行了介绍。 第三章基于概念的文本表示方法。这一章主要论述了文本的特征抽取方法,采用 了概念作为特征,代替了原来关键词作为特征。在概念作为特征的基础上来表示文本。 此外,对特征的权重计算方面作了一些改进。 第四章文本分类算法。对几种算法进行了分析,指出其优缺点。 第五章实验过程及结果分析。主要对新旧方法进行了结果对比。并对实验结果进 行分析。 一4 一 第2 章中文文本分类相关技术及资源 ii i 第2 章中文文本分类相关技术及资源 2 1 中文文本的自动分词与词性标注技术 在对文本进行自动分类时,对中文文本的处理有其特殊的地方。因为中文文本是 按句连写的,词间无间隙,因而在中文文本处理中首先遇到的问题是词的切分问题。按 句连写转换为按词连写,词的切分是进行中文文本处理的必要条件。 而汉语本身是一种缺乏词的形态变化的语言,词的类别不能像印欧语那样,直接 从词的形态上来表示【4 1 。词性标注对于我们理解词义,进行歧义排除从而将词映射到概 念具有很重要的作用。 本文在借鉴了实验室现有成果,跟一些前人工作的基础上构建了分词系统【4 】【6 】。在 分词系统构建的过程中遇到的问题,和采用的解决方法可以概括如下: 2 1 1 歧义切分字段处理 一个汉语句子是以连续字串的形式书写的。由于可能存在歧义,分词并不是一个简 单的从输入串中发现合法词的过程。一个句子经常对应几个合法词序列,因此,汉语分 词中的一个重要的问题就是在所有的这些可能的序列中选出一个正确的结果。 1 ) 歧义字段的定义: 歧义切分字段从主要构成形式上可分成交集型歧义字段和多义性歧义字段两类,分 别描述如下f 4 】: 交集型歧义字段:在字段a j b 中,a j w 并且j b w ,则称a 3 b 交集型歧义字段。 其中a 、j 、b 为字串,w 为词表。 比如:结合成分子时。就是个交集型歧义字段。它的切分情况可以有以下几种: 结合成分子时 结合 成分子嘲 结啥成嗡呼时 河北大学工学硕士学位论文 终 合茂 分子i 鼬 多义型歧义字段:在字段a b 中,a b w ,a w ,b w ,w 为词表,则称a b 为 多义型歧义字段。比如: a 少年儿童一起拉小提琴。 b 一起领导干部违纪事件。 其中“一起”为多义型歧义字段,例a 中“一起”不应该切分,例b 中“一”和“起”都是 词,应该切分。 交集型歧义的切分的问题是切在哪里,多义型歧义的切分问题是该不该切。据统计, 汉语真实文本中,歧义切分现象的出现概率约为1 1 1 0 ,即平均1 1 0 个汉字中出现一次 歧义切分,其中,交集型歧义切分现象占8 6 ,因此这种歧义切分应该作为重点加以处 理。 2 ) 歧义字段的采集 处理歧义切分问题的前提是在文本中发现歧义切分。为此,可以把正向扫描跟逆向 扫描结合起来。正向扫描即正向最大匹配分词法,做法是:每次都是从汉字串左边取一 较长的候选词,该候选词不止一个汉字而且在词表中查不到时,将它的最后个汉字去 掉。逆向扫描是;每次从汉字串右边去一个候选词,候选词不止一个汉字而且在词表中 查不到时,将它最前面的一个汉字去掉 6 。 比如对汉字串“使用户满意”进行正向扫描的结果是:“使用户满意”。进行逆向扫 描的结果是:“使用户满意”。由于两次扫描的结果不同,则可发现存在歧义宇段“使用 户”。 3 ) 最大概率法 双向扫描不能检查出所有的交集型切分歧义。例如,前面所举的例子“结合成分子 时”,无论是正向扫描还是逆向扫描,都只会切分成“结合成分子时”。而且,即使检查 出交集型切分歧义,双向扫描本身也不能提供消除歧义的手段。本文采用了最大概率法 来解决歧义切分问题。方法可以描述如下: 根据噪声信道模型,可以认为任何一个词串经过信道传送,由于噪声干扰而丢失 了词界标记,到输出端成了一个汉字串。那么,自动分词就是已知一个汉字串,求跟它 对应的、有最大概率的词串。即, 第2 章中文文本分类相关技术及资源 w = a r g m a x p ( wz )( 2 1 ) 由贝叶斯公式知: w = a r g ,m a x p ( w iz ) a r g ,m a x 警( 2 - 2 ) 妒矿 r l j 其中,p ( z ) 是汉字串的概率,它对于各个候选词串都是一样的,不必考虑。p ( z i 矿) 是词串到汉字串的条件概率,显然,在已知词串的条件下,出现相应的汉字串的概率是 1 ( 从词串恢复为汉字串只有唯一的方式) ,也不用考虑。仅仅需要考虑的是p ( 聊,即 词串的概率。因此,上述公式可简化为: w = a r g m “尸( 帅( 2 3 ) 即,概率7 最大的词串,便是最佳的词串 7 。 而词串频率可以用n 元语法来求。考虑到系统的速度和实用性,我们最终采用一 元语法来求词串的概率: p ( 形) = 丌p ( 心) ( 2 - 4 ) 从所有的切分路径中找出一条最佳的切分路径( 即概率最大的) 作为输出的结果。 2 1 2 中文姓名识别 中文姓名在文本分类中有着重要的作用,比如,在一片文档中往往在看到几个熟悉 的人的名字后就能很快知道这片文档大概是哪一方面的。目前中文姓名识别主要有两种 方法:基于规则的识别方法和基于统计的识别方法。我们采用了基于统计的方法来识别 中文姓名。 1 ) 确定中国姓名的概率估值公式: 设:中国姓名的通用表达式为f 8 :c n a m e :x , m 2 其中,x 表示姓氏,可以是单姓,也可以是复姓:鸭表示名字,垅。为名字首字, 删:为名字尾字;聊。为空时c n a m e 为单名( s n ) ,不为空时是复名( p n ) 。 河北大学工学硕士学位论文 曼曼皇曼皇e 皇! ! 曼葛il l i | 1 1 囊| 皇量| 自皇 a ) 姓氏使用频率:f ) = 蔷 其中,f x 表示x 在语料中作为姓氏的次数;同x 表示x 在语料中出现的总次数。 b ) 名字首字使用频率:m ) = 盖 其中,# m a 表示m a 这个字在语料中作为名字首字的次数,同鸭表示玛这个字在语 料库中出现的总次数。 c ) 名字首字使用频率:f ( m o :姜粤 f 剐巩 其中,# m 2 表示m :这个字在语料中作为名字尾字的次数,同m :表示这个字在语 料库中出现的总次数。 d ) 姓名概率估值p 为: 复名情况:p ( p n ) = f ( x ) x f ( m ,) f ( )( 2 5 ) 单名情况:p ( p n ) = f ( x ) v ( m ;)( 2 6 ) 2 ) 中文姓名的自动识别方法 在姓名识别中,需要在统计的基础上动态地建立姓名识别统计数据表 a = ( f ( ) 、f ( m a ) 、f ( m :) 和姓名识别域值,在姓名识别过程中兼顾召回率与精确率。在我 们的系统中中文姓名识别的召回率为9 5 ,精确率为8 7 。 2 1 3 词性标注 词性标注可以用基于规则的方法【1 4 】,基于语料库的统计方法15 1 。用基于规则的方 法,需要大量的人力来制定规则,而且不易保证规则的完备性和真实文本处理中的有效 性。实践表明,用基于语料库统计的方法来标注词性,能获得较高的正确率。 词性标注的统计模型 设w = w l 啦- 是一个词串,其中一些词在词表中有若干个可能的词性标记, 第2 章 中文文本分类相关技术及资源 c = q c 2 是跟w 对应的词性标记串。那么,在给定词串w 的条件下,标记串。c 的 概率为p ( cf 缈) ,这个条件概率就意味着用c 来标记矿有多高的正确性。 根据贝叶斯公式:p ( c i w ) = 旦兰;筹旦 ( 2 7 ) 其中分母p ( 聊是词串矿的概率,是一个常量,对于比较各个可能的标记串的概率 大小不起作用,因此上式又可以简化为: p ( c f 矿) = p ( c ) p ( w f c )( 2 培) p ( c ) 是标记串c 的概率,考虑到系统的可行性,假定一个标记的概率只取决于出现 在它前面的那个标记,那么,p ( c ) 就可以用c 中的每个标记的条件概率的乘积来表示: p ( c ) zp ( q c o ) e ( 岛jq ) p ( 岛岛) p ( c oj 岛一,)( 2 - 9 ) 因为c 。是虚设的标记,因此p ( q ic o ) 实际上就是p ( c 1 ) 。除此之外,每个标记的条件 概率可以这样计算:用语料库中它和前一个标记的连续同现次数除以前一个标记的单独 出现次数。 p ( 吲c ) 表示在已知标记串c 的条件下求词串矽的概率。可以近似地用每个词在已 知标记时的条件概率的乘积来表示: p ( w j c ) z p ( 1 嵋ic 1 ) p ( 1 lc 2 ) p ( 1 心l q ) p ( 1 ) ( 2 - 1 0 ) 2 2 知网的概念系统 知网( 英文名称为h o w n e t ) 是一个以汉语和英语的词语所代表的概念为描述对象, 以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库 5 】。它是由中科院计算机语言信息中心语言知识研究室主任董振东先生历经十几年的 时间主持研发的,并且还在不断地完善之中。知网在2 0 0 0 年开始公布它的共享版本。 2 2 1 知网简介 知网是一个以概念为描述对象的知识系统。知网不是一部义类词典。知网是把概念 河北大学工学硕士学位论文 篡置曩詈_ i i i i 曼曼! e ! 与概念之间的关系以及概念的属性与属性之间的关系形成一个网状的知识系统。这是它 与其他的树状的词汇数据库的本质不同。知网的知识可以应用在语义理解、语言翻译、 词义消歧等领域。 2 2 2 知网中“义原”的概念 义原在知网中是这样定义的:义原是最基本的、不易于再分割的意义的最小单位。 例如:“人”虽然是一个非常复杂的概念,它可以是多种属性的集合体,但也可以把它看 作为一个义原。设想所有的概念都可以用义原来表示。 知网在综合分析了5 3 0 0 0 个中文词组和5 7 0 0 0 英语单词所表示的概念之后,一共提 取出了1 5 0 3 个义原。 2 2 3 知网中概念的关系 知网在建设过程中还着力要反映概念之间和概念的属性之间的各种关系。主要有以 下一些关系。 ( a ) 上下位关系( 由概念的主要特征体现,请参看知网管理工具) ( b ) 同义关系( 可通过同义、反义以及对义组的形成获得) ( c ) 反义关系( 可通过同义、反义以及对义组的形成获得) ( d ) 对义关系( 可通过同义、反义以及对义组的形成获得) ( e ) 部件一整体关系( 由在整体前标注体现,如心”,”c p u ”等) ( f ) 属性一宿主关系( 由在宿主前标注& 体现,如”颜色”,”速度”等) ( g ) 材料一成品关系( 由在成品前标注? 体现,如”布”,”面粉”等) ( 1 ) 施事经验者,关系主体事件关系( 由在事件前标注+ 体现,如”医生”,”雇主” 等) ( i ) 受事内容领属物等一事件关系( 由在事件前标注$ 体现,如”患者”,”雇员”等) ( j ) 工具一事件关系( 由在事件前标注+ 体现,如”手表”,”计算机”等) ( k ) 场所一事件关系( 由在事件前标注 体现,如”银行”,”医院”等) ( 1 ) 时间- 事件关系( 由在事件前标注 体现,如”假日”,”孕期”等) 第2 章中文文本分类相关技术及资源 ! ! ! ! ! ! ! ! ! ! 目! 曼! 詈! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! 目暑鼍i i i ll e ! 置,! 阜! ! ! 曼 佃) 值属性关系( 直接标注无须借助标识符,如”蓝”,”慢”等) ( n ) 实体值关系( 直接标注无须借助标识符,如”矮子”,”傻瓜”等) ( o ) 事件一角色关系( 由加角色名体现,如”购物”,”盗墓”等) ( p ) 相关关系( 由在相关概念前标注撑体现,如”谷物”,”煤田”等) 概念之间的这些关系,为以后计算概念之间的联系提供了依据。 2 2 4 知网中关键词到概念的映射关系 知网不是一部义类词典,而是一部知识词典,它的记录样式可以表示如下 wx = 词语 ex j 词语例子 gx = 词语词性 d e f = 概念定义 知网中举了例子,主要是一些具有多个义项的例子。这些例子的要求是:强调例子 的区别能力而不是它们的释义能力。它们的用途在于为消除歧义提供可靠的帮助。这里 试以”打“的两个义项为例,一个义项是“b u y l 买”,另一个是”w e a , v e i 辫编”。 n o = 0 0 0 0 01 wc = 打 g c = v ec = 酱油,张票,饭,去瓶酒,醋来了 d e f = b u yj 买 n o = 0 1 5 4 9 2 wc = 打 g c 2 v ec 一毛衣,毛裤,双毛袜子,草鞋,一条围巾,麻绳,条辫子 d e f = w e a v e 辫编 河北大学工学硕士学位论文 设我们要判定的歧义语境是”我女儿给我打的那副手套哪去了”。通过对“手套“与“ 酱油唼# 的语义距离的计算以及跟”毛衣”等的语义距离的计算的比较,将会得到一个正 确的歧义判定结果。这种方法的好处有二:第一,多数的判定可以避免采用规则;第 二,多数的情况基本的算法可以是不依赖特定语言的。 第3 章基于概念的文本表示方法 iiiiii 第3 章基于概念的文本表示方法 信息检索的概念被提出后,出现了许多基于文档和查询之间的文本计算模型,具有 代表性的有布尔模型f ”7 ( b o o l e a n m o d e l ) ,向量空间模型“7 1 ( v e c t o rs p a c em o d e l ,简称 v s m ) ,概率模型u s ( p r o b a b i l i s t i cm o d e l ) 等。这些模型从不同的角度出发,使用不同的 方法处理特征加权、类别学习和相似计算等问题。上述几种模型中,向量空间模型是最 简便有效的文本表示模型之一。 而在传统的向量空间模型中都是以文章中出现的关键词直接作为向量中的一项,而 在我们的文本分类系统中则是采用概念作为特征,并且本文改进了v s m 模型中常用的 权重计算算法:t f i d f 算法,提出了新的权重计算方法。 在本章的最后一节,比较了几种常见的特征子集的选择方法。 3 1 向量空间模型( v s m ) 向量空间模型是s a l t o n 等人于6 0 年代末首先提出的,并在著名的s m a r t ( s y s t e m f o r 吐l em a n i p u l a t i o na n dr e t r i e v a lo f t e x t ) 系统得到成功的应用从此以后,该模型及其 相关技术,包括项的选择、加权策略,以及采用相关反馈进行优化查询等在文本分类、 自动索引、信息检索等许多领域得到广泛的应用。特别是随着网上信息的迅速膨胀,还 被广泛的应用到搜索引擎、个人信息代理、网上新闻发布等信息检索领域,并且取得了 较好的效果。 在该模型中,只考虑词的出现频率,不考虑文档中词出现的先后次序关系,并且, 词之间要求是互异的,这样文档空间被看作是由一组正交词条向量所组成的向量空间, 每个文档表示为其中个范化的特征向量,表示如下: 矿( d ) = ( t :,。( d ) ,- r - ;f ,( d ) ,;,w 。( d ) ) ( 3 一1 ) 其中r 为词条项,w ( d ) 为在d 中的权值。可以将d 中出现的所有单词作为,也 可以要求t 是d 中出现的所有短语,从而提高内容特征表示的准确性。( d ) 一般被定 河北大学工学硕士学位论文 义为f 。在d 中出现频率坑( d ) 的函数,即:w f ) = 妒( 织( d ) ) 。不同的函数适用于不同的 算法。常用的g o 有: 布尔戤p = 器暑三:;( 3 - 2 ) 平方根函数:c , o = 彰( d ;( 3 - 3 ) 对数函数:妒= l o g ( 坑( d ) + 1 ) ;( 3 - 4 ) 卵,d f 函数:妒;绣( d ) 。l 。g ( 坐) ,其中,n 为所有文档的数目,_ 为含有词条的 文档数目。 向量空间模型( v s m l 在实践中取得了很好的效果,然而随着相关领域知识的发展, v s m 模型也在不断改进中。本文在采用v s m 模型进行分类时,用“概念”代替“关键词” 作为特征,并且改进了权重计算方法取得了较好的效果。 3 2 以概念作为特征 v s m 模型是以关键词作为特征,将每个词条作为特征空间坐标系的一维,将文本 看作是特征空间中的个向量,用向量间的距离来衡量文本之间的相似度。在实际应用 中得到了不错的分类效果。 然而人们在表达相同的概念时,使用的词汇往往具有很大的不同,如个人的喜好、 习惯的不同,有人愿意用“电脑”一词,而其他人喜欢用“计算机”一词;也可能因文章修 辞的缘故,用词要求比较简洁,经常出现同义词替换的情况,以避免单调重复;或者词 汇表达的概念层次有所不同。因此,仅仅依靠特征词的重复而产生的频率信息是完全不 够的。虽然选用的词汇可能不同,但表达的概念却是致的。如果将特征项映射至概念 级,无疑将有助于加强特征的提取效果,提高分类的正确性【io 。 3 2 1 以概念作为特征的好处 1 ) 将关键词空间映射到概念空间会大大降低分类空间的维数。从而节省了分类器的 第3 章基于概念的文本表示方法 训练时间,也节省了分类期间用于相似度比较的时间。因此基于概念的文本分类,在时 间效率上要优于基于关键词的分类。 2 ) 将具有同义关系的关键词映射到一个概念,可以避免一个重要的分类特征因为采 用关键词的分散而削弱其分类的权重。 3 ) 将一个多义关键词映射到多个概念,可以避免只采用关键词作为特征所产生的特 征歧义,即虽然都是采用同一个关键词,但所代表的意义完全不同。从而提高分类的准 确性。 4 ) 基于关键词的文本分类算法都是在假设关键词之间是相互独立的。而关键词 之间不但存在同义、多义关系,还存在相关关系,相斥关系。将关键词映射到概念空间 可以从一定程度上消除这种相关性。 3 2 2 专有名词的处理 专有名词比如人名、机构名在文本分类中有着很重要的作用。往往只根据几个熟悉 的入名就能猜出某一文档的类别。有效的利用这些信息,能够提高文本分类的效果。 据统计观察发现,人名、机构名,这些专有名词也具有“一词多义”与“多词一义”的 现象。比如在篮球领域会经常出现湖人、姚明、奥尼尔、哈里斯、n b a 、c b a 等。可 以认为这些词之间存在“同义关系”。而同一个名字也可能由于其身份的不同也会出现在 领域中,比如海尔、爱立信、联想、柳传志、中关村等等,既可能出现在信息产业领域 中,也可能出现在财经、投资等领域。可以认为这些词存在“多义关系”。 3 2 。3 专有名词词典的建立 通过对大量语料库的统计,用统计的方法建立了专有名词语义词典1 2 3 】,建立的过程 可以简单描述如下: 1 ) 专有名词的切分 首先对语料库进行切分处理,并通过人名识别、机构名识别技术将人名、机构名标 记出来。 2 ) 选取出现频率大于一定值的专有名词进行处理 河北大学工学硕士学位论文 对出现的所有的人名、机构名进行出现次数统计。选取频率大于一定阈值的人名、 机构名加以处理。 3 ) 利用统计的方法,统计与专有名词共现的词的义原分布,采用类似于k 近邻 ( k n n ) 的方法,由出现次数最多的义原决定该专有名词的概念领域。 建立好的词典的结构如下: 表3 - i 专有名词词典示例 3 2 4 概念映射 关键词空间到概念空间是一个多对多的关系。一个关键词可能在不同的场合具有不 同的含义,代表不同的概念。而不同的关键词也可能在表达不同的含义,是同义词的关 系。因此将关键词映射到概念空间时,必须进行消歧处理。进行概念消歧需要借助一个 知识系统。同义词词林和“知网”是两个利用的比较多的知识系统。在我们实现的文 本分了系统中,采用了“知网”系统。知网的知识结构如下: 分析知网的知识结构发现,知网能从以下几个方面对概念消歧起到帮助。 1 ) 直接利用知网提供的关键词一概念映射词典。 比如对于同义词情况,我们分别查询了“计算机”,“电脑“微机”三个词汇得到的结 果是这样的: 查计算机时: n o = 0 4 1 5 1 5 wc 一计算机 g c = n ec = g e = n d e f = c o m p u t e r i 电脑 第3 章基于概念的文本表示方法 查询“电脑”时: n 0 = 0 2 1 9 0 2 wc = 电脑 g c = n e c 2 吣p c o m p u t e r g e 寸j d e f = c o m p u t e r 电脑 查询“微机”时 n o = 0 8 6 9 1 2 wc = 微机 g c = n e c = w _ e 2 c o m p u t e r g e = n d e f = c o m p u t e r r 脑 这样,如果一篇文章里面分别出现了“计算机”,“电脑”,“微机”等关键词,那么我 们很容易将这三个关键词映射到“c o m p u t e r l 电脑”这个概念中去。 2 ) 利用知网的实例搭配库,进行概念消歧。 比如,对于一词多义的情况,可由搭配关系得到对应的概念。 举例:如果想知道“病毒”这一词汇对应的概念,可以从知网中查到以下结果: n 0 = 0 0 6 6 7 7 wc = 病毒 g c :n ec 感染,性感冒,感染了,性肝炎,不是细菌性的是引起的 d e f = b a c t e r i a j 微生物 n o = 0 0 6 6 7 9 洞北大学工学硕士学位论文 ! i i ,i i s ! ! ! ! ! ! ! e w c 2 病毒 g c 2 n ec = 计算机,杀的软件,杀的程序,黑色星期五,文件都被破坏了,我机器 感染上 d e f = s o f t w a r e 软件,+ d a m a g e i 损害,# s o f t w a r e l 软件 根据词汇的搭配关系项e _ c 很容易判断出,文章中出现的关键词“病毒”到底是对 应概念“微生物”还是概念“软件”。 3 ) 由知网提供的概念之间的关系,进行概念消歧。 在处理词多义的情况时,按照2 ) 提供的方法消歧时,必须是能在实例库中找到 相似的实例。如果找不到相应的实例搭配,则按照“观其伴知其义”的思想进行概念消歧。 由前面介绍的,在知网中概念之间存在着1 6 种关系。与任何个概念相关的概念 都可以从知网的语义库中查到。 比如,“病毒”这个词分别出现在以下两个句子中: 我的计算机染上病毒了。 很多感冒都是由病毒引起的。 “计算机”对应的概念为“电脑”,与此概念相关的概念为: c o m p u t e r l 电脑 + c a l c u l a t e i 计算,# i n f o r m a t i o n 信息,# s o t t w a r e l 软件 ( 其中:+ 代表工具一事件关系,# 代表相关关系) “感冒”对应的概念为“d i s e a s e i 疾病”,与此概念相关的概念为: d i s e a s e | 疾病 m e d i c a l l 医,$ c u r e f 医治,# m e d i c i n e j 药物,u n d e s i r e dj 莠,- # d i ej 死,- # b a c t e r i a 微生物】( 注:l ”符号代表的多半的,有可能的。) 而病毒有两个概念,分别是:“b a c t e r i a i 微生物”,和“s o f t w a r e t 软件”。 由于概念“c o m p m e r 电脑”与“s o f t w a r e l 软件”存在关系所以第一句中将“病毒”映射到 概念“s o f t w a r e ”。而“d i s e a s e i 疾病”与“b a c t e r i a l 微生物”相关,第二句中,将“病毒”映射到 概念“b a c t e r i a 微生物”。 通过上面的分析,概念映射算法可以描述如下: ( 】) 如果该词在知网中出现,则执行( 2 ) ,否则跳到( 穆。 ( 2 ) 对于知网中出现的词,首先,根据词性判断在该词性下该词对应的概念的个数, 第3 章基于概念的文本表示方法 如果只对应一个概念,那么消歧结束。否则转向( 3 ) f 3 ) 如果该词对应多个概念,那么由该词的各个义项与周围的词的概念的相关程度 决定该词的概念。 f 4 ) 查询前面所建立的专有名词词典,如果有,则找出相关的义项,否则跳到( 5 ) 执 行。 ( 5 ) 对于未登录词,选取与其周围词的最相关的概念作为该词的概念。 3 3 特征权重的计算 在向量空间模型中不同的权重计算方法,适用于不同的分类方法。以词频直接作 为权重的方法适合朴素贝叶斯算法【2 4 1 。而t f i d f 在k 近邻( k n n ) 和支持向量机( s v m ) 算法中能取得比较好的效果。 本文重点分析了t f i d f 方法。t f i d f 方法相当于,在利用词频t f 作为特征的基 础上,乘以一个系数i d f ,而这个系数反映了该特征的分类能力。 t f i d f 函数:妒:斫( d ) 。l 。g ( 翌) ( 3 - 5 ) 珂。 n 为所有文档的数目,一为含有特征t 的文档数目。 其中的i d f :i 。g 肖函数本质上是试图找出这样的特征:这些特征集中出现在某几 n 5 类文档中,而在大部分文章中没有出现。诚然,i d f 值高的特征具有较好的分类效果, 然而一些i d f 值低的特征也具有好的分类效果。比如:“电脑”,“球队”这两个特征分布 情况为: 表3 - 2 特征分布举例 ;= 一一一特霍娄型 娱乐医学 i t 军事 体育 电脑 211 02 0 球队0 000 4 用i d f 计算时,结果分别为 一 河北大学工学硕士学位论文 电脑:i d f l o g ( 丢) 2 0 0 9 7 , 球队:i d f = 1 0 9 ( 争。0 6 9 7 。用i d f 函数计算后认为“电脑,这一特征没有什么分类 效果,原因是它在每类别中都出现了。 但是“电脑”这个特征是具有分类作用的,因为它在各个类别中的分布是不同的。比 如在i t 这一类别中出现的概率明显大于其他类别。 针对i d f 的不足,我们提出了以下函数来代替i d f 。 和。 俨砉喜( 掣一鲁 2 ( 3 - 6 ) 其中,m 表示文档个数。墨= 斫( 哆) 表示第f 个特征在所有的文档中出现的频率 印意义为:将一个特征t 在所有的文档中出现的频率都进行标准化,然后对标准化 后的结果求其方差。吁反映了特征项在不同的文本中分布的不均匀情况,分布不均匀性 惩局的特,仕具有史商的分类效果。为了计算方便,在不影响结果的前提下对刀,进行了简 化: 弘击蓦( 掣一甜 = 熹善f 降卜豪+ = 嘉陲睁卜矛2 s + 至j = i 刳 由于7 7 只用于比较大小,而上式中只有一是变元,其它全为常量。将卵,简化得到 新的系数函数7 = 姜( 掣) 2 。节的意义为:对于一个特征项,将其在各类文本中出现 的频率数进行标准化,然后求和即可。 用玎计算上面两个特征,得到的结娶分剐蜘 第3 章基于概念的文本表示方法 电脑:叩= ( 素 2 + 去 2 + ( 警) 2 + ( 去 2 = 。4 , 眠叩甜2 用这种方法计算,“电脑”这一具有分类效果的特征的权重提高了。 本文通过实验验证了t f * r 算法的有效性。实验采用k n n 分类算法,语料库为5 2 节提到的语料库。用召回率,准确率宏平均f 1 值来衡量。 表3 3 t f i d f 与t f + r 结果对比 实验数据表明t f 4 ,7 具有比t f i d f 更优越的性能。 3 4 特征子集的选取 以概念作为特征相对于以关键词作为特征,大大降低了特征空间的维数。但是初 始的概念空间依然是一个高维的向量空间,可以达到上千维。如此高维的特征对将进行 的分类机器学习未必全是重要的、有益的,而且高维特征可能会大大增加机器的学习时 间而仅产生与小得多的特征子集相关的学习分类结果,因此在对文档进行机器学习时的 特征子集的选取显得异常重要捌。 由于文档特征集的高维特性,很多基于机器学习的特征子集的选取算法变得不再实 用。现在通常采用的方法是构造一个评价函数,对特征集中的每个特征进行独立的评估, 然后根据评估得到的评估分进行排序,选择预定数目的最佳特征的作为特征子集。常用 的评估函数如:互信息、z 2 统计量方法、信息增益、期望交叉熵、词频等【2 3 。本文对 这些方法进行了分析,总结了其优缺点。 河北大学工学硕士学位论文 3 4 1 互信息法 互信息可以度量特征项和类别的共现关系,特征项对于类别的互信息越大,它们之 间的共现概率也越大。假设文档集合c 分为k 类,记为c l ,c 2 ,q , 特征项w 对于文档类别g 的互信息m 【( w ,c ) 的计算公式如下: 毗驴】0 9 髻鬻 ( 3 _ 8 ) 其中,p ( w ,e ) ,为特征项w 出现在类c 中的概率,p ( w ,c ) 为特征项w 在所有文 档中的出现频率。 下面给出基于互信息的特征降维算法步骤: 1 ) 如果特征项w 不是停用词,对于每一个文档类c ,l s f s k ,计算w 对于 c j 的互信息m i ( w ,c f ) m i c w 乩g 器器 其中f r e q ( w ,c ) 是w 在文档类别c f 中出现的次数,f r e q ( w ,c ) 是w 在整个文档 集c 中出现的次数。 2 ) 特征项w 的对于文档集合c 的互信息m i ( w ,e ) = m i ( w ,q ) ,其中g 是特征项w 的互信息最大类别。 七= 唆( 黑嚣) ( 3 1 0 ) 3 ) 给定闽值口,选择m i ( w ,c ) 口的特征项组成特征空间。 3 4 ,2z 2 统计量方法 z 2 统计量用于度量特征项w 和类别c 之问的独立性。w 表示除w 以外的其它特征 第3 章基于概念的文本表示方法 项,百表示除c 以外的其它类别,那么特征项w 和类别c 的关系有以下四种情况:( w ,c ) , ( w ,c ) ,( w ,c ) ,( w ,c ) ,用a ,b ,c ,d 表示这四种情况的文档频次,总的文档数 n = a + b + c + d ,z 2 统计量的计算公式如下 z 2 ( w ,c ) = 酉石币n 历。( a 河d - i b c ) 丽2 西面 3 1 1 ) 当特征项w 和类别c 之间完全独立的时候,z 2 统计量为0 ,z 2 统计量和互 信息的差别在于它是归一化的统计量,但是它对低频特征项的区分效果也不好。 3 4 3 信息增益i g 信息增益常被应用于机器学习领域中,它通过文本特征在文本中出现与不出现的情 况来推算该特征的信息量。定义为某一特征在文本中出现前后的信息熵之差,文本特征 t 对于类别c 的信息增益i g ( ,c ) 定义如下 2 0 】: i g ( ) = p ( 哮p ( t jf ) l o g l o gp ( c , 了) p ( c , , t ) 3 4 4 文本中特征的期望交叉熵 ( 3 - 1 2 ) c r 。s s e m r y t x t ( w ) = p ( ,) ip ( q r ) 1 。g i ;茜 ( 3 一1 3 ) 它与信息增益唯一的不同之处在于没有考虑概念未发生的情况,而这些不出现 的概念往往是噪声的来源。因此期望交叉熵比信息增益要优越一些。 闸北大学i 学硕士学位论文 3 4 5 词频 f r e q ( f ) = t f ( w ) ( 3 14 ) 词频函数一般不直接用来作为评价函数,来进行特征子集的选取,而是用来与 其它函数进行对比,作为其它的评价函数的性能底线。 第4 章文本分类方法 第4 章文本分类方法 在众多分类算法中,常用的方法有:支持向量机算法,r o e c h i o 算法,k 近邻法, 和朴素贝叶斯算法。其中k 近邻分类方法,具有算法简单、分类效果好的特点。而朴 素贝叶斯算法则具有很高的时间效率,但是在小样本训练集上分类效果不是很好。本文 比较了几种算法的特点并重点分析了朴素贝叶斯的不足之处,提出了改进的方法使之在 分类效果上接近k 近邻算法。 4 1 支持向量机 支持向量机方法( s u p p o nv e c t o rm a c h i n e s ,s v m ) 是由v v a p n i k 2 5 与其领导的贝尔 实验室的小组一起开发出来的一种机器学习技术。s v m 的理论基础来自于v a p n i k 等提 出的统计学习理论,它的基本思想是:对于一个给定的具有有限数量训练样本的学习任 务,如何对准确性( 对于给定训练集) 和机器容量( 机器可无错误地学习任意训练集的 能力) 两者进行折衷,以得到最佳的推广性能。它采用结构风险最小化( s t r u c t u r a l 砒s k m i r t i m i z a t i o n ) 原则。s v m 算法不仅具有扎实的理论基础,而且在应用到文本分类时取 得了很好的结果 2 6 1 。 设给定的训练集为 ( 上 ,咒) ,( 屯,均) ,( t ,只) ,x r “,y + 1 ,。1 且可被一个超平面线性分割,该超平面记为 ( w x ) + b = 0( 4 1 ) 如果一个训练集中的矢量能被一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论