(计算机应用技术专业论文)词聚类用于文本分类的方法研究.pdf_第1页
(计算机应用技术专业论文)词聚类用于文本分类的方法研究.pdf_第2页
(计算机应用技术专业论文)词聚类用于文本分类的方法研究.pdf_第3页
(计算机应用技术专业论文)词聚类用于文本分类的方法研究.pdf_第4页
(计算机应用技术专业论文)词聚类用于文本分类的方法研究.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研 究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得重麽由e 电太堂或其他教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡 屯 献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名 签字日期:二矽锄乡护日 学位论文版权使用授权书 本学位论文作者完全了解重麽邮电太堂有关保留、使用学位论文的规 定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查 阅和借阅。本人授权重麽邮电太堂可以将学位论文的全部或部分内容编入 有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 文。 ( 保密的学位论文在解密后适用本授权书) , 学位论文作者签名:健 签字日期:2 以步年5 月西日 i 导师签名= 缨冱争 签字日期:乡7 年上月孑日 重庆邮电大学硕士论文摘要 摘要 短文本分类问题是基于短文本应用领域的必须解决的具有挑战性的基础性关 键问题之一。由于短文本具有长度短、所描述概念信号弱的固有缺陷,短文本分 类的可行途径是利用外部资源中的可用信息来扩展短文本所描述的概念。 通过词聚类方法可以建立词语对之间的语义关系,进而用来扩展短文本所描 述的概念,因此它是用于改善文本分类、特别是短文本分类的有效手段之一。词 聚类用于短文本分类时存在两个必须解决的问题: ( 1 ) 在语料类别不平衡时,如何有效地在分类过程中利用词聚类技术? 这需要开 发一种考虑语料类别不平衡条件下的特征选择方法,从而使词聚类技术能够较好 的用于文本分类。 ( 2 ) 在短文本中,低频词语所占比例较大,在词聚类技术中所采用的常规相似度 计算方法无效。这需要研究一种适合于短文本分类的低频词语相似度计算方法。 对第一个问题,本文提出一种中文文本分类的两步特征选择方法,首先根据 词语的类间分布进行区分词的定义,选出区分度较大的词作为某一类别的核心特 征,然后用传统的特征选择方法从每个类别的核心特征中选出最佳特征子集,最 后将各个特征子集合并起来作为结果。该方法不仅重点选出类别区分能力较强的 特征,还尽可能保留传统特征选择方法选出的优秀特征,从而更好地捕获了分类 信息。实验结果证明该方法明显优于传统的特征选择方法。 对第二个问题,本文提出了一种低频词语相似度计算的方法。该方法利用语 义资源知网和基于h l t e n 坞t 的构造语料进行相似度计算:对那些能够在知网 中查到的词对,直接利用 知网进行相似度计算;否则,利用构造语料进行相 似度计算。实验结果表明,该方法在一定程度上解决了中文低频词语相似度计算 问题。 最后,论文对词聚类技术如何有效用于短文本分类这一问题进行了初步探讨, 并进行了相关实验。 关键词:低频词,词语相似度,短文本,特征选择,文本分类 a b s t r a c t s h o r t t e x tc i 勰s i f i c a t i o ni sab 舔i c 锄dc h a l l e n g i n gp r o b l e mw h i c hm u s tb es o i v c d i i lt l l ea p p l i c a t i o na r e ab 弱e do ns h o nt e x t b e c a u s es h 嘶t e x th a ss o m ec h a r a c t 嘶s t i c s : m el e n g t l lo ft e x ti ss h o n ,m ei n f 0 册a t i o nc o n t a i n e d j i ni ti sl i t t l e ,a i la v a i l a b l ew a yo f c l 硒s i 研n gs h o n - t e x t si s t 0 c x p 孤dc o n c 印t sd e s c 抽e di n s h o r t t e x tw i t hu s e f u l i n f 0 n n a t i o no fo m e rr e s o u r c e s w o r dc l u s t 耐n gc 孤b c 惦e dt ob u i l ds e m 锄t i cr c l a t i o n s l l i p sb e 似e e n 、粕r d s ,t h c n w e c 雏e x p 锄d t l l ec o n c e p to fs h o r tt e x t sw i 也m es c m 姐t i cr e l a t i o n s m pb e t w e 饥w o r d s n 鹏i ti s 矾e f f e c t i v ew a yo fi m p f o v i l 培t e x tc l 勰s i f i c a t i o ne s p c c i a l l ys h o r tt e x t c l 勰s i 6 c a t i o n t h e r ea r et w op r o b l e m s 、:l l i c hm u s tb e l v o dw l l i l ee x p l o i t i i l gw o r d c l 眦t 耐n gr e s u nt 0c l 弱s i f 3 rs h o n - t e 】【t : ( 1 ) h o w t 0e 黼d yu t i h z ew o r dc l l l s t c r i n gi l lt h cp r o c e s so fc l 弱s i f i c a t i o nw h 明m e t y p ei i lm ec o r p u si si m b a l 觚c e ? h lo r d c r t 0u t i l i z ew o r dc l 璐t e r i i 培i n 廿l ep r o c e s so ft e x t c l 弱s i f i c a t i o nw e l l ,af e a t u r es e l e c t i o nm e m o dc o n s i d e r i n gt y p ei m b a l a i l c ei nt l l ec 0 巾峭 s h o u l db ed e v e l o p e d ( 2 ) k 一尔卸l c i l c yw o r d s c o l l l l t 南ral 鹕ep r o p o n i o ni nc l l i n e s es h o r t t c x t n o 锄a l 妇n i l 撕t ) ,c o m p u t i n gm e t l l o d si i lw o r dc l l l s t 丽i 培i si n v a l i d as i l n i l 耐t ym e 廿1 0 do f c o m p “n gs i m i l a r i t yb e 附e l o w 一仔e q u c yw o r d sn e e dt ob er e s e a r c h e d i _ d rt h ef i 瑙tp r o b l 锄,a 伽o - s t 印f e a t l l r es e l e c t i o nm e t i l o do nc t l i n e s et c x t c l 嬲s i 丘c a t i o ni sp r o p o s e d f i r s t l y ,d i s t i n g l l i s l l i n g 、o r d sa r cd e f i n e da c c o r d i l l gt 0 缸 d i s 臼矗b u t i o ni nd i f l j ;r tc l 勰so ft e x t w o r d sw i t l ll l i g hd i s t i i l g u i s h i 】唱v a l u ea r e l e c t l e d 嬲t l l ec o r cf l e a t u r 嚣o fo r 坞c l 弱s s e c o n d l y as u b s e to fc o r cf c a t u r 鼯i ss e l e c t c df b m e a c hc l 弱s a t l 弱t ,a l ls u b s e t sa r cc o m b i n e d 舔l ef e a t u r cs e l e c t i o nr e s u l t t l l i sm e m o d n o t0 n l ys e l e c t sf e 栅e sw i ml l i g h e rc l 勰sd i s t i n g l l i s l l i n ga :b i l i t y ,b ma l s ok e 印sg o o d f c a t u r c ss e l e c t e db yt r a d i t i o n a lf e a t u f e s e l e c t i o nm e t h o d i tb e t t e rc a p t u r e st l l e c l a s s i f i c a t i o ni n f 0 n n a t i o n f o r 也es e c o i l dp r o b l e m ,an o v e lm e 也o do fc o m p u t i i l gl o w 一丘c q u e n c yw o r d si s p r o p o s e d t l l i sm e t l l o de x p l o i t sh o w n c ta n dc o n s n l l c t c dc o 叩u s ,讹c hi sc o m p o s c do f s i l i p p e t sr e t r i e v c d 丘i o mi i l t 锄e t ,t oc o m p u t es h i l 撕t y :i fa 、0 r dp a i rt l l a ti s 曲m o d i e d i i lh o w n e t ,h 刚m e ti su s e dt oc o m p u t es i m i l a r i t y ;o m e f w i s ec o n 蚰m t e d c o 巾璐i su s c d e x p 舐m e n t a l 他s u l t ss h o wm a tt l l ep r o p o s e dm c t t l o dc 觚r c s o l v em ep r o b l e mo f u c o m p u t i n gl o w f 把q u 锄c yw o r d st os o m ee x t e n t f i n a l l y t 1 1 i sp a p c rc o n d u c t e dap r c l i m i n a 巧e x p l o r a t i o no nh o wt 0e f f t i v e l y u t i l i z ew o r dc l u s t e r i n gi nt e x tc l 舔s i 丘c a t i o na i l ds o m er e l a t i o n a le x p e r i m e n tw e r cc a r r i e d o u t k e yw o r d s :l o w f 托q u e n c yw o r d ,w b r ds i m i l a r i t ms h o r tt e x t ,f e a t u r es e l e c t i o n , t e x tc l a s s i f i c a t i o n 4 l i i 重庆邮电大学硕士论文目录 目录 摘要i a b s t r a c t i i 第一章绪论l 1 1 论文选题背景。l 1 2 国内外研究现状:0 :k 2 1 3 论文主要工作4 1 4 论文组织结构6 第二章词语相似度计算和文本分类技术基础7 2 1 基于知网的词语相似度计算7 2 1 1 知网的知识描述语言7 2 1 2 相似度计算方法8 2 2 基于语料库的词语相似度计算1 0 2 2 1 词的特征表示1 0 2 2 2 特征权重l o 2 2 3 相似度计算方法1 1 2 3 文本分类1 2 2 3 1 文本分类的一般过程1 2 2 3 2 文本特征抽取1 3 2 3 3 文本特征选择1 4 2 3 4 文本分类器1 6 2 3 5 评估指标1 7 2 4 小结1 9 第三章中文文本分类的两步特征选择法2 0 3 1 引言2 0 3 2 向量空间模型2 0 3 3 两步特征选择2 1 3 3 1 类别区分词2 1 3 3 2 最优特征子集2 2 3 4 实验结果与分析。2 2 3 4 1 实验数据集”2 2 i v 重庆邮电大学硕士论文 目录 3 4 2 性能评价指标及实验参数”2 2 3 4 3 实验结果2 2 3 5 小结2 3 第四章中文低频词语相似度计算方法研究2 4 4 1 引言2 4 4 2 低频词语的组合相似度计算2 5 4 2 1 基于知网的相似度计算_ 2 5 4 2 2 基于构造语料的相似度计算2 5 4 2 3 组合相似度计算方法2 7 4 3 实验2 7 4 3 1 实验设计2 7 4 3 2 实验数据”2 9 4 3 3 相似度性能评估指标2 9 4 3 4 实验参数确定2 9 4 3 5 实验结果3 0 4 4 小结3 2 第五章基于词聚类的短文本分类初探“3 3 5 1 引言3 3 5 2 基于词聚类的特征扩展3 4 5 2 1 词语分布相似度计算“3 4 5 2 2 词聚类_ 3 4 5 2 3 特征扩展3 4 5 3 实验3 5 5 3 1 实验方法3 5 5 3 2 实验数据3 5 5 3 3 实验结果3 5 5 4 小结3 6 第六章总结及未来的工作3 7 6 1 总结3 7 6 2 未来的工作3 7 致谢3 9 v 重庆邮电大学硕士论文 目录 攻硕期间从事的科研工作及取得的研究成果。4 0 参考文献4 l 重庆邮电大学硕士论文 第一章绪论 1 1 论文选题背景 第一章绪论 随着i n t e m c t 的大规模普及和企业信息化程度的提高,文本信息迅速膨胀,人 们仿佛置身于信息的海洋之中。人们面对丰富的信息资源的同时,也面对着信息 灾难。一方面,人们希望获得越来越多的信息;另方面,在这信息的汪洋之中, 人们获取所需要的内容越来越困难。如何有效地组织和管理这些信息,并快速、 准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大 挑战。 作为处理和组织大量文本数据的一种关键技术,自动文本分类可以在较大程 度上解决信息杂乱现象的问题,方便用户准确地定位所需的信息和分流信息。因 此,自动文本分类已经成为一项具有较大实用价值的技术受到广泛的关注,并得 到了空前的发展和应用,例如垃圾邮件过滤、邮件自动分类、网页搜索、网页分 类、主题索引和大型学术会议的论文组织于管理等等。并且,自动文本分类技术 在数字图书馆、个性化推送、信息过滤等领域也具有极高的研究价值和广阔的应 用前景。 自动文本分类( 简称文本分类) 是将自然文本文件根据内容自动分为预先定义 的一个或者几个类别的过程。它是一种有指导的学习,根据一个已经被标注的训 练文档集合,找到文档特征和文档类别之间的关系模型,然后利用这种学习到的 关系模型对未被标注的文档进行类别判断。 在文本分类中,一般来说,在把文本表示为向量形式时,训练文本集中的特 征项可能多达数万个。通常认为,这些特征中的任何一个都对实现正确的分类有 着它的贡献。过大的特征空间会导致样本统计特性的评估变得更加困难,从而降 低分类的泛化能力,出现“过学习”的现象。而且这种高维向量的处理具有极高的计 算复杂度,尤其是会产生所谓的“维数灾难”问题,因此,如何保留那些对分类起着 重要贡献的特征,已成为一个日益重要的研究领域。 网络上的文本信息中有很大一部分是长度很短的文本数据,各种形式的短文 本,如移动通信网络发出的手机短消息、即时通讯软件发出的即时消息、在线聊 天室的聊天记录、b b s 标题、博客评论、新闻评论等,已经成为我国各阶层普遍 接受的信息沟通渠道和情感交流手段,深刻改变了亿万中国人的沟通方式和生活 习惯。截止到2 0 0 7 年9 月,我国移动电话用户达5 2 3 3 1 5 万户,2 0 0 7 年l 至9 月 重庆邮电大学硕士论文 第一章绪论 我国大陆地区移动短信业务量4 3 1 1 6 亿条。腾讯q q 注册用户超过4 3 亿,活跃用 户超过2 9 亿,m s n 活跃用户1 8 0 0 万,博客1 9 8 0 万,注册新闻站点7 0 0 多个。因 此短文本信息的分类、过滤、摘要就成为信息技术领域的热门问题。 短文本数据量异常庞大,数据中包含人们对社会各种现象的种种观点和立场, 话题涉及政治、经济、军事、娱乐、生活等各个领域,因此短文本语言计算在话 题跟踪与发现、流行语分析、舆情预警等领域有广泛的应用前景。 短文本分类问题是基于短文本应用领域的必须解决的具有挑战性的基础性关 键问题之一。迄今为止,国内外对文本分类进行了多年的研究,但在短文本分类 领域,只有国外进行了少量的工作【卜4 】,且其效果并不理想。h e n l y 将基于范例推 理的方法用于短文本分类【l 】。他的评估表明:和长文本分类相比,短文本分类要求 不同的特征,甚至不同的分类器来获得最好的性能。因此,用于短文本分类的分 类系统需要在这些方面进行一些层级配置。z e l 舢v i t z 在短文本分类中使用了潜在 语义索引( l a t e n ts 锄a n t i ch l d e x i n g ,l s m 】。l s i 是通过奇异值分解来创建简化向 量空间的无指导学习器。z e l i k o v 砣在创建简化向量空间时将训练数据和未标记的 测试样本进行组合。她得出结论:扩展的特征空间中包含了对短文本分类有帮助 的语义关联。z e l i k o v 池也使用了在某些方面和训练数据相关的未标记的背景信息 来辅助分类1 4 】。例如,当分类科学论文的标题时,未标记的背景信息可以是训练集 中论文的摘要。 通过对短文本分类研究现状的分析和归纳,可以得到如下认识:单条短文本 一般长度都非常短,样本特征非常稀疏,很难准确地抽取有效的语言特征;短文 本实时性特别强,数量异常庞大,对短文本语言计算提出了比常规文本语言计算 更高的效率要求;此外短文本表达简洁,错误拼写,不规范用语和噪音比较多, 给短文本的处理带来很大困难。短文本这些独特的语言特征导致现有的文本分类 方法不适用于短文本分类。 1 2 国内外研究现状 在自然语言处理的研究中,词聚类算法是被广泛研究的课题。由一些语义相 近的词组成的词类( 或词聚簇) 可以看成是纷繁的个别词现象到语言的一般概念的 映射,而这些概念是更加本质的,更具有一般性和稳定性。词聚类对语音识别、 智能检索等许多自然语言处理领域均有实用价值。因此,国内外不少学者都有不 同方面、不同层次的研究。目前,词分类的研究按照分类手段的不同,主要分为 人工分类和机器分类( 聚类) 两种,即人工进行词分类和机器自动聚类。 2 重庆邮电大学硕士论文第一章绪论 人工进行词分类就是指语言学家手工地构造出分类词典,给出每个词的同义 词或近义词。如国外的w b r d n e t 【1 2 1 、f r 锄c n e t 【13 1 ,m i n d i l e t 【1 4 1 。国内的h o 计寸“15 1 、 同义词词林【1 6 】等。这种方法构造出的词典是在语言学家深厚的语言学功底基 础上经过分析构造出来的。但是分类的过程完全手工化,语义分类难以全面、同 时分类又难免有交叉,分类的标准不易统一等因素,导致和实际的工程应用有一 定差距。 机器自动分类的方法主要包括两方面:0 、 一是采用了各种机器学习方法。如:基于概率模型的分类与聚类,主要利用 信息论中有关概率模型,如互信息、交叉熵、极大似然估计等方法对词进行相似 度计算,进行分级聚类。b r o w n ( 1 9 9 0 ) 提出一种经典词聚类算法,将给定的观测语 料的似然函数转化为词类间互信息与一元单词分布熵的和,依据每次合并时都要 追求似然函数大的原则,将词聚成不同的类别。b r o w n f 5 l 的方法属于层次聚类中的 归并( b o 铷m u p ) 类型,而且是一种硬聚类,其算法复杂度较高。蒋宏飞等人通过类 相似度的顺序排队降低其算法的复杂度,并将词性标注的信息应用于b r o w r i l 方法 中,在大规模词集合上取得了较好的效果。另外一种途径是基于e m 算法的词聚 类算法1 6 j ,初始假设每一类别都服从某一参数未知的分布,每个词的概率都由多个 类别分布加权生成,进而可以获得当前观测集的似然函数。尽管通过计算当前似 然函数的最大值来求得参数是不可解的,然而通过e m 算法迭代求得似然函数期 望最大值,即求得参数的近似值。通过参数即可获得每个词在每类中的概率,选 取概率最大的为当前词的类别标记。由于此方法每个词在各个类别中都能够获得 一个概率,因此这种方法属于软聚类 二是采用基于词相似度的聚类方法,首先计算词语间的相似度,然后再选用 数据挖掘中的聚类技术,将词集合进行聚类输出。王宁【7 】以现代汉语辞典中的 搭配实例对为原始数据,根据词之间的组合搭配关系计算词间的距离,对汉语中 名词和形容词的聚类进行了大量的实验和研究。参考文献 8 】中考虑了词上下文中 特征的空间位置信息,将词的特征向量分为词前向量和词后向量,两个词之间的 相似度转化为词前、后两个向量相似度的加权和。李涓子【l i 】利用词在语料库中的 分布信息,将具有相似分布的词通过聚类组合成一个类来构造词义空间,并运用 到词义排歧中。胡和平【1 7 】以词的上下文分布相似度作距离量度,提出词的临近空 间概念,并根据词的临近空间概念进行聚类,使得在不用指定类的数目与大小的 情况下,依靠词的内在语义进行聚类。 国内外对词语相似度计算的研究策略大体可分为两类: ( 1 ) 根据某种世界知识( 如o n t o l o g y ) 来计算。它利用语义词典,依据概念之间 的上下位关系和同义关系,通过计算两个概念在树状概念层次体系中的距离来得 3 重庆邮电大学硕士论文第一章绪论 到词语间的相似度。 r r a d a 和j h l e e 等人通过计算在w b r d n c t 中词节点之间上下位关系构成的 最短路径来计算英文词语之间的相似度的1 1 9 2 0 】。er e s m k 根据两个词的公共祖先 节点的最大信息量来衡量两个英文词语的语义相似度【2 苟恩东【2 4 】等人提出一种 基于w b r d n c t 的计算英文词语相似度的实现方法。在汉语词语相似度计算研究方 面,王斌采用树形图中节点之间路径的方法【2 2 j ,利用同义词词林来计算汉语 词语之间的相似度。刘群等人提出一种基于知网的词汇语义相似度计算方法【2 5 】。 李素建等人提出了一种综合利用了知网和同义词词林来计算汉语词语语 义相似度的方法【2 3 1 。 ( 2 ) 利用大规模的语料库进行统计。它把词语相似度的研究建立在可观察的语 言事实上,将词语的上下文信息作为语义相似度计算的参照依据。 l l i l l i 强利用相关熵,p b r o w n 等人采用平均互信息来计算词语之间的相似 度【2 7 1 。d a g 锄等人使用了更为复杂的概率模型来计算词语的距离【2 引。胡俊峰等 人利用上下文的词汇向量空间模型来近似地描述词汇的语义,再在此基础上定义 词汇的相似关系【2 9 1 。章志凌等人基于统计的方法提出一种优化的c o r p u s 库【1 8 1 ,其 目的是把在大规模语料库中统计得来的丰富信息进行筛选并存储,作为以后词和 词之间相似度量化的信息基础。 同时,针对于词的上下文的不同定义也有较多的研究。词的上下文定义有两 种: 一种是基于窗口的;一种是基于语义的。基于窗口的仅仅考虑词周围某一指 定数目的词,并不考虑语言学中的词性或者语义。基于语义的考虑了词上下文中 丰富的语义信息,首先利用词性标注将词进行分类,再通过语法分析器,找到词 上下文中直接关联的词作为词的特征。基于语义的方法利用了丰富的语义信息, 因此其效果要好于简单的基于窗口的方法。但目前中文语法分析器的性能并不能 够达到实用水平,因此这方面的研究在中文方面比较少用【9 1 1 1 。 1 3 论文主要工作 由于短文本具有长度短、所描述概念信号弱的固有缺陷,适用于长文本分类 的分类方法应用于短文本分类时效果不好。短文本分类的可行途径是利用外部资 源中的可用信息来扩展短文本所描述的概念。 通过词聚类方法可以建立词语对之间的语义关系,进而用来扩展短文本所描 述的概念,因此它是用于改善文本分类、特别是短文本分类的有效手段之一。在 4 重庆邮电大学硕士论文 第一章绪论 图1 1 中给出了文本分类的一般过程和文本主要工作,首先通过词聚类的方法对训 练集中的词语进行聚类,进而建立词语对之间的语义关系,在此基础上对测试文 本进行特征扩展,然后进行分类。 词聚类用于短文本分类时存在两个必须解决的问题: ( 1 ) 在语料类别不平衡时,如何有效地在分类过程中利用词聚类技术? 这需要 开发一种考虑语料类别不平衡条件下的特征选择方法,从而使词聚类技术能够较 好的用于文本分类。 i 一 ( 2 ) 在短文本中,低频词语所占比例较大,在词聚类技术中所采用的常规相似 度计算方法无效。这需要研究一种适合于短文本分类的低频词语相似度计算方法。 幽i 1 文本分类一股过程及本文主要工作 本文针对词聚类用于文本分类时必须解决的两个问题进行了研究,主要工作 如下: ( 1 ) 分析了在语料类别不平衡条件下传统特征选择方法的不足,提出一种中文 文本分类的两步特征选择方法,首先根据词语的类间分布进行类别区分词的定义, 选出区分度较大的词作为某一类别的核心特征,然后用传统的特征选择方法从每 个类别的核心特征中选出最佳特征子集,最后将各个特征子集合并起来作为特征 选择结果。该方法不仅充分考虑了特征的类别区分度信息,还尽量保留了传统特 征选择方法选择出的优秀特征。实验证明,两步特征选择方法较传统的特征选择 方法有明显改善,所选出的特征更具类别区分能力。 ( 2 ) 针对常规的词语相似度计算方法无法有效计算低频词语相似度这一问题, 提出了一种融合知网和构造语料计算低频词语相似度的方法。该方法利用语义资 源 知网和基于i n t e n 圮t 的构造语料进行相似度计算,对那些能够在知网中 5 重庆邮电大学硕士论文第一章绪论 查到的词对,直接利用知网进行相似度计算;否则,利用构造语料进行相似 度计算。实验证明,该方法在一定程度上解决了中文低频词语相似度计算问题。 ( 3 ) 对词聚类技术如何有效用于短文本分类这问题进行了初步探讨,并进行 了相关实验。 1 4 论文组织结构: - 本论文组织结构如下: 第一章介绍了以及本文的选题背景、国内外研究现状及主要工作。 第二章介绍了基于知网的词语相似度计算、基于语料库的词语相似度计算及 文本分类相关技术。 第三章分析了传统特征选择方法的不足,提出了一种中文文本分类的两步特 征选择法,并通过实验验证了该方法优于传统的特征选择方法。 第四章分析了常规的词语相似度计算方法对于低频词语相似度计算存在的问 题,提出了一种低频词语的相似度计算方法,并通过实验验证了该方法对低频词 语相似度计算的有效性。 第五章对词聚类技术如何有效用于短文本分类这一问题进行了初步探讨,并 进行了相关实验。 第六章对本文进行了总结,提出下一步的研究计划。 6 重庆邮电大学硕士论文第二章词语相似度计算与文本分类技术基础 第二章词语相似度计算和文本分类技术基础 2 1 基于知网的词语相似度计算 2 1 1 知网的知识描述语言 k 、 龟、 知网对概念的描述是比较复杂的。在知网中,每一个概念用一个记 录来表示,如下所示: n o = 0 1 7 1 4 4 飞娜 g s 划 ec = 一网球,牌,秋千,太极,球得很棒 。、n 里= p l a y g j 削 陟 d e p 锁e r c i s e i 锻练,s p o n i 体育 其中n o 为概念编号,wc ,gc ,ec 分别是汉语的词语、词性和例子, w j 、g j 、e 分别是英语的词语、词性和例子,d e f 是知网对于该概念的定 义,我们称之为一个语义表达式。其中d e f 是知网的核心。我们这里所说的知识 描述语言也就是d e f 的描述语言 在知网的文档中,对知识描述语言做了详尽的介绍。不过,由于该文档 过于偏重细节,不易从总体上把握。本节中我们试图对于这种知识描述语言给出 一个简单的概括。 我们看几个例子: 表2 1 知网知识描述语言实例 打 0 1 7 1 4 4 e x e r c i s e i 锻练,s p o n i 体育 男人 0 5 9 3 4 9 h u 础m 1 人,缸l l i l y i 家,h 扭l e i 男 高兴 0 2 9 5 4 2 a v a l u e 属性值,c i r c u i i l s t a n c e s i 境况,h a p p y i 福,d e s i r c d l 良 生日0 7 2 2 8 0 t i n l e i 时间,d a y 旧, c o m c t 0 w b d d 问世,$ c o n g r a t u l a t c i 祝贺 写信 0 8 9 8 3 4 w r i t e i 写,c o n t e r n p r o ( h l c 卢l e n c r | 信件 北京 0 0 3 8 1 5 p l a c e i 地方,c a p i t a l l 国都,p r o p c r n 锄e l 专,( c h i m l 中国) 爱好者 0 0 0 3 6 3 h u r n 孤1 人,f 0 n d o f l 喜欢,撑w l l i l e a w a y i 消闲 必须 0 0 4 9 3 2 m d d a l i t y i 语气 串 0 1 5 2 0 4 n o 蚰u n i t l 名量,& ( 黟a p e l 葡萄) ,( k e y i 钥匙) 从良 0 1 6 2 5 l c e 弱e i 停做,c o n t e n 忙q r o s t i n j t i o n i 卖淫) 7 重庆邮电大学硕士论文第二章词语相似度计算与文本分类技术基础 从这些例子可以看到,知网的知识描述语言是比较复杂的。可以将这种知 识描述语言归纳为以下几条: 知网收入的词语主要归为两类,一类是实词,一类是虚词; 虚词的描述比较简单,用“ 句法义原) ”或“ 关系义原) 进行描述; 实词的描述比较复杂,由一系列用逗号隔开的“语义描述式 组成,这些“语 义描述式”又有以下三种形式: 独立义原描述式:用“基本义原,或者“( 具体词) ”进行描述; 关系义原描述式:用“关系义原= 基本义原”或者“关系义原= ( 具体词) 或者 “( 关系义原= 具体词) 来描述; 符号义原描述式:用“关系符号基本义原 或者“关系符号( 具体词) 加以 描述; 在实词的描述中,第一个描述式总是一个基本义原,这也是对该实词最重要 的一个描述式,这个基本义原描述了该实词的最基本的语义特征。 2 1 2 相似度计算方法 “知网”( h o w n e t ) 作为一个以汉语和英语的词语所代表的概念为描述对象, 以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识 库,适合用于中文词语的相似度计算。 ( 1 ) 词语间的相似度计算 对于两个汉语词语w l 和、,如果w l 有n 个义项( 概念) :s l i ,s 1 2 ,s l 。, w 2 有m 个义项( 概念) :s 2 l ,s 2 2 ,s 2 m ,则w i 和w 2 的相似度为各个概念的 相似度之最大值,即: 勋以( ,) = m 野肋”( 墨,最) ( 2 1 ) - i “_ ( 2 ) 义原相似度计算 “知网 中,所有的概念都最终归结于用义原( 个别地方用具体词) 来表示。 因此,义原的相似度计算是概念相似度计算的基础。由于所有的义原根据上下位 关系构成了一个树状的义原层次体系,可以通过语义距离来计算两个义原的相似 度。假设两个义原在这个层次体系中的路径距离为d ,则它们之间的相似度为: ,y 跏( 见,p 2 ) = ( 2 2 ) 口十口 其中p l 和p 2 表示两个义原( p 缸i t i v e ) ,d 是p l 和p 2 在义原层次体系中的路径 长度,是一个正整数。a 是一个可调节的参数。 另外还需要考虑具体词和具体词、具体词和义原之间的相似度计算问题,由 重庆邮电大学硕士论文第二章词语相似度计算与文本分类技术基础 于它们在知网的语义表达式中只占很小的比例,因此采用如下规定: 具体词与义原的相似度一律处理为一个比较小的常数( 7 ) ; 具体词和具体词的相似度,如果两个词相同,则为l ,否则为0 。 ( 3 ) 虚词概念的相似度的计算 在实际的文本中,虚词和实词总是不能互相替换的,因此,虚词概念和实词 概念的相似度总是为零。“知网”中,虚词概念总是用“ 句法义原 ”或“ 关系义 原 这两种方式进行描述,因此,虚词概念之间的相似度简单考虑为其对应的句 法义原或关系义原之间的相似度,采用公式( 2 2 ) 进行计算。 ( 4 ) 实词概念的相似度的计算 由于实词概念是用一个语义表达式来描述的,其基本思路是把它分解成部分, 通过计算部分之间的相似度得到整体的相似度。对于实词概念的语义表达式,将 其分成四个部分: 1 ) 第一独立义原描述式:将两个概念的这一部分的相似皮记为s i m l ( s l ,s 2 ) , 直接按照公式( 2 2 ) 计算: 2 ) 其他独立义原描述式:语义表达式中除第一独立义原以外的所有其他独立 义原( 或具体词) ,将两个概念的这一部分的相似度记为s i m 2 ( s l ,s 2 ) ,采用如下步 骤进行计算:( a ) 先把两个表达式的所有独立义原任意配对,按照公式( 2 2 ) 计算 出所有可能的配对的义原相似度;( b ) 取相似度最大的一对,并将它们归为一组: ( c ) 在剩下的独立义原的配对相似度中,取最大的一对,并归为一组,如此反复, 直到所有独立义原都完成分组;( d ) s i m 2 ( s l ,s 2 ) 为前面产生的所有组相似度的加权 平均: 3 ) 关系义原描述式:语义表达式中所有的用关系义原描述式,将两个概念的 这一部分的相似度记为s i m 3 ( s l ,s 2 ) ,直接按照公式( 2 2 ) 计算; 4 ) 符号义原描述式:语义表达式中所有的用符号义原描述式,将两个概念的 这一部分的相似度记为s i 驰( s l ,s 2 ) ,直接按照公式( 2 2 ) 计算。 在上述处理中,如果某一部分的对应物为空,则直接将义原( 或具体词) 与空值 的相似度定义为一个比较小的常数( 6 ) 。 两个概念语义表达式的整体相似度为: 4j & 删( 墨,最) = 层兀( 墨,岛) i 皇l i i ( 2 3 ) 其中,岛( 1 i 4 ) 是可调节的参数,且岛+ f i 2 + 岛+ 良= 1 ,口1 伤岛反。 9 重庆邮电大学硕士论文第二章词语相似度计算与文本分类技术基础 2 2 基于语料库的词语相似度计算 2 2 1 词的特征表示 对于待聚类词w ,在语料库中共同出现的一定上下文被称为伴随词,伴随词 集合构成了w 的侯选特征词集合,由于侯选特征词集合的规模一般还比较大,经 过特征选择得到特征词集合,最终构造词的上下文特征向量【8 】f 1 9 】f l o 】。 一个汉语词的语义可以表示为其在文本中的上下文环境,或者说是其伴随词 的集合( 有的文章中称为共现成分) 。当词与词的上下文分布基本一致时,它们的语 义性质也会呈相当程度的趋同,即所谓“观其伴,知其义”。一般地,可以将词左右 各d 个词看作是其上下文,或称开辟了一个长度为2 d 的上下文窗。 n i d a 很早就提出通过词的上下文对词进行特征表示【4 1 1 。一个词可以表示为以 其上下文的词为特征的向量,然后通过向量空间模型来进行相似度计算( 如:余弦, 几何距离等) 。 向量空间模型( v t o rs p em o d e l ,v s m ) 是当前最流行的表示方法。这种方 法最开始被用于信息检索中用来表示查询( q u 嘲和文档。向量空间模型已经被证 明同样可以用在文本分类中用于分类文本的表示。用这种表示方法,每个样本d 都可以表示为由一个一个“对”q a i r ) 表示成的向量: d = ( t l ,w l d ) ,( t 2 ,w 2 d ) ,w f i d ) ) 其中,“,、) ,1 i 以是对应第i 个特征的“对”,t i 表示特征的编号,w i d 表示 特征的权重,n 是整个特征集合的大小,也就是特征的个数。一旦词的上下文用向 量空间模型表示成这种格式,对向量进行的操作都可以应用到词上来。 2 2 2 特征权重 特征权重计算是指对特征赋予一定的权重,计算方法很多。本文将介绍其中 较为主要的几种。其中,t 氐表示文本特征毛在d k 中出现的频数。 1 词频权重 词频权重也是一种简单的方法。它使用词在文档中出现的次数作为权重【4 。 这种方法基于的思想是:特征在文本中出现次数越多,它就越重要。如下式: 辄车t k( 2 4 ) 2 t p i d f 权重 布尔权重和词频权重并没有考虑词在整个数据集中所有文档的频次t f i - i d f 权 重把词频和词的反比文档频率的乘积对词赋于权重。如下式: l o 重庆邮电大学硕士论文第二章词语相似度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论