




已阅读5页,还剩55页未读, 继续免费阅读
(计算机应用技术专业论文)基于google+web+api的中文训练库自动获取方法研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 目前,随着网络技术的翻天覆地的发展变化,互联网上的信息资源同益丰富, 已经成为人们在同常生活、学习和工作中快速获取信息的重要途径。因此,如 何有效地处理网上信息,成为信息处理领域一个很重要的研究课题,有效的方 法是对网页进行自动分类处理,然而,大部分的研究者都是在自己建立的训练 库上做测试得出结论。分类算法的分类性能和训练库之间相关,高质量的训练 库会使分类器得到比较好的分类性能。 在本文中,主要研究训练库自动获取的方法。虽然对训练库的研究很少,但 是有几个方面的原因说明它是值得研究。 首先,如果训练库的建立过程能够自动实现,特别是训练样本能够自动获取, 将提高训练库建立的速度,将减轻人们的工作量,加快分类的速度。 其次,对于普通用户也能迅速建立起自己所需要的训练库,将减少人们在整 个分类过程中手工参与的程度。 最后,将建立的训练库和分类效果比较好的分类算法结合在一起,能提高分 类的准确率,同时也能对训练库迸一步的改进和提高。 对于训练库的自动获取,本文主要做了以下几个方面的工作: ( 1 ) 针对传统的手工获取训练网页,本文提出了基于g o o g l ew e b a p i 的方 法来收集网页作为训练样本,快速获取网页,减少人们的工作量。 ( 2 ) 改造了传统的训练库结构,传统训练库中的类是并列的,改进为具有 类层次结构的,并且尽量把训练库中所有的类都具有层次结构,即对于每个父 类,都有一个或者几个子类,利用父类及其子类的类名作为查询关键词,利用 g o o g l ew e ba p i 来收集网络资源,并把它们作为训练样本来训练所有的层次上 的类。 ( 3 ) 通过分析,我们可以利用类的相关词组一步用来收集更多训练样本。 反复的应用提出的方法能获得高质量的训练样本,进而提高分类器的性能,经 过经验,用这种方法建立的训练库能提高分类的准确率。 总之,本文的主要内容就是关于训练库自动获取,最后指出了研究中的不足 之处,并对今后的研究工作做了进一步的展望。 关键词:自动分类,训练库自动获取,g o o g l ew e b a p i a b s t r a c t n o w a d a y s ,w i t ht h eg r e a td e v e l o p m e n to fi n t e r a c t ,i n f o r m a t i o nr e s o u r c e sh a v e b e c a m ea l li m p o r t a n ta p p r o a c hf o rk n o w l e d g e a c q u i s i t i o ns o u r c ei no u rd a i l yl i f e , s t u d ya n dw o r k i n g s o ,h o wt od e a lw i t hav a s tn u m b e ro fw e bi n f o r m a t i o nh a s b e c a m ea ni m p o r t a n tr e s e a r c hs u b j e c ti ni n f o r m a t i o np r o c e s s i n gf i e l d t h ea u t o m a t i c c l a s s i f i c a t i o no nw e bp a g e si sa ne f f e c t i v ew a y h o w e v e r , m o s tr e s e a r c h e r sh a v e d r a w l e dc o n c l u s i o n sb a s e do nt e s t i n gt r a i n i n gc o r p o r ab u i l db yt h e m s e l v e s q u a l i t yo f c a t e g o r i z a t i o na l g o r i t h mi sr e l a t e dt ot r a i n i n gc o r p o r aa n di m p r o v i n gq u a l i t yt r a i n i n g c o r p o r a ,w h i c hc a l lm a k e c l a s s i f i e rg a i nab e t t e rp e r f o r m a n c eo fc l a s s i f y i nt h i sd i s s e r t a t i o n ,t h ea u t h o rf o c u so nt h ea u t o m a t i ca c q u i s i t i o nm e t h o do f t r a i n i n gc o r p o r a ,t h o u g ht h e r ei sal i t t l er e s e a r c ho nt r a i n i n gc o r p o r a , i ti sd e s e r v e d r e s e a r c hf o rt h e s er e a s o n s : f i r s t l y , i ft h ep r o c e s so ft r a i n i n gc o r p o r ab u i l d i n gu p c a nb ea c h i e v e d a u t o m a t i c a l l y , p a r t i c u l a r l yi na u t o m a t i ct r a i n i n gs a m p l ea c q u i s i t i o n t h es p e e do f e s t a b l i s h i n gt r a i n i n gc o r p o r aw i l li n c r e a s e ,r e d u c et h ew o r k l o a da n ds p e e du pt h ep a c e o fc l a s s i f i c a t i o n s e c o n d l y , u s e r sc a nq u i c k l ye s t a b l i s ht h e i ro w nn e e d e dt r a i n i n gc o r p o r aw h i c h w i l lr e d u c et h ee n t i r ec l a s s i f i c a t i o np r o c e s so fm a n u a lp a r t i c i p a t i o n h n a l l y , t h et r a i n i n gc o r p u s e s t a b l i s h e di s i n t e g r a t e d w i t ht h e e x i s t i n g c l a s s i f i c a t i o na l g o r i t h m sw h i c hh a v eb e t t e rc l a s s i f i e de f f e c t ,c a ni m p r o v et h ea c c u r a c y o fc l a s s i f i c a t i o nt h et r a i n i n gc o r p u sa sw e l la s f o rt h ea u t o m a t i ca c q u i s i t i o no ft r a i n i n gc o r p o r a , t h em a i nw o r k so ft h i s d i s s e r t a t i o na r ea sf o l l o w s : ( 1 ) c o m p a r e dw i t ht r a d i t i o n a lm e t h o da c c e s st ot r a i n i n gs a m p l e sb ym a n u a l ,a m e t h o db a s e do ng o o g l ew e ba p ii sp r o p o s e df o rc o l l e 斌i n gt r a i n i n gs a m p l e s t h u s , t r a i n i n gs a m p l e sc a nb ec o l l e c t e dq u i c k l ya n dt h ew o r k l o a d 啪b e r e d u c e d ( 2 ) t h et r a d i t i o n a ls t r u c t u r e o ft h et r a i n i n gc o r p o r ai sr e c o n s t r u c t e d t h e c a t e g o r yo ft r a d i t i o n a lt r a i n i n gc o r p o r ai sp a r a l l e l ;t h i sd i s s e r t a t i o nh a sd e v e l o p e da s t r u c t u r eo fc l a s sh i e r a r c h y a n da sf a ra sp o s s i b l e ,a l lc a t e g o r i e so ft r a i n i n gc o r p o r a a r ei m p r o v e d t h a ti s ,f o re a c hp a r e n tc a t e g o r y , i th a so n eo rs e v e r a ls u b c a t e g o r i e s , h t y p en a m e so fw h i c ha r eu s e da sq u e r i e s ,a n dg o o g l ew e ba p ii su s e dt oc o l l e c t n e t w o r kr e s o u r c e s ,t r a i n i n gt h e ma ss a m p l e st ot r a i na l ll e v e l so fc a t e g o r i e s ( 3 ) b ya n a l y z i n g ,t h e r e l e v a n tp h r a s e sc a nb eu s e dt oc o l l e c tm o r et r a i n i n g s a m p l e s t h eh i g h q u a l i t yt r a i n i n gs a m p l e sc a n b e o b t a i n e dt h r o u g hr e p e a t e d a p p l i c a t i o n s w i t ht h e s ep r o p o s e dm e t h o d s a n dt h e nf u r t h e rt o i m p r o v et h e p e r f o r m a n c eo fc l a s s i f i c a t i o n t h r o u g he x p e r i e n c e ,t h ea c c u r a c yo fc l a s s i f i c a t i o nc a n b ei m p r o v e db yu s i n gt h et r a i n i n gc o r p u se s t a b l i s h e di nt h i sw a y i ns h o r t ,t h em a i nc o n t e n to ft h i sd i s s e r t a t i o ni st h ea u t o m a t i ca c q u i s i t i o no f t r a i n i n gc o r p u s a tl a s t , t h ed e f i c i e n c i e s i nr e s e a r c ha r ec o n c l u d e da n df u r t h e r p r o s p e c t sa r ed i s c u s s e df o r t h ef u t u r er e s e a r c h k e yw o r d s :a u t o m a t i cc l a s s i f i c a t i o n ,a u t o m a t i ca c q u i s i t i o no ft r a i n i n gc o r p o r a , g o o g l ew e b a p i m 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权 保留、送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 武汉理l :人学硕十学位论文 1 1 课题背景 第1 章引言 最近二十年来,由于计算机网络技术和通信技术的快速发展,推动了社会科 技、文化和经济的飞速发展,人们对信息的认识开始增强,信息的利用越来越 广泛,给人类带来全新的工作和生活方式。i n t e r n e t 上出现了大量的、无序的信 息资源,其中网页文本信息占了主要地位【1 1 ,如何对因特网上的信息进行有效的 管理,使人们能方便、快捷地搜索到所需要的信息资源,成为数据挖掘所关注 的焦点问题。 对于因特网上海量的信息,最初的分类是人工分类,如:y a h o o ,人工分类 的正确率相对比较高,但是分类速度慢,还需要消耗大量的物力、精力和人力。 网页文本分类技术已经成为严重地制约着人们快速获取有效信息。因此找到 一个能自动、快速对网页进行分类的方法是至关重要的。 网页文本分类已经成为数据挖掘方面的一个研究热点。现有的文本分类技术 方法主要有k n n 分类、贝叶斯方法和支持向量机等。传统的文本分类方面的研 究主要侧重于提出新的或者改进已有分类的方法来得到更好的分类性能。对于 某种具体的分类方法,其分类方法的性能也会因为训练库的不同而不同,结果 甚至相差很大,由于分类方法的性能和训练库存在一定的关系,训练库建立质 量的好与坏,将直接影响到分类的效果。 传统的分类方法都预先假设训练库已经建成,而训练库的建立过程很少有 人去研究,目前已有的训练库都是通过手工建立的,手工建立的训练库不但浪 费时间,而且工作量也很大,更新速度也比较慢。 针对手工建立训练库的缺点,本文提出了基于g o o g l ew e ba p i 的方法,向 g o o g l e 的索引数据库发出检索请求,返回得到检索结果,自动保存搜索到的网 页,初步实现了中文训练库自动建立过程。因此本文主要对训练库自动获取的 方法进行研究。 武汉理l :人学硕十学位论文 1 2 相关研究 由于互联网上的网页信息大部分是文本信息,因此网页自动分类主要是文 本信息的分类,网页文本分类1 2 l 就是利用计算机对文本集,按照一定的分类方法 进行自动分类标记,网页文本分类是数据挖掘方面一个热点研究方向,但是大 部分的分类方法都预先假设训练库已经建成,目前已有的训练库大都是手工建 立的,这种建立训练库的方式不但浪费时间,而且工作量也很大,效果无法判 断。 对于某种具体的文本分类方法,分类器的性能会因为训练库的不同而不同, 分类的结果可能相差很大。对于训练库的获取,这个问题虽然很少被研究,有 几个方面说明它是值得研究的。 首先,分类器的性能在某种程度上和训练库的质量相关。 其次,质量比较高的训练库可能有比较好的分类性能。 最后,设计出一套自动获取训练样本的方法,获得高质量的训练库,并与 分类模型和分类算法结合在一起提高分类的效果1 3 1 。 网络上的资源极为丰富,可以被用来解决各种各样的问题。文献【4 1 提出了 利用网络作为训练库的方法,它认为训练库是有层次结构的,搜索引擎搜集网 络上的信息资源作为训练库所需要的训练库样本,并用它来训练训练库中所有 层次上的类。 文献【3 】都给出了类的概念可以用类的名字和它的相关词组表示。通过分析网 上检索到的片段,发现了许多能联合起来表示类概念的重要词组。这些相关词 组被进一步用来收集更多高质量的训练样本。反反复复,这个方法将大大提高 分类器的性能。 1 3 课题研究的内容及拟解决的关键问题 本文对中文训练库的自动获取技术进行了探讨,着重研究了分层次结构的 训练库的建立。具体包括: ( 1 ) 基于g o o g l ew e b a p i 的网页自动获取。根据所给出的训练库的类的类 层次,自动获取网页。 ( 2 ) 对于已经获取的网页进行处理,采用i c t c l a s 中文分词系统对文本进 2 武汉理l :人学硕| = 学位论文 行分词,并将网页转换为文本格式。 ( 3 ) 采用向量表示法,统计特征词的权重,将文本映射为特征空间中的一 个特征向量。 ( 4 ) 建立训练库,根据k n n 算法实现文本的自动类别识别。 ( 5 ) 改进的训练库的自动获取方法。 拟解决的关键问题: ( 1 ) 改造传统训练库的结构模式,使训练库具有层次结构,根据类及类的 层次获取更多的训练样本。 ( 2 ) 查找类的相关词或者词组,根据类的相关词来获得更多的训练样本, 丰富训练库的内容,提高训练库的建立质量。 1 4 本文的内容安排 第一章叙述了课题的相关研究,并指出了建立中文训练库发面的进展情 况,提出了研究的内容。 第二章介绍了训练库自动获取过程中所用到的关键技术,首先中文分词技 术,其次比较了三种常用的中文文本表示模型,指出本文采用向量空间模型。 第三章训练库自动获取的基本思想,包括训练库的一些基本知识。 第四章描述了训练库的建立的过程,包括网页的自动获取和预处理、特征 提取。 第五章分析比较了训练库的建立的方法,提出了改进的训练库获取方法, 并给出了实验结果。 第六章总结了本论文的研究成果,指出了不足,并对今后的研究工作做了 进一步的展望。 3 武汉理i :人硕十学位论文 第2 章训练库自动获取的相关技术研究 2 1 中文分词技术研究 2 1 1 中文分词的研究与发展现状 中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。 其它的比如机器翻译( m d 、语音合成、自动分类、自动摘要i 自动校对等等, 都需要用到分词。对于英文来说,分词是一件很容易的事情。因为空格是英文 的天然分隔符,应用软件很容易就可以把英文文本中的一个一个的单词切分出 来。相比英文,中文分词是比较复杂的。 中文是世界上最为复杂的语言之一,语义变化无穷和句型结构的不规整使 得中文分词一直以来都是一件相当困难的事情,中文是以字为单位,句子中所 有的字连起来才能表达一个意思。如果对“中华人民共和国”进行分词,可以分为 “中华”、“人民”、“共和国”,或者是“中”、“华人”、“民”、“共和国”。很明显, 第一种切分方法比较好,人可以对分词进行识别,如何让电脑对词组或对句子 进行切分是一个非常困难的事情。 g o o g l e 的中文分词技术采用的是美国一家公司提供的中文分词技术,该公 司为b a s i st e c h n o l o g y ( h t t p :w w w b a s i s t e c h c o m ) ,百度使用的是自己公司研究开 发的中文分词技术,中搜( h t t p :w w w z h o n g s o u c o r n ) 使用的分词技术是国内海量 科技( h t t p :w w w h y l a n d a c o r n ) 提供的。中文分词界评论海量科技的分词技术目前 被认为是国内最好的中文分词技术,其分词准确度超过9 9 ,使得中搜在搜索 结果中搜索结果的错误率比较低。 目前研究中文分词的大多是一些科研院校,清华大学、北京大学、中科院、 北京语言学院、东北大学、i b m 研究院、微软中国研究院等都有自己的研究队 伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。 2 1 2 中文分词技术 中文分词属于自然语言处理范畴,对于一段文字,人们可以通过自己的知 4 武汉理j :人学硕+ 学位论文 识来明白哪些是词,哪些不是词,但如何让计算机也能理解,其处理过程就是 分词算法。 现有的分词算法可分为三大类:基于字符串匹配的分词方法【5 1 、基于理解的 分词方法1 6 l 和基于统计的分词方法1 7 j 。 1 ) 基于字符串匹配的分词方法 这种方法又叫做机械分词方法,机械式中文分词方法按照一定的策略将待 分词的字符串与机器词典中的词条进行匹配,若在词典中能找到这个字符串, 则匹配出一个词。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和 逆向匹配;按照不同长度优先匹配的情况,可以分为最大( 最长) 匹配和最小( 最 短) 匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与 标注相结合的一体化方法。 常用的几种机械分词方法如下: ( 1 ) 正向最大匹配法( 由左到右的方向) 。 ( 2 ) 逆向最大匹配法( 由右到左的方向) 。 ( 3 ) 最少切分( 使每一句中切出的词数最小) 。 上述种方法不是相互独立的,可以相互结合。例如,可以将正向最大匹配 方法和逆向最大匹配方法结合起来构成双向匹配法。邹海山、吴勇、吴月珠等 在论文中文搜索引擎中的中文处理技术中,根据现有分词技术的基础上, 提出了这种相结合的中文分词方案,可以高效、准确地实现中文文档的主题词 条的抽取和词频统计。由于汉语单字可以成词的特点,正向最小匹配和逆向最 小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到 的歧义现象也较少。余顺争等在中文分词算法在搜索引擎应用中的研究一 文中,采用基于自动建立词库的最佳匹配方法来进行中文分词,同时采用基于 改造型马尔可夫n 元语言模型的统计处理方法来处理分词中出现的歧义问题, 从而提高精度。实际使用的分词系统,都是把机械分词作为一种初分手段,还 需通过利用各种其它的语言信息来进一步提高切分的准确率。 由于中文分词技术的不断发展,不时有新的技术出现,一种方法是改进扫 描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些 带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进行 机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来, 利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词 5 武汉理l :人学硕 学位论文 结果进行检验、调整,可以提高切分的准确率。 2 ) 基于人工智能的分词方法 这种方法主要是应用人工智能的相关技术来进行中文分词,通过让计算机模 拟人脑直接对句子的理解,达到识别词的效果。其基本思想就是在分词的同时 进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括 三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下, 分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断, 即它模拟了人对句子的理解过程。基于人工智能技术分词方法在理论上比较理 想的分词方法,让电脑可以直接对句子进行理解。这种分词方法需要使用大量 的语言知识和信息,由于汉语语言知识的笼统、复杂性,难以将各种语言信息 组织成机器可直接读取的形式,因此目前基于人工智能的分词系统还处在试验 阶段。 3 ) 基于统计的分词方法 随着互联网技术的发展,网络上的资源越来越丰富,同时计算机技术也再快 速发展,利用计算机的高速运行可以帮助我们进行中文分词,统计文本中字、 词或者短语。从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字 同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或 概率能够较好的反映成词的可信度,因此对语料中相邻共现的汉字的组合频度 进行统计,计算他们的统计信息并作为分词的依据。定义两个字的互现信息, 计算两个汉字x ,y 的相邻共现概率。互现信息体现了汉字之间结合关系的紧密 程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这 种方法只需对文本中的字组频度进行统计,不需要切分词典,因而又叫做无词 表分词法。 基于统计模型的分词发法的优点在于:该方法可以完全由计算机自动完成, 能克服基于字符串匹配的分词方法的一些缺陷,但是这种方法也有一定的局限, 经常抽出一些共现频度高、但并不是词的常用字组,例如“由于”、“但是”、等。 并且由于该类算法不使用分词词表,对常用词的识别敏感度差,整个过程在计 算机的内存中自动完成的,因此计算机资源占用大。 4 ) 中文分词中的难点 虽然现在已经有了各种成熟的中文分词算法和分词系统,但中文分词一直存 在着歧义识别和新词识别两大难题。这是由于汉语语言本身的复杂性决定的。 6 武汉理i :人学颂l :学位论文 歧义是指同一句话或短语,在不同的语义环境中可能有两种或者两种以上的 切分方法。可归为以下几种情况,分别是交叉歧义,组合歧义和真歧义1 7 l 。例如: “表面的”。这个短语中,由于“表面”和“面的”都是词,那么这个短语就可以切分 为“表面的”和“表面的”。“中华人民共和国”可以切分为“中华人民共和国”和 “中华人民共和国”,这种就是交叉歧义。这样的例子在汉语中很常见,由于 计算机没有人的思维和知识经验,很难判断应该采取哪种切分方法。 相对于交叉歧义,组合歧义就更难处理,组合歧义必须根据上下文来判断。 例如,在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中 将增长两倍”中,“中将”就不再是词。句子“门把手坏了”中,“把手”是个名词, 但是在“请把手拿开”这句话中,“把手”又不是一个词。这种情况计算机就难以识 别了。 还有一种情况是真歧义。真歧义的意思是给出一句话,如果没有上下文, 无法判断句子的意思。例如:“他的笑话讲不完”,句中的“笑话”可能能引入发笑 的谈话或故事,也可指供人当作笑料的事情。没有上下文环境,根本无法判断 指的什么。 除了歧义识别外,中文分词的另一个难点是未登陆词识别,也就是没有收 录到字典中的词。典型的是一些人名、机构名、地名、产品名、商标名、简称、 省略语等,都是难以处理的问题。新词识别的准确率已经成为评价一个分词系 统好坏的重要标志。 海量公司( w w w b j h a i l i a n g c o r n ) 的中文分词技术很好地解决了中文分词领域 中的两大技术难点【踟,即:歧义切分和对新词的识别。组合歧义的处理一直是分 词领域的难点中的难点,其他的分词技术对此基本未涉及,海量公司经过不断 努力,在解决组合歧义的问题上取得了突破,能对绝大多数的组合歧义进行正 确的切分。在新词的识别上,针对不同类型采用了不同的识别算法,其中包括 对人名、音译词、机构名称、数量词等新词的识别,其准确率同样达到了同行 业的领先水平。 2 1 3 关于中文分词系统l c t c l a s 在本文中,主要用到词库分词方法。中国科学院计算技术研究所在多年研究 基础上,耗时两年研制出了基于多层隐马模型的汉语词法分析系统 i c t c l a s 9 ( i n s t i t u t eo fc o m p u t i n gt e c h n o l o g y , c h i n e s el c x i c a la n a l y s i ss y s t e m ) 。 7 武汉理i :人学硕 :学位论文 该分词系统的主要是思想是先通过c h m m ( 层叠形马尔可夫模型) 进行分词,通 过分层,既增加了分词的准确性,又保证了分词的效率共分五层1 1 0 1 ,如图2 - i 所示: t 图2 - 1i c t c l a s 的分词结构 该系统的功能有:中文分词、词性标注、命名实体识别、未登录词识别。 i c t c l a s 的分词正确率高达9 7 5 8 ( 最近的9 7 3 专家组评测结果) ,基于角色标 注的未登录词识别能取得高于9 0 召回率,其中中国人名的识别召回率接近 9 8 ,分词和词性标注处理速度为3 1 5 k b s 。 i c t c l a s 同时还提供一套完整的a p l 接口( 包括:动态连接库,静态连接库, l i n u x 下的库函数和c o m 组件) 和相应的概率词典,开发者可以直接在自己的系 8 武汉理1 - 人学硕十。位论文 统中调用i c t c l a s ,在分词和词性标注的基础上继续上层丌发。 本文分词采用中科院的分词系统i c t c l a s 对文本进行分词。 2 2 训练文本的特征表示模型 由于计算机不具有人类的智能,人类在阅读一篇文章之后,能对文章有一 个整体的认识,而计算机无法直接“读懂”文章,计算机只能识别“0 ”和“1 ”代码, 让计算机能够“读懂”文本,应将文本进行从非结构到结构化的处理,处理的过程 就是文本表示1 1 1 l i 坨l ,文本表示,就是让文本所表示的知识转变为计算机能够识 别的符号形式。对于文本这样的非结构化的数据,通常采用数据挖掘方法是首 先对文本进行结构化处理,然后在此基础上进行知识的挖掘。 文本特征表示模型主要三种:( 1 ) 布尔模型( b o o l e a nm o d e l ) 、( 2 ) n 量空间模 型( v e c t o rs p a c em o d e l ) 、( 3 ) 概率模型( p r o b a b i l i s t i cm o d e l ) 。本文采用向量空间模 型,对训练库进行结构化处理。 2 2 1 布尔模型 布尔模型1 1 3 l 是基于理论和布尔代数的一种简单的对文本进行表示的模型。 在布尔模型中,文本采用如下表现形式1 1 4 l : d i = ( w i ,嵋:,w m ) 其中,n 为特征项的个数,为o 或1 ,分别表示特征 项是否在文本i 中出现。 布尔模型具体的数学描述如下1 1 5 】: 设文本集为d = ( 噍,d :,d 。) ,其中盔( i = 1 ,2 ,n ) 为文本集中某一个文本;设 l = ( f l ,t 2 ,) 为d ;的标引词集,则对于形如t 2 = a 睨的检索式,如 果嘶瓦,e t 2 ,彤l ,则吐为检索到的文本,我们称吐为命中文本,否 则盔不为命中文本;对于形如1 2 = 噬v v v 比的检索式,如果至少存在某 个比( 1 【= 1 ,2 ,1 ) 则d i 为命中文本,如果不存在某个哌( k = 1 ,2 ,1 ) 则吐不为命中文 本。 9 武汉理l :人学硕十学位论文 表2 - 1 布尔检索模型举例 一 数据聚类挖掘分析关联学习 d l1o1o1o d 2o101o1 d 3 11 1o0o d 40o1l11 如果检索“数据a n d 挖掘”,有上表进行匹配,再进行逻辑“与”,结果命中 文本d ,和d 3 。 布尔模型在2 0 世纪六、七十年代得到了较大的发展,出现了许多基于布尔 模型的商用检索系统,如d i a l o g ,s t a i r s ,m e d l a r s 等。其主要优点是: 速度快、易于表达一定程度的结构化信息,如同义关系( 电脑o r 微机o r 计算 机) 或词组( 文本a n d 过滤a n d 系统) 【1 6 1 。目前,几乎所有的商用检索系统都采 用布尔检索,虽然布尔检索有着速度快的优点,但他的缺陷也是很明显的: 1 ) 匹配标准存在某些不合理的地方,如在响应某个用“ 连接的检索式时, 系统把只含有检索式中的一个或数个但不是全部检索词的文档看作与那些不含 有检索式中的任一检索词的文档一样无用,而加以排除。 2 ) 检索结果不能按照用户定义的重要性排序输出。系统检索输出的文档中, 排在第一位的文档不一定是文本集中最适合用户需要的文档,用户只能按照检 索结果的顺序浏览才能找到哪些是自己需要的文档。 3 ) 布尔模型的匹配策略是基于二元判定标准( b i n a r yd e c i s i o nc r i t e r i o n ) ,对于 一篇文档只有相关和不相关两种状态,但是缺乏对文档进行分级的概念,限制 了其检索功能。 4 ) 虽然布尔表达式具有精确的语义,但用户常常很难将信息需求转换为布 尔表达式,实际上大多数查询用户发现:他们需要的查询信息转换为布尔表达 式时并不那么容易。, 为了克服以上缺陷,人们对布尔模型进行了改造,其中的一种方法是对标 引词引进权值,权值的大小即反映标引词在文档中的重要程度,由此,形成了 所谓的加权布尔函数,如b o o k s t e i n 检索模型,s a l t o n 模型等。因为标引词的权 重从根本上提高了过虑系统的功能,从而导致了向量空间模型的产生。 1 0 武汉理i :人学硕十学位沦文 2 2 2 向量空间模型 向量空间模型用语表示文本的常用模型之一,是由s a l t o n 等人1 1 7 】1 1 8 】在2 0 世 纪6 0 年代提出来的,并在著名的s m a r t 系统中实现,近年来被广泛应用的一 种文本分类表示模型。 根据向量空间模型,文本内容可以看作在文本中出现词的“词包”i l 引。由于词 空间的维度太大,为了分类过程中计算的复杂度,通常我们选取文本中具有代 表性的关键词来代替文本中词集,文本d i 可以表示为: d i = ( 现彤j j 磁,) 其中t 0 为文本d i 中的第j 个关键词,为关键词乃在文本中的权重,经 过处理之后,文本信息的匹配问题转化为向量空间中的向量匹配问题。 在向量空间模型中,文档之间的相似性可以通过文档向量间距离的大小来衡 量。如果两个文档所对应的向量之间的距离最小,就认为这两篇文档最为相似。 衡量两个向量距离,到目前为止并没有最好的办法。一般有两种方法计算向 量之间的相似度l 驯: 1 ) 欧氏距离,两个标准化的文本向量a 、b 他们之间的欧氏距离为: 删一压鬲 2 ) 余弦距离,计算两个向量的余弦夹角。 哪“弦两a 两 。d 公式( 2 - 1 ) 公式( 2 2 ) 本文采用的是余弦距离计算两个向量之间的相似度。两个文档之间的余弦 夹角越大,其余弦值就越小,相关性也就越小。反之,两个向量余弦夹角小, 余弦值越大,其代表的文档的相关性就越大。如图2 2 的向量空间模型图。 1 1 武汉理l :人学硕十学他论文 图2 - 2 向量空间模型图 向量空间模型的优点在于: ( 1 ) 为每个能表示文本的特征词赋予了权值,权值的大小将反映词与文本 之间的相关程度,这样就部分克服了传统布尔模型的缺陷。 ( 2 ) 将文档内容形式化到多维空间中的一个点,通过向量形式给出,将文 本这样的非结构化的数据以向量的形式定义到了实数域中,提高了自然语言文 档的可计算性和可操作性。 ( 3 ) 有效地提高了匹配效率,加快建立训练库的速度和以后分类的速度。 向量空间检索存在以下缺点: ( 1 ) 由于每一篇文档都对应一个向量,而在进行相似度计算时,每篇文档 都会计算到,计算量加大,影响分类系统的速度。 ( 2 ) 特征词的权值没有绝对准确的方法确定。 ( 3 ) 向量空间模型中都是假设词与词之间相互独立的,而这种假设有时会 不符合实际情况。 对于这些缺点,人们在研究基于词的相似性的向量空间检索。如s k m 旺 格等人在1 9 8 5 年提出用一组经过挑选的正交基向量来表示词向量,词间关系可 直接由其向量表示,给出较为精确的计算,这种模型称为广义向量空间模型。 2 2 3 概率模型 布尔模型是将文档之间表示为相互独立的项,忽视了特征词条之间的关联 武汉理i :人学硕一 :学位论文 性,概率模型1 1 4 j 1 2 0 1 1 2 1 i 考虑词与词之间的相关性,把文档分为相关文档和无关文 档。概率模型是一种基于贝叶斯( b a y s e ) 决策理论的自适应模型,其以成熟的数 学理论为基础,通过赋予词的概率值来表示这些词在相关文档和无关文档之间 出现的概率,然后计算文档问相关的概率。 概率模型有多种形式,常见的一种称之为第二概率模型,其基本思想是: 词的概率值一般是对重复若干次相关性计算,每重复一次,就由用户对检出文 档进行人工判断。然后利用这种反馈信息并根据每个词在相关文档集合和无关 文档集合的分布情况计算它们的相关概率,在该模型中,词的权值设计为: 。主怒 公式( 2 3 ) 式中p ,p 。分别表示某词在相关文档集和无关文档集中出现的概率。 概率模型的优点在于: 有严格的数学理论为基础,并采用了反馈原理,开发出理论上比较可靠的方 法。主要缺点在于: ( 1 ) 开始时需要把文档分为相关文档和不相关文档的两个集合,实际上这 种模型没有考虑关键词在文档中的频率。 ( 2 ) 使用这种模型增加了存储开销和计算量;其参数估计的难度也较大。 2 3 特征词权重的计算 特征词权重的计算则采用i t t d f 计算公式,t f i d f 方法是s a l t o n 和m c g i l l 在1 9 8 3 年提出来的。其指导思想是:不同的特征词在不同的文档中作用是不相 同的,在一个文本中出现次数越多的单词,在另一个同类文本中出现的次数也 会很多,反之亦然。根据特征项集合,能够将该类文档和其它类文档区分开。 即该词条在整个类别空间中的其它类别中出项的频率足够小。该方法是根据特 征词的重要性与特征词的文档内频数成正比,与训练文档中出现该词条的文档 频数成反比的原理构造的。常用频率因子和文档集因子的乘积表示【2 2 j : w ai l l 如毫娥 公式( 2 4 ) 吮表示特征词气在文档d 。中出现的频率。 i d l 表示该特征的反比文本频数。 武汉理j 人学硕l 学化沱支 对1 :特征词的计算,j 法,目前有很多种,较为常见的公式i 纠 k = 巩+ i o g ( n n t + 0 0 1 )公式( 2 - 5 ) 其中以同上,n 表示全部训练库中的文本数量,n 。表示训练文本中出现f 。的 文本数。 的权 我们对“人工智能技术”类中的一个训练网页,转换为文本后,求特征词 图2 - 3 特征词权重的计算 目前,虽然有很多学者采用t f i d f 向量表示法来表示词汇在文本中的权重, 但是使用t f i d f 来计算特征词的权重时,忽略了特征词在文本文件中所处的位 置和特征词的长度这两个重要的信息。因此,这种计算方法计算出的权重并不 能准确地反映出词汇在文章中的重要程度。这是因为特征词的权重是由许多因 素决定。概括起来有以下几点1 1 4 】1 2 4 1 : ( 1 ) 特征词词长 特征词的长度也可以决定特征词权值。对于中文文本信息,词的长度越长, 武汉理l :人学硕十学他论文 则该词出现在文本中的概率就越小,反过来说,出现在文本中的较长的词,它 比短词包含更多的信息。 ( 2 ) 特征词位置 特征词的权值大小还与特征词出现在文本的位置有关。位于标题、副 标题和摘要中的特征词最能表现文本的中心思想,应在赋予比较高的权重,位于 段首及段尾也应该赋予较大的权重。 ( 3 ) 语义分析 在一篇文档中,词“沙尘”、“污染”、“环境”、“北京”、“大气”都是关键词并 且是连续出现的,则 沙尘,污染,环境,北京,大气) 这几个词在意义上是相互 关联的,可以被认为是该文档的词共现【明l 矧。由词共现可以得出:该文档是关 于北京的环境保护问题。那么这几个关键词应该赋予比较高的权重。 2 4 文本分类算法的研究 目前文本分类方法有r o c c h i o 法阿及其变异方法、k 近邻法( k n n ) 、决策 树【2 8 1 、相似性度量、神经网络法1 2 9 j 、支持向量机( s v m ) 等方法。下面介绍几 种常用的分类方法。 2 4 1 朴素贝叶斯算法 贝叶斯分类算法1 3 0 l 是一种在已知先验概率与条件概率的情况下的模式分类 方法。其基本思想剧1 4 11 3 1 3 2 】:计算文本属于类别的概率,文本属于类别的概率 等于文本中每个特征词属于类别的概率的综合表达式。贝叶斯分类算法前提1 3 3 】: 假定一个属性值对分类的影响独立于其他属性的值( 类条件独立) 。假设有m 个文 本类c = c l ,c :。q ,吐为一任意文本,求喀为文本类c 中某一类c ,的概率。 根据贝叶斯定理有: 盹k ,。掣割 枇薹篾乎 公式( 2 6 ) 武汉理l :人学硕t 学何论文 对文本进行分类,就是按以上公式计算所有文本类在给定情况下的概率, 将文本分到概率最大的那个类别中。 2 4 2 类中心向量法 在文本分类方法中,类中心向量法是最为简单,利用算术平均为每个类内生 成一个代表该类的中心向量作为该类的代表向量。确定测试文本的向量,然后 计算测试文本向量到各类中心向量之间的距离,最后将测试文本归入距离最近 的类。 具体步骤如下: 第一步:利用算术平均为每个类内生成一个代表该类的中心向量。 第二步:测试文本经过处理,确定测试文本的向量。 第三步:用余弦公式,计算测试文本特征向量和每类中心向量间的相似度。 第四步:选取相似度最大的那个类别,将测试文本归到其类别中。 2 。4 3 决策树分类法 决策树1 3 1 】是数据挖掘中应用比较广泛的一种机器学习算法,一般是由自项 向下生成的,每个决策或者事件都有可能引发两个或者多个事件,从而导致不 同的结果,他提供了一种在什么条件下得到什么结果的方法,决策树分为分类 树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医疗器材销售合同范本
- 个体前台劳务合同范本
- 物业房屋验收合同范本
- 摆摊玩具转让合同范本
- 会计实习劳务合同范本
- 食堂购买蔬菜合同范本
- 美甲店撤股合同范本
- 国外劳务合同范本 英文
- 个人简单租凭合同范本
- 工业地产开发合同范本
- 物料提升机安全知识培训
- 出生医学证明警示教育培训
- 项目验收表模板
- 2024年黑龙江省哈尔滨市中考英语试题卷(含答案及解析)
- 高一语文开学第一课课件
- 非高危行业生产经营单位主要负责人及安全管理人员安全生产知识和管理能力试题及答案
- JGT163-2013钢筋机械连接用套筒
- HIV感染产妇分娩母婴阻断演练脚本
- DL∕T 782-2001 110kV及以上送变电工程启动及竣工验收规程
- 人教版初一数学课程讲义+练习(教师整合版)
- DL∕T 5161.1-2018 电气装置安装工程质量检验及评定规程 第1部分:通则
评论
0/150
提交评论