（通信与信息系统专业论文）基于潜在语义分析的web文本分类研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-10 格式：PDF 页数：40 大小：1.55MB 积分：12 举报 版权申诉

已阅读5页，还剩35页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

华北电力大学硕士学位论文摘要摘要本文提出潜在语义分析的w eb 文本分类方法，该方法认为在词汇之间，词汇与文本之间存在着某种上下文的关系，多篇文本与多个词汇可以由各自的关系构成一定的语义结构。对这个语义结构进行计算、处理，保留文本与词汇间最主要的关系，去除其它庞大、冗余、次要的影响因素。优化后的语义结构，不但比原始的文本词汇相关结构小巧得多，而且保留了其中最为主要的相关关系，从而可以挖掘出文本与词汇的潜在语义关系，较传统的基于词空间的文本分类方法能更加有效的处理文本的高维特性。从而能在该语义结构的基础上，计算出文本和文本之间的潜在相似度，提高 w eb 文本分类的精度。关键词:潜在语义分析， w eb文本分类，向量空间模型，奇异值分解，局部特征空间 abs tract t b l s p aperp r o p o s e da me t h o dtow七 bt e x t c at e g o ri z ati o nb ase do nl at e nt s e ma nti c anal y s i s ， i t thi nks thats o me c o nte x t re l at i o n s exi stb e twe e nt e rms ， b e twe e nt e rm s and d o c u 刀。 e n t s ， and as e m ant i c st ruc tur e c an b ec o n s i sto f r e s p e c ti v e r e l at i o nb et we e n many d o c u me nis a n d t e rm s . t h e s e m anti c s t ruc t u r e i s c o m p u t e dand d e a 1 withthe s tru c ture t o k e e p th e m o stm a i nr e l at i o nb e t w e e nd o c uments and t e rms an de l i m i n a t e s e l s e h u g e ， r e d und a n t ，血n o r facto r.th es truc t u r eo pti 面z e di s n o t o ulys marte r than the o r i g i n a l s t ru c t ur e ， b ut al s ok e e p sth em o stm a i nr e l at i o n ， i se as i e r t od e al with th ehi g h d i me n s i o n al i ty c h arac t e r i s t i co f t li et e xt d o c um e nt b ase do nv s m， s oitc an min eth e l ate nt s e ma n t i cr e l at i o n . i ns e que nt s e arc h ， thei at e ni s i mi l arity i sc o m p ut e db et we e n d o c um e nts and i mp rov e sthe e ffectiv e o n the p e r fo rm anc e o fthe w已 b te xt c at e g o ri z at i o n . w自 n gj i an fe n g( c o nunumc at i o nandi n fo rmat i o ns y stem ) d i r e ct e db yp r o f.yuan j i n s h a k e ywor d s : l a t e n t s e ma n t i c a n a ly s i s ，we b t e x t c a t e g o riz a t i o n ，vec t o r s p a c e mo d e l ，s i n g u l a r val u e d e c o mp o s i t i o u ，l o c a l fe a t u res p a c c 二七.口口尸明本人郑重声明: 此处所提交的硕士学位论文基于潜在语义分析的w 已 b 文本分类研究，是本人在华北电力大学攻读硕士学位期间，在导师指导下进行的研究工作和取得的研究成果。据本人所知，除了文中特别加以标注和致谢之处外，论文中不包含其他人己经发表或撰写过的研究成果，也不包含为获得华北电力大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名 : .五刃举。， : ，! 。 / .了关于学位论文使用授权的说明本人完全了解华北电力大学有关保留、使用学位论文的规定，即: 学校有权保管、并向有关部门送交学位论文的原件与复印件; 学校可以采用影印、缩印或其它复制手段复制并保存学位论文; 学校可允许学位论文被查阅或借阅: 学校可以学术交流为目的，复制赠送和交换学位论文: 同意学校可以用不同方式在不同媒体上发表、传播学位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定 ) 作者签名 : 工剑碎日期 : 夕沪2 2 了导师签名澎禅奥日期 : 立卫妇里一华北电力大学硕士学位论文第一章引言课题的背景和意义 1 . 1 . i w e b 文本分类定义 w e b 文本分类是指按照预先定义的分类体系，将待分类的w eb 文本测试集合中的每个文本归入一个或多个类别中，是一种典型的有教师的机器学习问题。经过文本分类处理，用户不但能够方便浏览文本，而且可以通过限制搜索范围来使文本的查找更为容易。目前，y ahoo 仍然是通过人工对 w eb 文本进行分类，这大大限制了其索引页面的数目和覆盖范围，可以说研究w eb文本分类有着广泛的商业前景和应用价值 1 1， 1 。从数学角度来看，文本分类是一个映射的过程，它将未标明类别的文本映射到己有的类别中，用数学公式表示如下:f : a 冲b 其中， a为待分类的文本集合， b 为分类体系中的类别集合。文本分类是系统根据训练集的样本数据信息总结分类规律并确定待分类文本的相关类别3 .文本分类是处理海量文本的有效方法，它能提供文本集的良好组织结构，大大简化文本的存取和操作，提高文本处理效率。文本分类在数字存储技术日益普及的今天，应用的范围十分广泛，例如:数字图书馆、电子邮件分类、新闻分类、文本检索等等 141 15 6 . 1 . 1 2 w eb 文本分类的重要性随着工 nternet 及其相关技术的飞速发展，互联网上出现了海量的、异质的w eb 信息资源，在这些庞大的信息资源中，蕴含着具有巨大潜在的有价值的知识.人们迫切需要能够从w eb上快速、有效地发现资源和知识的工具。于是功能强大的搜索引擎问世了( 如g oog le， a i t a v i s ta和b aidu等) ，这些搜索引擎可以按照知识的种类进行分门别类建立索引，有效的减轻了人们从海量的信息资源中寻找有价值信息的负担。但是，由于网络信息的爆炸式增长，搜索引擎的覆盖率有限，其查全率低; 同时，大多数搜索引擎都是基于全文的检索，不能达到赋词标引的效果，也导致查准率较低。再者，绝大多数搜索引擎智能化水平低，不能有效地提供个性化用户服务; 加之最重要的一点是，搜索引擎的目的在于定位 w eb上的资源，就w eb上的知识发现而言，搜索引擎不能够胜任 171 181 91 . 为了从海量数据中发现有效、新颖、潜在有用、可最终理解的模式，数据库领华北电力大学硕士学位论文域引入了数据挖掘( d atam ini ng) 。但是，数据挖掘的主要对象是结构化的数据仓库( d ata w a reh o u se) ，对于w eb上的异质、非结构化信息，并不能直接应用数据挖掘的技术: 为了解决这个问题，人们将传统的数据挖掘技术跟web 技术相结合形成了现在的w eb挖掘技术， w eb挖掘作为一个具有挑战性的新课题被提了出来，并得到了业界人士的广泛关注。另外研究发现，在海量的w eb信息资源中，有 8 。 % 以上的信息是以文本的形式存在的，因此隶属于w eb 内容挖掘的w eb文本挖掘显得尤为重要。 w e b 文本分类是w eb文本挖掘的一项重要技术，是指将w eb文本集合中每个文本归入一个预先定义的类别之中。这样，用户在浏览w eb文本时，就不会因为纵横交错的超链接而 “ 迷路” ，而是基于一种主题分类的指导。目前， y ahoo还是基于人工手工来对w eb 上的文本进行分类，这种作法存在弊端: 一是耗费了大量的人力和物力，二是由于个人的主观因素导致分类结果存在不一致现象;同时大大降低了索引数目，另外由于互联网的飞速发展，w eb 上大量的文本信息急剧增加，这种超出想象的信息增长迫切需要更高效更智能化的文本分类技术的产生，从而使得分类的正确率提高，保证检索结果的查全率和准确率 110 i1 11 。随着w eb文本分类技术在搜索引擎技术、数字图书馆技术、信息过滤、信息检索、互联网信息监控等领域的广泛应用， w eb文本分类的研究己经成为信息处理的一个前沿课题，有着广泛的应用前景和重要的研究意义。 1 .z we b 文本分类技术的研究现状 1 .2 . 1文本分类方法的研究现状在砰 eb 出现之前，人们已经对文本自动分类问题进行了大量的研究，形成了文本自动分类技术。随w eb 上海量的文本信息的增加，文本自动分类技术的处理对象从普通的文本扩展到了w eb 文本。很显然，文本自动分类技术也成为w eb文本分类技术的基础。国外对于文本自动分类的研究开展较早， 50 年代末， h .p .l uhn在这个领域进行了开创性的研究，提出了基于词频统计思想的文本自动分类方法。1 9 60 年， m a r o n发表了关于自动分类算法的第一篇论文，随后以 k . spark ， g .s alt on 以及 k .5 .jones 等人为代表的众多学者也在这一领域进行了很有成效的研究工作。目前国外的文本分类研究己经从实验性阶段进入到了实用化阶段，并在邮件分类，电子会议等方法取得了广泛的应用，其中较为成功的有麻省理工学院为白宫开发的邮件分类系统和卡内基集团为路透社开发的constru e 系统112 ll 3 。国内对于文本自动分类的研究起步较晚， 1 9 81年，侯汉清教授对计算机在文本 2 华北电力大学硕士学位论文分类工作中应用作了探讨和阐述。此后，我国陆续研究产生了一些文本分类系统，其中有具有代表性的有上海交通大学研制的基于神经网络算法的中文自动分类系统，清华大学的自动分类系统等等。同时在不伺的分类算法方面也展开了广泛的研究和实现，中科院计算所的李晓黎、史忠植等人应用概念推理网进行文本分类，查全率达到 94 . 2 ，准确率达到99 ，ll4 。中国科技大学的范众等人在 k n n 、贝叶斯和文档相似性研究的基础上提出了一个超文本协调分类器，正确率接近 8 0%，它的特点是适当的考虑了html 文本中结构化信息。复旦大学和富士通研究中心的黄营著、吴立德等人研究了独立语种的文本分类，并以词汇和类别的互信息量为评分函数，考虑了单分类和多分类，最好的查全率为88. 8 7%。上海交通大学的刁倩、王永成等人结合词权重和分类算法进行分类类，基于向量空间模型 ( v ect or s p acem odel， v s m )的封闭式测试实验中分类正确率达到97%o 目前，一些比较成熟的文本分类算法己经被应用到了w eb文本分类中，其中有基于vsm 的向量距离法、贝叶斯分类算法、 knn 分类算法、支持向量机分类算法、决策树分类算法和神经网络分类算法等等，近些年还出现了基于粗糙集合理论的文本分类算法和一些结合多种方法的混合分类方法 115 i 6 。 1 . 2 2 分类关键技术的研究现状在对乳b 文本进行分类的过程中，包括几个关键步骤:文本预处理、分词、权重计算、特征提取、降维技术，这些关键技术的研究和实现对最终的分类算法都有一定程度上的影响，下面将对分词、权重计算、特征提取和降维技术的研究现状做简单介绍。 ( 1)分词的研究现状汉语分词是中文文本分类的一个基础环节。汉语不像英语那样，词与词之间存在明显的分词标记，如空格、换行和标点符号;而汉语是一种无明显词间间隔的语言，词与词之间没有分割标记和界限，因而存在一个如何分词的问题就是分词技术。汉语自动分词是机器翻译、文献标引、智能检索、自然语言理解与处理的基础，也是中文文本分类的一个关键的环节。自从 80 年代初自动分词被提出以来，有众多的专家和学者为之付出了不懈的努力，涌现了许多成功的汉语分词系统，主要有北京航空航天大学研制的cdw s 和c w ss 分词系统，分词速度为2 00 字每秒。清华大学黄昌宁、马晏等开发的s e g 系统，分词速度为2 58字每秒，正确率为9 9 .3%。东北大学姚天顺建立的基于规则的汉语分词系统。南京大学王启祥等人实现的w s bn 分词系统。中科院计算所研制出的汉语词法分析系统 ictcl as 等等。汉语自动分词系统的实现及效果依赖于分词理论与方法。目前国内分词系统所华北电力大学硕士学位论文采用的或者正在研究的方法基本上分为三类: 机械分词、基于理解的分词和基于统计的分词 1 ，1 ，: 。 (2) 权重计算的研究现状文本的基本元素是词、词组和短语，文本经预处理和分词后，抽取能表示文本的特征项组成文本的特征向量形式， v (d ) = 拭，不 (d) ，兀，巩(d) ，，兀，嗽( d) ) 其中爪 (d) 表示对应特征项的权重。特征项的权重综合反映了该特征项对标识文本内容的贡献度和文本之间的区分能力。常用的特征项权重计算函数有以下几种: 布尔函数、开根号函数、 w id f 函数、著名的t f 一工 dp公式法【19 。 1 . 2. 3特征提取的研究现状特征提取就是从特征集t = tl ，，t，中提取一个真子集t= tl ，一，t，. ，其中，，为原始特征集的大小，了为提取后的特征集大小. 提取的准则是经特征选择后能有效提高文本分类准确率。选择没有改变原始特征空间的性质，只是从原始特征空间中提取了一部分重要的特征，组成一个新的低维空间。文本分类中，用于特征提取的统计量大致有:特征频度，文档频度，特征嫡，互信息，信息增益，尸统计量，特征权，期望交叉嫡等。这些统计量从不同的角度度量特征对分类起作用。目前，也出来了一些新的特征提取方法，如低损降维方法、频率差方法、 b aye s 准则法、fi值准则法和f i s h e r 简便量法等120 。 1 .3 本文的研究工作本文着重于对基于潜在语义分析的w eb 文本分类技术进行讨论与研究，主要工作包括: ( 1)详细地讨论了文本标引与标引词一文本矩阵的生成，包括文本标引、标引词权值的选择、归一化公式的选择、 w eb文本矩阵的特征表示; ( 2)给出了潜在语义分析的理论基础并阐述了其基本原理及相关问题，对比基于传统的向量空间模型，给出基于潜在语义分析的份 eb文本分类的步骤及方法; ( 3)分析了标引词的局部性，通过提取局部特征空间提高标引词集合的质量，给出语义空间提取方案，从而对潜在语义分析的w eb文本分类方法进行改进。 1 . 4 本文的内容组织本文共六章组成: 华北电力大学硕士学位论文第一章引言，该章介绍课题的背景和研究意义，分析we b 文本分类的研究现状，其中主要分析 w 己 b 文本分类方法和文本分类关键技术的研究现状，给出论文的主要研究工作和组织结构。第二章 w 七 b 文本分类前预处理，该章介绍w e b 文本分类前预处理的重要性和所包括的重要内容，包括文本采集和分词。给出文本采集的方法和分词算法，并对分词中出现的歧异性问题进行了详细分析，给出解决方案。第三章文本标引与标引词一文本矩阵的生成，该章主要介绍了文本标引的重要性，给出标引词一文本矩阵的生成方法，包括文本标引词的权值的选择和归一化方法。第四章认飞 b文本分类方法研究与实现，该章首先分析传统的基于空间向量模型的文本分类方法的不足，介绍了潜在语义分析的基本原来，给出基于潜在语义分析的 w七 b 文本分类方法和关键步骤，并给出各步的实现方法。第五章基于潜在语义分析w 七 b 文本分类方法的改进，该章详细分析了标引词的局部性，给出局部语义空间的提取方案，对文本分类方法进行改进 . 第六章总结与展望，该章总结了本文的研究成果和本课题可以继续研究的工作。华北电力大学硕士学位论文第二章 w eb文本分类前预处理文本预处理是文本分类的第一步，对文本分类效果的影响至关重要。与传统的数据库中的结构化数据相比，w eb文本具有有限的结构，或者根本就没有结构，即使具有一些结构，也还是着重于格式，而非文本的内容，且没有统一的结构，因此需要对这些文本数据进行相应的标准化预处理; 此外文本的内容是使用自然语言描述，计算机难以直接处理其语义，所以还需要进行文本数据的信息预处理。该章给出文本预处理中重要的两部分: 文本采集和分词，并给出各部分的算法和并且对实现中可能出现的奇异性问题给出解决方案。 2 .i w匕 b 文本信息采集 w eb信息采集( w ebcrawl in g ) ，主要是指通过 w eb页面之间的链接关系211 ，从脆b 上自动地获取页面信息，并且随着链接不断向整个 w eb扩展的过程。可以通过程序完成信息采集，程序的过程为: 从一个初始的u rl集出发，将这些 u rl 全部放入到一个有序的待采集队列里。而采集器从这个队列里按顺序取出 u rl，获取 u rl 所指向的页面，然后从这些已获取的页面中提取出新的 u rl。并将它们继续放入到待采集队列里，然后重复上面的过程，直到采集器根据自己的策略停止采集。对于有些采集器，到此就算完结了，而对于另一些采集器，它还要将采集到的页面数据和相关数据存储、索引并在此基础上对内容进行分析。目前，国内外的信息采集研究已有十余年的历史，已经实现了一些系统，从采集器的采集目标来看，它们可以分为两种类型: ( 1) 基于整个w eb 的信息采集器，它的目标是从一些种子 url 出发，尽可能多地采集信息页面甚至是整个 w eb上的资源122 。这类采集器主要作为门户搜索引擎和大型的w eb服务提供商的数据收集部分，由于需要采集的页面数量过于庞大，因此在消耗巨大的系统资源和网络资源的同时，这类采集器信息覆盖率日益下降，页面失效率不断增长，采集下来的页面利用率很低。 ( 2) 基于主题的 w eb 信息采集器，它的目标是只采集与特定主题相关的信息页面。这类采集器对整个 w eb页面进行分类，按类别采集，有效地减少采集页面的数量，增加采集页面的规整程度，因此大大减少系统资源和网络资源的消耗，并且提高采集下来的页面利用效率。每个采集器是一 s p i d er，是系统与 w eb 直接进行交互的部分主要通过 w eb 协议自动采集工 n t e r ne 上所有与主题相关的信息。为保持高速获取页面，在并行机制的基础上，对各个采集器采用多线程技术，在一般情况下，每个采集器能启动数 6 华北电力大学硕士学位论文百个线程. u r l管理器采取交织存取的方式管理待采集 u rl 队列和向各个采集器分配采集任务，因此可以保证同一个采集器上最多只有一个线程同时连接同一个信息服务器，从而有效避免导致该服务器因访问量骤增而出现阻塞甚至死机。 2. 2 w 七 b 信息采集的关键技术信息采集是信息分类的第一步，即通过网络 s p i d er 在网络上 “ 爬行”来获取信息。大多数搜索引擎，如 a l t a v i s t a ， g o o g l e 和l y c o s 都是用广泛的 “ 爬行” 来获得较高的覆盖率。由于一般的搜索引擎的目标是提供搜索这个w eb 的能力，故搜索引擎就致力于尽可能多的寻找不同的w eb网页，所以一般搜索引擎都采取广度优先的策略。而对于特殊领域的搜索引擎，则要求它的 s p i d er 能够避开那些与本领域无关的链接，将注意力集中在相关链接上，现在常采取的方法是效率优先的巩固学习方法( r e i n f o r c e m e n tl e ar n i n g ) 。 ( 1) 广度优先策略信息采集的每一次搜索都从外部指定的一条 u rl 开始，这条 u rl 被称作 “ 种子” 。我们将网络复杂的图结构简化为一个具有冗余节点的树结构。之后，就可以采用遍历树的方法来遍历网络了。由于希望s p ider: 每回抓取的站点都集中在“ 种子” 周围，因此选用宽度优先算法，这样离 “ 种子” 越近的 u rl 越先被获取. 采用链表结构来记录需要获取的 url ，具体步骤是: 将 “ 种于”的u r l加入链表; 读取链表中第一个 u r 工，抓取相应 h t ml文本，进行分析，提取概要信息，并在h t m l 文本中找出指向其它h t m l 文本的超链接，若不与链表中任一元素重复，则将此 u r l加入链表尾部; 判断程序是否结束，若没结束，则返回。通过指定抓取的最大节点数来设置结束条件或不限节点数而让 s pid er 自动遍历终止。 ( 2 ) 效率优先的巩固学习策略(r e in fo r c e l e a r n in g ) 有效的网络爬行是令人关注的。对于特殊领域的搜索引擎来说，因为己经圈定了搜索的主题范围，此时广度搜索己是次要的了，而主要的是搜索效率。巩固学习是通过对反馈的信息进行奖惩来学习的. 其最大特点是: 学习者并未被告知何谓正确行为，而仅仅被告诉其所选择的行为是好或者坏，好或坏的程度以分等级的 “ 奖惩”来表示。若设状态的集合为5 ，对于任何一种状态5 ，满足条件5 5 ; 行为的集合为a，对于任何一种行为a ，满足条件a a:函数 r :s* a兮5是状杰一行为转换函数，华北电力大学硕士学位论文该函数可以将一种状态经过一种行为而映射到另一种结果状态;函数r : 5 * a 峥贝是奖励函数，该函数将对于一种状态经历过一种行为后给予分级的奖励。在每一个时间段内学习者( 或称为代理) 选择一种行为，将会获得一个奖励和转换到一种新的状态。巩固学习策略的目的就是学习一种策略，即学习一个从状态映射到行为的策略二 : 5 斗a，使得学习者在学习的全部时间内获得奖励值的和最大; 通过极限方式来近似的得到奖励值之和是最常用的方法。通常的方法如下:设。 y 0) 或者叱= 0( 巩二 0) 布尔模型的特点是在权重计算时采用布尔权重进行评估。七 e r m 作为向量的维数来表示文本，向量完全是以 0 ，1形式来表示，即如果文本中出现了该词，那么文本向量的该维为 1 ，否则为 0 。权重函数为布尔函数，定义为: 1 . .” 职 0 代 = to. ，. 城= 。但是这种方法无法体现标引词在文本中的作用程度，所以0 和 1 逐渐地被更精确的词频代替。词频分为绝对词频和相对词频:绝对词频，即使用标引词在文本中出现的频率;相对词频为归一化的词频，其计算方法主要运用t f 工 d f 公式。 ( 2 ) t f i d f 型权重 tf: 叽二巩 tf ，刃尸 : 巩二巩， fo g( 叼职 ) ( 3 一 2 ) ( 3 一 3 ) 叽“ 巩， fo g 洲刀双 ) 艺 itfx，* 10 9 ( n/ 鱿) ， ( 3 一 4 ) ( 3 ) 基于嫡概念的权重( e n t r o p y， e i g h t i n g ) 华北电力大学硕士学位论文巩 = 1 0 9 ( te， + 1 0 ) * 10 9 ( 叼刀月 ) 艺l 0 9 ( tfb + 1 0 ) * lo g( n/dfk) ， ( 3 一 5 ) t f i d f 法的指导思想的前提是这样一条基本假设: 如果一个单词在一个文本中出现的次数很多，那么该单词在另一个同类文本中出现次数也会很多，反之亦然. 所以，如果将特征空间的坐标系取tf 词频作为测度，就可以体现同类文本的特点。接受t f i d f 法的基本假设，就是说如果以t f 词频作为特征空间的坐标系测度，那么文本向量彼此之间的夹角可以反映出两个文本的差异大小，进而判断它们是否同类。那么现在面临的问题是: 一个文本中对分类有用的词只占很小部分，而大部分词与我们要判别的类无关，属于 “ 噪音词” ，结果两个文本之间的夹角在很大程度上是由这些噪音词的词频差异，而非有用词的词频差异决定。这些噪音完全可能淹没有用信息，从而导致以作为坐标系测度的分类方法精度极低。对于这个问题，一种解决方法是对各 t erln 加权，权重大小取决于 t e r m有用的程度，有用的 t e r m 乘的权重高，无用的 t e rm 乘的权重低。由于每个文本向量的长度都是归一化了的，加权的结果实际上是使向量在特征空间中向有用的 t e r ln所代表的那些维旋转了一个角度.旋转后，无用的 t e r m词频的差异对向量夹角的影响被减小，而有用的 t er。词频的差异对向量夹角的影响被加强，也就是说噪音被抑制，有用信号被加强。 3 .4 权值的选择与归一化标引词不仅与一个文本有关，同时与文本集的关系也较密切，故对标引词的加权过程由三个部分组成:局部、全局、规范化。对标引词一文本矩阵 a 二 (au) ，。中的每一个元素马定义如下: 几= l ( 1 ， j ) x g ( 1 ) x n(力( 3 一 6 ) 其中， l( i，力为标引词汽在文本吮中的局部权值，仅与标引词在文本呜中的信息有关:g (i) 为标引词毛的全局权值，同整个文本集中标引词毛的使用情况有关; n(力为文本呜的归一化因子下面给出最常用的 l( i，力，g( i)， n 仃 ) 的公式列表 12 81 2 91 ，见表3 一 1 ，表3 一 2 ，表3 一 3 华北电力大学硕士学位论文表3 一 1 局部权值l(i ， j)计算公式符号名称公式 b二值 x ( 儿) t 标引词频率儿 c 增强的规范化标引词频率天 u ) i xl j，) +j ma x ; 几 l对数 10 9 ( 儿 + 1 ) 表 3 一 2 全局权值g (i)计算公式符号名称公式 x无 l f 倒排文本频率，。 1 l 乙，，，不、八 ) p 频率倒排， n 一艺一_lx (几 ) ) l二，x u ， )j 表 3 一 3 文本归一化因子n 名称的计算公式符号无余弦公式 1 艺几 1(l (i ， )x g (i ) 万加权的方案由一个三个字母所组成的串指示，三个字母相应地代表局部、全局、规范化。例如，使用加权策略 hn ，则表示， fo g ( 几+ 1 ) 内 = ( 3 一 7) 乏几， 10 9 ( 凡十 1 ) ， )王局部权值l(i ，力的选择依赖于文本集中的标引词，对于一般或变化的词汇，选择标引词频率公式作为局部权值，对于标引词表很短( 或者说标引词一文本矩阵维数很小 ) 时，选择二值公式作为局部权值。倒排文本频率公式( 力和概率倒排公式( 力华北电力大学硕士学位论文是最好的全局权值公式。文本归一化因子的余弦公式( n)对于较长的文本不是很有效。 3 .5 本章小结该章主要介绍了三个方面的内容，首先介绍了文本标引的方法和本文所采用的方法，然后重点介绍了标引词一文本矩阵的生成方法和步骤，由于标引词一文本矩阵中每个元素代表标引词在文本中出现的加权频率，权值的选择对于矩阵的生成有重要影响，所以在该章最后部分给出标引词权重的选择与归一化方法. 华北电力大学硕士学位论文第四章 web 文本分类方法研究与实现该章主要介绍利用潜在语义分析方法进行 w eb 文本分类的方法和步骤，并对比传统的基于向量空间模型的方法，给出基于潜在语义分析方法进行w eb 文本分类的优点。传统的基于文本关键字的向量空间模型( v s m)，用m个关键字维构成的文本向量d ，只= 心，姚，，心，表示文本集中的一个文本，并基于此进行文本过滤、检索的处理.它将非结构化的文本表示为向量形式，使得各种数学处理成为可能. 它的优点在于处理逻辑简单、快捷。但是，向量空间模型关于词间关系相互独立的基本假设( 正交假设) 在实际环境中很难满足，文本中出现的词往往存在一定的相关性。在某种程度上会影响计算的结果。同时，这种基于关键字的文本处理方法，主要依据词频信息，两个文本的相似度取决于它们拥有的共同词汇的数量，因而无法分辨自然语言的语义模糊性。自然语言中存在着大量的同义词和多义词现象，语义的准确表达不仅取决于词汇本身的恰当使用，也取决于上下文对词义的限定。如果忽视上下文语境的限制，仅以孤立的关键字来表示文本的内容，势必影响查询结果的准确性和完整性。另外基于向量空间模型的文本矩阵维数过高，增加了计算的复杂度使得分类算法的精度降低。本文利用潜在语义分析 ( l a t e n t s e m a n t i ca n a l y s i s ) 方法进行文本分类，认为词语在文本中的使用模式内存在着潜在的语义结构，同义词之间应该具有基本相同语义结构，多义词的使用必定具有多种不同的语义结构13 2 。潜在语义分析就是通过统计方法提取并量化这些潜在的语义结构，进而消除同义词、多义词的影响:利用奇异值分解 ( s i n g u l ar v a l u e d e c o m p o s i t i o n ) 对文本矩阵进行降维，从而提高文本表示的准确度。利用潜在语义分析进行 w eb 文本分类的步骤为: ( 1)生成标引词文本矩阵。 ( 2)在特征空间上运用文本聚类方法将样本集合分为若干簇。 ( 3)提取每一类别的特征，对得到的鉴别特征利用鉴别变换进行特征抽取，进行降维。 (4) 最后用得到的各个簇的特征矢量对待分类的文本进行分类。 4 . 1 向量空间模型 ( vec t o r s p a c e mo d e l ) 传统向量空间模型把文本和查询式表示成向量形式，从而将信息检索转化为向华北电力大学硕士学位论文量空间的向量匹配问题【291。为便于描述问题，给出以下有关概念的定义: 定义1文本:指一般的文献或文献中的片断，通常指一篇文章，记为d。定义2索引项: 是指文本中含有且能够代表该文本性质的基本语言单位，记为定义3 索引项权重、: 表示索引项兀对文本几的重要程度。气= l (i ，k )xg (i)，其中 l( i， k)，代表索引项兀在文档几中的局部权重，g (i)为索引项界的全局权重。其计算方法主要运用犷一 idf 公式，目前存在多种扩一可公式，现给出一个常用的归一化公式，呱= 呱x l o g ( 叼) ( 4 一1 ) 酞。。【呱 109 ( 叼们式(4 一 1)中，关表示索引项兀在文本几中出现的次数( 即索引项频率) ，几越高，意味着索引项界对于文本只越重要; 或表示含有索引项兀的文本数量( 即索引项的文本频率 ) ，听越高，意味着索引项界在衡量文本之间相似性方面的作用越低; n = 回，即全部文档的数量，分母为归一化因子; 晰= lo g( 叼或) 为逆向文本频率，晰越高，意味着索引项界对于文本的区别作用越大。如果一个索引项兀仅出现在一个文本中，则峨二 fo g( 刃。如果一个索引项界出现在所有的文本中，则 ida = 1 0 9 1 = 0 。定义4 向量空间模型: 设文本集合中共有n 个不同的索引项不，兀，，二，兀，根据式 (4 一 1)计算文本只的索引项权重、，如果把文本不，兀，，兀，看成一个n 维坐标系，、为坐标系的值，则试 = ( 衅，峭，，，嵘， )t 成为n 维空间中的一个向量，即文本只的向量表示。设用户查询式向量为马 = ( 衅，峭，，，嵘，) ，为索引项界在查询式q 中的权重，并根据布尔模型进行确定，则用户查询式的向量化过程可表示为，吧= 抒 l u ，若界。 q 若界必 q ( 4 一 2) 定义5相似度: 衡量一篇文本向量与用户查询式向量的相近程度，即判断某篇文本是否是用户所需要的。计算相似度的方法有许多种，通常用两个向量的夹角余弦或 j accard 相似度函数，其中 j accar d 相似函数为: 艺心)心， 5 ( 全，试 ) = j ( 弓，试 ) = ，不一-二一一一一二一一一一一 - 艺 ( 昨， )， + 艺 ( 嵘，) ，一艺 ( 嵘， )( 嵘，) ( 4 一3 ) 华北电力大学硕士学位论文标引词权重、的直观含义是一个标引词对于一个文本的重要程度，即一个标引词在多大程度上可以将该文本与其它文本区分开来。采用梦一 idf方法对标引词加权，在一定程度上给那些经常出现在较少文本中，而不常出现在绝大部分文本中的标引词赋予更高的权重130 l3 1 。由于 w eb文本的半结构化特征，一些标引词出现在特殊位置上，比如:标题，小标题，超链接等不同域。这些特殊位置的内容代表了 w eb 文本的重要信息，因此标引词出现的位置与其权重密切相关。而向量空间模型中采用了一 idf 方法计算标引词权重时忽略了这些信息的重要性，这是造成w eb信息检索系统输出结果排序能力差的主要原因之一。另外，文本向量计算过程中采用了扩一 idf 方法，这样导致每增加一个， eb 文本都需要重新计算向量，从而增加了系统的负载，使分类速度变慢32卜 135 。 4 .2 潜在语义分析基本原理(l a t e n t s e man t i 。 a n a l y s i s ) 潜在语义分析方法认为在特征词条之间存在潜在的语义关联，而这种语义关联仅仅通过特征词条的词频特性不能很好地描述136 l3 7 。对任一w eb 文本数据库，特征词条的数目国和文本数目剑通常会很大，如此高的维数会导致非常大的稀疏向量，进而影响计算效率，增加寻找类特征的难度。潜在语义分析出发点就是文本中的词与词之间存在某种联系，即存在某种潜在的语义结构。这种潜在的语义结构隐藏在文本中词语的上下文使用模式中，因此采用统计计算的方法，对大量的文本中进行分析来寻找这种潜在的语义结构，它不需要确定的语义编码，仅依赖于上下文中事物的联系，并用语义结构来表示词和文本，达到消除词之间的相关性，简化文本向量的目的 38 139 140 。三维一潜在语义空间示例如图4 一 1 所示正交) 语义维一1 护语义维一2 护词向量八妇文本向量e 妇 (正交语义维一3 图4 一 1三维一潜在语义空间示例潜在语义分析首先对文本矩阵进行奇异值分解导出潜在语义结构模型. 将矩阵分解成三个特殊矩阵的过程就是将文本矩阵所表示的词与词间的关系分解成线性 l 9 华北电力大学硕士学位论文独立的分量的过程。这些分量中有许多非常小，完全可以忽略，从而得到维数少得多的近似模型 14 ， 11 ， 14 3 。 4 .3 奇异值分解 ( 5 认 g u l arval u e d e c o m p o s it io n ) 奇异值分解可以把任何一个实矩阵转换为对角阵形式。对于矩阵a，a t a 具有非负的特征值。a t a 的特征值的非负平方根称为a 的奇异值，非零奇异值的数目等于a 的秩仓口月无 ( a) ) 。设a 为m x n 矩阵，并且仓口 ” k( a) ) = r ，a 的奇异值分解定义为 1 5 0 1 . a= u 下 f 7 t( 4 一 4 ) 其中u和v为正交矩阵，矩阵u的大小为mx m，矩阵v的大小为 n x n ，牙为奇异对角阵，大小为m x n ，是原矩阵a 的消减矩阵。牙对角元素为a 的奇异值: al ，0 2 ，， a，， 0 ，，。，且al之几乡二之口， 0 。由于矩阵平中的对角元素由大到小排列，可以保留前k 个最大的特征值，而对较小的特征值取为零。如此，对u、平和v做相应的处理，可以得到矩阵a 的一个近似矩阵再，且rank( 凡) = k ，再= 认巩叮( 4 一 5 二其中，删去u 的第k +1到第m 列得到认，删去vt的第k +1到第n 行得到可。奇异值分解的步骤为，先求出矩阵的秩，再求出矩阵的所有非零奇异值，奇异值的个数小于等于矩阵的秩:根据奇异值构成一个对角线矩阵 5 ， 5的主对角线上的元素是奇异值，其它元素为零; 根据奇异值计算出奇异值对应的奇异向量构成两个奇异矩阵，分解得到三个矩阵( 一个对角线矩阵，两个奇异矩阵) ，这三个矩阵相乘就能得到初始矩阵 44 4 5 . 进行奇异值分解时主要是求出矩阵的奇异值然后根据奇异值算出两个奇异矩阵，设a 的非零奇异值有r 个，分解生成的三个矩阵是嵘，呱和珠。根据矩阵a 新生成一个矩阵b ， b 是a 和a 的转置的乘积即b = aar 或者b = a t a，这样b 的特征值的非负平方根就是a 的奇异值，而且aar 和a t a 有相同的特征值，因此通过求aar( 或a t a ) 的特征值的平方根就可以得到矩阵a 的奇异值。矩阵朋r 的特征向量称为左奇异向量，r 个左奇异向量构成呱 ; 矩阵a t a 的特征向量称为右奇异向量，产个右奇异向量构成珠。因此根据特征值求出 aar 和矛a 的特征向量，就能得到两个奇异矩阵嵘和玲. 上述获得的两个奇异矩阵和一个对角线矩阵是高维矩阵，需要对其进行简化，根据前面选取的k 值来确定奇异值分解得到的三个矩阵的维数，分解得到的三个矩阵嵘、凡和珠中的 k 就是选取的 k 值. 通过选取恰当的k 值可以减少三个矩阵的维数，而且简化后的三个矩阵的乘积与初始矩阵是非常近似的，对于进行下一步计

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）基于潜在语义分析的web文本分类研究.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）基于潜在语义分析的web文本分类研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档