（计算机应用技术专业论文）中文文本主题词抽取研究与应用.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-19 格式：PDF 页数：57 大小：1.62MB 积分：0 举报 版权申诉

已阅读5页，还剩52页未读，继续免费阅读

（计算机应用技术专业论文）中文文本主题词抽取研究与应用.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

复旦大学硕士学位论文中文文本主题词抽取研究与应用摘要本文对文本主题词抽取进行了系统的研究，介绍了一种利用关联规则挖掘中文文本主题词的方法。其中文本主题词由关键词和相关词组成，用户可以根据提供的关键词和相关词了解w e b 页面的主题，有助于用户快速浏览页面，了解页面内容；另外，相关词可以帮助用户扩展思路，提示用户未曾考虑到或并未掌握的相关内容，从而更广泛、更全面地获得自己所需的信息，提高信息检索效率。传统的主题词抽取主要是从文档正文中抽取关键词( k e y p 髓e x t r a c t i o n ) ，文档经过规范化处理被分成一系列的候选词，最后用一种有监督的学习算法确定候选词是否被选为关键词。在关键词抽取模块中，本文采用4 4 种词性匹配模版对候选词进行组合，通过计算特征值优先抽取t r i g r a m 和b i g r a m 作为关键词，使抽取结果能够同时兼顾信息量大和可读性好两种特点。在关键词抽取的基础上，我们提出一种基于关联规则挖掘相关词的方法，使相关词和从该话题文本正文中抽取的关键词一起，作为文本主题词。在相关词抽取模块中，系统经过噪音过滤的关键词集作为关联规则学习的项目集，单篇文档对应的关键词作为一个项目，a p r i o r i 算法首先通过用户给定的最小支持度，寻找所有频繁项目集，然后由频繁项集产生强关联规则，这些规则必须满足最小支持度和最小置信度。系统根据关联规则挖掘结果找出和关键词屯有关的其它关键词，如，乇作为关键词对应文档的相关词，并和该篇文档的关键词共同组成文本主题词。实验表明，本文提出的利用关联规则挖掘文本主题词方法较为准确和有效，取得了较高的用户满意度。关键词：文本挖掘文本主题词抽取关联规则中图分类号：t p 3 2 复旦大学硕士学位论文中文文本主题词抽取研究与应用 a b s t r a c t t h i sp a p e rp r e s e n t sat h e m a t i ct e r m se x t r a c t i o na p p r o a c ht h a ti s b a s e do na s s o c i a t i o nr u l e s t h e m a t i ct e r m sa r ec o n s i s to f k e y p h r a s e sa n d r e l a t e dt e r m s ，w h i c hc o u l dg r e a t l yh e l pu s e r sg r a s pt h e m e so f w e b p a g e s ， a sw e l la sa c c e l e r a t i n gt h e i rb r o w s i n gs p e e d a l s o ，r e l a t e dt e r m sc o u l d n o t i f yu s e r sw i t ht e r m sw h i c ha r ev e r yu s e f u la n dh i g h l yr e l a t e dt ot h e d o c u m e n tb u tn o tt h a tf a m i l i a rt ou s e i s t h u se f f e c t i v e l yi n c r e a s i n gt h e e m c i e n e yo fi n f o r m a t i o nr e t r i e v a l t r a d i t i o n a lt h e m a t i ct e r m se x t r a c t i o n a p p r o a c h e sl a r g e l y c o n c e n t r a t eo n e x t r a c t i n gk e y p h r a s e sf r o md o c u m e n t s ，w h i c ha r es p l i t - t e d i n t oa g r o u po fc a n d i d a t ew o r d sa f t e rs t a n d a r d i z a t i o n ，a n ds o m es p e c i f i c l e a m i n ga l g o r i t h ma r eu t i l i z e dt oc h o o s ea p p r o p r i a t ew o r d sa n dp h r a s e s a sk e y p h r a s e s i no u rm e t h o d ，w ea d o p t e d4 4k i n d so fp a r t - o f s p e e c h c o m b i n a t i o n t e m p l a t e s ，t r i g r a m s a n db i g r a m sa r es e l e c t e da s k e y p h r a s e sw i t hh i 曲p r i o r i t y , w h i c hi n s u r et h er e s u l t sw i t hg o o d i n f o m a t i v e n e s sa n dr e a d a b i l i t y m o r e o v e r ，w ep r o p o s ear e l a t e dt e r m se x t r a c t i o na p p r o a c hb a s e do n a s s o c i a t i o nr u l e s a n dr e l a t e dt e r m sa n dk e y p h r a s e sa r ec o m b i n e da s t h e m a t i ct e r m s i nr e l a t e dt e r m se x t r a c t i o nm o d u l e ，w eb u i l dt h ei t e ms e t b yc o m b i n i n ga l lk e y p h r a s e sf r o mt h ek e y p h r a s e se x t r a c t i o nm o d u l e ， a p r i o r ia l g o r i t h mi s u s e dt of i n dm a x i m a lf r e q u e n ti t e m s e t sa n d a s s o c i a t i o nr u l e sb a s e do nv a l u e so fs u p p o r ta n dc o n f i d e n c e 。w h i c ha r e s p e c i f i e db yu s e r s a f t e rt h a t , r e l a t e dt e r m sa r ec o l l e c t e da c c o r d i n gt o a s s o c i a t i o nr u l e s ，a n dt h e y t o g e t h e rc o n s t i t u t et h e m a t i ct e r m s o u r e x p e r i m e n t ss h o wt i l a t ，t h i sa p p r o a c hi sp r o m i s i n ga n ds a t i s f y i n g ，a n d c o u l db ea c c e p t e db ym o s tu s e r s k e yw o r d s ：t e x tm i n i n g ，t h e m a t i ct e r m se x t r a c t i o n ，a s s o c i a t i o nr u l e s 论文独创性声明本论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除了特别加以标注和致谢的地方外，不包含其他人或其它机构已经发表或撰写过的研究成果。其他同志对本研究的启发和所做的贡献均已在论文中作了明确的声明并表示了谢意。作者签名：率论文使用授权声明日期翌2 垒，；本人完全了解复旦大学有关保留、使用学位论文的规定，即：学校有权保留送交论文的复印件，允许论文被查阅和借阅；学校可以公布论文的全部或部分内容，可以采用影印、缩印或其它复制手段保存论文。保密的论文在解密后遵守此规定。作者签名：导师签名：二逝日期：导师签名：童镫日期：多吩7 。占，多复旦大学硕士学位论文中文文本主题词抽取研究与应用第一章引言 1 1 本文所研究的内容和意义互联网的迅速发展导致如何从互联网上智能获取信息成为一个亟待解决的问题，人们在查找和利用信息时变得越来越困难。如何从浩瀚的互联网中查找所需要的信息? 信息检索和搜索引擎可以为人们提供方便快捷的道路。但是，信息检索和搜索引擎往往返回给用户大量和查询无关或者关联不大的w e b 页面和文本，因此，人们在找到若干页面和文本之后，仍旧迫切需要一种工具进行快速浏览。鉴于此，有人提出对文本主题进行自动提取，以提高用户浏览文本的速度和信息访问效率。好的文本主题词可以帮助读者决定是否需要查看文章全文【5 】。因此，提取高质量的文本主题词可节约读者宝贵的时间和精力，从而大大提高信息检索和处理的速度。文本主题词抽取是使用计算机从文本原文中选择最能代表文章主旨的词句，或者从预定义的词表中选取合适的词语进行填充，从而生成主题。其目标是，为给定的文本生成富含信息量和可读性好的主题描述，有助用户快速浏览文档，找到自己需要的信息。为了达到上述目的，人们提出了各种方法：从预定义的领域主题词表中选择能够代表文章内容的词，也称为指定关键词( k e y p h r a s ea s s i g n m e n t ) ；从文档正文中抽取关键词( k e y p h r a s ee x t r a c t i o n ) ，文档经过规范化处理被分成一系列的候选词，最后用一种有监督的学习算法确定候选词是否为关键词【1 】；在这里，我们提出一种基于关联规则挖掘相关词的方法，使相关词和从该话题文本正文中抽取的关键词一起，作为文本主题词。用户可以根据提供的关键词和相关词了解w e b 页面的主题，有助于用户快速浏览页面，了解页面内容。另外，相关词可以帮助用户扩展思路，提示用户未曾考虑到或并未掌握的相关内容，从而更广泛、更全面地获得自己所需的信息，提高信息检索效率。比如，用户在信息检索时提交的查询有“w i n d o w s ”和“w i n d o w ”等关键词，大多数用户认为 “w i n d o w s ”是微软公司的操作系统，因此浏览的w e b 页面中包含“m i c r o s o f t c o r p o r a t i o n ”和“b i l lg a t e s ”等关键词，这样用户提交的检索词“w i n d o w s ”与这些描述该操作系统的文章建立了紧密的联系【3 2 】，也即与这些文章的关键词，如“m i c r o s o f t ”，“g a t e s ”或“o p e r a t i n gs y s t e m ”等建立了关联。当包含“w i n d o w s ” 的新查询出现时，这些与其高度关联的词自然就成为补充描述用户意图的最佳选择，即我们提供的相关词。 2 复旦大学硕士学位论文中文文本主题词抽取研究与应用利用关联规则挖掘文本主题词的方法主要分为关键词抽取和相关词抽取两大模块。在关键词抽取模块中，由于不同的b i g r a m 和t r i g r a m 在反映文本主题的能力和重要性方面有很大差别，我们引入词性匹配方法，使富含信息量和可读性好的t r i g r a m 和b i g r a m 优先作为关键词写入数据库。在相关词抽取模块中，我们提出一种基于关联规则挖掘相关词的方法。关联规则最初用于发现交易数据库中不同商品之间的联系规则，这里我们把经过噪音过滤的关键词集作为关联规则学习的项目集，单篇文档对应的关键词作为一个项目，通过a p r i o r i 算法【8 】由频繁项集产生强关联规则，系统根据关联规则挖掘结果找出和关键词有关的其它关键词，之，) 作为关键词对应文档的相关词，并和该篇文档的关键词共同组成文本主题词。 1 2 本文的组织结构全文共分为六章。第一章为引言，主要给出文本主题词抽取所研究的内容和意义。第二章重点介绍文本主题词抽取的研究现状，把文本主题词抽取分为关键词和相关词两部分，分别给出研究背景和相关工作。另外重点讨论了基于词典、词义和统计学习的方法用于抽取文本主题词以及一些典型的抽取系统。第三章开始描述本文作者提出的利用关联规则挖掘文本主题词的方法，首先给出数据挖掘中利用a p r i o r i 算法挖掘频繁项集以及关联规则的过程，其后研究如何把关联规则挖掘应用于中文信息处理。第四章具体介绍利用关联规则挖掘文本主题词系统，并给出实验数据、实验背景和各种方法的评价和结果分析。第五章给出中文文本主题词抽取在互联网舆情分析跟踪项目上的应用。第六章小结了本文的主要工作及对未来的展望。复旦大学硕士学位论文中文文本主题词抽取研究与应用第二章文本主题词抽取的研究现状 2 1 关键词的研究历史和现状关键词被定义为表示文章主题内容、信息、款目的单词或术语，它可用于多种目的，诸如文摘，索引，标记，分类，聚类，标识，浏览和检索等 5 】。对于单个文档，关键词可以作为文本主题，对标题的内容进行补充，加速浏览。对于一组文档集，关键词可以用作主题索引，分类，聚类，浏览和检索等。关键词也可用于其他类型的文档如网页，e m a i l ，新闻，杂志上的文章等。关键词抽取还和一系列数据挖掘相关的任务都有着紧密联系，诸如文档检索，网页信息抽取，文本聚类和摘要，人机可读索引，互动查询优化等 2 1 1 3 1 。对于给定文档提供关键词一般有两种方法：指定关键词( k e y p h r a s e a s s i g n m e n t ) 和关键词抽取( k e y p h r a s ee x t r a c t i o n ) 。 2 1 1 指定关键词( k e y p h r a s ea s s i g n m e n t ) 随着i n t e m e t 和企业内部互联网( i n t r a n e t ) 上信息量的不断增加，人们管理：和利用这些信息源的需求也在逐步增长。指定关键词( k e y p h r a s ea s s i g n m e n t ) 成为信息组织和管理的重要步骤之一，它被定义为：根据内容把自然语言文本分配到一些预定义的类别中，故而也称为文本分类( t e x tc a t e g o r i z a t i o n ) ，可应用于文本检索、定位和过滤等很多方面。在该方法中，所有的关键词来自一个预定义的受控词表，也称为分类目录( c a t e g o r i e s ) ，再应用机器学习算法，通过一系列的训练文档找到一种文本和类别的对应关系。具体来说就是在训练过程中，对每个类别训练一个分类器，用属于这个类别的文档作为正例，不属于这个类别的文档作为负例进行训练。对于测试集中的某篇文档，如果该类别的分类器将其分为正例，则认定它属于该类别【5 】。文本分类技术可广泛用于一些灵活、动态和个性化的信息管理任务，如对电子邮件或文件进行实时分类，对话题进行分类以便针对不同的话题进行不同的操作，固定目标或更灵活的基于任务的文档匹配。分类技术支持灵活动态和个性化的结构，同时也应该支持更加综合、相对静态的分类结构。一些典型的分类系统包括： ( 1 ) y a h o o ! 分类目录 ( 2 ) 美国国立医学图书馆( n a t i o n a ll i b r a r yo f m e d i c i n e ，n l m ) 创立的生物医学文献目录m e s h ( m e d i c a ls u b j e c th e a d i n g s ) 4 复旦大学硕士学位论文中文文本主题词抽取研究与应用 ( 3 ) 美国国会图书馆分类系统( l i b r a r yo f c o n g r e s sc l a s s i f i c a t i o ns y s t e m s ) 下面分别对这三种分类系统进行介绍： ( 1 ) y a h o o 分类目录由1 4 个基本大类组成，包括a r t & h u m a n i t i e s ( 艺术与人文) 、b u s i n e s s & e c o n o m y ( 商业与经济) 、c o m p u t e r s & i n t e r a c t ( 电脑与网际网路网络) 、e d u c a t i o n ( 教育) 、e n t e r t a i n m e n t ( 娱乐) 、g o v e r n m e n t ( 政府) 、h e a l t h ( 健康与医药) 、n e w s m e d i a ( 新闻与媒体) 、r e c r e a t i o n s p o r t s ( 休闲与运动) 、 r e f e r e n c e ( 参考资料) 、r e g i o n a l ( 家与地区) ，s c i e n c e ( 科学) 、s o c i a l s c i e n c e ( 社会科学) 、s o c i e t y & c u l t u r e ( 社会与文化) 。根据其拥有的信息或网站的多寡及知识组织的需要程度，每一个基本类目下细分不同层次的次类目或子类目，愈往下的子类目中的网站其主题愈特定。它建立了一个由类目、子类目等构成的可供浏览的相当详尽的目录等级结构。其类目设计合理，结构完整、全面，类目等级层次鲜明，各级详略、宽泛程度不一，从而为网上丰富的信息资源的归类，尤其是确切归类提供了基础。 ( 2 ) m e s h 是专门应用于检索系统的手工构建的分类目录，由美国国立医学图书馆( n a t i o n a ll i b r a r yo fm e d i c i n e ，n l m ) 于1 9 7 1 年创立，是当今世界上最大也是最权威的生物医学文献数据库。其中t h e s a u r u s m e s h ( m e d i c a ls u b j e c t h e a d i n g s ) 是一个大型的受控词表，它以标准的术语描述生物医学概念，它提供词表中每个词的定义、注释，并体现学科体系的分类树状结构。m e s h 指引检索者使用规范化的生物医学术语进行有效检索。 m e s h 的维护和更新由美国国立医学图书馆( n l m ) 的专家负责，他们根据检索者提议，从大量新兴领域的科学文献中中收集未登录的主题词，为这些新词在m e s h 中选取合适的类别，然后报告给m e s h 的专家组进行讨论。 ( 3 ) 美国国会图书馆分类系统( l c ) 由美国国会图书馆在馆长gh 普特南主持下根据本馆藏书编制的综合性等级列举式分类法，共分2 0 个大类，其中历史占3 个大类，军事占2 个大类，包括a 总论b 哲学、心理学、宗教c 历史辅助科学d 历史；世界史及世界古代史e ，f 历史；美洲史g 地理、地图、人类学、娱乐h 社会科学j 政治学k 法律l 教育m 音乐n 美术p 语言、文学q 【自然】科学r 医学s 农业t 技术u 军事科学v 海军科学z 目录学、图书馆学美国国会图书馆分类系统( l c ) 类目详尽，多达2 0 多万个，使世界上类目复旦大学硕士学位论文中文文本主题词抽取研究与应用最多、篇幅最大的分类法，不仅可适用于综合性图书馆，而且也适用于相应的专业图书馆。该分类法能够及时反映新学科和新主题。美国国会图书馆设有专门部门管理l c ，根据馆藏变化及时修订类表，并按季编印发行l c 的补充和修改，及时报道l c 类号的修订信息。这些大型的分类系统的维护和更新需要大量的领域专家来为新的信息进行收集和分类，作用相对有限，于是发展自动文本分类技术的需求越来越强烈，具体可分为两类：基于规则的分类方法和基于归纳学习的分类方法。前者比较常见，但需要人工创建规则，定义类别成员，而且改动起来比较困难；后者则使用归纳学习技术来自动构建分类器。由于词汇的特征项超过数百万，相应地对归纳学习方法提出了许多新的要求。最后得到的分类器应易于构建和更新，能根据个人的要求被归入特殊的种类中，并且允许用户根据他们的任务权衡精度和取消输入。常用的统计分类和机器学习方法包括多变量衰退模型、最近邻分类器、贝叶斯模型、决策树和神经网络等等。 2 1 2 关键词抽取( k e y p h r a s ee x t r a c t i o n ) 关键词抽取( k e y p h r a s ee x t r a c t i o n ) q b 不存在预定义的词汇表，关键词是从文档正文中抽取的，文档经过规范化处理被分成一系列的候选词，最后用一种有监督的学习算法确定候选词是否为关键词。目前关键词抽取的方法主要分为以下三种：基于词典的方法、基于词义方法、以及基于统计学习的方法。 2 1 2 1 基于词典的方法基于词典的方法的基本思想是：将文档的种类可以按不同的领域进行划分，一般而言，有相当一部分词它们表达文档主题特征的能力受到文档类型的限制，针对不同类型的文档，各抽取一定量文本样本，采用一定的训练算法提取特征词，建立针对该领域的特征词词典，以此作为文档的背景词典。在进行关键词抽取时，根据特征词词典，并综合考虑词频、词长等信息，对文档中出现的词进行加权，最终按照权重抽取关键词。如下图所示： 6 复旦大学硕士学位论文中文文本主题词抽取研究与应用 i j 这种方法在文本自动分类、主题词提取、主题标引时经常被用到，而且效果显著。其主要特点为：提取准确率较高，但由于受到背景词典的限制，该方法查全率较低，而且抽取范围仅限于出现在特征词词典中的关键词，其抽取结果直接收到背景词典的限制。 2 1 2 2 基于词义的方法基于词义的方法的基本思想是：给定的文档是按照一定意义对词汇进行排列组合的符号串，是围绕文献主题有关方面所做的判断、推理、结论等等，一个词如果是关键词的话，就不可能是孤立的，围绕着它必然会展开论述，主题关键词之间构成一个语义结构图，词语按照所讨论的关键词形成意义聚类。将这些语义聚类划分出来，深入挖掘文献中所包含的语义信息，就可以提高关键词的提取准确率。如下图所示： _ - - - - - - - _ - - - _ - _ - - - _ - - - - - - - - - - - - - - - - - - - - - - - i 7 复旦大学硕士学位论文中文文本主题词抽取研究与应用基于词义的方法虽然在一定程度上代表了自然语言理解的发展方向，但是这种方法实现结果直接受到用户所建立“规则库”性能的影响，还需要进行大量的词义排歧、同义词识别工作，目前计算机在处理这些技术方面还存在着一定的局限性。同时对于未登录词，也缺乏相应的处理机制，因此这种方法还只能处于试验阶段。 2 1 2 3 基于统计学习的方法基于统计学习方法的基本思想是：在表达文章主题时，起主要作用的是名词、动词等实词，这部分词中出现频率越高，出现位置越特殊( 如标题，首段等等) 标记、特殊提示的词，对表达文章的主题越有意义。在进行关键词提取时，综合考虑这些特征进行加权。下表归纳了基于统计学习方法抽取关键词中重要人物的工作：人物代表文章 a 删 s p r i n g s y m p o s i u mo nm a c h i n e k r u l w i c h & b u r k e y l e a r n i n gi ni n f o r m a t i o n a c c e s s ，1 9 9 6 m u n o z f r a n ke t a l i n t e l l i g e n t d a t a a n a l y s i s ，1 9 9 6 i n t e r n a t i o n a lj o i n t c o n f e r e n c e o n a r t i f i c i a l i n t e l l i g e n c e ， 1 9 9 9 8 主要贡献用启发式算法从文档中抽取关键词，用到的特征包括斜体字、文章段落标题、首字母缩写词等。他们的目的是抽取关键词用作文档分类，算法精度较低。用非监督的学习算法抽取t w o - w o r d 关键词，算法基于a d a p t i v er e s o n a n c et h e o r y 神经网络，而且只限于抽取二元的关键词。实现系统k e a ，把关键词抽取作为一个有监督的学习过程。在训练和抽取过程中对每个候选词计算连个特征值：t f i d f 和词语文档中的首次出现位置，最后用b a y e s 分类算法确定候选词是否为关键词。复旦大学硕士学位论文中文文本主题词抽取研究与应用 e ta 1 i n f o r m a t i o n p e t e rd t u m e y r e t r i e v a l ，1 9 9 9 t a k a s h it o m o k i y o j i a - l o n gw ua n d a l i c em a g o g i n o a c l w o r k s h o p o nm u l t i w o r d e x p r e s s i o n s ，2 0 0 3 i e e ei n t e r n a t i o n a l c o n f e r e n c e o n s y s t e ms c i e n c e s ，2 0 0 4 2 1 2 4 特征的选取给出关键词抽取系统 g e n e x ，该系统基于一套确定参数的启发式规则，这些参数通过一个基因算法来调整，基因算法通过这些规则的参数优化了在训练文档集中被正确指定的关键词的数量。 t u m e y 比较了g e n e x 和标准机器学习技术如b a g g e d d e c i s i o nt r e e s ，g e n e x 具有更好的性能。提出用统计语言模型抽取关键词的方法，通过计算模型间的k l 距离来给关键词的 p h r a s e n e s s 和i n f o r m a t i v e n e s s 程度打分，并将两个分数整合排序。把对整个语料集抽取关键词作为全局最优问题进行处理，目标是找出用于描述该语料集的关键词的最优集合。由于最优条件本身通常是多面的，故而考虑采用用多目标基因算法( m o g a s ) 。在机器学习算法中，特征选取是极其重要的一步，好的特征能够更加正确的代表单词本身，还能建立更好的映射。一些重要的特征包括：( 1 ) t f i d f 函数( 2 ) 词语在文档中首次出现位置( 3 ) 词语上下文信息 ( 1 ) t f i d f 函数首先根据向量空间模型将文档映射为一个特征向量： v ( d ) = “，w i ( d ) ；，q ) ) 9 复旦大学硕士学位论文中文文本主题词抽取研究与应用其中o = 1 ，2 ，疗) 为一列互不相同的词条项，m ( d ) 为在d 中的权值，一般被定义为在d 中出现频率斫( d ) 的函数，即) “矿( 斫( d ) ) 。在信息检索中常用的词条权值计算方法为z f i d f 函数：妒：绣( d ) 。l o g ( 马啊其中为所有文档的数目，嘶为含有词条的文档数目，下面是一个常用的t f i d f 公式： m ( d ) = 根据z f 一仞f 公式，文档集中包含某一词条的文档越多，说明它区分文档类别属性的能力越低，其权值越小；另一方面，某一文档中某一词条出现的频率越高，说明它区分文档内容属性的能力越强，其权值越大。 ( 2 ) 词语在文档中首次出现位置即被计算为在候选次第一次出现前的词的个数，用它除以该文档词的总数。这个值是一个界于0 和1 之间的实数。 ( 3 ) 词语的上下文权值经验分析表明，词语的上下文对关键词的抽取也有很大的作用。词的上下文被定义为在这个词前后指定个数的词。实验一般指定次的个数为2 0 个单词，包括其之前的十个词之后十个词。计算词的上下文的公式如下： w ：至翌。 s i z e ( c i ) 其中是上下文中词的z f 一，d f 权值总和，s 切( q ) 是上下文中词的数量。实验分析表明，关键词上下文总是包含具有高t f i d f 值的词。 ( 4 ) 针对w e b 页面的视觉修正系数与纯文本数据不同，w e b 页面是一种半结构化的数据，由标记和文本构成。在w e b 页面中对任意一个特征而言，有两个因素影响权值。从内容上分析，是词在单个标记、h t m l 文档和整个文档集中出现的频率；另一个是该词的视觉效果，即给人留下印象的醒目程度，这是从h t m l 的格式上分析的。 1 0 复旦大学硕士学位论文中文文本主题词抽取研究与应用仔细分析h t m l 文件的格式，可以发现某些标记对网页的主题表现有突出的贡献。例如，标题是对一篇文章的全面概括，因此其中的词作为主题词或关键词的可能性就很大，另外一些标注为黑体或高亮的文本也往往是文章作者想要表达的重点。因此需要引入网页结构的影响，对h t m l 标记进行分类，分别是：标题c l = t i t l e ) ；段落标题c 2 = h 1 ，日2 ，h 6 ) ；局部修饰，如字体的改变：粗体、斜体、下划线等等c 3 = b ，u ，i ，相应地可以将一个网页中的词划分成四个集合： s = w j l w c 1 足= i m c 2 ) 墨= i c ：) 最= 叫i 嵋芒c l u c 2 uc 3 则每个词只在文档d ，中的视觉修正系数w 嘎用如下公式计算：鹏 w a = j ，一 f r e q ( p , ，d ，) 其中f r e q ( p , ，乃) 表示词词b 在文档t 中的出现频率，w s i 为该词在各种标记中出现时的权重，取值按如下规定：如果f s ，则= 1 ；如果i & ，则= 0 8 ：如果i & ，贝0 w j = 0 7 ；如果f 蜀，则w j = 0 5 ；从公式可以看出，该修正系数就是该词在标记中出现的权重的平均值。 2 1 3 目前的关键词抽取系统及性能比较 ( 1 ) k e a 系统 k e a h 关键词抽取系统主要分为训练和抽取两部分。其中训练过程是用作者指定关键词的文档作为训练语料建模，在抽取过程中用训练好的模型对于给定的文档提取关键词，这两部分都需要先从文档中抽取候选关键词，计算特征值。复旦大学硕士学位论文中文文本主题词抽取研究与应用候选关键词抽取主要分三步完成，首先对于输入文档进行清洗，也就是分词，去除停用词，然后确定候选词，最后对这些候选词进行词干抽取。在训练和抽取过程中主要对每个候选词计算两个特征：t f i d f 和单词在文档中的首次出现位置。前者利用向量空间模型将文档映射为一个特征向量，根据t f i d f 公式，文档集中包含某一词条的文档越多，说明它区分文档类别属性的能力越低，其权值越小，而某一文档中某一词条出现的频率越高，说明它区分文档内容属性的能力越强，其权值越大。后者计算了在该文档中候选词第一次出现前词的个数，除以文档中词的总数，得到一个介于0 和1 之间的数，用以表示该词的第一次出现在文档中的相对位置。最后由于计算的两个特征值都是实数，在机器学习前还需要一个离散化的过程。k e a 算法对于测试集和训练集都来自同一领域的情况有较好的性能，但它没有考虑到抽取关键词时的语义一致性问题，如果训练语料和测试预料分别来自不同的领域，性能会有所下降。 ( 2 ) 改进的k e a 系统 p e t e rd t u m e y 5 针对这个问题对k e a 算法进行了改进，加入了一致性特征集。首先计算用t f i d f 和单词在文档中的首次出现位置这两个特征计算候选关键词，对于前l 个候选关键词，分别计算它们和前k ( k ，t k ( k = l ，2 ，功称为事务( t r a n s a c t i o n s ) ，厶( 珈l - l ， 2 ，力称为项目( i t e m ) 。设1 = i t ，f 2 ，稿是d 中全体项目组成的集合，的任何子集x 称为d 中的项目集( 1 t e m s e t ) ，闳k 称为集合z 为k 项目集( 七一i t e m s e t ) 。设t k 和x 分别为 d 中的事务和项目集，如果x c _ t k ，称事务t k 包含项目集兄每一个事务都有一个唯一的标志符，称为t i d 。支持度：设乃l 项目集厶在数据集d 上的支持度( s u p p o r t ) 是包含乃的事务在d 中所占的百分比，即复旦大学硕士学位论文中文文本主题词抽取研究与应用她吣) = 皆频繁项目集：对于项目集，和事务数据库d ，t 中所有满足用户指定的最小支持度 ( m i n s u p p o r t ) 的项目集，即大于或等于m i n s u p p o r t 的，的非空子集，称为频繁项目集( f r e q u e n tl w m s e t s ) 或者大项目集( l a r g e i t e m s e t s ) 。在频繁项目集中挑选出所有不被其他元素包含的频繁项目集称为最大频繁项目集 ( m a x i m u mf r e q u e n ti t e m s e t s ) 或者最大大项目集( m a x i m u ml a r g el t e m s e t s ) 。置信度：一个定义在，和d 上的形如乃j 乃的关联规则通过满足一定的可信度、信任度或置信度( c o n f i d e n c e ) 来给出。所谓规则的置信度是指包含乃和2 的事务数与包含厶的事务数之比，即 c o n f i d e 玎c e ( 1 ij 1 2 ) = 错其中i i t1 2 c _ i i l n l 2 o 一般地，给定一个事务数据库，关联规则挖掘问题就是通过用户指定最小支持度和最小置信度来寻找关联规则的过程。关联规则挖掘问题可以划分成两个子问题。 ( 1 ) 发现频繁项目集通过用户给定的最小支持度，寻找所有频繁项目集，即满足s u p p o r t 不小于m i n s u p p o r t 的所有项目子集。事实上，这些频繁项目集可能具有包含关系。一般地，只考虑那些不被其他频繁项目及所包含的所谓最大频繁项目集的集合。发现所有的频繁项目集是形成关联规则的基础。 ( 2 ) 生成关联规则通过用户给定的最小置信度，在每个最大频繁项目集中，寻找c o n f i d e n c e 不小于m i n c o n f i d e n c e 的关联规则。 3 2 核心思想为了生成所有频集，使用了递推的方法。其核心思想如下：复旦大学硕士学位论文中文文本主题词抽取研究与应用厂核心思想、 ( 1 ) l l = o _ a r g el - i t e m s e t s ；所有支持度不小于m i n s u p p o r t 的l - 项目集 ( 2 )f o r ( k = 2 ；l k - - f ；k + + ) d ob e g i n ( 3 ) c k = a p r i o r i - g e n ( l k o ；c k 是k + 元素的候选集 ( 4 ) f o ra l lt r a n s a c t i o n st edd 0b e g i n ( 5 )c i = s u b s e t ( c k ，0 c t 是所有t 包含的候选集元素 ( 6 )f o r a l l c a n d i d a t e s c c t d o ( 7 )巳c o u n t + + ； ( 8 ) e n d ( 9 ) l k = e eq le e o u n t r n i n s u p _ e o u n t ( 1 0 ) e n d 、 ( 1 1 ) l = u l k ；， a p r i o r i 算法是通过项目集元素数目不断增长来逐步完成频繁项目集发现的，首先产生1 频繁项集工j ，然后是2 频繁项集厶，直到有某个r 值使得厶为空，这时算法停止。这里在第k 次循环中，过程先产生k 候选项目集的集合 q ，q 中的每一个项目集是对两个只有一个项不同的属于厶j 的频集做一个 ( k - 2 ) 连接来产生的。g 中的项集是用来产生频集的候选集，最后的频集厶必须是g 的一个子集。g 中的每个元素需在事务数据库中进行验证来决定其是否加入三i ，这里的验证过程是算法性能的一个瓶颈。这个方法要求多次扫描可能很大的交易数据库，即如果频集最多包含l o 个项，那么就需要扫描交易数据库 1 0 遍，这需要很大的1 1 0 负载。 3 3 a p r i o r i 算法的性能瓶颈及优化 a p r i o r i 作为经典的频繁项目集生成算法，在数据挖掘中具有里程碑的作用。但是随着研究的深入，它的缺点也暴露出来。a p r i o r i 算法有两个致命的性能瓶颈： ( 1 ) 多次扫描事务数据库，需要很大的i o 负载对于每次k 循环，候选集q 中的每个元素都必须通过扫描数据库一次来验证其是否加入厶。假如一个频繁大项目集包含l o 个项，那么就至少需要扫描事务数据库l o 遍。 ( 2 ) 可能产生庞大的候选集由l k - t 产生k - 候选集g 是指数增长的，例如1 0 4 个l 频繁项目集就有可能产生接近1 0 7 个元素的2 候选集。如此大的候选集对事件和主存空间都是一种复旦大学硕士学位论文中文文本主题词抽取研究与应用挑战。为了提高算法的效率，m a n n i l a 等引入了修剪技术来减小候选集g 的大小 m t v 9 4 ，由此可以显著地改进生成所有频集算法的性能。算法中引入的修剪策略基于这样一个性质：一个项集是频集当且仅当它的所有子集都是频集。那么，如果g 中某个候选项集有一个o 【- 1 ) 一子集不属于厶。，则这个项集可以被修剪掉不再被考虑，这个修剪过程可以降低计算所有的候选集的支持度的代价。复旦大学硕士学位论文中文文本主题词抽取研究与应用第四章基于关联规则挖掘文本主题 4 1 关键词抽取流程及算法通过对输入文档进行一系列的语言学处理从而抽取所需的关键词。系统运行分为两阶段，首先对于给定的文档，考虑它的一些语言学特征，据此抽取合适的候选关键词，然后构造系统框架，使富含信息量和可读性好的t r i g r a m 和 b i g r a m 候选词优先作为关键词写入数据库。具体来说，候选关键词是一些符合事先指定的语言学模型的词或词组，这些词组可以是名词性词组，也可以是动词性词组，对于出现在文章标题和副标题的词组相应的加大权重，然后根据计算出来的特征值对这些候选关键词或词组进行打分，最后输出适合该篇文档的关键词。关键词抽取流程如下图所示：复旦大学硕士学位论文中文文本主题词抽取研究与应用是否复旦大学硕士学位论文中文文本主题词抽取研究与应用关键函数： ( 1 ) v o i dg e n e r a t e k e y p h r a s e ( s t d ：s t d n gs t r c o 蚯g ，c s u p p o r t e r + s u p p o r t e r ) ；与主程序的接口，对数据库中所有应该处理的类进行处理 w h i l e 话题循环( 所有新生成的话题，和有新文章加入的话题) w h i l e 文章循环属于这个话题的所有文章 i f ( ! w h e t h e r i s e n g l i s h a r t i c l e ) g e t b i g r a m ( ) ，得到符合要求的b i g r a m ，并保存b i g r a m 的出现次数词性标注与语言相关，使用中科学分词系统 ) w 1 l i l eb i g r a m 循环 i f 这个b i g r a m 出现在t i t l e 中出现次数+ 2 i f 这个b i g r a m 出现在r e l a t e t i t l e 中出现次数1 5 t o p 3 k e y p h r a s e 情到出现次数最多的3 个关键词保存数据库 ( 2 ) v o i d g e t b i g r a m ( s t d ：m a p & m s b i g r a m , s t d ：v e c t o r & v s t d g r a m , c s u p p o r t e r s u

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）中文文本主题词抽取研究与应用.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）中文文本主题词抽取研究与应用.pdf

文档简介

温馨提示

最新文档

评论

相关文档