基于本体的网络舆情挖掘研究.doc_第1页
基于本体的网络舆情挖掘研究.doc_第2页
基于本体的网络舆情挖掘研究.doc_第3页
基于本体的网络舆情挖掘研究.doc_第4页
基于本体的网络舆情挖掘研究.doc_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于本体的网络舆情挖掘研究重庆大学硕士学位论文(学术学位)学生姓名:张俊勇指导老师:罗 军 副教授专 业:计算机系统结构学科门类:工 学重庆大学计算机学院二一四年四月 Research On Ontology-based Internet Public Opinion Mining A Thesis Submitted to Chongqing Universityin Partial Fulfillment of the Requirement for theMasters Degree of EngineeringByZhang JunyongSupervised by Associate Prof. Luo JunSpecialty: Computer System ArchitectureCollege of Computer Science of Chongqing University, Chongqing, China April 2014 重庆大学硕士学位论文中文摘要摘要随着互联网的日益壮大,网络迅速普及、网民数量快速增长。从而,网络舆情慢慢成为映射社会舆情的实时晴雨表,从某种程度上它可以最直接、最快速地反映了经济、政治、文化的状况和发展态势。网络舆情分析顺理成章的成为了解社情民意的关键技术之一。然而,监管机构往往更关注某个领域、层次的舆情情况,从基于关键词的搜索结果中的海量信息中找到与特定领域的相关的局部信息是非常困难的,另一方面,由于互联网的开放性、共享性、扁平性使得网络舆情的出现和监管不再具有地域性,不再具有边界。因此,缺少语义理解的关键词搜索,在正确表达搜索期望时总显得力不从心。根据研究目的的需求,本文的研究工作需从以下内容进行:深入理解本体在舆情分析过程中的作用,使舆情分析基于语义的理解之上。本文针对传统的 web挖掘缺少对文本语义的理解问题,提出了基于本体的 Web挖掘。在挖掘分析之前,利用本体对文本语义的理解,之后进行挖掘分析。这就将本体知识运用到 Web挖掘之中,使得两个领域的研究成果可以相互促进,共同来解决舆情分析这个复杂的社会问题。研究文本分类算法,结合领域本体,改进文本分类以适应舆情分析特殊需求。由于传统的分类方法不能很好的适应舆情分析的特殊需要,本文对文本分类算法,做了适当的改进,以适应舆情分析特定需求。舆情分析中,文本样例分布不均会导致分类偏差,这种改进有效的减小了样例不均对分类结果的影响,从而减小了偏差。最后,完善传统的情感倾向计算方法,对情感倾向性进行定量的计算分析,本文完善了对情感倾向性定量的计算,而不仅仅是定性的分析。使得情感倾向分析更加准确,对舆情分析有重要意义。关键词:本体, Web 挖掘,舆情分析,文本分类,情感倾向计算I 重庆大学硕士学位论文英文摘要ABSTRACT As the growth of Internet, network quickly spread,and the number of Internet usersgrows rapidly .Thus, the network public opinion gradually become the real-timebarometer mapping social public opinion. To some extent, it can be the most direct andrapid reflection of the status and development trend of economic, political and culture.Naturally,the network public opinion analysis has becoming one of the keytechnologies of understanding the society and public opinion. However, regulators tendto be more concerned about a particular area or level of public opinion situation. Butfinding a local information associated with specific domain from the mass of searchresults based on keywords is very difficult. On the other hand, the Internetsopenness, sharing, flat makes network public opinion and supervision no longer to beregional and no boundary. Therefore, when searching correct expression of the expected,the lack of semantic understanding of search keywords totally ragged.According to the research purpose of the demand, the research work of thispaper should be from the following contents:Understand the role of the body in the course of public opinion analysis. Thepublic opinion analysis will based on the semantic; This paper presents a Web-basedontology mining for the lack of semantic understanding in traitional web mining. Beforeexcavation analysis, use the semantic to understand the body of the text. This will beapplied to the body of knowledge among Web mining.Making research in both areascan promote each other to solve this complex social problem of public opinion analysis.Research the text classification algorithm combined with domain ontology, andimprove it to accommodate the special needs of public opinion analysis.Meanwhile, thetraditional classification methods are not well adapted to the special needs of publicopinion analysis. This paper will improve the text classification algorithms to the suitthe specific needs of public opinion analysis.Text classification will lead to unevendistribution of sample bias, public opinion analysis. This improvement reduces theeffective sample classification results on uneven, thereby reducing the deviation.Improved sentiment of traditional algorithm, make the calculating for sentimentmore accurate and effective; Finally, this paper makes the quantitative calculation of theemotional tendentious more completly. It makes the analysis more accurate, is veryimportant for public opinion analysis.II 重庆大学硕士学位论文英文摘要Keywords:Ontology,Web Mining,Public Opinion Analysis,Text Categorization,Emotional Tendentious CalculationIII 重庆大学硕士学位论文目录目录中文摘要 I英文摘要 II1绪论11.1选题背景及意义 11.1.1问题的提出 11.1.2研究的意义 21.2舆情分析现状 21.3本文的主要工作 31.4论文的组织结构 32网络舆情本体挖掘过程概述 52.1网络舆情信息采集 52.1.1舆情信息来源 52.1.2网络舆情信息采集策略 62.2舆情文本数据预处理 82.2.1数据预处理分类 82.2.2数据预处理方法 92.3本体库的建立 112.3.1本体 112.3.2本题库的建立与标注 122.4基于本体的 Web挖掘过程 132.4.1用户需求的发现与本体的确定 132.4.2目标领域本体范围的确定 132.4.3 Web挖掘算法发现 142.5挖掘实现 152.6舆情挖掘分析 162.6.1文本分类 162.6.2情感倾向性分析 172.7本章小结 183舆情分析关键技术研究 193.1领域本体和语义相似度 193.2分类算法改进 19IV 重庆大学硕士学位论文目录3.2.1 KNN算法 193.2.2改进的 KNN算法: 213.3改进的情感倾向性计算方法 213.3.1动态情感词短语的倾向性计算 223.3.2修饰情感词短语的倾向性计算 223.3.3情感倾向性计算算法 223.4本章小结 234网络舆情案例本体挖掘分析 254.1文本分类 254.1.1语义特征向量生成 264.1.2语义相似度计算 264.1.3实验结果及分析 284.2情感倾向性分析 294.2.1关键词的倾向性的计算 294.2.2模式的倾向性的计算 304.2.3评论文本的倾向性的计算 314.2.4实验结果及分析 314.3本章小结 315总结与展望 32致谢 33参考文献 34录 37附A.作者在攻读学位期间发表的论文目录 37B.作者在攻读学位期间取得的科研成果目录 37V 重庆大学硕士学位论文1绪论1 绪论1.1选题背景及意义1.1.1问题的提出互联网发展日新月异,网络迅速普及、网民数量快速增长使得整个社会生活都与网络息息相关。从而,网络舆情慢慢成为映射社会舆情的实时晴雨表,从某种程度上它可以最直接、最快速地反映了经济、政治、文化的状况和发展态势。新时代的网络舆情具有以下特点:第一,虚拟与实在相交融。网络具有众所周知的虚拟性,它异于现实环境所具有的实在性。与此相联系的是网民身份的隐匿性。别的网民一般不易了解到发表意见的特定网民的真实姓名。但是网络舆情却往往并不虚无缥缈,而是在相当程度上反映出或者代表着民意、民声,或者是客观存在这颇为厚实的民意基础。第二,虚假与真实相伴生。网络所具有的虚拟性和网民身份所具有的隐匿性,使网民发表意见时没有在现实环境中的种种顾忌,而显得相当自由和放松。就此而言,网民在虚拟空间的意见表达和情绪表达都有相当的真实性,另一方面,由于以隐匿的方式存在于虚拟环境之总,因此比现实活中的规制有增无减,原本应当与自由相平衡的责任往往会有所缺失,虚假不实的信息常常会不胫而走,不负责任的言论也会沸沸扬扬。第三,自觉与自发想混杂1。在网上发表意见的公众中,既有自觉者,也有自发者。前者故意而为,言论行为受自觉意识的支配;后者往往是“跟风派”,多半不具备自觉意识。自觉者中的有些人成为网络环境中的意见领袖,影响和引领他人意见;自发者则往往顺从他人的意见,被他人引领。第四,原生态与非原生态相并存。网络舆论让人们看到了如下景观:来自四面八方的网民,共时性或者历时性的评论某些人、某些事。这可以说是历历在目的舆论和舆论形态。任何传统媒体都不可能悉数呈现如此舆论,不可能如此充分、透彻的折射出相应的舆情。当然,同时也包含着一些非原生态的成分,一些网民或者组织出于某些政治目的,也可以运用某些手段来凸显自己的意见,甚至操纵他人。第五,理性成分与非理性成分兼容。当然,这种情形在现实环境中的舆情里也有所存在;而网络由于独具诸多特点,因此网络舆情较之现实环境中的舆情在理性成分与非理性成分兼容方面表现的尤其明显。从而,网络舆情分析顺理成章的成为了解社情民意的关键技术之一。然而,监管机构往往更关注某个领域、层次的舆情情况,从基于关键词的搜索结果中的海1 重庆大学硕士学位论文1绪论量信息中找到与特定领域的相关的局部信息是非常困难的,另一方面,由于互联网的开放性、共享性、扁平性使得网络舆情的出现和监管不再具有地域性,不再具有边界,使关键词在正确表达搜索期望时总显得力不从心。1.1.2研究的意义基于语义的 Web挖掘是使用从现有 Web数据中抽取的语义或直接使用 Web数据中已有的语义结构来帮助 Web挖掘。它有效地将本体的概念引入到 Web挖掘之中,使得两个领域的研究成果,既可以通过开发新的语义结构来帮助 Web挖掘,又可以利用挖掘结果促进本体领域的发展。本文的研究目的正是在于,同时利用本体的语义优势,和数据挖掘的研究成果,以此来解决舆情分析这个复杂的社会问题。针对网络舆情的特殊复杂性,提出基于本体的 Web挖掘网络舆情的良好模式。以此解决网络舆情的偏差性,突发性,自由行对数据挖掘的挑战。本课题的创新之处在于:针对传统数据挖掘模式、本体应用等方面的缺点和不足引入了基于本体的Web挖掘、研究出高效的web的挖掘模式;研究基于语义的文本分类算法,结合领域本体,提出更优化的文本分类方法;改进传统的情感倾向计算算法,对情感倾向性有更加准确有效的计算。1.2舆情分析现状就舆情研究发展而言,国外起步较早,从 19世纪中期开始发展,到 20世纪中期已逐渐走向成熟。然而,我国对网络舆情的研究,直到 20世纪末才刚刚开始,到党的十六届四中全会后,网络舆情的研究工作与实践才到达比较高峰的时期,许许多多的网络舆情研究机构才相继成立,许多有关舆情分析的论文、专著陆陆续续的发表、出版2。在舆情分析的研究内容方面,我们国家主要对于研究舆情概念界定与辨析、舆情机制、网络舆情、舆情信息工作等,这主要是基于政府对舆情信息的需要来开展的,对舆情的研究层次比较浅显。跟国外相比较,国外则主要是对于舆论主客体、舆论、媒体和民意调查和决策之间关系的各个方面的着眼研究,尤其是关于民意网络和实际调查的研究与实践,在国外已经形成了一个完整的分析理论以及应用体系;除此之外,由于社会形态的差别,国内外对于舆情研究的目的各不相同,首先,我国对舆情的研究的目的主要用于政治的各个场合,以将政府的经济文化政策作为指导方针,分析是为政府执政的各职能部门服务。然而,国外除了用于服务政治职能部门外,在整个社会的经济、文化中,比如各大企业对经济信息的关注等,也有极其广泛的应用。对于网络舆情的研究,主要包括网络舆情的基础理论、外部性特征、管理与引导以及依托计算机和网络技术建构监测、分析、研判、预警系统等方面的内容 3。挖掘技术用于对网络舆情的分析,通过对网络舆情的挖掘,实现:网络舆情检2 重庆大学硕士学位论文1绪论测;网络舆情预警;网络舆情应对;完善网络舆情联动应急机制的措施。随着 web2.0时代的到来,网络舆情分析,在社会的各个领域尤其是政府机构等,起着至关重要的作用。然而网络舆情分析的独有特性,对数据挖掘提出了新的挑战。网络舆情具有多元性,偏差性,突发性。使得传统的数据挖掘无法满足其需求。从而,新的用于舆情分析的挖掘模式的研究迫在眉睫。1.3本文的主要工作本文根据国内舆情分析的研究现状,针对传统数据挖掘模式、本体应用等方面的缺点和不足引入了基于本体的 Web挖掘、基于语义的文本分类以及情感倾向性计算等思想进行改进,主要包括以下具体工作:深入理解本体在舆情分析过程中的作用,研究出高效的 web的挖掘模式;研究基于语义的文本分类算法,结合领域本体,提出更优化的文本分类方法;改进传统的情感倾向计算算法,对情感倾向性有更加准确有效的计算;。研究相关论文的实现方法和可鉴之处,研究是否具有更好的方案。本文主要研究对象有:本体库系统一个本体库系统是为了提供各种管理、适应和标准化本体功能的系统。它应该满足本体重用的需求。 web挖掘Web挖掘是一项综合技术,涉及 Web、数据挖掘、计算机语言学、信息学等多个领域。Web挖掘是指从大量 Web页面的集合 C(包括文挡、图片、声音、视频、页面间的链接关系以及页面访问记录)中发现隐含的模式 p。如果将 C看作输入,将 p看作输出,那么 Web挖掘的过程就是从输入到输出的一个映射:C一 p。网络舆情的新特性研究互联网是完全开放的,每个人都有选择网络信息的自由。由于受各种主观因素的影像,一些网络言论缺乏理性,比较感性化和情绪化。网络舆论的形成往往非常迅速,一个热点事件的存在加上一种情绪化的意见,就可以成为点燃一片舆论的导火索。从而具有自由性、偏差性和突发性。1.4论文的组织结构本文围基于本体的舆情挖掘分析这一主题展开研究,共分为 5章,具体内容如下:第一章绪论3 重庆大学硕士学位论文1绪论本章介绍了问题的提出过程以及课题研究的意义。指出了目前的舆情分析的不足之处,提出基于本体的 Web挖掘思想。然后分析了目前的缓存系统和持久化存储系统在国内外的研究和应用现状,并做了比较。第二章网络舆情本体挖掘过程概述本章首先明确了,本体网络舆情挖掘包含的内容(舆情信息采集、舆情数据预处理、挖掘分析等),以及他们之间的层次关系。然后分别阐述了舆情采集的详细过程,为舆情分析作良好的数据准备;又重点描述了数据预处理时本体库的建立,这是本文将本体的引入舆情挖掘的重要意义所在;而后对舆情详细分析(文本分类和情感倾向性计算),分类的方法是基于传统的 KNN算法,情感倾向性计算也同样适用传统算法,改进算法将在下一章详细论述。第三章舆情分析关键技术改进本章深入研究分析了舆情分析过程中的关键技术,文本分类技术和情感倾向性计算。在传统文本分类的算法基础上,加以改进,得出了更有效的基于语义的文本分类技术。重点研究了短语的情感倾向性计算,同样在传统的计算方法上加以改进,使得计算偏差更小。第四章网络舆情案例本体挖掘分析本章按照第二章的本体挖掘过程,同时使用第三章的关键技术,对网络舆情案例进行详细分析,最后得出实验结果,加以比较总结,得出了比较合理的结论。第五章总结与展望本章全面总结本文在 Web舆情挖掘研究与实现方面的工作,并指出了本体理论领域和 Web挖掘研究领域以后将继续研究的问题,也提出了在网络舆情挖掘和分析领域的其它一些值得深入研究的问题,并展望了舆情挖掘分析领域的进一步发展前景。4 重庆大学硕士学位论文2网络舆情本体挖掘过程概述2网络舆情本体挖掘过程概述基于本体的 Web舆情挖掘主要包括四个步骤:网络舆情信息采集、舆情信息预处理、舆情挖掘等,其中舆情挖掘包含两个重要的步骤:文本分类和情感倾向性计算,详细过程如图 2.1所示:图 2.1本体 Web挖掘基本过程Fig.2.1 The basic ontology-based Web mining process2.1网络舆情信息采集文档的采集以用户的需求为准,对数据采集源中用户感兴趣的数据进行采集,然后将这些信息保存到文本信息数据库中。网络舆情信息采集划分为舆情分类、话题发现、热点发现等多个子功能,这些功能中涵盖了中文分词、文本分类、文本聚类、文本摘要、文本倾向性分析、热点发现等关键技术4,下面将对于模块中使用的关键技术进行具体介绍。其中,本论文将重点研究文本分类技术和文本倾向性分析技术,将在第三章对这两部分技术进行进一步讨论。2.1.1舆情信息来源进行网络舆情信息挖掘,准确地把握舆情信息的最初来源至关重要。不同的来5 重庆大学硕士学位论文2网络舆情本体挖掘过程概述源,其内容形式网络结构都有可能不同,应该分别采取行之有效的挖掘手段,才能获取尽可能全面的舆情信息。网络舆情在互联网上表现的内容形式有文字、图像、音频、视频,其中又以文字信息为主。我们将网络舆情信息的主要来源分为以下四类5:政府新闻网站:作为中国新闻信息采集和发布的中心,政府新闻网站发表政府要闻、各种专题报道、评论等权威新闻,具有很强的公信力网民对此类网站发布的信息很少怀疑,如新华网、人民网、中国新闻网等新闻网站。由此类网站所刊发的信息衍生出的舆情的概率也比其他网站高。大型门户网站:大型门户网站如新浪、搜狐、网易等,转发大量国内外要闻以及认为公众会感兴趣的其他信息。这种网站具有很强的时效性和较高的公众信任指数。目前,很多门户网站都增加了新闻评论的功能,网民可以投票也可以发表自己的评论。由于新闻事件大多是与国家和人民利益相关的,其评论内容很好的反映了民意,是网络舆情分析的重要数据来源。网络论坛:网络论坛 BBS (Bulletin Board System)为网络用户辟了自由发表言论的空间,快速、开放、自由的特点吸引了用户的积极参与。网络的虚拟性和匿名性使得人们在 BBS上的言论更自由、更随意,也更真实地表达了自己的意愿,使得 BBS成为各种言论的集散地和意见交流的场所,在重大问题上具有迅速形成舆论的能力。几乎所有的门户网站都开设论坛区,国内也已经形成了一些颇具影响力的论坛,如人民网的“强国论坛”、新华网的“发展论坛”等。网民在各种论坛中发布的信息虽然真实性难以保证,但是信息量极为庞大,显示出强大的影响力,甚至影响到了政府决策。博客和微博:博客以网络日记的形式将个人的故事、意见和评论发布到互联网上,通过访问者留言与他人分享和交流。相比较论坛,博客内容的客观性更强一些,但比新闻语料差。微博是目前最流行的一种博客形式,网民可以通过手机、客户端等多种形式发布信息,方便快捷。相比于其他的网上信息传播渠道微博的实时性更强,因字数限制在 140之内,数据获取相对更加容易。中国大学网络舆情(口碑)研究所在2011上半年中国网络舆情指数年度报告指出:微博已经超越网络论坛成为中国第二大舆情源头,仅次于新闻媒体报道,其中新浪微博、搜狐微博和腾讯微博是中国的三大微博。2.1.2网络舆情信息采集策略采集网络舆情信息的方法就是通过各种不同功能的采集器,即网络爬虫(Crawler)自动在互联网上爬取网页。根据信息采集器的采集方式,可以把采集器分为两种类型:增量式数据采集和基于主题的网络数据采集6。增量式数据釆集方式是对整个 Web或者某个网站进行网页信息采集。釆集器6 重庆大学硕士学位论文2网络舆情本体挖掘过程概述从一些种子 URL出发,按照深度优先或广度优先等策略遍历网页,尽可能多地采集页面,对旧的页面增量式更新。采集的过程中消耗非常多的信息资源和网络带宽,门户搜索引擎和大型的 Web服务提供商主要采用这类采集器进行信息搜集7,由于系统资源和网络资源的限制,增量式信息采集方式的信息覆盖率日益下降,页面失效率越来越高,采集的数据利用率也较低。基于主题的 Web信息釆集方式则根据用户首先定制的某类主题内容,有选择地爬取,自动识别并将与主题相关的链接放入待爬取的 URL队列,过滤与主题无关的链接。基于主题的 Web信息采集由聚焦爬虫实现,需要识别以下几个任务8:如何定义主题?怎样决定待爬行的 URL的次序?如何判断页面是否和主题相关?如何提高爬虫的覆盖率?对于舆情分析,采集的对象只是所有网页中较小的一部分,所以增量式全采集的方式是不适合的,应该根据不同网站特点制定相应的采集更新策略,以便更及时地跟踪舆情事件的发展。针对于网络舆情数据的采集来源,釆集方式,本节设计了针对网络舆情数据的网络爬虫,其主要模块流程如图 2.2所示。图 2.2网络舆情数据采集过程Fig.2.2 Internet public opinion data collection process7 重庆大学硕士学位论文2网络舆情本体挖掘过程概述2.2舆情文本数据预处理直接从 Web站点中采集到的数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。数据预处理有多种方法9:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。2.2.1数据预处理分类数据预处理方法就是根据不同的挖掘问题采用相应的理论和技术,实现数据清理、数据集成、数据变换、数据归约等基本功能10数据清理。数据清理要去除源数据集中的噪声数据和无关数据,处理遗漏数据和清洗脏数据,空缺值,识别删除孤立点等。噪声:噪声是一个测量变量中的随即错误和偏差,包括错误的值或偏离期望的孤立点值,对于噪声数据有如下几种处理方法:分箱法,聚类法识别孤立点,回归。空缺值的处理:目前最常用的方法是使用最肯呢个的值填充空缺值,如用一个全局常量替换空缺值,使用属性的平均值填充空缺值或将所有元组按照某些属性分类,然后用同一类中属性的平均值填充空缺值。清洗脏数据:异构数据源数据库中的数据并不都是正确的,常常不可避免的存在着不完整,不一致,不精确和重复的数据,这些数据统称为“脏数据” ,脏数据能使挖掘过程陷入混乱,导致不可靠的输出。清洗脏数据可采用下面的方式: 1)手工实现方式,2)用专门编写的应用程序, 3)采用概率统计学远离查找数值异常的记录,4)对重复记录的检测和删除。数据集成实体识别问题:在数据集成时候,来自多个数据源的现实世界的实体有时并不一定是匹配的,例如:数据分析者如何才能确信一个数据库中的 student_id和另一个数据库中的 stu_id值是同一个实体,通常,可以根据数据库或者数据仓库的元数据来区分模式集成中的错误。冗余问题:数据集成往往导致数据冗余,如同一属性多次出现,统一属性命名不一致等,对于属性间冗余可以用先关分析检测到,然后删除。数据值冲突检测与处理:对于现实世界的同一实体,来自不同数据源的属性值可能不同,这可能是因为表示、比例、或编码、数据类型、单位不统一、字段长度不同。数据变换数据变换主要是找到数据的特征表示,用维变换或转换方法减少有效变量的数8 重庆大学硕士学位论文2网络舆情本体挖掘过程概述目或找到数据的不变式,包括规格化,规约,却换,旋转,投影等操作。规格化是指将元组集按照规格化条件进行合并,也就是属性值量纲的归一化处理。规格化定义了属性的多个取值到给定虚拟值的对应关系,对于不同的数值属性特点,一般可以分为取值连续和取值分散的数值属性规格化问题。规约:是指将元祖按语义层次结构合并,语义层次结构定义了元组属性值之间的语义关系,规约化和规约能大量减少元组个数,提高计算效率,同时,规格化和规约过程提高了知识发现的起点,使得一个算法能够发现多层次的知识,适应不同应用的需要。数据规约是将数据库中的海量数据进行规约,规约之后的数据仍接近于保持原数据的完整性,但数据量相对小的多,这样进行挖掘的性能和效率会得到很大的提高。数据规约的策略主要有数据立方体聚集,维规约,数据压缩,数值压缩,离散化和概念分层。维规约:通过删除不相关的属性减少数据量,不仅仅压缩了数据集,还减少了出现在发现模式上的属性数目,通常采用属性子集选择方法找出最小属性集,使得数据类的概率分布尽可能的接近使用所有属性的原分布。数据压缩,数据压缩分为无损压缩和有损压缩,比较流行和有效的有损数据压缩方法是小波变换和主要成分分析,小波变换对于稀疏或倾斜数据以及具有有序属性的数据有很好的压缩效果。数值规约:数值归约通过选择替代的、较小的数据表示形式来减少数据量。数值归约技术可以是有参的,也可以是无参的。有参方法是使用一个模型来评估数据,只需存放参数,而不需要存放实际数据。有参的数值归约技术有以下两种,回归:线性回归和多元回归;对数线性模型:近似离散属性集中的多维概率分布。无参的数值归约技术有 3种:直方图,聚类,选样概念分层通过收集并用较高层的概念替换较低层的概念来定义数值属性的一个离散化11。概念分层可以用来归约数据,通过这种概化尽管细节丢失了,但概化后的数据更有意义、更容易理解,并且所需的空间比原数据少。对于数值属性,由于数据的可能取值范围的多样性和数据值的更新频繁,说明概念分层是困难的。数值属性的概念分层可以根据数据的分布分析自动地构造,如用分箱、直方图分析、聚类分析、基于熵的离散化和自然划分分段等技术生成数值概念分层 12。由用户专家在模式级显示地说明属性的部分序或全序,从而获得概念的分层;只说明属性集,但不说明它们的偏序,由系统根据每个属性不同值的个数产生属性序,自动构造有意义的概念分层。2.2.2数据预处理方法预处理方法很多,在此介绍常用的几种方法。9 重庆大学硕士学位论文2网络舆情本体挖掘过程概述基于粗集理论13的简约方法:粗糙集理论是一种研究不精确、不确定性知识的数学工具,可以对数据属性进行十分有效的精简,求出最小约简集,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论