【毕业学位论文】（Word原稿）Web文本信息挖掘中聚类算法在甘肃省扶贫网中的应用研究

上传人：O*** IP属地：四川上传时间：2016-07-03 格式：DOC 页数：62 大小：2.42MB 积分：20 举报 版权申诉

【毕业学位论文】（Word原稿）Web文本信息挖掘中聚类算法在甘肃省扶贫网中的应用研究_第2页

【毕业学位论文】（Word原稿）Web文本信息挖掘中聚类算法在甘肃省扶贫网中的应用研究_第3页

【毕业学位论文】（Word原稿）Web文本信息挖掘中聚类算法在甘肃省扶贫网中的应用研究_第4页

【毕业学位论文】（Word原稿）Web文本信息挖掘中聚类算法在甘肃省扶贫网中的应用研究_第5页

已阅读5页，还剩57页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

分类号：密级：专业学位研究生学位论文论文题目（中文）本信息挖掘中聚类算法在甘肃省扶贫网中的应用研究论文题目（外文） of eb in 究生姓名裴凌学位类别工程硕士专业学位领域计算机技术学位级别硕士校内导师姓名、职称马义忠教授校外导师单位、姓名兰州市勘察测绘研究院张永忠论文工作起止年月 2012 年 2 月至 2012 年 9 月论文提交日期 2013 年 3 月论文答辩日期 2013 年 5 月学位授予日期校址：甘肃省兰州市原创性声明本人郑重声明：本人所呈交的学位论文，是在导师的指导下独立进行研究所取得的成果。学位论文中凡引用他人已经发表或未发表的成果、数据、观点等，均已明确注明出处。除文中已经注明引用的内容外，不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究成果做出重要贡献的个人和集体，均已在文中以明确方式标明。本声明的法律责任由本人承担。论文作者签名：日期：关于学位论文使用授权的声明本人在导师指导下所完成的论文及相关的职务作品，知识产权归属兰州大学。本人完全了解兰州大学有关保存、使用学位论文的规定，同意学校保存或向国家有关部门或机构送交论文的纸质版和电子版，允许论文被查阅和借阅；本人授权兰州大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用任何复制手段保存和汇编本学位论文。本人离校后发表、使用学位论文或与该论文直接相关的学术论文或成果时，第一署名单位仍然为兰州大学。本学位论文研究内容：可以公开不易公开，已在学位办公室办理保密申请，解密后适用本授权书。（请在以上选项内选择其中一项打“ ”）论文作者签名：导师签名：日期：日期：本信息挖掘中聚类算法在甘肃省扶贫网中的应用研究摘要需求是发明之母。近年来，数据挖掘之所以引起业界的极大关注，主要原因还是用户迫切需要将产生的大量数据转换成有用的信息和知识，并且将所获取的信息和知识广泛应用于商务管理、生产控制、市场分析、工程设计和科学探索等领域。它是相对于更注重用户的交互作用。在户只是网站内容的浏览者，而在代，用户不仅仅是网站内容的浏览者，更是网站内容的制造者，由被动的接收互联网信息向主动创造互联网信息发展，这显示出互联网的人性化。但是，一个新的问题就此产生，信息量暴增，人们从中获取信息和知识就变得越来越困难，仅仅依靠以前单一的手段已远远不能满足需要。所以，如何解决好这个问题，让互联网中海量的信息资源库能够更好的为人类的生产和生活提供服务，就成为了这些年来诸多专家学者为之奋斗的一个方向，从而也就诞生了一个新的名词：作用就是它可以对互联网上的信息资源进行切分归类并进行搜索提取，用来帮助互联网用户进行知识的搜索和提取，进而提高用户使用互联网的效率，它属于延伸出来的一个新的研究领域。本文着重研究了据挖掘所使用的技术以及挖掘方法、运行过程，同时，为了能对进一步的研究和了解，本文实现了一个结构简单但功能完整的下面对本文所做的主要的研究工作做一个简要概述： 1、介绍了据挖掘及其延伸本信息数据挖掘的应用背景、研究现状及发展趋势，以及我们进行据挖掘研究的意义。 2、介绍了甘肃省扶贫信息网的整体体系结构以及包括中文分词技术、本信息数据挖掘过程中的所使用的核心技术。 3、简单讨论了 K 均值算法、基于 K 均值和遗传算法的聚类算法等几种常用算法在甘肃扶贫信息网中的应用，并通过甘肃省扶贫信息网进行了验证。关键词：息资源，传统数据挖掘技术，息提取 he is of In of an to of to in of .0 it is to a it is on In .0 in s is of by to to a of is to on a to of of in to of in of a eb is a eb It eb on It to in to of eb eb by eb in to eb t it eb eb in 1. an eb it eb 2. an in of eb as of eb so 3. an of eb do an to of on 目录中文摘要 I 一章引言 1 研究背景 1 研究现状 2 研究内容 3 论文的整体结构 3 第二章本信息挖掘与相关技术 5 数据挖掘 5 数据挖掘的发展 5 基于 8 掘 11 11 用涉及到的技术理论 13 实验结果 24 本章小结 26 第三章甘肃扶贫网体系结构与典型模块分析 27 甘肃扶贫网整体结构 27 劳务输转板块分析 29 “两后生”板块分析 30 甘肃苹果价格走势分析 32 大蒜价格走势分析 33 土豆价格走势分析 34 本章小结 35 第四章文本信息挖掘在甘肃扶贫网中的应用 36 系统开发环境 36 系统框架 36 系统结构 37 中文分词模块 37 特征表示和提取模块 40 文本信息挖掘模块 43 系统运行实现 45 网页采集 45 网页的清理 46 系统初始化 47 系统运行 50 本章小结 52 第五章总结与展望 53 研究工作总结 53 未来展望 53 参考文献 . 55 兰州大学硕士学位论文本信息挖掘中聚类算法在甘肃省扶贫网中的应用研究 1 第一章引言研究背景文所做的主要研究工作。互联网的发展速度，已经远远超过人们的预测，在这个现代化的社会中，人们不论是生产或是生活，都已经离不开网络，它不再是一种高高在上的新鲜事物，而是已经成为了人们手中的一种工具，通过它来获取某种信息已经是再普通不过的事情，相较于以前传统的三大信息媒体，现如今的人们获取知识的渠道也更加的多元化 1。互联网作为一个新兴的信息媒介，自身自然有着无可比拟的优势。首先是巨大的信息量，互联网包含了数以亿计的、各种各样的而无数的承载着各种文字、声音、图片和视频信息的样摆在用户面前的就是一个庞大的难以想象的信息库；其次是互联网具有电视、广播、报纸等传统媒介所不具备的及时性和开放性等特点，一条即时信息可以通过互联网在很短的时间内传遍全球，这在传统媒介上是不可能实现的；第三是交互性，用户对传统的信息传播媒介只是被动的接收，不能按照自己的爱好和需求来选择，更不能发表自己的看法和意见，但是互联网就不同，它不仅允许用户根据自己的的兴趣来选择相关的信息，而且可以给用户提供一个平台来发表一些意见和看法，也就是说可以和用户进行互动 2。正是由于这三点，互联网得到了一个很大的发展空间，得以急速膨胀。但是，在网络大行其道的今天，我们也不应该忽视它所带给我们的一些问题，当用户在面对互联网上海量的信息的时候，常常显得手足无措，很难通过一些简单、易用的方式从互联网上获取自己需要的信息，这与互联网的初衷是背道而驰的，所以怎样才能使用户能够快速并且准确地从互联网上获取到自己所需要的信息，也就是说互联网怎样才能做到自我检索，即就是对自身所包含的大量数据进行归类，并建立索引以便随时查找，这是现在网络技术研究的一个新方向，也就是我们所说的本信息数据挖掘。是利用一些特有的搜索、归类、分析和筛选技术从互联网上大量的本信息中提取到对用户有用的信息知识的过程，它是数据挖掘领域的一个新的研究方向。利用术可以协助现有的搜索引擎来自动搜索、分析和抓取关联度高的网页，并根据用户的需求将这些抓取到的信息进行筛选，进而以可视化的形式返回给用户，这样就使得人们可以通过自己的实际需求来定制相应的 2。兰州大学硕士学位论文本信息挖掘中聚类算法在甘肃省扶贫网中的应用研究 2 实际上，本信息挖掘就是据挖掘的一个子集。据挖掘的研究方向主要有三个：第一个是通过一些搜索、归类、分析的方法，在互联网中大量的、非结构化的文本资源中提取跟用户相关的一些关键字，进而根据文档之间的关系对文档进行分类，最终获取有用的信息，这样可以提高人们获取源的效率。第二个研究方向是第三个研究方向是 2。研究现状现如今，越来越多的专家学者们都投身于数据挖掘这一领域，尤其是一方面是由于有极强的挑战性；另一方面也是由于大家都看到了阔的发展前景。这些来自于各个领域的研究者们利用他们各自掌握的理论和相关技术来研究且结合实际操作提出了许多新的、带有交叉性的挖掘技术 2。在国际上，同行业对于究的开展工作要比国内同行要早，例如早期的信息抽取技术经过在实际操作过程中不断的改进、演化为现在的文本信息挖掘技术。但是，即使是这样，在这一方面的研究所拓展的空间也不是很大，目前主要集中在文本信息的自动分类技术和如何优化搜索引擎等方面，还有一些智能化方面的应用。在个上世纪 50 年代末，一次在文本信息的搜索分类方面使用了频率统计思想，原理是根据关键词在文本中出现的频率来进行划分归类，这是一项创造性的研究。在此随后的许多年里，不断的有许多的研究者们都相继提出了自己在文本信息搜索方面的想法，并转化为相应的研究成果。到目前为止，在这一领域已经产生了相当多的研究成果，并且其中有很多研究都已经取得了令人瞩目的研究成果。文本信息挖掘己经从最基础的理论研究，发展到现在的实际应用化阶段，例如在电子会议、邮件分类等方面的应用都非常的广泛 3。在商业领域，以及同时，在军事和企业的情报搜集方面，文本信息挖掘技术也得到了大量的应用，可以说，文本信息挖掘技术现在已经作为搜集有用信息的重要手段和方法 3。相对于国外，我国国内的研究状况就没有那么乐观了。在 1981 年的时候，候汉清教授才在国内介绍了国外在分类检索等相关方面的研究情况，同时对这项研究在国内的应用做了一些探讨分析。但直到 1998 年，我国才将文本信息挖掘的研究列入了国家重点基础研究发展规划。目前，高等院校、科研院所和一些信息公司是我国国内对文本信息挖掘技术的主要研究机构。兰州大学硕士学位论文本信息挖掘中聚类算法在甘肃省扶贫网中的应用研究 3 比如 : (1)、科学院计算机语言信息工程中心所研究的中文词划分、语音识别转换等项目。 (2)、上海交通大学计算机系研究的自然语言模型、语句语义、范例推理、构造解释模型等项目。 (3)、东北大学所研究的中文信息自动抽取、词性标注、汉语文本自动分类模型等项目。这些都是我国在文本信息挖掘方面所取得的不小的成绩，但是，我们在看到这些成绩的同时，也必须清醒的认识到，我们针对这一领域起步晚，所掌握的技术十分有限，特别是将研究成果的商业化方面还是非常滞后。 3所以，怎样让我国的研究水平能够快速提高，并且能够及时的将研究成果转化为实际生产力，这是摆在我们计算机工作者面前的一道不小的难题。研究内容本文主要是根据经形成的技术应用，以及相关研究的商业化应用等方面进行了简单的论述，包括一些算法在本挖掘中的应用，利用现有的研究成果，结合实际应用，基本上能够实现信息挖掘原型系统的开发运行。下述三种技术由于经常被应用信息挖掘，所以本文将其作为研究重点： 1、特征向量的表示以及提取：由于向量空间模型的特征维数很高，为了适应空间模型的计算方法，如何降维就是首要的工作。 2、中文分词技术：由于中文语系的特殊性，所以它所使用的分词方法也有别于其它语系。本文着重描述了正向和逆向的最大匹配方法。 3、本信息的聚类和分类：这部分主要介绍了目前的几种聚类和分类方法，并将几种算法的优缺点互相结合，给出了新的聚类算法。论文整体结构论文整体结构如下 : 第一章引言，主要介绍了本领域研究背景与研究现状，提出了本文研究的内容以及整体结构和基本框架。第二章要讨论了数据挖掘、本信息挖掘等技术和理论知识，介绍了实现兰州大学硕士学位论文本信息挖掘中聚类算法在甘肃省扶贫网中的应用研究 4 同时详述了挖掘过程。第三章甘肃扶贫网体系结构与典型模块分析，主要介绍了甘肃扶贫网整体结构，对劳务输转板块、“两后生”板块、甘肃苹果价格走势、大蒜价格走势、土豆价格走势等进行了分析。第四章文本信息挖掘在甘肃扶贫网中的应用，主要讨论了系统开发环境，系统框架、特征表示与提取、文本信息挖掘模块以及系统运行实现。第五章总结，总结本论文所做的一些工作，并对本信息挖掘技术的发展前景进行了展望。兰州大学硕士学位论文本信息挖掘中聚类算法在甘肃省扶贫网中的应用研究 5 第二章本信息挖掘与相关技术重要延伸，是工作在互联网上的一种挖掘技术。随着互联网的迅速扩张和发展，当人们再次面对海量数据信息的时候，不会再变得手足无措，使用们可以很轻松的从互联网上获取相关的知识信息。数据挖掘数据挖掘的发展人类的活动会产生大量随机、无序的信息数据，由于初期所产生的数据量很小，结构单一，且人们只是利用它们来进行简单的查询工作，需求并不复杂 4。人么可以对其进行登记造册，建立简单的索引目录，以便随时查找。但是随着互联网的飞速发展，尤其是得信息量的剧增，传统的数据处理方法已经不能够适应与日俱增的数据，而且人们也已经不再满足于对数据进行简单的查询，他们对数据本身所含的信息提出了更高的要求。这一切都促使我们需要创建一种规则，或者是开发一套程序，用来管理、搜索、挖据我们的数据库，从数量庞大的、关系复杂的数据资源中找出各类具有指导意义的、有价值的信息。我们将这种活动称之为数据挖掘，顾名思义，数据挖掘就是从数据库中挖掘出有用信息的过程。首次形成数据挖掘的概念是在上个世纪八十年代的第十一届国际联合人工智能学术会议上，当时提出数据挖掘就是指从存储在仓库中的大量信息中寻找并发现一些还未知的、有价值的信息的过程 7。简单来说，数据挖掘一般由以下步骤组成：第一步是准备数据，它主要是挑出一些互相之间有关联的数据。第二步是整合数据，因为不同的数据它所分布的地方也是不同的，这一步就是要将来自于不同地方的数据整合到一块，以便下一步操作。第三步是挑选数据，这一步主要是根据不同任务的需求，将与之匹配的各种数据挑选出来。第四步是数据的变换，因为所需要的数据不仅分布在不同的地方，同样也以各种各样的形态存在着，所以将这些各式各样的数据整合为统一的形态，以便挖掘程序的进一步工作。第五步就是整个工作的核心了，数据挖掘，它利用一些预先设定好的程序和兰州大学硕士学位论文本信息挖掘中聚类算法在甘肃省扶贫网中的应用研究 6 法则来分析、提取数据之间的关系。第六步是评价，它是根据特定的模式评价方法来对发现的数据进行挑选。第七步是返回结果，这一步工作是直接面向用户的，是将之前所有工作的成果都向用户来反馈 8。其实，从另一方面来讲，数据挖掘所面对的对象又不仅仅局限于数据库，它可以是任何形态的数据，所以综合上述观点，我们所说的数据挖掘系统的流程主要由图图数据挖掘系统的主要成分由数据挖掘所面对的对象的不同，从而决定了数据挖掘程序的多样化。按照技术标准可以将现有的数据挖掘技术分为三类 : 1、根据数据库类型分类数据库包括了各种各样的信息数据，种类也非常繁多，所以根据对象的不同，数据挖掘系统也分为以下三种：基于数据库、基于数据仓库以及基于互联网的数据挖掘等。 2、根据挖掘发现知识的种类分类由于挖掘程序所面对的数据是千差万别的，那么它们所包含的关系也是千差万别的，所以，根据挖掘所产生的信息的种类不同，数据挖掘又可以分为：分类模型知识的发现、关联规则的发现、序列模式的发现、存在关系的发现、发展方向的发现等。数据库、数据仓库和其他信息库数据挖掘引擎模式评价用户图形界面知识库兰州大学硕士学位论文本信息挖掘中聚类算法在甘肃省扶贫网中的应用研究 7 3、根据所使用的方法分类数据库结构纷繁复杂、数据量等信息都会不太相同，所以挖掘的方法也会相应的有一些不同。根据所使用的方法，挖掘可以分为多种情况：机器学习方法、面向数据库或数据仓库的技术、可视化技术和神经网络等 9。只有一点是可以明确的，那就是数据挖掘程序永远是为了解决实际问题而准备的，不同的数据所要用的挖掘程序也不尽相同，所以必须要根据实际情况来配置挖掘程序，这样才能够满足不同的需求，这样的系统才是健壮的、高效的系统。那么一套完整的数据挖掘流程究竟是怎样的呢？如图示就是一个完整的数据挖掘的过程。首先确定需求，然后根据原始数据源来准备数据，并进行预处理，然后根据所设定的程序和法则来进行分析处理，提取相关信息，并进行结果的评价验证，最后以某种特定的形式反馈给用户。图数据挖掘过程图在整个数据挖掘过程中，每一步都是必不可少的。首先要确定问题，任何应用系统都是根据需求来设计的，不同的需求对应于不同的应用系统，所以，在要进行一个操作之前，必须要明确它所要面对的对象是哪些，提出问题，进而解决确定问题准备数据建立模型验证和评价模型模型实施原始数据源预处理后的数据兰州大学硕士学位论文本信息挖掘中聚类算法在甘肃省扶贫网中的应用研究 8 问题，根据实际来设计方案，这样可以大大提高效率。其次就是要准备好足够的数据来等待挖掘，这一步是基础，要进行加工，就必须要有足够的原料，而且是质量上乘的原料，没有好的原料，一切都是空谈。第三步就是建立模型，一个数据挖掘工作的开展必须预先根据用户的需求来建立相应的模型，而且要不断的反复验证，来确定哪一种模型对于解决实际问题最快速，返回的结果质量最高。第四就是验证和评价模型，在建立完数据挖掘模型以后，还要对已建立的模型进行验证和评价，因为在已建立的模型中有可能存在一些多余的模块，这些模块有可能会影响到最终结果的准确性。第五就是模型的实施，建立有效的模型，并且经过验证以后，就可以将模型应用于实际的商业应用中，为分析、决策人员提供辅助信息。其实数据挖掘所做的工作也只是提供一些依据信息，不能决定全部，但是在某种程度上它也有可能会影响到决策结果。所以一个好的数据挖掘程序，它是会自动根据用户的需求随时选择更加准确的模型和方法，具体问题具体对待，以实现最好的结果。基于数据挖掘目前，数据挖掘技术已经非常成熟，正在广泛应用与生产和生活的各个方面，有了这样一个好的基础，作为数据挖掘技术的一个延伸据挖掘也得到了长足的发展 10。据挖掘从本质上来说就是传统数据挖掘的一个网络升级版，它所面对的数据库就是互联网，所面对的数据就是互联网中的无数的主要就是对互联网中的现隐含于其中的、有价值的信息的过程。而传统的数据挖掘技术所针对的仅仅是本地化的数据库，它所面对的数据也是有限的，结构也基本上是统一化的，所以就单单所面对的数据库而言，两者是有着质的差别，应用范围要比传统的数据挖掘范围广得多，当然也要复杂得多。互联网中的数据，不仅是数量庞大，结构不统一，而且最主要的是数据时刻是动态变化着的，时也要时刻监视原始数据的变化，以便及时更新；而基于本地数据库的数据挖掘则相对要简单得多，它所面对的数据库基本上是稳定的，而且结构统一，所要做的就仅是对现有的数据进行分析扫描就可以了，不涉及到监视和扫描 10。所以，且它要高于数据挖掘技术。事实上，所谓的就是通过对不同页面之间的联系进行归类划分，以便能够实现对相关结果的分析，并监测其变化 11。 1、页面数据兰州大学硕士学位论文本信息挖掘中聚类算法在甘肃省扶贫网中的应用研究 9 因为网页是表达信息的主题，所以一个网页所包含的信息是十分复杂的，既有文字，也有图像，甚至可能还有视频等多种信息。 2、页面之间的关系整个网络是由一个一个的页面所组成的，这些页面相互之间也有着千丝万缕的联系，这种联系就是页面之间的关系。 3、服务器日志服务器的日志就是记录了针对服务器的访问情况，由于这一类型的文件本身就是机器语言，所以也很容易被计算机所理解。 12 如图应可以分为三类：图 (1)、内容挖掘的就是从页面中搜索发现的数据中分析提取有价值信息的过程。它可以被分为两种策略：第一种是直接挖掘；第二种是在其它搜索工具搜索结果的基础上进行进一步分析。名思义所面对的就是它可以对庞大繁杂的类，进而对其中的信息进行总结，从而对整体进行一种预测。一个页面包括了各种各样表达信息的数据，以及这些数据之间的关系等，它们之间的数据结构和编码形式都大不一样，对这些数据的挖掘我们称之为它对文档的处理过程可以分为两种：一种是传统的数据库方法，是指运用适当的转化技术把结构相似的档数据转化成为结构更加相似的数据集合，以便能够适应于传统数据库的挖掘方法；另外一种是直接扫描分析据内容提取关键词，然后根据关键词对后再针对分类进行扫描分析，提取相关的信息知识。掘构挖掘容挖掘用挖掘本信息挖掘媒体挖掘访问模式挖掘个性化使用兰州大学硕士学位论文本信息挖掘中聚类算法在甘肃省扶贫网中的应用研究 10 (2)、针对面中的超链接和组织结构等进行分析并提取信息的过程就叫做在互联网中，无数的互联网中没有独立的页面，所以超链接就代表了页面之间的关系。超链接中的一些标记实质上就是一种文档的表现形式，这种事直观且显而易见的。而且由于这种标记的存在，使得同类信息不再是以一种形式来表达，而是通过标记使得一种信息可以以多种方式来表达，这就造成了互联网中信息的多样化。这是一种非常重要的手段，可以把它充分应用于信息的表达。 13 下面我们介绍两种算法：法和法；这都是在法来源于两个名叫斯坦福大学博士生。它的原理就是只关心用户的点击行为，而不关心点击内容，它认为一个得到的链接数的多少，就体现了一种页面的重要性。 13 个出链集合 O(i)和一个入链集合 I(i)，出链集合和入链集合相互关联，数目分别决定了贡献度的大小，即就是入链集合的数目越多，那么该页面的重要性也越高；相应的，如果出链集合的数目越多，那么则表示其重要性也越低。这一高一低就直接表明了该页面的重要性。 14 法来源于士。它的原理就是建立一个页，这个户进行检索的请求通过向相关的包含信息的页面 15。其实从本质上来说，是它所起的作用却是比较重要的，它是一个权威信息的链接的集合。一般来说，一个好的威信息网页，而一个好的权威信息网页则是由许许多多个好的指向。他们之间是互相联系、互相依存的，我们可以利用他们之间的这种关系来分析发现检索结构与资源之间的关系。 (3)、要作用是从使用行为所产生的日志文件中或是所产生的数据中提取有价值的信息的过程。服务器会自动记录下每一次用户的访问记录和针对该服务器所进行的操作，然后将这些记录的行为数据生成文件保存起来，这就是日志，它记录了服务器运行的相关信息。用挖掘所针对的就是这些信息，它将这些日志信息从服务器中提取出来，进行分析，从中发现访问用户的访问习惯，然后将相似的用户进行归类 15。通过用挖掘还可以得出哪些页面是受用户欢迎的，哪些页面是无关紧要的，有了这些信息，站长们就可以及时的根据实际需要来调整站点的结构和信息方向，进一步对站点进行优化，使之能够更兰州大学硕士学位论文本信息挖掘中聚类算法在甘肃省扶贫网中的应用研究 11 加适应用户的访问习惯，能够更好的服务于用户，这对于一个站点的发展是非常重要的。本信息挖掘在整个据挖掘又是极其重要的一环，它是指从互联网文档中发现并提取有用的信息的过程。其实，从本质上来说，据挖掘和传统的文本信息数据挖掘非常的相似。传统的文本信息挖掘所面对的只是一些纯文本，不包括任何的标记符号，所以它的任务也非常的简单，只是从这些大量的纯文本中去扫描、发现一些有用的、未知的信息 16；而包括了一些标记和符号，这些标记和符号用来表示文本的样式和表现方式，以使得文本能够显示出多样化，这样，光要分析文本信息，还要分析大量的标记和符号信息，这样才能够更好和更全面的反映出挖掘对象的价值 17。所以，由所面对的对象所决定，需要用到的技术要比单纯的文本信息数据挖掘复杂得多。本信息挖掘技术的原理及其工作流程据挖掘技术与传统的数据挖掘技术的区别主要体现在一下几个方面：第一、它们所面对的数据库不同，传统的数据挖掘技术所面对的数据库中的数据只是一些边界清晰、结构统一的数据，而据挖掘所面对的数据库则是整个互联网，在这个互联网数据库中的数据则千变万化，包含了各种样式和形态，这些数据都不能够直接被计算机所识别，不能直接应用数据挖掘技术，需要将这些数据转换为统一形态和格式的数据才能使用。第二、它们所面对的数据库规模不同，据挖掘所面对的是互联网，其数据规模要远远超过传统数据库中的数据规模。传统的数据库挖掘技术不需要考虑数据库的发展规模，它只是针对已经建立好的数据库进行分析、整理和提取有用信息，而据挖掘技术所要做的不仅仅是分析、整理和提取过程，它还要针对海量的、动态变化着的互联网文本信息进行监测和扫描，以便能够及时更新。所以，须能够进行增量的执行，而且要保证数据挖掘的效率和结果的准确性。所以根据上述两点，直接将传统的数据挖掘技术应用于现有的据挖掘中是行不通的。兰州大学硕士学位论文本信息挖掘中聚类算法在甘肃省扶贫网中的应用研究 12 据的挖掘过程一般有以下几个步骤：特征表示、特征提取、识别模式和质量评价。 1、特征的表示档的本质就是标记语言，即就是一组式文档的集合，它不仅包含了传统的纯文本，也包含了让文本表现出各种样式的标记符号，所以统数据库中数据，它没有严格的完整性，也没有统一的样式，在进行数据挖掘的时候不能采用传统的挖掘技术，必须要采用某种特定的模型来处理这些千变万化的数据，将其转化成为统一的形式，然后再进行分析，并将能够代表其本质的特征表示出来。 2、特征提取特征表示处理完成后的特征空间一般都具有很高的维数，维数过高的特征并不利于随后的数据挖掘，因此，我们必须在特征表示完成以后，通过适当的方法来降低特征空间过高的维数，而且要适当地提取少量的特征，以便能够提高效率和准确度。 3、识别模式使用特定的本信息挖掘的处理方法来提取知识模式。提取的知识模式就代表了挖掘程序即将处理的文本的特征。 4、评价模型质量我们在数据挖掘进行完成以后，要对结果进行评价，如果符合预定的要求，就存储起来或者以可视化的形式向用户返回得到的信息，如果不满足预设的要求，则返回到某个出现问题的环节进行新一轮次的挖掘工作。那么怎样去评价信息的质量？评价质量的方法可以选用一些常用的评价方法，也可以选择一些特定的评价模型，这取决于我们对目标结果的要求 17。据挖掘工作的流程大致分为以下三个步骤，如图首先是页面数据的收集和预处理，由于从互联网上收集的页面存在各种各样的形态，所以收集完成以后要对这些页面进行预处理，处理成统一格式和形态；第二步是提取收集到页面的特征，根据页面的实际内容，提取到最适合、最能概括页面的特征词，然后根据特征词对收集到的页面进行归类分析；第三步就是使用预先设定好的算法进行数据挖掘，得出初步结论，然后对结论进行分析、评价，最后向用户返回处理结果。兰州大学硕士学位论文本信息挖掘中聚类算法在甘肃省扶贫网中的应用研究 13 图本数据挖掘的工作流程图在全过程中，每一步都有其重要的作用，都是必不可少的。本信息挖掘技术应用涉及到的技术理论一、中文分词技术据挖掘所要面对的是自然语言文本，所以怎样将自然语言转化为机器能够识别的机器语言，并提取相关的关键词，适用相应的模型，这就是整个挖掘工作的核心和基

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【毕业学位论文】（Word原稿）Web文本信息挖掘中聚类算法在甘肃省扶贫网中的应用研究

文档简介

温馨提示

最新文档

评论

【毕业学位论文】（Word原稿）Web文本信息挖掘中聚类算法在甘肃省扶贫网中的应用研究

文档简介

温馨提示

最新文档

评论

相关文档