




已阅读5页,还剩57页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分类号: 密级: 专 业 学 位 研 究 生 学 位 论 文 论文题目(中文) 本信息挖掘中聚类算法 在甘肃省扶贫 网 中的应用研究 论文题目(外文) of eb in 究 生 姓 名 裴凌 学 位 类 别 工程硕士 专 业 学 位 领 域 计算机技术 学 位 级 别 硕 士 校内 导师姓名、职称 马义忠 教授 校外导师单位、姓名 兰州市勘察测绘研究院 张永忠 论 文 工 作 起 止 年 月 2012 年 2 月至 2012 年 9 月 论 文 提 交 日 期 2013 年 3 月 论 文 答 辩 日 期 2013 年 5 月 学 位 授 予 日 期 校址:甘肃省兰州市 原 创 性 声 明 本人郑重声明:本人所呈交的学位论文,是在导师的指导下独立进行研究所取得的成果。学位论文中凡引用他人已经发表或未发表的成果、数据、观点等,均已明确注 明出处。除文中已经注明引用的内容外,不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究成果做出重要贡献的个人和集体,均已在文中以明确方式标明。 本声明的法律责任由本人承担。 论文作者签名: 日 期: 关于学位论文使用授权的声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归属兰州大学。本人完全了解兰州大学有关保存、使用学位论文的规定,同意学校保存或向国家有关部门或机构送交论文的 纸质版 和 电子版,允许论文被查阅和借阅;本人授权兰州大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用任何复制手段保存和汇编本学位论文。本人离校后发表、使用学位论文或与该论文直接相关的学术论文或成果时,第一署名单位仍然为兰州大学。 本学位论文研究内容: 可以公开 不易公开,已在学位办公室办理保密申请,解密后适用本授权书。 (请在以上选项内选择其中一项打“ ”) 论文作者签名: 导师签名: 日 期: 日 期: 本信息挖掘中聚类算法在甘肃省扶贫网中的应用研究 摘 要 需求是发明之母。近年来,数据挖掘之所以引起业界 的 极 大 关注,主要原因还是 用户迫切需要将 产生的大量数据 转换成有用的信息和知识,并且 将 所获取的信息和知识广泛应用于商务管理、生产控制、市场分析、工程设计和科学探索等领域。 它是相对于 更注重用户的交互作用 。 在 户只是网站内容的浏览者,而在 代, 用户不仅仅是网站内容的浏览者,更是网站内容的制造者, 由被动的接收互联网信息向主动创造互联网信息发展,这显示出 互联网的 人性化。但是 , 一个新的问题 就此产生 ,信息量暴增,人们从中获取信息 和 知识就变得越来越困难,仅仅依靠以前单一的手段已远远不能满足需要。所以 ,如何 解决好这个问题,让互联网中海量的信息资源库能够更好的为 人类 的生产和生活提供服务 ,就成为了 这些年来诸多专家学者为之奋斗的一个方向 , 从而也就诞生了一个新的名词: 作用 就是它可以对互联网上的信息资源进行切分归类并进行搜索提取,用来帮助互联网用户进行知识的搜索和提取,进而提高用户使用互联网的效率,它 属于 延伸出来的一个新的 研究 领域。 本文 着重 研究 了 据挖掘所使用的 技术以及挖掘方法、运行过程, 同时, 为了能对 进一步的研究和了解 , 本文实现了一个结构简单但功能 完整的 下面对 本文所做的主要的研究工作 做一个简要概述 : 1、介绍了 据挖掘及其延伸 本信息 数据 挖掘 的 应用 背景 、研究现状及发展趋势 , 以及 我们 进行 据 挖掘 研究 的意义。 2、 介绍了甘肃省扶贫信息网的整体体系结构以及包括 中文分词技术、 本信息 数据 挖掘过程中的所使用 的核心 技术 。 3、 简单 讨论了 K 均值算法 、 基于 K 均值和遗传算法的聚类算法 等 几种常用算法在甘肃扶贫信息网中的应用 ,并 通过甘肃省扶贫信息网 进行了验证。 关键词: 息资源,传统数据挖掘技术, 息提取 he is of In of an to of to in of .0 it is to a it is on In .0 in s is of by to to a of is to on a to of of in to of in of a eb is a eb It eb on It to in to of eb eb by eb in to eb t it eb eb in 1. an eb it eb 2. an in of eb as of eb so 3. an of eb do an to of on 目 录 中文摘要 I 一章 引言 1 研究背景 1 研究现状 2 研究内容 3 论文的整体 结构 3 第二章 本信息挖掘 与相关技术 5 数据挖掘 5 数据挖掘的发展 5 基于 8 掘 11 11 用涉及到的技术理论 13 实验结果 24 本章小结 26 第三章 甘肃扶贫网体系结构 与典型模块分析 27 甘肃扶贫网整体结构 27 劳务输转板块分析 29 “两后生”板块分析 30 甘肃苹果 价格走势分析 32 大蒜价格走势分析 33 土豆价格走势分析 34 本章小结 35 第四章 文本 信息挖掘在甘肃扶贫网中的应用 36 系统开发环境 36 系统框架 36 系统结构 37 中文分词模块 37 特征表示和提取模块 40 文本信息挖掘模块 43 系统运行实现 45 网页采集 45 网页的清理 46 系统初始化 47 系统运行 50 本章小结 52 第 五 章 总结与展望 53 研究工作总结 53 未来展望 53 参考文献 . 55 兰州大学硕士学位论文 本信息挖 掘中聚类算法在甘肃省扶贫网中的应用研究 1 第一章 引言 研究背景 文 所做的主要 研究 工作 。 互联网的发展速度,已经远远超过人们的预测,在这个现代化的社会中,人们不论是生产或是生活,都已经离不开网络,它不再是一种高高在上的新鲜事物,而是已经成为了人们手中的一种工具,通过它 来获取某种 信息已经是再普通不过的事情,相较于以前传统的 三大信息媒体,现如今的人们获取知识的渠道也更加的多元化 1。 互联网 作为一个新兴的信息媒介,自身自然有着无可比拟的优势。首先 是巨大的信息量,互联网包含了 数以亿计的 、 各种 各样的 而无数的承载着各种文字、声音、图片和视频信息的 样摆在用户面前的就是一个庞大的难以想象的信息库;其次是 互联网 具有 电视、广播、报纸等 传统 媒介所 不具备的及时性和开放性等特点 ,一条即时信息可以通过互联网在很短的时间内传遍全球,这在传统媒介上是 不可能实现的 ; 第三是交互性,用户对传统的信息传播媒介只是被动的接收,不能按照自己的爱好和需求来选择,更不能发表自己的看法和意见,但是互联网就不同,它不仅允许用户根据自己的 的兴趣来选择相关的信息,而且可以给用户提供一个平台来发表一些意见和看法,也就是说可以和用户进行互动 2。正是由于这三点,互联网得到了一个很大的发展空间,得以急速膨胀。 但是, 在网络大行其道的今天,我们也不应该忽视它所带给我们的一些问题 ,当用户在面对互联网上海量的信息的时候,常常显得手足无措, 很难通过 一些 简单、易用的方式 从互联网上获取自己需要 的信息 , 这与互联网的初衷是背道而驰的,所以怎样才能使用户能够快速并 且 准确地从 互联网 上 获取到自己 所需 要 的信息, 也就是说互联网怎样才能做到自我检索,即就是对自身所包含的大量数据进行归类,并建立索引以便随时查找,这是现在网络技术研究的一个新方向, 也就是我们所说的 本信息 数据 挖掘。 是利用 一些特有的搜索、归类、分析和筛选技术 从互联网上大量的 本信息中 提取到对用户有用的 信息 知识的过程 ,它是数据挖掘领域 的 一个新的研究方向。 利用 术 可以协助 现有的搜索引擎 来 自动 搜索 、分析和 抓取 关联度高的网页,并根据用户的需求将这些抓取到的信息进行筛选,进而以可视化的形式返回给用户,这样就使得 人们可以通过自己的实际需求来定制相应的 2。 兰州大学硕士学位论文 本信息挖 掘中聚类算法在甘肃省扶贫网中的应用研究 2 实际上, 本信息 挖掘 就是 据挖掘的 一个 子集 。 据挖掘的研究方向主要有三个: 第一个是 通过一些搜索、归类、分析的方法,在互联网中大量的、非结构化的文本资源中提取跟用户相关的 一些关键字,进而根据文档之间的关系对文档进行分类,最终获取有用的信息,这样可以提 高人们获取 源的效率。第二个研究方向是 第三个研究方向是 2。 研究现状 现如今, 越来越多的专家学者们都投身于数据挖掘这一领域,尤其是 一方面是由于 有极强的挑战性;另一方面也是由于大家都看到了 阔的发展前景。这些来自于各个领域的研究者们 利用 他们各自掌握的 理论和 相关技术 来研究 且结合实际操作提出了许多 新的 、带有交叉性的 挖掘技术 2。在国际上 ,同行业对于 究 的开展工作要 比国内同行要早,例如早期的信息抽取技术 经过在实际操作过程中不断的改进、演化为现在的文本信息挖掘技术。但是,即使是这样,在这一方面的研究所拓展的空间也不是很大,目前 主要集中在文本信息的自动分类技术 和如何优化搜索引擎等方面,还有一些智能化方面的应用。 在 个 上世纪 50 年代末, 一次在文本信息的搜索分类方面使用了频率统计思想,原理是根据关键词在文本中出现的频率来 进行划分归类, 这是一项创造性的研究 。在 此 随后的 许多 年里, 不断的有许多的研究者们都相继提出了自己在文本信息搜索方面的想法,并转化为相应的研究成果 。 到目前为止, 在这一领域已经产生了相当多的研究成果,并且其中有很多研究都 已经取得了令人瞩目的研究成果。 文本信息挖掘己经从最基础的理论研究,发展到 现在的 实际应用化阶段, 例如在 电子会议、邮件分类等方面 的应用都非常的广泛 3。 在商业领域, 以及 同时, 在军事和企业的情报搜集方面, 文本信息挖掘技术 也得到了大量的应用, 可以说,文本信息挖掘技术现在已经作为搜集有用信息的重要手段和方法 3。 相对于国外,我国国内 的研究状况就没有 那么乐观了 。 在 1981 年 的时候 ,候汉清教授 才在国内介绍了国外在分类检索等相关方面的 研究 情况, 同时对这项研究在国内的应用做了一些探讨分析 。 但直到 1998 年, 我国 才将文本信息挖掘的研究列入了 国家重点基础研究发展规划。目前,高等院校、科研院所和一些信息公司是我国国内对文本信息挖掘技术的主要研究机构。 兰州大学硕士学位论文 本信息挖 掘中聚类算法在甘肃省扶贫网中的应用研究 3 比如 : (1)、 科 学 院计算机语言信息工程中心所研究的 中文词划分 、 语音识别转换等 项目 。 (2)、上海交通大学计算机系研究的自然语言模型、语句语义、范例推理、构造解释模型等 项目 。 (3)、东北大学 所研究 的中文信息自动抽取 、词性标注、汉语文本自动分类模型等 项目 。 这些都是我国在文本信息挖掘方面所取得的不小的成绩, 但是, 我们在看到这些成绩的同时, 也必须清醒的认识到, 我们针对这一领域起步晚,所掌握的技术 十分 有限 , 特别是将研究成果的商业化方面还是非常滞后 。 3所以 , 怎样让我国的研究水平能够快速提高, 并且能够及时的将研究成果转化为实际生产力,这是摆在我们计算机工作者面前的一道不小的难题。 研究内容 本文 主要是根据 经形成的技术应用,以及相关研究的商业化应用等方面进行了简单的论述 ,包括 一些 算法 在 本挖掘中的应用,利用 现有 的研究成果,结合实际应用, 基本 上能够 实现信息挖掘原型系统 的 开发运行 。 下述三种技术由于经常被应用信息挖掘,所以本文将其作为研究重点: 1、特征向量的表示 以及 提取: 由于向量空间模型的特征维数很高,为了适应空间模型的计算方法,如何降维就是首要的工作。 2、 中文 分词技术: 由于中文语系的特殊性,所以它所使用的分词方法 也有别于其它语系。 本文着重 描述了正向和逆向的最大匹配方法。 3、 本信息的聚类和分类: 这部分主要介绍了目前的几种聚类和分类方法, 并将几种算法的优缺点 互相结合,给出 了 新 的聚类算法。 论文整体 结构 论文整体结构 如下 : 第一章 引言 , 主要介绍了本领域研究背景与研究现状,提出了本文研究的内容以及整体结构和 基本框架。 第二章 要讨论了数据挖掘、 本信息挖掘等技术和理论知识,介绍了 实现兰州大学硕士学位论文 本信息挖 掘中聚类算法在甘肃省扶贫网中的应用研究 4 同时详述了挖掘过程 。 第三章 甘肃扶贫网体系结构与典型模块分析,主要介绍了甘肃扶贫网整体结构,对劳务输转板块、“两后生”板块、甘肃苹果价格走势、大蒜价格走势、土豆价格 走势等进行了分析。 第四章 文本信息挖掘在甘肃扶贫网中的应用,主要讨论了系统开发环境,系统框架、特征表示与提取、文本信息挖掘模块以及系统运行实现。 第五 章 总结, 总结本论文所做的一些工作,并对 本信息挖掘 技术的发展前景进行了 展望。 兰州大学硕士学位论文 本信息挖 掘中聚类算法在甘肃省扶贫网中的应用研究 5 第二章 本信息挖掘 与相关技术 重要 延伸, 是工作在互联网上的一种挖掘技术。 随着互联网的迅速扩张和发展,当人们再次面对海量数据信息的时候,不会再变得手足无措,使用 们可以很轻松的从互联网 上获取相关的知识信息。 数据挖掘 数据挖掘的发展 人类的活动 会 产生大 量随机、无序的 信息数据, 由于初期所产生的数据量很小,结构单一,且 人们只是利用它们来进行简单的查询工作, 需求并不复杂 4。人么可以对其进行登记造册,建立简单的索引目录,以便随时查找。 但是随着 互联网的飞速发展, 尤其是 得信息量的剧增,传统的数据处理方法已经不能够适应与日俱增的数据,而且人们也已经不再满足于对数据进行简单的查询,他们对数据本身所含的信息提出了更高的要求。这一切都促使我们需要创建一种 规则,或者是开发一套程序,用来管理、搜索、挖据我们的数据库,从 数量庞大的、关系复杂的数据资源中找出各类具有指导意义的、有价值的信息 。 我们将这种活动称之为数据挖掘,顾名思义,数据挖掘就是从数据库中挖掘出有用信息的过程。 首次形成 数据挖掘的概念 是在 上个世纪 八十年代的 第十一届国际联合人工智能学术会议 上 ,当时提出数据挖掘 就 是指从 存储在仓 库中 的 大量 信息 中 寻找 并发现一些还未知的、有价值的信息的 过程 7。 简单来说, 数据挖掘一般由以下步骤组成: 第一 步是准备数据, 它主要是 挑出一些互相之间有关联的数据。 第二步是 整合数据 , 因为不同的数据它所分布的地方也是不同的,这一步就是要将 来自于不同地方的数据整合到一块,以便下一步操作。 第三 步 是 挑选数据 , 这一步主要是根据不同任务的需求,将与之匹配的各种数据挑选出来。 第四 步 是数据 的变换, 因为所需要的数据不仅分布在不同的地方,同样也以各种各样的形态存在着,所以将这些各式各样的数据整合为统一的形态,以便挖掘程序的进一步工作。 第五 步就 是 整个工作的核心了, 数据 挖掘, 它利用一些预先设定好的程序和兰州大学硕士学位论文 本信息挖 掘中聚类算法在甘肃省扶贫网中的应用研究 6 法则来分析、提取数据之间的关系 。 第六 步是 评价, 它 是 根据 特定的模式评价方法来对发现的数据进行挑选。 第七 步是 返回 结果 , 这一步工作是直接面向用户的,是将之前所有 工作的成果都向用户来反馈 8。 其实, 从另一方面来讲, 数据挖掘 所面对的对象又不仅仅局限于数据库,它可以是任何形态的数据,所以 综合上述观点,我们所说的数据挖掘系统 的流程 主要由 图 图 数据挖掘系统的主要成分 由数据挖掘所面对的对象的不同,从而决定了数据挖掘程序的多样化。 按照技术标准可以 将 现有的 数据挖掘技术 分为三类 : 1、 根据数据库类型 分类 数据库包括了各种各样的信息数据 ,种类也非常繁多, 所以根据 对象的不同,数据挖掘系统也分为以下三 种: 基于数据库、基于数据仓库以及基于 互联网 的数据挖掘 等。 2、根据挖掘发现知识的种类分类 由于挖掘程序所面对的数据是千差万别的,那么它们所包含的关系也是千差万别的, 所以, 根据挖掘所 产生的信息的 种类 不同 ,数据挖掘 又 可 以 分为:分类模型知识的发现、关联规则的发现、序列模式 的发现、存在 关系 的发现、 发展方向 的 发现等。 数据库、数据仓库和其他信息库 数据挖掘引擎 模式评价 用户图形界面 知 识 库 兰州大学硕士学位论文 本信息挖 掘中聚类算法在甘肃省扶贫网中的应用研究 7 3、根据所使用的方法 分类 数据库结构纷繁复杂 、数据量等信息都会不太相同,所以挖掘 的方法也会相应的有一些不同。 根据所 使用的方法, 挖掘 可以分为多种情况 :机器学习方法、面向 数据库或数据仓库的技术、可视化技术和神经网络等 9。 只有一点是可以明确的,那就是数据挖掘程序永远是为了解决实际问题而准备的, 不同的数据所要用的挖掘程序也不尽相同,所以必须要根据实际情况来配置挖掘程序,这样才能够满足不同的需求,这样的系统才是健壮的、高效的系统。 那么一套完整的数据挖掘流程究竟是怎样的呢? 如图 示 就 是 一个完整的数据挖掘的 过程。 首先确定需求,然后根据原始数据源来准备数据,并进行预处理,然后根据所设定的程序和法则来进行分析处理,提取相关信息, 并进行结果的评价验证,最后以某种特定的形式反馈 给用户。 图 数据挖掘过程图 在整个数据挖掘过程中,每一步都是必不可少的。首先要确定问题, 任何 应用系统都是根据需求来设计的,不同的需求对应于不同的应用系统,所以,在要进行一个操作之前,必须要明确它所要面对的对象是哪些,提出问题,进而解决确定问题 准备数据 建立模型 验证和评价模型 模型实施 原始数据源 预处理后的数据 兰州大学硕士学位论文 本信息挖 掘中聚类算法在甘肃省扶贫网中的应用研究 8 问题, 根据实际来设计方案,这样可以大大提高效率。 其次就是要准备好足够的数据来等待挖掘, 这一步是基础, 要进行加工,就必须要 有足够的 原料 , 而且是质量上乘的原料,没有好的原料,一切都是空谈。第三步就是 建立模型 , 一个数据挖掘工 作的开展必须预先根据用户的需求来建立相应的模型,而且要不断的反复验证,来确定哪一种模型对于解决实际问题最快速,返回的结果质量最高。 第四就是 验证和评价模型 , 在建立完数据挖掘模型以后,还要对已建立的模型进行验证和评价,因为在已建立的模型中有可能存在一些多余的模块,这些模块有可能会影响到最终结果的准确性。 第五就是模型的实施 , 建立有效的模型,并且经过验证以后,就可以将模型应用于实际的商业应用中,为分析、决策人员提供辅助信息。 其实数据挖掘所做的工作也只是提供一些 依据信息,不能决定全部,但是在某种程度上它也有可能会影响 到决策结果。所以一个好的数据挖掘程序,它是会自动根据用户的需求随时选择更加准确的模型和方法,具体问题具体对待,以实现最好的结果。 基于 数据挖掘 目前, 数据挖掘技术已经非常成熟, 正在 广泛应用与生产 和 生活的各个方面,有了这样一个 好的 基础, 作为数据挖掘技术的一个延伸 据挖掘 也得到了长足的发展 10。 据挖掘 从本质上来说就是传统数据挖掘的一个网络升级版,它所面对的数据库就是互联网,所面对的数据就是互联网中的 无数的 主要就是对互联网中的 现 隐含于其中的、有价值的信息 的过程。 而 传统 的 数据挖掘 技术所针对的仅仅是本地化的数据库 , 它所面对的数据也是有限的,结构也基本上是统一化的,所以就单单所面对的数据库而言,两者是有着质的差别, 应用范围要 比传统的数据挖掘范围广得多,当然 也要复杂得多。 互联网中的数据,不仅是数量庞大,结构不统一,而且最主要的是数据时刻是动态变化着的, 时也要时刻监视原始数据的变化,以便及时更新;而基于本地数据库的数据挖掘则相对要简单得多,它所面对的数据库基本上是稳定的,而且结构统一,所要做的就仅是对现有的 数据进行分析扫描就可以了,不涉及到监视和扫描 10。所以, 且它要高于数据挖掘技术。 事实上 , 所谓的 就是 通过 对 不同页面之间的联系 进行 归类划分,以便能够 实现 对相关结果的 分析, 并监测其变化 11。 1、 页面 数据 兰州大学硕士学位论文 本信息挖 掘中聚类算法在甘肃省扶贫网中的应用研究 9 因为网页是表达信息的主题,所以一个网页所包含的信息是十分复杂的,既有文字,也有图像,甚至可能还有视频等多种信息。 2、 页 面之间的 关系 整个网络是由一个一个的页面所组成的,这些页面相互之间也有着千丝万缕的联系,这种联系就是页面之间的关系。 3、服务器 日志 服务器的日志就是记录了针对服务器的访问情况,由于这一类型的文件本身就是机器语言,所以也很容易被计算机所理解。 12 如图 应可以 分为三类 : 图 (1)、内容挖掘 的 就是从页面中搜索发现的数据中 分析 提取有价值信息 的过程 。它可以被分为 两种策略: 第一种是 直接挖掘 ;第二种是 在其它搜索工具 搜索结果的基础上进行进一步分析 。 名思义所面对的 就是 它可以对庞大繁杂的 类,进而对其中的 信息进行总结,从而对整体进行一种预测。 一个页面包括 了 各种各样 表达信息 的数据, 以及这些数据之间的关系等, 它们之间的数据结构和编码形式都大不一样,对这些数据的挖掘我们 称之为 它对文档的处理过程可以分为两种: 一 种是传统的数据库方法, 是指运用适当的 转化 技术把 结构相似 的 档数据 转化成为 结构更加 相似的 数据集合, 以便能够适应于传统数据库的挖掘 方法 ;另外一种是直接扫描分析 据内容提取 关键词 , 然后根据关键词对 后再针对分类进行扫描分析,提取相关的信息知识。 掘 构挖掘 容挖掘 用挖掘 本信息挖掘 媒体挖掘 访问模式挖掘 个性化使用 兰州大学硕士学位论文 本信息挖 掘中聚类算法在甘肃省扶贫网中的应用研究 10 (2)、 针对 面 中的超链接和组织结构等进行分析 并提取信息的 过程 就叫做在 互联网 中, 无数的 互联网中没有独立的页面,所以超链接就代表了页面之间的关系。超链接中的 一些 标记 实质上就是一种文档的表现形式,这种事直观且显而易见的。而且由于 这种 标 记 的存在 , 使得同类信息不再是以一种形式来表达,而是通过标记使得一种信息可以以多种方式来表达,这就造成了互联网中信息的多样化。这是一种非常重要的手段,可以把它充分应用于信息的表达。 13 下面我们介绍两种算法: 法 和 法;这都是在 法 来源于两个名叫 斯坦福大学博士生。 它 的原理就是 只关心 用户 的点击行为,而 不关心 点击内容, 它认为 一个得到 的链接数的 多 少 , 就体现了一种页面的重要性。 13 个出链集合 O(i)和一个入链集合 I(i), 出链集合和入链集合相互关联,数目分别决定了贡献度的大小,即就是 入链集合的数目越多, 那么该页面的重要性也越高;相应的 , 如果 出链集合的数目越多, 那么则 表示其 重要性也越低 。 这一高一低就直接表明了该页面的重要性。 14 法 来源于 士。 它的原理就是建立一个 页,这个 户进行检索的请求通过向相关的包含信息的页面 15。其实从本质上来说, 是它所起的作用却是比较重要的,它是一个权威信息的链接的集合。 一般来说,一个好的 威信息 网页,而一个好的权威信息 网页 则 是 由 许许多多个好的 指向。 他们之间是互相联系、互相依存的,我们可以利用他们之间的这种关系来分析发现检索结构与资源之间的关系。 (3)、 要作用 是从使用 行为所产生的 日志 文件 中 或是所产生的数据中 提取 有价值 的信息的 过程 。 服务器会自动记录下每一次用户的 访问记录 和针对 该 服务器所进行的操作,然后 将这些记录的行为数据生成 文件 保存起来 , 这就是日志,它记录了服务器运行的相关信息。 用挖掘 所针对的就是这些信息,它将这些日志信息从服务器中提取出来,进行分析, 从中发现访问用户的访问习惯,然后将相似的用户进行归类 15。通过 用挖掘还可以得出哪些页面是受用户欢迎的,哪些页面是无关紧要的,有了这些信息,站长们就可以及时的根据实际需要来调整站点的结构和信息方向,进一步对站点进行优化,使之能够更兰州大学硕士学位论文 本信息挖 掘中聚类算法在甘肃省扶贫网中的应用研究 11 加适应用户的访问习惯,能够更好的服务于用户,这对于一个站点的发展是非常重要的。 本信息挖掘 在整个 据 挖掘 又是极其重要的一环,它 是指从 互联网 文档中发现并提取有用的信息的过程。 其实 , 从本 质上来说, 据挖掘和传统 的文本信息 数据挖掘非常的相似。 传统的 文本信息挖掘 所面对的只是一些纯文本,不包括任何的标记符号,所以它的任务也非常的简单,只是从这些大量的纯文本中去扫描、发现一些有用的、未知的信息 16;而 包括了一些标记和符号,这些标记和符号用来表示文本的样式和表现方式 , 以使得文 本能够显示出多样化 ,这样,光要分析文本信息,还要分析大量的标记和符号信息,这样才能够更好和更全面的反映出挖掘对象的价值 17。所以,由所面对的对象所决定, 需要用到的技术 要比单纯的文本信息数据挖掘复杂得多 。 本信息挖掘技术的原理及其工作流程 据 挖掘技术 与传统 的数据挖掘技术 的区别主要体现在一下几个方面: 第一、 它们 所面对的 数据库 不同,传统的 数据挖掘技术所面对的 数据库 中的数据 只是一些边界清晰、结构统一的数据,而 据 挖掘所面对的 数据库则是整个互联网,在这个互联网数据库中的数据则千变万化,包含了各种样式和形态,这些数据都 不能 够 直接被计算机所识别, 不能直接应用数据挖掘技术,需要将这些数据转换为统一形态和格式的数据 才能使用。 第二、 它们所面对的数据库规模不同, 据 挖掘所 面对 的是 互联网 , 其 数据 规模 要 远 远 超过传统数据库中的数据 规模。 传统的数据库挖掘技术不需要考虑数据库的发展规模,它 只是针对已经建立好的数据库 进行分析、整理和提取有用 信息,而 据 挖掘 技术 所要做的不仅仅是分析、整理和提取过程,它还要针对海 量的、动态 变化着 的 互联网 文本信息进行 监测和扫描 ,以便能够及时更新。 所以, 须能够进行增量的执行,而且要保证数据挖掘的效率和 结果的 准确性。 所以 根据上述两点, 直接将传统的数据挖掘技术应用于现有的 据挖掘中是行不通的。 兰州大学硕士学位论文 本信息挖 掘中聚类算法在甘肃省扶贫网中的应用研究 12 据的 挖掘过程一般有以下几个步骤:特征表示、特征提取、识别 模式和质量 评价 。 1、特征 的 表示 档 的本质就是标记语言,即就是 一组 式文档 的集合 , 它不仅包含了传统的纯文本,也包含了让文本表现出各种样式 的标记符号 , 所以 统数据库中数据 ,它没有严格的 完整性, 也没有统一的样式,在进行数据挖掘的时候不能采用传统的挖掘技术, 必须要采用某种特定 的 模型来 处理这些千变万化的数据, 将其转化成为 统一的 形式, 然后再进行分析,并将能够代表其本质的特征表示出来。 2、特征提取 特征表示处理完成后的特征空间一般都具有很高的维数,维 数过高 的特征并不利于 随后的数据 挖掘,因此,我们必须在特征表示完成以后,通过适当的方法来降低特征空间 过高 的维数, 而且要 适当地提取少量的特征, 以便能够 提高 效率和准确度。 3、识别 模式 使用 特定的 本信息挖掘 的处理方法来提取知识模式。提取的 知识模式就代表了挖掘程序即将处理的文本的特征。 4、评价模型质量 我们在数据挖掘进行完成以后,要对 结果进行评价,如果符合预定的要求,就存储起来 或者 以可视化的形式向用户返回得到的信息 , 如果不满足预设的要求,则返回到某个出现问题的环节进行新一轮次的挖掘工作。那么怎样去评价信息的质量? 评价质量 的方法 可以 选用 一些常用的评价方法,也可以选择 一些特定的 评价模型,这取决于我们 对目标结果的要求 17。 据 挖掘 工作的流程大致分为以下三个步骤 , 如图 首先是 页面数据 的收 集和预处理, 由于从互联网上收集的页面存在各种各样的形态,所以收集完成以后要对这些页面进行预处理,处理成统一格式和形态;第二步是提取收集到页面的特征,根据页面的实际内容,提取到最适合、最能概括页面的特征词,然后根据特征词对收集到的页面进行归类分析;第三步就是使用预先设定好的算法进行数据挖掘,得出初步结论,然后对结论进行分析、评价,最后向用户返回处理结果。 兰州大学硕士学位论文 本信息挖 掘中聚类算法在甘肃省扶贫网中的应用研究 13 图 本 数据 挖掘的 工作 流程图 在 全过程中,每一步都有其 重要的作用,都是必不可少的 。 本信息挖掘技术 应用 涉及到的技术理论 一、 中文分词技术 据 挖掘所要面对的是自然语言文本, 所以 怎样将自然语言转化为机器能够识别的机器语言,并提取相关的关键词,适用相应的模型,这就是整个挖掘工作的核心和基
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年玉米采购合同书范本
- 2025环保型建材供应合同
- 2025北京家具买卖合同
- 治疗方案沟通核心框架
- 干呕的日常护理
- 巴基斯坦时间管理体系解析
- 天津市南开中学2024-2025学年高三下学期第五次月考数学试卷
- 普通心理学(第2版)课件 第二章 心理的生理机制
- 2025年电工基础知识试题
- 遗传性球形红细胞增多症的临床护理
- 汉heidenhain itnc用户手册探测循环
- 学习领会《在二十届中央政治局第四次集体学习时的讲话》心得
- 水稻联合收割机使用与维护
- 供应商考核评分表
- 无土栽培学(全套课件660P)
- 《表观遗传》教学设计
- 20千伏及以下配电网工程业主项目部标准化管理手册
- GB/T 3683-2011橡胶软管及软管组合件油基或水基流体适用的钢丝编织增强液压型规范
- GB/T 3036-1994船用中心型蝶阀
- GB/T 18920-2020城市污水再生利用城市杂用水水质
- GB/T 1220-1992不锈钢棒
评论
0/150
提交评论