外文翻译---不完整测量数据的概念建构  中文版.doc_第1页
外文翻译---不完整测量数据的概念建构  中文版.doc_第2页
外文翻译---不完整测量数据的概念建构  中文版.doc_第3页
外文翻译---不完整测量数据的概念建构  中文版.doc_第4页
外文翻译---不完整测量数据的概念建构  中文版.doc_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

不完整测量数据的概念建构王寿宏,王海摘要:对资料挖掘来说,未经加工的调查数据通常是不完整的。资料挖掘中缺失数据的问题在知识发现过程中常被忽略。这篇文章介绍了在不完整调查数据中资料挖掘的基础概念,以及计划知识发现中的咨询过程,和在调查资料挖掘咨询功能在概念解释上的发展趋势。这篇文章通过一个事例,论证了通过使用人工智力工具譬如自组织映射,不完整数据的概念解释可以完成。1.引言数据挖掘就是分析数据以图从中找出有用模型的过程。而数据挖掘与传统的统计分析有所不同,因为数据挖掘的目的是找出对数据所有者或数据挖掘员有价值而又确定的关系。鉴于数据的维数和数据量本身的巨大,传统的的统计分析方法在数据挖掘时有其局限性。为满足数据挖掘的最新需要,在数据挖掘领域里面已经广泛采用基于人-机互动技术的人工智能技术。数据挖掘时有很多非统计技术。基于Kohonen神经网络的自组织映射(SOM)法是其中一种比较有前途的方法。基于集群技术的SOM法对其他方法来说有优势。通常数据挖掘技术处理一些十分高维的数据,也就是说做数据挖掘的数据库通常是由很多变量决定的。“维数灾难”使得对数据关系的统计分析变得毫无意义,这也使得统计方法变得无能为力了。然而SOM方法并不依赖任何假定的统计测试,因而被认为是处理多维数据的有效方法。更为重要的是SOM方法提供了多维可视化数据串的基础。这种特色是其他任何数据分析方法都不具备的。它允许数据挖掘者分析该问题域中的集群。测量只是数据采集中的一种普通数据获取方法。在数据挖掘的中,我们得到的调研数据集通常很难满足每个变量都有填写完全的观测结果。一般地,被调查者只部分地完成调研和问卷调查的内容。当事实上我们无法再次面向被调查者完成调研和问卷调查的全部内容时,我们并不知道缺失数据的严重性,但这是数据掘中有待发现的最重要部分之一。事实上,在知识工程领域缺失数据是一个重要而具有争议的问题。通过集群分析在挖掘由不完整数据构成的调查数据库过程中,缺失数据的类型及缺失数据对数据挖掘的潜在影响是一门学问。例如,数据挖掘者通常希望能知道集群分析的可信程度;一些有价值的类型通常是什么时候和怎样丢失的;以及丢失有价值数据的时候哪些变量与之有关系。这些有价值东西在缺失数据集部分被充分发掘之后才能发现。这篇文章讨论了知识发现中在发掘调研数据库过程中数据缺失的问题,并介绍了概念解释的概念基础,以及建议设立基于SOM数据挖掘概念解释查询功能。以下部分是这样安排的:第二部分讨论数据缺失与数据挖掘的关系问题;第三部分介绍数据挖掘中SOM的概念解释;第四部分说明了挖掘不完整数据的4个概念的知识发现;并提供了应用SOM挖掘不完整数据的概念解释的图解。第五部分建立用于操控SOM的概念解释查询工具。第六部分介绍一个例子,该例子应用咨询工具对一个学生判断测量的数据集进行熟练操作SOM系统的概念建构。最后,第七部分作了结束语。2数据缺失问题不完整数据集普遍存在于数据挖掘中。数据缺失的解决办法有许多种,其中对付不完整数据的一种方便办法是将那些已记录没有价值的数据集排除掉。然而这忽略了这些记录中潜在的有用信息。万一缺失数据的比重较大,从筛选过的数据中得出的结论就会有偏颇或引起误导。另一种处理丢失数据的简单方法是用一类通用的“未知”来代替所有丢失数据项。数据挖掘中,不确定的“未知”通常在丢失数据项中引起混乱和误解。对付缺失数据的第三种办法是排除数据域中没有价值的数据。对于时序数列,可观察到的相邻数据点可以插补。一般情况下,数据域中预期值可用于统计测量。然而,数据挖掘中,调研数据类型通常是队、类,有多项选择的,二进制的。这些例子中,插补及特殊缺失数据变量的使用通常是不够的。更为重要的是,研究表明,解决缺失数据的有效办法应该总是独立于问题之外去研究。新近,发现损缺失数据集的合计概念方向有了精确的方法。这些方法与传统逼近法处理缺失数据截然不同,它着眼于缺失数据的整体,而不是个别缺失的价值。这些方法的这个高级特征使不完整数据的数据挖掘得以加强。然而这些统计方法有其局限性。首先,得假定缺失价值存在于随机方式或者新遵循一定的分配仪式。这些关于数据分配严格假定通常是无效的,特别对不完善数据的测定。第二,这些数学模型通常是数据驱动,而不是“问题领域驱动”。实际上,由于数据挖掘的目标常常与具体问题域有关联,一个单独普通概念建构算法不足以应付数据挖掘的多样目标。数据库的知识发现是鉴别有效的、新奇的、有潜在作用并最终可以理解的数据模式的有实际意义的过程。根据这个定义,这项研究强调利用不完整数据进行数据挖掘概念构建的两个方面。首先,利用不完整数据进行数据挖掘中,有效、新奇、有用的标准随问题而定。那就是,一个数据模式不单独依赖于该模式估计的统计力,也依赖于数据挖掘者。第二,通过对建立于计算机和人类认识理论的组合空间的启发式研究,可以完成基于不完整数据的概念建构。人机协作进行概念建构就是在数据挖掘者和计算机之间发掘出新奇、似是而非、有用的、相关的和有趣味性与缺失数据相关的知识的人机交互式过程。照我们看来,数据挖掘与传统统计在处理缺失数据方面有很多不同。(1)数据挖掘试图从数据中去发掘出无疑的、潜在的有用模式,是由于数据挖掘者的新奇目标在于缺失数据而不在于估计个别缺失数据的价值。(2)数据挖掘是人类知识发现环道中心环节工具,该过程是通过人机交互而认识到由集合水平上缺失数据引起的冲击,更甚于仅用基于未经证实的假设的数学方法得出的结论。3.概念建构的工具:自映射组织(SOM)假如有一个很大多维集调研的例子,通常就会有很大一部分观察资料丢失价值,然而并非所有的缺失数据都引起数据挖掘者的兴趣。因此,对于一个有巨大数据来说,任何简单的强力搜索缺失数据的方法都是不可行,而且,当数据挖掘者通过数据挖掘仅为了找出问题或者发展概念时该方法是没有用的。为明确问题或创建概念,数据挖掘者需要一种工具来观察可利用数据与缺失数据的确定模式。由于自映射组织(SOM)比流行的k-群集算法在计算方面更有效率,因此在群集分组中广泛应用。更为重要的是,SOM为数据挖掘者提供数据的可视化,用来观察多维数据。研究表明,SOM在数据挖掘中鉴别未可怀疑的数据模式中很有效。特别是,SOM可用在多变量测量数据的集群分析。这个研究更进一步,把SOM作为有关缺失数据的概念建构的工具。不完整数据的概念建构是为了研究缺失数据的模式,如同这些缺失数据对基于完整数据的挖掘结果的潜在冲击。下面例子说明,SOM提供一种人机协作从缺失价值的数据中建构概念的机制。SOM能输入模式中,通过无人监督(竞争的)学习过程

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论