会员注册 | 登录 | 微信快捷登录 支付宝快捷登录 QQ登录 微博登录 | 帮助中心 人人文库renrendoc.com美如初恋!
站内搜索 百度文库

热门搜索: 直缝焊接机 矿井提升机 循环球式转向器图纸 机器人手爪发展史 管道机器人dwg 动平衡试验台设计

   首页 人人文库网 > 资源分类 > DOC文档下载

外文翻译---不完整测量数据的概念建构 中文版.doc

  • 资源星级:
  • 资源大小:139.00KB   全文页数:12页
  • 资源格式: DOC        下载权限:注册会员/VIP会员
您还没有登陆,请先登录。登陆后即可下载此文档。
  合作网站登录: 微信快捷登录 支付宝快捷登录   QQ登录   微博登录
友情提示
2:本站资源不支持迅雷下载,请使用浏览器直接下载(不支持QQ浏览器)
3:本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰   

外文翻译---不完整测量数据的概念建构 中文版.doc

不完整测量数据的概念建构王寿宏,王海摘要对资料挖掘来说,未经加工的调查数据通常是不完整的。资料挖掘中缺失数据的问题在知识发现过程中常被忽略。这篇文章介绍了在不完整调查数据中资料挖掘的基础概念,以及计划知识发现中的咨询过程,和在调查资料挖掘咨询功能在概念解释上的发展趋势。这篇文章通过一个事例,论证了通过使用人工智力工具譬如自组织映射,不完整数据的概念解释可以完成。1.引言数据挖掘就是分析数据以图从中找出有用模型的过程。而数据挖掘与传统的统计分析有所不同,因为数据挖掘的目的是找出对数据所有者或数据挖掘员有价值而又确定的关系。鉴于数据的维数和数据量本身的巨大,传统的的统计分析方法在数据挖掘时有其局限性。为满足数据挖掘的最新需要,在数据挖掘领域里面已经广泛采用基于人机互动技术的人工智能技术。数据挖掘时有很多非统计技术。基于Kohonen神经网络的自组织映射SOM法是其中一种比较有前途的方法。基于集群技术的SOM法对其他方法来说有优势。通常数据挖掘技术处理一些十分高维的数据,也就是说做数据挖掘的数据库通常是由很多变量决定的。维数灾难使得对数据关系的统计分析变得毫无意义,这也使得统计方法变得无能为力了。然而SOM方法并不依赖任何假定的统计测试,因而被认为是处理多维数据的有效方法。更为重要的是SOM方法提供了多维可视化数据串的基础。这种特色是其他任何数据分析方法都不具备的。它允许数据挖掘者分析该问题域中的集群。测量只是数据采集中的一种普通数据获取方法。在数据挖掘的中,我们得到的调研数据集通常很难满足每个变量都有填写完全的观测结果。一般地,被调查者只部分地完成调研和问卷调查的内容。当事实上我们无法再次面向被调查者完成调研和问卷调查的全部内容时,我们并不知道缺失数据的严重性,但这是数据掘中有待发现的最重要部分之一。事实上,在知识工程领域缺失数据是一个重要而具有争议的问题。通过集群分析在挖掘由不完整数据构成的调查数据库过程中,缺失数据的类型及缺失数据对数据挖掘的潜在影响是一门学问。例如,数据挖掘者通常希望能知道集群分析的可信程度一些有价值的类型通常是什么时候和怎样丢失的以及丢失有价值数据的时候哪些变量与之有关系。这些有价值东西在缺失数据集部分被充分发掘之后才能发现。这篇文章讨论了知识发现中在发掘调研数据库过程中数据缺失的问题,并介绍了概念解释的概念基础,以及建议设立基于SOM数据挖掘概念解释查询功能。以下部分是这样安排的第二部分讨论数据缺失与数据挖掘的关系问题第三部分介绍数据挖掘中SOM的概念解释第四部分说明了挖掘不完整数据的4个概念的知识发现并提供了应用SOM挖掘不完整数据的概念解释的图解。第五部分建立用于操控SOM的概念解释查询工具。第六部分介绍一个例子,该例子应用咨询工具对一个学生判断测量的数据集进行熟练操作SOM系统的概念建构。最后,第七部分作了结束语。2数据缺失问题不完整数据集普遍存在于数据挖掘中。数据缺失的解决办法有许多种,其中对付不完整数据的一种方便办法是将那些已记录没有价值的数据集排除掉。然而这忽略了这些记录中潜在的有用信息。万一缺失数据的比重较大,从筛选过的数据中得出的结论就会有偏颇或引起误导。另一种处理丢失数据的简单方法是用一类通用的未知来代替所有丢失数据项。数据挖掘中,不确定的未知通常在丢失数据项中引起混乱和误解。对付缺失数据的第三种办法是排除数据域中没有价值的数据。对于时序数列,可观察到的相邻数据点可以插补。一般情况下,数据域中预期值可用于统计测量。然而,数据挖掘中,调研数据类型通常是队、类,有多项选择的,二进制的。这些例子中,插补及特殊缺失数据变量的使用通常是不够的。更为重要的是,研究表明,解决缺失数据的有效办法应该总是独立于问题之外去研究。新近,发现损缺失数据集的合计概念方向有了精确的方法。这些方法与传统逼近法处理缺失数据截然不同,它着眼于缺失数据的整体,而不是个别缺失的价值。这些方法的这个高级特征使不完整数据的数据挖掘得以加强。然而这些统计方法有其局限性。首先,得假定缺失价值存在于随机方式或者新遵循一定的分配仪式。这些关于数据分配严格假定通常是无效的,特别对不完善数据的测定。第二,这些数学模型通常是数据驱动,而不是问题领域驱动。实际上,由于数据挖掘的目标常常与具体问题域有关联,一个单独普通概念建构算法不足以应付数据挖掘的多样目标。数据库的知识发现是鉴别有效的、新奇的、有潜在作用并最终可以理解的数据模式的有实际意义的过程。根据这个定义,这项研究强调利用不完整数据进行数据挖掘概念构建的两个方面。首先,利用不完整数据进行数据挖掘中,有效、新奇、有用的标准随问题而定。那就是,一个数据模式不单独依赖于该模式估计的统计力,也依赖于数据挖掘者。第二,通过对建立于计算机和人类认识理论的组合空间的启发式研究,可以完成基于不完整数据的概念建构。人机协作进行概念建构就是在数据挖掘者和计算机之间发掘出新奇、似是而非、有用的、相关的和有趣味性与缺失数据相关的知识的人机交互式过程。照我们看来,数据挖掘与传统统计在处理缺失数据方面有很多不同。1数据挖掘试图从数据中去发掘出无疑的、潜在的有用模式,是由于数据挖掘者的新奇目标在于缺失数据而不在于估计个别缺失数据的价值。2数据挖掘是人类知识发现环道中心环节工具,该过程是通过人机交互而认识到由集合水平上缺失数据引起的冲击,更甚于仅用基于未经证实的假设的数学方法得出的结论。3.概念建构的工具自映射组织(SOM)假如有一个很大多维集调研的例子,通常就会有很大一部分观察资料丢失价值,然而并非所有的缺失数据都引起数据挖掘者的兴趣。因此,对于一个有巨大数据来说,任何简单的强力搜索缺失数据的方法都是不可行,而且,当数据挖掘者通过数据挖掘仅为了找出问题或者发展概念时该方法是没有用的。为明确问题或创建概念,数据挖掘者需要一种工具来观察可利用数据与缺失数据的确定模式。由于自映射组织(SOM)比流行的k群集算法在计算方面更有效率,因此在群集分组中广泛应用。更为重要的是,SOM为数据挖掘者提供数据的可视化,用来观察多维数据。研究表明,SOM在数据挖掘中鉴别未可怀疑的数据模式中很有效。特别是,SOM可用在多变量测量数据的集群分析。这个研究更进一步,把SOM作为有关缺失数据的概念建构的工具。不完整数据的概念建构是为了研究缺失数据的模式,如同这些缺失数据对基于完整数据的挖掘结果的潜在冲击。下面例子说明,SOM提供一种人机协作从缺失价值的数据中建构概念的机制。SOM能输入模式中,通过无人监督(竞争的)学习过程,学会一定有用的特征,以及把多维数据绘制到低维图片,这样数据挖掘者可观测到集群图片。图1描述了研究中应用二层SOM的神经网络。低层节点(输入节点)通过采样数据点接收输入数值。高层节点(输出节点)在无人监督学习后回馈输入的组织映象。每个低层节点都经过一个可变联接权量,联结到每个高层节点。

注意事项

本文(外文翻译---不完整测量数据的概念建构 中文版.doc)为本站会员(英文资料库)主动上传,人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知人人文库网([email protected]),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。

copyright@ 2015-2017 人人文库网网站版权所有
苏ICP备12009002号-5