论“数据挖掘”技术在矿床禀赋优势价值计量的应用.doc_第1页
论“数据挖掘”技术在矿床禀赋优势价值计量的应用.doc_第2页
论“数据挖掘”技术在矿床禀赋优势价值计量的应用.doc_第3页
论“数据挖掘”技术在矿床禀赋优势价值计量的应用.doc_第4页
论“数据挖掘”技术在矿床禀赋优势价值计量的应用.doc_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

“数据挖掘”技术在矿床禀赋优势价值计量中的应用“数据挖掘”技术在矿床禀赋优势价值计量中的应用北京科技大学 陈希廉 2005年发表引言所谓矿床禀赋优势,通俗地、不严密地说就是矿床质量的好坏。根据过去在制定铁矿资源税标准时的经验,衡量矿床质量好坏时出现的难题有三:(1)究竟要考虑哪些因素(即禀赋要素)会影响矿床质量的好坏;(2)按矿床的质量好坏究竟要将矿床分为几个等级更合理;(3)利用综合评判来确定矿床的好坏时权系数该如何取值。对这些问题在研究过程中往往众说纷纭,争议不休。而笔者认为如果应用数据挖掘技术,这些根据主观判断的争议,就可以交给数据挖掘技术中的许多数理统计、模糊数学等数学方法或智能化手段去解决,这样可以更客观地反映实际情况,可以避免主观的争论。一、 数据挖掘技术概述1.产生数据挖掘技术的背景-信息爆炸但知识贫乏自从人类在山洞中绘画和在草纸上写字以来,产生的所有信息大约为18个exabytes,即18后面加18个零。但是不可思议是,仅仅1999年就产生了其中的12。激增的信息中隐藏着许多重要有价值的信息和知识,但人们往往难以直观地发现它们,人们都希望能够对其进行更高层次的分析,以便更好地利用这些信息。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现信息中隐藏的规律性的关系和规则,无法根据现有的信息来预测未来的发展趋势。缺乏开发信息背后隐藏的知识的手段,导致了“信息爆炸但知识贫乏”的现象。那么怎么能得到这些“知识”呢? 计算机科学对这个问题给出的最新回答就是:利用“数据挖掘”技术,以便在“信息矿山(数据仓库)”中找到蕴藏的“知识金块”。 正如十九世纪采掘黄金钻石是致富之道一样,如今从大量的数据(Data)中采掘(Mining)宝贵知识已成了财富之源。2.数据挖掘技术简介 (1)什么是“数据挖掘”技术:所谓“数据挖掘”就是从大量的、不完全的、有噪声的、模糊的、随机的实际信息中,提取隐含在其中的不能靠直觉发现的、但又是潜在有用的、甚至是违背直觉的信息和知识。挖掘出的信息和知识越是出乎意料,就可能越有价值。为了达到此目的,首先必须通过数据处理从“数据仓库”中,提取有价值的信息,以建立数据挖掘库,以用于存储从数据仓库中所挖掘出来的信息,即经过检验、整理、加工和重新组织的信息。这种系统既可以是传统的关系型数据库管理系统,也可以是专用的多维数据库管理系统(mdbms)。(2)“数据挖掘”技术处理信息的特点:它具有综合处理结构化数据(即可定量的数据)、非结构化数据和半结构化数据的功能。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。(3)“数据挖掘”技术所采用的分析方法、手段:最常用的是关联分析、人工神经网络、决策树、遗传算法、聚类分析、专家系统等;但必要时,也用到其它各种数理统计、各种运筹学、各种模糊数学等方法,特别是模糊数学与前述各种方法的结合,如模糊聚类分析、具有模糊规则库的专家系统等。有人认为数据挖掘的三个主要技术支柱是:数据仓库、人工智能和数理统计。(4) “数据挖掘”技术能挖掘什么知识:它可以挖掘的知识有:1) 广义知识(Generalization):-广义知识指类别特征的概括性描述知识。它可反映同类事物共同性质,是对数据的概括、精炼和抽象。2) 关联知识(Association): 它反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。3) 分类知识(ClassificationClustering): 它是反映同类事物共同性质的特征型的知识和不同事物之间的差异型特征的知识。4) 预测型知识(Prediction): 它根据历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。5)偏差型知识(Deviation): 它是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等。(5)“数据挖掘”技术能建立什么模型:具有通过上述方法以建立综合性的、能揭露事物内在规律的模型的功能。这些模型包括预测模型、优化模型、智能化决策支持模型、技术诊断模型、辨伪模型、合理分类模型等;而且还可以对这些模型进行误差分析、风险分析等。对本研究最有意义的是合理分类模型、预测模型和智能化决策支持模型。(6)“数据挖掘”技术的可视化功能:它具有可视化表达数据挖掘结果的功能。这种功能能够让综合分析的结果以各种图表方式加以显示,以便使用户对分析结果有更直观的了解。其图形可以有:散点图、曲线图、直方图、扇形图、雷达图以及各种三维图形等。3.“数据挖掘”技术的用途数据挖掘不是为了替代传统的统计分析技术。相反,他是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技巧,预测的准确度还是令人满意的,但对使用者的要求很高。而随着计算机计算能力的不断增强,我们有可能利用计算机强大的计算能力只通过相对简单和固定的方法完成同样的功能。数据挖掘就是利用了统计和人工智能技术的应用程序,把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。这将为渴望应用数学和计算机技术的矿业工作者提供一个捷径。目前数据挖掘已可以应用在各个不同的领域。大企业将其用于决策支持;银行部门把它用于贷款项目的风险评估;工业部门将它用于技术诊断;商业部门使用它来确定销售商品的取舍以及CRM(客户关系管理);保险公司、证券公司、电讯公司和信用卡公司用它检测欺诈行为;医疗上可以用它预测外科手术、医疗试验和药物治疗的效果;材料工业用于新材料的设计,例如,度迈公司的部分软件用于新材料设计,先后在导弹用材料、特种合金钢、半导体陶瓷、稀土荧光粉及多种高分子材料研制中发挥了作用;笔者与某软件公司合作把数据挖掘技术用于利用尾矿制造微晶玻璃的配料优化,也已获得成效。国外地质工作和地质研究中也开始应用它,特别是用于遥感物探信息的挖掘;美国学者Ehrlich,R. 在2001年就发表过数据挖掘是北美第二轮勘探的关键策略的文章。目前数据挖掘技术的应用范围还在不断发展之中。正由于如此,有的学者认为计算机网络技术之后的下一个技术热点将是数据挖掘技术。二 、在矿床禀赋优势价值计量中数据挖掘技术大有用武之地通过我们应用数据挖掘技术进行矿产经济研究的初步实践,我们认为在矿床禀赋优势价值的计量中,数据挖掘技术大有用武之地,这是因为:1.我国已积累有大量矿山的实际信息据汪贻水和彭觥同志的最近报导,据不完全统计,我国建国以来已建立了15万个大小矿山。这些矿山既有地质勘探的资料,还有生产勘探的资料;既有采矿(包括开采方式、方法以及其技术指标)的资料,又有选矿的资料(包括矿石性质及生产实际资料和实验室试验资料);既有矿区自然地理条件的资料,又有矿区经济地理的资料。可以说笔者在论矿产禀赋优势一文中所提到的六大类几十个“矿床禀赋要素”应有尽有。这就为数据挖掘技术的应用提供了最重要的信息资源。2.数据挖掘技术为海量信息的处理提供了简便的工具有人将优秀的数据挖掘软件喻为“傻瓜相机式”的工具,它具有即学即用的功能。它不用编程,不是具备有计算机高级技术的人员才能使用。特别是有些软件处理数据量可多到惊人的地步,例如我们正在使用的一个软件,在回归分析中可处理多达256个自变量,而且提供了六种回归分析方法,既可进行线性回归,也可进行非线性回归。3.数据挖掘技术既可处理结构化信息又可处理非结构化或半结构化信息众所周知,在禀赋要素中尽管有些是可定量化的所谓结构化信息,如储量、品位等;但也还有许多难以定量化的非结构化或半结构化信息,如矿石类型、矿石中矿物的种类以及矿体形状复杂程度等。在这种条件下,唯有数据挖掘技术最有能力进行处理。4.数据挖掘技术可挖掘与禀赋优势价值计量有关的知识和模型包括前已提及的与禀赋优势价值有关的广义知识、关联知识、分类知识和预测型知识等;同时它还能建立与禀赋优势价值计量有关的合理分类模型及预测模型等。5.数据挖掘技术具有模糊数学和智能化功能由于矿床禀赋要素的复杂性,往往要用到模糊数学的方法,例如对矿体复杂程度的评判;而且对于复杂事物的分析最好借助于具有智能化功能的神经网络或遗传算法,而现在的一些较好的数据挖掘软件至少都有神经网络系统。三 、如何在矿床禀赋优势价值计量中进行数据挖掘建议采用如下步骤:1.建立全国生产矿山的禀赋要素数据仓库通过收集全国生产矿山的前述各种各类信息,首先建立数据仓库(比数据库稍复杂的信息库),因为数据仓库是进行数据挖掘的基础。当然,应当按不同矿种分别建立。2.根据数据仓库中的信息利用数据挖掘软件进行模糊聚类等分析这种分析应在相同矿种矿山中进行。聚类分析既可对大量的研究对象进行合理的分类,又可对一个未知其归类的对象确定其该属于已知分类中的哪一类。数据挖掘软件允许将研究对象分为不同数量的类型,例如分成3类、4类、5类、6类等。在进行了这样的分类后,通过对每个分类方案的数学检验,再确定究竟应划分为几类最合理。模糊聚类分析较之一般的聚类分析更适用于本研究。3.根据已有的分类利用神经网络系统及数据仓库中的每类信息进行“训练”这项工作一方面是为了建立用以确定某个矿床是否应归属到哪一类的型模(模糊聚类分析也可起到这样的作用),但更重要的是对模糊聚类分析结果起到验证作用。4.对每个矿床的禀赋优势价值进行计量计量的方法,笔者在论矿床禀赋优势一文中已介绍了三种方法,当然还可以研究其它更好的方法。5.应用关联分析方法评判每个禀赋要素对于分类的关联密切程度如果对与分类关系不密切的禀赋要素也参加分类的判断,不仅是不必要的,而且有时反而起到干扰作用。所以应该检验每个禀赋要素与分类关联的密切程度,这样做的目的是为了适当剔除某些无关紧要的禀赋要素,以便使今后的应用更简便。值得注意的是关联分析并不等于相关分析。 6.将每个矿床禀赋优势价值计量结果进行同类矿床间的对比分析这种分析是为了进一步验证矿床按禀赋优势的分类是否合理。如果合理,则同类矿床的单位储量的价值是相近的。而不同类型间是有较大差别的,通过不同类型间此种价值的对比,就可以确定各类矿床禀赋优势的优劣。7.将研究成果征求不同类型矿床矿山人员的意见并进行修改在生产第一线的人员对研究成果最有发言权,应广泛征求生产矿山领导及地质、采矿、选矿乃至财务专业人员的意见,并对研究成果进行修改补充。只有在进行了这样的工作后,才可能使研究成果有实际应用价值。8.将研究结果用于实用领域例如,可应用于制定资源税的合理税率、探明储量的合理计价、考核生产矿山的经营管理水平等。但在资源税的合理税率和探明储量的合理计价方面,目前还存在许多不同理论与方法的争议。在最早制定铁矿的资源税时,不同等级矿山每采出一吨矿石的资源税仅几角到1.5元,可是过了不久,一下子涨到10元到20几元;以致多数铁矿山不堪重负,变成亏损企业。今后应该在前述工作的基础上,对此问题进行更深入的研究。四 、几点建议1.组织既具备专业知识又有一定计算机技术基础的人员进行专门的研究 由于这是极其复杂的研究,从某种意义上说,研究人员具备地质、采矿、选矿专业知识较之具备计算机知识更为重要。当然,最好是兼顾两者。2.选择适用本研究的数据挖掘软件由上述可见,要使计算机能具备有前述那样的复杂功能是非常不容易的。好在计算机软件工作者已经编制了多种可供选择的现成软件,应用中已经可以马上投入使用。目前有些功能强大的软件价格以百万元计,但对于本研究却不见得需要那么齐全的功能。就笔者所知,目前比较有影响的数据挖掘系统有:(1) 我国度迈(DataMight)公司的软件“Process Analyzer”(用于工业优化)、“Materials Research Advisor”(用于新产品试制)、“Data Analyzer”(用于各种DataMining项目)。(2)德国管理智能技术(MIT)公司的DataEngine,这个软件目前已开始在中国销售。(3)SAS公司的Enterprise Miner,这个软件目前也已开始在中国销售。(4)IBM公司的Intelligent Miner。(5)SGI公司的SetMiner。(6)SPSS公司的Clementine。(7)Sybase公司的Warehouse Studio。(8)Rule Quest Research公司的See5。(9)美国某公司的PolyAnalyst等。根据笔者的初步对比,采用MIT公司的DataEngine较为合适,因为该软件的功能基本可满足本研究的需要,而价格并不太高。3. 制定计划、收集资料大纲并建立数据仓库的统一格式在收集资料和建库之前应首先制定出统一的收集资料大纲和数据仓库的统一格式。现在一些大矿山也已建立起各类资料的数据库,可将其调入数据仓库,并加以补充和修改。对于冶金

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论