




已阅读5页,还剩5页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1/10数据挖掘在高校资产管理中的应用摘要进行高校资产数据挖掘与分析研究,能更好地为高校管理、高校决策提供科学依据。本文分析了高校资产管理的现状与特点,构建了高校资产数据仓库雪花模型,挖掘出高校资产管理指标之间的关联规则,并对该数据挖掘模型进行评价,在实际应用中取得了良好效果。关键词高校资产;数据仓库;数据挖掘;雪花模型;关联规则概述高校资产信息管理系统中的数据客观记录了高校所有资产的历史情况和现状,同时也隐含着各种资产的特点,蕴藏着学校的发展规律和趋势。然而现阶段高校各部门一般采用不同的数据库,数据整合困难,无法实现不同系统跨平台信息的共享与交互,无法实现面向主题的数据分析,从而无法更多更好地利用数据资源。为了充分利用这些积累的记录信息,从中发现有用的知识,获得潜在的规律,为高校资产管理和决策提供科学参考,需要建立一个分析决策系统。而实现分析决策系统的主要技术就是数据仓库和数据挖掘。数据挖掘是指从大量数据中提取或发现知识。数据挖掘通过一些模型和智能方法,从大量数据中提取、识别用户真正感兴趣的、新颖的、潜在有用的模式,提供给2/10用户作为决策的依据和参考。数据仓库与数据挖掘技术已被广泛应用于商业领域,但用于高校资产管理领域的却很少。本文通过构建高校资产数据仓库模型,对资产管理指标的相关属性进行分析,通过数据挖掘得出了资产管理指标之间存在的一些强关联规则,各规则的信任度均达到以上。高校资产数据仓库逻辑模型数据仓库多维数据集能对数据仓库中的所有数据提供统一的和集成的视图,可作为传统报表、联机分析处理和数据挖掘的基础。LOCALHOST数据仓库的逻辑模型包括事实表和维度表,事实表描述挖掘主题包涵的多个角度,维度表则从不同角度描述挖掘主题的相关数据。结合高校资产挖掘主题与资产信息数据的特点,高校资产数据仓库的逻辑模型采用了雪花模型结构,如图所示。“资产数据事实表”与“部门表”、“资产编码表”、“资产分级表”、“时间表”4个主维度表关联,“部门表”、“资产编码表”和“资产分级表”还分别有“上级部门表”、“资产类别表”和“资产指标表”3个二级维度表,其中“资产类别表”还有三级维度表“资产大类表”。建立这种多级维度表不但可以降低数据仓库的数据冗余度,减少数据量,保证数据一致性,还有利于改变数据粒度,实现灵活粒度的数据挖掘。3/10数据挖掘如果建立在原始数据水平或较低的维层次上,则此时数据粒度小,挖掘速度慢,挖掘得到的规则繁杂,难以理解;如果数据从低维层次抽象到高维层次,对较高维层次数据进行挖掘,则此时数据粒度大,挖掘速度快,得到的规则泛化程度高,便于宏观理解。因此通常在高维层次上进行挖掘,必要时再进行较低维层次上的挖掘。数据属性归约及取值数据属性归约高校的资产数据按教育部规定分为16类,对这些资产进行管理非常繁杂,根据实际我们选取以下4个管理指标以利于资产数据挖掘资产购建价值,用表示。它是购买或建造资产的原值。理论上同类资产价值高的要比价值低的使用寿命长。资产剩余使用年限率,用表示。每种资产都有一定的使用年限,使用中每年提取折旧,当到达规定的使用年限后该资产一般只剩下很少的残值,原则上也就报废了。资产剩余使用年限率反映了资产的剩余使用年限,是资产管理的一个重要指标。资产每年使用率,用表示。不同的资产每年的使用4/10率各不相同,有的长年使用,如房屋和家具等;有的一年才使用几次,如某些实验仪器设备。同样的资产使用次数多的肯定比使用次数少的容易坏。资产质量评估值,用表示。每年由相关人员对每种资产进行一次评估,评估该资产当时的性能和好坏程度。资产管理指标数据的取值对资产管理的4个指标值采用统一的分级,分为“一级”、“二级”、“三级”、“四级”、“五级”个等级,分别用、表示,对指标数据的取值采取分类转换。同一类资产的购建价值会因品牌种类、购建时间、市场行情等因素的影响而不同,一线品牌中的高档资产购建价值肯定高,定为一级;一线品牌中的中档资产或二线品牌中的高档资产定为二级;二线品牌中的中档资产或非品牌中的高档资产定为三级;非品牌中的中档资产定为四级;淘汰产品、试用品或非正规单位生产的产品定为五级。会计上对资产的使用年限没有明确规定,资产折旧的年限通常是分大类按税务规定进行计算的一般房屋为年;生产设备为年;工具、家具为年;电子设备为年;低值易耗品为年。这个规定与实际使用年限相比是偏低的,因此将规定使用年限近似平均分成5个区间,其中第五区间包括规定使用年限到期后仍在使用的那5/10段时间。每个区间数按年取整,如不为整则在购建初的第一区间多分配一点时间。资产剩余使用年限率税务规定使用年限。将数值型数据离散化后分区计算资产剩余使用年限率,结果各类资产剩余使用年限率基本近似,各区间取值资产每年使用率由使用资产的负责人在每年年中依据使用记录对每种资产作出评价,平均分成五级,使用最少的为一级,它的使用寿命相应就长;使用最多的为五级,它的使用寿命相应就短。对资产质量进行评估的相关人员在每年年中时对每种资产的性能和好坏进行一次评估,评估的结果值也分成五级,最好的为一级,最差的为五级,五级意味着不能再使用。根据以上分析,高校的每种资产可以描述如下。例如表示资产号为的资产,其购建价值一级,剩余使用年限率三级,每年使用率一级,质量评估值二级。实例年某学院的实验室正在使用的计算机有台,当年各项管理指标分级情况和计算机数量之间的关系如表所示。数据挖掘本文对高校资产进行关联规则挖掘,频繁数据项集的6/10生成采用算法。算法及其特点关联规则挖掘是数据挖掘的一个主要研究方向,目的是发现海量数据中数据项集之间存在的潜在关系规则。先识别出频繁出现的属性值集,也称频繁项集,然后再利用这些频繁项集创建描述关联规则。关联规则中有支持度和信任度两个重要的度量,为满足一定的要求,用户需要指定规则必须满足最小支持度和最小信任度两个门限。关联规则的挖掘分为两个步骤发现频繁项目集找出所有大于或等于用户指定最小支持度的最大频繁项目集,又称强项集;生成关联规则根据用户指定的最小信任度利用频繁项目集生成关联规则,该规则是满足最小支持度和最小信任度的强关联规则。RR算法是关联规则中最典型的算法,它通过对事务数据清单的多趟扫描来发现所有的频繁项目集;频繁项目集;是频繁项目候选集7/10;是从候选集中提取的包含在事务中的候选集元素;求所有频繁项目集的和RR算法中调用了函数,是为了通过频繁项目集产生频繁项目候选集,即利用第趟扫描得到强项集集合的候选集。该函数先进行拼接,再剪枝。在拼接生成候选数据项集时,一个项集必须是频繁数据项集且它的所有子集也都是频繁数据项集,因此要删除所有含有非频繁项目子集的候选元素。如果项集的某子集不是强项集,则将从候选集中删除。R算法中如果生成的候选项集太多,则多次扫描会使效率急剧下降,同时过多的候选项集还可能生成大量的规则,影响它的应用。本系统中采用数据属性归约,大大减少了生成的候选项集,能快速发现关联规则,提高使用效率。8/10采用算法实现关联规则挖掘本系统对建立的某高校资产数据仓库多维数据集进行数据挖掘,先对原始数据进行整理和特征化变换,设定资产管理指标中的资产质量评估值为规则目标。采用算法生成频繁数据项集。设定最小支持度为,最小信任度为,先构造个属性的候选集,计算的支持度,去掉中支持度小于的属性,得到频繁项目集。再根据及个属性的组合,构造候选集,计算的支持度,去掉中支持度小于的二维属性,得到频繁项目集。依次类推重复上述过程,直到所有属性组合完毕,形成频繁项集,。再研究资产数据间的关联性,挖掘满足最小信任度的规则。若,为项目集,且准,蕴涵式圯称为数量关联规则,和分别称为圯的前提和结论。项目集的支持度称为关联规则圯的支持度,记作,即。数值关联规则圯的信任度记作。给定用户的最小支持度和最小信任度,如果9/10,同时,则称数量关联规则圯为强规则,即根据用户指定的最小信任度而生成的关联规则是满足最小支持度和最小信任度的强关联规则。表是系统数据挖掘的强关联规则,它反映了资产购建价值、资产剩余使用年限率和资产每年使用率这3个指标与资产质量评估值之间的关联性。购建价值高,又在购建初期且很少使用的资产其性能变化不大,它的资产质量评估值肯定很高。数据挖掘时如降低最小支持度,会增加系统生成的频繁项目集数,这样挖掘出的规则会太多,因而会降低了规则的普遍性和代表性。结束语本文利用数据挖掘技术对高校资产作了深层次研究,通过采用算法生成频繁数据项集,进而挖掘出高校资产管理指标之间的关联规则,各规则的信任度均达到以上,对关联规则进行分析得出的结论和决策建议在实际应用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 超神数学-高考数学总复习拔高篇(二轮)专题2周期函数与类周期函数(含答案或解析)
- 房地产行业报告:百强房企拿地优于去年市场延续分化
- 部编版语文五年级下册《习作-神奇的探险之旅》课件
- PEEK行业深度:“机器人浪潮”下的特种塑料“弄潮儿”
- 2025年农业灌溉用水高效利用的节水灌溉设备市场分析报告
- 新零售时代下的连锁药店扩张路径与数字化运营模式研究报告
- 汽车行业供应链全球化背景下的韧性构建与风险管理报告
- 大数据与社交媒体融合的2025年精准营销策略研究报告
- 金融行业2025年反欺诈技术革新与大数据融合应用报告
- 2025年多式联运信息平台物流企业国际化发展与拓展报告
- 2023版浙江评审卫生高级专业技术资格医学卫生刊物名录
- 天津地理会考知识要点精华版
- GB/T 1689-1998硫化橡胶耐磨性能的测定(用阿克隆磨耗机)
- GB/T 16823.3-2010紧固件扭矩-夹紧力试验
- 江苏省金陵中学2023学年物理高一下期末调研试题(含答案解析)
- 2023年合肥城建发展股份有限公司校园招聘笔试模拟试题及答案解析
- DB11-T1834-2021 城市道路工程施工技术规程高清最新版
- 广东省珠海市2022-2023高一物理下学期期末学业质量检测试题
- 小学语文扩句、缩句专题
- PDCA降低I类切口感染发生率
- 人类能源史课件
评论
0/150
提交评论