基于数据挖掘技术的高校实验室设备采购决策支持系统_第1页
基于数据挖掘技术的高校实验室设备采购决策支持系统_第2页
基于数据挖掘技术的高校实验室设备采购决策支持系统_第3页
基于数据挖掘技术的高校实验室设备采购决策支持系统_第4页
基于数据挖掘技术的高校实验室设备采购决策支持系统_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于数据挖掘技术的高校实验室设备采购决策支持系统 引言 近年来,随着对教育事业投入的不断加大,以及高校资金渠道的多元化,使高校仪器设备的数量增加较快,仪器设备的层次不断提高,为高校的教学和科研奠定了较好的物质基础。与此同时,对仪器设备采购工作提出了新的挑战。高校实验室作为仪器设备的使用和管理部门,如何做好采购工作,最大限度地保证仪器到位率,更好地为教学科研服务,值得管理工作者认真探讨和思考。 高校实验室设备的采购是巨大的投资,需要完整的规划。一些高校过分追求仪器设备的档次数量,造成了仪器设备的闲置和浪费。为了追求高档次,弃用相对价廉的国产仪器设备而选用价位偏高的进口仪器设备。有的不考虑配套使用,机械地按学生人数购买基础课实验仪器设备,但缺乏相关配套设备,使得仪器长时间闲置。 随着大量的采购数据被不停地收集和存储,许多采购人员对于如何从购买记录中挖掘关联规则越来越感兴趣。从大量商务事务记录中发现内在的关联关系,可以帮助许多决策的制定,这就是关联规则。最经典的关联规则提取算法是Apriori算法,它是由RakeshAgrawalRama和KrishnanSkrikant提出的,其思想是利用已知的高频数据项集推导其它高频数据项集。 本文的目的在于使用Apriori算法对高校实验室设备采购信息进行数据挖掘,分析出潜在的采购关系。获得各设备之间的内在关系,从而才采购初期就能了解到而后可能需要的其他服务,通过一次性投资降低日后的维护成本,也能发现现有计划中无关的采购,减少浪费。 1.关联规则与Apriori算法 a)关联规则 关联规则表示数据库中一组对象之间某种关联例如,关联规则可以表示为“购买了项目A和B的人中有95%的人又买了C和D”。从这些规则可找出购买行为模式,应用于商品货架设计、生产安排、针对性的市场营销活动以及产品的组合销售等。 b)Apriori算法 Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。算法的核心是基于两阶段频集思想的递推算法。算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样;然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度;然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。 该算法对于较少量的数据而言可以快速的发现关联规则,但也会有缺点,Apriori可能产生大量的候选集,还需要重复扫描数据库,这使得对于海量数据的关联规则挖掘变得相当缓慢。 c)Apriori算法当前进展 早期的Apriori算法主要应用于零售业的销售分析。 后逐渐扩展到多个领域: 2008年薛志强将Apriori算法应用于金融时间序列分析。 2007年关鹏等将Apriori算法应用于甲型肝炎风险预测。 2005年李炎阳等将Apriori算法应用于对语音合成中韵律参数的预测。 目前尚无将Apriori算法应用于高校实验室设备采购关联分析的案例。 2.基于Apriori算法的实验室设备采购决策支持系统 本文采用Perl语言实现的Apriori算法和SQLite数据库系统对高校实验室设备采购数 据进行分析。 Perl是著名的脚本语言。它具有高级语言强大的能力和灵活性,又与其他脚本语言一样不需要编译器和链接器来运行代码,要做的只是写出程序并告诉Perl来运行而已。这意味着对于小的编程问题的,Perl是快速解决方案,对大型事件则是良好的原型和测试方案。Perl被广泛地用于日常生活的方方面面,从宇航工程到分子生物学,从数学到语言学,从图形处理到文档处理,从数据库操作到网络管理。Perl最擅长的,就是以极简单的代码处理批量复杂数据,同时保证代码的可移植性。考虑到数据挖掘的主要负载位于数据库之上,同时数据挖掘通常作为自动化例程在异构的系统中运行和粘粘不同数据源的数据,本文选择使用Perl来实现Apriori算法,并使用Perl-DBI连接数据库。 SQLite是一款轻型的数据库,是遵守ACID的关联式数据库管理系统,它的设计目标是嵌入式的,而且目前已经在很多嵌入式产品中使用了它,它占用资源非常的低,在嵌入式设备中,可能只需要几百K的内存就够了。它能够支持Windows/Linux/Unix等等主流的操作系统,同时能够跟很多程序语言相结合,比如Tcl、PHP、Java等,还有ODBC接口,同样比起Mysql、PostgreSQL这两款开源世界著名的数据库管理系统来讲,它的处理速度比他们都快。 以下是一个简单的计算机实验室设备采购历史记录: 首先将上述记录录入数据库,建立名为Purchases的数据表,表结构如下: 由于SQLite是无类型数据库,故数据表中的类型并不会被应用于实际数据上,系统会在运行时自动决定使用哪种类型记录,类型仅作为程序参考使用。程序首先从命令行参数中取得要分析的数据库,关联数量和最小支持度,并打开对应的数据库。代码如下: our($opt_n,$opt_s,$opt_f); getopt('n:s:f:'); my$dbh=DBI->connect("dbi:SQLite:dbname=$opt_f",'','',{ ShowErrorStatement=>1})ordie"Cannotopen$opt_f"; 从数据库中解析出所有商品和购买次数,生成0级频集,作为1级候选集。代码如下: my$all=$dbh->selectall_arrayref('selectdistinctgidfromsales')ordie$dbh->errstr; my$cnt=$dbh->selectall_arrayref('selectdistincttidfromsales')ordie$dbh->errstr; @candidates=map{[$_->[0]]}@$all; return&apriori(1,scalar@$cnt,@candidates); 在此之后,根据上一级给出的Ln候选集,按照给定的最小支持度过滤出Kn频集,通过直和生成Ln+1候选集合,并传入下一级。代码如下: formy$gid(@set){ my$goods=join',',(map"'$_'",@$gid); my$sup=$dbh->selectall_arrayref("selecttid,count(tid)fromsaleswheregidin($goods)groupbytidhavingcount(tid)=$level"); push(@candidates,$gid)if(scalar@$sup)/$count>=$opt_s; } $level++; return&apriori($level,$count,&cross($level,@candidates)); 当输入的候选集维度达到要求找出关联的商品数时,该候选集就是最终具有关联的集合。代码如下: printf("pass[%s]\n",join(',',@$_))for@candidates; print"Noacceptedpairs\n"unless@candidates; return; 三个支持函数用于根据当前频集生成下一级候选集。代码如下: subcross{ my($level,@set)=@_; my@set2; push@set2,$_for@set; my@ret; &cross_set($level,\@set,\@set2,\@ret); return@ret; } subcross_set{ my($n,$l,$r,$res)=@_; formy$i(@$l){ formy$j(@$r){ nextunless&compar_set($i,$j)<0; my%x; $x{$_}=1for@$i; $x{$_}=1for@$j; my@todo; push@todo,$_forsortkeys%x; nextunless(scalar@todo)==$n; push@$res,\@todo; } } } subcompar_set{ my($a,$b)=@_; my$la=scalar@$a; my$lb=scalar@$b; my$l=$la<$lb?$la:$lb; my$c; for(my$i=0;$i<$l;$i++){ $c=$a->[$i]cmp$b->[$i]; return$cif$c!=0; } return$la-$lb; } 3.结果和讨论 从上述规则可以初步得出结论: a)计算机、交换机和路由器三者是配套产品,有的采购同时包含了三者。 b)交换机、路由器和无线路由器三者也是配套产品,可以以此搭建起一个简单的内部 网络系统。 c)打印机通常是单独购买的设备。 按照上述模式,高校在采购实验室设备时就可以一次性将必要设施和相关配套设施全部购入,同时减少不必要的设备购买。依靠此决策系统,高校对实验室设备的利用率将获得一个提升。 同时也需要看到,由于Apriori算法引入了大量的数据库操作,当历史采购信息增多时,系统的性能会降低。这也就需要对算法本身进行改进,其中FP-Growth算法是一个很好的研究方向。 参考文献 a)加强高校实验室建设与管理的思考.于振江.实验技术与管理.20,3,2003. b)高校实验室信息系统网络化.闫瑞琴,林德忠.实验技术与管理.21,5,2004. c)FastAlgorithmsforMiningAssociationRules.RakeshAgrawal,RamakrishnanSrikant. VeryLargeDataBases,1994. d)PersonalizationofSupermarketProductRecommendations.SpringerNetherlands.Data MiningandKnowledgeDiscovery.5,1-2,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论