




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
期 末 论 文论文题目:数据挖掘在商业数据分析中的应用所属课程名称_指导教师_班 级_学 号_姓 名_成 绩_数据挖掘在商业数据分析中的应用数据挖掘在商业数据分析中的应用【摘要】本文主要介绍数据挖掘在商业数据分析中的应用,文章从数据挖掘的商业内涵、数据挖掘的商业需求分析出发,阐述了数据挖掘在海量信息中提取有效信息的作用。最后介绍了数据挖掘关于企业客户数据分析、企业财务预警两个方面上的应用及相关案例,说明了数据挖掘给人们带来了便利,给企业带来了新的利润空间以及为企业提供了决策支持,进一步强调了数据挖掘在商业数据分析中存在的必要性。【关键字】 数据挖掘;财务预警;决策支持一、从商业角度看数据挖掘技术数据挖掘从本质上说是一种新的商业信息处理技术。数据挖掘技术把人们对数据的应用,从低层次的联机查询操作,提高到决策支持、分析预测等更高级应用上。它通过对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,发现数据间的关联性、未来趋势以及一般性的概括知识等,这些知识性的信息可以用来指导高级商务活动。从决策、分析和预测等高级商业目的看,原始数据只是被开采的矿山,需要挖掘和提炼才能获得对商业目的游泳的规律性知识。这正是数据挖掘这个名字的由来。所以,从商业角度看,数据挖掘就是按企业的既定业务目标,对大量的企业数据进行深层次分析以揭示隐藏的、未知的规律性并将其模型化,从而支持商业决策活动。从商业应用角度刻画数据挖掘,可以使我们更全面的了解数据挖掘的真正含义。它有别于机器学习等其它研究领域,从它的提出之日起就具有很强的商业应用目的。同时,数据挖掘技术只有面向特定的商业领域才有应用价值。数据挖掘并不是要求发现放之四海而皆准的真理,所有发现的知识都是相对的,并且对特定的商业行为才有指导意义。二、数据挖掘技术的商业需求分析数据挖掘之所以吸引专家学者的研究兴趣和引起商业厂家的广泛关注,主要在于大型数据系统的广泛使用和把数据转换成有用知识的迫切需要。60年代,为了适应信息的电子化要求,信息技术一直从简单的文件处理系统向有效的数据库系统变革。70年代,数据库系统的三个主要模式层次、网络和关系型数据库的研究和开发取得了重要进展。80年代,关系型数据库及其相关的数据模型工具、数据索引及数据组织技术被广泛采用,并且成为了整个数据库市场的主导。80年代中期开始,关系数据库技术和新型技术的结合成为数据库研究和开发的重要标志。从数据模型上看,诸如扩展关系、面向对象、对象-关系(Object-Relation)以及演绎模型等被应用到数据库系统中。从应用的数据类型上看,包括空间、时态、多媒体以及WEB等新型数据成为数据库应用的重要数据源。同时,事务数据库(Transaction Database)、主动数据库(Active Database)、知识库(Knowledge Base)、办公信息库(Information Base)等技术也得到蓬勃发展。从数据的分布角度看,分布是数据库(Distributed Database)及其透明性、并发控制、并行处理等成为必须面对的课题。进入90年代,分布式数据库理论上趋于成熟,分布式数据库技术得到了广泛应用。目前,由于各种新型技术与数据库技术的有机结合,使数据库领域中的新内容、新应用、新技术层出不穷,形成了庞大的数据库家族。但是,这些数据库的应用都是以实时查询处理技术为基础的。从本质上说,查询时对数据库的被动使用。由于简单查询只是数据库内容的选择性输出,因此它和人们期望的分析预测、决策支持等高级应用仍有很大距离。新的需求推动新的技术的诞生。数据挖掘的灵魂是深层次的数据分析方法。数据分析是科学研究的基础,许多科学研究都是建立在数据收集和分析基础上的。同时在目前的商业活动中,数据分析总是和一些特殊的人群的高智商行为联系起来,因为并不是每个平常人都能从过去的销售情况预测将来发展趋势或作出正确决策的。但是,随着一个企业或行业业务数据不断积累,特别是由于数据库的普及,人工去整理和理解如此大的数据源已经存在效率、准确性等问题。因此,探讨自动化的数据分析技术,为企业提供能带来商业利润的决策信息而成为必然。事实上,数据(Data)、信息(Information)和知识(Knowledge)可以看作是广义数据表现的不同形式1。毫不夸张地说,人们对于数据的拥有欲是贪婪的,特别是计算机存储技术和网络技术的发展加速了人们收集数据的范围和容量。这种贪婪的结果导致了“数据丰富而信息贫乏(Data Rich & Information Poor)”现象的产生。数据库是目前组织和存储数据的最有效方法之一,但是面对日益膨胀的数据,数据库查询技术已表现出它的局限性。直观上说,信息或称有效信息是指人们又帮助的数据。例如,在现实社会中,如果人均阅读时间在30分钟的话,一个人一天最快只能浏览一份20版左右的报纸。如果你订阅了100份报纸,其实你每天也不过只阅读了一份而已。面对计算机中的海量的数据,人们也处于同样的尴尬境地,缺乏获取有效信息的手段。知识是一种概念、规则、模式和规律等。它不会象数据或信息那么具体,但是它却是人们一直不懈追求的目标。事实上,在我们的生活中,人们只是把数据看作是形成知识的源泉。我们是通过正面或反面的数据或信息来形成和验证知识的,同时又不断地利用知识来获得新的信息。因此,随着数据的膨胀和技术环境的进步,人们对联机决策和分析等高级信息处理的要求越来越迫切。在强大的商业需求的驱动下,商家们开始注意到有效地解决大容量数据的利用问题具有巨大的商机;学者们开始思考如何从大容量数据集中获取有用信息和知识的方法。因此,在二十世纪八十年代后期,产生了数据仓库和数据挖掘等信息处理思想。三、数据挖掘在商业数据分析中的应用(一) 数据挖掘关于企业客户数据分析的应用1. 应用分析数据挖掘是一种从数据集中提取那些隐藏在数据集中的有用数据的非平凡过程2。对于当前经济贸易的高度发展,目前数据挖掘在企业客户数据方面主要有以下几个方面的应用:(1) 获得潜在客户信息。随着服务行业的竞争加剧,以客户为中心的理念不断加强,客户是服务行业的主要目标,如何挖掘自身客户是每个企业都在考虑的问题。例如电信、联通这些运营商如何来获取客户信息,哪些客户喜欢用移动号码,哪些客户喜欢用联通号码,他们的年龄分布群是怎样的,收入状况如何。通过分析挖掘这些数据的潜在规律可以更好地帮助他们获取潜在的客户信息(2) 挖掘客户的潜在需求。分析客户、了解客户并引导客户需求已成为企业经营的重要课题。电信业务收据收集了客户交易的所有信息,对客户进行分类,确定不同类型的用户不同潜在行为,然后采取相应的营销策略,使企业产生利润最大化。(3) 留住自己的客户。数据挖掘技术可以对大量的客户信息进行一个数据分类,把客户分成不同的类型,不同的客户类型具有不同的属性,企业可以根据不同的客户类型提供不同服务,让客户对企业产生很好的满意度,这样是留住客户的一个因素。数据挖掘技术还可以从这些数据中发现哪些特质的客户是有可能流失的,这样企业可以采取相应的措施对客户进行挽留。(4) 聚类客户。它是通过分析客户的浏览行为来分析客户所属的类别。提取客户的共同特征,可以有效的帮助产品销售商更好的了解客户,想客户提供更加贴身的服务。例如,有些客户一直在买“婴儿衣服”,“尿不湿”这些产品,通过分析这个客户的浏览行为,我们可以将这个客户纳入“Parents”客户组,在下次该顾客光顾的时候相应就可以推荐“奶粉”,“玩具”等产品。2. 案例分析基于遗传算法(简称GA)的客户购买行为特征提取3(1) 案例说明:本案例采取大型零售超市数据,在该数据集中选取一年销售记录作为原始数据,共110种产品,656个顾客,9535条交易记录。采取本案例提出特征提取算法,决策者可以对具有相同购买行为目标顾客群体制定有针对性营销策略。同时,也可以从整体顾客群体购买特征中发现一些关联度很强的产品组合,为产品的选购和服务方面提供决策支持。(2) 算法描述算法评价基于GA顾客行为特征提取基于GA Tanimoto 相似度顾客群分割数据处理图1 算法整体框架(3) 数据预处理本案例选择SQL Server 2005数据仓库中零售超市footmart 的销售数据,从中随机选择656个顾客在1997年的购买商品记录,总计9353个交易记录,原始数据主要包括顾客ID,购买时间(以天为单位),购买商品代码,购买数量,商品销售单价等属性。我们把数据按照customer_id提取每个顾客在一年内购买的商品,以顾客ID号为索引组成购买商品序列(事务数据库D),处理过程如图2所示。Customer_id购买序列(Prchase sequence)(商品代号/价格/数量)3885/2.76/2,393/3.36/3,1279/8.88/361417/10.83/3,1527/6.92/2,935/11.20/410529/8.76/4,60/5.32/2图2 处理过程(4) 结果分析通过一系列遗传策略,我们可以直接找到顾客群体中高支持度和高置信度的规则集,从中我们可以发现顾客群体在购买行为方面特征。对于全体顾客,我们列举了 5 条最优的规则(表1)。对各个子顾客群,我们列举了 3 最优条规则(表2)。在所列出特征提取中,我们删除了顾客子群体与全体顾客有较强相似性的规则,以体现各个群体主要自身的特点。表1全体顾客最优规则集支持度置信度Ibuprofen,Bagels,Computer Magazines- Flavored Drinks, Dips0.011Nuts, Shampoo, Bagels, Pizza- Fresh Vegetables0.0061Soup, Fresh Vegetables, Fresh Fruit-Cookies, Dried Fruit0.0061Coffee, Sliced Bread, Cleaners, Chocolate Candy- Fresh Fruit0.0060.67Donuts, Beer, Hamburger, Cooking Oil-Fresh Fruit0.0051表2顾客群体编号最优规则(每个群体列举3条)支持度置信度Group 1Pancake Mix, Canned Vegetables- Canned Fruit0.20.73Paper Wipes, Wine- Plastic Utensils0.061Personal Hygiene, Batteries- Paper Wipes0.051Group 2Paper Wipes- Cookies, Milk0.120.73Sliced Bread-Bologna, Muffins0.090.76Cookies, Pizza- Fresh Vegetables0061Group 3Fresh Fruit, Soup- Fresh Vegetables0.210.85Muffins-Rice, Soda0.150.84Canned Vegetables, Frozen Chicken-Dried Fruit0.130.85Group 4Cheese, Paper Wipes- Jelly0.070.86Cleaners, Fresh Vegetables- Canned Vegetables0.031Yogurt, Jelly- Fresh Vegetables0.031Group 5Chips, Coffee-Spices0.180.7Sour Cream Flavored Drinks-Chocolate Candy0.10.7Sliced Bread, Hard Candy - Cheese0.080.93对于整个顾客群体,通过对生成规则集进行分析,我们发现整个顾客群体更喜欢购买烹饪和日常零食类商品。从最优规则集中可以看出,像 FreshVegetables、Fresh Fruit、Cooking Oil、Soup 这样的原料食品购买量较大,与此相关的关联规则支持度和置信度较高。一些熟食 Cookie,Hamburger,Nuts 也是在最优规则集合中出现较多商品种类。这些商品或商品组合在销售过程中属于“明星商品或商品组合”,零售机构相关分析人员和决策者可以针对这些商品或商品组合,制定有效商品推荐和促销政策。还有一些就是兴趣度非常高的规则,如一些零食类食品如 Bagels 与一些休闲杂志(magazines)具有很强的关联性,这对零售超市等机构为顾客提供商品推荐,以及商品摆放和布局具有辅助作用。从结果中,我们看到不同顾客子群体也具有各自的一些特征,在不同的子群体内部很多商品之间具有很紧密的关系。例如在 Group 1 中顾客更喜欢购买一些像Batteries、Paper Wipes、Lightbulbs等非饮食类商品(Non-consumableclass)并且这些商品间关联度比较高。在 Group 2 中顾客更倾向于饮品和点心类如 Wine、Milk、Soup、Muffins、Cookie、Pizza 等,还有一个有趣的现象是 Shampoo在一些强规则出现频率较高,与上述饮料和点心食品有很强关联性。在 Group 3中顾客更多购买的是烹饪调味原料如 Fresh Vegetables、Fresh Fruit、Frozen Chicken、Dried Fruit、Soda、Spices 等,并且这些商品组成关联规则支持度和置信度也比较高且具有比较强关联性。Group 4 提取出的规则相对较少并无明显特点。Group 5 中顾客跟倾向于购买糖果类及相关零食,如 Chocolate Candy、SourCream、Chips、Hard Candy 等,并且此类商品间关联度比较强。从零售机构来看,主要的营销和促销策略主要有以下几种,对于某种销量高“明星产品”全场打折(现金或质量优惠),某一类或某种商品打折、代金券形式,同种商品新品牌推荐等。这些手段中前两种最为普遍。通过本文实验结果我们可以看出,对于零售机构,可以根据商品间的关联性和销售情况来制定产品组合折扣等营销策略,这种促销策略是跨种类交叉式营销策略,而不是单一的对某个或某类商品进行打折促销,这样既迎合了顾客口味,同时,会刺激关联度强的商品销售。对于具有相似购买行为顾客群体,决策者可以根据各个群体行为特征有区别对待,针对各自特点对不同商品组合进行推荐和促销,这样完全面向顾客方法可以实现买方和卖方的“双赢”。(二) 数据挖掘关于企业财务数据预警的应用1. 采用数据挖掘构建财务预警系统的重大意义人们普遍认为企业失败的前兆是“财务危机”4,它不仅给企业带来重大的经济损失和形象伤害,处理不当甚至会导致企业倒闭。在企业陷入财务危机的过程中,企业财务状况的变化可以通过财务报表反映出来,具体反映在某些财务指标的变化上。因此,这些财务指标对公司未来的财务状况是有预测能力的。因此,如果在企业财务危机发生的早期就采用一定的技术手段来对企业财务状况进行预测,例如采用数据挖掘算法构建财务预警系统,这样无论是对于上市公司自身,还是对投资者、债权人都具有十分重要的意义。(1) 有利于投资者的投资决策,保护投资者的利益。广大投资者通过财务预警,可以及时了解上市公司的经营状况,防范投资风险。由于上市公司数目众多,信息量很大,年报、中报和平时的重大信息以及这之间的信息关联、交叉重复程度又比较大,再加上普通投资者一般缺乏进行分析所需要的高深的数理知识,在分析上市公司信息时往往难以做出正确的判断。而公司财务危机预测模型的建立,可以通过对上市公司不断挖掘有价值的信息,在上市公司发生财务危机之前就能及时准确地发出警报。从保护投资者的利益出发,中国证券监督管理委员会和证券交易所已经制定了一系列防范和化解财务危机的制度。但值得注意的是,除了预亏预警制度外,这些制度都是针对上市公司出现财务危机以后的相关措施,至于预亏预警制度,其发布与否以及发布的具体时间都取决于上市公司,上市公司的调控余地很大。而投资者在进行投资决策的时候,更多的是需要一种事前信息。他们想知道盈利的上市公司是否会突然亏损,亏损一年的上市公司是否会连续亏损,以及每股净资产低于面值的公司是否会出现破产的情况。若能建立一套行之有效的财务危机预测系统,对投资者的投资决策有着重要意义。(2) 有利于证券监管部门更好地推进监管工作,并从实证研究角度上支持和加强证券监管部门的监管工作。从我国证券市场来看,经过10多年的发展,我国证券市场已经在我国国民经济中占有了非常重要的位置,而上市公司的财务状况更是投资者、政府监管部门等利益相关者关注的重要问题。为了提示不同程度的财务危机风险,证券监管部门制定了一系列制度,如ST制度、暂停上市和终止上市制度。而这些制度的约束条件都是以上市公司的亏损程度为基础的。那么是否存在其他能有效反映上市公司财务危机的财务指标,是否能从历史财务指标的变化中判断出上市公司发生财务危机的预兆,从而加强事前监管。若能通过实证研究,建立一套财务危机预测系统,并找出判断上市公司是否发生财务危机的关键性指标,对于证券监管部门的监管工作有着重要意义。(3) 有利于上市公司防患于未然。真实的财务数据可说是企业经营绩效最客观的成绩单,相关的比率分析更是公司最好的财务预警讯息,会计资讯在上市公司的评估绩效及决策参考有着重要的内部功能。若能建立起上市公司财务预测系统,有助于上市公司及时发现问题,解决间题,防患于未然。(4) 有利于债权人等利益相关者做出及时、正确的决策。上市公司的利益相关者还包括债权人,如银行等。尽管目前上市公司有着直接的融资渠道,但间接融资仍在上市公司的资本结构中占有相当大的比重。债权人在进行是否对上市公司贷款的决策时,迫切想知道上市公司是否会发生财务危机,从而保证其发放贷款的安全性和收益性。尤其是在中国特定的环境下,债权转让市场还没有建立起来,债权人持有的债权流动性不强,一旦上市公司发生财务危机,债权很有可能收不回来,坏账的可能性很大。故建立上市公司财务危机预测系统对银行等债权人也有着重要的意义。2. 案例分析基于聚类算法的财务预警5(1) 案例说明:本案例选取2005年、2006年沪深两市被特别处理的公司(ST公司)以及相应的财务正常公司(如表3,表4,表5,表6),共44家公司数据,并以2005年公司作为训练数据,2006年公司作为测试数据对模型进行测试。为了能够较为全面的反映公司情况,一开始选择能够查询到的全部财务指标,包括净资产收益率(主营业务利润),净资产收益率(营业利润),净资产收益率(净利润),净资产收益率(利润总额),资产收益率,净利润率,净资产增长率,总资产增长率,主营业务收入增长率,营业利润增长率,税后利润增长率,流动比率,速动比率,存货流动负债比率,现金流动负债比率,股东权益比率,现金负债比率,债务资本比率,债务资产比率,存货周转率,应收账款周转率,资产周转率,固定资产周转率,存货销售期,应收账款回收期,市盈率,市净率,市销率。表3:2006年财务危机公司股票代码股票名称股票代码股票名称股票代码股票名称000578*ST数码000918*ST亚华600173*ST丹江600209*ST罗顿600721*ST百花600248*ST秦丰000004*ST国农000506*ST东泰000925*ST海纳000403*ST生化600734*ST实达000892*ST星美600711*ST雄震600703*ST天颐600614*ST发展000750*ST集琦000655*ST华陶000693*ST聚友600705*ST北亚000789*ST江泥600242*ST华龙000757*ST方向A表4:2006年财务正常公司股票代码股票名称股票代码股票名称股票代码股票名称600755厦门国贸600257洞庭水殖000544中原环保600790轻纺城600859王府井600702沱牌曲酒600033福建高速600356恒丰纸业600206有研硅股000755山西三维600601方正科技000602金马集团600200江苏吴中600727鲁北化工000599青岛双星000545吉林制药600802福建水泥600037歌华有线600895张江高科000795太原刚玉600275武昌鱼600841上柴股份表5:2005年财务危机公司股票代码股票名称股票代码股票名称股票代码股票名称600181*ST云大600092*ST多佳000813*ST天纺600146*ST大元000908*ST天一000856*ST唐陶600092*ST精密000862*ST仪表000760*ST博盈600065*ST联谊000880*ST巨力000650*ST九化000993*ST闽电000791*ST化工000683*ST天然000622*ST恒立000631*ST兰宝000156*ST嘉瑞600816*ST安信600369*ST长运600286*ST国瓷600187*ST黑龙600213*ST亚星600199*ST金牛600767*ST运盛表6:2005年财务正常公司股票代码股票名称股票代码股票名称股票代码股票名称600062双鹤药业600706长安信息600220江苏阳光600740山西焦化000570苏常柴A000786北新建材600343航天动力600081东风科技600742一汽四环600408安泰集团000901航天科技000420吉林化纤000939凯迪电力600301南化股份600141兴发集团600710常林股份000559万向钱潮000407胜利股份000563陕国投A600428中远航运600809山西汾酒000488晨鸣纸业600418江淮汽车600841上柴股份000002万科A(2) 算法过程使用传统方法、粗糙集进行财务数据与指标的选取对输入指标进行模糊化基于PSO的模糊聚类算法对聚类结果进行财务预警分析图3 使用聚类算法财务预警的过程(3) 结果分析表7是采取基于PSO的模糊聚类算法得到财务预警结果。从每个经济指标上来看,各项平均值都较差的簇b代表有警的一类,各项都较好的簇a代表无警的一类;每个语意变量“低”,“较低”,“中”,“较高,“高”,分别第四章基于聚类算法的财务预警以1、2、3、4、5代替,则可以将不同指标对于距离的度量标准化。表(4一2)左边各公司是无警的公司,右边的各公司是有警的公司,总体分类正确率为(44一8)/44一81.818%,基本达到了初步设想。表7 基于PSO的模糊聚类预警结果公司代码聚类隶属度1隶属度2公司代码聚类隶属度1隶属度26007552a0.814500.12960.870456007902a0.99930.00076002092b0.2050.795056000332a0.99280.00720000042b0.12960.870450007552a0.79510.2050004032a0.99420.005856002002a0.99310.00696007112b0.00720.992790005452b0.00070.99930007502b0.00130.998666002572a0.99420.00596007052a0.79510.204956008592a0.93420.06580007572b0.00130
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 纸浆纳米纤维素制备新方法-洞察及研究
- 部队地雷使用课件
- 部队作风纪律课件
- 湖北省黄冈市团风县2024-2025学年八年级下学期期末测试物理试题(含解析)
- 安徽省黄山市2024-2025学年高二上学期期末质量检测地理试卷(含答案)
- 20xx广州市劳动合同样本
- 部门安全培训课件强化
- 遨游汉字王国猜字谜课件
- 2025年广东省广州市中考物理三轮冲刺《物态变化》
- 基于差分隐私的前端数据扰动梯度传播优化研究
- GB/T 31771-2024家政服务母婴护理服务质量规范
- 金融机构概况
- 2024-2025学年地质版体育与健康一年级全一册教案
- 成人常见传染病预防方法
- 《干部履历表》(1999版电子版)
- ICU常见护理问题及措施
- DB11T 1102-2014 城市轨道交通工程规划核验测量规程
- 感冒(中医内科学)
- 初中体育与健康八年级 第十一章 民族民间体育-三人板鞋 教案
- 财政投资项目评审服务投标方案(技术方案)
- 远古时期的人类活动课件
评论
0/150
提交评论