挖掘数据背后的财富――浅析数据库营销在国内的发展_图文_第1页
挖掘数据背后的财富――浅析数据库营销在国内的发展_图文_第2页
挖掘数据背后的财富――浅析数据库营销在国内的发展_图文_第3页
挖掘数据背后的财富――浅析数据库营销在国内的发展_图文_第4页
挖掘数据背后的财富――浅析数据库营销在国内的发展_图文_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信息技术挖掘数据背后的财富浅析数据库营销在国内的发展剥、国亮(郑州旅游职业学院)摘要:数据库的真正价值不在于数据本身,而在于对数据的分析挖掘以后的客户消费惯、消费心理、消费需求等方面的判断。只有利用数据挖掘技术和智能分析系统,在数据中将客户真实需求挖掘出来,才能发挥数据库营销的真正价值。关键词:挖掘数据库价值随着科技的快速发展和市场竞争的加剧,越来越多的中小企业开始关注建立数据库营销模式。有一句话说得好,数据库不能保证你能赢得竞争,但是将为你在竞争中胜出增添砝码。一、数据库营销的基本概念数据库营销()是在、与技术发展上逐渐兴起和成熟起来的一种市场营销推广手段,在企业市场营销行为中具备广阔的发展

2、前景。它不仅仅是一种营销方法、工具、技术和平台,更重要的是一种企业经营理念,也改变了企业的市场营销模式与服务模式,从本质上讲是改变了企业营销的基本价值观。通过收集和积累消费者大量的信息,经过处理后预测消费者有多大可能去购买某种产品,以及利用这些信息给产品以精确定位,有针对性地制作营销信息达到说服消费者去购买产品地目的。通过数据库的建立和分析,各个部门都对顾客的资料有详细全面的了解,可以给予顾客更加个性化的服务支持和营销设计,使“一对一的顾客关系管理”成为可能。数据库营销在西方发达国家的企业里已相当普及,在美国,年公司的调查显示,的零售商和制造商有营销数据库,的零售商和制造商正在计划建设营销数据

3、库,的零售商和制造商认为在本世纪末,他们将需要一个强大的营销数据库来支持他们的竞争实力。从全球来看,数据库直销作为市场营销的一种形式,正越来越受到企业管理者的青睐,在维系顾客、提高销售额中扮演着越来越重要的作用。二、数据库营销的基本功能、宏观功能市场预测和实时反应客户数据库的各种原始数据,可以利用“数据挖掘技术”和“智能分析”在潜在的数据中发现赢利机会。基于顾客年龄、性别、人口统计数据和其它类似因素,对顾客购买某一具体货物可能性作出预测:能够根据数据库中顾客信息特征有针对性的判定营销策略,促销手段,提高营销效率,帮助公司决定制造适销的产品以及使产品制定合适的价格;可以以所有可能的方式研究数据,

4、按地区、国家、顾客大小、产品、销售人员、甚至按邮编,从而比较出不同市场销售业绩,找出数字背后的原因,挖掘出市场潜力。企业产品质量上或者功能的反馈信息首先通过市场、销售、服务等一线人员从面对面的顾客口中得知,把有关的信息整理好以后,输入数据库,定期对市场上的顾客信息进行分析,提出报告,帮助产品在工艺或功能上的改善和完美,产品开发部门作出前瞻性的研究和开发:管理人员可以根据市场上的实时信息随时调整生产和原料的采购,或者调整生产产品的品种,最大限度的减少库存,做到“适时性生产”(、微观功能分析每位顾客的赢利率事实上,对于一个企业来说,真正给企业带来丰厚利润的顾客只占所有顾客中的,他们是企业的最佳顾客

5、,赢利率是最高的,对这些顾客,企业应该提供特别的服务、折扣或奖励,并要保持足够的警惕,因为竞争对手也是瞄准这些顾客发动竞争攻击的。他们可以根据消费者购买公司家用电器的历史,来判断谁对公司和新式录象机感兴趣,能确认谁是公司的大买主,并给他们送上价值美元的小礼物,以换取他们对公司产生下一次的购买。三、用知识手册建立数据库许多曾尝到数据库甜头的企业抱怨说,现在通过数据库营销投入产出大大减少了。以前,只需要建立起数据库,然后简单地和顾客沟通,采用广种薄收的方法,最终能以极低的成本获得高效益。但是现在,利用数据库营销的成本在不断增加,而效果却一天比一天差。、购买数据效果下降“现在,中小医院卖信息已经是公

6、开的了,准确的个人信息一条元。”。小医院买信息容易,但购买力偏低:大医院买信息相对麻烦,但购买力高。一位在北京做保健品会议销售的经理说。“但是,最关键的问题并不是到何处购买信息,而是这些买来的信息,有多少效果。我感觉目前因为信息被多次泛用,效果越来越差了。”特别是今年“晚会”以后,购买数据后通过电话回访的效果就更差了。因为顾客信息是被动出卖的,他们事先对企业的产品没有一点儿认同感。年前后,从医院买回来条个人信息,至少能有一半转化为实际销售,可是现在,能够在的信息可以转化为实际销售已经很不错了。“其实现在很多经销商都了解,数据库营销是目前最可行的手段,只不过还没有一个非常好的模式。”保健品经销商

7、黄山说。“我们曾经粗略地计算过,媒体广告投放的成本,平摊到每个消费者身上的广告费用大概元左右。”如此高的宣传成本已经让经销商望而却步。而解决的方法,自然是让客户主动“找上门来”。、用知识手册换来联系信息某投资集团是一家防辐射卡的生产企业,妇幼市场是该公司主要开拓的领域之一。”目前,我们已经建立了一个包括万左右的孕妇个人信息的数据库。其中,有将近的孕妇主动打电话来咨询,其中有超过一半的孕妇最终实现了购买。“该集团事业部总经理葛苹说。队医一个仍然处于市场培养阶段的产品来说,这已经是个非常不错的成绩了。据了解,该公司的数据库主要是通过在医院妇产科、保健科室发放知识手册的方式建立起来的。通过这种方式和

8、客户建立联系看起来很简单,但是实际操作起来就会很难,毕竟在医疗机构从事公益活动的企业很多。而对于企业来说,知识手册的制作不仅要和同行业企业竞争,同时还要和在医院进行宣传的所有企业争抢“眼球”。在国外,有统计表明,几乎所有的企业,不论是大企业还是中小企业都建立了数据库,而在国内,越来越多的企业也认识到了这一点。其实知道数据库能带来帮助并不难,难的是怎样建立一个数据库?如何快速地建立一个数据库,并能以低成本获得高收益?必须要指出的一点是,很多企业想到了通过购买的方式获得数据库,这样可能很省时省力,但是,这样购买的数据库要面临越来越多的法律风险。尽管国家在这方面没有出台严格的法规,但是各种舆论的谴责

9、已经带来了莫大的压力。因此,如果企业想有一个长远的发展计划,还是离灰色地带远一点为好。四、重点分析采集的数据加州健身姚明运动馆是一家定位高端商务消费者的私人健身中心,年下半年分别在北京和上海开设了健身馆,为了迅速找到自己的目标消费者,他们与专业的数据库营销机构合作,从高端商务人群数据库当中,筛选符合条件的潜在客户,并通过等方式,将开馆信息传到潜在消费者手中,同时在预售期间,通过路演的方式,在附近的高档商务楼、购物中心,发放预售期的促销活动传单,吸引潜在用户提前签约。前期很小的投入,却获得了不错的效果,以上海为例,在预售活动之前,发送万封,送达率达到以上,在活动现场接到大量的咨询电话,在一周的预

10、售期内,就实现签单多人。这是一个典型的数据库营销案例。企业通过数据库筛选出潜在的目标受众,然后通过直复营销的方式将信息传递给消费者。这个看似简单的操作方式,在专业机构眼中却有着并不简单的过程,他们把其成为数据营销的整体解决方案。、数据采集,数据库营销的应用之本“无论是针对大客户营销还是针对大众消费者的企业,数据对它们都是非常重要的,对于针对大客户营销的企业来说,抓住一个大客户的数据也许就可以卖出去很多产品,而销售大众消费品的企业,数据则可以帮助他们做更多的消费者研究,洞察消费行为。”环球标讯董事长李廷海说。在新华信数据库营销高级咨询顾问李维晗的眼里,商业数据一般分为和两大类,方面的数据一般可也

11、通过工商、税务、黄页、海关、质监局等机构公开获得,这些数据相对比较规范,例如法人、注册日期、地址、电话、资产规模、纳税情况等。“我们经过十几年的积累,已经获得了万的机构数据。”李维晗说。由于涉及个人隐私,因此,在数据的获得和来源方面,很多专业数据营销机构谈到这个话题也显得很谨慎,他们普遍承认个人数据的获得在国内规范的渠道还比较少,一方面通过做项目调查获得一部分数据,或者通过在网上注册相关个人信息的方式获得。“我们的业务主要侧重于的数据营销,的业务相对比较少。“李维啥说。虽然数据库营销的理念已经为业界熟知,但鲜有企业系统化的运用,由于企业精准的客户信息收集力量薄弱,客户信息收集难度巨大,几乎没有

12、企业愿意投入专职力量从事客户信息的搜集和管理工作,只有很少的企业拥有整合的客户信息数据库,大量的客户信息分布在企业不同的业务单元。相比之下,大部分产品()的市场特性,即商业信息的实用性,促使企业愿意选择直复式营销,主流的厂商均设置专门的团队,管理和分析客户信息,用以进行关系营销和直复式营销,很多主流厂商均在潜在客户数据搜集,数据清理和直复式营销方面投入巨资,一些主流厂商正在建设公司级的客户数据管理系统,并开始广泛采用数据库营销。、数据不仅仅是数据沃尔玛有一个“啤酒和尿布”的经典案例。沃尔玛通过自己的销售数据发现,美国某地区的超市一到周末啤酒和尿布的销量就比较大,为了弄明白其中的原因,通过数据库

13、系统和调查终于发现,原来一到周末,在美国有孩子的家庭中,太太经常嘱咐丈夫下班后为孩子买尿布,而丈夫们在买完尿布后又顺手买下啤酒,因此啤酒和尿布一起购买的机会大增。于是,沃尔玛将啤酒和尿布的货架放在一起,啤酒和尿布的销量进一步增长。在数据库营销中,这个案例就是数据挖掘、数据分析功效的最好佐证。其实,有了越来越多的数据,如何使用就涉及到对数据的管理信息技术和分析、研究。数据来源于不同的渠道,其准确性、真实性和完整性都不同,这就需要对数据进行抽检和完善。基于客户价值的分析,还可以实现寻找新客户、父又销售和向上销售,例如,在寻找新客户的业务中,就可以通过客户价值细分,寻找到匹配的客户特征信息,然后对这

14、些客户特征信息进行分析,最后挖掘出线索。“啤酒和尿布”的故事就是通过对数据的深入分析获得了新的营销策略。李廷海告诉记者,目前企业建立数据库成本比较高,专业性也比较差,例如数据采集方式还停留在比较原始的阶段,处理数据也只是采用软件,修改和处理数据的效率都很低。这和专业的第三方数据咨询机构在数据采集、处理上采用更为专业的技术和人员有很大差距。所以现在很多大企业都选择长期和专业机构合作的方式进行数据库营销,而中小企业虽然也有这方面的需求,但由于观念和资金的局限,更多地采用租赁数据、购买数据这些单项的服务。、选择适合的直复营销工具某企业是一家解决方案供应商,他们计划对中小企业目标客户采用电话、直邮、电

15、子邮件、传真、网站等多种数据库营销方法,与客户建立联系并挖掘销售线索,直接拉动销售额的增长。此后,新华信帮助这家企业发送了万封给目标企业的相关负责人和采购决策人,海波大量万家企业的相关负责人员和采购人员的电话进行推广。在六个月时间内,累积提交个销售机会,最终成功实现个销售订单,投入万元,实现销售收入万元。虽然数据库营销并不是灵丹妙药,实施数据库营销最终失败的案例也比比皆是,但是,上拴里就是一个立体采用多种直复营销工具而获得销售成功的案例。当对数据进行分析和挖掘后,找到目标受众,就需要采用相应的方式进行传播和沟通,目前主要的支付营销工具为种:会务营销、互动营销、传真营销、电话营销、短信营销、直邮

16、营销和电子邮件营销。传真营销则更适合中西部的中小企业,因为内地的一些中小企业计算机的普及程度还不太高,传统的传真发送报价但还是比较常用的,也很容易被客户接受。会务营销则适合那些目标客户相对集中,单个客户价值比较大的业务,例如,一些汽车企业都采用会务营销的方式请目标客户试乘试驾,进行新车上市前的产品说明。企业在选择具体的直复营销工具时,需要综合考虑目标受众的特点,销售商品的特征以及预算支出情况,选择单一或者组合方式进行直复营销。随着经济的日益发展和信息技术对传统产业的改造,消费者的个性化需求的满足成为了可能,中国加入以后,企业将面临更加严峻的形势,如何在这场强敌环饲的角力中胜出,需要全方位的提升

17、企业的竞争力特别是企业的客户信息能力,作为企业经营战略中非常重要的营销体制也必须吸收西方先进的营销理念和手段,革除传统营销模式的弊端,数据库营销是先进的营销理念和现代信息技术的结晶,必然是企业未来的选择。参考文献,什么是数据库营销),:,】孙书博、赵正,中国经营报)【作者简介孙国亮(一),河南省焦作市人。郑州旅游职业学院旅游商贸系,讲师,研究方向:市场营销。 挖掘数据背后的财富浅析数据库营销在国内的发展作者:孙国亮作者单位:郑州旅游职业学院刊名:中小企业管理与科技英文刊名:MANAGEMENT & TECHNOLOGY OF SME年,卷(期:2008,(23被引用次数:0次参考文献(

18、2条1. Vigend,什么是数据库营销 20072. 孙书博. 赵正 查看详情 2008相似文献(10条1.学位论文 尤晓芳 数据库中有趣模式挖掘算法的研究 2007随着数据库技术的飞速发展以及数据库管理系统的广泛应用,人们收集数据的能力有了巨大的提高,积累的数据越来越多。在这浩瀚无边的数据海洋中潜藏着大量重要的、有趣的信息。因为这些有趣信息可以为管理者提供强有力的决策支持,所以从这个海量数据源中快速高效地获取有价值信息是包括企业,个人等在内的所有用户必须要面临并解决的问题。然而传统的数据统计分析方法已经不能够满足目前的需要,于是数据挖掘技术便应运而生了。数据挖掘(Data Mining),

19、也称为数据库中的知识发现,是指从大量的、不完全的、有噪声的、模糊的数据中抽取出潜在的、有效的、新颖的、有用的和最终可以理解和运用的知识的过程。它是涉及数据库、计算理论、人工智能、统计理论、认知科学等众多学科的一门交叉学科,能够对数据进行关联分析、分类、聚类、预测、孤立点分析、演变分析等。尽管数据挖掘技术诞生不久,但它广泛的应用前景和巨大的魅力,吸引了众多学者极大的研究热情和产业界人士的广泛关注。有趣模式挖掘是数据挖掘中的一个重要研究目标。所谓有趣模式是指那些潜在的、新颖的、有价值的、使用户感兴趣的、易被理解和运用的数据模式。其研究成果可广泛应用于金融、股票、客户管理、零售业、制造业、地质勘探和

20、电子商务等行业的决策分析应用软件中,既具有深入的理论价值又具有广泛的应用价值。例如,本文研究的异常模式和反期望模式,除了可以提供商机、科研启示和犯罪线索外,还可用在金融诈骗检测、股市异常交易监控、和理解客户消费行为的变化趋向。基于多数据库的全局模式,是通过综合多方位信息估计一个对象,除本文用来管理客户外,还可用在很多领域,如地质勘探中的多传感器数据分析与合成;现代军事中的敌对飞行器定位与预测、潜艇识别与监控、和军事信息的分析与合成。自从1993年Agrawal等人首先提出挖掘顾客交易数据库中项集间的关联规则(频繁模式问题,以后众多的研究人员对有趣模式的挖掘问题进行了大量的研究,他们不仅对原有算

21、法进行了优化,还陆续提出了许多新的有趣模式,如单数据库中挖掘出的例外模式,exceptional patterns3,4,5,10,unexpected patterns8和change patterns6等。本文中定义了反期望模式,该模式既不同于基于支持-置信模式挖掘出的频繁模式,也不同于3,4,5,10,8,6所表现的规则异常(exceptions of rules)和surprising patterns。并设计两种新算法挖掘反期望模式:(1)通过基于方差计算的剪枝算法生成反期望项集,即反期望模式的候选集;(2)通过基于最近邻居图的KNNG算法和基于相关分析的CA算法挖掘反期望模式。序列

22、数据库中挖掘出的有趣模式有:全周期模式15,Segment-Wise周期模式13,半周期模式16,17,22和surprising周期模式25等。定义了一种新颖的周期模式(RPP),并设计算法对其进行挖掘。该模式不同于任何一种以支持度为度量标准挖掘的周期模式或半周期模式, 同一个RPP中的各个事件之间存在很强的相关性,前键事件发生m次后,预示着后键事件将要发生n次。RPP模式可能是基于事件序列的事件对或事件组;也可能是基于交易数据库的Item对或Item组;也可能是基于波形分析的不同强度的信号波;还可能是基于规则序列的规则对。RPP不一定有很高的支持度,却有很广的应用范围,例如,生物计算,地震

23、预测,股票分析等。由于RPP长度未知,还可能有噪音存在,且既可能存在于频繁模式中也可能存在于非频繁模式中,所以为了减少复杂度,我们采用变形小波树(TWT)算法进行预处理,然后在此基础上进行周期模式挖掘。数据流中挖掘异常模式的方法大致可分为两类:点监测和区间监测(本文4.1部分将给出详述)。为了保证可以随时输出当前的异常模式,引入一种简单且有效的数据结构(三层时间区间嵌套模式(TTI)监测数据流。对新到数据是否为异常加以判断,评价的标准不是预先分配的静止阈值,而是由算法(KIC:核估计和置信区间聚类分析)计算得到的动态阈值。从而在仅占用很小内存的前提下提高了算法的准确性。在此基础上设计的SWMA

24、算法进一步降低了时间和空间复杂度。从多数据库中提取全局有趣模式如:高选票模式45,52和全局例外模式37,39等。各种挖掘方法见1.3.3部分详细论述。基于核函数和客户生命价值,提出一种从高维多数据库中挖掘全局有趣模式的KEMGP算法。 基于以上讨论,主要的研究工作如下:·阐述了数据挖掘的定义,功能/任务,挖掘流程;常见有趣模式,挖掘有趣模式的数据源,现有挖掘方法和研究意义。·分别基于单数据库,序列数据库,数据流和多数据库定义了四种有趣模式,即反期望模式;RPP模式;异常模式和全局模式。 ·针对每种有趣模式的挖掘,分别提出了一到两种高效的新算法。·在模拟

25、的和真实的数据集上进行了大量的实验,对本文方法的准确性,可行性和时效性进行了验证。2.期刊论文 张师超. 张成奇 多数据库挖掘的研究 -广西师范大学学报(自然科学版2003,21(1多数据库技术的进步导致大量的多数据库系统的开发,为了决策的目的,许多跨国(省公司急需挖掘他们那些分布在子公司的数据库.不过,现有的多数据库挖掘依然沿用单个数据库挖掘技术,即,首先将相关的数据库中的数据并入一个集合,然后挖掘这个集合,这会破坏一些有用的模型,像一个公司的70%子公司认为一个45-65的已婚顾客通常至少有2部车'.这种模型是有助于该公司的总体规划.另一方面,多数据库挖掘和单个数据库挖掘之间存在本

26、质的不同.例如,多数据库挖掘要考虑总公司和子公司的多层次应用.在这个报告中,设计了一个多数据库挖掘过程及可能遇到的问题.同时也简要地论证了多数据库挖掘的重要性,多数据库挖掘和单个数据库挖掘之间的不同之处,以及现有的多数据库挖掘技术的缺陷.3.学位论文 石杰 大数据库中频繁模式挖掘算法研究及应用 2007随着信息技术的高速发展和互联网的迅速普及,导致在各个应用领域的数据库中存储了大量的数据,这些数据集中包含着很多有用的知识,因此如何从各种大型或密集数据库中发现所隐藏的、预先未知的信息,显的尤为重要,这正是数据挖掘所要完成的任务.关联规则挖掘是数据挖掘领域中成果显著而且比较活跃的研究分支.其主要研

27、究目的就是从大型数据集中发现隐藏的、有趣的、属性间的规律,即关联规则.由于形式简单、易于理解而且是从大型数据库中提取知识的主要手段,因此,关联规则挖掘成为数据挖掘中的热点问题.关联规则挖掘过程包括:首先是将现有的数据库转换成事务数据库的形式(transaction database,然后采用适当的算法从事务数据库中挖掘出所有的频繁模式,最后由频繁模式生成有价值的关联规则.其中的第二阶段发现频繁模式是关键,它将决定关联规则挖掘的正确性和挖掘的效率.因此,大部分研究都集中在频繁模式的产生上.目前的频繁模式挖掘算法都过分的依赖于大量的计算,进而导致对内存空间的依赖,当参数需要调整时,造成重复的I/O

28、扫描.这都无法满足对大型数据库挖掘的要求.因此寻求减少对内存空间的依赖,降低重复I/O扫描次数的新方法就成为文章的研究内容.进行改进.具体工作体现在以下三个方面:1、.敏感性分析在数据挖掘中的应用研究:数据挖掘被视为一种把数据转化为信息,把信息转化为行为,把行为转化为价值或利润的过程.最近的研究大都集中在静态环境中利润的挖掘.敏感性分析方法能够预测模型输出结果的变化率.本文研究了利用敏感性分析这一方法在动态环境中对利润挖掘所起的作用,最后给出了应用该方法对利润挖掘的执行步骤.2、在研究了传统的事务数据库布局方式:水平布局方式和垂直布局方式的不足之处,提出一种新的事务在数据库中的布局方式一交叉布

29、局方式.该布局方式能够有效减少I/O重复扫描的次数,特别是当参数经常改变时.从而提高查找频繁模式的效率,进而提高关联规则挖掘的效率.3、提出一种新的频繁模式挖掘算法-QFP算法.该算法利用了交叉布局方式的数据存储结构,首先对每一个频繁项建立一棵QFP树,然后根据条件对每棵树进行挖掘,直到找出符合条件的频繁模式.此算法能够减少条件子树的生成数量,降低对内存空间的依赖和CPU的计算时间,从而提高关联规则挖掘的效率.4.期刊论文 唐懿芳. 牛力. 钟智. 张成奇 多数据库挖掘中独立于应用的数据库分类研究 -广西师范大学学报(自然科学版2003,21(4目前的数据挖掘技术大多只针对单一数据库进行挖掘.

30、当数据库有多个时,需要用到多数据库挖掘技术.应用聚类思想,提出一种独立于应用的数据库分类方法,并给出了相关的算法,最后用实验证明了该方法的正确性和有效性.5.学位论文 郭燕萍 多数据库中例外模式挖掘研究 2007数据挖掘(Data Mining是人工智能与数据库领域当前研究的一个热点,引起了大量学者与专家的关注。数据挖掘有许多功能,比如关联分析、聚类分析、例外分析等,其中例外分析也称例外模式挖掘,是数据挖掘的一个重要研究课题。一个数据库中的数据一般不可能都符合分类预测或聚类分析所获得的模型,那些不符合大多数数据对象所构成的模型的数据对象被称为异类(Outlier或例外(Exception。以前

31、许多数据挖掘算法在正式进行数据挖掘之前都把例外对象当作噪声而将其排除在数据挖掘的分析处理范围之外。但是从知识发现的角度来看,在一些应用场合,如电子商务欺诈行为的检测,银行信用卡欺诈行为的检测等,那些很少发生的事情往往比经常发生的事情更有趣、更有研究价值。因此,例外模式挖掘是一项重要且有意义的研究工作。目前,例外模式挖掘的研究工作主要集中在单个数据库上。随着分布式数据库技术及计算机网络技术的不断发展,多数据库系统已经应用于现实生活中,比如一个总公司需要为分布在不同地方的多个子公司分别建立数据库,从而构成一个多数据库系统。总决策者需要分析分布在不同分支的多个数据库,从而做出更加合理有效的决策。从这

32、些分布在不同分支的多个数据库中挖掘出的有些模式是仅被少数数据库强烈支持的,这样的模式也即例外模式,它们反映了子公司的个性,适用于决策者为这些少数的子公司根据其个性制定出特殊的决策,另一方面,这些例外模式也可能正是事物未来的发展方向,因此,多数据库中的例外模式挖掘也有着重要的现实意义。首先介绍了数据挖掘及多数据库中的数据挖掘的概念及现有的技术,并在现有工作的基础上,提出了一些新想法与新见解,并通过实验验证了所提出方法的可行性与有效性。本论文的主要工作分三部分展开:(1)在现有文献所研究的低选票例外模式挖掘的基础之上,提出一种基于数据约束的挖掘方法,该方法以用户的兴趣为导向,首先选择用户感兴趣的数

33、据对象,然后分别在各个局部数据库中找出对应的数据构成新的数据库。在新的多数据库中,先局部挖掘各个数据库,得到局部模式集,再进行综合,得到最终的全局低选票例外模式。本文还用实验验证了该方法的有效性。(2)提出一种新的多数据库中的例外模式的定义高选票例外模式,并提出一种挖掘方法。该方法主要用到了规则的聚类技术,一方面将相似的规则合并,另一方面将规则进行分类。聚类之后,在每个类中,我们先找出高选票模式,即选票数大于平均选票数的模式,然后再在高选票模式中利用方差能够反映数据波动程度的性质挖掘出最终的高选票例外模式。实验证明,所提出的方法是可行且有效的。(3)从客观和主观两方面分别分析了现有的一些对模式

34、的评价方法,并提出对多数据库中模式评价的两种客观性度量。6.期刊论文 李长河. 王维花. 张二虎 基于多层次数据库的智能Web挖掘系统 -计算机工程2004,30(5从当前Web挖掘的现状出发,提出了基于知识利用的智能检索综合Web挖掘引擎系统IWMES,并基于IWMES阐述了多层关系数据库的概念,提出了实现工具WebML(Web挖掘语言设想方案与模型实例.7.学位论文 曾德胜 数据库中Burst模式挖掘的研究与实现 2006近十几年来,随着科学技术的不断发展,人们产生和收集数据的能力迅速提高,因而数据规模急剧增加,仅仅依靠现有的技术是很难分析这些海量数据的,于是出现了“数据爆炸但知识贫乏”的

35、现象。人们希望能够有新的工具自动的分析和整理如此庞杂的数据,从中发现有价值的东西,为决策提供必要的支持。面对这一挑战,数据挖掘技术应运而生了。数据挖掘技术是指从大量的、不完全的、有噪声的、模糊的、随机的数据中抽取出潜在的、有效的、新颖的、有用的和最终可以理解和运用的知识的过程,它是涉及数据库、人工智能、统计学等众多学科的一个非常活跃的研究领域。数据挖掘不仅吸引了众多学者为其投入极大的热情,同时也引起了产业界人士的广泛关注。数据挖掘有许多功能,比如关联分析、聚类分析、例外分析等,其中例外分析也称例外模式挖掘,它是数据挖掘的一个重要研究课题。一个数据库中的数据一般不可能都符合分类预测或聚类分析所获

36、得的模型,那些不符合大多数数据对象所构成的模型的数据对象被称为异类(Outlier或例外(Exception。以前许多数据挖掘算法在正式进行数据挖掘之前都把例外对象当作噪声而将其排除在数据挖掘的分析处理范围之外。但是从知识发现的角度来看,在一些应用场合,如电子商务欺诈行为的检测,银行信用卡欺诈行为的检测等,那些很少发生的事情往往比经常发生的事情更有趣、更有研究价值。因此,例外模式挖掘是一项重要且有意义的研究工作。本文提出了一种新的例外模式Burst模式的定义,这种模式只在单个或者少数几个特定的时段或数据库中出现,并且在本阶段或者本数据库中相对其他模式而言有很高的支持度。这种模式支持度高,说明它

37、们在各自的时段或数据库中很频繁;而它们又只有少数几个时段或者数据库支持,这就说明它们是特有的。那么这种模式就可以给公司或企业的决策者在做决策的时候提供支持和帮助。公司可以根据它们的特殊性制定出特殊的决策,加快公司的发展,提高公司的利润。因此,如何有效地在数据库中挖掘Burst模式就成了一项很有意义的研究工作。本文第一章首先简要介绍了数据挖掘的基本概念、功能和面临的挑战;第二章详细介绍了与本文密切相关的关联规则挖掘的问题、方法和技术;接着在第三章首先用实验结果分析了挖掘整个大型时态数据库时可能存在的两个问题:(1)由于数据量太大,而计算机的内存有限,使得处理速度很慢或者出现死机甚至是无法处理的情

38、况,因此也就很难甚至不能从这些数据中挖掘出所需要的知识;(2)有些模式或者知识只在某个特定的时期或者某个特定的时段出现,如果不加以划分就直接放在一起挖掘的话,由于它们的支持度在整个数据库中不够高而往往被忽略掉。然后提出了解决这两个问题的一种新方法:在大型时态数据库中挖掘Burst 模式。该方法首先将大型数据库划分成多个小型数据集,然后再对这些数据集进行“四次裁剪”,最后挖掘出潜在大型时态数据库中的Burst 模式。经实验结果证明,该方法是准确有效的。第四章详细介绍了多数据库挖掘的相关问题和相关方法,并提出了一种在多数据库挖掘Burst模式的模型,该模型考虑到:一、各个子公司原始的数据具有商业机

39、密或者隐私,所以他们不会愿意将自己的原始数据上交给总公司或者共享他们的原始数据;二、如果总公司收到的是各个子公司上交上来的大量的原始数据,那么这些数据汇合在一起会形成数据爆炸。因此各个子公司交给总公司的只是他们的局部模式库而非原始数据。该模型先将所有的局部模式库进行划分,得到各个局部模式库相关组,再在各个组上进行综合分析,从而从中挖掘出Burst模式。所以在第四章提出一种基于关联规则的相似度测量方法,将各个局部模式库进行划分,并对划分的结果进行评价,接着根据评价的结果设计出了一个选择最好划分的算法,找出最好的一种划分。然后再提出一种识别隐藏在各个局部模式库中的Burst模式的算法,最后经实验验

40、证,以上这些算法是准确而有效的。8.期刊论文 张坤. 朱扬勇. Zhang Kun. Zhu Yangyong 无重复投影数据库扫描的序列模式挖掘算法 -计算机研究与发展2007,44(1序列模式挖掘在Web点击流分析、自然灾害预测、DNA和蛋白质序列模式发现等领域有着广泛应用.基于频繁模式增长的PrefixSpan是目前性能最好的序列模式挖掘算法之一.然而在密数据集和长序列模式挖掘过程中会出现大量的重复投影数据库,使得这类算法性能下降.算法SPMDS通过对投影数据库的伪投影做单项杂凑函数,如MD5等,检查是否存在重复的投影数据库,避免大量重复数据库的扫描,并采用一些必要条件简化投影数据库的搜

41、索,进而提高算9.学位论文 马猛 关联挖掘的若干研究 2005关联挖掘作为数据挖掘的一个重要研究分支,其主要研究目的就是从大型数据集中发现隐藏的、有趣的、属性间的规律,即关联规则。随着数据库规模的不断扩大,在密集数据库中进行关联挖掘也遇到了很大的挑战。传统的关联挖掘算法大多是基于Apriori算法,该类算法在挖掘密集数据库时遇到了很大的困难。Apriori算法是一个逐层迭代和候选产生-检测算法。算法扫描数据库次数与最大频繁项集的长度相等,随着数据库规模增大,最大频繁项集长度增加,算法扫描数据库耗时将大大增加;大量候选项集的产生将占用大量CPU计算时间。此外,大量中间结果的产生,也使内存瓶颈问题非常突出。为了解决密集数据库上关联挖掘困难的问题,本文在第三章介绍了一个新颖的数据记录存储格式-异集。异集数据库较传统数据库而言,一方面大大缩减了密集数据库的规模,另一方面,基于异集数据库挖掘频繁项集时,所产生的中间结果也大大缩减,极大的提高了算法的性能。基于传统算法挖掘密集数据库所得到的关联规

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论