




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘在电子商务中应用问题研究张冬青(黑龙江大学信息管理学院,哈尔滨150080)统计方法常见的如抽样技术,面对海量的需要处理的数据,对所有的数据进行分析是不可能的也是没有必要的,这就要在理论的指导下进行合理的抽样。然后进行例如多元统计分析,因子分析,聚类分析,回归分析,时间序列分析等。2.2可视化技术用图表等方式把数据特征直观地表述出来,如直方图等,这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。2.3决策树利用一系列规则划分,建立树状图,可用于分类和预测。常用的算法有CART、CHAID、ID3、C4.5、C5.0等。2.4神经网络模拟人的神经元功能,经过输入层、隐藏层、输出层等,对数据进行调整、计算,最后得到结果,用于分类和回归。2.5遗传算法基于自然进化理论,模拟基因联合、突变、选择等过程的一种优化技术。2.6关联规则挖掘算法关联规则是描述数据之间存在关系的规则,形式为“A1A2 AnB1B2 Bn”。一般分为两个步骤:第一步,求出大数据项集。第二步,用大数据项集产生关联规则。除了上述的常用方法外,还有粗集方法,模糊集合方法,Bayesian Belief Netords,最邻近算法(k-nearest neigh-bors method(kNN)等。3国内外数据挖掘技术的发展概况随着KDD在学术界和工业界的影响越来越大,国际KDD组委会于1995年把专题讨论会更名为国际会议,在加拿大蒙特利尔市召开了第一届KDD国际学术会议,以后每年召开一次。近年来,KDD在研究和应用方面发展迅速,尤其是在商业和银行领域的应用比研究的发展速度还要快。目前,国外数据挖掘的发展趋势及研究方向主要有:3.1对知识发现方法的研究进一步发展,如近年来注重对Bayes(贝叶斯)方法以及Boosting方法的研究和提高。3.2传统的统计学回归法在KDD中的应用。3.3KDD与数据库的紧密结合。3.4在应用方面包括:KDD商业软件工具不断产生和完善,注重建立解决问题的整体系统,而不是孤立的过程。用户主要集中在大型银行、保险公司、电信公司和销售业。国外很多计算机公司非常重视数据挖掘的开发应用,IBM和微软都成立了相应的研究中心进行这方面的工作,此外,一些公司的相关软件也开始在国内销售,如Platinum、BO以及IBM。国内从事数据挖掘研究的人员主要在大学,也有部分在研究所或公司。所涉及的研究领域很多,一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。目前进行的大多数研究项目是由政府资助进行的,如国家自然科学基金、863计划、“九五”计划等,但还没有关于国内数据挖掘产品的报道。最近的Gartner报告中列举了在今后35年内对工业将产生重要影响的五项关键技术,其中KDD和人工智能排名第一。表明数据挖掘的研究和应用受到了学术界和实业界越来越多的重视。4数据挖掘在电子商务中的应用实例电子商务活动中数据挖掘研究的对象是客户。它能发现客户的共性和个性的知识、必然和偶然的知识、独立的和关联的知识、现实和预测的知识等。所有这些知识都可以在不同的概念层次上被发现,能从微观到宏观进行分析,能对客户的消费行为如客户消费的心理、能力、动机、需求、潜能等做出比较客观的统计和正确的分析,为电子商务的管理者提供决策依据,以更好地满足客户的需要。4.1分类与预测方法在电子商务中的应用在电子商务活动中分类是一项非常重要的任务,也是应用最多的技术。分类的目的是构造一个分类函数或分类模型通常称作分类器,分类器的构造方法通常有统计方法、机器学习方法、神经网络方法等。这些方法能把数据库中的数据项映射到给定类别中的某一个。以便用于预测。也就是利用历史数据记录自动推导出对给定数据的推广描述,从而能对未来数据进行预测。4.2聚类分析方法在电子商务中的应用聚类是把一组个体按照相似性原则归成若干类别。对电子商务来说,客户聚类可以对市场细分理论提供有力的支持。传统的市场细分理论在制定市场策略时仍然十分重要。市场细分是通过不同的消费者群体来对市场进行细分。它的目的是使得属于同一类别的个体之间的距离尽可能小,而不同类别上的个体间的距离尽可能大,通过对聚类的客户特征的提取,电子商务网站可以为客户提供个性化的服务。聚类方法包括统计方法、机器学习方法、神经网络方法等方法。在统计方法中,聚类称聚类分析。它主要研究基于几何距离的聚类,如欧式距离、明考斯基距离等。它包括系统聚类法、分解法、加入法等。这种聚类方法是一种基于全局比较的聚类,它需要考察所有的个体才能决定类的划分,因此它要求所有的数据必须预先给定,而不能动态增加新的数据对象。在电子商务活动中最典型的运用是:通过对已有客户的确定数据进行分析,推导出客户消费的方式、内容、水平等,为电子商务的管理者提供决策依据。在机器学习中,聚类称作概念聚类。在机器学习中要聚类的例子没有标记,需要由聚类学习算法来自动确定。在这里的距离不再是统计方法中的几何距离,而是根据概念的描述来确定的。聚类对象可以动态增加,概念聚类又促使了概念形成。这种方法在电子商务中的典型运用是:通过对动态客户无规律消费行为的分析,推导出有规律的消费客户、消费行为、消费方式等。以找到潜在的消费群体。神经网络方法是指:神经网络通过学习待分析的数据模式来构造模型,一般可对隐类型进行分类,用于非线性的、复杂的数据。如自组织特征映射网络、竞争学习网络等。这是一种处于前沿的数据挖掘方式,在电子商务活动22现代情报2005年9月第9期September.2005No.9理论探索20050329作者简介:张冬青(1965),女,毕业于黑龙江大学,黑龙江大学信息管理学院副教授,主要研究方向为电子商务应用及网站建设。数据挖掘在电子商务中应用问题研究张冬青(黑龙江大学信息管理学院,哈尔滨150080)摘要 随着商业信息和商业数据的急剧增加,如何有效地分析和利用这些信息,找出其中的内在联系,为经营活动服务成为电子商务经营者共同关注的问题。本文论述了数据挖掘的由来、数据挖掘的基本功能、国内外数据挖掘技术的发展概况以及数据挖掘在电子商务中的应用等问题。关键词 数据挖掘;电子商务AbstractWith the rapid increase of business information and business data,how to analyze and use effec-tively the information,find the inner contacts and serve forbusiness activities have been a commonly concerned problemfor E-business manager.This paper discusses the origin of data mining,the basic functions of data mining,the de-velopment of data mining technology in Chinese and overseas and data mining application in E-business and so on.Key wordsdata mining,E-business中图分类号F724.6文献标识码A文章编号1008-0821(2005)09-0021-031数据挖掘产生的原因人们在日常生活中经常会遇到这样的情况,商场的经营者希望将经常被同时购买的商品放在一起,以增加销售;银行想知道申请了购房贷款的客户一般具有哪些特征;保险公司的精算师希望从已有的成千上万份病历中找出患某种疾病的病人的共同特征,从而设计出最合理的理赔条款。对于这些问题,传统的数据分析工具无法满足人们的需求。因为对于基于传统的数据库系统的信息管理系统无论是查询、统计还是报表,其处理方式都是对指定的数据进行简单的数字处理,而不能对这些数据所包含的深层的内在的信息进行提取。随着信息量的增加和信息管理系统的广泛应用,人们希望能够提供更高层次的数据分析功能,从而更好地对决策工作提供支持。正是为了满足这种需求,数据挖掘(Data Mining)技术得到了长足的发展。所谓数据挖掘我们可以理解为从大量数据中提取出隐藏在其中的有用信息,将机器学习应用于大型数据库的一种综合的信息处理技术。数据挖掘,也称为数据库中的知识发现(KnowledgeDiscover Database,KDD),是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。KDD一词是在1989年8月举行的第11届国际联合人工智能学术会议上提出的。数据挖掘是一种综合了各个学科技术的信息处理方法,具有多种功能,其主要功能如下:1.1分类按照被分析对象的属性、特征,建立不同的组类来描述事物。例如:将网上的每一篇文章按关键字分为不同的类别。1.2聚类识别出被分析对象的内在规则,按照这些规则把对象分成若干类。例如:对“顾客最喜欢什么样的促销方式”这样的问题,按照顾客的购买习惯进行聚类,将购物习惯相近的顾客分在一起,不同的类别表明不同的购买习惯,然后分别调查了解每一类顾客最喜欢的促销方式。1.3关联规则关联是某种事物发生时其他事物会发生的一种联系。例如:每天购买牛奶的人也有可能购买面包,其中买牛奶的人有多少一定要买面包,比重有多大,这可以通过关联的支持度和可信度来描述。与关联不同,序列是一种纵向的联系。1.4预测有效的预测需要建立预测模型。预测目的是把握分析对象发展的规律,对未来的趋势做出预见。例如:对电子商务行业未来发展做的判断。1.5偏差的检测对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。需要注意的是:数据挖掘的各项功能不是独立存在的,在数据挖掘中互相联系,发挥作用。2数据挖掘的方法及工具数据挖掘是一门处理数据的新兴技术,它有许多明显的特征。首先,数据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。其次,数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,维数大。最后,数据挖掘是许多学科的交叉,运用了统计学,计算机,数学等学科的技术。常见和应用最广泛的算法和模型一般有下面几212005年9月第9期September.2005No.9现代情报理论探索中具有远大的前景。4.3数据抽取方法在电子商务中的应用与传统商务活动相比,电子商务具有更多的虚拟和不确定的因素:如客户购买的心理、动机、能力、欲望等。数据挖掘要解决的任务就是如何从零散的无规则的数据中找到有用的和有规则的数据。基本方法之一是进行数据抽取,数据抽取的目的是对数据进行浓缩,给出它的紧凑描述。如求和值、平均值、方差值等统计值,或者用直方图、饼状图等图形方式表示。更主要是它从数据泛化的角度来讨论数据总结。数据泛化是一种把最原始、基本的信息数据从低层次抽象到高层次上的过程。可采用多维数据分析方法和面向属性的归纳方法。在电子商务活动中,采用多维数据分析方法进行数据抽取,它针对的是电子商务活动中的客户数据仓库。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作,这类操作的计算量特别大。可把汇集操作结果预先计算并存储起来,以便于决策支持系统使用。4.4关联规则在电子商务中的应用一则典型的关联规则的形式是,“在购买面包和黄油的顾客中,有90%的人同时也买了牛奶” (面包+黄油牛奶)。用于关联规则发现的主要对象是事务型数据库,一个事务一般由事务处理时间、顾客购买的物品、顾客标识号组成。其中针对的应用则是售货数据。由于条形码技术的发展和Web技术的逐步成熟,管理部门可以收集存储大量的售货数据和客户资料。对这些历史事务数据进行分析并发现关联规则,则可对网上顾客的购买行为提供极有价值的信息。可以帮助管理者规划市场,确定商品的种类、价格、质量等。通常关联规则有两种:有意义的关联规则和泛化关联规则。有意义的关联规则,是指满足最小支持度和最小可信度的规则。最小支持度,它表示了一组对象在统计意义上的需满足的最低程度,如电子商务活动中的客户数量、客户消费能力、消费方式等。后者即用户规定的关联规则必须满足的最小可信度,它反应了关联规则的最低可靠度。第二是泛化关联规则。这种规则更实用。因为研究对象间存在一种层次关系,如面包、蛋糕属于西点类,而西点又属于食品类。有了层次关系后,可以帮助发现更多的有意义的规则。5结束语电子商务是现代信息技术发展的必然结果,也是未来商业运作模式的必然选择。在全球经济一体化的形势下,应该加强网络基础设施建设,积极推动企业的电子商务化进程,健全电子商务的安全立法和完善物流配送体系建设,为电子商务的发展营造一个良好的环境。同时,加强多媒体数据挖掘、文本数据挖掘和网络数据挖掘等研究,解决数据质量、数据安全与保密,以及数据挖掘与其他商业软件的集成等问题。利用数据仓库和数据挖掘等现代信息技术,充分发挥企业的独特优势,促进管理创新和技术创新,使企业在电子商务的潮流中立于不败之地。参考文献1赵平.市场营销原理M.北京:清华大学出版社,2002.2 (美)迈克尔JA贝里,中国人民大学袁伟等翻译.数据挖掘M.北京:中国财政经济出版,2004.3(加)Jiawei HanMicheline Kamber,范明孟小峰等译.数据挖掘概念与技术M.北京:机械工业出版社,2001.(上接第20页)4.2.5人才管理上一定要创新社会在发展,时代在进步,不创新就会失去力量之源,故应不断营造创新氛围,建立创新机制。4.2.6真正实施人本管理人才管理的任务是通过引进、培养、开发等各种手段使企业和组织满足对人才的需求,并且力求做到人事相宜。4.3选择合适的人才竞争策略企业要在竞争中立于不败之地,有行家提出“用好三面镜子:望远镜、显微镜和放大镜”(注:雨森:企业应用好三面镜子,载中国企业报2000年2月23日),我觉得,把它用于企业人才竞争也是有道理,用望远镜看全世界人才变化情况,做到高瞻远瞩,心中有数;用显微镜挑自己在人才使用上的毛病,发现本企业在使用人才
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 前列腺炎的护理与保健
- 复古端午节总结汇报
- 四川省望子成龙学校2026届九年级英语第一学期期末调研试题含解析
- 山东省滨州惠民县联考2026届化学九年级第一学期期中经典模拟试题含解析
- 2026届内蒙古包头市第三十五中学九上化学期中考试模拟试题含解析
- 2025年高中美术教师资格考试面试试题与参考答案
- 2025年导游资格岗位从业基础知识考试题库与答案
- 2025年急救方面面试题目及答案
- 2026届贵州省7月普通高中学化学九上期中调研模拟试题含解析
- 2026届吉林省长春市德惠市大区化学九上期中经典模拟试题含解析
- 粮食培训考试题及答案
- 工程整改方案及措施(3篇)
- 2025标准合同范本:餐饮业劳动合同书
- 政府法律顾问聘用合同
- 2024中国华电集团有限公司湖南分公司本部面向系统内公开招聘5人笔试参考题库附带答案详解
- 义务教育阶段学生艺术素质测评指标体系小学音乐
- 茶叶生产加工常用表格
- 妊娠合并HIV(医学PPT课件)
- Minitab(高级)
- 工学结合的课程开发与教学设计
- 体育科学体系与体育原理优秀课件
评论
0/150
提交评论