用户行为分析中数据挖掘技术的研究.doc_第1页
用户行为分析中数据挖掘技术的研究.doc_第2页
用户行为分析中数据挖掘技术的研究.doc_第3页
用户行为分析中数据挖掘技术的研究.doc_第4页
用户行为分析中数据挖掘技术的研究.doc_第5页
免费预览已结束,剩余39页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

用户行为分析中数据挖掘技术的研究 上海交通大学硕士学位论文用户行为分析中数据挖掘技术的研究姓名:展霄嵘申请学位级别:硕士专业:计算机应用指导教师:黄上腾20020201上海交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密面,在?兰年解密后适用本授权书。本学位论文属于不保密口。请在以上方框内打“”指导教师签名:莲帅垒学位论文作者妣聪山聚日期:脚月“日日期:一年月日上海交通大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:碥景日期:卵乙年月扔日上海交通大学硕士学位论文用户行为分析中数据挖掘技术的研究用户行为分析中数据挖掘技术的研究摘要本课题以一个实际项目?邮政综合网维护信息发布系统为背景,进行了数据挖掘技术在用户行为分析中的应用的研究,特别对于在应用上的网站用户行为分析,即使用记录挖掘进行了重点深入的探索。对于使用记录挖掘时的三个阶段,数据预处理、用户模式发现和模式的应用都进行了不同程度的研究,并提出了些新的方法和思维方式。使用记录挖掘通过挖掘日志记录,来发现用户访问页面的模式,通过分析和探究日志记录中的规律,可以识别网站的潜在客户,提高对最终用户的信息服务质量,并改进服务器系统的性能。服务器通常保存了对页面的每一次访问的日志项,它包括了所请求的、发出请求的地址、和时间戳,这些日志记录文件提供了有关动态的丰富信息。但是,由于客户端的临时文件等原因,这些记录文件通常是不完整的,无法将其直接应用于常规的数据挖掘算法。本文提出了一种数据预处理的方法,将这些日志文件进行用户和事务的识别,并能较为有效的将其补充为完整的用户事务文件。在用户访问模式发现阶段,常规的数据挖掘算法能够对用户数据进上海交通大学硕士学位论文用户行为分析中数据挖掘技术的研究行分析,将用户进行归类,并发现其访问的规律。但是,直接使用这些算法无法把所发现的用户访问模式集成到动态链接技术中,并存在响应速度低等问题。本文提出了两种使用记录挖掘的方法,用于发现用户访问模式。一种是采用事务聚类的模式发现方法,即先对用户事务进行聚类,然后再从各个聚类中提取用户访问模式:另一种是采用关联规则超图的模式发现方法,从事务记录中的关联规则出发,用超图分割的方法形成用户访问模式。这两种方法具有不同的挖掘目的,但是采用规范统一的结果表示形式。这样获得的用户访问模式可以直接应用于我们所提出的链接推荐引擎中,即针对当前访问网站的用户.动态寻找与他最接近的访问模式,产生一个可推荐的对象集合,包括页面、广告、产品等,这样就会让用户更有效地访问,从而也就提高了“回访率”。我们将这两种方法应用邮政综合网维护信息发布系统中,并根据实验结果讨论了这两种挖掘方法的不同特点和适用范围。关键词数据挖掘,客户关系管理,使用记录挖掘,用户访问模式,链接推荐引擎上海交丑大学硕士学位论文用户行为分析中数据挖掘技术的研究声汀,., ,., ,. . ,.,用户行为分析中数据挖掘技术的研究上海交通大学硕士学位论文, . . ,.,. , ., .岫 ,.,上海交通大学硕士学位论文用户行为分析中数据挖掘技术的研究第一章引言随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要信息,而这些重要信息可以很好地支持人们的决策,最重要的是关于这些数据的整体特征的描述及对其发展趋势的预测,这些信息在决策生成的过程中具有重要的参考价值。数据挖掘是利用机器学习的方法从数据库中提取有价值知识的过程,着重于对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,最终目的是利用已有的数据对未来的活动进行预测。客户关系管理源于“以客户为中心”的新型商业模式,是一种旨在改善企业与客户之间关系的新型管理机制。通过向企业的销售、市场和服务等部门和人员提供全面,个性化的客户资料,并强化跟踪服务,信息分析能力,使他们能够协同建立和维护一系列与客户以及生意伙伴之间卓有成效的“一对一关系”,从而使企业得以提供更快捷和周到的优质服务,提高客户满意度,吸引和保持更多的客户,从而增加营业额,并通过信息共享和优化商业流程有效地降低企业经营成本。本文以一个实际项目?邮政综合网维护信息发布系统为背景,通过对使用记录挖掘的研究,把数据挖掘技术应用于网站用户行为分析,得出具有共同特点的用户访问模式,并将其应用于链接推荐引擎,达到自动生成链接的目的。本文第二章介绍了数据挖掘技术的发展状况和一些基本概念,并给出了它在客户关系管理,特别是用户行为分析中的应用。第三章主要探讨了其中的一个具体应用?曲使用记录挖掘技术,包括它的常用技术和挖掘的般过程等,并对动态链接技术进行了介绍。第四章对关联规则发现、分类和预测、聚类分析、序列模式发现等应用于使用记录挖掘中的技术进行了概要的介绍。第五章详细阐述了我们所提出的应用于链接推荐引擎的用户访问模式发现方法。在数据预处理阶段,我们提出了一种较为简便和实用的事务识别和路径补充的方法,并提出用户事务泛化的概念。然后我们提出了两种用户访问模式发现的方法,解决了一般聚类分析算法无法生成可以直接使用的用户访问模式的问题,并且把所生成的用户访问模式用一种规范统一的形式表示,将其应用于链接推荐引擎,动态实时的向网站当前用户推荐他可能感兴趣的页面对象。紧接着我们在第六章中以实际项目背景作为实验数据,对这两种模式发现方法进行了评估,并指出了他们的不同特点和适用范围。第七章对本文的工作进行了回顾、总结和展望。上海交通大学硕士学位论文用户行为分析中数据挖掘技术的研究第二章数据挖掘与客户关系管理.数据挖掘技术的发展随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。无论是商业企业、科研机构或者政府部门,在过去若干年的时间里都积累了海量的、以不同形式存储的数据资料。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。近年来,数据挖掘引起了信息产业界的极大关注,数据挖掘获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。数据挖掘是信息技术自然演化的结果。演化过程的见证是数据库业界开发以下功能:数据收集和数据库创建,数据管理包括数据存储和检索,数据库事务处理,以及数据分析与理解涉及数据仓库和数据挖掘。例如,数据收集和数据库创建机制的早期开发已成为稍后数据存储和检索、查询和事务处理有效机制开发的必备基础。随着提供查询和事务处理的大量数据库系统广泛付诸实践,数据分析和理解自然成为下一个目标。【】自世纪年代以来,数据库和信息技术已经系统地从原始的文件处理演化到复杂的、功能强大的数据库系统。自年代以来,数据库系统的研究和开发已经从层次和网状数据库系统发展到开发关系数据库系统、数据建模工具、索引和数据组织技术。此外,用户通过查询语言、用户界面、优化的查询处理和事务管理,可以方便、灵活地访问数据。联机事务处理将查询看作只读事务,对于关系技术的发展和广泛地将关系技术作为大量数据的有效存储、检索和管理的主要工具作出了重要贡献。自年代中期以来,数据库技术的特点是广泛接受关系技术,研究和开发新的、功能强大的数据库系统。这些使用了先进的数据模型,如扩充关系模型、面向对象模型、对象.关系模型和演绎模型。包括空间的、时闻的、多媒体的、主动的和科学的数据库、知识库、办公信息库在内的面向应用的数据库系统百花齐放。涉及分布性、多样性和数据共享问题被广泛研究。异神数据库和基于的全球信息系统,如上海交通大学硕士学位论文用户行为分析中数据挖掘技术的研究、也已出现,并成为信息产业的生力军。在过去的年中,计算机硬件稳定的、令人吃惊的进步导致了功能强大的计算机、数据收集设备和存储介质的大量供应。这些技术大大推动了数据库和信息产业的发展,使得大量数据库和信息存储用于事务管理、信息检索和数据分析。现在,数据可以存放在不同类型的数据库中。最近出现的一种数据库结构是数据仓库。这是一种多个异种数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库技术包括数据清理、数据集成和联机分析处理。是一种分析技术,具有汇总、合并和聚集功能,以及扶不同的角度观察信息的能力。尽管工具支持多维分析和决策,对于深层次的分析,如数据分类、聚类和数据随时间变化的特征,仍然需要其他分析工具。数据的丰富带来了对强有力的数据分析工具的需求,大量的数据被描述为“数据丰富,但信息贫乏”。快速增长的海量数据收集、存放在大型和大量数据库中,没有强有力的工具,理解它们已经远远超出了人的能力。结果,收集在大型数据库中的数据变成了“数据坟墓”?难得再访问的数据档案。这样,重要的决定常常不是基于数据库中信息丰富的数据,而是基于决策者的直觉,因为决策者缺乏从海量数据中提取有价值知识的工具。此外,考虑当前的专家系统技术,通常,这种系统依赖用户或领域专家人工地将知识输入知识库。不幸的是,这一过程常常有偏差和错误,并且耗时、费用高。数据挖掘工具进行数据分析,可以发现重要的数据模式,对商务决策、知识库、科学和医学研究作出了巨大贡献。数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识“金块”。计算机技术的另一领域?一人工智能自年诞生之后取得了重大进展。经历了博弈时期、自然语言理解、知识工程等阶段,目前的研究热点是机器学习。机器学习是用计算机模拟人类学习的科学,比较成熟的算法有神经网络、遗传算法等。用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据,指的是背后的知识,这两者的结合促成了数据挖掘技术。数据挖掘从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息。实际上,数据挖掘技术是交叉性学科,涉及到机器学习、模式识鄹、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等多个领域。从数据库中发现出来的知识可以用在信息管理、过程控制、科学研究、决策支持等许多方面。数据挖掘方法的提出,让人们有能力最终认识数据的真正价值,即蕴藏在数据中的信息和知识。数据挖掘是目前国际上数据库和信息决策领域的最前沿研究方向之一,引起了学术界和工业界的广泛关注。一些国际上高级别的工业研究实验室,例如,都在这个领域开展了各和,众多的学术单位,例如上海交通大学硕士学位论文用户行为分析中数据挖掘技术的研究种各样的研究计划。研究的主要耳标是发展有关的方法论、理论和工具,以支持从大量数据中提取有用的和让人感兴趣的知识和模式。.数据挖掘技术的基本概念和一般过程对于数据挖掘,一种比较公认的定义是,?等人提出的,州:数据挖掘,就是从大型数据库的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的潜在有用信息,提取的知识表示为概念、规则、规律、模式等形式。这种定义把数据挖掘的对象定义为数据库。丽更广义的说法是:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。数据挖掘的对象不仅是数据库,也可以是文件系统,或其它任何组织在一起的数据集合,例如信息资源。从数据挖掘的定义可以看出,作为一个学术领域,数据挖掘和数据库知识发现具有很大的重合度,大部分学者认为数据挖掘和知识发现是等价的概念,人工智能领域习惯称,而数据库领域习惯称数据挖掘。数据挖掘更着眼于设计高效的算法以达到从巨量数据中发现知识的目的。数据挖掘充分利用了机器学习、人工智能、模糊逻辑、人工神经网络、分形几何的理论和方法。基于这种观点,典型的数据挖掘系统具有以下主要成分如图所示:【.数据库、数据仓库或其他信息库:这是一个或一组数据库、数据仓库、电子表格或其他类型的信息库。可以在数据上进行数据清理和集成。.数据库或数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据。.知识库:这是领域知识,用于指导搜索,或评估结果模式的兴趣度。这种知识可能包括概念分层,用于将属性或属性值组织成不同的抽象层。用户确信方面的知识也可以包含在内。可以使用这种知识,根据非期望性评估模式的兴趣度。领域知识的其他例子有兴趣度限制或阈值和元数据例如,描述来自多个异种数据源的数据。.数据挖掘引擎:这是数据挖掘系统基本的部分,由一组功能模块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。.模式评估模块:通常,此成分使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚焦在有趣的模式上。它可能使用兴趣度阈值过滤发现的模式模式评估模块也可以与挖掘模块集成在一起,这依赖于所用的数据挖掘方法的实现。对于有效的数据挖掘,建议尽可能深地将模式评估推进到挖掘过程之上海交通大学硕士学位论文用户行为分析中数据挖掘技术的研究中,以便将搜索限制在有兴趣的模式上。图形用户界面:本模块在用户和数据挖掘系统之间通信,允许用户与系统交互,指定数据挖掘查询或任务,提供信息、帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。此外,此成分还允许用户浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模式可视化。图。典型的数据挖掘系统结构从数据仓库观点,数据挖掘可以看作联机分析处理的高级阶段。然而,通过结合更高级的数据理解技术,数据挖掘比数据仓库的汇总型分析处理走得更远。尽管市场上已有许多“数据挖掘系统”,但是并非所有的都能进行真正的数据挖掘。不能处理大量数据的数据分析系统,最多称作机器学习系统、统计数据分析工具或实验系统原型。一个系统只能够进行数据或信息检索,包括在大型数据库找出聚集值或回答演绎查询,应当归类为数据库系统,或信息检索系统,或演绎数据库系统。数据挖掘涉及多学科技术的集成,包括数据库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图象与信号处理和空间数据分析。在本文中,我们采用数据库观点,即,着重强调大型数据库中有效的和可伸缩的上海交通大学硕士学位论文用户行为分析中数据挖掘技术的研究数据挖掘技术。一个算法是可伸缩的,如果给定内存和磁盘空间等可利用的系统资源,其运行时间应当随数据库大小线性增加。通过数据挖掘,可以从数据库提取有趣的知识、规律或商层信息,并可以从不同角度观察或浏览。发现的知识可以用于决策、过程控制、信息管理、查询处理,等等。因此,数据挖掘被信息产业界认为是数据库系统最重要的前沿之,是信息产业最有前途的交叉学科。数据挖掘的任务是从大量数据中发现知识。那么,什么是知识昵从工程角度定义,知识就是有助于解决问题的有格式可复用的信息。在传统的决策支持系统中,知识库中的知识和规则是由专家或程序人员建立的,是由外部输入的。而数据挖掘的任务是发现大量数据中尚未被发现的知识,是从系统内部自动获取知识的过程,特别是一些隐藏在大量数据中的关系和趋势。数据挖掘发现的知识通常是用以下形式表示:概念、规则、规律、模式、约束、可视化。这些知识可以直接提供给决策者,用以辅助决策过程;或者提供给领域专家,修正专家已有的知识体系:也可以作为新的知识转存到应用系统的知识存储机构中,比如专等。家系统、规则库数据挖掘过程一般由个主要的阶段组成:数据准备、挖掘操作、结果表达和解释。知识的发现可以描述为这个阶段的反复过程。科.数据准备数据挖掘处理的对象是大量的数据,这些数据一般存储在数据库系统中,是长期积累的结果。但往往不适合直接在这些数据上面进行知识挖掘,需要做数据准备工作,一般包括数据的选择选择相关的数据、净化消除噪音、冗余数据、推测推算缺失数据、转换离散值数据与连续值数据之间的相互转换,数据值的分组分类,数据项之间的计算组合等、数据缩减减少数据量。这个阶段又可进一步分成个子步骤:数据集成、数据选择、数据预处理。数据集成将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性、处理数据中的遗漏和清洗脏数据等。数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据挖掘的质量。数据准备是数据挖掘的第一个步骤,也是比较重要的一个步骤。预处理是为了克服目前数据挖掘工具的局限性。数据准备是否做好将影响到数据挖掘的效率和准确度以及最终模式的有效性。.挖掘操作挖掘操作是数据挖掘最关键的步骤,也是技术难点所在。研究数据挖掘的人员中大部分都在研究数据挖掘技术,采用较多的技术有决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等。挖掘操作根据数据挖掘的目标,选取相应算法的参数,分析数据,得至可能形成知识的模式模型。上海交通大学硕士学位论文用户行为分析中教据挖掘拄术舶研究结果表述和解释在挖掘过程中得到的模式模型,有可能是没有实际意义或投有实用价值的,也有可能是其不能准确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,确定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。这个步骤还包括把模式以易于理解的方式呈现给用户。根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息区分出来,并且通过决策支持工具提交给决策者。因此,这一步骤的任务不仅是把结果表达出来例如采用信息可视化方法,还要对信息进行过滤处理。如果不能令决策者满意,需要重复以上数据挖掘的过程。.客户关系管理简介客户关系管理源于“以客户为中心”的新型商业模式,是一种旨在改善企业与客户之间关系的新型管理机制。通过向企业的销售、市场和服务等部门和人员提供全面,个性化的客户资料,并强化跟踪服务,信息分析能力,使他们能够协同建立和维护一系列与客户以及生意伙伴之间卓有成效的“一对一关系”,从而使企业得以提供更快捷和周到的优质服务,提高客户满意度,吸引和保持更多的客户,从而增加营业额,并通过信息共享和优化商业流程有效地降低企业经营成本。扶年年中开始,客户关系管理得到了诸多媒体的关注,国内外很多软件商推出了以客户关系管理命名的软件系统,有一些企业开始实施以客户关系管理命名的信息系统。这是有一定必然性的。总的来说,客户关系管理的兴起与下述三个方面的因素有难以割舍的关系。一方面,很多企业在信息化方面已经傲了大量工作,收到了很好的经济效益。另一方面。一个普遍的现象是,在很多企业,销售、营销和服务部门的信息化程度越来越不能适应业务发展的需要,越来越多的企业要求提高销售、营销和服务的日常业务的自动化和科学化。这是客户关系管理应运而生的需求基础。在很多情况下,客户的保持和提高客户利润贡献度依赖于提供优质的服务,客户只需轻点鼠标或打个电话就可以转向企业的竞争者。因此,客户服务和支持对很多公司是极为重要的。在中,客户服务与支持主要是通过呼科中心和互联网实现。在满足客户的个性化要求方面,它们的速度、准确性和效率都令人满意。系统中的强有力的客户数据使得通过多种渠道如互联网、呼中心的纵横向销售变得可能,当把客户服务与支持功能同销售、营销功能比较好地结合起来时,就能为企业提供很多好机会,向已有的客户销售更多的产品。客户服务与支持的典型应用包括:客户关怀:纠纷、次货、订单跟踪;现场服务;问题及其解决方法的数据库;维修行为安排和调度;服务协议和合同;服务请求管理。上海交通大学硕士学位论文用户行为分析中数据挖掘技术的研究客户关系管理主要在应用在以下几个方面:.销售在采用解决方案时,销售力量自动化 ,在国外已经有了十几年的发展,并将在近几年在国内获得长足发展。是早期的针对客户的应用软件的出发点,但从年代初开始,其范围已经大大地扩展,以整体的视野,提供集成性的方法来管理客户关系。就像的字面意思所表明的,主要是提高专业销售人员的大部分活动的自动化程度。它包含一系列的功能,提高销售过程的自动化程度,并向销售人员提供工具,提高其工作效率。它的功能一般包括日历和日程安排、联系和客户管理、佣金管理、商业机会和传递渠道管理、销售预测、建议的产生和管理、定价、区域划分、费用报告等。举例来讲,有的产品具有销售配置模块,允许系统用户不论是客户还是销售代表根据产品部件确定最终产品,而用户不需晓得这些部件是怎么连结在一起,甚至不需要知道这些部件能否连结在一起。由于用户不需技术背景即可配置复杂的产品,因此,这种销售配置工具特别适合在网上应用,如计算机公司,允许其客户通过网络配置和定购个人电脑。自助的网络销售能力,使得客户可通过互联网选择、购买产品和服务,使得企业可直接与客户进行低成本的、以网络为基础的电子商务。.营销营销自动化模块是的最新成果,作为对的补充,它为营销提供了独特的能力,如营销活动包括以网络为基础的营销活动或传统的营销活动计划的编制和执行、计划结果的分析;清单的产生和管理;预算和预测;营销资料管理;“营销百科全书”关于产品、定价、竞争信息等的知识库;对有需求客户的跟踪、分销和管理。营销自动化模块与模块的不同在于,它们提供的功能不同,这些功能的目标也不同。营销自动化模块不局限于提高销售人员活动的自动化程度,其目标是为营销及其相关活动的设计、执行和评估提供详细的框架。在很多情况下,营销自动化和模块是补充性的。例如,成功的营销活动可能得知很好的有需求的客户,为了使得营销活动真正有效,应该及时地将销售机会提供给执行的人,如销售专业人员。在客户生命周期中,这两个应用具有不同的功能,但它们常常是互为补充的。.客户服务与支持在很多情况下,客户的保持和提高客户利润贡献度依赖于提供优质的服务,客户只需轻点鼠标或打一个电话就可以转向企业的竞争者。因此,客户服务和支持对很多公司是极为重要的。在中,客户服务与支持主要是通过呼叫中一和互联网实现。在满足客户的个性化要求方面,它们的速度、准确性和效率都令人满意。系统中的强有力的客户数据使得通过多种渠道如互联网、呼叫中心的纵横向销售变得上海交通大学硕士学位论文用户行为分析中数据挖掘技术的研究可能,当把客户服务与支持功能同销售、营销功能比较好地结合起来时,就能为企业提供很多好机会,向已有的客户销售更多的产品。客户服务与支持的典型应用包括:客户关怀:纠纷、次货、订单跟踪现场服务;问题及其解决方法的数据库:维修行为安排和调度;服务协议和合同;服务请求管理。.计算机、电话、网络的集成企业有许多同客户沟通的方法,如面对面的接触、电话、呼叫中心、电子邮件、互联网、通过合作伙伴进行的间接联系等。应用有必要为上述多渠道的客户沟通提供一致的数据和客户信息。我们知道,客户经常根据自己的偏好和沟通渠道的方便与否,掌握沟通渠道的最终选择权。例如。有的客户或潜在的客户不喜欢那些不请自来的电子邮件,但企业偶尔打来电话却不介意,因此,对这样的客户,企业应避免向其主动发送电子邮件,而应多利用电话这种方式。统一的渠道能给企业带来效率和利益,这些收益主要从内部技术框架和外部关系管理方面表现出来。就内部来讲,建立在集中的数据模型的基础上,统一的渠道方法能改进前台系统,增强多渠道的客户互动。集成和维持上述多系统间界面的费用和困难经常使得项目的开展阻力重重,而且,如果缺少一定水平的自动化,在多系统间传递数据也是有很困难的。就外部来讲,企业可从多渠道间的良好的客户互动中获益。如客户在同企业交涉时,不希望向不同的企业部门或人提供相同的重复的信息,而统一的渠道方法则从各渠道间收集数据,这样客户的问题或抱怨能更快地更有效地被解决,提高客户满意度。一个完整的模型如图所示。矗限.图讧模型上海交通大学硕士学位论文用户行为分析中数据挖掘技术的研究的功能可以归纳为三个方面:对销售、营销和客户服务三部分业务流程的信息化;与客户进行沟通所需要的手段如电话、传真、网络、等的集成和自动化处理;对上面两部分功能所积累下的信息进行的加工处理,产生客户智能,为企业的战略战术的决策作支持。一般来讲,当前的产品所具有的功能都是图的子集。归纳起来,客户关系管理的目标是三个方面:.提高效率。通过采用信息技术,可以提高业务处理流程的自动化程度,实现企业范围内的信息共享,提高企业员工的工作能力,并有效减少培训需求,使企业内部能够更高效的运转。.拓展市场。通过新的业务模式电话、网络扩大企业经营活动范围,及时把握新的市场机会,占领更多的市场份额。.保留客户。客户可以自己选择喜欢的方式,同企业进行交流,方便的获取信息得到更好的服务。客户的满意度得到提高,可帮助企业保留更多的老客户,并更好的吸引新客户。.数据挖掘技术在用户行为分析中的应用客户信息是客户关系管理的基础。数据仓库、商业智能、知识发现等技术的发展,使得收集、整理、加工和利用客户信息的质量大大提高。在这方面,我们可看一个经典的案例。一个大型的仓储式超市对顾客的购买清单信息的分析表明,啤酒和尿布经常同时出现在顾客的购买清单上。原来,很多男士在为自己购买啤酒的时候,还要为自己的孩子购买尿布。而在这个超市的货架上,这两种商品离得很远,因此。这个超市重新分布货架。使得购买啤酒的男人很容易地看到尿布。从客户关系管理的角度.数据挖掘应用包括但不局限于以下几个方面:.客户保持:出色的客户保持程序先为转移的客户建模,识别导致他们转移的模式。然后就可以用这些模式找出当前客户中相似的背叛者.以便采取预防措施。.销售和客户服务:在当今竞争激烈的环境中优秀的客户服务能产生出色的销售业绩、如果能将正确的信息数据发送到前线销售点和服务人员手中客户服务的质量就能大幅提高、只要能得到客户的信息,就可以用基于规则的软件自动向客户推荐产品,类似超市购物篮分析通过分析事务数据库来发现在购物活动中频繁出现的商品组台的程序已经在改善交叉销售比、楼层和货架安排,货物布置以及页面的目录层次等方面取得显著效果。上海交通大学硕士学位论文用户行为分析中数据挖掘技术的研究市场推销市场报销在很大程度上依赖于正确的信息。这些信息用于客户保持活动。生命周期内的分析、趋势预测和有针对性的促销活动等等。实际上,只有充分了解客户,才能正确定位促销活动,才能提高响应率,降低活动成本。客户数据的完整性和准确性决定了直接邮寄的代价。.风险评估和诈骗检查:有一个可使用的用户库可以明显减少陷入危机的风险。例如一个邮购零售商可以区分来自同一地址不同客户的付款模式,当同一个客户使用不同的名字时,可以识别潜在的诈骗行为。保险公司能够识别其和客户的完整关系而客户可能拥有多于公开的可接受标准的不同策略。银行在贷款给公司之前,可以查明这家公司是否处于财政危机中。在客户关系管理中,对用户行为进行数据挖掘的一个重要作用是保持客户特别是有价值的客户的忠诚度。一种普遍的观点认为,一家企业%的生意来自于%的客户,那么,如何发现这%的客户,并且使他们忠诚于本企业,就是客户关系管理中很重要的一个方面。数据挖掘技术在企业市场营销中的应用是以市场营销学的市场细分原理为基础,其基本假定是“消费者过去的行为是其今后消费倾向的最好说明”。通过收集、加工和处理涉及客户行为的大量信息,以数据挖掘的方法分析出特定目标客户群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应客户群体或个体下一步的消费行为,然后以此为基础,对所识别出来的客户群体进行特定内容的定向营销,这与传统的不区分客户对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。大型数据库或数据仓库的使用,使得保存大量客户的行为数据成为可能。这种客户行为数据的收集可以来自于各种渠道,以消费者的消费行为为例,每当消费者用信用卡消费时,商业企业就可以在信用卡结算过程收集商业消费信息,记录下该消费者进行消费的时间、地点、感兴趣的商品或服务、愿意接收的价格水平和支付能力等数据。基于数据挖掘的营销.常常可以向消费者发出与其以前的消费行为相关的推销材料。卡夫食品公司建立了个拥有万客户资料的数据库,数据库是通过收集对公司发出的优惠券等其他促销手段作出积极反应的客户和销售记录而建立起来的。卡夫公司通过数据挖掘了解特定客户的兴趣和口味,并以此为基础向他们发送特定产品的优惠券,并为他们推荐符合客户口味和健康状况的卡夫产品食谱。美国的读者文摘出版公司运行着一个积累了年的业务数据库,其中容纳有遍布全球的一亿多个订户的资料,数据库每天小时连续运行,保证数据不断得到实时的更新,正是基于对客户资料数据库进行数据挖掘的优势,使读者文摘出版公司能够从通俗杂志扩展到专业杂志、书刊和声像制品的出版和发行业务,极大地扩展了自己的业务。上海交通大学硕士学位论文用户行为分析中数据挖掘技术的研究第三章使用记录挖掘.使用记录挖掘的技术和应用硎 当前正在飞速的发展着,其上的一些主要工作,例如曲站点设计、服务设计、站点的导航设计、电子商务等工作正变得越来越复杂和繁重。对于网站来说,网站的访问者就是经营方的客户,但是由于访问的特殊性,导致了经营方对于他们的用户几乎一无所知。从客户关系管理的角度出发,如何分析出特定目标客户群体或个体的兴趣、访问习惯和需求,如何满足客户的个性化要求,对于网站经营者来说,是至关重要的问题。大部分网站的组织都是基于假定的大多数访问者的浏览模式。错误的假定可能使网站结构不合理,给访问者的浏览带来不便。站点经营方需要好的自动辅助设计工具,可以根据群体用户的访问兴趣、访问频度、访问时间动态的调整页面结构,改进服务,开展有针对性的电子商务以更好的满足访问这的需求。解决这种需求的一个有力工具就是使用记录挖掘,即利用数据挖掘的思想和方法,将其利用到上,进行使用记录挖掘,挖掘出有用的信息。当用户访问一个站点时,实际上他是带有某种目的来进行浏览的,也就是说他对某种东西是感兴趣的。因为不同的用户具有不同的兴趣,所以他们会按照不同的路径进行访问。访问者的浏览行为可以部分的从服务器的访问日志中获知。服务器通常保存了对曲页面的每一次访问的日志项,它包括了所请求的、发出请求的地址、和时间戳,这些日志记录文件提供了有关动态的丰富信息。大型网站的服务器上每天都要产生数百万条日志记录:而数据挖掘恰恰可以完成在大量数据中发现知识的任务。数据挖掘是识别数据中正确的、新颖的、潜在有用的且最终可被理解的模式的非平凡过程。曲使用记录挖掘通过挖掘曲日志记录,来发现用户访问页面的模式,通过分析和探究曲日志记录中的规律,可以识别网站的潜在客户,提高对最终用户的信息服务质量,并改进服务器系统的性能。各种数据挖掘技术都已经在是用记录挖掘中得到应用,例如关联规则、序列模式、聚类等。这些数据挖掘技术对从网站上收集到的用户访问数据进行挖掘,从而发现各种对网站经营者有价值的信息。.关联规则发现技术能够发现用户常常同时访问的页面,例如,对年奥运上海交通大学硕士学位论文用户行为分析中数据挖掘技术的研究会网站的使用记录分析得出了这样的结果:访问关于排球内容的用户其中有%也访问关于手球的内容:访问关于羽毛球和跳水的用户其中有.%也访问关于乒乓球的内容。【序列模式发现技术能够从用户访问页面的顺序中发现共同之处,例如对奥运会网站的使用记录分析发现:.%的用户在访问主页后接着访问亚特兰大主页:.%的用户在访问赛程安排主页后接着访问竞技体育主页。聚类技术能够根据用户所具有特点的相似性进行分类,这种技术对于线上和线下的营销策略都很有帮助。例如把某一个促销信息的广告发往对它感兴趣的那一类客户,或者在用户访问网站时实时的向他提供他感兴趣的动态链接。.挖掘的一般过程与一般的数据挖掘过程相对应,一个完整的使用记录挖掘过程包括三个阶段,数据预处理、模式发现和模式分析,如图所示。图.完整的使用记录挖掘过程讪由于使用记录挖掘的输入数据是服务器在运行中所产生的日志文件,它只是简单的记录了用户在某个时刻对于服务器上的某个文件提出访问请求,其中含有大量对于数据挖掘无用的信息,也不能够明确的表示出某一个用户访问网站的完整过程。因此,各种数据挖掘算法和系统都不能够直接应用于使用记录挖掘,必须要对原始的日志文件进行数据预处理的工作,将其转化为用户的事务文件,才能够上海交通大学硕士学位论文用户行为分析中数据挖掘技术的研究进行挖掘和知识发现。在模式发现阶段,一般包括两项工作。一是统计一些常规的统计数据,包括每一个页面的浏览量、哪些页面被浏览的次数最多、用户在每个页面上的平均停留时间等。另一项工作是应用一些数据挖掘算法,从用户的事务文件中发现关联规则和访问模式等。这些数据挖掘的结果,作为模式分析阶段的输入数据,给网站经营者作为参考,进行网站结构的分析和优化,另外也普遍的应用于动态链接生成技术。.动态链接生成技术每个用户在浏览网页的时候,有很多不同的浏览过程,现有的静态链接不可能做到让每个用户都非常满意地到达他所想要去的地方,也就是他必须经过中间链接才能到他所想去的网页。在网站竞争日夜激烈的今天,如何让每一个用户满意,保住用户和吸引更多的用户就成为网站的首要任务。静态链接并不是对每一个用户都是适用的,如果我们能够根据用户的行为模式,动态地生成一些他可能想要去的网页的超链接,就可以为每个用户独身定做他自己个性化的浏览模式。这样就会让用户更有效地访问效率,从而也就提高了“回访率”。这样,有些与用户当前浏览的网页看起来并不相关的网页就有可能被从设置成了超链接,这点在静态里是做不到的。从服务器这端来看,也就可以在日志中减少了对不必要的中间层网页访问的分析,提高了日志的质量,而且还可以为访问的用户预先取出。服务器端的动态链接技术已经在一些电子商务的网站上得到应用,这种技术能够实时的发现不同用户对商品兴趣的相似之处,将用户分类,从而向这些用户推荐他们还没有发现的商品。这种技术也有一些明显的缺点,例如可扩展性不够,当商品的数量增加到一定程度时,无法同时保证响应数度和预测准确。这主要是由于随着商品数量的增多,用户数据过于分散,实时计算的成本大大提高。另外,仅仅用“是否购买”来表示用户对一件商品的兴趣是不够的,用户的行为可以从多方面来进行分析,其中包括,用户对各内容页面的访问情况、用户购物车中商品的变化,以及用户对商品详细信息的查看等等。各种数据挖掘技术都己经在使用记录挖掘中得到应用,例如关联规则、聚类等。这些数据挖掘技术对从网站上收集到的用户访问数据进行挖掘,从而发现各种用户访问模式。但是,以前的研究成果无法把这些用户访问模式集成到动态链接技术中。?上海交通大学硕士学位论文用户行为分析中数据挖掘技术的研究第四章使用记录挖掘中的常用技术知识发现采用了多种分析方法,如预测模型发现、数据总结、分类、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等。其中,关联规则发现、分类和预测、聚类分析、序列模式发现等在使用记录挖掘中都有一定程度的应用。以下我们对这几种数据挖掘技术进行了介绍,其中对我们所提出的用户模式发现中使用的关联规则发现算法?硼嘶和聚类分析算法?划分方法进行了详细的介绍。.关联规则发现.关联规则发现方法关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。随着大量数据不停地收集和存储,许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。从大量商务事务记录有趣的关联关系,可以帮助许多商务决策的制定,如分类设计、交叉购物和促销分析。关联规则挖掘的一个典型例子是购物篮分析。该过程通过发现顾客放入其购物篮中不同商品之间的联系,分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助零售商制定营销策略。例如,在同一次去超级市场,如果顾客购买牛奶,他也购买面包和什么类型的面包的可能性有多大通过帮助零售商有选择地经销和安排货架,这种信息可以引导销售。例如,将牛奶和面包尽可能放近一些,可以进一步刺激一次去商店时购买这些商品。关联规则的分析结果可以用于市场规划、广告策划和分类设计。例如,购物篮分析可以帮助经理设计不同的商店布局。一种策略是:经常一块购买的商品可以放近一些,以便进一步刺激这些商品一起销售。例如,如果顾客购买计算机也倾向于同时购买财务管理软件,那么将硬件摆放离软件陈列近一点,可能有助于增加二者的销售。另一种策略是:将硬件和软件放在商店的两端,可能诱发买这些商品的顾客一路挑选其他商品。例如,在决定购买一台很贵的计算机之后,去看软件陈列,购买财务管理软件,路上可能看到安全系统,可能会决定也买家庭安全系统。购物篮分析也可以帮助零售商规划什么商品降价出售。如果顾客趋向于同时购买计算机和打印机,打印机降价出售可能既促使购买打印机,又促使购买计算机。上海交通大学硕士学位论文用户行为分折中数据挖掘技术的研究关联规则描述的问题是:在给定的事务数据库中,每个事务对一个数据项集,关联发现函数作用在这个事务数据库上,返回各项集间存在的密切关系。】设,?,是一组数据项集,是一组事务集称之为事务数据库。中的每个事务是一组数据项,显然满足。每个事务由的值标识。对数据项集,当且仅当,称事务支持。关联规则是如下形式的一种蕴含:,其中,且。事务集中的关联规则由置信度和支持度约束。置信度的定义为:中支持物品集的事务中有%的事务同时也支持物品集;支持度的定义为:中有妣的事务支持物品集。置信度表示蕴含式的强度,支持度表示规则发生的概率。规则的支持度和置信度是两个规则兴趣度度量,它们分别反映发现规则的有用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论