计算机科学与技术专业毕业设计-web数据挖掘技术在电子商务中的应用.doc_第1页
计算机科学与技术专业毕业设计-web数据挖掘技术在电子商务中的应用.doc_第2页
计算机科学与技术专业毕业设计-web数据挖掘技术在电子商务中的应用.doc_第3页
计算机科学与技术专业毕业设计-web数据挖掘技术在电子商务中的应用.doc_第4页
计算机科学与技术专业毕业设计-web数据挖掘技术在电子商务中的应用.doc_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

毕业论文(设计)题 目 web数据挖掘技术在电子商务中的应用 应用科技 学院 计算机科学与技术专 业 11级专升本 班 学生姓名 学 号 110603026 指导教师 薛芳 职 称 讲师 完成日期 2013年1月4日 web数据挖掘技术在电子商务中的应用应用科技学院 计算机科学与技术专业 110603026(学号) 吴金玲(姓名)指导教师 薛芳 讲师(职称)【摘 要】本文概述了web数据挖掘的分类及一般过程,探索web数据挖掘技术在电子商务中能起到的作用。重点阐述了聚类算法和路径分析算法在电子商务中的应用。Web数据挖掘一般分为web内容挖掘,web结构挖掘,web访问信息的挖掘三个类别。本文着重讨论的是面向web访问信息的挖掘。挖掘过程分为数据预处理,模式算法实施,模式分析和可视化四个步骤。Web数据挖掘能够挖掘潜在客户,延长客户访问站点的驻留时间,增加站点网页间的链接并且发现客户期望。具体聚类算法就是对web站点的数据进行分类分析,主要介绍了客户群体的聚类和页面的聚类,路径分析的具体应用是在于探索客户访问兴趣及优化访问路径。让用户访问站点更快的找到想要访问的内容,避免用户兴趣度的降低。【关键词】web数据挖掘;聚类算法;路径分析;电子商务目 录引言1第一章 web数据挖掘现状1第二章 web数据挖掘简介12.1数据挖掘和web数据挖掘12.2 web数据挖掘的分类22.2.1 web内容挖掘22.2.2 web结构挖掘22.2.3 web访问信息挖掘22.3 web数据挖掘方法22.4 web数据挖掘的数据来源及挖掘过程3第三章 web数据挖掘在电子商务中的具体应用53.1 web数据挖掘在电子商务中的应用53.1.1 客户关系管理中发掘潜在客户53.1.2 客户关系管理中延长客户驻留时间53.1.3 增加网页链接促进网站优化53.1.4 发现用户期望63.2聚类算法在web数据挖掘中的应用63.2.1 客户群体聚类63.2.2 web页面聚类83.3 路径分析法在web数据挖掘中的应用83.3.1路径分析探索客户访问兴趣93.3.2路径分析利于web站点链接设置10第四章 结束语10致谢11参考文献11引言数据收集和数据存储技术的快速发展使得各组织机构可以积累海量数据,但是提取有用的信息却成为巨大的挑战。数据量太大无法使用传统的数据分析工具和技术处理这些海量数据。所以人们开发出新的方法数据挖掘技术,它是一门将传统的数据分析方法与处理大量数据的复杂算法相结合的技术。现在的数据挖掘技术已在商务、医疗、科学和工程等领域应用发展。而随着计算机处理能力的发展和业务复杂性的提高,数据类型越来越能多,越来越复杂,人们开始关心另一个话题:非结构化的数据能否进行数据挖掘,其中就着重关注到web数据挖掘。Web上的信息主要是大量,异质的信息资源,文档结构性差,数据多为半结构化或者非结构化的。因此,在web上的数据挖掘需要用到很多不同于结构化的数据挖掘技术。本文探索的是基于聚类算法及路径分析法的web数据挖掘技术在电子商务中的应用。聚类算法利于客户群体的聚类,发掘潜在的客户;路径分析法关注客户行为路径,发现客户兴趣与期望,并对网页的链接进行优化设置。第一章 web数据挖掘现状在如今这个信息大社会里,人们获取和存储信息都十分方便。但是若在海量的数据中要发现数据之前内在的关系和隐藏着的信息这对于人们来说还是十分困难的。若是知道并且能了解数据挖掘这个技术,困难便迎刃而解,即便在处理新兴的web数据上,数据挖掘技术也有望成为一种至关重要的可行性技术。数据这门学科由这些需要新的,无法被今天技术所支持的能力的应用所驱动,面对需要分析的这些新兴复杂的web数据,数据挖掘才得以进一步适应发展。Web上的数据跟数据库的数据信息不同,数据多半是半结构化或者是非结构化。Web上的信息不能清楚地用数据模型表示,基于数据挖掘的复杂性,现今我们只把重点放在web访问信息的数据挖掘上。Web数据挖掘的目的就是通过分析web网站,从而优化web网站,更好的服务客户从而最大程度地获利。一般网站进行web数据挖掘,改进客户对网站的体验和与网站的交互,数据挖掘至少有助于完成3个任务:网站的设计是否符合用户期望,有没有为用户提供个性化服务,用户需求有没有得到更好地满足。Web数据挖掘解决人们想要从缤纷复杂的web空间、浩如烟海的网络中发掘所需信息的问题。随着网络技术的飞速发展,电子商务系统在社会生活总得到了越来越广泛的应用,大大改变了企业的经营方式,规范了企业内部流程和交易手续,减少了交易中间环节,更多的降低了企业的经营成本;拉近了企业和客户的关系,电子商务这种交易形势前景十分广阔。而随着快速发展,电子商务及基于各种互联网的商业web网站的竞争也越来越激烈。在这个称之为信息爆炸的时代,如何发掘有用知识,提高数据的利用效率十分重要。Web数据挖掘正是解决这个问题的一个有效手段。运用web数据挖掘技术对电子商务网站上的各种数据源进行挖掘发现潜在的客户,提供优质个性化服务,提高客户忠诚度,改进网站设计等相关应用,可以提高企业和网站的竞争力,为客户提供更优质的服务。第二章 web数据挖掘简介2.1数据挖掘和web数据挖掘数据挖掘一词来源与1995年在加拿大召开的第一届知识发现和数据挖掘(Data Mining)国际学术会议上。将数据库中的“数据”形象地比作矿床,“数据挖掘”由此而来。所谓的数据挖掘就是在大量的,不完全的,有噪音的,模糊的,随机的实际数据中,通过提取、研究发现知识的各种技术和方法,是一种决策支持过程,是基于人工智能,机器学习和统计学技术的一种技术,它是知识发现中的核心部分。通过原始数据的高度自动化分析处理后得到数据间的关系模式,反映了数据的内在特性,是对信息的更高层次的抽象过程。整个过程由计算机完成,甚少需要人工干预,不仅大大提高了分析处理数据的效率,而且提高了分析数据处理的深度,越来越受人们的重视。Web挖掘就是要从web丰富的数据中发现潜在的,对网站有用的,和从前不了解的信息和知识的完整过程,是知识发现对web数据的扩展。依据web数据挖掘的站点信息来源,可以分为web内容挖掘,web访问信息挖掘,web结构挖掘。2.2 web数据挖掘的分类Internet中的数据挖掘总的来说有三个目标:精确度,表示的是返回数据是否符合用户的需求;覆盖率,表示能返回多少符合用户需求的数据内容;效率,表示反映的速度。依据web数据挖掘的站点信息来源分为基于内容的挖掘和基于用户使用记录的挖掘等3种,如图:Web数据挖掘Web内容挖掘搜索结果挖掘Web结构挖掘Web访问信息挖掘Web页面内容挖掘用户使用记录跟踪登陆模式跟踪 图2-12.2.1 web内容挖掘Web内容挖掘就是对web界面内容进行挖掘。界面内容包括:文本,图像,音频,多媒体,视频和其他类型的数据。www上的信息搜索,常常返回的信息很多无用或者无关的,因此就需要要求所检索的界面具有高质量,即具有权威性的。2.2.2 web结构挖掘Web结构挖掘是对web页面间的连接关系中推导知识,利用这种连接间的关联关系,不仅可以对web界面进行分类,而且可以找出权威页面,改变搜索引擎,提高网页点击率。对页面进行排序,发现重要页面。例如,分析页面重要性可知,如果一个页面被多次引用,则这个也没可能很重要,一个页面虽然未被多次引用,但是被一个重要页面引用,则该页面也可能很重要。2.2.3 web访问信息挖掘Web访问信息挖掘是对用户使用的web获取信息的过程的挖掘。在这个过程中通常都是由结构比较好的记录集提供资源信息即web访问log日志。有包括Server logs,Error logs和客户端的cookie logs等。不同的web站点和web访问日志可以帮助挖掘过程中研究的用户的行为和web的结构。从而更好的改善web站点。Web访问信息挖掘中我们重点讨论的是web日志挖掘的过程,具体来说就是要从web日志文件中抽取现今还未知的,有潜在价值的隐藏信息如:识别电子商务的潜在客户,增强对最终用户的因特网信息服务的质量,改进web服务器系统的性能,甚至是建立针对个体用户的定制web服务。它是一门综合技术,目前流行的挖掘技术包括:路径分析,关联规则和有序模式的发现,聚类和分类等。本文重点讨论的就是聚类算法与路径分析在挖掘web访问信息这方面的应用。2.3 web数据挖掘方法在web的数据挖掘中我们针对web的日志数据进行挖掘,预处理的日志数据经过数据转换存入数据库中,在数据库中数据挖掘技术一般也能应用到web日志数据的挖掘中。Web数据挖掘常用的技术有:1、关联规则关联规则是最常见的从数据库中发现知识,若有2个或者多个数据项的取值之间重复出现且概率很高,则会存在某种关联,可以建立这些数据项的关联规则。关联规则查找的是事务之间的联系。客户访问某个网站一般都是通过探索兴趣词条来找到相关兴趣网页并通过连接访问。这种关联产生的数据如果按照某种策略进行挖掘分类,可以统计出客户访问这些页面的比率,达到很好的组织站点,实施有效市场策略的目的。在web数据挖掘的情况下,关联规则是发现某个用户生成的服务器文件中不同引用之间的关系。在大型的web事务数据库中,关联规则能为站点重构和定位潜在客户行为提供有价值的输入。2、序列规则序列分析用来发现离散序列中的模式,序列和关联数据有点相似,都包含一个项集成一组状态。但主要区别是:序列模型分析状态的转移,关联模型分析相同项集成关联项集。序列分析常用语web点击分析,web日志分析中。3、路径分析路径分析技术是利用连接记录文件项来决定每个访问者的路径,并将路径按时间顺序排序。在web站点的合理布局时,图标常用来表现web站点页面浏览路径,图的节点表示web界面,有向边表示页面的超链接,各种图都是建立在页面与页面间联系或者是一定数量的用户浏览界面顺序的基础上。4、聚类聚类是在一些分组不明显的数据中寻找自然分组中有能力对数据进行分组的隐含变量,是一种很流行的数据挖掘技术。具体描述为:将数据对象分为多个类或者簇的过程,原则是在同一个簇中的对象间具有较高的相似度,而不同簇中的对象要差别大点,聚类要划分的类是事先不知道的不了解的,类的形成完全是数据驱动的,属于一种无指导的学习方法。现阶段的聚类算法又2种不同的分配算法:K-Means算法和期望最大化(EM)算法。K-means算法以计算距离的平均值对聚类成员分配;EM算法是使用概率进行度量,度量某个对象的概率来判定该对象属于哪个聚类中。两个算法的一个区别在于:EM算法可以用于离散属性聚类。聚类是一种强大的工具,用途很广,一种重要的人类行为。聚类算法具有可收缩性,处理不同类型的属性能力,能够发现任意形状的能力,处理高维数据等特点。目前用于web日志挖掘的聚类算法很多,用户对web站点的访问有某种有序的关系,这种有序关系反映的是用户的访问兴趣,也就是说先访问的节点具有高兴趣度。访问兴趣和访问序列有很强的相关性。5、分类在数据挖掘中应用最多的任务就是分类,分类就是基于一个可预测属性把事例分成多个级别。Web挖掘中,分类技术根据用户的注册信息或者共同访问模式进行分类,得出访问某一个服务器文件的用户特征。这个功能一般通过决策树和贝叶斯分类法实现的。2.4 web数据挖掘的数据来源及挖掘过程对web数据挖掘的研究数据主要来源为web的访问日志,包括:server log ,proxy server和客户端的cookie log,其主要分析server log。Web服务器的日志文件记录和积累了所访问的页面,时间和用户ID,还包括描述用户浏览网页和沿着网页链接所产生的点击流序列信息等。用户每一次访问页面,web服务器就会增加一条日志记录。主要记录的就是什么人在什么时候浏览了什么内容,网站的流量和访问者的信息等。不同的web服务器会产生不同格式的web日志文件,但是通常都包括访问者的IP或者域名、浏览器类型、操作系统、访问时间、访问方式、访问页面协议、错误代码及传输的字节数等信息。访问者访问web时,服务器自动收集这些信息,然后存储到访问日志、引用日志和代理日志中。典型的服务器日志文件格式。如表2-1所示。Web日志挖掘的过程一般分为四个部分:数据预处理、模式算法实施、模式分析、可视化。如图三所示的,这四个部分又由其他几个子部分组成。如图2-2所示。1、数据预处理数据预处理是web挖掘的重要步骤,直接影响到最后分析的数据的准确性和正确性,主要是对日志文件进行清洗、过滤、转换及剔除无关记录。具体包括判断重要访问有没有被记录下来,并且可以从记录中提出感兴趣的数据,然后根据服务器日志的记录分析提出需要的数据如:耗用时间,请求,状态等来分析用户模式行为等。数据预处理的过程就是要先对提供的日志文件进行整理与数据清洗,然后进行识别用户访问事务和识别访问片段。1) 数据清洗数据清洗是数据挖掘整个工作过程的前提。由于数据的表示和写入对象的不同,用户兴趣及挖掘算法的各个要求不尽相同,所以必须先对web日志的数据配上合适的清洗策略进行清洗。一般有以下几个策略:合并数据:在提供的某个时间段的日志文件中,需要合并多个web日志文件并且分析其中的每一个文件,将文件转为特定格式的数据文件中去。消除不相干的数据:在web日志文件中一些对挖掘不必要的存取记录要剔除,例如图像文件,压缩文件等对挖掘来说不需考虑的可以剔除。代理访问的处理:由于一些搜索引擎或自动代理的存在,代理产生的日志记录会影响挖掘结果,所以哦剔除代理访问记录。使用的方法是通过检查日志记录中的代理域,采用字符串匹配方法剔除。正规化URL:正规化URL能够方便算法实施,一般采用公共的形式正规化URL。数据项解析:对于CGI数据项必须被解析与不同的域中且形式为对的形式。域(field)描述(description)日期(date)请求页面的时间、日期和时区客户端IP(client IP)远程主机的IP或者DNS入口用户名(user name)远程登录的用户名字节(bytes)发送和接收的字节服务器(server)服务器、IP地址和端口请求(request)URL查询枝节状态(status)返回给HTTP状态标识服务器名(server name)用户请求的服务名称耗用时间(time taken)完成浏览的时间协议版本(protocol version)传输用的协议版本用户代理(user agent)服务提供者Cookie标识号参照页(referrer)本页的上一页表2-1原始日志文件用户会话文件规则 模式 汇总最终汇总预处理挖掘算法实施模式分析可视化 图2-22) 识别用户访问事务识别用户访问事务第一步是识别用户,然后再进一步的识别用户的访问事务。最常用的识别用户的方法是IP地址或代理。它的前提是假定每个唯一的IP地址或者代理是一个唯一的一次访问用户。IP地址或者代理在任何站点都可以利用,服务器和客户端都不必要增加功能,但是只能够获取有限的信息如:IP地址,代理和URL。在识别客户的基础上就可以进一步识别用户的访问事务。但是在web日志中的访问事务不是一个显然的结果,需要采用专门算法来生成,常用的方法是:时间窗口和最大向前路径算法。2、模式算法实施经过预处理后,可根据不同需求选择模式发现技术,有统计分析技术,路径分析技术,基于web日志挖掘的关联挖掘,聚类,时序模式等。例如:统计分析通过分析网页视图,浏览时间和导航路径长度,有助于改进系统性能,增加系统安全性,便于站点修改并提供决策支持;路径分析技术用于发现web站点中最经常被访问的路径,从而调整站点结构;通过访问模式能挖掘关于用户行为及潜在顾客信息的发现。3、模式分析模式分析是针对模式发现后的统计结果进行挖掘,发现有用的模式,过滤掉不感兴趣的或者无关联的数据及模式,具体分析方法要依据模式分析的挖掘技术而定。发现的知识一般也能以被用户理解,所以为了能让用户理解他们需求的知识,一般采取三个方法:查询,OLAP技术,可视化技术。例如查询应用:分析者感兴趣的是:从一个URLM出发并保含A,B,这个模式可以表达成M*A*B。若分析者要求的是所有最小支持度是20%且最小可信度是80%,发送与2008年8月8号以后的规则并且域名来自于“.com”的用户感兴趣,基于这个条件,查询语句就可以表示为:SELECT association_rules(M*A*B) FROM logdata WHEREDate=20080808 AND domain=.com AND support=20AND confidence=80通过这个查询得到消息可以用来限制挖掘活动的范围,减少挖掘过程的代价。4、可视化可视化技术指的是帮助用户挖掘和理解大量的复杂数据采用的是图形用户界面。使用这个图形用户界面对于用户管理和理解大量的模式提供极大的便利。可视化有:挖掘过程可视化,挖掘结果可视化;知识管理可视化这三类。第三章 web数据挖掘在电子商务中的具体应用3.1 web数据挖掘在电子商务中的应用3.1.1 客户关系管理中发掘潜在客户通过分析和探究web日志记录中的规律,可以对已经存在的访问者进行分类,确定分类的关键属性及相互间的关系。对于一个新的访问者,通过在web上的分类规则发现,识别出这个客户与已经分类的老客户的一些公共描述,从而对新客户进行分类。从它的分类中判断是否需要把这个新客户作为潜在客户展示一些特殊的,个性化的页面内容,提高对用户服务的质量。在电子商务的数据挖掘中,发现潜在客户的一种有效的挖掘方法是聚类分析方法。3.1.2 客户关系管理中延长客户驻留时间在电子商务中,传统的买方客户与卖方销售商之间的空间距离已经不存在,在Internet上,每个卖方销售商对于买方客户来说都一样。为了使买方客户在网站上能够长时间驻留,我们就要清楚买方的浏览行为,分析客户的兴趣和需求所在,以方便我们及时地向客户做各种页面推荐,调整web页面,提供本站点特有的某些商品信息或者广告,达到客户满意,从而延长客户驻留在自己网页的时间。3.1.3 增加网页链接促进网站优化通过挖掘用户的Web日志文件,对Web站点的链接结构的优化可以从两方面来考虑:一是发现用户访问页面的相关性,对密切相关的网页之间增加链接。二是发现用户的期望位置。通过对日志文件的挖掘,可以让网站设计者或者后期维护者知道哪些界面是访问者经常连续点击访问的页面,就可以调整这些相关的页面链接,可以将这些链接放在明显的部分,并改变链接深度,使得用户易于访问,用户就不需要在一大堆不感兴趣的链接之间寻找自己想要的链接,从而避免降低用户对网站的兴趣。3.1.4 发现用户期望现用户的期望位置也就是如果在期望位置的访问频率高于实际位置的访问频率,可以考虑在期望位置和实际位置之间建立导航链接。网站网页的内容设置会直接影响客户访问网站的效率。并且,网站的浏览者所关注的内容是会随时变化的,利用日志文件进行用户访问页面的信息挖掘,发掘访问者进行的浏览模式,能为网页内容设置的改良提供实用的建议。总之,Web设计者是根据访问者的信息来设计和修改网站结构和外观,而不再完全依靠专家的定性指导来设计网站,站点上页面内容的安排和链接就如超级市场中物品摆放一样,把具有一定支持度和信任度的相关联的物品摆放在一起有助于销售。网站管理员按照大多数访问者的浏览模式对网站进行组织,尽量为大多数访问者的浏览提供方便,给客户留下好的印象,增加下次访问的机率。3.2聚类算法在web数据挖掘中的应用聚类算法就是将一个web站点的分析的有向图转变成矩阵后对矩阵的行向量和列向量进行化简、计算hamming距离并进行分类的过程。聚类算法分为对客户群体的聚类和web页面的聚类。一个web站点的拓扑结构是一副有向图,每个客户在一段时间内的访问模式就是它的子图,具有相似访问子图的客户很可能就是需求相似的客户,将这些需求相似的客户归类,这就是客户聚类。一个web站点可以用如下的有向图来表示:G=(N,NP,E,EP)其中,N为结点集;NP 记录客户UID及其访问的结点Node的次数,为结点属性集;E为有向边集;EP记录有向边及该有向边所在路径的编号,为有向边属性集【4】。在有向图G的所有结点集N中一般可以得到站点所有的URL,从结点属性集NP也能得到访问每个结点的UID和对应访问的次数,这样就可以得到一个URL-UID的关联矩阵Mm*n ,如下:C11 C12C1jC1nC21 C22C2jC2n Ci1 Ci2CijCinMM*N=UIDURL其中,Ci,j 是j客户在某段期间访问第i个URL的次数;由矩阵MM*N 看出,每一列向量表示某客户对该站点中所有URL的访问情况。每一行向量表示所有客户对某个URL的访问情况。所以,我们可以这么认为,行向量不仅代表了站点的结构,还蕴涵客户的共同访问模式,列向量则反应了客户类型和客户的个性化访问子图。分别度量行向量和列向量的相似性就可以得到相关web界面和相似客户群体,进一步分析还能获得客户访问模式,也就是频繁访问路径【4】。3.2.1 客户群体聚类如上所述,由矩阵MM*N 看出,每一列向量表示某客户对该站点中所有URL的访问情况。因为它是客户访问本站点的个性化子图,故具有相似的访问子图的客户即为相似客户群体。根据客户登记数据库查询是否交易,若客户仅做了浏览而并未与商家成交,即列向量的值是未成交次数,那么此相似客户群为潜在客户群;否则,为交易客户群。对矩阵MM*N 列向量的聚类是考虑他们的相似性度量,可以通过Hamming距离进行。即对于Mi,j0,令Mi,j=1.然后计算向量间的hamming距离,距离越小,其相似度越高。根据hamming距离的实际情况设定阈值,然后对客户进行聚类【4】。客户群体聚类时,先对URL-UID关联矩阵进行预处理,化简数据,然后按Hamming距离的公式计算hamming距离,公式如下: (X,Y0,1n n1) 公式(3-1)接下去建立列向量间的距离矩阵,在这个对称矩阵中,对于任意的表示第i个列向量和第j个列向量间的hamming距离,对角元素为0。阈值计算也可按公式(3-2)来计算,但是一般情况下也可以按具体情况自己指定阈值大小: 公式(3-2)对于任意的如果,那么将第i个客户和所有满足这个条件的第j个客户划分为一个类。聚类分析是电子商务中很重要的一个方面,通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,更好的帮助电子商务用户了解自己的客户,向客户提供更合适的服务。实例(1)分析:如图一所示,假设某个网站一个上午站点中有六个URL,在一段时间内共有7个客户访问了该站点。根据Web服务器的日志文件和客户数据库,我们可以建立如下URL-User关联矩阵M6*7 式(1),用1代替矩阵式(1)中的所有非零数字,即可得到矩阵M6*7(式(2)。M6*7=5 23 20 67 32 53 402 0 0 0 0 23 00 0 20 67 20 0 200 0 0 0 0 18 00 0 0 0 0 0 00 0 5 6 4 0 0(1)M6*7=1 1 1 1 1 1 11 0 0 0 0 1 00 0 1 1 1 0 10 0 0 0 0 1 00 0 0 0 0 0 00 0 1 1 1 0 0(2)根据公式(3-1)(hamming距离)X,Y之间的hamming、距离为:,计算矩阵(1)得到客户向量间的Hamming距离矩阵为下图(3)。由阈值计算公式可知阈值为1,据此将客户分为3个类:Cust1, Cust2, Cust6、Cust2, Cust7 、Cust3, Cust4, Cust5,Cust7M6*7=H7*7d=0 1 3 3 3 1 2 0 2 2 2 2 10 0 0 4 10 0 4 10 4 1 0 3 0(3)又例如:通过分析大量的浏览“computer”网页的用户,可以找出常在这个网页上浏览的客户,并且通过对这些客户登记的资料进行分析,就可以得出这些用户是潜在的要买电脑的用户群体,于是我们就通过调整“computer”网页的相关的内容,尽量满足客户的要求。3.2.2 web页面聚类如上所述,由矩阵MM*N 看出,每一行向量反映了客户对本站点中不同页面的访问情况。如果客户对某些页面的访问情况相同或者相似那么这些界面应该是相关界面,可以聚类。Web页面聚类时,也是要对URL-UID关联矩阵进行预处理,化简数据,然后按Hamming距离的公式计算hamming距离,按公式(3-1)计算,然后建立行向量间的距离矩阵,在这个对称矩阵中,对于任意的表示第i个行向量和第j个行向量间的hamming距离,对角元素为0。阈值计算也可按公式(3-2)来计算,也可按照具体情况自己指定阈值大小。对于任意的如果,那么将第i个URL和所有满足这个条件的第j个URL划分为一个类。续实例(1)中的聚类数据:去掉矩阵(2)中第5个值为0的行向量,根据hamming定义,计算矩阵(2)中其余每个行向量的hamming距离,得到URL向量间的Hamming距离矩阵如下图(4),由阈值计算公式可知阈值为3,据此将URL分成四个类:URL1,URL3,URL2,URL4,URL3,URL6,URL5H5*5d=0 5 3 6 40 6 1 50 5 1 0 4 0(4)聚类分析是电子商务中很重要的一个方面,通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,更好的帮助电子商务用户了解自己的客户,向客户提供更合适的服务。3.3 路径分析法在web数据挖掘中的应用Web站点结构设计好坏的衡量标准之一是用户为获取所需信息要付出的平均代价。这个代价可以理解为所经过的超链数目和选择这些超链的困难程度的函数。用户浏览路径优化是在尽量不破坏web系统原有结构,不删除系统原有文档和超链的前提下,通过增加新的超链或文档来减少用户获取信息所需付出的平均代价。网站的频繁浏览路径就是某个用户在相应一段时间内的活动规律,是站点要进行路径优化的依据,主要包括:1)一个个体用户在浏览行为中多次重复浏览的一个路径。2)在一个时间段内浏览记录中出现的重复浏览行为,也就是所谓的浏览模式。根据用户重复浏览路径可以导出用户兴趣视图,然后依据用户兴趣视图完成其个性化的推荐,为用户提供定制的访问体验。根据用户长期稳定的浏览模式可以为改进网站结构和路径优化提供参考依据。若一定时期内大多数用户都表现出访问路径相似性,则站点就要做相应的访问路径优化。3.3.1路径分析探索客户访问兴趣网站用户访问时,存在如下基本事实和特性:1、客户访问web站点是沿着不同的路径;2、每个web界面都隐含有一个或多个不同的关键字,一般这些关键字就是代表该页面的主要内容;3、每个用户访问都带有目的性,会访问兴趣的web页面,并且对兴趣的界面访问时间较长;访问的基本事实反映了每个客户的不同访问方式,对这些访问的方式汇集,就能反映出用户的访问方式的特征。了解客户访问兴趣可以通过路径分析技术进行分析,了解客户对哪些页面感兴趣,从而更好的改进设计,为客户服务。路径分析技术是一种寻找频繁访问路径的方法,通过对web服务器日志文件中的客户访问站点的访问次数分析,挖掘出频繁访问路径进而了解客户兴趣。用路径分析技术进行web数据挖掘最常用到的是图。因为web可以用一个有向图来表示,G=(V,E)V是页面的集合,E是各个页面间超链的集合。页面的抽象是图中的顶点,而且页面间的超链接是抽象为图中的有向边。顶点V引用了其他的页面。这里讨论最大向前访问路径方法。首先将日志文件中的客户访问时间和IP地址转换成客户访问事务数据库,其中的每个访问事务T是某一个客户对web的一系列访问,由此得到访问事务T的集合T=(t1,s1),(t2,s2),(tn,sn),这里T表示在t1时间访问页面s1.因为路径访问的拓扑结构是一种有向图的形式,所以对T的访问就可以转换成对访问路径图的访问。定义1:设访问路径图:TPG(T)=(V,E)其中V为节点(页面)的集合,即V=V1,V2,VnE为有向边(页面的超链接)的集合,E=e|e=(ni,ni-1),访问路径图实际上是访问十五中的页面依时间次序构成有向图。定义2:从起始节点开始浏览知道无后退的最大链接页面的序列称为一条最大向前路径。例如,设某个web站点中的日志文件包含某客户的一次访问路径(如图3-1);A,B,C,D,C,B,A,E,F,G,F,H,实线箭头表示向前浏览方向,虚线箭头表示浏览的后退方向,而访问次序是由有向边的数字表示,则图五中就存在三条最大向前访问路径【4】:ABCDEFGH 图3-11)(AB)(BC)(CD)2)(AE)(EF)(FG)3)(AE)(EF)(FH)设TP为一最大向前访问路径,P的公式(3-3)如下所示: 公式(3-3)其中TPi为某站点上第I条最大向前访问路径,KI为TPi 的访问次数。则任意一条最大向前访问路径的频度f(TPi)为:f(TPi)=(TP*KI)/P(也就是这个最大路径中每一个最短路径尾结点被访问的次数之和与该站点所有的URL被访问次数之和的比值)如果f(TPi)得值超过用户规定的最小的权值A,则称TPi为热门路径,也就是频繁访问路径。续实例(1)中聚类分析后,进一步分析客户访问模式得:由于URL类URL1,URL3,URL3,URL6在一条路径上,且路径频度分别为56.5%和33.4%,假设超过了指定的阈值,可以将他们合并起来构成路径Pi =URL1,URL3,URL6。计算频度可得fpi=77.8%,显然为频繁路径,同理路径p2=URL2,URL4的频度fp2=15.5%。相对路径P1来说,访问路径P2的人次少了许多,但他是否是频繁路径,还跟所取的阈值大小有关。又例如:一个客户从某一个站点访问到某一个兴趣的页面后就会常去访问,则从站点到该页面就组成了一条最大向前访问路径。当访问次数与访问所有最大向前访问路径的次数比到底一个规定值是,这个最大访问路径就是该用户的频繁访问路径,就可以了解到用户的兴趣所在。 3.3.2路径分析利于web站点链接设置通过对访问路径挖掘的结果分析,我们发现:若是一个TP是长度为0的热门路径,也就是TP=d,说明页面d的访问率最大,那么就可以在这个页面上放置广告、通告、新闻等内容。站点的主页一般都是热门页面,但是,如果有页面是多个热门路径的交点,那么这个界面也就很重要。例如,且,在是一个大于1的常数。那么认为路径中用户需要访问的是dn,可以增加链接d1到dn的链接。利用发现的这些模式,可以帮助站点的设计和维护人员更好的管理站点。另外,有些自动生成的页面,可以根据“热门访问路径”自动生成链接及其排列次序,把热门的链接放到前面排列,这个是在商业上很有价值的。第四章 结束语随着信息技术的飞速发展,电子商务在商业贸易中的份额越来越大,使用web挖掘技术对企业积累的海量数据进行处理,可以找出这些有价值的“知识”,企业用户可以根据这些“知识”把握客户动态、追踪市场变化,在激烈的市场竞争中,做出正确的有针对性的决策,对提高企业的市场竞争力有重要意义。但是在电子商务中进行web的数据挖掘时还有很多问题需要解决:例如怎么样将服务器的日志数据转化成适合某种数据挖掘技术的数据格式;怎么样解决分布性,异构性数据源的挖掘问题;如何控制整个web上的知识发现过程等等。随着web挖掘技术的不断发展和成熟,web数据挖掘在电子商务领域中一定会起到举足轻重的作用。经过这几个月的探索分析,我认识了数据挖掘这门技术的强大力量,这段时间我通过图书馆的书籍资料以及互联网上的一些相关资源信息的收集、筛选,并且与导师的积极探讨,获得了很多的收获,也提高了我学习、分析问题、解决问题的方法。通过对web数据挖掘在电子商务中的应用学习,深刻的意识到在这个信息化的大社会里,web数据挖掘在将来的生产应用中一定会越来越重要,创造更大的价值。致谢感谢有这次论文写作的机会。在这个几个月的不断学习探索和研究中,我了解了web数据挖掘的相关知识,让我能更深入地了解到web数据挖掘在电子商务中的作用,同时感受到它的强大的发掘数据的潜力,也增加自己许多丰厚的学识。在这里我要感谢在论文撰写的过程中给予我帮助的指导老师及同学们。参考文献1 毛国军,段立娟,王实,石云数据挖掘原理与算法M清华大学出版社, 20052 夏火松数据仓库与数据挖掘技术M科学出版社,20043 陈文伟数据仓库与数据挖掘教程M清华大学出版社,20064 宋擒豹,沈钧毅.web日志的高效多能挖掘算法D.西安交通大学,2001.5 陈才扣,金远平.挖掘基于web的访问路径模式J.东南大学,2001.6 徐晓玲.web数据挖掘算法D.华东交通大学,2007.7 安淑芝数据仓库与数据挖掘M清华大学出版社,20068 陈文伟,黄金才,赵新昱数据挖掘技术M北京工业大学出版社,20029 夏敏捷,张锦歌在web日志挖掘中应用聚类改进网站结构的研究J.中原工学院学报,200510 李中,苑津莎,徐小彩基于web日志挖掘的客户访问兴趣分析J华北电力大学学报,200911 徐慧基于web的文献数据挖掘D第十七届全国数据库学术会议论文集,1994-201212 (美)Zhao Hui Tang,JamieMacLennan 数据挖掘原理与应用M著 邝祝芳,焦贤龙,高升译.清华大学出版社,2007.13 (美)RichardJ.Roiger,Michael W.Geatz数据挖掘教程M著翁敬农 译,清华大学出版社,200314 (美)Pang-Ning Tan Michael Steinbach,VipinKumar 数据挖掘导论M著范明,范宏建

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论