



全文预览已结束
付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于挖掘的电子商务应用研究摘要 近年来,随着Internet/Web技术的快速普及和迅猛发展,使各种信息可以以非常低的成本在网络上获得,由于www在全球互连互通,可以从中取得的数据量难以计算,而且www的发展趋势继续看好,特别是电子商务的蓬勃发展为网络应用提供了强大支持,如何在www这个全球最大的数据集合中发现有用信息正在成为数据挖掘研究的热点。 关键词 web 数据挖掘 电子商务 一、引言 随着以数据库、数据仓库等数据仓储技术为基础的信息系统在各行各业的应用,使海量数据不断产生。随之而来的问题是如此多的数据让人难以消化,无法从表面上看出他们所蕴涵的有用信息。如何从大量的数据中找到真正有用的信息成为人们关注的焦点,数据挖掘技术也正是伴随着这种需求从研究走向应用。 近年来,随着Internet/Web技术的快速普及和迅猛发展,使各种信息可以以非常低的成本在网络上获得,由于Internet/WWW在全球互连互通,可以从中取得的数据量难以计算,而且Internet/WWW的发展趋势继续看好,特别是电子商务的蓬勃发展为网络应用提供了强大支持,如何在WWW这个全球最大的数据集合中发现有用信息无疑将成为数据挖掘研究的热点。 二、Web挖掘概述 数据挖掘就是从数据库中抽取隐含的、以前未知的、具有潜在应用价值的信息的过程。Web挖掘是将数据挖掘的思想和方法应用到Web页面内容、页面之间的结构、用户访问信息等各种Web数据中,从中抽取隐含的、以前未知的、具有潜在应用价值的信息。Web挖掘对在浩瀚的网络中发现有价值的知识、改进网站设计、提供更好的网上服务有重要的作用。 Web挖掘是针对包括Web页面内容,页面之间的结构,用户访问信息等在内的各种Web数据源。在一定基础上应用数据挖掘的方法以发现有用的隐含的知识的过程。Web挖掘与传统的数据挖掘相比有其自身的特点。Web本身是半结构化或无结构的数据,缺乏机器可理解的语义,Web挖掘的对象是大量,异质,分布的Web文档,对Web服务器上的日志、用户信息等数据所开展的挖掘工作也属于Web数据挖掘的范畴。Web信息的多样性决定了挖掘任务的多样性。按照Web处理对象的不同,一般将Web挖掘分为三类: Web内容挖掘,Web结构挖掘和Web使用记录挖掘。 1.Web内容挖掘 Web内容挖掘是指对Web页面及后台交易数据库进行挖掘,从Web文档内容及其描述中的内容信息中获取有价值的知识的过程。它是数据挖掘技术在网络信息处理上的应用,主要方法有IR(information retrieve)和数据库方法。它又可分为Web文本挖掘和Web多媒体挖掘两种数据挖掘方式。Web内容挖掘多为这种方式的挖掘,它和平常的平面文本挖掘的功能及方法比较类似。Web文档多为HTML、XML等自然语言,因此可利用Web文档中的标记,利用这些信息可以提高Web文本挖掘的性能。在对Web文档进行分类分析中,可以基于一组预先分好的文档为每一类文档赋予一个类标签。由于超链接里包括了有关页面内容的高质量信息,因此可以利用这些信息对文档进行分类,并且这种分类比基于关键字的分类更加准确。随着网络带宽的扩大,多媒体信息在网上迅速增加,这对Web内容挖掘提出了新的要求。Web多媒体挖掘的挖掘主要是指基于音频的挖掘、基于图片的静态图像的挖掘和基于视频的动态图像的挖掘。 2.Web结构挖掘 Web结构挖掘是对Web的组织结构和链接关系进行挖掘,从人为的链接关系中获得有价值的知识。由于文档之间互连,WWW能提供除文档内容以外的有用信息。Web结构挖掘通过分析一个网页链接和被链接的网页数量和对象,建立Web自身的链接结构模式。这种模式可以用于网页分类,并由此获得有关不同页面间的相似度和关联度的信息。Web页面除了包含页面以外还包括一个页面指向另一个页面的超链接。超链接里包含大量人类潜在的语义,它可用于分析出权威性语义。当一个Web页面的作者建立指向另一个页面的指针时,可以看作是作者对另一个页面的注解,即对另一个页面的认可。把一个页面的来自不同作者的注解收集起来,可以用来反应页面的重要性。这样,Web结构挖掘有助于用户找到相关主题的权威站点。 3.Web使用记录挖掘 Web使用记录挖掘是对用户访问Web时在服务器上留下的访问记录进行挖掘。它通过挖掘Web日志文件及其相关数据来发现用户访问Web页面的模式,主要技术有Cookies和远程Agent技术。Web使用记录挖掘的对象不是网上的原始数据而是从用户和网络交互过程中抽取出来的二手数据。服务器上的日志文件包括所请求的URL、发送请求的IP和时间,这些日志提供了有关Web动态的丰富信息。因此提取用户留下的这些日志文件进行Web挖掘,提取有关用户的知识,对用户的访问行为、频度、内容进行分析,得到关于用户的行为和方式的模式,从而改进站点的结构,或为用户提供个性化服务。对用户使用记录进行挖掘的方法主要有两种。一种方法是通过对日志文件进行分析,包含两种方式,一是访问前先进行预处理,即将日志数据映射为关系表采用相应的数据挖掘技术,如关联规则或聚类规则来访问日志文件。二是对日志文件直接进行访问以获取用户的导航信息。二是通过对用户的点击事件的收集和分析来发现用户的导航行为。 三、Web挖掘的主要技术 Web数据挖掘中常用的技术有路径分析技术、关联规则、序列模式、分类聚类技术等。 1.关联规则挖掘技术 该技术主要用于从学习者访问序列数据库的序列项中挖掘出相关的规则。在Web数据挖掘中,关联规则挖掘就是要挖掘出学习者在一个访问期间(Session)从服务器问的页面/文件之间的联系,这些页面之间可能并不存在直接的参引(Reference) 关系。在网络日志数据的预处理过程中,将学习者访问的页面路径构成了学习者会话事务集,可以通过关联规则挖掘得到大量的学习者访问请求的URL之间的联系,并将挖掘出的规则按照不同的支持度和置信度进行取舍,从而保留一些有用的规则进行应用。 2.序列模式挖掘技术 序列模式数据挖掘就是要挖掘出交易集之间的有时间序列的模式。在网站服务器日志里,学习者的访问是以一段时间为单位记载的。经过数据净化和事件交易确认以后是一个间断的时间序列,这些序列反映了学习者一定的行为。在网络日志文件的预处理过程中,抽取了学习者对于每个URL浏览所耗用的时间,这种元数据从侧面描绘出每个学习者对于页面上承载的知识点的理解程度和思考难度,引用时间长的证明此页面承载的知识点比较难于理解。通过分析可以得出学习者对特定知识点的掌握程度。但由于网路线路的原因,致使学习者在提出URL请求后,很长时间才将相应的网页打开,所以这种由日志中记录的浏览时间所分析出的各种模式规则并不一定真实反映学习者的学习过程,所以我们利用序列模式挖掘方式预测出学习者后续要访问的页面集,然后将此页面集中的URL预先下载到本地计算机的缓存中去,从而降低了页面的打开时间,也就使得浏览时间的准确性和有效性得到了很大的提高。这种Web页面的预取技术是利用序列模式挖掘方法来实现的。 3.聚类分类技术 聚类技术可以将具有相同特征的数据项聚成一类。聚类分析模式就是将数据划分到不同的组或者簇中,组之间的差别尽可能的大,组内的差别尽可能的小,与一般认为通过学习者的固定信息进行的分类分析不同,聚类前并不知道将要划分成几个组和什么样的组,完全依靠服务器智能化的计算得出,因此聚类分析也可以称为无监督分类。通过聚类得出不同的类后,一旦某学习者的特征模式符合某个类后,推荐引擎自动将此学习者尚未访问的页面或者尚未进行的测试与练习推荐给学习者。这样就可以智能化地将处在不同学习阶段的学习者得到此类应该获得的学习和测试进程。 4.路径分析技术 用路径分析技术进行Web使用模式的数据挖掘时,最常用的是图。因为一个图代表了定义在网站上的页面之间的联系。图最直接的来源是网站结构图,网站上的页面定义成节点,页面之间的超链接定义成图中的边。其他的各式各样的图也都是建立在页面和页面之间联系或者是一定数量的学习者浏览页面顺序基础之上的。那么,基于Web使用模式的数据挖掘,就是从图中确定最频繁的路径访问模式或大的参引访问序列。 四、Web挖掘在电子商务中的应用 1.Web挖掘数据的来源 在Web挖掘中,一个关键性步骤是为Web挖掘提供合适的数据即挖掘对象。同样,把Web挖掘技术应用到电子商务中,也需要选择合适的目标数据集合。电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件和登记表。这些数据具体分为以下几种: (1)服务器日志数据 Web服务器日志记录了用户访问电子商务站点的浏览行为,是使用Web挖掘的主要数据来源。日志文件格式中最常用的公用日志格式(Common Log Format)提供了关于访问者物理访问站点的信息。 (2)Cookie日志数据 Cookie日志是服务器为了自动跟踪电子商务网站访问者而为单个浏览器生成的标志。用于自动标记和跟踪站点的访问者,并由客户端持有。Cookie通常存储的是类似于购物手推车状态信息或者客户最近连接电子商务网站所访问的网页等信息。在电子商务网站,存储在Cookie日志的数据主要是交易信息。 (3)客户信息 在电子商务的交易过程中,须经过银行的信用授权才能进行交易。在这一过程中,大量有关客户的个人资料等信息会传到电子商务网站。把这些数据经过清洗,然后存入网站的数据仓库中作为长期趋势的分析数据,供数据挖掘之用。所需的数据类型取决于在线购物时的商业类型和所使用的数据本身。 (4)其他数据源 电子商务是基于Internet进行各种交易的,在其上面有大量的异质数据源,里面隐含了大量的有价值的信息有待挖掘。可以利用智能Agent来进行抽取而获得有用的信息,有助于电子商务活动的开展。 2.电子商务中Web挖掘的过程 在电子商务环境下,主要的挖掘对象是服务器日志。其主要步骤如下。 (1)数据预处理 由于本地缓存、代理服务器、防火墙的存在,使得Web日志中的数据并不精确,直接进行挖掘有可能出现错误结果。因此首先对日志数据进行预处理,它包括数据净化、用户会话和事务识别等。数据清洗主要是删除与挖掘算法无关的记录、判断是否有重要的访问没有被记录;用户会话是一个用户在一定时间内请求的所有Web页面;事务识别主要是将页面访问序列划分为代表Web事务或用户会话的逻辑单元。 (2)模式发现 模式发现阶段是采用统计法、机器学习法等成熟技术,从Web使用记录中挖掘知识。与电子商务有关的模式发现的方法有统计分析、聚类规则和依赖性建模。统计分析是抽取有关电子商务网站访问者的最常用的方法。可以利用特征选择方法来分析网页,就能分析出网页的某个特征的点击流次数,根据获得的结果调整网页的内容和链接结构。聚类规则是从一组数据项中聚集出相似特征的一个聚类。在电子商务中,大致可分为两类聚类:用户聚类和网页聚类。利用聚类的规则可以分析顾客的信息便以开展电子商务活动。依赖性建模的目标是开发出一种能表达Web域中各变量显著依赖性的模型。这种模型是根据已存在的Web数据,然后抽象出这些数据内在关系的模型。模型的建立对增加网上产品的销量和改进用户导航的便利性都有很大的作用。除此以外,还有关联规则、分类、序列模式等其他的模式发现方法在电子商务的Web挖掘中有较大应用。 (3)模式分析 模式分析主要是采用合适的技术和工具,进行模式的分析来辅助分析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025英大证券有限责任公司高校毕业生招聘约1人(第二批)笔试参考题库附带答案详解
- 2025浙江温州市国资委公开遴选市属国有企业外部董事专家库人选40人笔试参考题库附带答案详解
- 2025江苏无锡市宜兴市宜能实业有限公司招聘线路设计辅助人员2人笔试参考题库附带答案详解
- 2025广西文化产业集团有限公司春季招聘36人笔试参考题库附带答案详解
- 2025年合肥高新美城物业有限公司招聘30人笔试参考题库附带答案详解
- 2025年中国邮政集团有限公司甘肃省分公司春季校园招聘笔试参考题库附带答案详解
- 卸料安全培训课件
- 2025山东省国际信托股份有限公司社会招聘8人笔试参考题库附带答案详解
- 2025安徽蚌埠市城市投资控股集团有限公司所属公司社会招聘11人笔试参考题库附带答案详解
- 2025四川成都三和来科技有限公司招聘50人笔试参考题库附带答案详解
- 陪诊服务培训课件模板
- 严禁管制刀具进校园主题班会课件
- 2024年山东省春季高考技能考试汽车专业试题库-上(单选题汇总)
- 国庆、中秋双节前安全排查记录
- 八年级上学期轴对称练习题
- 双姿培训课件
- GB/Z 41082.2-2023轮椅车第2部分:按GB/Z 18029.5测得的尺寸、质量和操作空间的典型值和推荐限制值
- 实施项目经理岗位的工作职责描述
- 中频操作评分标准
- 生活中的理财原理知到章节答案智慧树2023年暨南大学
- GB/T 22588-2008闪光法测量热扩散系数或导热系数
评论
0/150
提交评论