下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘技术在Web中的应用问题探讨-电子商务毕业论文摘要:随着数据库技术及万维网(WWW)技术的迅速开展,大量形式各异的复杂类型数据不断涌现。因此数据挖掘面临重要课题是针对复杂类型数据的挖掘,其中Web数据尤为重要。本文通过分析Web数据挖掘的特点及分类,针对常用技术和主要应用方向进行探讨,以其充沛发挥web数据挖掘的作用,效劳信息化社会。关键词:web;数据挖掘;信息效劳;常用技术
1Web数据挖掘的特点
万维网目前是一个巨大的、分布广泛的和全球性的信息效劳中心,它波及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其他信息效劳。Web还包含了丰盛和动态的超链接信息,以及Web页面的访问和使用信息,这为数据挖掘提供了丰盛的资源。然而,Web挖掘不仅仅是数据挖掘算法在Web数据上的应用,同传统的数据库数据相比,Web数据具有其特殊性,其特点就是数据没有严格的结构模式,含有不同格式的数据(文本、声音、图像等),面向显示的Html文本无法辨别数据类型,并且存在大量的冗余和噪声,同时Web是一个动态性极强的信息源,所以面向Web的数据挖掘研究极具挑战性。
2Web数据挖掘的分类
2.1web结构挖掘
Web结构包括不同网页之间的超链接结构和一个页面内部的树形结构,以及文档URL中的目录路径结构等。Web结构可以用有向图表示,页面对应图中的点,超级链接对应图中的边。通过把Web表示成有向图,可以得到从一个站点的主页到它任意一个定点的最短路径,Robot沿最短路径浏览Web站点,就可以以较小的代价发现较多的文档。HITS、PageRank,以及在链接结构中增加了Web内容信息的HITS改良算法等,主要用于模拟Web站点的拓扑结构,计算Web页面的等级和Web页面之间的关联度,典型的例子是CleverSystem和Google等。
2.2Web内容挖掘
Web内容挖掘是指从Web上的文件内容及其描述信息中获取潜在的、有价值的知识或模式的过程,它分为Web文本挖掘和Web多媒体挖掘。Web文本挖掘可以对Web上大量的文档汇合的内容进行总结、分类、聚类、关联分析以及利用Web文档进行趋势分析等。Web多媒体挖掘主要是指通过对Web上的音频、视频数据和图像进行预处理,应用挖掘技术对其中潜在的、有意义的信息和模式进行挖掘的过程。
2.3Web访问挖掘
对于一个网站而言,网页浏览量、点击数、独立IP访问数等参数是反映这个网站用户访问情况的重要指标,通过对网站LOG文件的分析,可以获得网站访问情况的详细统计数据。针对这些统计数据进行的数据挖掘,属于静态的Web访问记录的数据挖掘,可以有效地提高网站的效劳。示例:通过分析访问者的来源,可以使一个网站有针对性地提供内容;通过分析每天各个时段访问者人数的变化,网站可以调整每天内容更新的时间。
3Web数据挖掘的常用技术
Web数据挖掘中常用的技术有数据挖掘领域常用的分类聚类技术、关联规那么技术序列模式技术和Web特有的路径分析技术等。
3.1分类聚类技术
数据分类技术可以通过挖掘数据中的某些共同特性从而对数据项进行分类。在Web数据挖掘中,分类技术可以根据捕获的Web访问用户的个人信息或共同的访问模式得出访问某一效劳器文件的用户特征。常用的数据分类技术有:判定树归纳、贝叶斯分类和贝叶斯网络、神经网络、基于案例的推理、遗传算法、粗糙集办法和含糊集办法。
聚类是一个将物理或者抽象对象的汇合分组成由类似的对象组成的多个类或簇的过程。聚类分析技术能用于对Web上的文档进行分类,已发现信息。聚类分析能作为一个独立的工具来获得数据分布的情况,察看每个簇的特点,集中对某些簇做进一步的分析。常用的聚类算法大体上可以划分为几类:划分办法、层次办法、基于密度的办法、基于网格的办法和基于模型的办法。
3.2关联规那么挖掘技术
关联规那么挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规那么。在Web挖掘中,关联规那么挖掘就是要挖掘出用户在一个访问会话期间从效劳器上访问的页面或文件之间的联系,这些页面之间可能并不存在直接的引用关系。最常用的算法是Aprior算法,它从事务数据库中挖掘出最大频繁访问项集,这个项集就是关联规那么挖掘出来的用户访问模式。
3.3时间序列模式挖掘技术
时间序列模式数据挖掘就是要挖掘出交易集之间的有时间序列的模式。在网站效劳器日志里,用户的访问是以一段时间为单位记载的。经过数据净化和事件交易确认得到一个间断的时间序列,这些序列所反映的用户行为有助于帮忙商家印证其产品所处的
生命周期阶段。3.4路径分析技术用路径分析技术进行Web数据挖掘时,最常用的是图。因为Web可以用一个有向图来表示,G=(V,E),V是页面的汇合,E是页面之间的超链接汇合。页面抽象为图中的顶点,而页面之间的超链接抽象为图中的有向边。顶点V的入边表示对V的引用,出边表示V引用了其它的页面。4Web数据挖掘的主要应用
4.1Web数据挖掘在电子商务方面的应用
Web挖掘这方面的应用可以为企业更有效确实认目标市场、改良决策获得更大的竞争优势提供帮忙,从中可得到商家用于特定消费群体或个体进行定向营销的决策信息。电子商务方面的Web挖掘功能主要是如下几个方面:首先,客户分类和客户聚类。对Web的客户访问信息进行挖掘。对客户进行分类分析。应用聚类分析对客户进行分组,并且分析组中客户的共同特征,这样就可以让商家更好了解自己的客户,向客户提供更有针对性的效劳。其次是找到潜在的客户。在对Web的客户访问信息的挖掘中,利用分类技术可在因特网上找到未来的潜在客户。最后保存客户的驻留时间。对于客户而言,在网上每个销售商对于客户来说都是样的,如何尽量使客户在自己的网上驻留更长的时间,这样对于商家才能有更多客户和更大的利润空间。
4.2Web数据挖掘在网络教育中的应用
教育网络化的趋势不仅为学生提供了便利的学习方式和广泛的选择,也为学校提供了更加深入了解学生需求信息和学生行为特征的可能性。由于受教育对象个体之间存在着极大的差别性,网络教学也必须是一种适应个别化学习需求的个性化教学。这种个性化教学的提供。是通过将传统的数据挖掘MWeb结合起来。进行Web数据挖掘,即从Web文档和Web活动中抽取学生感兴趣的潜在的有用模式和隐藏的信息,作为对学生提供个性化教学效劳的依据,协助管理者优化站点结构。提高站点效率,更好地为网络教育效劳。
4.3在网站设计中的应用
在网站设计方面中的应用,主要是通过对网站内容的挖掘。特别是对文本内容的挖掘,可以有效地组织网站信息。如采用自动归类技术实现网站信息的层次性组织;通过对用户访问日志记录信息的挖掘,把握用户感兴趣的信息。从而有助于发展网站信息推送效劳以及个人信息的定制效劳,吸引更多的用户。
结束语。社会的开展离不开信息的传播与使用,在数据急剧增长的情况下,如何高效的检索到用户需要的信息显得更加重要。Internet作为世界上最大的信息库,分布于世界各地数以亿计的网页以及站点,为Web挖掘大开展提供了前提条件。随着Internet的进一步开展,Web挖掘在信息的准确检索、个性化的信息效劳、发展有针对性的电子商务、构建智能化的web站点起到重要作用,Web挖掘技术在实
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年经典案例分析与解决策略题集
- 新一代智能家居设备安装手册
- 数据泄露事情数据恢复方案
- 2026年人力资源管理专业试题及答案解析
- 风险评估与防范管理制度
- 2026年青年干部心理压力监测题库
- 2026年哲学知识竞赛专用题库
- 混凝土搅拌站运行维护计划
- 地下管线交叉处热熔焊接技术交底
- 履约保证金管理投标应对方案
- 雅马哈电吹管知识讲座
- 探伤室检测方案
- 热电阻检定标准
- 酒店明住宿清单(水单)
- 外科学椎间盘突出症
- 传感器技术与应用-说课
- GB/T 13816-1992焊接接头脉动拉伸疲劳试验方法
- 碳捕集、利用与封存技术课件
- 新生儿听力筛查(共29张)课件
- (精心整理)数学史知识点及答案
- GB 5749-2022 生活饮用水卫生标准
评论
0/150
提交评论