




全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1/5数据挖掘技术在互联网时代的应用探究数据挖掘技术在互联网时代的应用探究如今,互联网的发展速度之快是我们无法预计的,用户能够通过互联网来搜索到一切想要了解的信息,将“秀才不出门便知天下事”这句古语的核心意义发挥的淋漓尽致。但由于WEB缺少一定的智能性,以至于用户只能够依靠导航来对信息进行筛选,这样一来就会让搜索结果的准确性以及针对性大大降低。而伴随着数据挖掘技术的加入,让网站对系统性能和用户喜好的分析能力大大增加,从而有效地提高了用户的使用满意度。1基本概念介绍数据挖掘的出现时间为20世纪的80年代,它作为一门刚刚兴起的学科来说还尚未得到人们的广泛认可和使用。如果从技术的层面对其进行分析,数据挖掘所针对的是一些较为复杂且无规律的数据群体;而从商业的角度来说,数据挖掘所指的则是在偌大的数据库中精准的将一些有规律的信息进行转换和分析,并在其中将一些对商业决策有帮助的信息提取出来。数据挖掘技术的基本分析方法数据挖掘工作中最为重要的一个环节就是对数据进行分析,只有选择一些科学且有效的计算方式才能够将数2/5据的挖掘工作正确的完成。其中,目前较为常用的分析方法有三种,即聚类分析法、分类和预测法以及关联分析法,下面笔者就对其分别进行详细的介绍。聚类分析聚类分析的主要工作就是将物理对象与抽象对象的整合进行分类,并同时对由相同或者相似的对象所组成的分类进行更加深入的分析,而聚类分析的最终目的就是使用详细的方法来将数据进行有效的分类。古语说的不错,“物以类聚,人以群分”,聚类分析法正是通过对事物之间的规律进行分析,从而能够对各个领域进行智能化学习。聚类分析可以被分成两种方式,即硬聚类和模糊聚类。其中,硬聚类所代表的是将分析对象划分到最为相近的类别当中,而模糊聚类则是通过取值范围的大小来对分析对象进行划分,并且一个对象有可能出现多个类别。2分类和预测分类是对无排序规律的标号进行分类,而预测则是将连续值的函数模型进行预测。其中,分类对于数据挖掘技术来说是非常重要的一个基础,通过分类能够将数据集的特性正确的表现出来,从而将各个类别的属性进行相对应的划分。如今比较常见的计算方法为决策树、粗糙集、贝叶斯、遗传算法等等。而预测则是在已知分类情况的基础之上将未来的发3/5展规律进行预测,目前较为常用的方式有时间序列、回归分析以及局势外推等等。本文由论文联盟HTTP/收集整理2关联分析相信大家都了解蝴蝶效应,在自然界中发生的任何一次微小的变动都极有可能连带出另一个事件的发生,而关联分析则是遵循这个规律所完成的。事物同事物之间是具有一定的依赖性和关联性的,基于此种情况,我们就有机会对其中的规律性进行有效的预测。举例说明,曾经知名度非常高的购物篮事件就是通过此种关联分析法来进行完成的。其中,通过对顾客购物篮中物品的管理规律进行分析,从而将顾客的购买特点和购买习惯进行初步的掌握,最后根据这些数据再将日常的营销方案和营销策略制定出来。实践证明,此种关联分析法是非常有效果的。数据的预处理数据的预处理所指的是对网络日志中的相关数据进行二次加工,在加工的过程当中需要对数据的原始性进行有效的保存。其中的挖掘算法所代表的是将数据的结构以及规则有效的选取出来。其中具体的系统结构如下WEB日志数据预处理确定挖掘算法数据挖掘模式。对日志进行数据挖掘之前需要对相关的数据进行优4/5先处理,其中包括数据的增加和减少、用户的识别工作、会话内容的识别工作以及路径的补充工作等等。数据的缩减首先来了解一下WEB日志常见的数据格式用户的访问日期和访问时间、IP地址、方法、指定页面的URL、字节数量、网页状态、代理页面的URL等等。由于WEB的日志挖掘工作仅仅针对用户的行为模式较为关注,对一些没有显示请求的界面就非常容易被忽略。例如带有后缀名为JPG、JPEG、GIF等。在此基础之上在对余下的筛选记录中将相关的项进行选取和挖掘。3用户识别在用户的系统中通常都会设置防火墙,所以在WEB日志中所产生的记录极有可能是不真实的。这就会使用户识别工作变得异常的复杂和繁琐,使用启发式规则则能够让用户的识别工作有效的完成。规则一假设用户的IP相同,如果代理浏览器的操作系统出现了变化,则代表其属于不同的用户。规则二假设用户的IP相同,如果当下的链接页面同已经浏览过的链接页面没有任何的关系,则代表用户是不同的。3会话识别会话识别的最终目的是可以将用户的访问记录进行5/5划分,从而形成多个单独的会话,并以此来作为不同的用户单位。其中,如果历经时间超过了事先的限定范围,则会默认认为一个新的会话已经开始。3路径补充如果想要达到减少网络传输量的目的,目前大部分的浏览器都会采取对刚刚访问的页面进行缓存的做法。其中,如果用户在页面中给出了返回指令,系统将会显示出缓存页面。由于WEB的服务器无法对用户的访问页面有效的进行确定,对POSTLOG表中的REFER进行检查将能够完成对页面的确定工作。如果用户的访问历史中包含了多个当前页面的链接,将优先选择请求时间最接近的的页面。结语互联网已经逐渐的在人们的生活中占据了主导的地位,为了能够让
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 环境教育政策执行效果监测考核试卷
- 交通事故预防技术研发考核试卷
- 手术前后护理评估
- 2025年中国PCB网印刮刀数据监测报告
- 2025年中国3G橱柜板数据监测报告
- 2025至2030年中国香槟酒瓶架市场分析及竞争策略研究报告
- 2025至2030年中国铸铁用孕育剂市场分析及竞争策略研究报告
- 2025至2030年中国通轴型轴向柱塞泵市场分析及竞争策略研究报告
- 2025至2030年中国螺丝玩具车市场分析及竞争策略研究报告
- 2025至2030年中国耐磨环氧地坪涂料市场分析及竞争策略研究报告
- 国开电大《Java语言程序设计》形考任务三答案
- 国开作业《马克思主义基本原理概论》学习行为表现参考(含答案)121
- IATF16949体系培训资料课件
- 中学生法制教育:防电信诈骗课件
- 产房实习生带教计划修改版
- 生活中的立体图形--完整版课件
- 企业安全生产自查台账(建筑施工)
- 综合实践活动评价表完整
- GB∕T 16422.3-2022 塑料 实验室光源暴露试验方法 第3部分:荧光紫外灯
- 菲迪克(FIDIC)简明合同格式-中英对照版
- 浙江省基础教育地方课程(通用内容)标准1-9年级
评论
0/150
提交评论