




已阅读5页,还剩11页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京财经大学本科毕业论文 1 目 录 摘要 . 1 关键词 . 1 . 1 . 1 一、 . 2 (一)、数据预处理 . 2 (二)、模式发现 . 4 (三)、模式分析 . 5 二、关联分析 . 5 (一)关联规则 . 5 (二) 法简介 . 7 四、实证分析 . 8 (一)数据预处理 . 8 (二)模式发现 . 9 (三) 模式分析 . 10 五、个性化推荐 . 11 六 、结束语 . 12 参考文献 . 13 附录 . 15 南京财经大学本科毕业论文 2 基于 关联 分析 的 志挖掘 摘要 :志挖掘是 据挖掘中的一个重要组成部分,通过从 问日志中发现用户的访问模式,预测用户的浏览行为。 本文主要介绍了 利用该方法对某网站某天的部分 得 出了用户浏览模式及网页内容之间的关联规则, 找到单个用户在浏览页面兴趣爱好以及群体用户的浏览习惯, 继而对网站的网页规划 布局 提出了 个性化 的意见 。 关键词 :关联分析 ;实证分析 n is an of s in eb s eb at we to a s to It of a we on 京财经大学本科毕业论文 3 随着 据信息已经在这个时代爆炸了。但是,我们又不得不面对“人们被数据淹没 ,人们却饥饿于知识”的现实。随着兴起与 20世纪 80年代末的数据挖掘在 某种程度上改善了上述情况。 根据所挖掘的 据的类型,可以将 据挖掘分为以下三类: 容挖掘 ( 构挖掘 ( 用挖掘 (也称为 过对 现用户的访问模式和兴趣爱好等有趣、新颖、潜在有用的以及可理解的未知信息和知识,用于分析站点的使用情况,从而辅助管理和支持决策。当前, 进系统性能和结构、站点修改、商业智能以及 一、 现用户的浏览模式 ,更好地规划站点 。 下面是一段日志: 20060:00:00 80 / +U;+T+0060426+要包括:访问时间; 用户 访问的 口 ; 请求方法 (“ “ ); 访问模式; 用户使用的操作系统类型和浏览器软件 。 ( 一) 数据预处理 数据预处理是 志挖掘的首要环节 , 其任务是将原始日志数据转换成适合数据挖掘和模式发现所必需的格式 , 预处理可以直接简化数据挖掘过程,使结果更具客观性。数据预处理包括数据净化、用户识别、会话识别、路径补充四南京财经大学本科毕业论文 4 个步骤。 1数据净化 数据净化 , 是指将待处理的日志数据导入到关系数据库 ,删除 失值等,同时把与 达到简便运算的目的; 用户识别 , 是从 免挖掘的重复性。目前 , 由于本地缓存、代理服务器和防火墙的存在 , 为用户动态的分配 址 , 想要识别出每一个用户变得很复杂。可以通过以下 3 种方法来识别用户 : ( 1) 如果 务器提供 则具有相同 的页面请求是来自同一个用户 ; ( 2) 如果 务器没有提供 但每个网站用户都要一个登录标识符 ( 用户 方可访问站点 , 则利用登录标识符识别用户 ; ( 3) 如果 务器既没有 没有用户 常用的方法就是采用启发式规则。根据我们的日志格式采用 两条启发式规则:不同的 如果 是操作系统类型或者浏览器软件不同我们认为是不同的用户。 会话 , 是指同一个用户连续请求的页面。在跨越时间区段较大的 务器日志中 , 用户可能多次访问该站点。会话识别的目的是将用户的所有访问序列分成单个的访问序列。常用的算法有以下几种 : ( 1) 对用户在整个网站的停留时间设一个阈值 T。如果两个相邻的浏览页面之间的访问时间超过 T, 则认为用户又开始了一个新的会话。一般 0 ( 2)对用户在一个页面停留时间设一个域 值 t。如果 2 个连续请求的时间南京财经大学本科毕业论文 5 间隔没有超过这个值 t, 则属于同一会话。否则 , 分属于两个会话。 t 一般取 10 ( 3)利用用户的访问历史和引用页来划分。如果一个用户的请求不能通过引用页的链接进入 , 则属于另一个会话。 ( 4)最大向前引用算法 ( 。设一个用户会话里不会出现用户以前已经访问过的页面 , 如果用户在向前浏览到一个网 4. 路径补充 用户会话对数据挖掘来讲,显得粗糙,仍不够精确,需把会话进一步分成具有一定语意的事务,如同篮子数据中顾客一次购买的商品。可以把 容页和导航页。在编程中采用的区分导航页和内容页的方法是时间点法,即设定一时间值,实际中时间点的取值为 30秒。当用户对该网页访问的时间小于时间点为导航页,大于时间点则为内容页。用户对网页的访问时间为用户前后两次访问该网页的时间差,通过调用 而区分出导航页和内容页。 ( 二 ) 模式发现 模式发现 , 是对预处理后的数据用数据挖掘算法来分析数据。分有统计、分类、聚类、关联规则、路径分析等多种方法。 ( 1)统计。统计方法是从 点中抽取知识的最常用方法 , 它通过分析会话文件 , 对浏览时间、浏览路径等进行频度、平均值等统计分析。虽然缺乏深度 , 但仍可用于改进网站结构 , 增强系统安全性 , 提高网站访问的效率等。 ( 2)分类。分类包括的挖掘技术将找出定义了一个项或事件是否属于数据中某特定子集或类的规则。该类技术是最广泛应用于各类业务问题的一类挖掘技术。分类算法最知名的是决策树方法,此外还有神经元网络、 ( 3)聚类。聚类是将数据集划分为多个类,使得在同一类中的数据之间有南京财经大学本科毕业论文 6 较高的相似度,而在不同类中的数据差别尽可能大。在聚类技术中,没有预先定义好的类别和训练样本存在 ,所有记录都根据彼此相似程度来加以归类。主要算法有 k ( 4) 关联规则。关联分析的目的是挖掘隐藏在数据间的相互关系,自动探测以前未发现的隐藏着的模式,关联分析经常被表达为规则的形式。目前采用的主要关联规则挖掘算法有 ( 5) 路径分析。路径分析可以用来确定网站上的频繁访问路径 , 从而调整和优化网站结构 , 使得用户访问所需网页更加简单快捷 , 还可以根据用户典型的浏览模式用于智能推荐和有针对性的电子商务活动。 ( 三 ) 模式分析 基于以上的所有过程, 对原始数据进行进一步分析,找出用户的浏览模式规律,即用户的兴趣爱好及习惯,并使其可视化,为网页的规划及网站建设的决策提供具体理论依据。其主要方法有:查询、 术和可视化技术 等 。 二 、关联分析 (一) 关联规则 顾名思义,关联规则( 掘技术用于于发现数据库中属性之间的有趣联系。 设 D 交易 (T 的集合, ,21 ,这里交易 T 是项的集合,可以表述为: , 21 并且 。 T 中的元素 ,2,1 称为项。对应每一个交易有唯一的标识,如交易号,记作 设 ,21 是数据集中所有项的集合, I 是二进制文字的集合。 I 中的任何子集称为项目集(若 k|X| ,则称集合 X 为 K 项集。设 X 分别为 D 中的事务和项目集,如果 ,称事务 含项目 集 X 。项目集 X 的支持率 ) ,南京财经大学本科毕业论文 7 若 ) 不小于用户指定的最小支持率 (记作: 则称 X 为频繁项目集,否则称 X 为非频繁项目集。设 X , Y 是数据集 D 中的项目集。若 ,则 ) s u p p o r t( Ys u p p o r t( X ) ;若 ,如果 X 是非频繁项目集,则 Y 也是非频繁项目集;若 ,如果 Y 是频繁项目集,则 X 也是频繁项目集。 一个 关联规则是形如 的蕴涵式,这里 X , Y 都是项目集,且 1,1Y ,并且 , X , Y 分别称为关联规则 的前提和结论。 一般使用支 持度( 置信度( 个参数来描述关联规则的属性。 规则 在数据库 D 中的支持度 (是交易集中同时包含 X , Y 的事务数与所有事务数之比,记为 Y) po )( 。支持度描述了 X , Y 这两个项集在所有事务中同时出现的概率。 2 置信度 规则 在事务集中的置信度 (指同时包含 X , Y 的事务数与包含 X 的事务数之比,它用来衡量关联规则的可信程度。记为 )(s u p/)(s u p)( Xp o r o r o n f i d e n c e 规则 A C: 支持度 = AC) = 50% 置信度 = AC)/A) = 图 1:支持度计算图解 0 A, B, C 20 A, C 30 A,D 40 B,E,F A 75% B 50% C 50% A,C 50% 南京财经大学本科毕业论文 8 (二) 993年提出的,它的基本思想是: 首先找出所有具有超出最小支持度的支持度项集,用频繁的 (k 1)次利用大项集产生所需的规则; 任何频繁项集的所有子集一定是频繁项集是 其核心。 一个是生成条目集;第二个是使用生成的条目集创建一组关联规则。 长度为 长度为 频繁项 ; k = 1; =; k+) do k+1 = 由 据库中的事务 t 加包含在 t 中的所有候选 的计数 = 中满足 南京财经大学本科毕业论文 9 图 2:数据库 0 A, C, D 20 B, C, E 30 A, B, C, E 40 B, E A 2 B 3 C 3 D 1 E 3 第一次扫描 A 2 B 3 C 3 E 3 二 次扫描 1 2 1 2 3 2 2 2 3 2 三 次扫描 2 2 南京财经大学本科毕业论文 10 三 、实证分析 本数据来源为某网站某天 的全部 (一) 数据预处理 由于 此选用数据库作为分析工具 , 将原始数据导入数据库 ,取出前 10000行日志数据,处理如下 : 在缺失值的整行 -删除,访问方式除 删除; 2. 用户识别:由于数据中不存在 是操作系统类型或者浏览器软件不同的情况, 从而认为不同的 路径补充:用户会话被定义为用户在对网 站的一次访问过程中所请求的 某一用户发出连续两个 这两次请求被划分在同一用户会话中,否则分别属于两个不同的用户会话,对与本数据, 时间阈值设为 30分钟。 (二) 模式发现 对数据进行简单处理,得出以下描述性统计: 总用户数: 1469 总链接数: 146 /1066; /1056; /052; /010; 南京财经大学本科毕业论文 11 /73; /63; /54; /53; /53; /29. 2. ( 1)生成数据库集 从描述性统计中得到的不同用户作为数据库集的行自变量,不同 的链接作为列自变量 ;当用户 j,则其对应项 1,否则 0; 设置相应的覆盖要求, 这样我们可以同时得到单项集合 。 ( 2)生成关联规则 从单项集合中,生成可能的双项集合规则,分别计算置信度。 ( 3)结果部分 见表 1:关联度计算结果表 (三 )模式分析 当我们把最小置信度设为 85%,通过关联规则的形成以及对应置信度的计算,我们可以从中得到以下有用的信息: 们可以这样认为,用户群体在浏览 相关网页时,所呈列的链接之间是有很大关联的,他们是用户群的共同爱好,通过网页布局的调整,从某种意义上,可以带来更高的点击率及潜在客户; 们可以这样认为,用户群体对所呈列链接之间没太多的关联,亦或关联规则中的链接在争夺用户。 南京财经大学本科毕业论文 12 表 1:关联度计算结果表 关联度 关联 数 分母 数 分子 分母 18 130 /18 133 /14 129 /12 128 /12 128 /12 128 /12 129 /12 130 /14 133 /53 179 /09 129 /12 133 /53 182 /09 130 /48 179 /47 178 /47 179 /46 178 /48 181 /46 182 /45 181 /42 178 /45 182 /42 181 /7 181 / (算法详 见附录) 南京财经大学本科毕业论文 13 四 、个性化推荐 通过以上的关联 分析, 有了用户频繁访问路径和链接之间的兴趣度,可以构建个性化推荐系统模型。对于以上的实证例子,我们可以在置信度高于最低置信度的相关链接之间,建立某种信息快速互联的桥梁, 亦或是在网页规划中,充分考虑链接之间的关联关系,从而为更人性化、合理化的网页设计提供决策依据。如:当客户浏览 / 么,在两者之间就存在很高的关联性,从而我们有必要对这两个链接建立某种跟紧密的联系。 五 、结束语 本文 先研究了 绍了 后着重介绍了如何利用 出浏览页面之间的关联规则,为个性化推荐系统模型提供了依据。 志挖掘作为 今年来已经取得了一些突破性的进展 , 但是由于 不确定性和多样性 ,以及 有很多问题亟待解决 , 有待于我们进一步去研究和探索。 南京财经大学本科毕业论文 14 参考文献 1 李国慧 数据库与信息管理本 ,2008年 1月 12日 2. 王 玉珍 J 2003年 4月 3 张莉 教育与教学研究 ,2009年 4月第四期 4 苏晶 中国新技术新产品 ,2008 ) 5 叶苗群 宁波工程学院学报 ,2005年 6月 6 郭欣 ,许林英 微机处理 , 2008年 10月 5期 7 据挖掘教程 M2003版 8. 高哲 ,魏海平 ,王福威 ,赵晓碧 计算机工程与设计 ,2008年 9月 9志挖掘技术研究,光盘技术, 2008年第 4期 10刘建东等 J11刘美玲 ,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年药师考试高级辅助用药试题及答案
- 2025年即将到来的语文考试试题及答案
- 地方文化保护与地方经济发展的关系试题及答案
- 行政管理专业的语文学习方法试题及答案
- 2025卫生资格考试重要知识点试题及答案
- 主管护师考试时间管理技巧与试题及答案
- 大学语文考试实践类型题目及答案(2025年)
- 行政管理专科流程优化路径试题及答案
- 护理责任与权利的平衡2025年试题及答案
- 地方历史文化在政策制定中的作用试题及答案
- 办公场地租赁合同示范文本
- 水利工程档案管理简单培训
- 社区文艺汇演服务合同(2篇)
- 中国慢性冠脉综合征患者诊断及管理指南2024版解读
- 活跃课堂气氛+激发学习兴趣
- 基于区块链技术的供应链管理平台构建
- 家居安全监测报警系统答辩
- 心梗的预防指南
- 四川省护理质量管理评价标准
- DB33T 2320-2021 工业集聚区社区化管理和服务规范
- 乡村公路施工合同
评论
0/150
提交评论