广告阅读行为分析系统-毕业论文_第1页
广告阅读行为分析系统-毕业论文_第2页
广告阅读行为分析系统-毕业论文_第3页
广告阅读行为分析系统-毕业论文_第4页
广告阅读行为分析系统-毕业论文_第5页
免费预览已结束,剩余44页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本科毕业论文(科研训练、毕业设计)题 目:广告阅读行为分析系统姓 名:学 院:软件学院系:软件工程专 业:软件工程年 级: 学 号:指导教师: 职称: 年 月 日摘 要电子杂志行业又是一个充满了跟随者和模仿者的市场,在这个广阔的市场中如何能抢先定位并锁定客户,是在现尚处于发展阶段的电子杂志行业中成功的关键,在此数据挖掘的技术得到了广泛的使用。对于一个电子媒体,了解读者的行为及背景,有利于准确地投放广告,提高广告的点击率。同时,提供一份较合理的读者分类系统,也有助于在广告定价。可以借助建模、数据挖掘等技术,在网络公司现有数据的基础上建立模型,并进行数据挖掘分析,得出有价值的信息,并以可视化的图形和报表形式提供科学决策。本项目旨在通过研究和分析读者的阅读行为,建立合适的数据分析模型,挖掘出有用的信息,以助于相关企业选择更好的内容,改善阅读便利性,增加广告投放的针对性等,并给出数据收集的一些建议。总而言之,通过研究分析,给用户的决策管理提供有力的理论支持和实践指导。在此主要采用的是基于Apriori算法的关联规则挖掘,即从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识,在开发过程中,使用了多种排序和剪枝的方法,尽量降低了内存和CPU的使用。随着收集和存储在数据库中的数据规模越来越大,对从这些数据中挖掘相应的知识越来越重要,从大量的数据中发现有价值的知识有利于科学的决策,特别是对电子杂志商务公司而言具有积极重要的意义。关键词:关联规则,数据挖掘,Apriori算法An Analysis System of Advertisement Reading BehaviorAbstractElectronic magazine is an industry full of followers and imitators, in the broader market, how to pre-empt and lock customers is the key to success in the developing stage of the electronic magazine industry; here data mining technology has been widely used. For an electronic media company, to understand the behavior and background of reader helps to accurately put advertisements. Meanwhile, to provide a more a reasonable reader classification system is also important to fix a price of advertisement. It is able to mine the dataset collected by the company and provide some scientific decision, using mathematical model and data mining technology. The project aims at Mining out useful information to help company select better magazine to improve reading status, by build reasonable models through research and analysis the reading characters. In short, we could provide the theoretical support and practical guidance to managers by analyzing the correlated data. We utilize the some methods based on algorithm Apriori to Mining Association Rules, and use a variety of sorting and pruning methods in the mining process to minimize the memory and CPU usage. It is becoming more important to mining useful knowledge from the increasing database, which can provided some scientific decision-making, especially for electronic magazine companies.Key words: Association Rules, Data Mining, Apriori Algorithm 目 录第一章 绪言11.1 项目背景和意义11.2 行为分析系统现状21.3 电子杂志行业所面临的问题31.4 主要工作和论文结构3第二章 行为分析系统的框架设计52.1 项目需求和主要工作52.2 项目的解决方案62.3 数据采集62.4 分析功能框架72.5 拟建立的挖掘模型82.6 项目的系统构架92.7 系统功能模块详细设计92.8 小结11第三章 广告阅读行为分析系统框架设计123.1 ARB系统模型设计123.1.1 ARB系统项目需求123.1.2 ARB系统模块划分123.2关联规则原理介绍133.2.1 Apriori 算法133.2.2 关联规则的生成173.3 小结18第四章 ARB系统开发与测试194.1 引言194.2 ARB系统模块设计204.2.1 数据导入模块204.2.2 频繁项集生成模块214.2.3 关联规则挖掘模块244.3 ARB系统结果展示254.3.1 用户版块访问记录254.3.2 杂志访问记录274.4 ARB系统开发环境294.5 小结29第五章 结论与展望30参考文献31致 谢32CONTENTSChapter 1 Introduction11.1 Backgroud and Significance11.2 Research Status21.3 Problems of Electronic Magazine31.4 Main works and Construction of Paper3 Chapter2 Frame Design52.1 Project Need and Major Work52.2 Project Solution62.3 Data Collection62.4 Analysis Frame72.5 Mining Model82.6 System Frame of Project92.7 Desine of System92.8 Conclusion11Chapter 3 ARB System Frame of Advertisement Reading Behavior123.1 ARB Syetem Model Design123.1.1 ARB Syetem Project Need123.1.2 ARB Syetem Modular Division123.2 Assolution rule Introduction133.2.1 Apriori Algorithm133.2.2 Assolution Generation173.3 Conclusion18Chapter 4 ARB System Development and Test194.1 Introduction194.2 ARB System Design204.2.1 Data Import Module204.2.2 Frequent Set Generation Module214.2.3 Mining Association Rules Module244.3 ARB System Result Display254.4.1 Records of Users visit plate254.4.1 Records of Magazine264.4 System Development Environment294.5 Conclusion29Chapeter 5 Conclusions30Reference31Acknowledgement3243第一章 绪言第一章 绪言网络数据分析是网络信息计量学的重要组成部分,也是当前网络界、新闻传播界、信息管理界都十分关注的热点研究领域之一。对网站而言,其点击率可以反映出该网站的影响力,收集某个网站相关的详细数据,并进行挖掘,通常可以得到合理的、有用的结果。例如对读客网()而言,收集数据并进行合理的分析,通常可以给读客网管理者提供理论决策支持。1.1 项目背景和意义2005年下半年,一种新形式的电子杂志开始出现在国内互联网上。从2006年开始,关于这种新型电子杂志的讨论逐渐成为传媒行业和IT界的热门话题。2006年3月26日下午在上海复旦大学举办的首届中国传媒创新年会上,作为新兴电子杂志领域领跑者的POCO荣获2005年“最具发展潜力创新传媒”奖,它同时也是这个领域唯一获此殊荣的杂志。而Zbox(鹏泰传播)网络互动杂志传播平台也一个成功的例子。MagBox(魔幻盒子)依托POCO强势平台、超过1800万的海量宽带用户、先进的第三代P2P核心引擎技术及雄厚的研发实力, 广州数联软件技术有限公司于2005年8月推出新一代电子发行平台MagBox(魔幻盒子),是中国顶级电子杂志传播分享平台。其实,可以认为不应把电子杂志简单地视为一种新的杂志形式,事实上,更应视其为一种新的媒介技术和工具。一份优秀的电子杂志绝不仅仅是一份杂志,而是一个优质多媒体信息传播平台。此外读客网作为一个网络电子杂志的传播者得到了迅速的发展。目前有关新型电子杂志的研究主要集中在其盈利模式的讨论,而忽视了对这一新的媒介形式特征和传播效果的研究。第三代电子杂志区别于前两代最大的特点在于同时具有互动性、多媒体性、利用P2P平台发送三个特点。多媒体和P2P发送平台都只是技术问题,各大杂志制造商之间最大的竞争恰是在于对自己杂志互动性的开发上。提到互动,不能忽视在电子杂志背后网络虚拟社区的强大支撑。正是基于这一点,可以看到越来越多有远见的电子杂志策划人员对自己产品的定位已经超越了杂志。例如,知名电子杂志澜,其终极目标就是最终形成有吸引力的时尚知识女性的网络社区。对互动多媒体网络杂志而言,最重要的不再是杂志的内容,而是如何增强用户对由杂志而形成的网络社区的认同感和归属感,进而形成对该品牌的忠诚度。网络电子媒体的发展成为一种潮流, 比如读客网的目标是成为新一代网络分众媒体。对读客网而言,谁是最好的客户?怎样做能留住他们?怎样吸引其它这样的用户?怎样改进运行方式提高竞争力,这些问题日趋紧迫。为了获得可靠回答,需要在每天收集的毫无关联的数据中生成情报。识别正确的人群,正确的渠道,及正确的出价,来获得最大收益。通过建立一套完整的程序:数据导入、建立模型和进行数据挖掘,结果展示。从帮助企业阐明以用户为重的战略来瞄准最好的前景,建立一套能在用户关系上获得最大回报的解决方案。通过分析用户阅读行为,了解杂志的被阅读状况,对读客网公司而言意义重大。本项目通过研究和分析读客的阅读行为,建立数据分析模型,挖掘出有用的信息,以助于读客网选择更好的杂志内容,改善阅读便利性,增加广告投放的针对性等,并给读客网的数据收集提供一些建议。总而言之,本项目通过采用现代数据挖掘技术20,力求给读客网的决策管理提供有力的理论支持和实践指导方针。1.2 行为分析系统现状在新一代电子商务网站的发展进程中,往往能够投入大量精力收集信息,并将信息以各种形式保存下来,往往缺乏相关的分析模型,空有大量信息却无法加以应用。例如,虽然大部份的数据库都有点击率的统计,但这说明不了太大的问题。首先,点击率可以通过技术手段来虚加;其次不能作读者行为分析,即读者对这些数据的关心度,读物内容是否真的符合读者的口味,能否长期吸引读者等等。网站采用电子读物的依据,网站的发展方针、规则制定的依据,价格的定位,都应该建立在科学的决策数据之上。只有满足用户和读者的需要才能符合现代电子商务网站的目标。作为电子商务网站,应该关注读者在网站的访问行为,访问规律甚至访问动机。知道网站的哪些部分最为读者喜爱、哪些让读者感到厌烦。网站有没有安全漏洞,怎样的改动能显著地提高读者的满意度、什么样的改动反而会丢失读者。对电子商务网站进行数据挖掘,通常可以给企业提供有力的理论支撑,比如对电子杂志的商务网站收集相关数据,并进行挖掘,成为了企业决策的一种常用手段。目前关于行为挖掘的方法众多,比较典型的有关联规则1,2,8、回归模型3,4、聚类分析5-7等等。特别是Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率。关联规则的应用领域主要是商业领域,比如交易数据分析、网络流数据分析,读客阅读行为也可以用关联规则来进行挖掘。目前关联规则挖掘的研究很多,有比较成型的软件,比如SAS、SPSS等。1.3 电子杂志行业所面临的问题现在的电子杂志行业还处于探索阶段,对于盈利只有模糊的方向,就如同当初的门户网站一样。电子杂志的发行平台公司要充分的挖掘盈利模式仍然还需要更多的时间。但是这又是一个充满了跟随者和模仿者的市场,在这个广阔的市场中如何能抢先定位并锁定客户,是在现尚处于发展阶段的电子杂志行业中成功的关键。对于一个电子媒体,了解读者的行为及背景,有利于准确地投放广告,提高广告的点击率6,9。同时,能够提供一份较完整的读者分类系统,也有助于在广告的定价议价方面,占据主动。但由于网络的虚拟性和不确定性,读者资料的采集到最后分类,往往充满了不确定性。为了提高网络商务公司对读者的把握,需要借助建模、数据挖掘等技术的帮助8-12。对众多的企业也而,当然也包括读客网公司等网络电子杂志领域的众多企业,谁是企业最好的客户?企业怎样做能留住他们?企业怎样吸引其它这样的客户?企业怎样改进企业运行方式提高企业竞争力,这些问题日趋紧迫。为了获得可靠回答,企业需要在企业每天收集的毫无关联的客户数据中生成情报。识别正确的人群,正确的渠道,及正确的出价,来获得最大收益。建立一套闭环的CRM程序:计划,目标,行动和学习。从帮助企业阐明客户为重的战略来瞄准企业最好的前景,建立一套能使得企业在客户关系上获得最大回报的解决方案。网络电子杂志公司的目标是成为新一代网络观众媒体,通过分析读客的阅读行为,了解杂志的具体阅读情况,对于网络电子杂志公司的进一步发展是很有意义的,也是十分必要的。比如对读客网而言,要成为一个成功的挖掘案例,我们首先需要能回答多个方面问题,比如读客网的赢利模式是什么,在过去的几个月里有多少人使用读客网,每本杂志的具体阅读情况如何等。本项目的研究,主要是对读客网的一个初步的研究和探讨,并建立相应的数据挖掘模型(比如关联规模型,分类模型14-18,20) ,为此我们需要进行相应的数据收集,搭建相应的数据分析框架,建立相应的挖掘模型等工作,才能完整地完成本项目的需求。1.4 主要工作和论文结构本项目主要是对读客网的一个初步的研究和探讨,其最终工作将是提供一个用户行为分析系统,能够在已有收集的数据基础上,可以进行数据挖掘,挖掘出有用的信息,并提供可视化的结果和相应报表功能。系统整体构架包括:用户行为分析系统从总体上分为数据预处理、数据分析和分析结果输出与展示三个功能。在此项目中,本人负责的主要工作是设计并实现基于关联规则的广告阅读行为分析系统。包括数据导入,数据预处理,频繁项集生成,第二章 行为分析系统的框架设计真子集生成及关联规则生成等工作。在开发的过程中,从优化程序效率的角度考虑,多处采用排序,中间变量介入等简单而实用的编程技巧,降低了对数据库的重复次数。同时设计有简单实用的输出界面,可以在脱离整体系统的情况下,直接观察数据计算的结果。主要工作包括如下:(1) 参与设计读客网用户阅读行为追踪与分析系统的方案设计;(2) 建立适合读客网的广告阅读行为的关联规则挖掘模型;(3) 设计并开发出一个广告阅读行为分析系统。本文内容共分为五个章节,各章节安排如下:第一章 绪论,介绍了课题的开发背景及情况、行为分析系统的现状以及存在的问题等,最后简述了本文的研究内容以及创新点。第二章 介绍行为分析系统的框架设计。包括项目背景,项目需求,模块划分和框架设计。第三章 是本论文的核心内容,详细介绍了广告阅读行为分析系统框架设计。包括Apriori算法介绍,关联规则生成介绍,模型设计,框架设计。第四章 是系统开发的详细描述。包括了整个基于关联规则的分析系统的函数设计,计算流程,界面介绍,功能介绍,结果演示。第五章 对本论文的一个总结和展望,同时分析本系统存在的不足并对该模型的进一步研究进行了展望。第二章 行为分析系统的框架设计根据实际的行为分析需求,设计出相应的解决方案,包括系统整体框架。特别是本项目通过对读客网的需求分析,设计出一套合适的方案,主要功能包括了数据预处理模块、数据分析模块和分析结果输出展示模块三大功能。2.1 项目需求和主要工作电子杂志成为新一代网络分众媒体,通过分析用户的阅读行为,了解杂志的被阅读状况,对电子杂志商务公司而言意义重大。从赚钱的角度来看,电子杂志的商务公司盈利来源不外乎三点:一个是广告,一个是发行,一个是增值服务。多媒体杂志,或者说电子杂志,正在成为风险投资商的新宠。伴随着这股热潮的则是多媒体杂志内容提供商和发行平台的风起云涌。仅从2005年底到2006年初,2个月就出现了20多家电子杂志的发行平台。广告收费目前几乎是多媒体杂志主要的盈利途径。即便如此,在目前出现的上千家多媒体杂志中,能够有广告收入的也不超过十家。这一方面在于多媒体杂志刚刚起步,广告商还没有意识到它们的价值,另一方面则在于旗舰性的多媒体杂志并不多见。而对广告而言,读者的多少可以从很大程度上反映出其成败,因而对广告阅读行为的挖掘已经成为众多电子杂志商务公司的关注点之。本项目旨在通过研究和分析读客的阅读行为,建立数据分析模型,挖掘出有用的信息,以助电子杂志的商务公司选择更好的杂志内容,改善阅读便利性,增加广告投放的针对性等,并给数据收集提供一些建议。总而言之,本项目通过采用现代数据挖掘技术,力求给电子杂志的商务公司的决策管理提供有力的理论支持和实践指导方针。对读客网而言,谁是最好的客户?怎样做能留住他们?怎样吸引其它这样的用户?怎样改进运行方式提高竞争力,这些问题日趋紧迫。为了获得可靠回答,需要在每天收集的毫无关联的数据中生成情报。识别正确的人群,正确的渠道,及正确的出价,来获得最大收益。建立一套完整的程序(图2.1):数据导入、数据预处理、建立模型和数据挖掘、结果展示,其中本人主要参与了建立模型和进行挖掘的相关工作。从帮助企业阐明以用户为重的战略来瞄准最好的前景,建立一套能在用户关系上获得最大回报的解决方案。主要的工作有以下一些:(1) 读客网原始数据需求(2) 用户阅读行为分析(3) 建立相应的数据挖掘模型(4) 开发读客网的专用数据挖掘系统本项目的主要目标有以下几方面:(1) 保留老读客,挖掘新读客(2) 借助收集好的相关数据,分析读客阅读行为的特征,进行分类(3) 统计读客的分布状况(4) 杂志的分类(5) 其他图2.1 行为分析挖掘流程2.2 项目的解决方案本项目的研究,要成为一个成功的行为挖掘案例,我们首先需要能回答以下几方面问题:(1) 读客网的赢利模式是什么(2) 在过去的几个月里,有多少人使用读客网(3) 每本杂志的具体阅读情况如何(4) 读客阅读模式的挖掘(5) 每本杂志之间的关联状况(6) 读客感兴趣的什么影响杂志订阅行为背后的因素是什么(7) 读客阅读模式的挖掘(8) 数据的收集按何种方式进行(9) 其它为此,我们需要进行相应的数据收集,搭建相应的数据分析框架,建立相应的挖掘模型等工作,才能完整地完成本项目的需求。下面章节将具体介绍方案的设计。2.3 数据采集进行挖掘工作之间,需要事先收集相关的数据,数据收集工作是需要读客网公司人员的配合和帮助。读客网公司需要提供的数据主要包括三个方面的数据:用户基本资料的数据、用户阅读相关方面的数据、杂志相关的数据和用户反馈的数据。大致包括如图2.2方面的数据收集。图2.2 数据收集2.4 分析功能框架根据已收集好的数据,进行分析和建模,挖掘出其潜在的有价值的信息。具体的建立模型是和最终收集到的数据相关联的。针对读客网的实际情况和需求,我们拟建立了初步的分析框架如图2.3。2.4.1 基于平台结构的分析。基于平台内容分析与挖掘是指从平台的文档、网页、电子杂志中发现其内在的关联规则,进而发现其中最有价值的网页与杂志,为企业的决策提供有力的依据。其次有利于在Web平台上建立更加优化的结构,从而有利于提高系统的访问速度。包括网页重要性分析、电子杂志关联规则分析、广告的合理部署的策划等。本人主要参与了电子杂志关联分析这一部分的工作。2.4.2 基于平台使用的分析。主要包括:广告商主要行为的挖掘分析、基于聚类的读者分析、读客分类模式的建立、读客统计分布的分析、读客和赢利之间的关系挖掘等。本人主要参与了行为分析这一部分的工作。 统计分布用户阅读行为追踪与分析系统基于平台结构分析基于平台使用分析网页的重要性分析电子杂志关联分析广告的合理部署流数据分析行为分析读者分类模式的建立图 2.3 用户阅读行为分析框架2.5 拟建立的挖掘模型根据计划收集到的数据和项目的功能需求,针对广告阅读行为的相关特征,我们拟将拟建立以下的一些模型(图2.4),具体的模型需要跟最终收集到的数据相关联的,可以说部分模型的功能运作是由最终收集到的数据来决定的。本人主要参与了关联规则模型的建立。行为分析系统统计分布相关分析分类流数据分析关联规则图2.4 行为分析模型2.6 项目的系统构架本项目的最终工作将是提供一个用户行为分析系统,能够在已有收集的数据基础上,可以进行数据挖掘,挖掘出有用的信息,并提供可视化的结果和相应报表功能。系统整体构架:用户行为分析系统从总体上分为数据预处理、数据分析和分析结果输出与展示三个功能。其模块细分与总体结构如图2.5所示。本人主要参与了行为分析模块的设计和开发。用户行为分析系统数据预处理模块分析结果输出展示模块数据分析模块数据导入数据清洗数据转换结构分析模块行为分析模块网页链接分析杂志关联分析用户统计分布分析用户分类关联分析分类结果统计分布关联规则相关分析生成相关报表图2.5 用户行为系统模块细分根据读客网公司的需求,我们可能将需求的功能编写为7大模块,并分别提供相应的接口。2.7 系统功能模块详细设计2.7.1 数据预处理模块由于该行为分析系统设计基于已获得所需数据的情况下,因此不考虑进行数据收集,其所需原始数据由读客网提供。该模块应实现数据导入、清洗和转换功能。(1) 数据导入:通过读客网提供的数据接口或数据文件,将数据导入分析系统自身的数据仓库中。(2) 数据清洗:在数据导入的过程中对原始数据进行完整性检查,对于缺失数据进行处理,对于无效数据进行相应的过滤。(3) 数据转换:根据数据分析与挖掘的需要设计并建立数据仓库,并对原始数据格式进行转换以符合数据仓库要求的格式进行入库。2.7.2 基于平台结构的分析模块该模块主要用于分析和评估平台结构的合理性,并通过分析结果对平台结构设置进行调整和指导。依据网页链接重要性分析和杂志关联规则分析可以得出关于平台网页之间链接设置的有效性以及页面上电子杂志投放的合理性的一个评价参考,并根据分析得到的网页重要性排序与电子杂志关联规则,为现有平台结构的优化提供相应的建议和理论依据。(1) 网页链接重要性分析:通过对网页链接重要性进行计算和排序来评估平台中 不同网页的重要程度,以帮助确定如何进行网页放置与安排;(2) 杂志关联规则分析:通过对电子杂志进行共现分析与关联规则挖掘,找出什么样的杂志容易被读者同时阅读,从而确定在同一网页中应该放置那些杂志以提高读者的点击率同时增加该网页的重要性。2.7.3 基于读客行为的分析模块该模块主要用于分析读客的阅读行为,对不同的读客进行分类,提取不同类读客的特征,分析不同类读客与赢利之间的关系。根据相关的信息进行有效的广告投放,以达到保留老读客同时发展新读客的目的。(1) 读客统计分布分析:根据读客资料得到读客在不同属性上的分布,比如:年龄、职业。通过统计分布来帮助确定什么样的人群容易成为我们的读客,而什么要的人群难以成为我们的读客。并据此来对不同的人群制定不同的广告策略。(2) 读客的分类:可以通过对决策树或聚类算法对现有读客进行分类,提取同类读客的特征,根据不同的特征制定不同的广告策略与杂志投放;并将读客特征与读客价值进行关联,找出最具价值的那类读客并以具有该类特征的人群做为发展新读客的源泉。(3) 读客与赢利之间的关联分析:以杂志为中介手段进行数据收集,以赢利为目标进行关联规则的挖掘,从而得到读客和赢利之间的关系,并将该规则与读客分类结果进行类比得出哪一类读客是最具价值的读客,而具有这类特征的人群将成为发掘新读客的母体。2.7.4 分析结果输出与展示模块该模块以简洁、明了、正确、有效的形式化语言向用户展示数据分析的结果并产生相关的数据报表。(1) 统计分布:以直方图的形式展示读客在不同属性上的分布情况;(2) 分类结果:以饼图的形式输出读客的分类结果;(3) 杂志关联规则与赢利关联规则分析结果:输出关联公式以及支持度;2.8 小结本章主要介绍了行为分析系统的框架设计。本系统主要根据已收集好的数据,进行分析和建模,挖掘出其潜在的有价值的信息。具体的建立模型是和最终收集到的数据相关联的。其中,主要模块为数据预处理模块,基于平台结构的分析模块,基于读客行为的分析模块和分析结果输出与展示模块。本人主要负责的是基于读客行为的分析模块,同时为了配合毕业项目设计需要,还设计了部分分析结果输出与展示模块。第三章 广告阅读行为分析系统框架设计第三章 广告阅读行为分析系统框架设计根据实际的广告阅读行为分析需求,设计出相应的解决方案,包括系统整体框架。其中已分析模型和行为分析挖掘模块的开发是本人的主要工作。为了设计、开发和测试的便利,为本子系统加入独立的数据导入和界面展示部分,使之成为较为独立的系统,系统名称为广告阅读行为分析系统,简称ARB(Advertisement Reading Behavior System)。下面就这两部分展开详细介绍和探讨。3.1 ARB系统模型设计3.1.1 ARB系统项目需求该系统的分析模块主要用于分析读客的阅读行为,对读客进行分类,提取不同类读客的特征,分析不同类读客与赢利之间的关系。根据不同特征对读客进行有效的广告投放,以达到保留老读客同时发展新读客的目的。此外也包括部分广告商的行为挖掘,广告客户已经开始对电子杂志给予更多的关注,电子杂志平台性价比很高,广告表现力是其他媒体无法比拟的。广告商通常会根据价格和类型来选择合适杂志来进行宣传自己的产品。此时需要对广告商的广告投资行为进行分析,挖掘出最受欢迎的杂志,并尝试找出原因,以给以后的杂志投放提供合理的建议。关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。随着收集和存储在数据库中的数据规模越来越大,人们对从这些数据中挖掘相应的关联知识越来越有兴趣。例如:从大量的商业交易记录中发现有价值的关联知识就可帮助进行商品目录的设计、交叉营销或帮助进行其它有关的商业决策。本人主要致力开发关联规则挖掘系统,发现数据间的内在联系,并生产相关规则,提供决策和理论支撑。3.1.2 ARB系统模块划分根据关联规则的生成原理,分析系统主要划分为2个模块:频繁项集生成模块,关联规则挖掘模块。内容如图3.1所示。(1)频繁项集生成模块。主要负责生成频繁项集。由于挖掘符合要求的频繁项集是生成关联规则的基础,所以需要通过数据库资料,挖掘生成频繁项集。频繁项集模块中,主要包括频繁1-项集搜索模块及频繁集生成模块。先根据原始数据扫描统计生成频繁1项集,再在此基础上,使用Apriori算法生成频繁k-项集。结构如图3.2所示。频繁项集生成模块关联规则生成模块广告阅读行为分析系统图3.1广告阅读行为分析系统划分频繁k-项集生成模块频繁项集生成模块频繁1-项集搜索模块图3.2 频繁项集生成模块 (2)关联规则挖掘模块。主要负责从频繁项集中挖掘符合要求的关联规则。通过生成真子集,并对其进行频繁度计算,进而计算出支持度。从中发现符合理论规定的关联规则,提供用户使用,分析。其中主要包括真子集生成模块及支持度计算模块。真子集生成模块主要是通过运算,生成真子集。支持度计算则利用生成的真子集计算频繁度,生成支持度,并最终找到符合支持度大于最低支持度的关联规则。结构如图3.3 所示。关联规则挖掘模块真子集生成模块支持度计算图3.3 关联规则挖掘模块3.2关联规则原理介绍3.2.1 Apriori 算法Apriori算法是挖掘产生布尔关联规则所需频繁项集的基本算法13-15,19;它也是一个很有影响的关联规则挖掘算法。Apriori算法就是根据有关频繁项集特性的先验知识(Priori knowkedge)而命名的。该算法利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。这一循环方法就是利用k-项集来产生(k+1)-集。具体做法就是:首先找出频繁1-项集,记为L;然后利用L1 来挖掘L2,即频繁2-项集;不断如此循环下去直到无法发现更多的频繁k-项集为止。每挖掘一层Lk就需要扫描整个数据库一遍。为提高按层次搜索并产生相应频繁项集的处理效率。Apriori算法利用了一个重要性质,又称为Apriori性质来帮助有效缩小频繁项集的搜索空间。下面就要介绍这一性质并给出一个示例来说明它的用途。Apriori性质:一个频繁项集中任一子集也应是频繁项集。Apriori性质是根据以下观察而得出结论。根据定义:若一个项集I不满足最小支持度阈值S,那么该项集I 就不是频繁项集,即P(I)S;若增加一个项A到项集I 中,那么所获得的新项集IA在整个交易数据库所出现的次数也不可能多原项集I出现的次数,因此IA也不可能是频繁的,即P(IA)S.这样就可以根据逆反公理:即若一个集合不能通过测试,该集合所有超集也不能通过同样的测试。因此很容易确定Apriori性质成立。为了解释清楚Apriori性质是如何应用到频繁项集的挖掘中的,这里就以用Lk-1来产生Lk为例来说明具体应用方法。利用Lk-1来获得Lk主要包含两个处理步骤,即连接和删除操作步骤。(1) 连接步骤。为发现Lk,可以将Lk-1中两个项集相连接以获得一个Lk的候选集合Ck。设l1和l2为Lk-1中的两个项集(元素),记号lij 表示li中的第j个项;如lik-2就表示li中的倒数第二项。为方便起见,假设交易数据库中各交易记录中各项均已按字典排序。若Lk-1的连接操作记为Lk-1Lk-1,它表示若l1和l2中的前(k-2)项是相同的,也就是说若有:(l11=l21)(l1k-2=l2k-2)(l1k-1=l2k-1),则Lk-1中l1和l2 的内容就可以连接到一起。而条件(l1k-1l2k-1)可以确保不产生重复的项集。(2)删除步骤。Ck是Lk的一个超集,它其中的各元素(项集)不一定都是频繁项集,但所有的频繁k-项集一定都在Ck,即有LkCk。扫描一遍数据库就可以决定Ck中各候选项集(元素)的支持频度,并由此获得Lk中各个元素(频繁可k-项集)。所有频度不小于最小支持频度的候选项集就是属于Lk的频繁项集。然而由于Ck中的候选项集很多,如此操作所涉及的计算量(时间)是非常大的,为了减少Ck的大小,就需要利用Apriori性质:“一个非频繁(k-1)-项集不可能成为频繁k-项集的一个子集”。因此若一个候选k-项集中任一子集((k-1)-项集)不属于Lk-1,那么该候选k-项集就不可能成为一个频繁k-项集,因而也就可以将其从Ck中删去。可以利用一个哈希表来保存所有频繁项集以便能够快速完成这一子集测试操作表 3.1 一个商场的交易记录数据TID交易记录中各项的ID列表T100T200T300T400T500T600T700T800T900I1,I2,I3I2,I4I2,I3I1,I2,I4I1,I3I2,I3I1,I3I1,I2,I3,I5I1,I2,I3示例3.1:基于如表3.1 所示数据和Apriori算法进行频繁项集的挖掘。交易记录数据库D中共有9条交易记录,即有|D|=9。如表3.1所示。下面就将介绍利用Apriori算法挖掘频繁项集的具体操作过程。(1) 算法的第一遍循环,数据库中每个(数据)项均为候选1-项集C1中的元素。算法扫描一遍数据库D以确定C1中各元素的支持频度。如图3.4 所示。(2) 假设最小支持频度为2(min_sup=2/9=22%)。这样就可以确定频繁1-项集L1。它是由候选1-项集C1中的元素组成。(3) 为发现频繁2-项集L2,算法利用L1L1,来产生一个候选2-项集C2;C2中包含 个2-项集(元素)。接下来就扫描数据库D,以获得候选2-项集C2中的各元素(2-项集)支持频度。如图3.5所示。图3.4 搜索候选1-项集和频繁1-项集(4) 由此可以确定频繁2-项集L2内容。它是由候选2-项集C2中支持频度不小于最小支持频度的各2-项集。图3.5 搜索候选2-项集和频繁2-项集(5) 所获得的候选3-项集C3,其过程如表3.2所示。首先假设C3 = L2L2,即为I1,I2,I3,I1,I2,I5,I1,I3,I5,I2,I3,I4,I2,I3,I5,I2,I4,I5。根据Apriori性质“一个频繁项集的所有子集也应是频繁的”,由此可以确定后四个项集不可能是频繁的,因此将它们从C3除去,从而也就节约了扫描数据库D以统计这些项集支持频度的时间。这里需要强调的是,给定一个候选k项集Ck,只需要检查那些(k-1)-项集是否为频繁项集即可,因为Apriori算法是按层次进行循环搜索的。如图3.6所示。图3.6 搜索候选3项集和频繁3项集表3.2 根据L2产生候选3项集C31. 连接操作:C3=L2L2=I1,I2,I1,I3,I2,I3,I2,I4,I2,I5 I1,I2,I1,I3,I1,I5,I2,I3,I2,I4,I2,I5=I1,I2,I3,I1,I2,I5,I1,I3,I5,I2,I3,I4,I2,I3,I5,I2,I4,I52. 利用Apriori性质进行删减,即一个频繁项集的所有子集均应是频繁项集。以下就是判断哪个候选项集包含一个非频繁项集过程:l I1,I2,I3的2-项集(子集)为I1,I2,I1,I3和I2,I3。它们均属于L2。所以C3中保留I1,I2,I3;l I1,I2,I5的2-项集(子集)为I1,I2,I1,I5和I2,I5。它们均属于L2。所以C3中保留I1,I2,I5;l I1,I3,I5的2-项集(子集)为I1,I3,I1,I5和I3,I5。其中I3,I5不属于L2。所以I1,I3,I5为非频繁项集,从C3中除去I1,I3,I5;l I2,I3,I4的2-项集(子集)为I2,I3,I2,I4和I3,I4。其中I3,I4不属于L2。所以I2,I3,I4为非频繁项集,因此从C3中除去I2,I3,I4;l I2,I3,I5的2-项集(子集)为I2,I3,I2,I5和I3,I5。其中I3,I5不属于L2。所以I2,I3,I5为非频繁项集,因此从C3中除去I2,I3,I5;l I2,I4,I5的2-项集(子集)为I2,I4,I2,I5和I4,I5。其中I4,I5不属于L2。所以I2,I4,I5为非频繁项集,因此从C3中除去I2,I4,I5;3. 所以得到删减后的候选C3=I1,I2,I3,I1,I2,I5 (6)扫描交易数据库D以确定L3内容。L3是由C3中那些支持频度不小于最小支持频度的3-项集组成。算法利用L3L3来获得候选4-项集C4。虽然所获得C4为I1,I2,I3,I5。但由于I2,I3,I5是非频繁项集,因此从C4中除去I1,I2,I3,I5,从而得到C4= 。至此Apriori算法由于无法发现新的项集而结束。3.2.2 关联规则的生成在从数据库D中挖掘出所有的频繁项集后,就可以较为容易获得相应的关联规则。也就是要产生满足最小支持度和最小信任度的强关联规则,可以利用公式(3.1)来计算所获关联规则的信任度。这里的条件概率是利用项集的支持频度来计算的。 (3.1)其中support_count(AU) 为包含项集AB的交易记录数目;support_count(A)为包含项集A的交易记录数目;基于上述公式,具体产生关联规则的操作说明如下:(1) 对于每个频繁项集l,产生l的所有非空子集;(2) 对于每个l的非空子集s,若;则产生一个关联规则“s(l-s)”;其中min_conf为最小信任度阈值。由于规则是通过频繁项集直接产生的,因此关联规则所涉及的所有项集均满足最小支持度阈值。频繁项集及其支持频度可以存储在哈希表中以便它们能够被快速存取。示例3.2:以如表2.1所示数据为例,来说明关联规则的生成过程。假设频繁项集l=I1,I2,I5。以下将给出根据l所产生的关联规则。l的非空子集为:I1,I2、I1,I5、I2,I5、I1、I2和I5。以下就是据此所获得的关联规则及其信任度。(1) I1I2I5 confidence=2/4=50%(2) I1I5I2 confidence=2/2=100%(3) I2I2I1 confidence=2/2=100%(4) I1I2I5 confidence=2/6=33%(5) I2I1I5 confidence=2/7=29%(6) I5I1I2 confidence=2/2=100%如果最小信任度阈值为70%,那么仅有第(2)个、第(3)个和第(6)个规则,由于它们的信任度大于最小信任度阈值而被保留下来作为最终的输出。3.3 小结本章主要介绍了ARB的框架,本人主要负责此子系统的开发。本章主要介绍了模型设计和关联规则的相关算法原理。弟四章 ARB系统开发与测试第四章 ARB系统开发与测试根据实际的广告阅读行为分析需求,设计并开发整个系统。本项目主要是从读客网的需求分析出发来开发系统的,且本人的主要工作是建立关联规则模型,并开发相应的模块。下面就这部分工作作个介绍,并采用了广告阅读行为的模拟数据来进行实验,结果表明该模块可以挖掘出有价值的结论,从而给决策者提供理论支持。4.1 引言由于本模块为网络商务公司读者分析系统的子模块,主要功能是基于关联规则的行为分析,但作为毕业设计需求,本人也实现数据导入和结果输出的功能模块,构建了一个相对独立的子系统。实践中需要本模块具备以下特点:能够直接获取指定数据库中的指定字段数据,在此基础上自行分析处理,最终获得符合要求的、准确的结果。根据关联规则的原理可知,子系统的实际运行需要多次扫描数据库,耗费大量时间和系统内存。为了尽量弥补本缺陷,本模块采用Apriori算法,同时在不影响结果的前提下,对分支进行修剪,尽量使时间和空间使用上,都降到可接受的范围内。为了方便观察计算结果,对本模块进行单独测试,本模块单独设计有结果展示界面,可以直观得观察到计算结果。图4.1 是主模块的主界面。图4.1 主界面其中,可以在支持度,信任度,循环次数三个控件中,分别输入支持度,信任度,及循环次数的数值。4.2 ARB系统模块设计 ARB系统主要分为四大模块。包括数据导入模块,频繁项集生成模块,关联规则挖掘模块及结果展示模块。其中,数据导入模块,频繁项集生成模块与关联规则生成模块间的数据流向呈线形关系。只有经过数据导入模块预处理后的数据,才能供频繁项集生成模块使用,并生成指定数量的k-项频繁集。关联规则模块则需要使用k-项频繁集进行处理,最终得出关联规则。下

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论