(企业管理专业论文)电子邮件广告营销发布模型的研究.pdf_第1页
(企业管理专业论文)电子邮件广告营销发布模型的研究.pdf_第2页
(企业管理专业论文)电子邮件广告营销发布模型的研究.pdf_第3页
(企业管理专业论文)电子邮件广告营销发布模型的研究.pdf_第4页
(企业管理专业论文)电子邮件广告营销发布模型的研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(企业管理专业论文)电子邮件广告营销发布模型的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

两费 电子部件营销是将电子邮件作为专业的网络营销工具,将企业的产品信息 以邮件的形式发送给目的用户,从而实现与顾客的快速高效沟通。当前电子邮 件,。+ 告在国内外都得到了广泛的应用。但是由于发送的盲目性,效率不高。如 何区分不同的网络消费者,及时地了解他们所感兴趣的内容,从而进行有针对 性地,“一对一的营销”,是目前很多企业面临的问题。另一方面,企业的网站 里记录了大量的用户注册信息、测览信息,如何利用这些信息,从中挖掘出用 户的浏览规律,与电子邮件营销发布系统相结合,是提高营销效率的研究方向。 针对以上问题本论文的主要工作如下: i 分析电子邮件广告的营销现状,通过分析明确在邮件广告营销发布模型 中重点要改进的方面。 2 对此发布模型进行具体化的设计,运用网络消费者市场细分、定位方法 进行归纳,设计出一个包含记录、分析网站注册用户浏览信息的网站模型,得 到了一定量的注册用户的浏览信息,并且运用数据挖掘技术,将隐含在其中的 用户特征、偏好等等重要内容挖掘出来,从而为向用户发送有针对性地电子邮 件广告打下基础。 3 通过对网站浏览日志的分析,得 = h 了注册用户的产品偏好,并结合邮件 广告设计的技巧,提出邮件广告的发送方法。 本模型的研究具有广。泛的应用价值、学术价值。对于目前大多数电子邮件 广告发布系统都没有针对性地发布邮件的方法,如何合理利用企业网站自身的 资源,结合数据挖掘算法,提高邮件广告的营销效率,本文提出的模型具有很 强的指导意义。 关键词:电子邮件:网络消费者;数据挖掘:算法 a b s t r a c t e - m a i lm a r k e t i n gm e a n st r a n s m i t t i n gt h ep r o d u c ti n f o r m a t i o nb ye m a i l i t m a k e st h ec o m m u n i c a t i o nb e t w e e nt h em e r c h a n t sa n dc u s t o m e r se f f i c i e n t l y e m a i l m a r k e t i n gi sw i d e l yu s e dt h r o u g ht h ei n t e r n e t b u tt h ee f f i c i e n c yd o e sn o tf i tt h e e x p e c t a t i o n t h er e a s o ni s b l i n d n e s sd u r i n gs e n d i n gt h ea d v e r t i s e m e n t s oh o wt o d i s t i n g u i s hd i f f e r e n tk i n d so fc u s t o m e r sa n dh o w t og e tt h ec o n t e n tf o c u s e dt i m e l y a r et h em o s ti m p o r t a n tt h i n g o nt h eo t h e rh a n d ,t h e r ea r em a n yr e c o r d sa b o u tt h e u s e r s l o g - i ni n f o r m a t i o na n db r o w s i n gi n f o r m a t i o n i nt h ee n t e r p r i s e sd a t a b a s e h o wt om i n i n gt h eu s e f u lr u l e sf r o mt h ed a t a b a s ei sr e s e a r c h e df l o w i no r d e rt os o l v et h e s ep r o b l e m s ,t h i st h e s i sf o c u so nt h i sa i m sa sf o l l o w s : 1 a n a l y z i n gt h ep r o b l e m so f t h ee - m a i lm a r k e t i n g 2d e s i g n i n gaa d v a n c e de m a i la d v e r t i s e m e n ts e n d i n gs y s t e m u s i n gm a r k e t f r a c t i o na n d t a r g e tt o o l s m i n i n gt h er u l e si nt h eu s e r s b m w s ei n f o r m a t i o n c o l l e c t e d 3g e t t i n gt h eu s e r s p r e f e r e n c et h r o u g ht h ea n a l y s eo ft h ew e bl o g m a k i n go u t t h ee f f e c t i v em e t h o do f s e n d i n g t h ee - m a i la d v e r t i s e m e n t t h ea d v a n c e de m a i la d v e r t i s e m e n t s e n d i n gs y s t e m h a st h e e x t e n s i v e a p p l i c a t i o nv a l u e n o wm o s t o ft h ee m a i la d v e r t i s e m e n ts y s t e mh a sn oc u s t o m b u i l t f t m c t i o n t h er e s o u r c eh i d i n gi nt h ee n t e r p r i s ed a t a b a s ei sv a l u a b l eb u tn o tn o t i c e d h o wt og e tt h ei n f o r m a t i o nt h r o u g hd a t am i n i n gt o o l si s n e c e s s a r y t h ea d v a n c e d e - m a i la d v e r t i s e m e n ts y s t e mc a nb eg o o ds o l u t i o na b o v e p r o b l e m s k e y w o r d s :e - m a il :i n t e r n e t c u s t o m e r :d a t am in i n g ;a r i t h m e t i c 电子邮件广告营销发布模型的可l 究 1 引言 1 1 问题的提出 随着i n t e m e t 的普及和电子商务的迅速发展,网络营销正受到越来越多企业 的青睐。而电子邮件在电子商务发展中一直起着重要作用,正成为一种发现并留 住顾客的有效手段。电子邮件并非为营销而产生,但当电子邮件成为大众的信 息传播工具时,其营销价值也就逐渐显示出来。“电子邮件营销”这一概念听起 来并不复杂,但将电子邮件作为专业的网络营销工具,实际上并非那么简单, 不仅仅是将邮件广告发送给接收者,还要注意区分不同的网络消费者,及时地 了解他们所感兴趣的内容,从而进行有针对性地,“一对一的营销”,发挥出网 络营销方便、快捷、直接面对消费者的天然优势。 电子邮件广告相对于其他网络营销形式而言成本比较低廉,而电子邮箱的 用户数量又极其庞大,从而逐渐形成了电子邮件广告这巨大的市场。据 f o r r e s t e r 咨询公司最近的研究结果,到2 0 0 4 年,电子邮件营销将形成一个4 8 亿美 元的行业,届时每年将有2 0 0 0 亿次商业活动是通过电子邮件进行的。电子邮件 必将成为企业网络营销的一个重要工具。根据c n n i c ( 中国互联网信息中心) 在 2 0 0 4 年1 月发布的中国互联网络发展状况统计报告显示中国互联网络目前有网 民7 9 5 0 万,网民平均拥有的电子邮箱总数和免费的邮箱数分别为1 4 和1 3 : 用户每周收发的邮件数和2 0 0 3 年1 月的统计数据相比呈减少状态,分别达到 5 8 和4 1 ,在对“用户是否愿意收到网络广告邮件作为选择物品或服务的参考” 的凋奄中,回答愿意的占2 1 3 ,无所谓的为5 0 4 ,不愿意的为2 8 3 ,由 此可见,中国网民对于电子邮件广告大多数持无所渭的态度。也就是说,如果 电子邮件广告做的成功,则这个行业发展的空间会很快,但是如果做的不好, 则会让网民产生厌恶心理。 但是目前的电子邮件广告手段只停留在大量的邮件列表发送营销阶段 ( m a s sm a r k e t i n g ) ,其过程一般分为如下步骤:首先制定邮件。l 告发布计划, 分析目前所拥有的电子邮件营销资源,决定使用内部邮件列表营销还是采用外 部邮件列表营销;其次设计邮件内容;第三,投放电子邮件;最后,进行反馈 电子邮件广告营销发布模型的研究 和总结。在这过程中,决定使用内部邮件列表还是外部邮件列表发送广告足 决定性的一步。所峭内部邮件列表是指一个企业或网站利用一定方式获得用户 自愿注册的资料来开展的电子邮件营销。而外部列表是指利用专、也服务商或者 具有与专业服务商一样可以提供专业服务的机构提供的电子邮件广告服务。自 己并不拥有用户的地址资料,也无需管理维护这些用户资料n ,。 但在实际操作中,经常产牛这样的问题,如果使用外部列表的话,企业往 往无从知晓电子邮件广告的受众是何许人,也不知道他们的年龄、职业、偏好、 兴趣等等对于“一对一营销”来说至关重要的问题。虽然外部邮件列表可以给 企业带来发送邮件数量上的优势,但随着网络用户对待与自己毫不相二 二的邮件 j 。告的厌恶心理的提升,这种方式的邮件广告收效甚微。因而,努力做好内部 邮件列表营销就成为了提升电子邮件广告营销效果的突破点。 在一名网络消费者浏览企业网站的时候,他通常会频繁的访问他最关注的 页面,浏览最感兴趣的信息。而这些浏览信息都会被记录在企业的w 跳服务器 里,通过分析消费者经常浏览的网页,从中总结出一定的规律,再结合用户注 册时留下的个人信息,如果能使不同的用户对某一种或几种特定类型的商品特 别感* 趣,那么就可以发送有针对性的邮件广告,在广告中,只列出用户可能 感兴趣的产品,这样往往会提高邮件广告的阅读率和反馈率,从而实现更好的 邮件广告营销效果。 本文希望在利用网站或者企业已掌握的信息实现定制营销( t a t g e t m a r k e t in g ) 方面进行一定的探索。网站的注册用户和曾经在网站购物的消费者 从营销学角度来看,属于2 0 :8 0 定律中的2 0 部分,通过研究如何利用这些浏 览信息,利用数据挖掘模型,将他们的频繁访问路径记录下来,总结出这些消 费者偏好的产品类型,从而实现发送有针对性的定制的电子邮件广告。 1 2 国内外文献综述 电子邮件广告营销源于直复营销,但又远超出传统直复营销的内涵。相对于 传统的“强势营销”,电子邮件广告营销是一种典型的“软”营销。随着消费 者丰导和消费者个性回归的发展,整合营销的观念贯穿于电子邮件广告营销的 理念之中。直复营销、“软”营销和整合营销“三位一体”构成了电子邮件广告 营销的理论基础1 。”。 较之传统的市场营销,电子邮件广告营销更适合个性化的营销,它是“一对 电于邮件广告营销发布模型的研究 一营销的化身”,是“直复营销的明天”。电子邮件广告营销可真正实现“大量 销售,个性服务( m a s sm a r k e t e d ,p e r s o n a l i z e ds e r v i c e ) ”。1 “ 从电子邮件j 告的发展历史来看,这一营销方式兴起的时间不跃,但发展速 度很快。它的发展主要受到了电子邮箱在网络中普及程度的限制。i n t e m e t 发展的 早期,电子邮箱作为网络服务的一乖f t ,并未在网络中大量普及,随着近1 0 年,全 球电子邮箱使用者数量的急剧增长,电子邮件广告才渐渐走入人们的视野【1 1 。而 如何将数据挖掘技术应用到电子邮件广告的发布系统中,从而提高邮件广告的营 销效果,更是最近一两年才被引起注意的,本节将分成两个部分,分别阐述电子 邮件广告发展的现状和数据挖掘技术在电子邮件广告营销中的应用。 1 2 1 电子邮件广告营销的理论基础 电子邮件广告营销是在吸纳了直复营销的优点的基础上产生和发展起来 的,了解直复营销及其特点有助于理解电子邮件广告的涵义。根据美国直复营 销协会的定义,直复营销是指一种为了在任何地方产生可度量的反应和( 或) 达成交易而使用的一+ 种或多种。告媒体的互相作用的市场营销体系。1 。较之传 统市场营销的“单向信息交流”,赢复营销是一个互动的体系,直复营销人员和 目标顾客之问随时、随地都可以“双向信息交流”,并可根据目标顾客的反应对 营销活动的效果进行测定”。电子邮件广告是一种典型的“软营销”,这是由电 子邮件、网络的特点和消费者个性同归共同作用的结果。工业化大规模生产时 代的营销方式是强势营销,典型的促销手段是传统广告和人员推销。不管消费 者是否需要和喜欢它的产品和服务,强势营销都企图以一种信息灌输的方式在 他们心中留下深刻的印象。个性化消费需求的回归使消费者在心理上要求自己 成为主动方,而电子邮件广告的互动特征也为消费者成为主动方提供了可能。 软营销的主要特征就是在遵守网络规则( 礼仪) 的同时通过对网络规划的巧妙 运用而获得的一种营销效果”1 。 软营销与强势营销的根本区别就在于:软营销以消费者为中心,主动方是 消费者;而强势营销以企业为中心,主动方是企业。传统市场营销策略的主要 内容就是4 p ,即:产品( p r o d u c t ) 、价格( p r i c e ) 、地点( p l a c e ) 和促销 ( p r o m o ti o n ) ,经济学基础是利润最大化;其基本出发点是企业的利润,而没有 把顾客的需求与企业利润放在同等重要的位置”。电子邮件的互动特征使顾客 在整个营销过程中的地位得到提高,使顾客真正参与到整个营销过程成为可能, 因而,电子邮件广告首要的是要把顾客整合到整个营销过程来,以顾客的需求 电了邮件广告萤销发布模型的研究 作为营销过程的起点,在整个营销过程中不断与顾客交互,围绕消费者为中心 展丌,转向以4 c 理论为基础和前提,即先不急于制定产品策略( p r o d u c t ) ,而 以研究消费者的需求和欲望( c o n s u m e rw a n t s n e e d s ) 为中心,卖消费者想买 的产品;暂时把定价策略( p r i c e ) 放在一边,而研究消费者为满足其需求所愿付 出的成本( c o s t ) ;忘掉渠道策略( p l a c e ) ,着重消费者的购买方便 ( c o n v e n i e n c e ) ;抛开促销策略( p r o m o t i o n ) ,着重加强与消费者的沟通和交流 ( c o m m u c a t i o n ) ( 如图1 1 所示) “o 。 图1 14 c 理论示意图 f i g u r e1 1 4 ct h e o r y 通过满足消费者的个性化需求来建立顾客的忠诚和提高企业的竞争力。j :述 理论框架就称为电子邮件广告营销理论。它始终体现了以消费者为中心和企业与 顾客不断交互的特点,是一个双向的链。 1 2 2 电子邮件广告营销的理论研究 在2 0 0 2 年的重庆交通学院学报上,王敏锋和皮育晖提出电子邮件广告是通 过电子邮件,借助计算机网络i n t r a n e t e x t r a n e t i n t e m e t 和数字交互式媒体来实 现营销目标“,而在2 0 0 3 年1 月的电脑知识与技术上,冯英健则认为,电子邮 件广告是在用户事先许可的前提下,通过电子邮件的方式向目标用户传递有价 值信息的一种网络营销手段“。电子邮件广告是市场营销发展的必然,是大势 所趋,这是由科技发展、消费者价值变化和商业竞争共同作用的结果。 总的来说,电子邮件广告的发展经历了两个阶段,第一,大量的无目的性 的群发邮件阶段,第二,许可邮件营销阶段。 电= f 邮件广告营销发布模型的研究 ( 1 ) 大量群发邮件阶段 这一阶段是国外出现在电子邮件广告被应用在网络营销的早期,这一个阶 段的特点是,企业和网站通过各种途径搜集网络用户的电子邮件地址,例如自 己搜集、同其他企业或网站交换等等手段,得到大量的网络用户的电子邮箱地 址,从而将本企业的广告用集中轰炸的方式发送到目的邮箱里。企业本着只要 能有力分之一的回复率,邮件广告就算得到成功的心态,进行对于大多数邮箱 用户毫无意义的邮件营销。当然,现在还有很多的邮件广告采用的是这种方式。 在这一阶段旱,邮件接受者的个性差异没有被考虑进营销元素垦,因而效果很 差。 ( 2 ) 许可邮件营销阶段 随着广大网络用户对这种垃圾邮件式的邮件广告产生强烈的厌恶情绪,同 时很多的电子邮箱运营商在技术上采取过滤垃圾邮件的手段,越来越多的企业、 专家、学者意识到仅通过简简单单地把邮件广告法送出去是远远不够的,如何 吸引邮件接受者的兴趣、提高他们对邮件广告的关注率、提高邮什营销的反馈 率就成为这一阶段的研究重点。这一阶段一直延续到今天。这阶段以y a h o o ! 的营销专家s e t h g o d i n 在( ( p e r m i s s i o n m a r k e t i n g ) ) 一书中提出“许可营销”的 概念开始。 s e t hg o d i n 提出:“企业在推广其产品或服务的时候,事先征得顾客的许 可7 之后,通过e m a i l 的方式向顾客发送产品n 务信息。未经许可的e m a i l 营 销主要是指在征求用户同意之前,网站主动向电子邮件用户以发送产品信息、电 子杂志或新闻消息等等电子邮件。” 从此,对于许可e m a i l 营销的研究在国内外引起了高度的重视。国内的学 者以冯英健的“许可e m a i l 营销”理论、杜江萍的“e m a i l 营销信函写作研究” 等等为代表的提高e m a i l 营销效率的研究在国内方兴未艾。 冯英健认为:“基于用户许可的e m a i l 营销与滥发邮件不同,许可营销比 传统的推j 。方式或未经许可的e m a i l 营销具有明显的优势,比如可以减少广告 对用户的滋扰、增加潜在客户定位的准确度、增强与客户的关系、提高品牌忠 诚度等。” 杜汀萍认为:“要写好e m a i l 营销信函并不容易,不仅要注意其格式,写 作技巧,还要注意版面设计等。在电子商务越来越流行的今天,各大商家都已 开始或即将开始e m a i l 营销,由于e m a i l 营销的显著优势,它在不久的将来必 将远超其它直复营销手段,所以尽早地掌握和运用好e m a i l 营销及其信函写作 电子邮件j 1 告营销发布模型的研究 将使商家受益匪浅。”“” 总的来说,许可邮件营销阶段主要特点为,发送到用户邮箱中的邮件广告 是事先得到接受者准许的,同时企业手中除了掌握用户的邮箱地址外,还拥有 用户注册时的相关信息。对于如何提高邮件广告营销效果的研究也在多个角度 开展。其中,利用注册用户在网站浏览过程中留下的信息寻找出用户的个性特 点,从而进行个性化的营销就是其中的一个方面。 国内外的一些公司的研究机构和学者在利用数据挖掘技术将不同的浏览者 进行分类方面获得了一定的进展。 1 2 ,3 数据挖掘技术在电子邮件广告营销中的应用 i n t e r n e t 使计算机、网络、通信合而为一。网络经济、注意力经济等新概念 的出现,以其巨大的社会效益和极富挑战与机遇的内涵,成为信息科学最引人 注目的研究课题。然而,网络在快捷、方便地带采大量信息的1 司时,也带来了 一大堆的问题:诸如信息过量难以消化;信息真假难以辨识;信息安全难以保 证;信息形式不一致,难以统一处理等等。如何快速、准确地获得有价值的网 络信息,如何理解已有的历史数据并用于预测未来的行为,如何从这些海量数 据中发现知识,导致了知识发现和数据挖掘领域的出现。知识发现( k n o w l e d g e d i s c o v e r y ) 和数捉挖掘( d a t am i n i n g ) 是集统计学、人= ! :知识、模式识别、并 行计算、机器学习、数据库等技术的一个交叉性的研究领域“。 数据挖掘可以表述为:从数据库中的大量数据中揭示出隐含的、先前未知 的并有潜在价值的信息的非平儿过程。数据挖掘是提取模式过程,它反复使用 多种数据挖掘算法从观测数据中确定模式或合理模型。数据挖掘又是一种决策 支持过程,它主要基于人工智能、机器学习、统计学等技术,高度自动化地分 析企业原有数据,作出归纳性推理,从中挖掘出潜在的模式,预测客户的行为, 帮助企业决策者调整市场策略,减少风险,作出正确决策“。 数据挖掘是近年来一个十分活跃的研究领域。数据挖掘一词首先出现1 9 8 9 年举行的第十一届国际联合人工智能学术会议上。目前,数据挖掘的研究重点 逐渐从发现方法的研究转向实际的系统应用,国际上有影响的典型数据挖掘系 统有s a s 公司的e n t e r p r i s e m i n e r ,i b m 公司的i n t e l l i g e n t m i n e r 等等”。 ( 1 ) 数据挖掘技术在网络营销中的应用 网络营销中的数据挖掘主要有以下方面:电子商务站点内容的挖掘,主要 挖掘电了商务网站的页面和后台数据库:电子商务站点结构的挖掘,主要是运 电子邮件广告营销发布模型的研究 用数据挖掘技术来重建电子商务站点的结构:电子商务站点使用的挖掘,主要 是通过挖掘相应站点的f f 志文件和相关数据来发现该站点的浏览者和顾客的行 为模式“。 通过数据挖掘,可以得到以下信息:用户的生活模式,爱好,购买频率, 所属的用户群,不同用户群的共同特征,页面的访问情况,广告的点击情况等。 1 9 9 9 年s y b a s e 提出的互联经济的最新技术战略是e i p ( e n t e r p r i s e i n f o r m a t i o np r o t a l s ) 这种新的经济形态的驱动力就是i n t e r n e t 和移动计算, 而i t 豹新的应用形式就是电子商务、数据仓库和移动讨算( b yd a v i dk k e l l e r 1 9 9 9 ) “i n f o r m i x 公司在2 0 0 1 年推出了命名为“s p i d e r m a n ”的新一代 ir l f o r m i xr e db r i c k 数据仓库它增添了网上分析功能以迎接电子商务的挑战 s p id e r m a n 系统增强了分析功能,用户关系管理( c r m ) 和网上行为分析的能力“ m ic r o s o f t 公司更是不甘落后,他们跨世纪的研究方向就是新一代多媒体技术、 新代用户界面和新一代信息处理技术,其中的主要研究内容都与人工智能和 数据挖掘有关,与i n t e r n e t w e b 有关。从传统的个性化、小型而友好的零售! 峨 到通过电话、i n t e r n e t 的w e b 站点查询、信用卡支付的电子商务系统,其中包 含了太多的数据,而信息及知识太少利用数据仓库作为存贮,从顾客过去的喜 好中进行学习,挖掘知识,在商业化的数据挖掘循环中从数据、信息、行动到利 润,可以创造更大的效益”“。 c h a r l e sx l i n g 等人在k d d 9 8 中提出了一种思想,将数据挖掘直接用于销 售,给出了修改的n a i v eb a y e s 算法和基于c f 的c 4 5 学习算法,针对一般公 众广告( 如t v 、广播、报纸等) 推销产品时所获取的x 的响应率,在存放了大 量顾客数据的数据库中进行数据挖掘,发现顾客购买规律和模式,对( 1 0 0 一x ) 中的顾客有针对性地进行广告宣传( 直接m a i l 战略) ,提高销售率。这样的思 想直接崩于电子商务中的广告宣传,针对商务数据库的销售情况进行产品直销 :z : o 目酊,以电子商务应用为背景的数据挖掘和知识发现的研究,主要是根据商 业中对条码机数据的分析,发现顾客购物规律,采用的数据主要是w e b 日志。 基于w e b 服务器的日志数据的研究大致分为3 类,即以分析系统性能为目标;以 改进系统设计为目标;以理解用户意图为目标。由于目标的不同,所采用的技术 也有所不同。如采用统计学方法,分析频繁访问页、单位时间访问的次数、访问 时阳j 分布图等( 如w e bl o ga n a l y z e r i 具) ;另外还有路径遍历模式的发现算法 等。 电了邮件广告营销发布模型的研究 但是以上研究大多数从通过研究大量用户的浏览特征出发,从而总结出个 电子商务站点关注率较高的事务、页面等等,达到优化站点结构等目的。而对于 分析用户浏览特征,将不同用户聚类,并结合用户注册过程中留下的个人信息, 发送更有针对性的邮件,1 。告方面的工作目前没有取得更火的进展。 ( 2 ) 网络消费者浏览信息数据挖掘模型 在i n t e r n e t 电子商务中,用户浏览信息被w e b 服务器自动收集,并保存在 访问f 1 志、引用日志和代理日志中,例如a p a c h e 、w e b l o g i c 等服务器的日志数 据。有效地对这些w e bf i 志进行定量分析,揭示其中的关联关系、时序关系、 页面类倩关系、用户类属关系和频繁访问路径、频繁访问页两等,不但可以为 优化w e b 站点的拓扑结构提供参考,更重要的是还可以为企业制定更有效的市 场营销策略提供依据,帮助企业确认目标市场,改进决策,获得更大的竞争优 势。 迄今为止,已陆续有一些w e b 日志分析工具投入使用。这些工具基本上只 提供一些简单的统计功能,如某一个u r l 的访问次数和访问时间等,它们不对 同志中隐含的关系进行分析。目前专门针对w e b 日志挖掘出浏览者相关信息的 方法主要分为以下两种: 第一种以台湾中央大学陈彦良教授和国防科技大学的周斌教授为代表的基 于事务的方法。 陈彦良教授的方法是:首先将数据挖掘技术应用于w e b 服务器f 1 志文件, 以划发现用户浏览模式。他提出了最大前向引用序列w r 的概念,并用它将用 户会话分割成一系列的事务,然后采用与关联规则相似的方法挖掘频繁浏览路 径。该算法由如下3 部分组成: 第一,从原始日志数据中导出最大前向引用序列,即将日志数据的原始序 列转换成一个浏览子序列集,其中每一个测览子序列就代表一个始予用户访问 点的最大前向引用序列; 第二,从导出的最大前向引用序列集中产生大引用序列,即从导出的所有 用户的最大前向引用序列s 。,中找到其中所有频繁出现的连续子序列s 属于 s 大引用序列的长度可以不同,有k 个元素的大引用序列称之为k 维大引用 序列l 。,其生成方法和关联规则类似; 第:二,从产生的大引用序列中确定最大引用序列,最大引用序列l “。是那 些没有包含在其它任何大引用序列中的大引用序列1 。 周斌教授的方法与陈彦良教授的方法相似,他应用e o e m 模型从大量顾客 电子邮件广告营销发布模型的研究 数据及f 1 志数据中,挖掘出有意义的用户访问模式及相关的潜在顾客群。 0 e m ( o b 】o c te x c h a n g em o d e l ) 模型是一种描述半结构化数据的数据模型。为了 能够从数据中挖掘出更有意义的知识,综合考虑服务器的应用逻辑设计、页面拓 扑结构及用户的浏览路径等多个数据源和领域知识,周斌教授提出扩展的0 e m 模型e - 0 e m ( e x t e n d e d0 e m ) ,用来描述日志挖掘的问题。 顾客的购物模式及潜在顾客群可以有多种表示形式和方法。e - o e m 方法的 核心是认为:顾客的购物模式可以表示为访问模式。它由一次事务中的多个频 繁访问路径构成,在此基础上,潜在顾客群定义为基于频繁访问模式的用户群。 如果能够构造出频繁访问的用户群,潜在顾客也就被相应的标示出来了”。 第二种方法是l i n n e s o t a 大学的o s m a rz a i a n e 等人则根据w e b 目志建立数 据立方体,然后对数据立方体进行数据挖掘,这种模式提出了一种通用的w e b f 1 志挖掘的体系结构,该系统能自动从w e b 日志中发现关联规则和序列模式等 t o 综上所述,w e b 日志挖掘可以分为基于数据立方体的方法和基于w e b 事务的方 法。这两类方法均要进行用户识别和会话识别,而用户识别和会话识别都要受到 本地浏览器缓存、防火墙和代理服务器等的影响。实现时,基于w e b 事务的方法 采用复杂的h a s h 数据结构存储侯选项集,对其进行维护和搜索还会增加额外的负 载。 1 2 4h a m m i n g 矩阵算法简介 h a m m i n g 矩阵挖掘算法是西安交通大学计算机与科学技术系的宋擒豹、沈 钧毅于2 0 0 1 年3 月发表在计算机研究与发展上的w e b 日志的高效多能 挖掘算法中提出的基于事务的n 志挖掘算法。此算法通过对日志文件的分析, 发现相似注册用户群体,相关的w e b 页面和频繁访问路径。 前面简单介绍的算法都先要构造站点的拓扑结构图,而h a m m i n g 挖掘算法 认为在i n t e r n e t 电子商务中,对于一个特定的商务站点来说,其拓扑结构是己 知的。虽然不同的用户在不同的时期可能会有不同的浏览模式,但其长期趋势 应该是稳定的。因此,通过分析一定时期内用户的访问信息便可以发现该商务 站点的相似用户群体、相关页面和频繁访问路径。 商务站点的拓扑结构是一副有向图,从原始同志数据中导出最大前向引用 序列m f r 的过程,实际上就是在构造用户的访问子图。但是,用户的浏览行 为就蕴涵在站点的拓扑结构中,即为它的一个子图。因此,没有必要再去重新构 电r 邮件广告营销发布模型的研究 造,因为浏览数据本身就反映了这种结构。 ( 1 ) w e b 站点的表示 一个w e b 站点的拓扑结构就是一副有向图,而用户在一段时问内的访问模 式则为其子图。具有相似访问子图的用户显然为需求相似的用户,此即用户群 体聚类。用户访问频繁的有向边,则应为频繁路径。 定义l( w e b 站点) 一个w e b 站点就是一副具有如下形式的有向图: 其中:n 为结点集; n 0 : n o d e n ,f ( u s e r i d ,h i t s ) “ ,n 1 ,记录用户u s e r i d 及其访问结点 n o d e 的次数,为结点属性集: e 为有向边集: e 。= ( e e 。 n u m b e ro fp a t h ) 。) 卜p ,m l ,记录有向边及该有向边所在路径 的编号,为有向边属性集 从有向图g 的结点集n 中可以得到该站点的所有u r l ,从相应的结点属性集 n 。中可以获得访问每“个结点的u s e r i d 及相应的访问次数,据此就可以建立如 下所示的u r l u s e r f d 关联矩阵地。: m 。 扛,丘,: 红, 囊, ,- 巩啦, ,。 iu r l l d i l 其中,h 。是j 用户在一段时间内访问第i 个u r l 的次数:每行向量叭,j 表示所有用户对u r l “”的访问情况;每一列向量m i , 表示用户“”对该 商务站点中所有的u r l 的访问情况。因此,可以这样认为:行向量既代表了站 点的结构,又蕴涵有用户共同的访问模式;而列向量则既反应了用户类型,也 勾勒出了用户的个性化访问子图。那么,分别度量行向量和列向量的相似性, 1 电了冉口件r + 告营销发布模型的研究 就能南接得到相关w e b 页面和相似用户群体,进一步分析还能获得用户访问模 式,即频繁访问路径。 相似性度量是根据h a m mj n g 距离进行的。对于v m i j o ,令m i ,j = 1 然 后,计算向量间的h a m m i n g 距离。h a m m i n g 距离越小,其相似程度越高。 定义2 ( h a m m i n g 距离) 设x ,y 0 ,1 “,n l ,那么,x ,y 间的h a m m i n g 距离乩( x ,y ) 定义为 x l l h d ( x ,y ) = 阢一y ;l ( 1 - 2 ) 忙l ( 2 ) 用户群体聚类算法 如前所述,u r l u s e r i d 关联矩阵m 。的列向量m i , 是用户访问本站点的 个性化子图,具有相似访问子图的用户即为相似用户群体。聚类时,首先对 u r l u s e r i d 关联矩阵m 。进行预处理,对于v m i ,j o ,可先令m i ,j - 1 然后, 根据定义2 计算列向量间的h a m m i n g 距离,建立列向量间的距离矩阵胪。在 对称矩阵m h 口。中,任意的d 。扩。( 1 i n ,i j n ) 表示第i 个列向量和 第j 个列向量间的h a m m i n g 距离,对角元素的值为0 。 接下来根据式( 卜3 ) 计算闽值当然,也可以按照具体情况自己指定闽值的 大小 a = 2 x 4 ,n x ( n 1 )( 卜3 ) r = 1 j - i 对于v d i j m “。( 1 i n ,i j n ) ,如果d i j 0 ,可先令m i ,j = 1 再根据定义2 计算行向量 问的h a m m i n g 距离,建立行向量间的距离矩阵m 在对称矩阵m “。中, d 。m h d m x m ( 1 i m ,i j m ) 表示第i 个行向量和第j 个行向量间的h a m m i n g 距离,对角元素的值为o 。接下来根据式( | _ 3 ) 计算闽值。对于d 。m “。( 1 电子邮件r 告营销发布模型的研究 i m ,i j m ) ,如果d 。 a v e i ,则将h i j 置1 ,否则旨0 。则 根据矩阵( 3 1 ) 和式( 3 2 ) ,得出矩阵( 3 - 3 ) 。 ( 3 - 3 ) 2 o 0 o 孔6 m 2 , o 0 o 8 2 4 o 0 0 o o 陀2 7 3 , o o 0 3 o 0 o 0 o o 0 o 7 5 o 0 k 4 6 o 0 o 0 o o 如他3 o ,o 0 o o o o o 0 l l 1 o 0 o o o 0 1 1 0 1 o o o 0 0 1 o o o o 0 1 0 0 0 o o o o o o1 o o ,1 o o 0 o o o ,o o o 0 o o 0 电了邮件广告营销发布模型的研究 33 网络消费者类型分析 通过应用上述改进后的h a m m i n g 矩阵挖掘算法,可以在得到的网络消费者 浏览记录中分析出消费者的类型,从而区分出不同消费者所关注的不同书籍种 类,为发送有针对性的电子邮件广告打下基础。 本文所应用的w e b 日志是用自己编写的程序自动记录的,其中设计了两个 字段,分别是用户名和浏览页面得编号,如果还需要其他的信息,如用户的i p 地址、浏览时间等等,亦可以进行扩展。以l = ( u i d ,u r l ) 的形式表示w e be 1 志。 其中,u i d ,u r l 分别为用户i d 、用户请求的u r l 。然后,对其再做进一步的处理, 以反映用户在某一段时间内的浏览行为。 3 3 1 用户群体聚类和网页聚类 ( 1 ) 用户群体聚类 根据1 2 4 节中定义2 ,计算矩阵式( 3 - 3 ) 中每两个列向量之间的l t a m m n g 距离,得到用户向量间的h a m m i n g 距离矩阵h d 7 。,。 h 0 7 7 0153555 0 6 466 6 042 20 044 4 o 2 2 02 o ( 3 4 ) 由1 2 4 节中式( 卜3 ) 知阈值人= 3 ,据此将用户分为2 个类: u s e r l ,u s e r 2 , u s e r 4 j , u s e r 3 ,u s e r 5 ,u s e r 6 ,u s e r 7 。 ( 2 ) 网页聚类 去掉矩阵式( 3 - 3 ) 中第9 个值为o 的行向量,根据定义2 ,计算矩阵式( 3 - 3 ) 中其余每两个行向量之间的h a m m i n g 距离,得到u r l 向量间的h a m m i n g 距离矩 阵叽。n ( 3 5 ) 。由1 2 4 节中式( 卜3 ) 知阂值a = 3 ,据此可将u r l 分为4 个类: u r l l ,u r l 3 ,u r l 4 j , u r l 2 ,u r l 3 ,u r l 4 ) , u r i 。3 ,u r l 4 ,u r l 8 和 u r l 5 ,u r l 6 , u r l 7 ,u r l 8 。 电于邮件广告营销茂布模型的研究 h “ 00 0 13 l3 o2 0 65 65 54 54 01 0 ( 3 5 ) 上述分类是以用户对网站不同页面的访问频率来分类的,这种分类方法从 更深层次上揭示了不同页面之间存在的逻辑关系。 3 3 2 用户类型分析 根据3 3 1 小节的分析,我们得出了用户分为2 种类型,分别为: u s e r l , t i s e r 2 ,u s e r 4 ) , u s e r 3 ,r i s e r 5 ,u s e r 6 ,l j s e r 7 ) 。但这只是一个简单的分类结 果,我们需要的是这2 种不同种类的用户他们分别关注的是哪类图书,以及他 们关注的图书类型与这些用户的注册信息之间潜在的关系。这项工作分为两步 进行: ( 1 ) 用户关注图书种类的分析 以f u s e r l ,u s e r 2 ,u s e r 4 这类用户为例子,式( 31 ) 中第l 、2 、4 列分 别描述了这三位用户对= i i f 司页面的访问状况。 u s e r l = ( 2 0 ,1 2 ,3 ,0 ,1 ,0 ,0 ,0 ,0 ) u s e r 2 = ( i 5 ,4 ,6 ,0 ,0 ,0 ,o ,0 ,o ) u s e r 4 = f o ,0 ,3 ,o ,0 ,0 ,0 ,o ,o ) 再根据( 3 - 3 ) 中三者的向量表 丽矛= ( 1 ,1 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ) u s e r 2 = ( 1 ,1 1 ,0 ,0 ,0 ,0 ,0 ,0 ) u s e r 4 = ( 0 ,0 ,1 ,0 ,0 ,0 ,0 ,0 ,o ) 可以得出,u s e r ! ,u s e r 2 ,r i s e r 4 这一类的用户对于u r l l 4 4 3 3 2 3 3 0 5 5 4 4 l 2 o 屯子邮件广告营销发布模型的研究 是频繁的。根据此结论,再奄3 3 l 节网页聚类中对于这三个u r l 的分类,可 知,它们分别属于 u r l i ,u r l 3 ,u r l 4 ) 小类,和( u r l 2 ,u r l 3 ,u r l 4 小类。u r l 2 ,u r l 3 都是计算机大类( u r l l ) 下的小类,u r l 4 是电子学大类。由此町知, u s e r l ,u s e r 2 ,u s e r 4 对计算机类图书、电子类图书的关注程度比较高,所以可 以相应的在发送电子邮件广告的时候,将包含这两类图书信息的介绍、列表等 发送至他们的邮箱。类似的,可以得出u s e r 3 ,u s e r 5 ,u s e r 6 ,u s e r 7 对管理类的 图书浏览的比较多。 通过对整个网站浏览r 志的分析,统计出了不同的用户对不同种类图书的关注 程度( 表3 3 ) ,当然,有的用户对多种图书都感兴趣,例如上例7 个用户中, u s e r l ,u s e r 2 ,u s e r 4 对计算机和电子类图书都感兴趣。 表33 用户聚类表 t a b l e3 3d i f f e r e n tt y p e so fu s e r s 感兴趣的图托种类人数 计算机 了 电子1 管理1 0 哲学 计算机和电子 4 计算机和管理 6 一笪墨塑鳖堂 i ! ( 2 ) 注册用户类型与注册信息之问的关系 在3 1 3 中描述了网站注册信息的收集。在本网站的注册信息设计中,关 于用户个人信息的选项有两个,第一是用户的受教育程度,第二是用户的专业。 在设计的时候,主要考虑到影响用户浏览不同种类图书的因素有很多,但是所 学专业不同,关注的图书种类会受到定的影响,另外受教育的程度不同,也 会对浏览图书的种类造成影响。 表3 4 用户类型与所学专业的关联度 t a b l e 3 4t h er e l a t i o n s h i pb e t w e e nt h et y p ea n dt h em a j o ro ft h eu s e f s 感兴趣的图书种类与从事专业相吻合的百分比( ) 计算机 7 1 电子6 0 管理5 5 哲学5 0 4 3 电子邮件广告营销发布模型的研究 接下来对分析统计出的不同类型的注册用户与他们所学专业的信息相比 较,以检验专业与感兴趣图书种类的关联度( 见表3 4 ) 。 从以上的数据可以看出,用户所从事的专j l 对他们经常浏览的图书种类还 是有很大影响。这一点可以通过对用户的调查反馈信息进一步验证。当然,还 有其他因素也会对用户浏

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论