基于朴素贝叶斯学习的电子商务网站客户兴趣分类的应用研究_第1页
基于朴素贝叶斯学习的电子商务网站客户兴趣分类的应用研究_第2页
基于朴素贝叶斯学习的电子商务网站客户兴趣分类的应用研究_第3页
基于朴素贝叶斯学习的电子商务网站客户兴趣分类的应用研究_第4页
基于朴素贝叶斯学习的电子商务网站客户兴趣分类的应用研究_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于朴素贝叶斯学习的电子商务网站客户兴趣分类的应用研究 贝叶斯推理基于如下的假定,即待考查的量遵循某概率分布,且可根据这些概率及已观察到的数据进行推理,以做出最优的决策。朴素贝叶斯学习算法能够计算显式的假设概率,是解决相应学习问题的最实际的方法之一。朴素贝叶斯分类器基于一个简单的假定:在给定目标值时属性值之间条件相互独立,即在给定实例的目标值情况下,观察到联合的a1,a2,an的概率等于每个单独属性的概率乘积 P(a1,a2,an|vj)=iP(ai|vj)(1)贝叶斯方法的新实例分类目标是在给定描述实例的属性值a1,a2,an下,得到最可能的目标值vMAP vMAP=argmaxvjV p(

2、vj|a1,a2,an) (2) (1)式代入(2)式中,可得到朴素贝叶斯分类器所使用的方法: vNB=argmaxP(vj)i vj VP(ai|vj) (3)对于每个客户浏览过的网页和购买过的商品建立兴趣配置文件,每次客户登录时向他介绍感兴趣的商品。由于兴趣配置文件以文本为形式,这样,朴素贝叶斯分类器就可以应用于兴趣配置文件。朴素分类器是目前所知文本文档分类算法中最有效的方法之一,可以得到很好的效果。用于学习和分类文本的朴素贝叶斯算法以下两个过程,其中LEARNNAIVEBAYESTEXT用来分析所有训练文档,抽取所有出现的英文单词、中文字、记号,然后在不同目标类中计算其频率以获得必要的概

3、率估计。当有了一个待分类的新实例,过程CLASSIFYNA-IVEBAYESTEXT使用此概率估计来计算vNB。 wk代表词典中的第K个字,n为所有目标值为vj的训练样例中单词位置的总数,nk是在n个单词位置中找到wk的次数,而|Vocabulary|为训练数据中的不同英文单词或中文字(以及记号)的总数。 LEARNNAIVEBAYESTEXT(Examples,V) Examples为一组文本文档以及它们的目标值。V为所有可能目标值的集合。此函数作用是学习概率项P(wk|vj),它描述了从类别vj中的一个文档中随机抽取的一个词(中文或英文)为wk的概率。该函数也是学习类别的先验概率P(vj)

4、(1)收集Examples中所有的词、标点以及其他记号 Vocabulary在Examples中任意文本文档中出现的所有词及记号的集合 (2)计算所需要的概率项P(vj)和P(wk|vj) 对V中每个目标值vj docsjExamples中目标值为vj的文档子集 P(vj) |docsj| |Examples| Textj将docsj中所有成员连接起来建立的单个文档 n在Textj中不同词位置的总数 对Vocabulary中每个词wk nk词wk出现在Textj中的次数 P(wk|vj) nk+1 n+|Vocabulary| CLASSIFYNAIVEBAYESTEXT(Doc) 对文档Do

5、c返回其估计的目标值。Ai代表在Doc中的第I个位置上出现的词。 positions在Doc中的所有词位置,它包含能在Vo-cabulary中找到的记号 返回vNB vNB=argmaxvjV P(vj)iposition P(ai|vj) 第三页的 1先建立LEARNNAIVEBAYESTEXT,其含所有字符和符号。它们的概率待测。 2设置项和类、类的位置、项在不同类中出现的次数,以及项的所有位置总数、所有字符和符号的总数 3从一个文档中随机抽取一个词(项),计算它在各种条件下出现的概率,哪种最大,这个词能够归到那个类中。 第四页的 收集一个样本,里面包括之前建立的LEARNNAIVEBAY

6、ESTEXT中的字符,符号 计算字符,符号出现的概率和位置 将它们的的概率和位置分别存到对应的文档中。归类。 这样就可以开始应用朴素贝叶斯分类器了。解决两个重要的设计问题:一是如何估计朴素贝叶斯分类器所需的概率,二是怎样将任意文档表示为属性值的形式。前者可以按上面的算法进行解决。关于后者,可对每个此的位置定义一个属性,该属性的值为在此位置上的词。这样上例中的文本被表示为16个属性,对应16个字的位置。第一个属性值为“感”,第二个为“应”,依次类推。很显然,较长文档的属性数目也是较多的。在应用时,先用训练文档进行训练,训练文档中分类为like的文档都来源于客户的兴趣配置文件,分类为dislike的文档可来源于网站中客户从不浏览的网页内容。这样,如果有了一个新文档要分类判断是否属于向客户推荐内容,就可以应用朴素分类器了。比如新文档就是上述例子的话,那么应用分类器如下: vNB=argmaxvj like,dislike P(vj)16 i=1P(ai|vj) =argmaxvjlike,dislike P(vj)P(a1=“感”|vj)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论