(管理科学与工程专业论文)面向营销数据库的用户聚类策略及用户兴趣模式研究.pdf_第1页
(管理科学与工程专业论文)面向营销数据库的用户聚类策略及用户兴趣模式研究.pdf_第2页
(管理科学与工程专业论文)面向营销数据库的用户聚类策略及用户兴趣模式研究.pdf_第3页
(管理科学与工程专业论文)面向营销数据库的用户聚类策略及用户兴趣模式研究.pdf_第4页
(管理科学与工程专业论文)面向营销数据库的用户聚类策略及用户兴趣模式研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(管理科学与工程专业论文)面向营销数据库的用户聚类策略及用户兴趣模式研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

面向营销数据库的用户聚类策略及用户兴趣模式研究 摘要 随着电子商务的发展,信息过载问题日益严重,推荐系统成为电子商务系统中必 不可少的组件。个性化推荐技术是推荐系统中核心与关键的技术。目前主要的推荐技 术有,协同过滤推荐技术;基于内容的推荐技术;基于用户统计信息的推荐;基于产 品分类的推荐;基于效用的推荐等。在产品推荐的各项推荐技术上,推荐信息与用户 的兴趣的相关度很高,因此推荐的首要问题是如何挖掘用户信息偏好和兴趣,其挖掘 的精度将影响推荐精度 本文首先对聚类分析的理论、方法与过程进行研究。主要通过聚类分析的优势, 算法,应用等方面对聚类分析进行研究。聚类分析是在给定的数据集中搜索数据对象 之间存在的有价值的联系,应用聚类分析有以下优势:广泛性,客观性,实用性。应 用聚类算法的不同的特点与不同的类别,进行实行应用与指导。 接着本文通过推荐系统、推荐技术和推荐研究的热点问题等对个性化推荐进行研 究,并比较了国内外电子商务网站推荐策略。主要对基于用户的聚类与基于项目聚类 的协同过滤研究与比较,提出本文的用户聚类策略,介绍该推荐策略的基本思路与聚 类流程,首先进行产品分类,将不同的产品置于同一属性空间下,用同一个属性空间 对不同的产品进行描述,进行基于属性的聚类,再以购买相似为基础,对用户聚类, 综合两种聚类,形成最终的聚类结果并产生推荐。 最后提出基于本文的聚类的结果的一种兴趣模型的改善,以类用户进行兴趣发 现,通过产品属性隶属度函数的建立,构建两个层次的兴趣集,更加精确的发掘类用 户的兴趣,实现群推荐。 关键词:电子商务推荐聚类分析相似性隶属度 r e s e a r c ho nu s e r sc l u s t e r i n gs t r a t e g ya n du s e ri n t e r e s t m o d e lb a s eo nm a r k e t i n gd a t a b a s e a bs t r a c t w i t ht h er a p i dd e v e l o p m e n to fe b u s i n e s sb a s e do ni n t e r n e t ,t h ei s s u eo ft h e i n f o r m a t i o no v e r l o a di sc r i t i c a ld a yb yd a y e - b u s i n e s sr e c o m m e n d a t i o ns y s t e mh a s b e c o m eo n eo ft h ee s s e n t i a lc o m p o n e n t so fae b u s i n e s ss y s t e m p e r s o n a l i z e d r e c o m m e n d a t i o nt e c h n i q u ei st h ec o r ea n dk e yp o r t so ft h er e c o m m e n d a t i o ns y s t e m t h em a j o rr e c o m m e n d a t i o ns y s t e m si n c l u d ec o l l a b o r a t i v e f i l t e r i n gr e c o m m e n d a t i o n , c o n t e n t b a s e d r e c o m m e n d a t i o na n ds oo n t h e r ei sah i g hr e l a t i o n s h i pb e t w e e n p e r s o n a li n t e r e s ta n dr e c o m m e n di n f o r m a t i o n s ot h ef i r s tp r o b l e mi sh o w t om i n e t h eu s e r s i n t e r e s ti na n yr e c o m m e n d a t i o n s ,i tw i l li n f l u e n c et h ep r e c i s i o no fr e s u l t t h et h e o r i e s ,m e t h o d sa n dp r o c e s so fc l u s t e r i n ga n a l y z ew i l lb ef i r s tr e s e a r c h e do n t h i sp a p e r c l u s t e r i n ga n a l y s i si ss e a r c ht h ed a t ao b j e c t sv a l u e dr e l a t i o n s h i pi na c e r t a i nd a t a s e t t h ea d v a n t a g eo fc l u s t e r i n ga n a l y s i si su n i v e r s a l i t y ,o b j e c t i v i t y , p r a c t i c a b i l i t y t og u i d ep r a c t i c eb a s e d o nt h ed i f f e r e n tf e a t u r e sa n dd i f f e r e n tc l a s s e s o fc l u s t e r i n ga l g o r i t h m s t h e nr e s e a r c ht h ep e r s o n a lr e c o m m e n db a s e do nr e c o m m e n ds y s t e m ,r e c o m m e n d t e c h n i q u ea n dr e c o m m e n dh o ti s s u ea n ds oo n c o m p a r et h ed i f f e r e n c er e c o m m e n d s t r a t e g yb e t w e e nh o m ea n do u t t h em a j o ri s s u e sa r ec l u s t e rb a s e do nu s e r sa n d c l u s t e rb a s e do np r o d u c t s ,b r i n gf o r w a r dt h eu s e r sc l u s t e r i n go p i n i o no ft h i sp a p e r i n t r o d u c et h em e t h o d sa n dp r o c e s so ft h i sr e c o m m e n ds t r a t e g y f i r s tc l a s s i f yt h e p r o d u c t s ,t a k et h ed i f f e r e n tt oas a m ea t t r i b u t em a t r i x ,u s et h es a m em a t r i x t o d e s c r i p tt h ed i f f e r e n tp r o d u c t s ,c l u s t e rt h eu s e r sb a s e do na t t r i b u t e s e c o n db a s e do n p u r c h a s ed a t a s e t ,c l u s t e ru s e r s ,i n t e g r a t et h eb o t ht w oc l u s t e r i n gr e s u l t st og e t t h e l a s tc l a s s e da n dg i v et h ea d v i c eo fr e c o m m e n da te n d a tt h el a s tp a r to ft h i sp a p e r , r e s e a r c ht h ei m p r o v e m e n tt h ei n t e r e s tm o d e lb a s e do nt h e r e s u l to fc l u s t e r i n gu s e r s ,c r e a t ep r o d u c ta t t r i b u t es u b j e c t i o nd e g r e e ,b u i l dt w os t e p s i n t e r e s ts e t ,g e tt h em o r ep r e c i s er e c o m m e n d ,a t t a c hg r o u pr e c o m m e n d k e yw o r d s :e b u s i n e s sr e c o m m e n d a t i o ns y s t e m 、s i m i l a r i t y ,c l u s t e r i n ga n a l y s i s 、 s u b je c t i o nd e g r e e i i 图表清单 图2 1 聚类分析流程图一6 图3 1 基于用户聚类流程图1 5 图3 2 产品类别层次树图1 8 图3 3 特征选取策略流程图2l 图3 4 聚类流程图2 4 表4 1 类别属性表2 6 表4 2 演员等级表2 7 表4 3 制作成本表2 7 表4 4 基于属性的用户聚类2 8 表4 5 基于购买的用户聚类2 8 表4 6 距离度量表3l v i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所 知,除了文中特别加以标志和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得盒日巴- i 些太堂或其他教育机构的学位或证书而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签字: 艨建擎 f 签字日期:稚多月岁日 学位论文版权使用授权书 本学位论文作者完全了解金a 里王些太堂有关保留、使用学位论文的规定,有权保留并向 国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅或借阅。本人授权 金g 巴王些太 兰l 可以将学位论文的全部或部分论文内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文者签名: 嚣建擎 签字魄训海歹月乡日 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师签名: 地段 签字日期:刁耐彤廖彤日 i i i 电话: 邮编: 致谢 本论文是在我的导师刘业政教授的悉心指导下完成的。三年以来,刘老师在学业 上一直对我严格要求,生活上给予无微不至的关怀,我所取得的每一点进步、每一点 成绩都离不开刘老师的谆谆教诲。值此论文完成之际,我谨向导师刘业政教授表示诚 挚的感谢,并致以深深的敬意。刘老师渊博的知识、严谨的治学态度、敏锐的学术洞 察力、积极开拓和忘我的工作精神,都对我产生很大影响,将使我受益终生。在今后 的学习、生活和工作中,我将以导师为榜样,为社会做出自己的贡献。 感谢合肥工业大学电子商务研究所为本人提供的研究条件,感谫 何建民、张结魁、 凌海峰、魏婧等老师对我的关心、帮助和指导,特别感谢张结魁在项目开发中给予的 极大帮助。 林文龙、姜元春、杨慧、王华娴、廖广飞、潘生、杨洁琼、徐德鹏、马向辉、钟 扬、焦宁、王卫、郭春根、郑蕊、唐亮、谢珩、余智学、奚东芹、鲁建敏、周军、方 杰、裘立波等师兄弟和同学对我的学习和生活也给予了很多帮助,在此一并表示感谢。 在我的学习生涯中,我的父母和家人从物质上、精神上给予了我无穷的支持与鼓 励,没有他们背后的支持,我将无法完成我的学业,他们是我的精神支柱。 感谢对论文进行评审、提出宝贵意见的各位专家。 最后,感谢所有帮助和关心过我的人们。 i i i 作者:徐建华 2 0 0 8 年1 月 1 1 研究背景 第一章绪论 在互联网与w e b 技术的发展迅速的影响下,电子商务网站规模不断扩大, 网上商品日益增多,电子商务也随之日益繁荣,使用电子商务进行产品购买的 用户也越来越多,网站提供的产品数目与和种类也愈加庞大。用户在众多的商 品中很难找到自己感兴趣的产品,在产品选择之间的机会在增加,同时在选中 最满意的产品所需处理的信息也日益增加,这无形中加大了用户的信息负担。 为此企业向客户提供的个性化信息服务,个性化推荐系统在此基础上应运而 生。 1 1 1 个性化推荐系统 推荐系统其本质是根据用户的兴趣爱好,推荐符合用户兴趣爱好的对象, 也称个性化推荐系统( p e r s o n a l i z e dr e c o m m e n d e rs y s t e m s ) 。目前主要有两种 类型的推荐系统,一种是以网页为推荐对象的搜索系统,主要采用w e b 挖掘 的方法与技术,为用户推荐符合其兴趣爱好的网页,如g o o g l e 等;另一种是 电子购物环境下、以商品为推荐对象的个性化推荐系统,为用户推荐符合兴趣 爱好的商品,称这种推荐系统为电子商务个性化推荐系统,简称电子商务推荐 系统( r e c o m m e n d e rs y s t e mi ne c o m m e r c e ) 。文献 1 】对电子商务推荐系统 ( r e c o m m e n d e rs y s t e m s ) 定义为“利用电子商务网站向用户提供产品的信息 与建议,在用户购买产品时进行辅助决策,模拟销售人员帮助用户完成购买过 程。”其优势在于能收集用户的资料,分析用户的兴趣与偏好,并以此作为根 据,对用户进行主动的,针对性的推荐。在电子商务网站中使用电子商务推荐 系统的最大的优点在于它能收集用户感兴趣的资料,并根据用户兴趣偏好主动 为用户给出个性化推荐,同时可以扩大用户群,提高网站的销售能力,提高用 户对网站的满意度。 1 1 2 个性化推荐技术 整个电子商务推荐系统主要可分为输入功能( i n p u tf u n c t i o n ) 模块、推荐 方法( r e c o m m e n d a t i o nm e t h o d ) 模块和输出功能( o u t p u tf u n c t i o n ) 模块。推 荐方法模块是推荐系统的核心部分,决定着推荐系统的性能优劣。因此个性化 推荐方法或技术是推荐系统中最核心、最关键的技术,极大影响着推荐的效果。 文献【2 】从以下两个指标上提出了评价推荐技术的标准:一是自动化程度( d e g r e e o fa u t o m a t i o n ) ,即用户是否要显示的输入相关信息,二是持久性程度( d e g r e eo f p e r s i s t e n c e ) ,即对用户的推荐是基于用户当前的信息还是长期的信息。也有其 他学者提出,个性化程度( ( d e g r e eo fp e r s o n a l i z a t i o n ) 也应当是评价推荐技术 的重要指标之一,该指标可以反映推荐结果符合用户兴趣爱好的程度。 目前主要的推荐技术有,协同过滤推荐( c o l l a b o r a t i v ef i l t e r i n g r e c o m m e n d a t i o n ) ;基于内容的推荐技术( c o n t e n t b a s er e c o m m e n d a t i o n ) ;基 于用户统计信息的推荐( d e m o g r a p h i c b a s e dr e c o m m e n d a t i o n ) ;基于效用的推 荐( u t i l i t y b a s e dr e c o m m e n d a t i o n ) ;基于知识的推荐( k n o w l e d g e b a s e d r e c o m m e n d a t i o n ) 等,文献【3 】提出了一种基于产品分类的推荐系统( p r o d u c t t a x o n o m y b a s e dr e c o m m e n d a t i o n ) ,可以适应增加新产品,品牌或二者混合增加 的变化。通过分析顾客对品牌或产品的偏好,该系统可以从在一般和明确两个 水平上为用户推荐产品。在各种推荐技术中应用最广的是协同过滤推荐技术, 也是研究最多的个性化推荐,它基于邻居用户的资料得到目标用户的推荐,推 荐的个性化程度高。协同过滤的最大优点是对推荐对象没有特殊要求,能处理 非结构化的复杂对象。在实际的应用中,也有许多推荐系统采用了组合几种推 荐技术的方法来规避或弥补各种推荐技术的缺点,提高推荐效果,文献 4 就提 出了七种组合思路。 1 2 目前研究现状 无论采用哪种推荐方法,为了较好的提供个性化推荐服务,首先需要跟踪 和学习用户的兴趣和消费行为,并设计一种合适的表达方式,必须组织好产品, 选取产品的特征,并采用合适的推荐方式。 目前主流的推荐技术中,协同过滤技术是基于这样一个假设,是推荐系统 根据目标用户与其他用户之间的相似性进行推荐,运用相关的方法找出目标用 户的最近邻居用户,系统就可以根据邻居用户的消费,评价记录来预测目标用 户的消费与评价,从而产生推荐结果。 基于内容的个性化推荐系统主要推荐与消费者过去的兴趣和偏好相似的产 品,其本质是信息过滤技术的延续与发展。基于内容的推荐是在产品( 产品、 服务等) 的内容信息基础上做出的推荐,而不需要依据消费者对产品的评价意 见,因此,这一策略更多地使用机器学习的方法从消费者过去感兴趣的产品特 征描述中得到消费者的偏好信息,进而进行个性化推荐。 基于w e b 日志的推荐,它通过提取w 曲日志中用户事务,综合考量页面访 问次数,浏览时间的长度,和页面的大小三个方面,进行用户浏览兴趣度量, 然后向目标用户推荐具有相似用户兴趣的页面,但此种推荐方法对w e b 站点的 设计与功能要求较高,要求成过急w e b 站点具有智能性。 依据以上几种推荐技术的思想为基础,许多学者对如何提高推荐精度,优 2 化推荐算法,提升推荐效果,增强推荐的可解释性进行了相关的研究。文献 5 】 提出了一种基于项目评分预测的协同过滤推荐算法,根据项目之间的相似性初 步预测用户对为评分项目的评分,并在此基础上,采用一种新颖的相似性度量 方法计算目标用户的最近邻居。文献【6 】针对文本集的多主题问题,利用基于聚 类分析策略,对用户兴趣模型进行构建,从而对不同的主题进行推荐。文献 7 】 分析了聚类分析在个性化推荐中的作用,聚类分析可以与关联规则互补,可以 改善推荐的准确率与覆盖率。文献 8 就从用户的生活方式的角度,配合用户购 买历史,来对用户分类,从而构建用户的兴趣模型来产生推荐。文献 9 与文献 【10 】则从w e b 日志挖掘角度,找出用户浏览页面的关联规则、聚类信息、访问 路径等,发现一些有意义的关系,比如用户的行为模式、用户行为的变化、不 同用户群在使用和行为上的相似性等。 1 3 课题研究的目的与意义 在产品推荐的各项推荐技术上,推荐信息与用户的兴趣的相关度很高,因 此推荐的首要问题是如何挖掘用户信息和兴趣偏好,其挖掘的精度也势必将影 响产品的推荐精度。 在推荐系统中,用户兴趣模型构建是一个重要环节,在目前各项主流的推 荐技术中,一般都从用户的角度的出发去构建用户兴趣模型。用户兴趣模型的 构建主要是用户对项目的历史评价记录并结合用户的资料为根据去寻找相似 的邻居用户,或完全以用户的个人资料为基础,从中发现相似兴趣的用户组, 但在电子商务环境下,用户在提交资料时,并不完全是用户情况的真实反映, 或者用户过去提交的资料已经不能再真实的反映用户的情况,资料己过期。所 以以用户在网站提交的信息为基准而进行用户分析,产生用户兴趣组,并最终 生成推荐结果。这样生成的推荐在推荐精度上可能存在精度不高、个性化程度 不高的问题。从产品的特征角度进行产品推荐的研究,可以从产品的角度分析 用户的兴趣,从而增强的推荐的可解释性,提高新产品推荐的精度。 本课题则尝试从产品特征出发,将顾客的购买记录作为标准来搜索信息, 从用户角度出发,分析用户购买产品的特征,在不打扰用户,不依赖用户提供 的基本资料,如人口学特征等情况下,根据用户己购买的产品,基于产品的类 别与特征对用户进行聚类,对不同兴趣的用户进行区分,再分析类用户的兴趣 模式,构建用户的兴趣模型,从而再为用户找到合适的产品。 1 4 本文主要研究内容及结构 本文主要内容及拟解决的问题:( 1 ) 综合分析基于聚类技术的推荐系统,分 析用户聚类效果对基于内容的产品推荐和协同过滤的产品推荐的影响。( 2 ) 研究 面向营销数据库的用户聚类策略,用户聚类先根据用户的购买产品的历史,通 过购买产品类别的相似性进行初步聚类,初步聚类后,仍存在类区别不清晰的, 再进一步从产品特征的角度对用户进行聚类分析,形成最终的用户类别。( 3 ) 类 用户兴趣模式的构建。依据类用户所购买的产品的特征值,分析出用户的兴趣 模式。( 4 ) 分析新产品的特征值与已有的用户兴趣模式的相似度,进行新产品 推荐。 本文的结构如下:第一章,绪论,研究的背景及内容;第二章,聚类分析 技术的概述;第三章,用户聚类策略的研究;第四章,用户兴趣模式的发现; 第五章,总结及未来研究方向。 4 第二章聚类分析技术的概述 在数据挖掘中,聚类分析是的一种重要的方法。它是根据数据的不同特征, 把一组个体按相似性将其划分为不同的数据类。其目的是使得属于同一类别的 个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。它反 映同类事物共同性质的特征型知识和不同事物之间的差异性质的特征型知识。 通过聚类,数据库中的记录可被划分为一系列有意义的子集。聚类增强了人们 对客观现实的认识,是进行概念描述和偏差分析先决条件。 2 1 聚类分析 聚类分析( c l u s t e r i n ga n a l y s i s ) ,也称聚类,是一种得到广泛应用的数据挖 掘的分析手段,它是这样一个过程,即按照事物的某些属性,将事物分成多个 类或簇,使得在同一类中的事物相似性尽量大,不同类间的事物相似性尽量小。 作为独立的数据挖掘目标模式,聚类分析是数据挖掘领域最为常见的技术之一。 聚类作为一种非监督型的知识发现方法,不需要任何事先的训练数据,而仅仅 按照相似性原则,将一组数据划分为事先未知的分类状态,通过聚类,将个体 或数据对象中,满足相似条件的划分为一组,聚类的一般原则是:1 类内的数 据之间距离要在一个设定的范围内;2 类间的中心点之间距离要尽可能远。在 数据挖掘之前,聚类中组的数量与类型均是未知的,对象类划分是根据实际数 据的特征按照数据之间的相似性来定义的,因此在数据挖掘后一般需要对数据 挖掘的结果进行合理的分析与解释。 聚类分析问题可一般性描述为:待聚类样本空间为x = l x l x n i ,每个样 本x i 由一组特征数据组成的m 维向量,( x n x m ) 表示,x 的样本聚类是 f x 的一个划分a 1 ,a t ,满足ij a ,= x 并且彳,n a ,= 咖,当t 为定值时的聚类 i = 1 1 一 , 是静态聚类,即决策者己事先定出聚类的类别数;t 为变量时的聚类是动态聚 类,即决策者事先不写出聚类的类别数,t 的大小完全由样本空间的客观情况 而定。所以,聚类分析依赖于观测间的接近程度( 距离) 或相似程序的理解, 定义不同的距离量度和相似性量度就可以产生不同的聚类结果。 聚类分析所处理的数据类型主要有: 区问标度( i n t e r v a l s c a l e d ) 变量:线形标度的连续值,如质量、高度、经度、 纬度等。 二值( b i n a r y ) 变量:变量值有两种0 和1 状态。如果两种状态是对称的, 具有相同的权重,则称为对称二值变量,否则称为不对称二值变量。 标称( c a t e g o r i c a l ) 变量:是二值变量的推广,可以具有两个以上的状态值。 序数型( o r d i n a l ) 变量:类似于标称变量,不同的是序数型变量的状态是 按照有意义的序列排列的。 比例标度型( r a t i o s c a l e d ) 变量:在非线性的标度上取正的度量值。聚类 分析方法主要包括统计方法、机器学习方法、神经网络方法和面向数据库的方 法【1 1 【12 1 。 回归分析、判别分析、聚类分析是统计分析中多元分析的三大方法。从统 计学的观点来看,聚类分析是通过数据建模简化数据的一种方法。主要研究基 于几何距离的聚类,如欧氏距离、明考斯基距离等。传统的统计聚类方法包括: 系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模 糊聚类等。这些聚类方法是一种基于全局比较的聚类方法,它需要考察所有个 体才能决定类的划分,因此它要求所有的数据必须事先给定,而不能动态增加 新数据对象。这样的聚类分析方法不具有线性的计算复杂度,难于适应数据库 非常大的情况。 在机器学习中,聚类称作无监督或无教师归纳。同分类学习相比,分类学 习的例子或数据对象有类别标记,而要聚类的例子则没有标记,需要由聚类学 习算法自行确定。 在神经网络中,聚类称作无监督学习方法;自组织神经网络方法,如 k o h o n e n 自组织特征映射网络、竞争学习网络等等。在数据挖掘领域里,见报 道的神经网络聚类方法主要是白组织特征映射方法,i b m 在其发布的数据挖掘 白皮书中就特别提到了使用此方法进行数据库聚类分割。 在实际应用聚类分析中,我们根据有无领域知识参与将整个过程分解为三 个环节,每个步骤都有其明确的任务,这样对于整个聚类分析的过程就会有更 清晰的认识。见图2 1 : 图2 1 聚类分析流程图 第一步是特征提取。它的输入是原始样本,由领域专家决定使用哪些特征 来刻画样本的本质性质和结构。特征提取的结果是输出一个矩阵,每一行是一 6 个样本,每一列是一个特征指标变量。提取特征的优劣将直接影响以后的分析 和决策,如果第一步就选择了和聚类意图无关的特征变量,最终得到良好的聚 类结果也没什么意义。因为无论后续步骤采用多么优良的聚类算法和阂值选择 方案,都不可能计算出执行者的意图。合理的特征选取方案应当使得同类样本 在特征空间中相距较近,异类样本则相距较远。 在有些应用场合还需要将得到的样本矩阵进行一些后处理工作。比如为了 统一量纲就对变量进行标准化处理,这样采用不同量纲的变量才具有可比性; 在有些场合可能选择的特征变量太多,不利于以后的分析和决策,这时可以先 进行降维处理;仅凭经验和领域知识选择的特征变量有可能是相关的,进行主 成分分析就可以消除变量间的相关性,从而得到一些相互独立的特征变量。 第二步是执行聚类算法,获得聚类谱系图。聚类的输入是一个样本矩阵, 它把一个样本想象成特征变量空间中的一个点。聚类算法的目的就是获得能够 反映n 维空间中这些样本点之间的最本质的“抱团 性质。这一步没有应用专 家的参与,它除了几何知识外不考虑任何应用知识,不考虑特征变量在其应用 领域中的特定含义,仅仅认为它是特征空间中的一维而已。 聚类算法的输出一般是一个聚类谱系图,由粗到细地反映了所有的分类情 况;或者直接给出具体的分类方案,包括总共分成几类,每类具体包含哪些样 本点等等。 第三步是选取合适分类阈值。在得到了聚类谱系图之后,领域专家凭借经 验和领域知识,根据具体的应用场合,决定闽值的选取。选定阈值之后,就能 够从聚类谱系图上直接看出分类方案。没有领域专家的参与,不考虑具体的应 用背景,而仅仅依赖于从聚类谱系出发寻找聚类指数突变点,或者求最小生成 树的长边等等,往往不会得到解决满意的结果。 领域专家还可以对聚类结果领域知识进行进一步分析,从而加深样本特点 和特征变量的认识。 总之,实际应用聚类分析是一个需要多方参与的过程,它无法脱离应用领 域,聚类算法仅仅是整个聚类流程中的一个环而已,光依靠聚类算法专家,一 般不会得到满意的结果。 2 2 聚类分析的优势 聚类分析就是从给定的数据集中搜索数据对象之间存在的有价值的联系, 它所涉及的领域包括数据挖掘、统计学、机器学习、数据库技术、市场学等到。 由于各应用数据库的数据量越来越大,聚类分析已成为数据挖掘研究中一个非 常活跃的研究课题。应用聚类分析有以下优势【”】:广泛性,客观性,实用性。 7 1 广泛性 客观世界是丰富多彩的,它表现在客观事物的多样性上,大量的事物需要 用多维变量来进行描述,因此,仅靠单一的指标对客观事物进行分类存在很大 的局限性。而聚类分析的对象正是多维变量,它通过将研究对象的多维变量转 化为样本之间的相似性度量指标,依该指标进行分类,从而有效地解决了多维 变量问题,可以广泛的应用于实际分类问题中。 2 客观性 仅凭经验或专业知识对数据进行分类具有很大的主观性,它受分析人员对 分析对象认识程度的制约。我们称此种方法为“经验分类法”。在数据库应用中, 它表现为多次利用复合判断语句进行查询,从而得出一组分类结果。 经验分类法的过程可以描述为:获取研究对象数据;依实际情况对分类问 题进行定性分析,确定研究对象的特征,辨别研究对象的主要影响因素及影响 范围( 定性) ;确定分类条件,用复合判断语句描述;运行( 定量) ;对分类结 果进行判定( 定性) ,确定是否真实、有效。 聚类分析技术的应用过程可以描述为:获取研究对象数据;依对象数据性 质,选择聚类方法;运行( 定量) ,得到分类结果;结合研究对象基本信息对分 类结果进行判定( 定性) ,确定是否真实、有效。 通过比较分析可以发现,经验法在确定分类标准时带有强烈的主观色彩, 并且存在大量的假设前提,这对分类结果的客观性产生很大的影响,而且不易 发现隐藏的问题。聚类分析技术是在未对分类标准作任何假设的情况下,进行 的一种比较“原始 的分类方法。虽然在选择聚类方法的细节上也有主观认识 的成分,但它受聚类分析方法使用范围的制约,对聚类结果的客观性影响较小。 聚类分析在对研究数据进行分类的基础上,结合具体实际问题对分类结果进行 定性分析、判定,是客观分析和主观认识的统一,定性分析和定量分析的统一, 因而准确反映了客观现实,是比较先进的分类技术。在市场瞬息万变的今天, 挖掘潜在的市场信息对于企业的发展越来越重要,单靠主观判断存在很大的局 限性,已越来越不适于实际应用,聚类分析技术的客观性不仅使我们能够发现 潜在的市场机会,而且辅以定量的描述,从而制定、实施适宜的营销策略,使 企业在激烈地市场竞争中立于不败之地。 3 实用性 在信息时代,信息量的空前增长、信息内容的日益复杂迫使企业建立完善 的信息系统,来提高信息的收集、加工、存储、传递和利用能力。在这个过程 中,计算机技术、网络通讯技术、数据分析技术得到了空前的发展,及时性、 准确性、易实现性成为评价数据分析技术的标准,聚类分析技术在这几方面得 8 到了充分地体现。首先,分析数据的获取变得越来越容易,企业中流动的是实 时的、标准化的管理信息,这些信息能够直接为聚类分析技术所处理,极大地 提高了处理速度。其次,在信息系统的运行过程中,枯燥的数据录入、生成过 程大部分为机器自动生成,杜绝了以前人工统计报告所产生的误差,使得进行 分析处理数据的质量得到了较大地提高,从而保证了聚类分析结果的准确性。 同时,计算机技术使得基于数值计算的聚类分析技术更易于实现。 2 3 聚类分析算法 2 3 1 聚类算法的特点 1 处理不同字段类型的能力 算法不仅要能处理数值型的字段,还要有处理其他类型字段的能力。目前, 虽然有很多针对数值类型数据的聚类算法,但实际应用中可能需要对其他类型 的数据进行聚类,如二值类型、标称类型、序数类型、混合类型等。 2 可伸缩性 可伸缩性是数据挖掘一个基本要求。可伸缩性是指算法要能够处理大数据 量的数据库样本,比如处理上百万条记录的数据库。这就要求算法的时间复杂 度不能太高,最好是多项式时间的算法。许多聚类分析算法在小数据集上有效。 但随着大型数据库、数据仓库的广泛应用,对大数据集聚类时许多原有的聚类 算法可能产生偏差,甚至出现错误的结果。因此可以说,可伸缩性是实践对聚 类算法提出的要求。 3 处理高维数据的能力 大型数据集都有很多的字段,也就是说,数据的维数很高。较早的聚类算 法的研究主要针对低维数据,那些聚类分析算法对处理维数少的数据集表现不 错,但对于高维数据就没有那么高的准确度了。所以对于高维数据的聚类分析 是很具有挑战性的,特别是考虑到在高维空间中,数据的分布是极其稀疏的, 有时是高度倾斜,而且形状也可能是极其不规则。目前,已经提出了一些针对 高维数据的聚类算法。 4 发现具有任意簇的形状的聚类能力 许多聚类算法是建立在距离度量基础上的,例如,使用欧几里得距离的相 似性度量方法。这一类算法发现聚类通常是一些球状的、大小和密度相近的类。 但是,数据集中实际存在的簇可能是任意形状的。簇的大小差异较大,密度也 不尽相同。所以,实践要求算法有发现任意形状的聚类的能力。 5 能够处理异常数据 数据集合中往往包含异常数据,例如,孤立点、缺失值、未知或错误的数 据。如果聚类算法这些数据很敏感,就有可能导致错误的分析结果。所以,在 9 处理孤立点时,需要尽量排除或降低来自孤立点的影响,应该考虑一些实际问 题可能要求聚类算法对噪声数据具有较低的敏感性。 但是,从另一个角度上看,有一些实际问题又要求聚类算法在执行过程中, 间或地合理发现孤立点,例如对商业欺诈的分析。在数据挖掘中,意外收获常 常引起商业用户提高对数据挖掘的兴趣,从而推动数据挖掘在该领域的应用。 6 对数据顺序的不敏感性 有些聚类算法对输入数据的顺序敏感,按不同的输入顺序提交同一组数据 时,聚类算法会生成显著不同的聚类结果。即,对同一个数据集,将它以不同 的顺序输入到分析算法,得到的结果会不同,这是我们不希望的。为提高聚类 结果的稳定性,应该研究对输入数据顺序不敏感的聚类算法。 7 输入参数对领域知识的依赖性 许多聚类算法要求用户输入特定的参数,如产生的簇的数目。例如,需要 发现的聚类数、结果的支持度及置信度等。聚类分析的结果通常都对这些参数 很敏感,参数的细微变化可能导致显著不同的聚类结果,但另一方面,对于高 维数据,这些参数又是相当难以确定的。另外,参数设置加重了用户负担,也 难以控制聚类结果质量。一个好的聚类算法应该针对这个问题,给出一个好的 解决方法。 8 聚类结果的可解释性和实用性 聚类的结果最终都是要面向用户的,所以,聚类的结果应该是可理解、可 解释的、可用的。这就要求聚类算法必须与一定的语义环境及语义解释相关联。 领域知识如何影响聚类分析算法的设计是很重要的一个研究方面。 9 增加限制条件后的聚类分析能力 在实践中,会有很多限制,一个好的聚类算法,应该是在考虑这些限制的 情况下,仍旧有较好的表现。 2 3 2 聚类算法的分类 在聚类分析的研究中,目前主要集中在基于距离的聚类分析。主要的聚类 算法可以划分为5 大类:划分的方法( p a r t i t i o n i n gm e t h o d ) 、层次的方法 ( h i e r a r c h i c a lm e t h o d ) 、基于密度的方法( d e n s i t y b a s e dm e t h o d ) 、基于网格 的方法( g r i d b a s e dm e t h o d ) 、基于模型的方法( m o d e l b a s e dm e t h o d ) 。 1 划分的方法的共同特点是聚类数目给定,即给定n 个对象或元组的数 据库,以及要生成簇的数目k ,一个划分的方法构建数据的k 个划分,每个划 分表示一个聚类,并且k s i m ( :9 - 衣l ,裤子1 ) ,同时外衣1 与裤子1 应比 外衣1 与鞋子1 的相似性高,即:s i m ( # b 衣1 ,裤子1 ) s i m ( 外衣1 ,鞋子1 ) , 因为外衣l 与裤子1 同属于衣服类,而外衣1 与鞋子1 则不属于同一类别。这 样只要能够明确不同项目所属的类别层次,就可以求得他们之间的类别相似性, 而这些原本客观存在的影响因素,在传统的余弦相似性计算中没有体现。同样, 传统意义上的概率计算方法也无法体现这一内在影响,这是因为他们所采用的 方法在计算相似性的时候都是站在单一的用户评分的角度来进行的,即项目之 间是否相似仅仅取决于用户对项目的评分,这显然和实际情况有所不同,因此, 在计算项目相似性的时候应该充分考虑项目的类别相似性对项目相似性的影 响。 定义1 :将不同项目按照所属类别建立的树称为类别层次树。 定义2 :项目a 和b 可能既属于类a ,又属于类b ,在类别层次树中最靠近 a 和b 的类称为a 和b 的最近类别。 类别相似性不同于项目相似性,它仅仅用来表示由于类别的不同而给项目 之间的相似性带来的影响,而项目相似性则表示综合所有因素之后,计算得到 的相似性。 3 4 产品特征选取 原则上,对每个模式知道的信息越多,聚类的效果应该越好。然而,在实 践中并非如此,所以当对产品的特征进行提取。有些特征可能是噪音数据,就 是说对聚类结果没有贡献甚至可能降低聚类效果。特征选择在有监督学习环境 下已经被除数广泛的研究,在这种情况下,特征选择的最终目标是选择可以在 不可见的数据上获得最高准确度的那些特征19 1 。 3 4 1 特征选取的常用方法 已有的大多数特征选择方法属于有监督学习。特征选择算法主要分成两类: f i l t e r s 和w r a p p e r s 。f i l t e r s 方法仅仅使用数据集评价每个特征( 子集) 的相关 1 9 性,不考虑后来的学习算法。r e l i e f 就是这类算法的代表,其基本思想就是 基于结合每个数据点的k 邻近的特征值来给特征赋权值。信息理论的方法也被 用于评价特征:相关特征和类标签的相互信息值应该是高的。非参数的方法也 可以用来计算包含连续值特征的相互信息。如果一个参数在给定其他特征的条 件下,条件独立于类标签,则该参数被除数认为是无关特征。w a p p e r s 方法使 用学习算法来评价每个特征( 子集) 的质量。具体地说,一个学习算法( 例如 最邻近分类器、决策树、朴素贝叶斯方法) 运行在一个特征子集,该特征子集 用分类准确率的估计值来评价。同f i l t e r s 方法相比,w a p p e r s 方法通常计算量 大,但是可以获得更高的准确率。 3 4 2 本文特征选取的策略 本文是从用户的角度出发,去观察产品的特征,以用户喜欢的产品的特征 属性值来对用户进行聚类,因为产品的最终服务对象是用户,用户对产品的理 解能真实地反映产品特征对其的影响,所以在产品特征的选取上,应充分考虑 用户的对产品的哪些特征感兴趣。 用户对产品的评价往往用一些主观性的词汇,如“方便”,“轻巧”,“好看 等等。而我们在对产品的特征选取时,则就以用户的这些主观评价为基础,构 建一个产品特征选取模型,去发现这些主观评价与产品特征之间的联系,从而 从用户的角度出发,选取合适的最优产品特征集。我们认为每一个用户对产品 的主观评价,判断哪些是他喜欢的,哪些是他不喜欢的产品基于以下几个假设: 1 用户对产品的感知来源于产品的特征,如:形状,颜色,材料等。 2 用户对产品的解释用一些主观性的词汇,但是是基于产品特征的,如: “方便”,“轻巧”等。 3 用户对产品喜欢还是不喜欢的判断,是基于用户的主观的评价和对产品 的实际用途的期望。 基于1 ,2 两点,我们可以发现产品特征与用户主观评价之间的联系,从而 构建一个用户主观评价模型。 每一个用户的主观评价是通过以下几个层次构建起来的: 第一,产品的特征可以具体到一系列的属性,我们用具体的属性值来描述 产品的特征。例如,以形状,颜色,材料为三个属性为例,我们可以将产品描 述为 “方形”,“红色 ,“化纤”) , “圆形”,“蓝色”,“纯棉”) 等。因此, 可以用一个多维的向量空间的形式来描述产品总体上的特征。因此首先要建立 产品特征描述的相关属性空间。 第二,实际中用户对产品的评价往往是一些主观性,带有心理期望的词汇。 需要收集这些主观的评价词,建立一个主观评价集合。 2 0 第三,分析评价集合与产品特征的联系,对产品的特征进行属性约简,从 中选出具体某类产品用户关注比较高,认为比较重要的,比较感兴趣的,建立 产品的最优特征向量。 3 5 聚类流程 粤”卜匪 匡l l 图3 3 特征选取策略流程图 基于以上思想的聚类过程如下: ( 1 ) :对营销数据库的产品进行分类,把产品分成若干类; ( 2 ) :针对上面的分类,对每一个具体的类进行特征选取,并构造特征空 间,即p = w 。,w 2 ,心,嵋) ,n 为特征空间的维数; ( 3 ) :根据用户的购买记录,依据产品种类对用户进行聚类,即c l ,c 2 , c 3 ,c k ; ( 4 ) :根据( 2 ) 提取的产品的特征矩阵,对用户进行基于产品属性的聚类, 目口c l ,c 2 ,c 3 ,c m 。 ( 5 ) :以( 3 ) ( 4 ) 两步为基础,综合考虑购买相似与属性相似,重新

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论