用户行为分析与数据挖掘模型研究与应用_第1页
用户行为分析与数据挖掘模型研究与应用_第2页
用户行为分析与数据挖掘模型研究与应用_第3页
用户行为分析与数据挖掘模型研究与应用_第4页
用户行为分析与数据挖掘模型研究与应用_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、用户行为分析(fnx)与数据挖掘模型研究与应用陶振武,taozhenwu究院产业(chny)市场所2013-03-26共四十三页介绍(jisho)框架2用户(yngh)群体个体属性(职业/性别/收入等)社会属性(家庭/团队等)个体偏好(阅读/视频/音乐等)群体相似性(协同/关联等)共四十三页用户个体属性判别模型用户社交(shjio)属性判别模型用户的业务偏好分析模型基于群体相似性的智能推荐模型目录(ml)3共四十三页总体(zngt)框架4用户属性训练数据新用户数据模型训练用户调研特征向量用户基础画像数据关联二级划分用户属性数据处理、变换一级划分数据处理、变换训练(xn

2、lin)应用共四十三页模型(mxng)描述(一级)从GPRS数据(shj)流量的角度划分数据总量:约5.5亿,抽样数据:约100万,抽样率:1.82用户低流量用户中流量用户高流量用户低流量客户中流量客户高流量客户月GPRS流量0, 1M)1M, 30M(30M, +) 抽样客户数393677329375276948抽样客户占比39.37%32.94%27.69%5共四十三页模型(mxng)描述(二级)根据(gnj)客户个人属性划分:6大属性,37(26)个标签属性不可直接获取抽取部分客户做调研关联调研数据与基础画像数据,为每一维度每一类别建立类中心向量模型属性性别年龄地域学历职业收入标签数28

3、(4)2514(7)66回收9749/发送92万,回收率:10.6 年龄-中老年地域-农村年龄-青壮年职业-学生性别-男职业-工人本地、漫游、GPRS *括号内为类别优化后的标签数共四十三页模型(mxng)应用应用(yngyng)7第一级从流量的角度划分第二级从用户的角度划分流量30M用户群高流量用户低流量用户学历-初中及以下地域-农村年龄-50岁以上地域-城市手机号码一级标签二级标签性别年龄地域学历职业收入*高流量男青壮年(25-40岁)城市大学本科自由职业者高于9000元*低流量女中老年及老年(50岁以上)农村初中及以下农民3001-5000元共四十三页用户(yngh)属性及标签性别男女年

4、龄青少年(13-24岁)青壮年(25-40岁)中年(zhngnin)(41-50岁)中老年及老年(50岁以上)地域城镇农村职业公务员企业白领工人自由职业者农民学生无业学历初中及以下高中/中专/技校大专大学本科硕士及以上收入低于1500元1501-3000元3001-5000元5001-7000元7001-9000元高于9000元8共四十三页计算(j sun)过程91、由于各数据字段单位、数量范围、表示含义不同,因此首先需要对语音、短信、上网、费用等做数据变换,对数变换后归一化。每个用户形成一个17维的向量,例如(0.5236,0.3067,0.8300)。2、将训练数据(调研数据及关联画像)近

5、1万个样本生成(shn chn)特征文件。特征文件中存储的是各二级维度下各标签代表类别的类中心向量。例如“中流量男用户的类中心”:(0.7429,0.4552,0.8322);“中流量女用户的类中心”:(0.7651,0.3464,0.8283)。3、对需要打标签的新数据做与第1步相同的数据转换。例如某用户本地计费时长90分钟,长途计费时长1分钟总费用30元。经过数据转换后得到该用户的向量:(0.7435,0.5330,0.8300)。4、将每一个新用户转换后的数据与各二级维度下各标签的类中心对比,根据计算结果,将与用户距离近的类别标签赋予该用户。共四十三页介绍(jisho)框架10用户(yn

6、gh)群体个体属性(职业/性别/收入等)社会属性(家庭/团队等)个体偏好(阅读/视频/音乐等)群体相似性(协同/关联等)共四十三页用户个体属性判别模型用户社交属性判别模型用户的业务偏好分析模型基于群体(qnt)相似性的智能推荐模型目录(ml)11共四十三页研究(ynji)目标和意义12关系群体(qnt)社会网络动态移动轨迹OD稳定点发现提升家庭、集团客户营销精准度针对性制定竞争策略加强核心客户维系和粘性价值利用群体影响力拓展营销市场掌握用户群体出行规律,强化广告投放、业务营销策略拓展信息化服务业务产品提升目标客户群体圈定的准确率和效率丰满客户画像了解客户分布,定位商务区、居民区、流动性大区域对

7、用户的交往、移动轨迹等使用社会网络分析相关分析方法进行建模,判别用户间各类交往关系,如家庭、同事等。共四十三页研究(ynji)方法13包括用户个人通话行为、用户交往圈以及用户移动轨迹,首次引入不同时段的位置信息,提升(tshng)关系识别精准度。从数据仓库中读取源数据,校验数据的完整性,去除冗余和具有明显错误的数据。1)OD发现/轨迹分析:分析基站数据得到用户移动轨迹的时间和空间规律,可判定用户的OD稳定点,有助于描述用户行为模式和关系特征;2)特征提取:提取样本OD、通话频次、交往规律等用户行为特征,作为关系分类判别的依据;3)关系分类:基于特征建立不同关系分类训练器,计算不同关系和社群聚类

8、,作为社会关系网络基础。地图直观展示用户稳定点和关系分布,动态显示用户群行为轨迹,可作为营销参考依据,并支持灵活扩展配置。使用河南济源三个月(2010.07-09)数据进行研究。共四十三页14阶段一:接口检测(jin c)检测配置文件,读取数据访问权限阶段二:数据校验检测表结构,清洗数据检查实体完整性和参照完整性运行状态检测检测模型运行状态,运行提示配置文件数据结构(sh j ji u)数据标准化处理校验共四十三页15阶段三:OD提取(时间+空间优化)出现频率大的基站区频繁度得到增强出现次数下限大的基站区频繁度得到增强周期性规律更显著(xinzh)的基站区得到突出OD识别(shbi)解决了数据

9、非实时,数据稀缺的问题仍有不足,需要利用时空规律进行改进OD同时被多个基站覆盖,数据分散需要进行合并-手机行为随机,不能只用次数作为频繁度刻画-需要用行为的周期性规律对次数做修正OD发现朴素算法空间规律利用时间规律利用识别效果:共有400000多位用户,其中识别380000位用户OD,识别率约为95%。其他12000多位用户由于位置暴露信息过少无法识别,8000多用户O和D只能识别其一。共四十三页16关系(gun x)分类分类效果:引入交叉验证(ynzhng)功能,家庭识别精度81%,同事识别精度73%。正在优化训练样本特征提取,逐步结果调优。阶段四:产生训练集使用已知集团用户或家庭用户关系的

10、其中一方除已知关系外的所有关系作为反例。可通过配置文件定义训练集规模阶段五:训练分类器主要使用用户间通话属性、交往圈重合、OD来进行分类共四十三页17关系(gun x)识别识别效果:识别出882178个家庭关系,2147524个同事关系;形成(xngchng)了10948个家庭,每个家庭的人数平均为5;形成了4743个集团,每个集团的人数平均为13。阶段六:计算关系利用分类器,对用户的关系进行分类阶段七:计算群组根据得到的关系,可以将用户聚集成组,形成家庭和同事群体共四十三页模型识别(shbi)效果测试18模块性能效果OD识别共有400000多位用户,其中识别380000位用户OD,识别率约为

11、95%关系识别模型测试:家庭识别精度81%,同事识别精度73%实际外呼测试:家庭识别精度75%,同事识别精度65%群组发现形成了10948个家庭,每个家庭的人数平均为5;形成了4743个集团,每个集团的人数平均为13OD切换时间服从正态分布,与日常规律(gul)一致不同关系群体与亲密指数分布符合常态规律共四十三页关系(gun x)识别可视化19结合地图信息,提供了可展示不同用户社群关系归属、OD稳定点、动态移动轨迹、OD分布和用户密度分布的可视化Web页面,可更加(gnji)直观和便捷地圈定和查询家庭集团客户,有助于市场拓展应用和精准营销。以Googlemap方式展示家庭、同事、朋友等不同关系

12、群体分类查询,静态显示住所和工作地稳定点。列表给出查询用户附近同类群体成员信息,可直接点击查看静态分布。设定时间段,动态播放该关系群体的动态轨迹分布,有助于了解不同群体用户移动出行规律以及消费特征。聚类展示该区域集中的居民区和商务区;利用热度图展示用户密度分布共四十三页20可视化示意(shy)A)基站分布图B)某家庭群体稳定(wndng)点分布C)某集团群体成员信息D)某家庭群体动态行为轨迹F)聚类展示居民区和工作区E)用户分布密度共四十三页介绍(jisho)框架21用户(yngh)群体个体属性(职业/性别/收入等)社会属性(家庭/团队等)个体偏好(阅读/视频/音乐等)群体相似性(协同/关联等

13、)共四十三页用户个体属性判别模型用户社交属性判别模型用户的业务偏好分析应用(yngyng)模型基于群体相似性的智能推荐模型目录(ml)22共四十三页业务偏好应用模型研究的需求如何根据客户的数据业务行为、基础画像、互联网行为,研究客户的业务偏好以及内容、时间等偏好,针对当前数据业务沉默客户、潜在客户开展激活与推荐(tujin)。研究业务偏好应用模型的意义以用户为导向,满足用户个性化需求,比传统的大众推荐效果更好。以真实数据为依据进行分析,实现对用户的精准定位和精确推荐。有利于节约成本、提高利润水平,保留和吸引更多用户。背景(bijng)意义23共四十三页基于结构化数据(shj)的偏好分析模型通过

14、用户的月基础(jch)画像信息自动对用户分群生成用户标签。在每个用户群内,通过用户的业务使用行为做内容关联分析针对每类用户推荐不同的内容。24用户基础画像数据用户使用行为数据用户分群内容推荐商务人士上网一族用户标签小乔布斯精彩演说 概念车竟水上飞驰视频名称共四十三页输入(shr)数据用户基础(jch)画像数据业务使用行为数据以手机视频业务为例手机号码收看过的视频内容ID1视频内容ID2视频内容ID313800000002视频内容ID1视频内容ID2视频内容ID3基本信息行为信息费用信息语音使用行为短信使用行为GPRS使用行为WLAN使用行为25共四十三页业务偏好(pi

15、n ho)计算用户分群:数据变换、归一化 :解决各个特征的计量单位、大小范围差异大的问题。K-means聚类:使用基础画像信息自动(zdng)聚出8个类型不同的用户群。26用户群高资费人群标准用户群低资费人群上网高烧友上网一族理性上网群商务人士通话达人共四十三页业务偏好(pin ho)计算27(1)高资费人群:该类人群特征是绝大部分数值均大于平均值,即消费水平高于平均水平,特别是总费用是各类人群中最高的。(2)标准用户群:该类人群特征是绝大部分数值与平均值持平或低于平均值。值得一提的是,虽然GPRS套餐费较高,但使用时能严格控制流量,使流量不超过标准套餐的额度,不产生额外的GPRS通信费。(3

16、)低资费人群:该类人群特征是通话时长、短信量、上网流量均低于平均水平,特别是总费用是各类人群中最低的。(4)上网发烧友:该类人群特征是上网的流量和费用超高,同时通话等传统业务量少。(5)上网一族:该类人群特征是上网流量经常超出GPRS套餐额度,导致GPRS通信费超高。与上网发烧友相比,通话等传统业务使用显得更活跃。(6)理性上网群:该类人群特征是订阅GPRS套餐较为理性,套餐费高于平均值,属于喜爱上网的上群。同时,GPRS套餐外产生的额外费用几乎没有。(7)商务人士:该类人群特征是套餐月租费、漫游(mnyu)通话费、无线上网流量在各类人群中最高,符合商务人士出差、经常无线上网的特点。(8)通话

17、达人:该类人群特征是语音业务套餐费显著高于其他各个用户群。另外,有了语音业务套餐,本地通话仍很频繁。共四十三页28基于(jy)文本的内容过滤推荐模型功能根据用户访问过的项集的文本主题特征,向其推荐可能感兴趣的新内容适用范围业务产品、互联网内容资讯、广告等内容推荐,要求能够获得项集的文本特征描述模型输入有历史访问行为的目标用户u、该用户访问过的内容项(页面、文章、书籍)集合Iu及集合中元素的关键词描述、该用户未访问过的内容项集合RIu以及集合中元素的关键词描述模型输出目标用户u可能喜欢的内容项Top-N列表出于效率考虑,用户数据分析平台以每个用户访问过的项集的文本特征分别建立该用户的Profil

18、e并按日更新,然后通过比对Profile和推荐候选项集的文本特征来实现内容过滤推荐。相比(xin b)于传统算法,主要进行了如下改进:a.分层多粒度的标签体系。用户偏好特征按照大类-子类-关键词的方式进行组织,能够适应不同的营销场景需求。例如,进行手机阅读推荐时主要使用“阅读”类的标签,进行游戏推荐时主要使用“游戏”类的标签;b.潜在语义分析。解决不同语境下的多义词问题。共四十三页29基于文本的内容(nirng)过滤推荐模型用户A用户B用户阅读的文章雅虎重组自救,胜算几何?正文家用热销2012款新车行情调查正文Profile数据IT/互联网:德克尔_0.227451汽车:经济型_0.16078

19、4IT/互联网:杨致远_0.454902汽车:省油_23.470320IT/互联网:总裁_0.5681205汽车:热销_0.176471推荐的文章雅虎欲撤换杨致远 新一轮裁员不可避雅虎董事会欲撤换杨致远 新一轮裁员雅虎股票跌回2月初微软提出收购前价新宝来现金优惠6000元 店内现车供应低油耗对抗高油价 5款小排量增压车行情六款配自动空调时尚小车推荐示例(shl)共四十三页30基于文本的内容过滤(gul)推荐模型对于在某一特定文件(wnjin)里的词语 来说,它的重要性可表示为: 是该词在文件 中的出现次数,而分母则是在文件 中所有字词的出现次数之和。 逆向文件频率IDF则计算一个词语普遍重要性

20、。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再对数得到。则一个词语的权重为:根据用户访问过的文件,用向量wc=(wc1,wc2,.,wck)来表示用户的偏好,其中每个分量wci表示关键词ki对用户c的重要性。而一个文件可以表示为:ws=(w1j,w2j,.,wkj)。则用户对该文件感兴趣的程度是:共四十三页介绍(jisho)框架31用户(yngh)群体个体属性(职业/性别/收入等)社会属性(家庭/团队等)个体偏好(阅读/视频/音乐等)群体相似性(协同/关联等)共四十三页用户个体属性判别模型用户社交(shjio)属性判别模型用户的业务偏好分析应用模型基于群体相似性的智能推

21、荐模型目录(ml)32共四十三页33基于(jy)协同过滤的推荐模型功能根据用户之间在历史访问记录上的关联性,预测用户对于未访问项的偏好程度,并进行推荐适用范围业务产品、互联网内容资讯、广告等内容推荐,不需要内容的文本特征,只要有用户的历史访问、下载、评分等数据即可模型输入目标用户u、系统中所有用户访问过的内容项(页面、文章、书籍)集合I及对每个用户对集合中元素的访问权重(可以是访问频次、评分值或根据不同的用户行为类型指定一个相应权值)模型输出目标用户u可能喜欢的Top-N项列表用户数据分析平台中提供了多种类型的协同(xitng)过滤算法,主要包括:a.以用户为中心的算法。为目标用户构建与其偏好

22、类似的近邻集合,向其推荐近邻里用户的喜好的项集;b.以Item为中心的算法。为每个Item构建近邻集合,向目标用户推荐与其历史访问记录相似的项集;c.基于Item影响集合的算法。扩展以Item为中心的算法,考虑逆向近邻以改善性能;d.基于二部图随机游走的算法。利用用户和Item之间的传递关联性改善性能;e.基于矩阵分解的算法。通过矩阵分解技术将用户访问记录矩阵映射到低维空间,提升在线计算的效率。共四十三页34基于(jy)协同过滤的推荐模型用户游戏a游戏 b游戏 c游戏d游戏ex1231y3413z344?示例为一个用户-项目评分矩阵,其中评分值代表用户对项目的偏好度。评分值可以是由用户提供的,

23、或者是按照某种转化原则从用户行为中推导出的,例如浏览为1分、下载免费(min fi)版本为2分、付费购买为3分、给予好评得4分示例我们假定任务是向用户z推荐一个他尚未下载过的最喜欢游戏,在本例中,这个问题简化为从游戏d和游戏e中挑选一个用户z最可能喜欢的。根据历史记录,用户z与用户y的相似程度较高,因此用户y的评价会更接近于z的观点,游戏e可能是用户z较喜欢的。实际系统中的用户数和项目数量通常非常庞大,因此这个筛选过程也要复杂得多共四十三页35基于协同(xitng)过滤的推荐模型用户Item aItem bx34y24z4?用户z对事物b的评分可能是多少?SlopeOne算法认为:平均值也可以

24、代替(dit)某两个未知个体之间的评分差异,事物a对事物b的平均差是:(3 4) + (2 4) / 2 = -1.5,也就是说人们对事物b的评分一般比事物a的评分要高1.5,于是SlopeOne算法就猜测z对事物b的评分是4 + 1.5 = 5.5共四十三页36基于FP Tree的关联(gunlin)规则推荐模型功能挖掘用户访问记录中存在频繁模式,最后根据频繁模式生成带有置信度权重的关联推荐规则,用于关联性产品、内容、链接推荐等用途适用范围业务产品、互联网内容资讯、广告等内容推荐,具体展现通常为在页面中生成相关列表模型输入系统中所有用户访问过的内容项(页面、文章、书籍)集合I及对每个用户对集

25、合中元素的访问情况,当前的请求项i模型输出与当前请求项i相关的Top-N项列表用户数据分析平台中使用如下方式对关联规则挖掘进行改进:a.基于频繁树的优化。按照数据库中的访问事务(shw)集生成频繁模式树,再对频繁模式树进行挖掘生成频繁模式,最后根据频繁模式生成带有置信度权重的关联推荐规则b.聚类优化。预先对项目进行聚类,按照类别生成关联规则。共四十三页37基于FP Tree的关联规则(guz)推荐模型歌曲1歌曲2歌曲3歌曲4歌曲4歌曲5歌曲5歌曲7歌曲8歌曲9歌曲10歌曲11歌曲1210100000000000011000000000011011000000010010010010000010

26、00011000000111010001000010000010011001100100000000101000001110001000001000001100111000001111000000001000010000011001100000100000100001100010011001010001。示例(shl)规则1:下载过歌曲5的用户也下载过歌曲3(置信度67%,覆盖率5%)规则2:下载过歌曲5的用户也下载过歌曲6(置信度50%,覆盖率6%):规则k:置信度:规则成立的可能性覆盖率:同时下载了规则中包含歌曲的比率用途示例:当用户访问歌曲5的页面时,将关联规则中置信度和覆盖率较高的歌曲

27、显示在页面中的推荐位,以提升用户转化率。共四十三页38基于(jy)社会网络的推荐模型功能通过用户的通话、短信、好友关系等信息,构建用户之间的社会网络,向社会网络中关联较为密切的节点推荐相似的内容适用范围互联网内容资讯、广告等内容推荐,以及兴趣偏好相似的用户群推荐。相比基于内容和协同过滤的推荐,这种方法特别适合对行为数据较少甚至没有行为数据的用户进行推荐模型输入目标用户u、用户之间的社会关系网络G、系统中所有用户访问过的项(页面、文章、书籍)集合I及对每个用户对集合中元素的访问权重(可以是访问频次、评分值或根据不同的用户行为类型指定一个相应权值)模型输出目标用户u可能喜欢的Top-N项列表用户数据分析平台中提供如下几种算法:a.基于广度优先搜索的算法。通过广度优先遍历目标用户的社会网络至一定深度,对这个范围内好友对于项集和偏好程度进行加

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论