




已阅读5页,还剩37页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
用户行为分析与数据挖掘模型研究与应用陶振武,taozhenwu研究院产业市场所,2013-03-26,介绍框架,2,用户群体,个体属性(职业/性别/收入等),社会属性(家庭/团队等),个体偏好(阅读/视频/音乐等),群体相似性(协同/关联等),用户个体属性判别模型用户社交属性判别模型用户的业务偏好分析模型基于群体相似性的智能推荐模型,目录,3,总体框架,4,训练,应用,模型描述(一级),从GPRS数据流量的角度划分数据总量:约5.5亿,抽样数据:约100万,抽样率:1.82,5,模型描述(二级),根据客户个人属性划分:6大属性,37(26)个标签属性不可直接获取抽取部分客户做调研关联调研数据与基础画像数据,为每一维度每一类别建立类中心向量模型,6,回收9749/发送92万,回收率:10.6,年龄-中老年地域-农村,年龄-青壮年职业-学生,性别-男职业-工人,本地、漫游、GPRS,*括号内为类别优化后的标签数,模型应用,应用,7,用户属性及标签,性别男女年龄青少年(13-24岁)青壮年(25-40岁)中年(41-50岁)中老年及老年(50岁以上),地域城镇农村职业公务员企业白领工人自由职业者农民学生无业,学历初中及以下高中/中专/技校大专大学本科硕士及以上收入低于1500元1501-3000元3001-5000元5001-7000元7001-9000元高于9000元,8,计算过程,9,1、由于各数据字段单位、数量范围、表示含义不同,因此首先需要对语音、短信、上网、费用等做数据变换,对数变换后归一化。每个用户形成一个17维的向量,例如(0.5236,0.3067,0.8300)。2、将训练数据(调研数据及关联画像)近1万个样本生成特征文件。特征文件中存储的是各二级维度下各标签代表类别的类中心向量。例如“中流量男用户的类中心”:(0.7429,0.4552,0.8322);“中流量女用户的类中心”:(0.7651,0.3464,0.8283)。3、对需要打标签的新数据做与第1步相同的数据转换。例如某用户本地计费时长90分钟,长途计费时长1分钟总费用30元。经过数据转换后得到该用户的向量:(0.7435,0.5330,0.8300)。4、将每一个新用户转换后的数据与各二级维度下各标签的类中心对比,根据计算结果,将与用户距离近的类别标签赋予该用户。,介绍框架,10,用户群体,个体属性(职业/性别/收入等),社会属性(家庭/团队等),个体偏好(阅读/视频/音乐等),群体相似性(协同/关联等),用户个体属性判别模型用户社交属性判别模型用户的业务偏好分析模型基于群体相似性的智能推荐模型,目录,11,研究目标和意义,12,关系群体社会网络,动态移动轨迹,OD稳定点发现,提升家庭、集团客户营销精准度针对性制定竞争策略加强核心客户维系和粘性价值利用群体影响力拓展营销市场,掌握用户群体出行规律,强化广告投放、业务营销策略拓展信息化服务业务产品,提升目标客户群体圈定的准确率和效率丰满客户画像了解客户分布,定位商务区、居民区、流动性大区域,对用户的交往、移动轨迹等使用社会网络分析相关分析方法进行建模,判别用户间各类交往关系,如家庭、同事等。,研究方法,13,包括用户个人通话行为、用户交往圈以及用户移动轨迹,首次引入不同时段的位置信息,提升关系识别精准度。,从数据仓库中读取源数据,校验数据的完整性,去除冗余和具有明显错误的数据。,1)OD发现/轨迹分析:分析基站数据得到用户移动轨迹的时间和空间规律,可判定用户的OD稳定点,有助于描述用户行为模式和关系特征;2)特征提取:提取样本OD、通话频次、交往规律等用户行为特征,作为关系分类判别的依据;3)关系分类:基于特征建立不同关系分类训练器,计算不同关系和社群聚类,作为社会关系网络基础。,地图直观展示用户稳定点和关系分布,动态显示用户群行为轨迹,可作为营销参考依据,并支持灵活扩展配置。,使用河南济源三个月(2010.07-09)数据进行研究。,14,阶段一:接口检测检测配置文件,读取数据访问权限阶段二:数据校验检测表结构,清洗数据检查实体完整性和参照完整性运行状态检测检测模型运行状态,运行提示,配置文件,数据结构,数据标准化处理校验,15,阶段三:OD提取(时间+空间优化)出现频率大的基站区频繁度得到增强出现次数下限大的基站区频繁度得到增强周期性规律更显著的基站区得到突出,OD识别,识别效果:共有400000多位用户,其中识别380000位用户OD,识别率约为95%。其他12000多位用户由于位置暴露信息过少无法识别,8000多用户O和D只能识别其一。,16,关系分类,分类效果:引入交叉验证功能,家庭识别精度81%,同事识别精度73%。正在优化训练样本特征提取,逐步结果调优。,阶段四:产生训练集使用已知集团用户或家庭用户关系的其中一方除已知关系外的所有关系作为反例。可通过配置文件定义训练集规模阶段五:训练分类器主要使用用户间通话属性、交往圈重合、OD来进行分类,17,关系识别,识别效果:识别出882178个家庭关系,2147524个同事关系;形成了10948个家庭,每个家庭的人数平均为5;形成了4743个集团,每个集团的人数平均为13。,阶段六:计算关系利用分类器,对用户的关系进行分类阶段七:计算群组根据得到的关系,可以将用户聚集成组,形成家庭和同事群体,模型识别效果测试,18,OD切换时间服从正态分布,与日常规律一致,不同关系群体与亲密指数分布符合常态规律,关系识别可视化,19,结合地图信息,提供了可展示不同用户社群关系归属、OD稳定点、动态移动轨迹、OD分布和用户密度分布的可视化Web页面,可更加直观和便捷地圈定和查询家庭集团客户,有助于市场拓展应用和精准营销。,以Googlemap方式展示,家庭、同事、朋友等不同关系群体分类查询,静态显示住所和工作地稳定点。,列表给出查询用户附近同类群体成员信息,可直接点击查看静态分布。,设定时间段,动态播放该关系群体的动态轨迹分布,有助于了解不同群体用户移动出行规律以及消费特征。,聚类展示该区域集中的居民区和商务区;利用热度图展示用户密度分布,20,可视化示意,A)基站分布图,B)某家庭群体稳定点分布,C)某集团群体成员信息,D)某家庭群体动态行为轨迹,F)聚类展示居民区和工作区,E)用户分布密度,介绍框架,21,用户群体,个体属性(职业/性别/收入等),社会属性(家庭/团队等),个体偏好(阅读/视频/音乐等),群体相似性(协同/关联等),用户个体属性判别模型用户社交属性判别模型用户的业务偏好分析应用模型基于群体相似性的智能推荐模型,目录,22,业务偏好应用模型研究的需求如何根据客户的数据业务行为、基础画像、互联网行为,研究客户的业务偏好以及内容、时间等偏好,针对当前数据业务沉默客户、潜在客户开展激活与推荐。研究业务偏好应用模型的意义以用户为导向,满足用户个性化需求,比传统的大众推荐效果更好。以真实数据为依据进行分析,实现对用户的精准定位和精确推荐。有利于节约成本、提高利润水平,保留和吸引更多用户。,背景意义,23,基于结构化数据的偏好分析模型,通过用户的月基础画像信息自动对用户分群生成用户标签。在每个用户群内,通过用户的业务使用行为做内容关联分析针对每类用户推荐不同的内容。,24,输入数据,用户基础画像数据业务使用行为数据以手机视频业务为例,25,业务偏好计算,用户分群:数据变换、归一化:解决各个特征的计量单位、大小范围差异大的问题。K-means聚类:使用基础画像信息自动聚出8个类型不同的用户群。,26,业务偏好计算,27,(1)高资费人群:该类人群特征是绝大部分数值均大于平均值,即消费水平高于平均水平,特别是总费用是各类人群中最高的。(2)标准用户群:该类人群特征是绝大部分数值与平均值持平或低于平均值。值得一提的是,虽然GPRS套餐费较高,但使用时能严格控制流量,使流量不超过标准套餐的额度,不产生额外的GPRS通信费。(3)低资费人群:该类人群特征是通话时长、短信量、上网流量均低于平均水平,特别是总费用是各类人群中最低的。(4)上网发烧友:该类人群特征是上网的流量和费用超高,同时通话等传统业务量少。(5)上网一族:该类人群特征是上网流量经常超出GPRS套餐额度,导致GPRS通信费超高。与上网发烧友相比,通话等传统业务使用显得更活跃。(6)理性上网群:该类人群特征是订阅GPRS套餐较为理性,套餐费高于平均值,属于喜爱上网的上群。同时,GPRS套餐外产生的额外费用几乎没有。(7)商务人士:该类人群特征是套餐月租费、漫游通话费、无线上网流量在各类人群中最高,符合商务人士出差、经常无线上网的特点。(8)通话达人:该类人群特征是语音业务套餐费显著高于其他各个用户群。另外,有了语音业务套餐,本地通话仍很频繁。,28,基于文本的内容过滤推荐模型,出于效率考虑,用户数据分析平台以每个用户访问过的项集的文本特征分别建立该用户的Profile并按日更新,然后通过比对Profile和推荐候选项集的文本特征来实现内容过滤推荐。相比于传统算法,主要进行了如下改进:a.分层多粒度的标签体系。用户偏好特征按照大类-子类-关键词的方式进行组织,能够适应不同的营销场景需求。例如,进行手机阅读推荐时主要使用“阅读”类的标签,进行游戏推荐时主要使用“游戏”类的标签;b.潜在语义分析。解决不同语境下的多义词问题。,29,基于文本的内容过滤推荐模型,示例,30,基于文本的内容过滤推荐模型,对于在某一特定文件里的词语来说,它的重要性可表示为:,是该词在文件中的出现次数,而分母则是在文件中所有字词的出现次数之和。,逆向文件频率IDF则计算一个词语普遍重要性。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再对数得到。,则一个词语的权重为:,根据用户访问过的文件,用向量wc=(wc1,wc2,.,wck)来表示用户的偏好,其中每个分量wci表示关键词ki对用户c的重要性。而一个文件可以表示为:ws=(w1j,w2j,.,wkj)。则用户对该文件感兴趣的程度是:,介绍框架,31,用户群体,个体属性(职业/性别/收入等),社会属性(家庭/团队等),个体偏好(阅读/视频/音乐等),群体相似性(协同/关联等),用户个体属性判别模型用户社交属性判别模型用户的业务偏好分析应用模型基于群体相似性的智能推荐模型,目录,32,33,基于协同过滤的推荐模型,用户数据分析平台中提供了多种类型的协同过滤算法,主要包括:a.以用户为中心的算法。为目标用户构建与其偏好类似的近邻集合,向其推荐近邻里用户的喜好的项集;b.以Item为中心的算法。为每个Item构建近邻集合,向目标用户推荐与其历史访问记录相似的项集;c.基于Item影响集合的算法。扩展以Item为中心的算法,考虑逆向近邻以改善性能;d.基于二部图随机游走的算法。利用用户和Item之间的传递关联性改善性能;e.基于矩阵分解的算法。通过矩阵分解技术将用户访问记录矩阵映射到低维空间,提升在线计算的效率。,34,基于协同过滤的推荐模型,示例为一个用户-项目评分矩阵,其中评分值代表用户对项目的偏好度。评分值可以是由用户提供的,或者是按照某种转化原则从用户行为中推导出的,例如浏览为1分、下载免费版本为2分、付费购买为3分、给予好评得4分,示例,我们假定任务是向用户z推荐一个他尚未下载过的最喜欢游戏,在本例中,这个问题简化为从游戏d和游戏e中挑选一个用户z最可能喜欢的。根据历史记录,用户z与用户y的相似程度较高,因此用户y的评价会更接近于z的观点,游戏e可能是用户z较喜欢的。,实际系统中的用户数和项目数量通常非常庞大,因此这个筛选过程也要复杂得多,35,基于协同过滤的推荐模型,用户z对事物b的评分可能是多少?SlopeOne算法认为:平均值也可以代替某两个未知个体之间的评分差异,事物a对事物b的平均差是:(34)+(24)/2=-1.5,也就是说人们对事物b的评分一般比事物a的评分要高1.5,于是SlopeOne算法就猜测z对事物b的评分是4+1.5=5.5,36,基于FPTree的关联规则推荐模型,用户数据分析平台中使用如下方式对关联规则挖掘进行改进:a.基于频繁树的优化。按照数据库中的访问事务集生成频繁模式树,再对频繁模式树进行挖掘生成频繁模式,最后根据频繁模式生成带有置信度权重的关联推荐规则b.聚类优化。预先对项目进行聚类,按照类别生成关联规则。,37,基于FPTree的关联规则推荐模型,示例,规则1:下载过歌曲5的用户也下载过歌曲3(置信度67%,覆盖率5%)规则2:下载过歌曲5的用户也下载过歌曲6(置信度50%,覆盖率6%):规则k:,置信度:规则成立的可能性覆盖率:同时下载了规则中包含歌曲的比率,用途示例:当用户访问歌曲5的页面时,将关联规则中置信度和覆盖率较高的歌曲显示在页面中的推荐位,以提升用户转化率。,38,基于社会网络的推荐模型,用户数据分析平台中提供如下几种算法:a.基于广度优先搜索的算法。通过广度优先遍历目标用户的社会网络至一定深度,对这个范围内好友对于项集和偏好程度进行加权,并根据权值进行排序产生推荐列表;b.基于网络流的算法。通过模拟随机走动,获取社会网络中与节点关系密切且全局影响度高的节点,将他们偏好的项作为推荐结果。,39,基于社会网络的推荐模型,关系挖掘,推荐结果,其他用户偏好的项,偏好加权,关系挖掘:寻找与目标用户u关系紧密的群体Nu以及关系的类型与强度;偏好加权:对Nu中用户所偏好的项进行加权和排序,产生最终的推荐结果,如何向用户u推荐新产品内容业务?,示例,40,模型特点,支持多种来源数据采集:客户端API
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年无人机操控员试题及答案
- 水力学期末考试复习题及答案
- 2025年飞机加油员技能鉴定模拟测试及答案
- 二 全面建设社会主义现代化国家教学设计-2025-2026学年高中思想政治高中习近平新时代中国特色社会主义思想学生读本
- 足球知识面试题库及答案
- 总帐会计面试题及答案
- 安全用药考试题及答案
- 安澜心理测试题及答案
- uk心理测试题目及答案
- 有线数字电视网络运营维护与客户服务合同
- LY/T 1063-2008全国森林火险区划等级
- GB/T 4852-2002压敏胶粘带初粘性试验方法(滚球法)
- 2023年高考全国1卷理科数学和答案详解(word版本)
- GMP质量体系状态标志、标识编制及管理规程
- 情绪压力管理-情绪压力管理课件
- 万科物业管理服务工作手册
- 简单的电动车代理合同模板
- DDI辅导员工迈向成功-辅导领导力系列
- 竞选大学心理委员ppt模板
- 煤矿井筒装备安装方案
- T∕CEPPEA 5008-2021 城市电缆线路岩土工程勘察规范_
评论
0/150
提交评论