手机上网用户行为分析系统结题汇报实用教案_第1页
手机上网用户行为分析系统结题汇报实用教案_第2页
手机上网用户行为分析系统结题汇报实用教案_第3页
手机上网用户行为分析系统结题汇报实用教案_第4页
手机上网用户行为分析系统结题汇报实用教案_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、目目 录录二、主要二、主要(zhyo)(zhyo)研究成果(整合研究成果(整合后)后)第1页/共29页第一页,共29页。研究(ynji)背景“十一五”期间,我国网民规模跃居全球第一,宽带普及率接近100%,手机网民规模迅速发展,互联网应用更加深入,推动着社会进步和人们生活方式的变革。随着移动互联网近几年快速的发展,作为移动互联网关键环节的中国移动正在感受(gnshu)这个浪潮带来的冲击。约合485.5亿兆2009年约合1030.9亿兆2010年上网流量上网流量(liling)同比上升同比上升112.3%204.4亿元2009年305.3亿元2010年流量收入流量收入同比上升49.4%高速发展的

2、流量并没有带来相关收入的同步增长第2页/共29页第二页,共29页。研究(ynji)背景 在以用户为中心的发展时代下,了解用户需求成为我们面对课题的第一步工作,这就需要我们对我们网络中的流量有深入的了解,掌握我们用户的行为情况(qngkung),便于我们针对性的调整运营战略,在正在到来的移动互联网大潮中未雨绸缪,迎接即将到来的挑战。 针对用户的需求分析作为中国移动具有先天的优势,海量的CMWAP、CMNET的日志信息蕴含着巨大的财富,通过用户移动互联网行为分析,一方面让我们更了解我们的用户,实现个性化需求的识别。同时在有限的资源情况(qngkung)下及时的为用户提供个性化的产品生产、个性化的匹

3、配/分发。 通过针对用户上网行为的分析实现个性化需求的识别,成为数据部迫不及待需要解决的问题;同时在流量经营和精细化的营销方面具有非常重要的战略意义。第3页/共29页第三页,共29页。研究(ynji)目标 建立一套完善的手机上网用户行为分析系统, 通过对用户手机上网访问行为进行分析,获取用户的访问轨迹、浏览页面内容、网站信息、浏览客户端信息、移动(ydng)终端信息等,进行各类分析,形成各类用户模型。网络(wnglu)爬虫GPRS网站内容分析用户行为分析数据分析爬虫数据网站树内容树数据清洗WAP黄页库数据分析网关数据数据清洗用户行为模型数据索引用户属性内容属性结果呈现5个应用细分营销活动精确发

4、展用户引导自有业务分析竞争业务个性化内容日志采集第4页/共29页第四页,共29页。研究(ynji)目标 研究一种适应分类体系变化的海量网页快速分类系统,要求如下: 实现一个快速爬取手机用户访问日志的方法,需要深入到用户访问页面的标题、正文信息以及相关网页链接。 针对手机互联网,提出一种正文提取的方法。基于分块的基础上,提取每个信息块的信息量,并计算各个分块和网页title的相似度,最终确定正文块。 基于主题的多分类方法。文本不被看作(kn zu)仅仅是由一些特征词所组成的,而是被看作(kn zu)是由一些主题构成的,主题是由一些特征词构成的。通过样本中不同类别的主题分布,实现预测出一个新的文本

5、到底属于什么类别。第5页/共29页第五页,共29页。研究(ynji)总体框架手机上网用户行为分析项目研究的手机上网用户行为分析项目研究的总体架构如下:总体架构如下:多数据海量数据预处理多数据海量数据预处理海量数据存储和计算海量数据存储和计算“客户客户-内容内容”特征特征(tzhng)类标类标签分层可扩充体系签分层可扩充体系“客户客户-内容内容-业务业务”三维匹配矩阵三维匹配矩阵前台应用管理模块前台应用管理模块第6页/共29页第六页,共29页。研究(ynji)总体框架系统海量数据存储和计算功能是整个系统的核心功能实现模块,系统海量数据存储和计算功能是整个系统的核心功能实现模块,根据功能的层次结构

6、可以进一步细分为以下层次:根据功能的层次结构可以进一步细分为以下层次:数据采集和接口层:它负责从不同类型的网络数据采集和接口层:它负责从不同类型的网络(wnglu)(wnglu)中的中的接入和采集数据。针对网络接入和采集数据。针对网络(wnglu)(wnglu)自身的特性以及系统建自身的特性以及系统建设的实际情况,数据的采集可以是从硬件设备(如网关、设的实际情况,数据的采集可以是从硬件设备(如网关、GnGn口、口、分光设备)直接获取并解析,也可以是从其它系统(如分光设备)直接获取并解析,也可以是从其它系统(如BOSSBOSS和和VGOPVGOP)导入。)导入。数据清理和融合层:它负责对采集的数

7、据进行清洗,归一化后存数据清理和融合层:它负责对采集的数据进行清洗,归一化后存入海量数据存储设备。为了更深层次分析用户行为,它还负责网入海量数据存储设备。为了更深层次分析用户行为,它还负责网页收集和爬取、网页分类、应用协议分析,以及用户属性的获取页收集和爬取、网页分类、应用协议分析,以及用户属性的获取等功能。等功能。网络网络(wnglu)(wnglu)统计和用户行为分析层:它负责系统的核心应统计和用户行为分析层:它负责系统的核心应用功能实现,分为手机和有线网络用功能实现,分为手机和有线网络(wnglu)(wnglu)流量统计分析、流量统计分析、用户个体和群体行为分析、以及游戏、音乐等应用业务专

8、题分析用户个体和群体行为分析、以及游戏、音乐等应用业务专题分析等。等。分析结果展示层:它负责向读取网络分析结果展示层:它负责向读取网络(wnglu)(wnglu)统计和用户行统计和用户行为分析层产生的结果,并向用户展示在浏览其中。为分析层产生的结果,并向用户展示在浏览其中。第7页/共29页第七页,共29页。难点(ndin)及解决方案 项目的难点:项目的难点: 本课题首先是获取不同类型网页的正文内容,然后利用数据挖掘来分析用户本课题首先是获取不同类型网页的正文内容,然后利用数据挖掘来分析用户的喜好,其主要的困难如下:的喜好,其主要的困难如下: 数据大规模性数据大规模性 网页类型多样性网页类型多样

9、性 分类要求的高效性分类要求的高效性 多分类性多分类性 分类体系的变化性分类体系的变化性 “客户客户(k h)-(k h)-内容内容- -业务业务”三维矩阵模型的构建三维矩阵模型的构建 用户数据的零散性用户数据的零散性 垃圾数据的清理垃圾数据的清理 用户数据业务偏好的识别用户数据业务偏好的识别第8页/共29页第八页,共29页。项目(xingm)的难点及解决方案 相关解决方案:相关解决方案: 系统架构采用云存储和云计算的方式,有良好的扩展性;系统架构采用云存储和云计算的方式,有良好的扩展性; 建立适应性分类体系变化的海量网页快速分类体系和系统建立适应性分类体系变化的海量网页快速分类体系和系统 基

10、于主题的分类方法正是为解决这些问题应运而生。它基于基于主题的分类方法正是为解决这些问题应运而生。它基于PLSAPLSA模型,计算出文本的主题模型,计算出文本的主题分布,再根据贝叶斯分类来预测文本所属的类别。由于分布,再根据贝叶斯分类来预测文本所属的类别。由于PLSAPLSA模型在训练的时候比较耗时,模型在训练的时候比较耗时,但在训练过之后,计算文本的主题分布的时间是线性的,所以在实际应用中,计算文本的但在训练过之后,计算文本的主题分布的时间是线性的,所以在实际应用中,计算文本的主题分布并不是很耗时。另外,基于主题贝叶斯分类消耗的时间也是有限的,因为主题数主题分布并不是很耗时。另外,基于主题贝叶

11、斯分类消耗的时间也是有限的,因为主题数通常都在通常都在10001000以下,相比于特征词来说,维度已经降低了很多,所以时间花费以下,相比于特征词来说,维度已经降低了很多,所以时间花费(hufi)(hufi)也比较少。也比较少。 基于主题的分类方法以基于主题的分类方法以PLSAPLSA的模型的理论基础,通过抽象出一个虚拟的主题层,通过文档的模型的理论基础,通过抽象出一个虚拟的主题层,通过文档和关键词之间的共生关系,来求解主题和各文档的关系及主题和关键词的分布情况。以及和关键词之间的共生关系,来求解主题和各文档的关系及主题和关键词的分布情况。以及在求解过程中所采用的在求解过程中所采用的EMEM迭代

12、算法。迭代算法。第9页/共29页第九页,共29页。主要(zhyo)技术方案和关键技术 hadoop-hadoop-分布式存储系统分布式存储系统hdfshdfs 高效性高效性: :任务分配任务分配, ,数据分发数据分发(fnf),(fnf),本地计算本地计算, ,高吞吐量等高吞吐量等 异构软硬件平台的可移植性异构软硬件平台的可移植性 可靠性可靠性: :容错容错, ,复本复本 大数据集大数据集 数据一致性数据一致性第10页/共29页第十页,共29页。主要技术(jsh)方案和关键技术(jsh) hadoop-hadoop-并行计算框架并行计算框架MapReduceMapReduce MapReduc

13、eMapReduce是一种编程模型,用于大规模数据集的并行运算,所有操是一种编程模型,用于大规模数据集的并行运算,所有操作被抽象为两类作被抽象为两类:Map(:Map(映射映射) )和和Reduce(Reduce(规约规约) ) 包括包括: :分布分布grepgrep,分布排序,分布排序,WAPWAP连接图反转连接图反转(fn zhun)(fn zhun),WAPWAP访访问日志分析,反向索引构建,文档聚类问日志分析,反向索引构建,文档聚类, ,机器学习,基于统计的机器机器学习,基于统计的机器翻译等翻译等第11页/共29页第十一页,共29页。主要技术(jsh)方案和关键技术(jsh) 主题分类

14、体系的建设主题分类体系的建设 是基于主题的分类方法,而不是文本的关键词属性。而主题是隐是基于主题的分类方法,而不是文本的关键词属性。而主题是隐含在某些文章里面的,它是抽象出来的一个概念,必须通过一个含在某些文章里面的,它是抽象出来的一个概念,必须通过一个计算阶段计算阶段(jidun)(jidun)把它用实际的向量表示出来,先找到本文把它用实际的向量表示出来,先找到本文分类体系中所有分类的样本,再从这些样本中去寻找隐含的主题。分类体系中所有分类的样本,再从这些样本中去寻找隐含的主题。计算(j sun)与存储平台爬取正文提取PLSA模型训练降维分类训练分类不同的分类体系收集用户上网的URL集合第1

15、2页/共29页第十二页,共29页。访问内容(nirng)层面的分析p 网页分类分析:加了一个语义层,建立文档、语义、关键词之间的概率关系p 解决传统VSM(向量空间模型)的问题-同义词,多义词等,超越词汇层面,更加深刻地把握文本的主旨(zhzh)语义层面的理解p 具有概率理论作为理论依据,相比于LSAp 新颖性,此技术先前主要应用寻找一些相关词,在这里,成功应用于主题分类。第13页/共29页第十三页,共29页。访问内容(nirng)层面的分析p 网页(wn y)爬取/正文提取的流程。爬取流程(lichng)正文提取流程通过优化日志数据(如去重、爬取频率优化),可避免重复爬取,及爬虫对网站造成巨

16、大访问压力。提取网页内容,利用网页分块技术、块和标题之间的语义分析,准确的获取网页正文内容。第14页/共29页第十四页,共29页。访问内容(nirng)层面的分析p 关键词分析p 根据用户访问的信息(词向量),求得这些词向量所属的主题(zht)及其概率p1,并根据词表找到该主题(zht)下所有的词及其概率分布p2,再参考这些词向量本身的tf*idf,最终求得p1*p2*tf*idf,取前N个得分最高的词,即作为用户最为喜好的关键词。第15页/共29页第十五页,共29页。文本有勒布朗在场上,对手就不得不在防守上小心谨慎,因为在他的促进下,没有人不可以成为得分的威胁。不仅如此,勒布朗也能在进攻端统

17、治比赛,此外他在防守端也能做到如此。这些让他成为一个全能战将。分词结果比赛 1 不得 1 不仅如此 1 不可以 1 不在 1 成为 2 促进 1 得分 1对手 1 防守 2 进攻 1 勒布朗 2 没有人 1 能做到 1 全能战将 1 统治 1威胁 1 小心谨慎 1 在场 1主题分布414 0.26259 486 0.0920321 203 0.064595 111 0.0592055 759 0.052535 1028 0.0485639 485 0.0467883 402 0.045465 426 0.0447405 271 0.0435144 595 0.0414496 397 0.039

18、4543 301 0.0366626 9 0.0355855 809 0.0322277 559 0.031286 909 0.0174838 508 0.00420075 1149 0.00160299 811 1.57853e-05 346 1.27575e-06分类结果体育 0.328462 旅游 0.0637043 游戏 0.0617362(体育的概率是游戏的五倍,因此该正文归为体育标签)访问内容(nirng)层面的分析p 网页分类(fn li)分析举例说明第16页/共29页第十六页,共29页。网页 网页1网页2网页3网页4网页5用户 类别标签 网页6浏览 浏览 汽车 网页分类 网页分

19、类 音乐 游戏 访问内容(nirng)层面的分析p 通过用户访问网页概率分布获得用户标签和相关权重p 通过网页分类(PLSA分类或者SVM分类)得到每个网页在类别上的概率分布p 累加用户访问过的网页的类别概率分布并归一化,得到用户在类别上的概率分布p 取概率最大的几个(j )分类作为用户内容标签基于上一页的关系,通过语义分析,得到用户、网页、类别间的关联。为后面的用户行为分析,网站内容分析及对比(dub)提供基础。第17页/共29页第十七页,共29页。项目研究(ynji)建设情况 目前完成系统平台建设,正在进一步优化标签体系; 目前一级标签25类,包括新闻、阅读、娱乐、健康、财经、游戏、体育、

20、科技等,基本覆盖移动互联网的内容(nirng)体系; 目前二级分类标签约238类,针对一级标签进行了详细的内容(nirng)分析,目前重点完成的分类包括阅读、新闻、娱乐等,其他一级分类对应的二级分类还在进一步完善中; 系统每天分析的话单量约9-10亿条,涉及用户600-1000余万; 目前每天成功分析并标注内容(nirng)标签的用户约500-800万间,标签标注成功率在75%; 目前用户的偏好主要分布在新闻、社区、博客、游戏、阅读等一级内容(nirng)标签下; 分析共捕捉了15万多个网站(包括二级域名),其中成功根据用户点击进行内容(nirng)标注的网站约2万网站,覆盖用户100%,覆盖

21、点击量99.9%;其中前281个网站占总访问量的80%第18页/共29页第十八页,共29页。偏好分析(fnx)主菜单全景分析(fnx) 对访问内容偏好情况的总体分析(fnx)综合分析(fnx) 对内容进行的35个类别的统计阅读、新闻、游戏、音乐、视频 对五种内容的类型的进一步分析(fnx);目前音乐和视频无法分析(fnx)。个性化分析(fnx) 针对某个用户号码的个性化偏好,以及适合推荐的业务。根据(gnj)用户数、用户点击次数的饼图显示“其他|其他”是访问内容无法(wf)归类的内容“|”为标签的分级分隔符一级标签、二级标签目前的分类体系方法,仍在优化过程中。按日查询按地区查询见下页系统功能界

22、面:全景分析-用户第19页/共29页第十九页,共29页。系统功能界面(jimin):综合分析内容的一级分类,目前(mqin)有35个一级分类;根据目前(mqin)互联网的内容分类方式。偏好某个(mu )分类下的用户号码列表,目前隐藏了中间四位。该内容标签的点击次数占该用户总点击次数的比重“新闻”类的域名的根据点击量进行排行第20页/共29页第二十页,共29页。系统功能(gngnng)界面:阅读阅读类内容(nirng)的进一步分类;目前共45个阅读二级分类;可对用户偏好(pin ho)的程度进行选择性筛选该阅读偏好的用户在哪些网站访问内容第21页/共29页第二十一页,共29页。研究成功(chng

23、gng)在营销工作上的应用p 对客户移动互联网行为进行采集,分析,发现(fxin)用户关注相关内容,为开展营销提供号码支持。人不分高低贵贱,只是环境使然(sh rn),让一个总统之才出生在“狼窝”,他的内心也会滋生出拔不断根的淫脏瘾窥癖虐的龌龊来。他们一旦被主流文化、主流环境所边缘,就会用户行为爬虫采集页面分析偏好:阅读,励志等行为阅读类励志关键词用户视图按偏好、关注点、业务群用户群实时用户群规模分析;励志内容关注群分析;阅读频道行为群分析;用户群提取开展营销营销方案营销支撑第22页/共29页第二十二页,共29页。 用户响应率有三倍提升用户响应率有三倍提升 本次营销相关激励措施本次营销相关激励

24、措施(cush)(cush)和和前期开展的前期开展的WAP PUSHWAP PUSH营销相同;营销相同; 对比以往的群发响应率对比以往的群发响应率1%-3%1%-3%,本次,本次群发响应率效果明显,达到群发响应率效果明显,达到5.80%-5.80%-10.21%10.21%,有近乎,有近乎3 3倍的提升效果。倍的提升效果。 访问用户活跃度高访问用户活跃度高 用户后有继续点击其他内容的行为,用户后有继续点击其他内容的行为,最高占比达到最高占比达到91.4%91.4%; 产生二次点击行为的用户数的占比高,产生二次点击行为的用户数的占比高,反映贴合用户需求的内容对用户的吸反映贴合用户需求的内容对用户

25、的吸引力,用户粘性越高。引力,用户粘性越高。项目取得(qd)的研究应用成果第23页/共29页第二十三页,共29页。研究成果应用:开展(kizhn)内容个性化推送根据用户上网行为分析,挖掘冲浪助手用户访问的内容偏好根据内容偏好组织不同(b tn)内容的热推,与对照组比较效果显著 运营群体:杭州冲浪助手在订用户 选取规则:选取wap偏好标签为“财经(cijng)”、“娱乐”用户为测试组,随机抽取2000用户为对照组。 内容标签:财经(cijng)、娱乐 群发时间:每日上午10点左右 群发效果:财经偏好用户 内容:温州眼镜巨头信泰集团老板失踪 传欠款20多亿偏好用户响应率:12.38%对照组用户响应率:1.86%娱乐偏好用户 内容:疑王力宏同性激情照疯传 回应否认偏好用户响应率:5.23%对照组用户响应率:1.39%第24页/共29页第二十四页,共29页。1.3 目标目标(mbio)完成情况总结完成情况总结项目进度执行情况表可作为项目进度执行情况表可作为(zuwi)附件附件项目研究产出项目研究产出产出成果产出成果承担单位承担单位研究成果:包括研究报告、形成的软硬件平台用户上网行为分析系统标准成果:形成的企业标准及标准化组织成果专利成果:专利情况无试验成果:开展的相关试验室及外场测试工作中形成的试验报告(模板见(模板见xxxx)第25页/共2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论