手机上网用户行为分析系统.ppt

上传人：伐*** IP属地：宁夏上传时间：2019-01-26 格式：PPT 页数：29 大小：3.96MB 积分：12 举报 版权申诉

已阅读5页，还剩24页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

* 手机上网用户行为分析系统一一. . 课题目标实现情况目录二、主要研究成果（整合后）研究背景 “十一五”期间，我国网民规模跃居全球第一，宽带普及率接近100%，手机网民规模迅速发展，互联网应用更加深入，推动着社会进步和人们生活方式的变革。随着移动互联网近几年快速的发展，作为移动互联网关键环节的中国移动正在感受这个浪潮带来的冲击。上网流量同比上升112.3% 流量收入同比上升49.4% 高速发展的流量并没有带来相关收入的同步增长研究背景在以用户为中心的发展时代下，了解用户需求成为我们面对课题的第一步工作，这就需要我们对我们网络中的流量有深入的了解，掌握我们用户的行为情况，便于我们针对性的调整运营战略，在正在到来的移动互联网大潮中未雨绸缪，迎接即将到来的挑战。针对用户的需求分析作为中国移动具有先天的优势，海量的cmwap、 cmnet的日志信息蕴含着巨大的财富，通过用户移动互联网行为分析，一方面让我们更了解我们的用户，实现个性化需求的识别。同时在有限的资源情况下及时的为用户提供个性化的产品生产、个性化的匹配/分发。通过针对用户上网行为的分析实现个性化需求的识别，成为数据部迫不及待需要解决的问题；同时在流量经营和精细化的营销方面具有非常重要的战略意义。研究目标建立一套完善的手机上网用户行为分析系统, 通过对用户手机上网访问行为进行分析，获取用户的访问轨迹、浏览页面内容、网站信息、浏览客户端信息、移动终端信息等，进行各类分析，形成各类用户模型。网络爬虫 gprs 网站内容分析用户行为分析数据分析爬虫数据网站树内容树数据清洗 wap黄页库数据分析网关数据数据清洗用户行为模型数据索引用户属性内容属性结果呈现 5 个应用细分营销活动精确发展用户引导自有业务分析竞争业务个性化内容日志采集研究目标研究一种适应分类体系变化的海量网页快速分类系统，要求如下：实现一个快速爬取手机用户访问日志的方法，需要深入到用户访问页面的标题、正文信息以及相关网页链接。针对手机互联网，提出一种正文提取的方法。基于分块的基础上，提取每个信息块的信息量，并计算各个分块和网页title的相似度，最终确定正文块。基于主题的多分类方法。文本不被看作仅仅是由一些特征词所组成的，而是被看作是由一些主题构成的，主题是由一些特征词构成的。通过样本中不同类别的主题分布，实现预测出一个新的文本到底属于什么类别。研究总体框架手机上网用户行为分析项目研究的总体架构如下：多数据海量数据预处理海量数据存储和计算 “客户-内容”特征类标签分层可扩充体系 “客户-内容-业务”三维匹配矩阵前台应用管理模块研究总体框架系统海量数据存储和计算功能是整个系统的核心功能实现模块，根据功能的层次结构可以进一步细分为以下层次：数据采集和接口层：它负责从不同类型的网络中的接入和采集数据。针对网络自身的特性以及系统建设的实际情况，数据的采集可以是从硬件设备（如网关、gn口、分光设备）直接获取并解析，也可以是从其它系统（如boss和vgop）导入。数据清理和融合层：它负责对采集的数据进行清洗，归一化后存入海量数据存储设备。为了更深层次分析用户行为，它还负责网页收集和爬取、网页分类、应用协议分析，以及用户属性的获取等功能。网络统计和用户行为分析层：它负责系统的核心应用功能实现，分为手机和有线网络流量统计分析、用户个体和群体行为分析、以及游戏、音乐等应用业务专题分析等。分析结果展示层：它负责向读取网络统计和用户行为分析层产生的结果，并向用户展示在浏览其中。难点及解决方案项目的难点：本课题首先是获取不同类型网页的正文内容，然后利用数据挖掘来分析用户的喜好，其主要的困难如下：数据大规模性网页类型多样性分类要求的高效性多分类性分类体系的变化性 “客户-内容-业务”三维矩阵模型的构建用户数据的零散性垃圾数据的清理用户数据业务偏好的识别项目的难点及解决方案相关解决方案：系统架构采用云存储和云计算的方式，有良好的扩展性；建立适应性分类体系变化的海量网页快速分类体系和系统基于主题的分类方法正是为解决这些问题应运而生。它基于plsa模型，计算出文本的主题分布，再根据贝叶斯分类来预测文本所属的类别。由于plsa模型在训练的时候比较耗时，但在训练过之后，计算文本的主题分布的时间是线性的，所以在实际应用中，计算文本的主题分布并不是很耗时。另外，基于主题贝叶斯分类消耗的时间也是有限的，因为主题数通常都在1000以下，相比于特征词来说，维度已经降低了很多，所以时间花费也比较少。基于主题的分类方法以plsa的模型的理论基础，通过抽象出一个虚拟的主题层，通过文档和关键词之间的共生关系，来求解主题和各文档的关系及主题和关键词的分布情况。以及在求解过程中所采用的em迭代算法。主要技术方案和关键技术 hadoop-分布式存储系统hdfs 高效性:任务分配,数据分发,本地计算,高吞吐量等异构软硬件平台的可移植性可靠性:容错,复本大数据集数据一致性主要技术方案和关键技术 hadoop-并行计算框架mapreduce mapreduce是一种编程模型，用于大规模数据集的并行运算，所有操作被抽象为两类:map(映射)和reduce(规约) 包括:分布grep，分布排序，wap连接图反转，wap访问日志分析，反向索引构建，文档聚类,机器学习，基于统计的机器翻译等主要技术方案和关键技术主题分类体系的建设是基于主题的分类方法，而不是文本的关键词属性。而主题是隐含在某些文章里面的，它是抽象出来的一个概念，必须通过一个计算阶段把它用实际的向量表示出来，先找到本文分类体系中所有分类的样本，再从这些样本中去寻找隐含的主题。计算与存储平台爬取正文提取plsa模型训练降维分类训练分类不同的分类体系收集用户上网的 url集合访问内容层面的分析 p 网页分类分析：加了一个语义层，建立文档、语义、关键词之间的概率关系解决传统vsm(向量空间模型)的问题-同义词,多义词等,超越词汇层面，更加深刻地把握文本的主旨语义层面的理解具有概率理论作为理论依据，相比于lsa 新颖性，此技术先前主要应用寻找一些相关词，在这里，成功应用于主题分类。访问内容层面的分析 p 网页爬取/正文提取的流程。爬取流程正文提取流程通过优化日志数据（如去重、爬取频率优化），可避免重复爬取，及爬虫对网站造成巨大访问压力。提取网页内容，利用网页分块技术、块和标题之间的语义分析，准确的获取网页正文内容。访问内容层面的分析 p 关键词分析根据用户访问的信息（词向量），求得这些词向量所属的主题及其概率p1，并根据词表找到该主题下所有的词及其概率分布p2，再参考这些词向量本身的tf*idf，最终求得 p1*p2*tf*idf，取前n个得分最高的词，即作为用户最为喜好的关键词。文本有勒布朗在场上，对手就不得不在防守上小心谨慎，因为在他的促进下，没有人不可以成为得分的威胁。不仅如此，勒布朗也能在进攻端统治比赛，此外他在防守端也能做到如此。这些让他成为一个全能战将。分词结果比赛 1 不得 1 不仅如此 1 不可以 1 不在 1 成为 2 促进 1 得分 1对手 1 防守 2 进攻 1 勒布朗 2 没有人 1 能做到 1 全能战将 1 统治 1威胁 1 小心谨慎 1 在场 1 主题分布414 0.26259 486 0.0920321 203 0.064595 111 0.0592055 759 0.052535 1028 0.0485639 485 0.0467883 402 0.045465 426 0.0447405 271 0.0435144 595 0.0414496 397 0.0394543 301 0.0366626 9 0.0355855 809 0.0322277 559 0.031286 909 0.0174838 508 0.00420075 1149 0.00160299 811 1.57853e-05 346 1.27575e-06 分类结果体育 0.328462 旅游 0.0637043 游戏 0.0617362 （体育的概率是游戏的五倍，因此该正文归为体育标签）访问内容层面的分析 p 网页分类分析举例说明网页网页1 网页2 网页3 网页4 网页5 用户类别标签网页6 浏览浏览汽车网页分类网页分类音乐游戏访问内容层面的分析 p 通过用户访问网页概率分布获得用户标签和相关权重通过网页分类(plsa分类或者svm分类)得到每个网页在类别上的概率分布累加用户访问过的网页的类别概率分布并归一化,得到用户在类别上的概率分布取概率最大的几个分类作为用户内容标签项目研究建设情况目前完成系统平台建设，正在进一步优化标签体系； l目前一级标签25类，包括新闻、阅读、娱乐、健康、财经、游戏、体育、科技等，基本覆盖移动互联网的内容体系； l目前二级分类标签约238类，针对一级标签进行了详细的内容分析，目前重点完成的分类包括阅读、新闻、娱乐等，其他一级分类对应的二级分类还在进一步完善中；系统每天分析的话单量约9-10亿条，涉及用户600-1000余万； l目前每天成功分析并标注内容标签的用户约500-800万间，标签标注成功率在75%； l目前用户的偏好主要分布在新闻、社区、博客、游戏、阅读等一级内容标签下； l分析共捕捉了15万多个网站（包括二级域名），其中成功根据用户点击进行内容标注的网站约2万网站，覆盖用户100%，覆盖点击量99.9%；其中前281个网站占总访问量的 80% 偏好分析主菜单全景分析对访问内容偏好情况的总体分析综合分析对内容进行的35个类别的统计阅读、新闻、游戏、音乐、视频对五种内容的类型的进一步分析；目前音乐和视频无法分析。个性化分析针对某个用户号码的个性化偏好，以及适合推荐的业务。根据用户数、用户点击次数的饼图显示 “其他|其他” 是访问内容无法归类的内容 “|”为标签的分级分隔符一级标签、二级标签目前的分类体系方法，仍在优化过程中。按日查询按地区查询见下页系统功能界面：全景分析-用户系统功能界面：综合分析内容的一级分类，目前有35个一级分类；根据目前互联网的内容分类方式。偏好某个分类下的用户号码列表，目前隐藏了中间四位。该内容标签的点击次数占该用户总点击次数的比重 “新闻”类的域名的根据点击量进行排行系统功能界面：阅读阅读类内容的进一步分类；目前共45个阅读二级分类；可对用户偏好的程度进行选择性筛选该阅读偏好的用户在哪些网站访问内容研究成功在营销工作上的应用 p 对客户移动互联网行为进行采集，分析，发现用户关注相关内容，为开展营销提供号码支持。人不分高低贵贱，只是环境使然，让一个总统之才出生在“ 狼窝”，他的内心也会滋生出拔不断根的淫脏瘾窥癖虐的龌龊来。他们一旦被主流文化、主流环境所边缘，就会用户行为爬虫采集页面分析偏好：阅读，励志等行为阅读类励志关键词用户视图按偏好、关注点、业务群用户群实时用户群规模分析；励志内容关注群分析；阅读频道行为群分析; 用户群提取开展营销营销方案营销支撑用户响应率有三倍提升本次营销相关激励措施和前期开展的wap push营销相同；对比以往的群发响应率1%-3%，本次群发响应率效果明显，达到5.80%- 10.21%，有近乎3倍的提升效果。访问用户活跃度高用户后有继续点击其他内容的行为，最高占比达到91.4%；产生二次点击行为的用户数的占比高，反映贴合用户需求的内容对用户的吸引力，用户粘性越高。项目取得的研究应用成果研究成果应用：开展内容个性化推送根据用户上网行为分析，挖掘冲浪助手用户访问的内容偏好根据内容偏好组织不同内容的热推，与对照组比较效果显著运营群体：杭州冲浪助手在订用户选取规则：选取wap偏好标签为“财经”、“娱乐”用户为测试组，随机抽取2000用户为对照组。内容标签：财经、娱乐群发时间：每日上午10点左右群发效果：财经偏好用户内容：温州眼镜巨头信泰集团老板失踪传欠款20多亿偏好用户响应率：12.38% 对照组用户响应率：1.86% 娱乐偏好用户内容：疑王力宏同性激情照疯传回应否认偏好用户响应率：5.23% 对照组用户响应率：1.39% 1.3 目标完成情况总结项目进度执行情况表可作为附件项目研究产出产出成果承担单位研究成果：包括研究报告、形成的软硬件平台用户上网行为分析系统标准成果：形成的企业标准及标准化组织成果专利成果：专利情况无试验成果：开展的相关试验室及外场测试工作中形成的试验报告（模板见xx ）项目对企业绩效贡献的量化路径图 1.4 项目企业绩效贡献和特征指标项目特征指标（pav）指标名称项目应用前指标现状

人人文库> 全部分类> 专业文献 > 工程机械

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

手机上网用户行为分析系统.ppt

文档简介

温馨提示

最新文档

评论

手机上网用户行为分析系统.ppt

文档简介

温馨提示

最新文档

评论

相关文档