可拓展的移动互联网内容偏好分析体系_第1页
可拓展的移动互联网内容偏好分析体系_第2页
可拓展的移动互联网内容偏好分析体系_第3页
可拓展的移动互联网内容偏好分析体系_第4页
可拓展的移动互联网内容偏好分析体系_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国移动科技创新成果推广材料 完成单位: 成果名称: 可拓展的移动互联网内容偏好分析体系 成果研究类别:超前研究 成果专业类别: 业务支撑 2 目录 项目的主要创新点 4. 实现方案 3. 现有技术 2. 项目背景 1. 社会和经济效益 5. 3 联网内容的发展概述 个性化需求引领着移动互联网内容的发展 传统电信行为无法支撑互联网内容偏好的分析 移动互联网正在往内容形式发展,代表如阅读平台方面的苹果 播平台方面的微博,前者改变了人们单一纸质的阅读方式,而手机阅读也随之应运而生;而后者则提供了一个随时随地分享身边新鲜事的途径,使共同兴趣爱好的网友能更容易分享信息。但在 各种形式信息传播与阅读的背后,起着主导作用的必然是人们对内容的个性化需求。因此,分析用户的互联网内容偏好显得至关重要。 传统的电信行为以语音为主,即使是部分体现内容形式的数据业务,如短信、飞信、手机报纸等,都需要深入到信息主体进行文本关键字识别处理,才能分析出用户的具体内容偏好,这种方案对于广东近亿级的客户量基本上是不可行的。而本报告则 创新地结合用户手机阅读、手机上网等分类内容的浏览行为信息构建一个可拓展的分析体系,全面识别和剖析用户的互联网内容偏好 。 4 目录 项目的主要创新点 4. 实现方案 3. 现有技术 2. 项目背景 1. 社会和经济效益 5. 5 有技术存在的问题与不足 内容分类识别技术要求较高且所需资源要求较高,不利于进行推广 现有技术建立在互联网平台架构上的内容偏好分析体系,需要设置爬虫服务器集群,分析服务器集群,搜索服务器集群,以定位内容的分类和客户的浏览行为。这种技术能够精准识别客户的具体偏好,但是成本较高,且文本识别技术复杂,因此无论从硬件或软件方面,都难以推广。 现有的体系只重点关注客户某一内容业务的内容偏好(主要是网页),但客户对于不同内容业务,如手机上网或手机阅读,客户对不同的内容分类存在着一定的关联强度,强关联的偏好可用来实现不同客户的不同内容业务的渗透推荐,解决新业务的用户拓展难题。 没有挖掘不同内容业务偏好的相关强度,未能实现内容业务的互相渗透 6 目录 项目的主要创新点 4. 实现方案 3. 现有技术 2. 项目背景 1. 社会和经济效益 5. 7 案实现思路 手机阅读 手机上网 手机报纸 待拓展业务 穿越 言情 健康 军事 都市 历叱 娱乐 财经 网游 对内容进行分类剖析 积累客户互联网内容阅读数据 1 2 对内容分类进行偏好评分 3 用户 偏好 1 偏好 2 偏好 3 A 言情 都市 娱乐 手机阅读 手机上网 手机报纸 对内容偏好进行关联协同过滤 4 穿越 都市 言情 历叱 军事 政治 政治 网游 用户 推荐 1 推荐 2 推荐 3 A 空姐那些事 美女公寓 新浪娱乐 提升存量客户 推荐同类业务 挖掘潜在客户 推荐跨类业务 根据关联偏好进行内容推荐 5 都市 对于每一个新增的、需要拓展的内容业务(如手机阅读),收集客户的阅读信息,如 节、次数、天数、流量、消费等。 根据内容的性质,对客户浏览的内容进行分类,用于偏好评分。如手机阅读,则直接利用客户阅读图书分类的信息,如言情、玄幻等。 利用客户对各分类的阅读行为,综合评价客户对各内容分类的偏好程度。如手机阅读,借助熵值法,求出 节等权重系数,对言情、玄幻等内容分类偏好进行综合打分。 客户对不同内容分类(同类或不同类业务)的偏好具有一定的关联强度。本方案根据客户的偏好综合评分,量化不同业务和内容的关联强度。 挖掘出关联强度较高的内容分类,可用来实现关联交叉销售。同类业务则提升存量客户的活跃度,对不同业务,特别是新业务,则实现潜在客户的拓展。 8 容偏好分析体系架构 数据挖掘仓库数据 手机阅读基地数据 基础数据层 手机上网 手机阅读 业务拓展层 手机报纸 . . 言情 玄幻 内容分类层 星座 . 体育 娱乐 频度 粘度 偏好评分层 额度 . 言情 星座 偏好关联层 . 玄幻 体育 都市 娱乐 客户 内容推荐层 . 推荐 1 手阅 推荐 2 搜狐 推荐 3 新浪 营销活动层 . 信彩信 形成闭环 逐层分析 移动梦网 9 务拓展层工作原理 用户 内容偏好标签 1 内容偏好标签 2 内容偏好标签 3 A 上网 上网 上网 B 上网 上网 上网 C 手阅 手阅 手阅 D 手阅 手阅 手阅 E . 内容分类 1 内容分类 2 关联强度 关联用户数 上网 手阅 0000 上网 手阅 000 上网 手阅 000 主流互联网内容业务 手机阅读、手机上网、 新增互联网内容业务 手机报纸、手机游戏、梦网业务 用户 关联偏好 推荐 A 手阅 爱情公寓 . D 上网 星座配对 . 非互联网内容业务 飞信、 机邮箱 业务拓展 用户拓展 偏好关联 内容互推 在剖析主流互联网业务的内容分类的基础上,建立一个可拓展的互联网 内容偏好分析体系 在分析用户丌同互联网内容的偏好程度的基础上,挖掘丌同偏好的关联程度,以建立 偏好标签库 根据内容偏好的关联强弱程度,进行内容智能适配,实现 不同业务的内容互推 1 2 3 丼例: 从未有过手机阅读行为 ,通过内容偏好分析识别出其手机上网通过偏好关联分析,发现 星座不手阅的言情关联最高 ,因此可推荐手阅的言情图书,例如爱情公寓。同理对于无手机上网行为的用户 D,可推荐手机上网方面的星座内容,如新浪星座频道。这样就实现了丌同互联网内容业务的互推渗透。 内容偏好标签库 10 容分类层工作原理 体系内容分类原理是通过定位多个内容业务之间的偏好关联强度,分析出客户的内容偏好,不依赖于个别内容业务的精确分析(如利用关键字技术对网页内容进行分类),因此其分类技术要求较低,所需资源较低。 对于已有的分类业务(如手机阅读,手机报纸等),直接采用其具体内容分类,如: 对于没有具体分类业务(如手机上网等),则利用简单 标是用尽可能少的规则,覆盖 80%的客户 内容分类 客户数 访问次数 访问天数 每天次数 玄幻 360478 22996153 818927 侠 205606 3517266 415932 育竞技 194358 2383666 373626 情 174140 1739689 321176 园 167268 1431730 306925 事 123553 811862 208397 游 114646 631613 187351 典名著 114199 621706 187167 怖 110639 575066 180926 理 109194 607304 177925 视 105193 536045 168882 市 104309 505349 164499 友原创 102896 534843 163756 网站 分类规则 内容分类 新浪网 * 星座 起点网 * 玄幻 搜狐网 * 体育 * 娱乐 内容分类 访问日期 访问次数 访问页面数 下行流量 上行流量 新浪星座 20110101 10 40 200 100 11 容分类层 网站名称 分类名称 腾讯书城 奇侠玄幻 武侠仙侠 浪漫言情 现代都市 悬疑惊悚 科幻空间 历史军事 游戏竞技 影视时尚 生活百科 经管励志 文化社科 16玄幻 魔法 武侠 仙侠 都市 言情 游戏 竞技 架空 历史 军事 战争 灵异 鬼怪 外国 经典 科幻 世界 美文 同人 网站名称 分类名称 3g 门户书城 都市 仙侠 历史 玄幻 网游 悬疑 现言 穿越 耽美 古言 架空 言情 青春 科幻 情感 军事 起点网 玄幻 奇幻 武侠 仙侠 都市 历史 军事 游戏 竞技 科幻 灵异 青春 网站名称 分类名称 手机阅读 都市言情 穿越幻想 玄幻奇幻 武侠仙侠 游戏竞技 浪漫青春 历史军事 灵异悬疑 名著传记 科幻小说 影视剧本 时尚生活 官场职场 经管励志 教育社科 短篇小品 手机书库 玄幻 修真 都市 网游 武侠 言情 青春 军事 历史 经典 恐怖 生活 网站名称 分类名称 风语小说网 玄幻奇幻 仙侠架空 异能都市 网游竞技 传统武侠 浪漫言情 灵异科幻 军事战争 畅销校园 古典文学 必看经典 书旗网 玄幻 言情 都市 网游 武侠 恐怖 军事 校园 科幻 推理 影视 体育竞技 同人 玩转职场 中外文学 古典名著 综合书库 网友原创 只需精选出 8大主流手机阅读网站(通过 就可以覆盖了全网 80%的手机阅读客户 12 好评分层工作原理 手机阅读分类 登陆次数 登陆天数 阅读 读章节 订购费用 手机上网分类 访问次数 访问天数 下行流量 流量费 三个维度 内容偏好 频度 体现用户的时间投入 次数、天数 . 粘度 体现用户的情感投入 章节、流量 . 额度 体现用户的金钱投入 订购、月租 评分等级 偏好程度 5 非常 4 很好 3 丌错 2 一般 1 普通 综合评分 对于丌同业务的内容分类,用户的行为特征差异很大,因此其内容偏好分析的指标体系和程度量化丌一致,需要进行标准化处理。 用户在时间、情感、金钱等三方面投入能最大程度地反映用户对某类内容的偏好程度,因此对 所有不同内容分类的指标体系都进行频度、粘度、费用的统一标准化处理 。 用户 偏好 1 偏好 2 偏好 3 A 5(言情) 4(都市) 3(娱乐) 用户对于丌同业务的丌同内容分类都有一个偏好的评分等级,可根据等级排序打上用户的 1 2 3 13 好评分层 内容偏好评分体系 频度 问并阅读次数 问并阅读天数 度 读图书数 读章节数 读子书阅读章节 户端阅读章节 天平均次平均用 购阅读图书数 费阅读章节数 费阅读购总金额 用二级指标综合评价法,权值采用熵值法确定(见附录),评分步骤如下: 1 统计每个用户对每个内容分类的行为信息,建立评分基础宽表,变量粒度与评分体系最底层一致,且每个变量都进行归一化的标准处理。 2 利用最底层指标的权值和变量值,分别计算频度 /粘度 /费用这 3个二级指标的分数,如:频度 =问并阅读次数 +问并阅读天数。 3 利用频度 /粘度 /费用这 3个二级指标的分数,计算内容偏好的总分,公式如下: 偏好程度(内容分类) = 度得分 +度得分 +4 根据评分排名进行偏好程度等级评定(分为 5个等级),对于每个用户则选择其内容分类评分最高的 3个作为 用户 偏好 1 偏好 2 偏好 3 A 言情 都市 娱乐 14 好关联层工作原理 客户 /内容分类 手阅 手阅 新浪 手阅 搜狐 新浪 4 4 1 2 1 5 ? 2 ? ? 张三 2 1 1 5 4 3 李四 ? ? 2 ? 5 4 纵向( 客户的偏好一般具有关联性,例如对于手机阅读的言情、青昡分类和新浪的星座与栏, 张三则较低,说明这三类偏好是正向关联的,可以互推。由于 昡,因此可以向其推荐新浪星座与栏,用拟合可估计其偏好程度为 4 横向( 张三和李四对于金融行业,如搜狐 浪 对于言情、星座等评级都比较低,可见张三李四的偏好比较相似,同时发现张三喜欢手阅的经管,因此推测李四也会偏好于手机阅读的经管分类,偏好程度估计为 4对于手阅的言情、青昡拟合预测则在 1 偏好关联强度公式 a,b)表示内容偏好 1与内容偏好 2的关联强度:其中 a和 a和 ,值越大表示关联强度越大。 15 容推荐层工作原理 推荐模式 1:最热门推荐 通过内容偏好评分,模型输出了客户的 统根据 户量最高或浏览量最高),向客户进行推荐对应的内容。例如客户 言情浏览量最高的图书是 这该死的缘 ,如果客户 进行推荐,否则推荐第二热门图书,如此类推。 推荐模式 2:协同过滤推荐 16 容推荐层 大部分读者对都市类的 暴王的弃妃 不穿越类的 傲妃难训 的偏好程度是相似的,这两本书非常适合做交叉的关联推荐 从散点的分布和拟合的趋势可以发现,读者对这两者的 丏偏好程度评分也具有高度相似性,即喜欢 暴王的弃妃 同时喜欢 傲妃难训 的可能性很大,反之也是。 散点图只描绘了同时阅读了 暴王的弃妃 和 傲妃难训 的读者, 对于目前只阅读并高偏好其中一本图书的读者,可以进行交叉关联,推荐读者订购另外一本图书。 3月份的 暴王的弃妃 读者有 3016位,其中有 258位(接近 10%)在 4月份首次阅读了 傲妃难驯 ,而丏这部分读者对 暴王的弃妃 的平均偏好达到 明对于 3月份偏好 暴王的弃妃 水平大于 3的阅读 傲妃难驯 可能性是较高的,因此适合用来进行关联推荐的。 散点图中,每个散点对应每个读者,横轴对应读者对 暴王的弃妃 的 书偏好模型的综合加权打分结果),而纵轴则对应读者对 傲妃难训 的 分公式请查看 17 销活动层工作原理 用户 偏好 1 偏好 2 偏好 3 A 言情 都市 青昡 偏好标签库 用户 偏好 1 偏好 2 偏好 3 B 玄幻 穿越 魔幻 平台手机阅读偏好 用户 偏好 1 偏好 2 偏好 3 C 星座 娱乐 影视 平台手阅 关联强度 关联用户数 青春 言情 00000 玄幻 穿越 0000 科幻 玄幻 0000 平台手阅 关联强度 关联用户数 星座 言情 00000 娱乐 都市 0000 影视 言情 0000 用户 平台手阅关联偏好 推荐内容 1 C 都市 言情 爱情公寓 . . 偏好关联强度 偏好关联推荐 用户 平台手阅关联偏好 推荐内容 1 D 青昡 言情 爱情公寓 . . 每增加一个新的互联网内容业务的分析,都可以 实时增加相应的偏好标签名单 每增加一个新的互联网内容业务的分析,都可以 实时增加其不已有业务内容偏好的关联强度 向 向 每增加一个新的互联网内容业务的分析,都可以通过其不已有业务偏好的关联强度, 推荐最合适内容,以挖掘更多的潜在客户 用户 推荐 1 推荐 2 推荐 3 A 空姐那些事 美女公寓 新浪娱乐 向平台手阅用户推荐更多图书 推荐方式 1: 通过基地下发 目标用户推送首推图书的简介页面地址 推荐方式 2: 通过运营平台彩信端口下发若干彩信,直接向用户连续推送若干首推图书免费章节的内容 18 8 目录 项目的主要创新点 4. 实现方案 3. 现有技术 2. 项目背景 1. 社会和经济效益 5. 19 术创新点 建立了可拓展的内容偏好分析体系 方案提出的体系能将不同内容性质的移动互联网内容业务纳入一个统一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论