移动互联网必读手机上的大数据分析_第1页
移动互联网必读手机上的大数据分析_第2页
移动互联网必读手机上的大数据分析_第3页
移动互联网必读手机上的大数据分析_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、【编者按】本文由百分点信息无线业务部高级总监李晓东、Talking Data COO徐懿以及成都电子科大的龚亮联合撰写。无线音乐是用户利用手机等通信终端,以 WAP 、WEB 、APP 等接入方式获取以音乐为主题内容的相关业务的总称, 具体包括彩铃、 无线音乐俱乐部、 及手机客户端软件等业务。 可以说在智能手机时代,手机客户端音乐逐渐成为用户享受生活的主要方式。随着智能手机的不断普及,无线音乐行业成就了一些大头手机音乐客户端公司,这些公司拥有着上百万甚至千万级别规模的用户群体。手机客户端音乐的不断发展及用户群体的不断壮大,随之也带来了大量无线音乐数据的产生。这些数据看似杂乱无章、繁多冗余,但却

2、隐藏着很多的秘密。如果能有效地对这些数据进行组织管理,并且利用相关技术进行挖掘、分析,少则可以揭示一个公司一次决策实施后的效果,发现公司现有存在的重大问题,多则发现潜在的高价值业务或需求,这些业务或需求很有可能为公司的发展提供战略性指导意见。下面以国内某着名手机客户端音乐公司的无线音乐数据为例,我们还是按照发现问题、解决问题、结果验证这三个方面来说明无线音乐数据的组织与应用。发现问题通过对该数据进行分析挖掘,我们发现如下几个问题。(1) 用户、歌曲均存在长尾效应从数据中我们发现用户有两种行为,一种是下载、一种是试听,每种行为中,我们发现用户和歌曲均存在“长尾现象”,绝大部分用户只试听或下载系统

3、中的少部分歌曲,而大部分歌曲出于闲置状态。具体信息如下图音乐的长尾问题说明:图中左子图横坐标表示用户的听歌,纵坐标表示对应用户所占比例。右子图横坐标表示歌曲的被多少人听过,纵坐标表示对应度歌曲所占比例。造成这方面的原因可能是:数据量大,信息过载严重用户找不到自己喜欢的歌曲。此时大多数用户直接转向流行榜或热歌榜歌曲,就会造成系统中热门歌曲越热门,冷门歌曲越冷门的现象。(2) 歌曲覆盖率低从数据中我们还发现歌曲的覆盖率很低,在整个抽样数据中歌曲覆盖率只有 2.01% 。绝大部门歌曲根本没有被用户听过或者下载过,这不仅造成系统资源的大量浪费,而且造成公司资金的无辜流失(因为每首歌曲都要付版权费,而系

4、统中98% 的歌曲处于浪费状态)。歌曲的覆盖率累计分布如下如图。歌曲覆盖率图说明:图中横坐标表示歌曲的被听歌人数(去重 ),纵坐标是不小于这个数目的歌曲所占的比例。造成这方面的原因可能是:大量歌曲处于冷启动状态,数据稀疏。作为冷启动作曲,系统不知道如何把他推送到适当的用户手里,而用户也不能通过有效方式找到他,就使得这类歌曲处理系统的暗处,不容易被发现。(3) 用户每天听歌时间呈间断性分布在给定的样本数据中,我们发现用户听歌行为并不是均匀分布,而是间断性分布,即在不同的时间用户听歌集中度不同。为了更好的看出效果,我们将一天分为8 个时间段,每个时间段包括3 个小时,在每个时间段内用户听歌活跃性如

5、下图。用户活跃时间图说明:图中横坐标表示时间段,纵坐标是该时间段内用户的活跃性比。造成这方面的原因可能是:下班、休息、乏困疲惫时间用户在无限端听歌的模式还是倾向于休闲与娱乐,主要是以休息碎片时间为主。(4) 不同用户对歌曲的属性依赖性不同在样本数据中,歌曲有专辑与歌手两种属性。我们从用户的长程关联显着性、短程关联显着性等方面对用户的听歌行为进行分析,分析具体结果如下表:说明:图中Strong null model、 Weak null mode、Temporal null model分别表示系统中所有播放之间相似度值,所有歌曲之间的相似性值,相邻播放之间相似性值。Album 表示专辑, Art

6、ist 表示歌手。造成这方面的原因可能是:与专辑相比用户倾向于听同一个歌手的歌曲(5) 不同用户听歌行为不同从数据中我们分析还得出,不同活跃性的用户所听歌曲也不同。分析中我们从歌曲新颖性、歌曲在专辑上的相似性、歌曲在歌手上的相似性三个指标上对不同活跃性的用户所听歌曲进行分析。具体信息如下图歌曲的三个维度分析说明:图中横坐标表示用户的活跃性值,纵坐标表示对应活跃性用户所听歌曲的新颖性值、歌曲在专辑上的相似性值、歌曲在歌手上的相似性值造成这方面的原因可能是:用户可能呈分群现象活跃性较低的用户可能是普通用户,这类用户根据自己的爱好来选择自己想听的歌曲。活跃性较高的用户可能是专业用户,这类用户根据自己

7、的专业需要来选择自己想听的歌曲。解决方案从上面一小节的讨论中,我们已经知道无线音乐端大数据中可能隐藏的几个问题如下:用户、歌曲均存在长尾效应歌曲覆盖率低用户每天听歌时间呈间断性分布不同用户对歌曲的属性依赖性不同不同用户听歌行为不同当一个公司面对以上问题时应该采用怎样的解决方案来解决或者改善当前情况是另一个重要的问题。尤其是上述问题、,如果处理不恰当,可能会影响整个公司是否能正常运行 , 甚至影响公司的发展。因此,本部分从无线音乐数据出发,提出几种适合的解决方案。(1) 用户、歌曲均存在长尾效应,我们可以采用以下技术采用信息过滤技术,一种方法可以对歌曲进行分类,将不同的用户映射到不同的歌曲类别中

8、。另一种方法就是个性化推荐技术,系统自动的分析用户的偏好为不同用户过滤相应的歌曲。(2) 歌曲覆盖率低,我们可以采用如下技术歌曲覆盖率低主要是因为用户找到不到音乐,造成这个问题的原因主要有两种:音乐本身的信息不充足,音乐有信息,但是用户找不到这些音乐。所以一方面我们可以给音乐打标签,使用标签信息来表示歌曲的具体属性;另一方面, 我们可以采用推荐技术对歌曲进行个性化推荐。(3) 用户每天听歌时间呈间断性分布,我们可以采用如下技术在不同的时间,我们设置不同的主题歌曲以适应不同的听歌场景,比如夜晚放舒缓、平滑的歌曲,上午上摇滚、重金属之类的歌曲。当然具体的场景还需要通过进一步的数据挖掘来获得,本文只

9、是提出一种方法,对具体技术不做过多阐述。(4) 不同用户对歌曲的属性依赖性不同,我们采用如下技术通过历史数据分析获取用户对歌曲属性的依赖性,从中我们能得知用户对哪种属性更加依赖。当发现用户对流派更依赖,则我们可以根据流派为其播放歌曲,当发现用户对歌手感兴趣,则我可以根据歌手为其播放歌曲。(5) 不同用户听歌行为不同,我们可以采用如下技术根据用户特征将用户分群,这样可以将用户分为多个不同的群体。针对不同的群体我们给其播放的歌曲不同, 比如普通用户可以热歌为主进行播放,而对于专业歌手, 我们则以高多样的歌曲来为其播放。结果验证为了进一步说明上述解决方案的有效性,此处我们仅采用推荐算法来进行说明当系统采用该解决方案后,系统中出现的一些显着变化,具体的变化如下:l 用户更容易找到自己喜欢的歌曲用户找更容易找到歌曲该音乐网站目前采用热歌榜 (GRM) 来组织歌曲, 通过此种方式用户找到其喜欢歌曲的概率是千分之一左右,当我们采用了 3种推荐方法 ( 分别是 OCF 、 HC、 MD)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论