




已阅读5页,还剩7页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
电视用户数据分析 文档修改记录文档修改记录 修改日期修改日期修改人修改人修改说明修改说明版本号版本号修改页修改页 目目 录录 1总体描述 4 1 1建设目标 4 1 2整体架构 4 2功能实现 6 2 1数据采集模块 6 2 1 1数据收集 6 2 1 2数据处理 6 2 2数据分析 7 2 3数据可视化 8 2 4系统管理 9 3初步方案 10 3 1C 平台接口日志分析 10 3 2流水文件分析 11 4技术实现 11 1 总体描述总体描述 1 1建设目标建设目标 互联网电视是建立在通信网络上的互动性视频服务 可以非常灵活地实现电子菜单 节目预约 实时快进 快退等操作 通过对 OTT 用户的实时数据收集 统计分析 建 设实时数据分析系统 对 OTT 的 EPG 界面设计 内容运营有着重要意义 系统在通过对 OTT 业务运营平台数据收集的基础上 实时 定期 获取用户行为 数据 结合业务运营平台数据日志 用户端 APK 上报日志等数据 通过大数据处理平 台 如 Hadoop 对 OTT 的各纬度指标进行统计分析 并提供用户自定义分析功能 进行数据展示 为 EPG 的界面设计和运营建设提供决策依据 1 2整体架构整体架构 数据抓取 负责整个互联网电视运营中心平台或者分平台系统的原始基础数据的获取 包括 2 部分内容 1 平台日志 结合运营平台的日志管理模块 实现获取并接收用户的 行为数据 2 APK 日志上报 提供数据接口 且支持 FTP 等传输导入 数据抓取用于接入存储数据 目前分为三部分 1 C 平台各业务系统通过 AOP 方式将各接口调用情况输出标准日志 由 FLUME 进行抓取 再通过 KAFKA 将数据输送到 STORM 中 STORM 将元数据直接存放到 HDFS 中 2 各业务系统的错误日志转换为 json 后直接存放到 ES 中 方便查找 3 将流水文件 需转换为 csv 格式 和流水日志 导出 txt 格式 通过文档上 传系统上传到 HDFS 中 文件所在的文件夹以当天日期命名 减少需处理的文件数量 提高效率 数据分析 基于 hadoop 大数据处理技术 将数据收集获取到的基础数据 进行数据预处理 数据统计计算 包括数据排重 数据清洗 结果展示指标计算等 并将原始数据 结 果表数据进行存储和备份 根据多维度的数据展示需求 设计结果表数据 并对其进 行实时统计计算 并将结果数据 推送给前端展示平台 另外还提供用户自定分析功 能 用于对原始数据和结果表数据的自定义查询和分析功能 便于非数据分析人员对 系统进行二次分析 数据分析用于对指定数据进行切割分解为各个维度 给展示系统提供数据支撑 1 由 STORM 对 C 平台接口日志进行处理 将处理后的数据存放到 ELK 中进行展 示 2 由 SPARK 离线处理 HDFS 上的流水文件 将处理后的数据保存到 mongodb 中 设定时任务每天零点自动开始 SPARK 任务 对以前一天日期命名的文件夹下的数据 进行处理 可视化系统 BI BI 系统负责可视化数据分析模块建设 将数据分析的数据 在显示终端进行可视 化图形展示 BI 系统是对分析后结果进行展示 用于图形化展示最终的分析结果 初期是使用 ECharts 等图表插件绘制展示图形 后期由项目根据传来的数据和模型自动绘制图形 数据挖掘 数据挖掘对离线数据进行分析 形成相关模型 并用模型对数据进行计算分析 使 用 SPARK Mllib 机器学习 训练模型 来完成精准推荐和视频打分等功能 元数据管理与数据质量管理系统 元数据管理对接入的数据进行管理 数据质量管理是对云平台上存储数据进行质量 控制 保证数据真实可靠 2 功能实现功能实现 2 1数据采集模块数据采集模块 2 1 1 数据收集数据收集 互联网电视运营大数据分析数据来源于各业务运营平台 数据分为 APK 上报数据 业务平台后台日志数据 1 终端首次开机上电后 主动向运营平台上报认证信息 终端经过认证后才能 激活 认证信息包含了终端的基本信息 2 获取到终端开机 心跳 浏览访问 直播 点播 回看 订购 遥控器按键 停留时间等行为数据 3 获取到 OT 终端 SN MAC 软件版本号 4 获取各终端活跃度信息 首次活跃时间 最后活跃时间 活跃总时长等活跃 详情 5 获取用户搜索影视内容关键词信息 包含影视名称 演员名称等 6 获取用户点播详情 开始结束时间 点播内容 点播时长等 7 获取用户订购信息 订购时间 订购金额 退购时间 订购次数 退购次数 等 2 1 2 数据处理数据处理 1 将运营平台上报提交的数据进行收集和预处理 2 用户行为原始数据 经由数据标准化处理 支持对日志合并 数据清洗 数据 过滤操作 形成统一的数据结构 2 2数据分析数据分析 通过对互联网电视运营平台的数据收集 建立 OTT 用户行为数据库 并在此基础 上建立 OTT 用户行为分析指标 该指标主要包括以下内容 1 1 提供 提供 OTTOTT 核心指标统计分析 包括日 总 用户数 日 总 访问量 视频核心指标统计分析 包括日 总 用户数 日 总 访问量 视频 播放量 人均停留时间等 播放量 人均停留时间等 实时统计 OTT 在线用户数 总活跃用户数 总点击用户数 开机用户数 视频播 放用户数 视频播放转化率 播放时长等指标 针对各指标展示 提供可视化图表展示 以及历史数据查询功能 2 2 提供用户健康度分析 提供用户健康度分析 统计 OTT 总用户数 当日用户数 新安装用户数 留存率 活跃度等健康度指标 并提供图形化图表展示 以及历史数据查询功能 3 3 提供用户终端信息统计分析 包括终端型号 提供用户终端信息统计分析 包括终端型号 MACMAC 地理位置分析地理位置分析 按终端盒子厂商 型号为纬度 统计分析 OTT 的访问用户数 播放用户数 播放 量 播放转化率等指标 并提供可视化图形展示和历史数据查询 按终端软件版本 统计分析 OTT 的访问用户数 播放用户数 播放转化率等指标 并提供可视化图形展示和历史数据查询 按省份 运营商为纬度 统计 OTT 的访问用户数 播放用户数 播放量 播放转 化率等指标 并提供可视化图形展示和历史数据查询 4 4 提供用户所有页面的访问量 人均停留时间分析等 提供用户所有页面的访问量 人均停留时间分析等 统计 OTT 的各个页面的访问量 访问时间 访问时长等指标 并提供可视化图形 展示 统计 OTT 各页面的来源路径和流出路径的用户量 访问次数等指标数据 并提供 可视化图形展示 5 5 提供节目内容播放路径分析 提供节目内容播放路径分析 按照关键路径分析 统计各核心业务的转化率 分析用户在标准路径中各步骤的 流失情况 并以直观图表展现 6 6 提供页面热力图分析 提供页面热力图分析 提供页面热力图功能 用户可以框选热力图区域 页面显示该区域的用户量 转 化率 播放内容 次数等数据 7 7 提供节目内容分析 提供按播放类型分析 如点播 专题等 提供按内容分 提供节目内容分析 提供按播放类型分析 如点播 专题等 提供按内容分 析 包括电视 电影 综艺 体育等析 包括电视 电影 综艺 体育等 对点播业务 提供从内容分类到节目名称不同纬度的指标统计 统计指标包括访 问量 播放量 播放转化率 排名等指标 对其他业务类型 按照节目内容的不同纬度 提供访问量 播放量 播放时长 节目排名等指标统计 8 8 提供用户订购分析 订购是否成功 订购来源 订购失败原因 订购编号 提供用户订购分析 订购是否成功 订购来源 订购失败原因 订购编号 订购时间等分析 订购时间等分析 针对订购业务 统计产品的订购量 取消订购量 续订 订购总数计费 业务 量排名等指标统计 统计订购业务的结算数据 提供地域 周期 产品名称等纬度对消费金额 订 购次数的统计 统计多产品的用户订购分布情况 9 9 提供用户兴趣分析 提供用户兴趣分析 根据用户产品包订购记录及观看记录进行用户画像 并对用户观看偏好进行分析 建立用户兴趣表 2 3数据可视化数据可视化 1 1 提供大屏数据可视化 提供大屏数据可视化 针对大屏数据展示 进行定制化 实时展示当前在线用户数 点播用户数 直播 用户数 回看用户数等核心指标 2 2 提供多种用户视角 多种指标纬度数据可视化展示 提供多种用户视角 多种指标纬度数据可视化展示 针对 OTT 的各项数据 系统提供基于整体概况 分业务 地理信息 页面 路径 内容 运营等多种纬度 包括访问量 转化率 播放量等多项指标的统计 并提供可 视化展示 3 3 支持用户自定义分析 支持用户自定义分析 系统支持用户自定义查询 允许用户根据自身业务需要 自定义查询分析系统数 据 并支持选择指标 定制折线图 饼图等可视化图形进行展示 可以将分析结果以 EXCEL 形式输出 4 4 提供数据导出功能 提供数据导出功能 提供将统计结果的数据以 EXCEL 文件的形式导出 便于相关人员对数据进行二次 分析和图表制作 2 4系统管理系统管理 1 1 用户权限管理 用户权限管理 针对业务不同层次的需求 提供系统管理员 普通用户等不同角色的页面权限管理 2 2 提供自定义功能任务管理 提供自定义功能任务管理 针对自定义分析 提供任务管理功能 包括任务创建 删除 状态查看 结果查看 等功能 3 3 元数据管理与数据质量管理 元数据管理与数据质量管理 元数据管理对接入的数据进行管理 数据质量管理是对云平台上存储数据进行质量 控制 保证数据真实可靠 3 初步方案初步方案 3 1C 平台接口日志分析平台接口日志分析 1 通过 C 平台 VOD OMS BMS 等模块收集系统日志 Flume 是一个分布式 可靠 和高 可用的海量日志聚合的系统 支持在系统中定制各类数据发送方 用于收集数据 同时 Flume 提供对数据进行简单处理 并写到各种数据接受方 可定制 的能力 2 采用分布式消息系统 kafka 中间件 处理用户行为 登录 浏览 点击 分享 喜 欢 以及系统运行日志 CPU 内存 磁盘 网络 系统及进程状态 3 对采集到的数据进行实时分析 采用 apache 的 storm 4 HDFS 分布式文件系统完成海量消息信息的存储 HDFS 通过一个高效的分布式算法 将数据的访问和存储分布在大量服务器之中 在可靠地多备份存储的同时还能将访 问分布在集群中的各个服务器之上 是传统存储构架的一个颠覆性的发展 5 采用分布式计算算法 完成数据分析 数据挖掘 3 2流水文件分析流水文件分析 一期 完成数据抓取保存元数据 二期 完成数据分析 完成 BI 系统 三期 优化全套流程 提高性能 用户可自定义模型 BI 系统自动完成对应维度 的图形展示 四期 完成数据挖掘 4 技术实现技术实现 采用 Hadoop 处理系统 实现对用户行为数据的实时处理和统计分析 主要功能如 下 1 采用 Hadoop2 X 支持多种平台组件 Hadoop 系统最新的版本 并支持 HDFS Hbase Map Reduce YARN Hive 等一 系列组件 2 平台管理 可对平台的系统服务 硬件进行安装部署 监控告警 方便运维人员对系统进行管 理 对所有功能提供基于 Web 的控制台操作页面 并支持良好的 UI 操作 使得管理 员能够轻松驾驭大数据平台 对常用的管理功能 如软件的启停 软件中某类服务的 启停 节点角色配置 高可用设置 负载均衡等 管理系统也将提供一键式的操作 降低管理员的工作复杂度 减少管理工作量 3 监控功能 提供各组件全面的监控功能 对平台中各个层次的软硬件状态 性能等进行全方位 的监控 并以直观的方式加以展现 设备监控将提供各服务器节点 存储设备 网络 设备的状态和运行性能监控 以及设备中各部件的基本信息监控 如 CPU 网卡 硬 盘等部件的信息 4 告警功能 对平台中各软硬件资源全面监控的基础上 提供健全的告警机制 在故障发生的第 一时间将告警通知给管理员 管理系统提供多种方式的告警探测方式 可以对各种状 态异常直接进行告警 也可以基于某项监控指标设定阈值进行告警 如磁盘空间利用 率到 90 需告警 5 调参功能 实现大数据平台内各种软件的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年建筑工程类注册安全工程师安全生产专业实务(其他安全)-安全生产专业实务(其他安全)参考题库含答案解析
- 2025年学历类自考专业(法律)行政法学-民法学参考题库含答案解析
- 2025年学历类自考专业(法律)法理学-公证与律师制度参考题库含答案解析
- 2025年智能化医疗器械安装与运营维护综合服务合同
- 2025年食品添加剂生产与使用安全监管合作协议
- 2025年节能环保型锅炉购置及安装与长期维护服务合同
- 2025年度新型疫苗研发风险管理及采购供应合作协议
- 2025年度茶叶种植基地承包与加工厂生产合作协议
- 2025年度甲级办公楼智能化清洁保养与能源管理服务合同
- 2025社区医疗站点医师派遣及家庭医生签约服务合作协议
- 碎石买卖合同
- 2025年上海市劳务合同经典版(2篇)
- 家庭教育中的家庭规则制定
- 2025届云南省高三高考备考数学模拟检测试卷(含解析)
- 碳中和技术概论 课件 第4、5章 氢能、生物质能
- 降低患者跌倒的发生率
- 非参数统计方法创新
- 老年人排泄护理课件
- 药品经营和使用质量监督管理办法
- 中考英语高频单词(背诵版)
- 大单元教学设计的基本步骤
评论
0/150
提交评论