




已阅读5页,还剩25页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
集中化经分外部数据获取研究项目软课题技术方案 目录 数据获取研究项目背景和理解 1 软课题项目工作内容 2 亚信相关研究成果介绍 3 项目投入资源与成果 4 集中化经分外部数据获取研究项目背景 虽然内部数据积累了众多数据 但是必须结合外部数据才能更好的对内部数据进行深入的洞察 才能真正发挥数据的价值 B域数据 O域数据 其他数据 外省 其他行业数据 大数据分析指导活动 黄页信息 网页信息 终端信息 如 用户的去超市购物的行为与天气的关系 机场航班的延误及机场的人流与航班时间点的关系 用户的手机到底是阅读什么类型的书籍 这些类型的数据在我们的上网日志和位置信令是无法分析得到的 而丰富的互联网的各类信息可以通过爬虫获取或者外部获取数据 并用来指导我们的大数据分析生产活动 中国移动启动外部数据获取的试点工作 第5页 结合中国移动经分系统的发展规划 和收集到的外部数据获取及管理的需求 对外部数据获取进行调研 选择合适的产品和方案进行对比分析 选择合适于中国移动的架构 在此基础上 对外部数据产品进行明确内容 并且与外部数据管理形成两级级联的数据对内对外共享平台 可以构建基础的数据链接工具 作为数据连接的基础设施和中介管理机构 使得彼此的数据互动变得容易 集中化经分 江苏分公司 黄页信息 数据接口 京东手机信息 天猫手机信息 手机信息获取 终端信息库 山西分公司 全网外部数据共享服务及管理 华为手机信息 黑龙江分公司 手机信息 省份分公司 专业公司 江苏分公司 山西分公司 分公司 本次项目的价值和理解 目录 数据获取研究项目背景和理解 1 软课题项目工作内容 2 亚信相关研究成果介绍 3 项目投入资源与成果 4 调研确定中国移动经分系统对外部数据获取及管理的需求调研外部数据获取及管理的案例调研调研互联网公司和其它电信运营商的外部数据获取及管理产品和架构基于两级级联的外部数据获取及管理技术方案提供外部数据获取及管理工具原型进行验证提供获取外部数据形成标准数据产品标准 本次软课题整体内容的理解 项目研究方案 本次软课题项目建设思路 项目启动 确定业务目标与技术目标 工作范围网罗知识 1 国内外厂商调研 2 省公司 专业公司书面调研 3 总部及省公司 专业公司现场调研 需求梳理 将通过与领域专家的交流 获取了在其他解决方案中成功解决的需求 整合进入本课题的研究需求文档 需求做原型 网罗知识中发现的新需求 将通过为需求做原型的方式 检查与软课题研究目标的一致性并发现其中的潜在需求 需求整合 根据网罗知识的结果 软课题研究小组将通过集中讨论 确定了需要进行研究的需求文档 形成最终研究报告的第一版大纲 质量审核 在小组每一次集中过程中 将通过小组讨论确保了软课题报告的质量 分析设计建模 根据已明确的研究方向 软课题进入实质分析 设计 建模阶段 在此阶段中 将提出流处理应用技术建议书软课题研究反馈 提交本次软课题相关输出成果 调研互联网公司产品和架构 从数据管理集中度和数据来源两个角度 对市场现有数据共享和交换平台进行分析 数据来源 第三方 混合 自有 数据管理集中度 分散 混合 集中 京东万象 Quandl 数据联盟P2P方式的数据管理 数据需要采集到集中的IT平台上管理 Datamarket Qlik 晶赞UMA DataHub io apigee factual 数据堂 中关村数海 AzureMarketplace xignite premise gitHub 百分点 九次方 新科兰德聚合数据 上海晶赞科技发展有限公司 简称晶赞科技 成立于2011年 是互联网专业数据服务供应商 ProfessionalDataServiceProvider PDSP UMA是一个基于创新技术的联合营销平台 是中国互联网业具有品牌影响力的优质受众营销联盟 截止2013年 UMA已覆盖中国80 的互联网用户 月活跃用户数达7亿 晶赞科技为该联盟搭建的UMA大数据平台是一个集标签 归类 机器学习于一体的自动化平台 这平台只提供数据共享 Quandl成立于2012年 是加拿大科技公司 公司集成了上百家企业数据 通过统一配置及管理 方便数据用户得到他们想要的数据格式 Quandl提供开放数据和企业数据的数据平台型网站 数据使用者可以在网站上搜索 查看数据 并通过api等数据使用者期望的方式调用数据 开放数据集可直接下载 开放数据以免费形式开放 企业数据通过企业定价交易的形式开放 Quandl提供超过1500万的金融和经济数据来自500多个出版商和供应商 Apigee是API管理平台 帮助企业进行API的推荐和监控 Apigee还提供更专业的管理服务 如BaaS 后端即服务 以帮助客户搭建应用及软件来进行分析并预测 该公司有三款产品 旗舰产品ApigeeEdge用于API管理 ApigeeInsights用于预测性分析 ApigeeLink为设备制造商的物联网方案创建API连接Apigee的API管理平台是支持多供应商SDN的一个独立软件 通过实时的API转换 它可以把网络管理系统与来自多个供应商的SDN控制器进行整合 新科兰德科技 ThinkLandTechnology 创立于2010年3月 总部注册于苏州工业园区 是一家专业从事互联网数据服务 智能手机软件开发的创新型企业 聚合数据平台主要为APP开发者 软件公司 网站站长 电商等提供原始数据及API接口服务 服务包括数据挖掘 数据优化 数据存储 数据备份 平台数据类型覆盖LBS 金融 电商 教育 公共交通 日常生活等多个大类 目前聚合数据平台已成为国内最大的基础数据API服务平台 数据总量及日使用量均为国内领先 调研互联网公司产品和架构 互联网公司产品和架构总结 各厂家因自身业务特点 从平台架构 数据源获取 数据服务及应用等各有不同 结合实际情况 通过对apigee Quandl 晶赞UMA 聚合数据的对比分析 可以借鉴的方面如下表所示 中国移动经分系统对外部数据获取及管理的理解 众包 一点收集 全网共享 众包模式 应有大量人工操作 放在一点实行成本较大 故采用众包的方式 总部将根据各省在建设全网协同数据所作出的贡献上进行激励机制 中国移动集团集中化数据收集现状分析 数据通道 经分 数据源 A省 集中化经分 Hadoop云 主数据仓库 深度分析云 经分 B省 经分 C省 业务系统 专业公司 上传 下达 上传 下达 上传 下达 上传 下达 集中化经分现阶段实现对B域 M域 O域数据的省份公司数据采集 现阶段主要通过两级数据通道实现全省公司以及专业公司的数据上传下达 实现的通过单点实现全网数据星型数据架构 外部数据获取与共享 需要对省份公司及专业公司之间 直接的数据流通 现阶段还未实现 通过外部数据获取和管理共享使得集中化数据获取的形式的改变 数据通道 经分 数据源 A省 集中化经分 Hadoop云 主数据仓库 深度分析云 经分 B省 经分 C省 业务系统 专业公司 上传 下达 上传 下达 上传 下达 上传 下达 对外获取数据共享服务平台 利用对外获取数据共享服务平台 可以实现数据网状传输 打通省公司之间的数据通道 可以实现通过总部共享服务平台实现数据之间透传 总部共享服务平台对整个传输过程进行消息控制管理 数据直接由提供方到需求方 通过总部共享服务平台实现对数据注册 管理 发布等工作 中国移动经分系统对外部数据获取及管理两级架构 数据源 终端大数据 运营终端信息 互联网大数据 互联网第三方信息 社会大数据 企业黄页 企业服务短信等 行业大数据 虚拟运营商信息等 外部大数据 外部数据等 某省公司 某专业公司 某省公司 某省公司 信息收集与标准化整理 集中化经分对外获取数据共享服务平台 数据描述及标准规范 数据标准化访问 终端信息 共享信息 互联网信息 黄页信息 虚拟运营商 某省公司 某专业公司 某省公司 某省公司 信息获取和应用 通过集中化经分构建数据共享平台 将数据运营的任务分散到有实力的省公司 由省份公司收集和整理数据 通过集中化经分平台实现数据的处理和共享 实现全网数据市场交换 中国移动经分系统对外部数据获取及管理实现技术架构 对外数据获取数据共享服务 集中化经分数据服务器 数据共享客户端 数据共享客户端 数据提供方 数据使用方 消息控制流RestAPI Sub订阅 Pull获取并存储本地数据存储 需要预定义 Pub发布 可为自提供的API 亦了为托管区的API 可发布不同版本 Push将数据从预定义的本地存储推送到托管服务器 包括加密 序列化等工作 直接数据产品提供 Pub托管式数据发布 Push托管式数据推送 用户 认证 授权 账单 支付 社交 对外数据获取数据共享服务技术功能描述 外部数据获取管理共享能力 通过RestAPI接口和WEB界面提供用户帐户管理 认证 授权 PUB SUB PUSH PULL 数据资源管理 数据资源搜索 结算 支付 社交等服务提供两种类型的数据连接 批量数据集DataSet 通过文件实现 和数据流DataFlow 通过Kafka实现 可以有两种方式发布 公有数据集 所有用户皆可使用 无需授权 可以自行设置收费还是免费 私有数据集 只能由自己或主动授权的用户 APP使用 工具链 消费者端 数据订购以后 若数据有更新 会主动调用回调函数 WEBHOOK 通知数据消费者端的 流模式下的SDK 或者文件模式下的最终消费者 提供者端 SDK可以定期查询数据API的版本情况 或者提供回调函数 供数据提供方侧提醒数据有更新 从而发起自动的数据发布 原型系统功能点和实现形式设计 外部数据产品标准化 APP内容识别 阅读 图书id影视 视频id音乐 音乐id 用户上网日志 资源库 识别 视频名称 频道 识别 图书书名 作者 识别 音乐名称 演唱者 所属专辑 影视 阅读 音乐 上网内容资源识别 得到资源ID后 在资源库中查询 智能爬虫沉淀资源ID与资源信息的对应关系 可识别 商户名称 电话 地址 人均消费 商户 提供外部数据标准化数据接口 目录 数据获取研究项目背景和理解 1 软课题项目工作内容 2 亚信相关研究成果介绍 3 项目投入资源与成果 4 外部数据获取相关建设应用案例 亚信在这些项目中进行外部数据获取和管理运用到多个中国移动 中国联通 中国电信流量运营分析 经营分析系统 大数据系统等相关系统 积累了丰富的大数据类平台的建设经验 具有丰富的系统建设 支撑 业务运营的实施经验 终端信息 整合一经终端信息库和GSM协会终端信息资料 应用信息 整合用户使用应用的数据统计 内容信息 整合用户上网访问内容分类信息 可为省内终端运维 新终端识别和定制终端定价策略提供支撑 可为应用识别运维 自有应用推广策略等提供数据支撑 互联网内容热点关联用户浏览内容统计后 有效对热点内容进行捕捉 对用户上网浏览内容进行预测 移动某省公司外部数据获取及管理 定期采集内容型业务内容及互联网业务内容 建立统一的内容信息管理库 支撑统一的用户运营及内容运营 采集内容类型 阅读 视频 音乐 游戏五类 采集范围 自有内容 互联网内容 全采集 精聚合 强运营 1 2 3 自有内容 互联网内容 通过基地平台接入 内容周期性更新 从互联网中抓取内容 包括热点视频 歌曲等信息 进行数据共享 热门内容信息展示内容地址信息展示统一内容分类标签关键词查询各业务内容 准确把握最佳营销时机 实现触发式 任务式 调用式运营活动的时机管理 准确把握营销活动发起时机 精确洞察客户内容需求 多层次 多角度集中分析客户行为 从客户的对全内容的使用行为特征综合把握客户偏好 挖掘客户需求 用于支撑用户级内容运营 选择最佳营销渠道 选择客户偏好的渠道作为营销活动的执行渠道进行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 设备能耗管理方法-洞察及研究
- 社企全球化发展模式-洞察及研究
- 2025年农村一二三产业融合发展的农业科技成果转化与产业化案例报告
- 2025年数字人民币跨境支付技术挑战与支付体验提升策略报告
- FF骨科治疗器械有限公司2023年度环境报告:员工关怀绿色制造
- XX医疗器械集团2022-2023ESG实践报告:全面医疗与可持续发展
- 2025年学历类自考幼儿文学-生产与作业管理参考题库含答案解析(5套试卷)
- 2025年学历类自考幼儿园教育基础-学前儿童语言教育参考题库含答案解析(5套试卷)
- 2025年学历类自考小学教育科学研究-学前儿童美术教育参考题库含答案解析(5套试卷)
- 2025年学历类自考学前特殊儿童教育-文学概论参考题库含答案解析(5套试卷)
- 建筑结构选型课程设计
- 国家心理健康和精神卫生防治中心招聘笔试真题2023
- 《生物经济学》课程教学大纲
- 《带状疱疹》课件
- 神经康复学教案
- 2025年中考作文试题预测及范文
- 部编版道德与法治二年级上册全册教案
- 2021年秋新教科版六年级上册科学全册表格式教案
- 2025高二政治开学第一课《政好有你 再创佳绩》
- 碳谱定量分析方法
- 机械购销合同电子版
评论
0/150
提交评论