版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、理解大数据,实践大数据 内容 对大数据的理解 拓尔思大数据产品布局和应用实践 反对派认为,我们现在处在 一个盲目的大数据崇拜时代 大数据产生的背景 数据的爆发式增长和 社会化趋势,新摩尔 定律 大数据已经成为一种 自然资源 机器数据日益重要 大数据不被利用就是 成本 大数据产生的背景 现有的商业软件难 以处理大数据的规 模和复杂性 获取(capture) 存贮(storage) 搜索(search) 分享(sharing) 分析(analysis) 可视化(visualization) 奥巴马大数据战略 2012年3月29日,白 宫发布美国政府的大 数据计划 通过提高从大型复杂 的数字数据集中
2、提取 知识和观点的能力, 承诺帮助加快在科学 与工程中的步伐,加 强国家安全,并改变 教学研究 大数据的4V特性 体量Volume 多样性Variety 价值密度Value 速度Velocity 非结构化数据的超大规模和增长 总数据量的8090% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍 大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义 大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智能 (咨询、报告等) 实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后
3、见效 对大数据的理解 1. 大数据比云计算更为落地 2. 大数据不仅仅是“大” 3. 软件是大数据的引擎 4. 大数据的应用不仅仅是精准营销 5. 管理大数据“易”,理解大数据“难” 1、大数据比云计算更为落地 商业模式驱动应用需求驱动 云计算本身也是大数据的一种业务模式 2、大数据不仅仅是“大” 多大? PB 级比大更重要的是 数据的复杂性, 有时甚至大数据 中的小数据如一 条微博就具有颠 覆性的价值 3、软件是大数据的引擎 和数据中心(Data Center) 一样,软 件是大数据的驱动 力,软件改变世界 大数据生态:软件是引擎 4、大数据的应用不仅仅是精准营销 通过用户行为分析实现精准营
4、销是大数据的典型 应用,但是大数据在各行各业特别是公共服务领 域具有广阔的应用前景 消费 行业 金融 服务 食品 安全 医疗 卫生 军事 交通 环保 电子 商务 气象 5、管理大数据“易”理解大数据“难” 虽然大数据是一个重大问题,真正 的问题是让大数据更有意义 目前大数据管理多从架构和并行等 方面考虑,解决高并发数据存取的 性能要求及数据存储的横向扩展, 但对非结构化数据的内容理解仍缺 乏实质性的突破和进展,这是实现 大数据资源化、知识化、普适化的 核心 非结构化海量信息的智能化处理: 自然语言理解、多媒体内容理解、 机器学习等 拓尔思大数据产品布局 TRS机器数据 挖掘引擎 TRS SMA
5、S 舆情云服务 TRS 大数据管理系统V7.0 TRS 大数据管理系统发展历程 TRS 全文 数据库 TRS 非结构化 数据库 TRS 大数据 管理系统 TRS 大数据管理系统V7.0 TRS 大数据管理系统V7.0 分布式并行计算、多副本机制、没有单点的高可靠体 系架构,兼容Hadoop标准 支持结构化、半结构化、非结构化数据的管理和搜索 支持实时及用户行为数据的高效管理和分析 支持PB级的海量数据管理 支持海量用户的高并发访问(千万级用户、万级并发) 充分释放硬件的潜力(多核、大内存等) 大规模部署的自动化和运行状态监控 创新的多检索引擎机制,提供开放的二次开发接口 数据备份 大数据管理系
6、统 数据存储 开发接口 基于Hadoop的数据分析 CKM文本 挖掘与数 据挖掘 关联规则 与序列模 式挖掘 推荐引 擎的离 线分析 MapReduce 数据库监控机器数据搜索引擎用户行为挖掘与推荐引擎 基于时间分段的大数 据检索与索引接口 搜 索 引 擎 日志采集监控 数据存储层 数据分析层 日志发送节点 Angent 1 Angent 2 Angent 3 Angent n 日志接收集群 Collector 1 Collector 2 Collector 3 Collector n Master管理集群 Master 1Master 2Master n 日志采集 TRS 机器数据挖掘引擎机
7、器数据挖掘引擎 TRS 机器数据挖掘引擎特点 支持主流格式机器数据的实时采集、解析、管理 和搜索。 基于时间分段和负载均衡的大数据索引与检索机 制。 基于Web的机器数据搜索与分析界面。 兼容Hadoop平台的日志挖掘和用户行为分析。 基于多种推荐模型的在线推荐引擎 大规模部署的自动化和运行状态监控 TRS SMAS功能框架图 舆 情 管 理 服 务 共 享 信 息 挖 掘 信 息 来 源 新闻论坛博客 搜索 引擎 微博 wiki 自动排重、自动分类、自动摘要、自动分析 舆情分类 热点跟踪 热点统计 微博分析 人物分析 微博运营 趋势分析 整合统计 关联图谱 动态走势 兴趣图谱 未知探索 热点
8、变化 意见领袖 传播图谱 关系分类 个性展示 敏感预警 自由分布 数图导出 图表切换 多维检索 探针追踪 元搜索 外网外网 微博 论坛 SNS 网媒 官网官网 提高 销量 用户 满意度 用户设计 趋势分析 竞争分析 质量缺陷 设计缺陷 使用缺陷 KOL维护 声誉管理 危机预警 事件评估 行为分析 产品 公关 营销 SMAS 用户感知 研发 情绪感知 及时服务 口碑监测 媒介监测 S- CRM 广义 服务 TRS SMAS 作用于企业2.0 TRS 在大数据领域的应用实践 新华社多媒体数据库 国家知识产权局专利检索系统 某部信息监控系统 TRS SMAS 云服务(大数据服务) 国家质监局 国家药
9、监局 北京市环保局 国家气象局 每日微博热点分析 新华社多媒体数据库系统新华社多媒体数据库系统 是新华社的核心业务支撑,典型的非结构化数据管理应 用场景,持续IT投资已经超过6亿人民币 以新华社遍布全球的新闻信息及采集网络为依托,全面 整合新华社的文字、图片、图表、音视频、报刊等全部 资源和社会上有价值的新闻信息资源,拥有包括中、英、 法、俄、西、阿及中文繁体在内的 6个文种,数据量超 PB 最早采用文件系统,后来改为Oracle,效率很低, 再改为Oracle+TRS ,持续服务至今 从大型机改为PC服务器集群 新华社新华社多媒体数据库多媒体数据库数据流转图数据流转图 新华社多媒体库的技术特
10、点新华社多媒体库的技术特点 非结构化数据和结构化数据统一管理 TRS多语言检索引擎 全面采用TRS文本挖掘技术 良好的集群扩展能力 索引服务器读写分离 国家知识产权局专利检索服务系统国家知识产权局专利检索服务系统 1998年专利局引进了欧洲EPOQUE系统,基于 大型机的专利检索系统,每年的系统维护费用就 达数千万元 2005年开始建设自主可控可持续发展的专利检 索和服务系统,采用大量的PC服务器 典型的非结构化/半结构化数据应用场景 目前公共检索和审查员检索系统全部使用TRS检 索引擎 专利检索系统的需求特点专利检索系统的需求特点 数据多样性 结构化、半结构化和非结构化数据的结合 申请人、申
11、请号、名称等著录项很多; 权利要求书、说明书等全 文数据规模大 各库数据结构差异大 查询要求高 严格的查全和查准要求 基于领域知识的智能检索 结构化和非结构化信息联合查询 相关专利推荐 专利检索与服务系统的数据种类与规模 专利检索引擎专利检索引擎数据流转图数据流转图 专利检索与服务系统专利检索与服务系统- -外观图像检索外观图像检索 专利图像外观检索专利图像外观检索 局部检索 形状检索 纹理检索 不变性特征检索 草图检索 数据分类 数据聚类 基于相关反馈的检索 跨语言检索 某部网监智能搜索和挖掘系统某部网监智能搜索和挖掘系统 系统特点: 巨大的数据量 多样性数据 数据极快速增长 系统现状 已经
12、部署数千台服务器,满足了业务需 求 挑战 性能和可扩展性 整合和调度 数据量远超过互联网, 目前部署TRS 系统 2000多套 SMAS的用户 国家质检总局 2012.1 蒙牛致癌门 2012.2 苏泊尔质量门 2012.3 辽源注水肉 2012.3 315质量报告 2012.4 含氯可口可乐 2012.4 蜜饯质量问题 2012.5菲律宾香蕉质量 2012 仅在2012年上半年,拓尔思运营团队就为质检总局在产品质量、食品安全方面提供超过 40余项服务,借助数据中心的大数据与云服务平台,进行全面的整合、统计与分析。 国家质检总局 质检总局的服务依托云服务平台 (SMAS),从媒体调性、平台分布
13、、 网民意见、趋势发展等多种角度进行 解析,结合系统的自动分析与分析团 队的整合,最终以专题报告的方式, 第一时间呈现,为质检总局在公共服 务的决策提供重要参考。 国家药监局 2012年4月15日央视曝光的“毒胶囊”事件掀起药品行业的巨大波澜,SMAS 运营团队对该事件进行了长时间的跟踪与分析,并用一系列的数据、图表和报 告捕获了网络数据里的真相与民意。 国家药监局 关键人物 传播趋势 主流观点 关键地区 SMAS分析团队 连续30天跟踪毒 胶囊事件,从整 体传播趋势、观 点、人物、地区 等视角,还原了 这起颇具影响力 的公共事件。 -毒胶囊事件- 北京市环保局PM2.5分析 报 道 量 排
14、行 高 低 l两会代表委员热 议PM2.5 l“京V”排放标准首 规定PM限值 l珠三角成首个公布 PM2.5城市群 l珠三角PM2.5严重超标 l环保局回应PM2.5数据 质疑 借助数据中心的大数据与云服务平台,从区域分布的角度对PM2.5的相关信息 进行归类,进行全面的整合、统计与分析,得到上图分析内容。 北京市环保局PM2.5分析 PM2.5均匀分布, 监测点为何 不均匀分布? PM2.5监测不能 背离公众感受 PM2.5监测, 关键词是“真实” 20亿元清单, 能否换来清新? 微博TOP10意见领袖排行 郑渊洁郑渊洁 微博原文 作家 通过SMAS平台的抽样分析,提取网民热点话 题内容,
15、得到TOP10意见领袖排行。对意见领 袖的代表性微博进行传播链分析,可知“意见 领袖”巨大的传播影响力。 第一层第一层 第二层第二层 第三层第三层 第四层第四层 第五层第五层 第六层第六层 传播了712次 占转发数百分 比:54.39% 传播了432次 占转发数百分 比:33.00% 博主自身的 二次转发 北京市环保局PM2.5分析 气象舆情监测气象舆情监测 对气候的影响 三峡 工程 长江中下 游干旱 台风 梅花 日本 核辐射 极端天气频发,有多少 是人为之祸?公众对气 象部门的气象服务有了 全新的期待。 依托数据中心与云服 务平台,拓尔思运营团 队还原热点气象事件引 发的网络舆情,总结气 象部门应对气象危机的 得失,为气象部门开拓 气象服务新领域、提升 气象服务水平提供参考
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 攀岩方向社会体育指导员在公共体育活动中的角色与挑战
- 好奇心驱动创新如何激发团队的创新思维与活力
- 搪瓷健身房墙面防撞板创新创业项目商业计划书
- 多功能果蔬切片包装一体机创新创业项目商业计划书
- 医用织物连续式消毒烘干机创新创业项目商业计划书
- 药品生产员工绩效考核方案
- 智慧城市建设高级项目实施方案与关键绩效指标KPI
- 幼儿园中班教案蛀牙虫快走含反思(2025-2026学年)
- 部编版三年级语文下册剃头大师教案公开课共课时(2025-2026学年)
- 小学英语组工作总结试卷教案(2025-2026学年)
- 第01讲 赏析小说形象(知识清单)(全国通.用)解析版-2026年高考语文一轮复习讲练测
- 侍茄师初级练习测试卷
- 风电场防寒防冻知识培训课件
- 难点解析-人教版八年级物理上册第5章透镜及其应用-凸透镜成像的规律综合测试试题(含详细解析)
- 国开2025年秋《心理学》形成性考核练习1-6答案
- 历史校本课程
- 2025年度全国少先队知识测试题(含答案)
- 2026春夏·淘宝天猫运动户外鞋服趋势白皮书
- 2025年秋季学期国家开放大学《中国近现代史纲要》专题测验1-7答案
- 软装进场流程图
- 辽宁地区中石油2025秋招笔试英语专练题库及答案
评论
0/150
提交评论