




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、内容,对大数据的理解 xxx大数据产品布局和应用实践,反对派认为,我们现在处在一个盲目的大数据崇拜时代,大数据产生的背景,数据的爆发式增长和社会化趋势,新摩尔定律 大数据已经成为一种自然资源 机器数据日益重要 大数据不被利用就是成本,大数据产生的背景,现有的商业软件难以处理大数据的规模和复杂性 获取(capture) 存贮(storage) 搜索(search) 分享(sharing) 分析(analysis) 可视化(visualization),奥巴马大数据战略,2012年3月29日,白宫发布美国政府的大数据计划 通过提高从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学与工
2、程中的步伐,加强国家安全,并改变教学研究,大数据的4V特性,体量Volume,多样性Variety,价值密度Value,速度Velocity,非结构化数据的超大规模和增长 总数据量的8090% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍,大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义,大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等),实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效,对大数据的理解,大数据比云计算更为落地 大数据不仅
3、仅是“大” 软件是大数据的引擎 大数据的应用不仅仅是精准营销 管理大数据“易”,理解大数据“难”,1、大数据比云计算更为落地,商业模式驱动,应用需求驱动,云计算本身也是大数据的一种业务模式,2、大数据不仅仅是“大”,多大? PB 级,比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值,3、软件是大数据的引擎,和数据中心(Data Center) 一样,软件是大数据的驱动力,软件改变世界,大数据生态:软件是引擎,4、大数据的应用不仅仅是精准营销,通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是公共服务领域具有广阔的应用前景,消费行业,金融服
4、务,食品安全,医疗卫生,军事,交通环保,电子商务,气象,5、管理大数据“易”理解大数据“难”,虽然大数据是一个重大问题,真正的问题是让大数据更有意义 目前大数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心 非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等,xxx大数据产品布局,TRS机器数据挖掘引擎,TRS SMAS 舆情云服务,TRS 大数据管理系统V7.0,TRS 大数据管理系统发展历程,TRS 全文数据库,TRS 非结构化数据库,TRS
5、大数据 管理系统,TRS 大数据管理系统V7.0,TRS 大数据管理系统V7.0,分布式并行计算、多副本机制、没有单点的高可靠体系架构,兼容Hadoop标准 支持结构化、半结构化、非结构化数据的管理和搜索 支持实时及用户行为数据的高效管理和分析 支持PB级的海量数据管理 支持海量用户的高并发访问(千万级用户、万级并发) 充分释放硬件的潜力(多核、大内存等) 大规模部署的自动化和运行状态监控 创新的多检索引擎机制,提供开放的二次开发接口,数据备份,大数据管理系统,数据存储,开发接口,基于Hadoop的数据分析,CKM文本挖掘与数据挖掘,关联规则与序列模式挖掘,推荐引擎的离线分析,MapReduc
6、e,数据库监控,机器数据搜索引擎,用户行为挖掘与推荐引擎,基于时间分段的大数据检索与索引接口,搜索引擎,日志采集监控,数据存储层,数据分析层,日志发送节点,Angent 1,Angent 2,Angent 3,Angent n,日志接收集群,Collector 1,Collector 2,Collector 3,Collector n,Master管理集群,Master 1,Master 2,Master n,日志采集,TRS 机器数据挖掘引擎,TRS 机器数据挖掘引擎特点,支持主流格式机器数据的实时采集、解析、管理和搜索。 基于时间分段和负载均衡的大数据索引与检索机制。 基于Web的机器数据
7、搜索与分析界面。 兼容Hadoop平台的日志挖掘和用户行为分析。 基于多种推荐模型的在线推荐引擎 大规模部署的自动化和运行状态监控,TRS SMAS功能框架图,舆情管理,服务共享,信息挖掘,信息来源,新闻,论坛,博客,搜索引擎,微博,wiki,自动排重、自动分类、自动摘要、自动分析,舆情分类,热点跟踪,热点统计,微博分析,人物分析,微博运营,趋势分析,整合统计,关联图谱,动态走势,兴趣图谱,未知探索,热点变化,意见领袖,传播图谱,关系分类,个性展示,敏感预警,自由分布,数图导出,图表切换,多维检索,探针追踪,元搜索,外网 微博 论坛 SNS 网媒,官网 提高 销量 用户 满意度,用户设计,趋势
8、分析,竞争分析,质量缺陷,设计缺陷,使用缺陷,KOL维护,声誉管理,危机预警,事件评估,行为分析,产品,公关,营销,SMAS 用户感知,研发,情绪感知,及时服务,口碑监测,媒介监测,S- CRM,广义 服务,TRS SMAS 作用于企业2.0,TRS 在大数据领域的应用实践,新华社多媒体数据库 国家知识产权局专利检索系统 某部信息监控系统 TRS SMAS 云服务(大数据服务) 国家质监局 国家药监局 北京市环保局 国家气象局 每日微博热点分析,新华社多媒体数据库系统,是新华社的核心业务支撑,典型的非结构化数据管理应用场景,持续IT投资已经超过6亿人民币 以新华社遍布全球的新闻信息及采集网络为
9、依托,全面整合新华社的文字、图片、图表、音视频、报刊等全部资源和社会上有价值的新闻信息资源,拥有包括中、英、法、俄、西、阿及中文繁体在内的 6个文种,数据量超PB 最早采用文件系统,后来改为Oracle,效率很低,再改为Oracle+TRS ,持续服务至今 从大型机改为PC服务器集群,1.5亿条 原创新闻资讯,26000小时 权威原创视频,700万张图片,27000家 注册用户,8000多种 资源分类,PB级数据量,多语种数据,新华社多媒体数据库数据流转图,新华社多媒体库的技术特点,非结构化数据和结构化数据统一管理 TRS多语言检索引擎 全面采用TRS文本挖掘技术 良好的集群扩展能力 索引服务
10、器读写分离,国家知识产权局专利检索服务系统,1998年专利局引进了欧洲EPOQUE系统,基于大型机的专利检索系统,每年的系统维护费用就达数千万元 2005年开始建设自主可控可持续发展的专利检索和服务系统,采用大量的PC服务器 典型的非结构化/半结构化数据应用场景 目前公共检索和审查员检索系统全部使用TRS检索引擎,专利检索系统的需求特点,数据多样性 结构化、半结构化和非结构化数据的结合 申请人、申请号、名称等著录项很多; 权利要求书、说明书等全文数据规模大 各库数据结构差异大 查询要求高 严格的查全和查准要求 基于领域知识的智能检索 结构化和非结构化信息联合查询 相关专利推荐,专利检索与服务系
11、统的数据种类与规模,6亿多条 专利记录,多渠道异构 资源整合,100%查全率,1秒 响应时间,700-1000并发,724 稳定可靠,1万注册用户,专利检索引擎数据流转图,专利检索与服务系统-外观图像检索,专利图像外观检索,局部检索 形状检索 纹理检索 不变性特征检索 草图检索 数据分类 数据聚类 基于相关反馈的检索 跨语言检索,600万幅专利图片 查询性能从原来的分钟级提高到秒级 索引性能从原来的天级提高到现在的小时级,某部网监智能搜索和挖掘系统,系统特点: 巨大的数据量 多样性数据 数据极快速增长 系统现状 已经部署数千台服务器,满足了业务需求 挑战 性能和可扩展性 整合和调度,数据量远超
12、过互联网,目前部署TRS 系统2000多套,SMAS的用户,国家质检总局,2012.1 蒙牛致癌门,2012.2 苏泊尔质量门,2012.3 辽源注水肉,2012.3 315质量报告,2012.4 含氯可口可乐,2012.4 蜜饯质量问题,2012.5菲律宾香蕉质量,2012,仅在2012年上半年,xxx运营团队就为质检总局在产品质量、食品安全方面提供超过40余项服务,借助数据中心的大数据与云服务平台,进行全面的整合、统计与分析。,国家质检总局,质检总局的服务依托云服务平台(SMAS),从媒体调性、平台分布、网民意见、趋势发展等多种角度进行解析,结合系统的自动分析与分析团队的整合,最终以专题报
13、告的方式,第一时间呈现,为质检总局在公共服务的决策提供重要参考。,国家药监局,2012年4月15日央视曝光的“毒胶囊”事件掀起药品行业的巨大波澜,SMAS运营团队对该事件进行了长时间的跟踪与分析,并用一系列的数据、图表和报告捕获了网络数据里的真相与民意。,国家药监局,关键人物,传播趋势,主流观点,关键地区,SMAS分析团队连续30天跟踪毒胶囊事件,从整体传播趋势、观点、人物、地区等视角,还原了这起颇具影响力的公共事件。,-毒胶囊事件-,北京市环保局PM2.5分析,报 道 量 排 行,高,低,两会代表委员热议PM2.5 “京V”排放标准首规定PM限值,珠三角成首个公布PM2.5城市群 珠三角PM
14、2.5严重超标 环保局回应PM2.5数据质疑,借助数据中心的大数据与云服务平台,从区域分布的角度对PM2.5的相关信息进行归类,进行全面的整合、统计与分析,得到上图分析内容。,北京市环保局PM2.5分析,PM2.5均匀分布, 监测点为何 不均匀分布?,PM2.5监测不能 背离公众感受,PM2.5监测, 关键词是“真实”,20亿元清单, 能否换来清新?,微博TOP10意见领袖排行,作家,通过SMAS平台的抽样分析,提取网民热点话题内容,得到TOP10意见领袖排行。对意见领袖的代表性微博进行传播链分析,可知“意见领袖”巨大的传播影响力。,第一层,第二层,第三层,第四层,第五层,第六层,传播了712次 占转发数百分比:54.39%,传播了432次 占转发数百分比:33.00%,博主自身的二次转发,北京市环保局PM2.5分析,气象舆情监测,日本 核辐射,极端天气频发,有多少是人为之祸?公众对气象部门的气象服务有了全新的期待。,依托数据中心与云服务平台,xxx运营团队还原热点气象事件引发的网络舆情,总结气象部门应对气象危机的得失,为气象部门开拓气象服务新领
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公司融资管理办法试行
- 公司车辆处罚管理办法
- 公司工程软件管理办法
- 公职律师管理办法湖南
- 典当管理办法实施日期
- 关于垃圾电厂管理办法
- 信访热线管理办法规定
- 办公场所施工管理办法
- 入库检验考核管理办法
- 创新改革战略管理办法
- 2025年法院聘用书记员考试试题(附答案)
- 2025年济南综保控股集团有限公司公开招聘(22名)笔试备考试题含答案详解
- 溺水安全知识课件
- 教育政策学全套课件
- 2025至2030年中国高速公路广告行业市场行情监测及投资前景展望报告
- 2025-2030中国氢能产业发展现状及商业化应用前景报告
- 识别心内科护理高风险
- 2025年 嘉峪关市招聘编制外聘用制教师笔试试卷附答案
- 货代公司风险管理制度
- 食品公司卫生间管理制度
- 2025年数据挖掘和分析考试试卷及答案
评论
0/150
提交评论