




已阅读5页,还剩23页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国移动科技创新成果推广材料 完成单位:中国移动通信集团广东有限公司广州分公司 成果名称:无线城市采编平台项目 成果研究类别:新产品开发 成果专业类别:管理信息系统 2 果内容及推广价值介绍 一、项目背景和意义 二、技术实现方案 三、技术方案的关键点、难点和创新点 四、成果应用后主要效能分析,与应用前的比较 五、项目推广方式建议 六、项目推广投资和软硬件需求 3 目背景和意义 建设目标:在三网融合大背景下,建设一套统一数据信息采集,并支持多门户泛终端适配展现的能力平台, 把采集和展现能力开放共享给第三方应用和无线城市平台使用。 项目背景:无线城市建立是公司重点工作,落实到系统支撑方面就是落实到系统支撑方面就是搭建 5个稳健的平台体系,包括采编平台、 示平台、适配平台以及管理平台,其中广州承担采编平台的基地建设工作。 采编平台建设作为整个无线城市系统信息发布的核心,是无线城市平台所有原信息的汇聚点及最终提供给用户的信息发布中心。 4 目背景和意义 编平台 采集 爬虫 管理平台 内容提交 审核 展现平台 发布 营管理员 门户编排 门户编辑员 预览 内容适配 内容采编 专业审核 5 目背景和意义 一次录入,多门户 自动化编排 ; 支持图片的自动下载和压缩; 支持内容的 自动适配 。 定义一套基亍业界 标准的接 口 和 接入规范 ; 外部系统遵照规范即可接入能力平台。 各外部系统采集的数据源模型可灵活调整; 对展现 模版可灵活定义 。 平台功能 模块化 ; 今后可提供更多的数据获取方式,简化外部计入系统的数据对接。 智能性 开放性 灵活性 扩张性 6 目背景和意义 采编平台功能介绍 自动爬虫采集 : 通过爬虫抓取网站上的 内容自动适配: 根据手机的分辨率向终端用户展现相应的内容。 内容可视化编排: 支持富媒体的内容的可视化的编排功能。 评论投票: 对内容进行一次评论、投票,可在多种门户上展现。 系统接入登记: 对调用能力的第三方接入系统信息进行登记。 模板管理: 支持一条内容多种展现形式,展现模板可任意扩展。 7 术实现方案 内 容 采 集 和 分 发门 户 引 擎模 板 管 理统 计 报 表内 容 管 理事 件 消 息内 容 编 排内 容 录 入内 容 源 管 理资 源 目 录 管 理敏 感 字 管 理分 发 管 理系 统 管 理C 仓 库 E n t i t 应 用搜 索 服 务事 件 处 理索 引 管 理F T P 采 集 R S S 采 集接 口 同 步 网 站 爬 虫事 件 处 理 内 容 分 发管理门户W e b S e r v i c 子 平 台内 容 源展 现 子 平 台流 媒 体 平 台采 编 平 台下 载 服 务资 源 适 配8 P 2 . 0 + A j a x + R i c h W i d g e t s( 基 于 S p r i n g M V C )S e r v i c e( 业 务 组 件 )W e b S e r v i c eE n t i t y( 实 体 模 型 )H i b e r n a t e + J M S( 访 问 层 )A c e g i( 安 全 控 制 )C M 库资 源 访 问 层数 据 持 久 层业 务 逻 辑 层展 现 层J D K 1 . 5工具库日 志J O B 调 度h t t p 协 议 栈基于 2用分层的技术架构实现 。 视图层使用 倡使用 尽量使用 为管理员提供一个友好高效的管理界面 。 业务逻辑组件封装,包括领域对象管理类和业务服务类,基于 资源访问层:包括对数据库访问和 部系统的 数据持久层:采用 技术实现方案 9 术实现方案 内容模板状态图 超级管理员 内容模板管理 添加内容模板 修改内容模板 发布内容模板 删除内容模板 查询使用内容模板的内容列表 查询内容模板 编辑修改删除待删除已发布发布删除( 自动 ) 删除10 术实现方案 内容源 内容采集 11 术实现方案 【 爬虫采集 】 采编平台在后台提供一个独立的采集模块,通过采集规则配置文件中定义的逻辑进行采集,该配置文件是由用户界面输入参数和 用户启动一个采集任务时,采集模块会读取对应的采集规则配置文件,解析执行对应的采集逻辑,最后生成中间 文件仅采集模块内部使用),生成完成后读取中间 过调用接口的方式将实体保存。 例如 :采集网易新闻,首先配置新闻 ,其次配置需要采集的新闻 此规则是以 配置采集对应新闻某个具体项的规则,如新闻标题“ $”,此规则是按照 中 $是因为系统将 于查询。 。 激情共庆亚运会 20102:46:20 来源 : 广州亚运会官方网站 12 术实现方案 录入内容流程 【 录入内容 】 : 采编平台的操作员在录入内容时,系统会根据其所选择的内容模板,将内容模板中的所有字段动态绘制内容录入界面,在录入内容基本数据后,再将音视频、图片等素材文件上传,保存后,则内容数据录入成功。 【 专业送审 】 : 采编员提交内容进行专业审核,内容审核员对内容进行审核。 【 业务送审 】 : ( 内容分地市进行独立业务送审 ) 当内容审核员对内容进行业务送审时,若此内容的发布区域大于一个,则送审后,采编平台会对每个地市都发送一条内容送审的消息到管理子平台进行业务审核,实现内容分地市的独立业务审核的需求。只要管理子平台对其中一个地市的内容审核通过后,则在采编平台中,此内容就不能再被修改了。管理子平台审核内容通过则采编平台认为此内容相应的所有门户类型和分辨率的文章都审核通过。 13 术实现方案 采编子平台 402095 2404 术实现方案 【 展现页面的输出 】 当终端用户访问栏目下的展现页面时, 展现平台 负责展现页面的输出,展现页面是经过展现模板输出的, 展现模板一般包括页头、页尾、正文部分,如页头部分可以指定插入广告,页面的主体为 $引 用(对采编平台文章 展现平台通过 编平台通过业 务务计算后返回内容详细页面给展现平台,然后展现平台将输出的内容数据及附带格式完整填充到 现页面的正文展示效果仍由展现平台负责。 【 内容详细页面的输出 】 内容详细页面的输出由采编平台负责实现。采编平台只提供展现页面中的正文部分的内容详细页面的输出, 即文章的输出。 采编平台向展现平台提供 的接口 是根据内容的访问 然后填充到展现模板的 访问链接形式如下: ,需要提供门户类型,如果是通过手机客户端访问时,还需要提供 息,采编平台通过 查找机型中找到对应机型的分辨率,根据分辨率找到文章模板,提交业务计 算,再返回相应的内容。 15 术实现方案 超级管理员 敏感字管理 校验规则管理 敏感字规则引擎 校验前内容 校验后文章 操作员在内容录入和内容的专业审核时,可根据系统配置插入敏感字的校验环节。 支持对敏感字的高亮显示,增加敏感字的辅助提示功能:有没敏感字出现,出现 了哪些敏感字列表,出现的次数是多少次。 敏感字过采用 到敏感字则进行高亮显示。 16 术实现方案 文章模板由开发人员在线下使用 后上传到采编平台进行管理,模板在上传时,应该把模板主体文件、样式文件、引用的图片图标等文件压缩成一个 由于手机终端的屏幕分辩率多样性,模板在服务器存储上,采用两层结构存储, /户类型 /分辨率 /模板文件名 h e l l o $ d a t a . n a m e d a t a . n a m e = ” 张 三 ”. . 解 析h e l l o 张 三. . . 业 务 组 件 输 出 的 数 据 模 板 页 面 模 板 引 擎 17 术方案的创新点 本期的采编能力子平台建设过程中我们成功进行了如下技术难点的 攻坚和创新 : 平台技术特点 特点说明 类别 二次开发和对接省事省力 采编能力可开放给各应用系统使用,从而减低应用开发技术门槛和缩短开发周期。 技术难点 攻克 100%运营支撑能力 实现内容多种门户类型和手机终端的展现适配,有力支撑无线城市 内容运营的需求。 技术难点 攻克 内容引用高效节约 强大的爬虫功能,使得可通过自动化手段解决现有信源的快速引入, 也大大减低了人力成本。 技术难点 攻克 图片压缩适配高效实时 根据请求信息对图片实时压缩适配。 技术难点 攻克 强大简洁的内容发布 统一从一个地方录入,即可在 户端三种门户展现。 技术创新 展现对业务 100%支持 通过模版化技术,解决丌同业务对内容展现有丌同的要求,使得展现可灵活动态扩展。 技术创新 支持海量用户访问 通过分布式文件系统 高内容访问响应效率和并发数,支持大规模高效的分布式集群。 技术创新 18 术方案的创新点 图片地址 正文 爬虫内容源 标题 时间 目录 内容模板 执行周期 19 术方案的创新 一次录入,多门户的自动可视化编排 20 术方案的创新 通过模版技术实现多门户展现适配 21 术方案的关键点 门户编排 门户编辑员 展现平台 客户端门户 管理平台 自动提交 草稿 2 专业送审 待审核 3 专业审核通过 待发布 更新状态 已发布 7 4 待发布 已发布 6 8 待发布 业务审核通过 已发布 5 消息通知 采编平台 展现平台 内容审核员 内容采编员 爬虫抓取 内容采编员 9 9 9 1 1 22 术方案的关键点 文章模板引擎 可视化编辑器 客户端门户 0060编排后内容 内容模板引擎 生成录入界面 选择内容模板360003 果应用后主要效能分析,与应用前的比较 编平台累计为无线城市 群系统采集新闻信息 8651条; 无线城市平台累计成功上线新闻条数为 6383条; 采编系统爬虫自动抓取功能累计抓取新闻信息 5606条。 6月广东省采编运营团队手工录入内容 2023条;据 6月份统计, 15人采编运营团队人工录入平均 1天录入 90条,一个月预计录入 2700条;启用采编平台爬虫自动抓取功能,配置 100个爬虫,按每天内容源栏目 30条更新计算,每天可自动抓取 3000条最新内容, 相当于 15人采编运营团队手工录入 1个月的量 。也就是说配置 100个爬虫 一天 自动抓取的信息相当亍 15人采编运营团队 1个月 采集信息的工作量,而且爬虫可配置更多,因此可抓取的内容是无限量的。 24 型 一级指标 二级指标 单位 效能值 计算方法 直接产生 效能 成本节约 人工成本节约 万元 /省 配置 100个爬虫每天自动抓取的内容数量相当于 15人采编运营团队采集 1个月的量15*5000=75000 客户捆绑 纯客户捆绑 个 /省 10000 由于新闻更新实时性和丰富的内容展示,培养一批忠诚客户。 效率提升 人工效率 人天 /省 450 一个人配置爬虫采集内容量相当于一个运营团队手工采集的内容量 15*30=450 观念及工作方式改变 内容无需手工逐条录入,实现内容抓取自动化;内容可视化编辑,所见即所得,预览后发布,保质保量。内容发布流程清晰,提升工作效率。 成果应用后主要效能分析,与应用前的比较 5 广方案和建议 能力基地建设 外部系统接入 采编能力调用 采编平台进化成一个能力基地,丌仅为无线城市的管理平台输出内容, 还可以为各个应用系统提供内容采编的能力 。应用系统可以通过页面 接口戒数据接口的调用方式实现业务集成,内容编排、内容编辑、爬 虫自动抓取内容;还以单点登录的方式登录到能力平台,实现内容模板、 文章模板等系统级的配置管理。 建设采编能力基地,以管理能力和业务能力方式为第三方系统提供服务 26 展区域接入 广东无线城市 省 外 省 内 各省
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025建筑工程承包合同模板大全
- 护理物品管理体系构建
- 结算政策培训体系框架
- 公司交流培训体系构建与实施策略
- 全科医学科护理体系与实务
- 年会新员工发言稿模版
- 工程投标总结模版
- 2025年平凡的世界心得体会模版
- 眶缘骨折的临床护理
- 幼儿园语言教育与活动设计 课件 第三章 幼儿园语言教育活动设计的原理
- 三管感染的预防与控制
- 2025年中医养生茶饮课件
- 2021年上海市高考英语试卷(春考)(解析卷)
- 大数据平台建设及运营合作协议书
- 工程车驾驶员安全培训
- 跨国公司经营与管理课件
- 《水浒传演讲》课件
- 《中国政法大学》课件
- 《汤姆索亚历险记》测试题(含答案)
- MySQL数据库设计与应用知到智慧树章节测试课后答案2024年秋昆明理工大学
- 《“珍牡肾骨胶囊”对维持性血透患者钙磷代谢紊乱的影响》
评论
0/150
提交评论