




已阅读5页,还剩108页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
新华网内容管理系统设计 书 新华网三期项目系统设计书 第 2 页 共 113 页 文档修订记录文档修订记录 版本版本 编号编号 说明:如形成文件、变说明:如形成文件、变 更内容和变更范围更内容和变更范围 日期日期执行人执行人批准日期批准日期批准人批准人 新华网三期项目系统设计书 第 3 页 共 113 页 文档审阅确认纪录 领导小组成员领导小组成员 甲方甲方 日期日期 总包方总包方 日期日期 监理方监理方 日期日期 乙方乙方 日期日期 项目经理项目经理 甲方甲方 日期日期 总包方总包方日期日期 监理方监理方日期日期 乙方乙方 日期日期 新华网三期项目系统设计书 第 4 页 共 113 页 目录目录 新华网内容管理系统设计书新华网内容管理系统设计书1 第第 1 章章.文档介绍文档介绍9 1.1文档目的文档目的9 1.2文档范围文档范围9 1.3参考文献参考文献9 1.4术语与缩写解释术语与缩写解释9 第第 2 章章.系统概述系统概述11 第第 3 章章.设计约束设计约束12 3.1遵循的标准或规范遵循的标准或规范12 3.1.1.J2EE 标准12 3.1.2.XML 标准12 3.1.3.工作流标准13 3.1.4.UNICODE14 3.1.5.WEB 服务15 3.1.6.XINHUAML 标准15 3.1.7.CNML 标准16 3.1.8.中文新闻信息分类标准16 3.2软件、硬件环境软件、硬件环境17 3.2.1.硬件环境17 3.2.2.软件环境17 3.3软件质量约束软件质量约束17 第第 4 章章.设计策略设计策略18 4.1扩展策略扩展策略18 4.2复用策略复用策略18 4.3折衷策略折衷策略19 第第 5 章章.系统总体结构系统总体结构20 5.1系统结构系统结构20 5.1.1.系统技术架构20 5.1.2.物理部署20 5.1.3.系统数据分布23 新华网三期项目系统设计书 第 5 页 共 113 页 .数据量估算23 .数据划分24 5.1.4.软件部署26 5.1.5.系统总体结构26 5.2关键技术与算法关键技术与算法29 5.2.1.工作流技术29 5.2.2.可视化 XML 编辑技术+修改痕迹技术29 5.2.3.可视化模版编辑技术29 5.2.4.自动发布技术+信息片发布技术29 5.2.5.多语种技术30 5.2.6.WEBSERVICE30 5.2.7.碎片文件30 第第 6 章章.系统单元设计系统单元设计31 6.1系统单元划分系统单元划分31 6.2内容采集系统内容采集系统33 6.2.1.结构图33 6.2.2.模块单元设计34 .稿源管理34 .模板管理34 .规则管理34 .系统配置34 .采集引擎35 .智能处理接口35 .WebService 接口36 6.3内容管理系统内容管理系统36 6.3.1.结构图37 6.3.2.模块单元划分37 6.3.3.系统管理37 .结构图37 .模块单元划分38 .部门管理38 .用户管理38 .角色管理39 .权限管理40 .站点管理41 .发布策略管理42 .存储策略管理43 0.系统监控44 1.日志管理48 2.归档管理48 6.3.4.内容制作49 .结构图49 新华网三期项目系统设计书 第 6 页 共 113 页 .模块单元划分49 .源稿库50 .编辑库52 .签发库54 .发布库56 .资料库57 .成品库58 .编辑器58 0.专题管理61 1.数字报管理63 6.3.5.内容组织65 .模块单元划分65 .稿件类型管理65 .页面树管理65 .网站结构管理66 .发布栏目管理67 .模板管理69 .站点共享管理71 6.3.6.审批流程72 .一般工作审批72 .工作流审批73 6.3.7.辅助模块75 .统计分析75 .个性化工作台76 .词表管理77 .静态页面上传77 6.4发布系统发布系统78 6.4.1.结构图79 6.4.2.模块单元划分79 6.4.3.参数配置79 6.4.4.消息接收79 6.4.5.任务队列80 6.4.6.任务解析80 6.4.7.组件解释80 6.4.8.页面合成80 6.4.9.文件生成81 6.4.10.动态负载均衡81 6.4.11.碎片文件生成81 6.4.12.外联文件缓存81 6.5分发系统分发系统82 6.5.1.分层结构图82 6.5.2.模块单元划分83 6.5.3.SENDER83 6.5.4.RECEIVER83 新华网三期项目系统设计书 第 7 页 共 113 页 6.6客户端平台客户端平台84 6.6.1.系统总体结构图84 6.6.2.客户端平台总体结构图85 6.6.3.平台总体设计85 .组件流设计85 .界面集成总体设计86 .事件总体设计88 .工作单元 WorkItem 的设计89 .界面布局工作台的设计91 .内容管理插件结构图92 .内容管理插件发稿用例92 .内容管理插件总体设计94 6.6.4.内容管理插件结构图95 .内容管理插件发稿用例95 .内容管理插件总体设计96 6.6.5.直播插件结构图97 .直播插件活动图分析97 .直播总体设计98 6.6.6.搜索插件结构图99 6.6.7.博客插件结构图100 6.7远程发稿模块远程发稿模块100 6.7.1.分层结构图101 6.7.2.模块单元划分101 6.7.3.远程发稿模块101 6.8直播系统直播系统101 6.8.1.分层结构图102 6.8.2.模块单元划分102 6.8.3.直播内容发布、分发103 6.8.4.直播服务103 6.8.5.直播客户端103 第第 7 章章.外部接口外部接口104 7.1用户接口用户接口104 7.1.1.平台界面框架104 7.1.2.界面布局原则104 7.2其它外部接口其它外部接口105 7.2.1.采集入库接口105 7.2.2.检索系统接口105 7.2.3.智能处理接口105 7.2.4.新华网多媒体发布系统接口105 7.2.5.新华社多媒体库105 7.2.6.广告接口106 7.2.7.短信发布接口106 新华网三期项目系统设计书 第 8 页 共 113 页 7.3内部接口内部接口106 新华网三期项目系统设计书 第 9 页 共 113 页 第第 1 章章.文档介绍文档介绍 1.1 文档目的文档目的 本文档用于描述新华网内容管理系统的总体设计框架。本文档的预期读者是项目经理、 系统分析员、系统设计人员、软件开发工程师、软件测试工程师。 作为总体设计方案,本文档用于指导整个新华网内容管理系统项目,方正公司项目组 的开发进程,并作为详细设计的输入文档,指导项目的详细设计和开发工作。 本文档同项目需求文档一起,构成项目测试方案的输入文档,以此为依据形成项目的 测试方案。 1.2 文档范围文档范围 本文档包含:新华网内容管理系统总体结构设计图及对应的描述,系统各个单元模块 的概要设计方案,本系统与外部系统的接口设计。 1.3 参考文献参考文献 【1】 新华网内容管理系统招标文件 1.4 术语与缩写解释术语与缩写解释 缩写、术语缩写、术语解解 释释 模板系统用于指定网页呈现样式的部件,使用 Dreamweaver 制作的 HTML 文件。 组件系统定义的可以放入模板的部件 栏目系统在内部组织稿件用的节点结构,通常以栏目树方式呈现 编辑器供编辑进行可视化编辑操作的系统工具,提供类似 WORD 的编辑功能, 可以将结果保存为 XML 格式文档 专题用于表现一组特定内容的网页集合,通过系统提供的专题管理可以 方便进行管理操作 新华网三期项目系统设计书 第 10 页 共 113 页 信息片根据组件的参数生成实际网页的数据片断 页面树对网站页面按树状进行管理 Html 碎片发布程序对组件解析结果进行文件缓存 存储策略指定功能模块的数据库连接信息 发布策略对发布资源进行分组管理,并能对资源进行调配 新华网三期项目系统设计书 第 11 页 共 113 页 第第 2 章章.系统概述系统概述 内容管理系统项目要求定制开发一套能够满足新华网未来发展需要的新一代内容 管理系统软件,购置与扩充所需的服务器硬件与网络设备,建立新华网总网、地方频 道、社办报刊频道、网群、短信等于一体的多站点内容加工与发布平台,统一总网、 地方频道及网群等站点间的信息资源,实现新华网图片、文字信息、多媒体、短信等 多种信息和多语种信息的采集、编辑以及发布,提供统一、规范的可扩展操作平台, 实现内容的快速、灵活发布。 图图 新华网内容管理系统体系结构新华网内容管理系统体系结构 如图所示,新华网内容管理系统可以划分成: 内容采集系统 内容管理系统 客户端平台 发布系统 分发系统 远程发稿模块 直播系统 新华网三期项目系统设计书 第 12 页 共 113 页 第第 3 章章.设计约束设计约束 3.1 遵循的标准或规范遵循的标准或规范 3.1.1. J2EE 标准标准 Java 企业级计算平台,Java 2 平台企业版2(Java 2 platform Enterprise Edition,J2EE)实质上是一个分布式的服务器应用程序设计环境,它提供了基于组件的,以 服务器为中心的多层应用体系结构,为企业应用系统提供了一个具有高度的可移植性和兼 容性、安全的平台。J2EE 的多层体系结构的设计特点极大的简化了开发、配置和维护企业 应用的过程,它最大的优点就在于将企业的业务逻辑同系统服务和用户接口分开,放在它们 之间的中间层。它提供了一系列的底层服务,如事务管理、缓冲池等,使得开发者能够将 精力集中于企业的业务逻辑,而无需过多的关心与业务逻辑不太相干的系统环境等。由于 采用多层结构,系统中同时会有多台服务器在工作,这样不仅能提高系统的整体运行效率, 而且一旦某一台服务器出现故障,应用程序会自动转移到另一台服务器上接着运行,这就 有效的保障了系统整体运行的可靠性。 3.1.2. XML 标准标准 WorldWideWebConsortium(W3C)对 XML 进行了如下描述: “ExtensibleMarkupLanguage,缩写为 XML,描述了一类被称为 XML 文档的数据对象,并 部分描述了处理它们的计算机程序的行为。XML 是 SGML(StandardGeneralizedMarkupLanguageISO8879)的一个应用实例或一种受限形式。 从结构上说,XML 文档顺从 SGML 文档标准。“ 与 HTML 一样,XML 也是一个基于文本的标记语言,用标记(一对尖括号)来表示数 据。不同的是,XML 的标记说明了数据的含义,而不是如何显示它。 XML 的标记由一对尖括号组成,在它们之间是 XML 数据的一个元素。一个元素可以 完全包含在另一个元素之中,这样就可以表示层次结构。XML 与 HTML 的一个重大区别就 是 XML 文档必须是格式良好的,它必须满足几条规则,如标记不能交错嵌套等。如果没有 新华网三期项目系统设计书 第 13 页 共 113 页 DTD(DocumentTypeDefinition,文档类型定义) ,文档可以包含任何类型的标记。但如果 XML 文档有相应的 DTD,那么它还需满足语义限制。DTD 规定在 XML 文档中可以包含的 标记种类和有效布置。只有其结构、数据类型和数据关联等均满足 DTD 要求的 XML 文档, 才能被称为有效的 XML 文档。 XML 文档由一个个存储单元组成,这些单元称为实体,包括解析数据(parseddata) 和未解析数据(unparseddata) 。 解析数据由字符组成,其中一些形成字符数据,另一些形成标记。标记是对了文档存 储格式和逻辑结构的描述。在形式上,标记有以下各种可能项:注释、引用、字符数据段、 起始标记、结束标记、空元素、文档类型声明(DTD)和序言。 每个 XML 文档都有一个逻辑结构和物理结构。从物理角度来看,文档由实体单元组成, 一个实体也可以在其他文档的实体中被引用。一个文档以一个根元素或文档实体来开始。 从逻辑上讲,文档由声明(declaration) 、元素(element) 、注释(comment) 、字符引用 (characterreference)和处理说明(processinginstruction)组成。这些组成部分在文档的 标记中必须明确规定。 物理结构从另一角度来规范 XML 文档。文档的起始标记和结束标记对数据进行结构化 组织,并确定了元素的范围和相互之间的关系。 XML 对格式的定义更为严格,并具有层次结构,处理起来更加容易。它是与厂商无关 的标准,可以任选一个解析器来处理。 XML 在采用简单、柔性的标准化格式表达和在应用间交换数据方面迈出了一大步。 HTML 提供了查看数据的通用方法;XML 则提供了直接在数据上工作的通用方法。XML 的 威力在于将用户界面和结构化数据相分离,允许不同来源数据的无缝集成和对同一数据的 多种处理。从数据描述语言的角度看,XML 是灵活的、可扩展的、有良好的结构和约束; 从数据处理的角度看,它足够简单且易于阅读,几乎和 HTML 一样易于学习,同时又易于 被应用程序处理,因此,XML 必将带来下一代网络应用技术的革命。 3.1.3. 工作流标准工作流标准 为了实现组织目标,有关业务活动依时序或逻辑关系相互连接构成业务流程。在业务 开展过程中,文档、信息或任务,依据组织规范在参与者之间传递、处理或执行。业务流 新华网三期项目系统设计书 第 14 页 共 113 页 程中,实现了基于计算机自动化的全部或部分称为工作流。 工作流管理系统(WorkflowManagementSystem,WFMS)是定义、创建、执行工作流 的系统。在最高层上,WFMS 应能提供以下三个方面的功能支持: 建造功能:对工作流过程及其组成活动定义和建模; 运行控制功能:在运行环境中管理工作流过程,对工作流过程中的活动进行调度; 运行交互功能:指在工作流运行中,WFMS 与用户(业务工作的参与者或控制者) 及外部应用程序工具交互的功能。 3.1.4. UNICODE 基本上,计算机只是处理数字。它们指定一个数字,来储存字母或其他字符。在创造 Unicode 之前,有数百种指定这些数字的编码系统。没有一个编码可以包含足够的字符: 例如,单单欧州共同体就需要好几种不同的编码来包括所有的语言。即使是单一种语言, 例如英语,也没有哪一个编码可以适用于所有的字母,标点符号,和常用的技术符号。 这些编码系统也会互相冲突。也就是说,两种编码可能使用相同的数字代表两个不同 的字符,或使用不同的数字代表相同的字符。任何一台特定的计算机(特别是服务器)都需 要支持许多不同的编码,但是,不论什么时候数据通过不同的编码或平台之间,那些数据 总会有损坏的危险。 Unicode 给每个字符提供了一个唯一的数字,不论是什么平台,不论是什么程序,不 论什么语言。Unicode 标准已经被这些工业界的领导们所采用,例如:Apple, HP, IBM, JustSystem, Microsoft, Oracle, SAP, Sun, Sybase, Unisys 和其它许多公司。最新的标准都需要 Unicode,例如 XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML 等等,并且, Unicode 是实现 ISO/IEC 10646 的正规方式。许多操作系统,所有最新的浏览器和许多其 他产品都支持它。Unicode 标准的出现和支持它工具的存在,是近来全球软件技术最重要 的发展趋势。 将 Unicode 与客户服务器或多层应用程序和网站结合,比使用传统字符集节省费用。 Unicode 使单一软件产品或单一网站能够贯穿多个平台,语言和国家,而不需要重建。它 可将数据传输到许多不同的系统,而无损坏。 新华网三期项目系统设计书 第 15 页 共 113 页 3.1.5. WEB 服务服务 Web Service 是一种新的 Web 应用,是自包含、自描述、模块化的应用,是基于网络 的、分布式的模块化组件。实现系统的各部分(模块)之间的通讯和整合,将相对分散的 子系统组成一个统一的整体;实现子系统间的功能控制和信息交互与共享。 Web Service 是一种动态的集成方案,所有的服务都可以通过 UDDI 标准动态地被发现、 绑定和使用,容易适应系统的变动,提高系统的灵活性和伸缩性。 Web 服务系列技术是架构在在 XML 技术基础上的网格计算技术,其体系架构与 Web 应用的 N 层架构是类似的,不同点在于最上层的面向浏览器的 Web Server 被面向程序 (Web Service Client)的 Web 服务所取代。而使用 Web 服务的程序可以是桌面应用程序, 同样也可以是另一个 Web 服务。 在本系统中,我们将采用 J2EE 作为 Web 服务应用平台。J2EE 是一种利用 Java 2 平台 来简化诸多与多级企业解决方案的开发、部署和管理相关的复杂问题的体系结构。J2EE 技 术的基础就是核心 Java 平台或 Java 2 平台的标准版,J2EE 不仅巩固了标准版中的许多优 点,例如“编写一次、到处运行”的特性、方便存取数据库的 JDBC API、CORBA 技术以及能 够在 Internet 应用中保护数据的安全模式等等。 3.1.6. XinhuaML 标准标准 XinhuaML 是由新华社新闻信息标准研究项目组制定的内部数据交换标准,它是以 XML 技术为基础,借鉴了 NewsML 等国内外相关技术标准的经验,考虑了国内媒体的普遍 情况,结合新华社的具体业务要求和实际情况,研制的适合新华社业务的内部数据交换标 准,是联系新华社新闻业务流程“采集、编辑、生成、发布、供稿、表现、反馈”各个环 节的纽带。XinhuaML 经过一年的研制工作,于 2003 年 3 月完成制定,目前已在新华社的 各个新建技术项目中得到了广泛的应用。 内容管理系统实现 XinhuaML 标准,支持数据按 XinhuaML 标准导入和导出,实现与 社内各系统间数据传输的应用统一,要求系统采用 XinhuaML 稿件格式进行导入、导出或 传输,以满足数据规范要求。 新华网三期项目系统设计书 第 16 页 共 113 页 3.1.7. CNML 标准标准 中文新闻信息置标语言标准是用于新闻信息创建、采集、加工、发布、评估反馈各个 生命周期中使用的与国际接轨、又有中国特色的多媒体新闻信息元数据规范。该技术标准 采用了 XML 和 RDF 技术,支持文字、图片、图形、音频、视频等多种媒体类型以及多媒 体混合的新闻信息的描述,支持对新闻信息间关系和语义的描述,为新闻信息的自动解释、 交换和处理等新业务的发展留有余地。该标准具有良好的扩展性和实用性,可用于多媒体 新闻信息在通讯社、报社、广播、电视台、网站以及新闻信息用户之间进行交换和共享。 内容管理系统可以将符合规范的稿件直接输出为 CNML 的格式,实现与社内系统和其 他系统基于 CNML 的数据交换。 3.1.8. 中文新闻信息分类标准中文新闻信息分类标准 中文新闻信息分类是用于标准化、规范化的对信息信息进行分类,以便实现新闻行业 之间、新闻行业和广大用户之间的新闻信息交换、存储、处理和共享。实现新闻信息分类 体系的统一和规范,是中文新闻信息标准化的重要组成部分。与中文新闻信息分类对应的 中文新闻信息分类与代码国家标准有利于进一步开发和整合全社会的中文新闻信息资源; 不仅为新闻信息分类工作人员提供分类标引的依据,也为实现中文新闻信息分类自动化打 下一个可靠的基础。 内容管理系统提供按中文新闻信息分类标准对稿件信息进行分类,系统内的每条稿件 信息都有一个相应新闻信息分类与之相对应,实现信息分类的标准化和统一化。 新华网三期项目系统设计书 第 17 页 共 113 页 3.2 软件、硬件环境软件、硬件环境 3.2.1. 硬件环境硬件环境 数据库服务器:Sun Fire V890 6 应用服务器:Sun Fire T2000 6 发布服务器:Dell 6850 6 分发服务器:Dell 2950 6 静态资源服务器:Dell 2950 2 直播服务器:Dell 2950 2 3.2.2. 软件环境软件环境 内容管理系统数据库:Oracle 10g 内容管理系统应用服务器:BEA WebLogic 9.2 JDK5.0 Oracle 以分组、分 RAC 方式部署,WebLogic 以负载均衡、Cluster 方式部署。 3.3 软件质量约束软件质量约束 项目实际进度与合同偏差度不超过 20 新华网三期项目系统设计书 第 18 页 共 113 页 第第 4 章章.设计策略设计策略 4.1 扩展策略扩展策略 根据新华网内容管理系统项目需要,结合 CMS 系统设计人员,以内容编辑的需求为发 展战略,制定扩展策略如下: XML 信息片的发布方式; CMS 系统的发布子系统,发布数据采用基于 XML 的信息片文件描述,在生成服务 器上进行信息片文件生成。基于 XML 的信息片的发布方式,为将来扩展多介质、多展 现形式的的扩展策略提供了数据基础。 WebService 的 Server 端程序设计; 在内容管理系统中,提供所有业务逻辑处理功能的标准 WebService 接口,允许 第三方厂商调用,为将来扩展客户端、扩展外围系统提供了基础。 基于对象的内容管理子系统; 系统采用基于网站对象的内容管理子系统,能够定制对象属性、定制对象的存储 方式与存储策略,为将来系统对象的再次利用提供了扩展策略。 4.2 复用策略复用策略 根据新华网内容管理系统项目需要,结合 CMS 系统设计人员,以内容编辑的需求为发 展战略,制定复用策略如下: XML 编辑器; 在 CMS 系统中,将采用全新设计的 XML 编辑器作为页面编辑工具,XML 编辑器 基于 XML 内核设计,除了完成页面对象的编辑之外,还具备了为其他功能复用的基础。 编辑器采用插件机制,为将来扩展编辑器功能提供基础。 内容组件设计; 在 CMS 系统中,采用了基本组件和内容组件的设计方式,经过基本组件编辑而成 新华网三期项目系统设计书 第 19 页 共 113 页 的内容组件,在系统中可以被别的编辑进行复用。 4.3 折衷策略折衷策略 项目进度要求非常进展,所以在各模块的设计开发中应尽量考虑使用成熟的技术以保 证降低风险,保证进度。另外,在设计的时候应该尽量减少编码过程中产生关键路径,以 便保证能够让多人投入并行开发。 新华网三期项目系统设计书 第 20 页 共 113 页 第第 5 章章.系统总体结构系统总体结构 5.1 系统结构系统结构 新华网内容管理系统(CMS) ,将采用 C/S+B/S 体系结构,系统中间件平台采用 WebLogic,数据库服务采用 Oracle 数据库。 5.1.1. 系统技术架构系统技术架构 在新华网内容管理系统中,系统将将采用 C/S+B/S 体系结构,C/S 采用客户端平台与 Server 端 WebService 通讯,完成业务流程所需功能,由内容管理系统负责封装成 WebService,客户端不做过多的业务逻辑处理;B/S 采用传统的方式,由浏览器访问 JspServlet 来完成业务流程处理。基于 B/S 和 C/S 架构中都采用分层结构设计,系统的 分层结构示意图如下: 图图 新华网内容管理系统技术架构图新华网内容管理系统技术架构图 新华网三期项目系统设计书 第 21 页 共 113 页 5.1.2. 物理部署物理部署 系统的物理部署示意图如下: 图图 新华网内容管理系统物理部署图新华网内容管理系统物理部署图 图中分为应用数据区和前端服务区要使用的服务器;系统存在接口的其他系统的服务 器位置。 应用应用服务器服务器OS平台软件平台软件应用部署软件应用部署软件 新华网三期项目系统设计书 第 22 页 共 113 页 内容管理应用内容管理应用 WebLogic 负载 平衡 文件存储共用文 件 NAS 内容管理应用 Sun T20006 SUN Solaris10WebLogic 9.2 JDK 1.5 1、核心编辑子 系统 2、内容管理系 统 通过 WebLogic 的连接池连接内 容管理数据库 3、数据采集接 口 WebService,数 据采集的后台程 序 4、归档后台运 行程序 静态资源服务器静态资源服务器 双机、负载均衡 应用程序静态资 源服务 Dell29502 Red Hat Linux Enterprise v4 Apache21、与内容管理 应用服务器 能通过 NAS 文件共享。 2、为内容管理 应用提供静 态资源访问。 新华网三期项目系统设计书 第 23 页 共 113 页 内容管理数据库内容管理数据库 Oracle 部署为 RAC 方式 Sun V8906 SUN Solaris10Oracle 10g1、在 Oracle 内 部运行 JOB 用来做工作 量统计数据 汇总 2、在 Oracle 内 部运行 JOB 用来做全文 检索的更新 (包含 Author 和 KeyWord) 生成发布生成发布 多服务器、程序 动态负载均衡 生成发布 Dell68506 Red Hat Linux Enterprise v4 JDK 1.51、网页生成程 序 Publishd,通 过自定义连接池 访问数据库。 页面分发页面分发 多服务器、动态 负载均衡 页面分发 Dell29506 Red Hat Linux Enterprise v4 JDK 1.51、与生成发布 服务器共享 NAS 存储区 域 2、通过 Ftp 和 Socket 方式 把生成页面 传送出去 5.1.3. 系统数据分布系统数据分布 .数据量估算数据量估算 1、 源稿库 存储时长存储时长稿件条数稿件条数稿件数据量稿件数据量无图片量无图片量 新华网三期项目系统设计书 第 24 页 共 113 页 1 个月3.3(万条)9.6(G)380(M) 3 个月10(万条)29(G)1.1(G) 半年200(万条)58(G)2.3(G) 1 年400(万条)117(G)4.6(G) 如果按归档规则为保存半年来计算,需要的存储量为 2.3G。 2、 编辑库 根据目前多站点系统中的基础数据计算 数据指标数据指标数据值数据值 稿件量2.3(万条) 人数413(人) 平均稿量56(稿件/人) 目前所有系统使用人员950(人) 预计人员增长到2.4(千人) 据此计算存储情况,需要存储量为:9.8G。 3、 签发库 发布稿件条发布稿件条 数数 发布图片量发布图片量 ( (张张) ) 发布图片数据发布图片数据 量量(K)(K) 稿件正文量稿件正文量 (K)(K) 稿签量稿签量(K)(K)稿件图文总量稿件图文总量 (K)(K) 1 1 天天 30,00055,7901,952,66046,9735,758.852,005,392 1 1 月月 900,0001,673,70958,579,8081,409,201172,765.4460,161,774 1 1 年年 10,950,00020,363,457712,720,99117,145,2742,101,979.54731,968,244731,968,244 3 3 年年 32,850,00061,090,3712,138,162,97451,435,8216,305,938.612,195,904,733 5 5 年年 54,750,000101,817,2843,563,604,95785,726,36810,509,897.683,659,841,222 如果签发库归档规则平均按 1 年来计算,则签发库要保存的图文总量在 732G。如 果将数据控制在百万级以内,则存储需要大概 350G。 4、 发布库 发布库的记录数基本与签发库的记录数一致。只是对于存储在数据中的图片,发 布库与签发库共用一份,因此发布库的数据量,一年总量在 2G。 5、 成品库 成品库中保存的是发向新华社多媒体数据的稿件,目前每天送稿量是 200,如果此 数据比较平稳,不考虑突发增长量的情况如下 稿件数稿件数 稿件量稿件量(K)(K) 1 1 天天 20020,064 1 1 月月 6,000601,924 3 3 月月 18,0001,805,771 半年半年 36,0003,611,541 1 1 年年 73,0007,323,403 按归档规则保存半年的数据存储量是 7.3G。 6、 资料库 资料库中主要保存的是系统中归档的数据,也按每天 1 万条稿件计算,情况如下 稿件数稿件数 稿件量稿件量(K)(K) 新华网三期项目系统设计书 第 25 页 共 113 页 1 1 天天 30,0003,009,618 1 1 月月 900,00090,288,532 3 3 月月 2,700,000270,865,595 半年半年 5,400,000541,731,190 1 1 年年 10,950,0001,098,510,468 按归档规则保存半年的数据,存储量是 542G。 7、 系统日志 根据目前多站点系统的日志情况计算: 日志记录数日志记录数 日志量日志量(K)(K) 1 1 天天 80,30040,150 1 1 月月 2,409,0131,204,506 3 3 月月 7,227,0383,613,519 半年半年 14,454,0757,227,038 1 1 年年 29,309,65214,654,82614,654,826 2 2 年年 58,619,30529,309,652 3 3 年年 87,928,95743,964,479 如果日志归档规则按保存一年的情况来计算,需要存储量 14G。 .数据划分数据划分 根据总体设计,数据存储应用的划分如下 新华网三期项目系统设计书 第 26 页 共 113 页 1、 稿源库、编辑库使用数据存储单元:RAC1、RAC3,总数据存储量为 (2.39.8350)362.1G,平均每单元存储量为6G。 a)注:新华社图片稿件的图片存储在应用服务器的 NAS 上面,每半年占据 55G 数据存储空间,由归档模块负责清理 2、 日志、用户、栏目、成品库、资料库等其他数据使用存储单元:RAC2,总数据量 为(7.354214)563G。 3、 签发库、发布库总共需要的存储量大概是 123G 5.1.4. 软件部署软件部署 5.1.5. 系统总体结构系统总体结构 经过认真分析与讨论,我们制定如下的内容管理系统总体结构,系统总体结构图的模 块划分如下所示。 新华网三期项目系统设计书 第 27 页 共 113 页 图图 新华网内容管理系统总体结构新华网内容管理系统总体结构 通过对用户需求的细致分析,经过公司专家组成员的建议与评审,我们设计的内容管 理系统包含如下的功能模块。 内容采集系统内容采集系统 内容采集模块,是系统的批量资料导入接口,在内容采集模块中,提供了标准的 JavaAPI 和 WebService 接口(包含 XML 文件接口) ,供第三方厂商调用,提过直接调 用这两种形式的接口,可以直接把信息推送到内容管理系统中。 比如:TRS 系统,通过内容采集模块的 WebService 接口的调用,便可以把抓取到 的页面内容载入到内容管理系统中,以便内容管理系统的内容编辑继续完成下一步的 发布工作。 也可以通过文件共享方式,定时扫描指定目录,把其他外接口系统提供的数据文 件解析成内容管理系统数据进行入库。 比如:新华社电稿文件都放在某一个共享目录中,内容采集系统的轮询引擎监控 目录中文件变化情况,对新增的文件进行入库操作。 内容管理系统内容管理系统 内容管理模块是网站 CMS 系统的核心分布式存储模块,完成 CMS 系统得成品资 料、背景资料以及其它的需要存储管理的资料的存储和管理工作。 在内容管理模块中,系统提供了对于数据资料的分库存储管理,按照资料属性的 不同的文档文件夹管理,多种分类方式的分类管理,元数据定义等功能,实现了网站 内容的海量存储。 发布系统发布系统 新华网三期项目系统设计书 第 28 页 共 113 页 发布系统完成内容管理系统中数据到页面的发布的工作,系统依据内容管理系统 模版管理、组件管理、栏目管理、发布树管理等功能,很好地完成了基于 XML 信息片 的实时和定时合成和页面生成工作。 分发系统分发系统 把发布系统生成的静态页面、关联图片、js 文件、css 文件等生成结果安装指定的 规则发送出去,在发送的过程中,按照指定逻辑可以对发送的文件进行一些简单的逻 辑处理。 客户端平台客户端平台 提供完整的内容管理系统功能共用户使用。同时该平台上采用插件结构设计,可 以把其他系统功能加入进来,插件可以随时开发自由注册,方便客户端平台的扩展。 远程发稿模块远程发稿模块 为了方便外出人员进行在系统中工作,远程发稿模块通过远程代理的方式,实现 了远程使用系统进行发稿、管稿、发稿等内容管理系统功能。 新华网三期项目系统设计书 第 29 页 共 113 页 5.2 关键技术与算法关键技术与算法 5.2.1. 工作流技术工作流技术 工作流是针对工作中具有固定程序的常规活动而提出的一个概念。通过将工作活动分 解成定义良好的任务、角色、规则和过程来进行执行和监控,达到提高生产组织水平和工 作效率的目的。 工作流引擎是用于定义、实现和管理工作流运行的一套软件系统,它与工作流执行者 (人、应用)交互,推进工作流实例的执行,并监控工作流的运行状态。为了增强适应性, 工作流引擎使用一种技术手段,保证能够由可以自己定义工作流,包括定义任务动作、状 态以及如何组合成一套流程。 5.2.2. 可视化可视化 XML 编辑技术编辑技术+修改痕迹技术修改痕迹技术 内容管理中的稿件,最适合用 XML 表示。对于其内容的编辑,需要用一种可视化的编 写方法,保证所见即所得。同时,需要记录稿件的版本与修改痕迹。 5.2.3. 可视化模版编辑技术可视化模版编辑技术 在常规的可视化编辑页面技术上,允许其中的部分内容用一种“组件”表示,该组件的 实际内容需要结合内容管理中的数据才能完整呈现。在可视化编辑过程中, “组件”可以显示 为一些占位文字,也可以自动根据内容管理中的数据生成。 5.2.4. 自动发布技术自动发布技术+信息片发布技术信息片发布技术 内容管理的内容发生变化后,系统立即找到需要更新的所有最小单位,并将其迅速生 成出来,同过简洁的步骤更新到网站上。 新华网三期项目系统设计书 第 30 页 共 113 页 5.2.5. 多语种技术多语种技术 内容管理系统在一个系统中同时管理多种语言的内容,并且能够正确地在网站上发布 每个语种的内容。 5.2.6.WebService 内容管理系统在对业务逻辑抽象后,封装出标准的 WebService 接口,各平台上的各系 统可以按标准的方式调用,即可实现内容管理系统的某业务功能。 5.2.7. 碎片文件碎片文件 发布系统在完成组件内容解析后,把解析结构缓存成碎片文件。发布系统在生成页面 时对本次发布操作没有影响的区域,采取直接对碎片文件的策略,减少组件解析时间提高 效率。 新华网三期项目系统设计书 第 31 页 共 113 页 第第 6 章章.系统单元设计系统单元设计 6.1 系统单元划分系统单元划分 系统总体结构设计详见 5.1 “系统结构”章节。 新华网内容管理系统总体结构图如图 5.1.3 所示。本处引用如下: 图图 新华网内容管理系统总体结构新华网内容管理系统总体结构 内容采集系统内容采集系统 内容采集模块,是系统的批量资料导入接口,在内容采集模块中,提供了标准的 JavaAPI 和 WebService 接口(包含 XML 文件接口) ,供第三方厂商调用,提过直接调 用这两种形式的接口,可以直接把信息推送到 CMS 系统中。 比如:TRS 系统,通过内容采集模块的 WebService 接口的调用,便可以把抓取到 的页面内容载入到 CMS 系统中,以便 CMS 的内容编辑继续完成下一步的发布工作。 内容管理系统内容管理系统 内容管理模块是网站 CMS 系统的核心分布式存储模块,完成 CMS 系统得成品资 料、背景资料以及其它的需要存储管理的资料的存储和管理工作。 新华网三期项目系统设计书 第 32 页 共 113 页 在内容管理模块中,系统提供了对于数据资料的分库存储管理,按照资料属性的 不同的文档文件夹管理,多种分类方式的分类管理,元数据定义等功能,实现了网站 内容的海量存储。 发布系统发布系统 发布系统完成内容管理系统中数据到页面的发布的工作,系统依据内容管理系统 模版管理、组件管理、栏目管理、发布树管理等功能,很好地完成了基于 XML 信息片 的实时和定时合成和页面生成工作。 分发系统分发系统 把发布系统生成的静态页面、关联图片、js 文件、css 文件等生成结果安装指定的 规则发送出去,在发送的过程中,按照指定逻辑可以对发送的文件进行一些简单的逻 辑处理。 客户端平台客户端平台 提供完整的内容管理系统功能共用户使用。同时该平台上采用插件结构设计,可 以把其他系统功能加入进来,插件可以随时开发自由注册,方便客户端平台的扩展。 远程发稿模块远程发稿模块 为了方便外出人员进行在系统中工作,远程发稿模块通过远程代理的方式,实现了远 程使用系统进行发稿、管稿、发稿等内容管理系统功能。 新华网三期项目系统设计书 第 33 页 共 113 页 6.2 内容采集内容采集系统系统 内容采集系统以无人值守的方式从指定的稿件源上读取稿件数据,并把稿件添加到内 容管理系统的源稿中心。 6.2.1. 结构图结构图 新华网三期项目系统设计书 第 34 页 共 113 页 内容采集系统在执行稿源数据采集时可以由管理用户为稿源数据指定格式模板,也可 为入库引擎指定运行策略,同时对采集到的数据可以做一定的信息过滤和自动校正的处理。 稿件送入内容管理系统前,采集程序需要调用智能处理接口,对稿件的摘要、关键字等稿 签项做一个自动处理。 6.2.2. 模块单元设计模块单元设计 .稿源管理稿源管理 稿源管理包含稿源新增、稿源修改和稿源删除功能。 稿源是用来建立源数据文件和内容管理系统源稿库的关系的。稿源信息包含:源数据 位置、目标站点、稿源模板、稿源采集规则等信息。 新华社电稿、图片库等稿件信息可以通过设置稿源来实现入内容管理系统源稿库,同 时可以通过稿源设置实现 E-mail、短信、彩信等方式的投稿。 .模板管理模板管理 模板设置 模板是用来建立源数据文件与内容管理系统各元数据项直接的映射关系的。通过 在系统中增加模板,使得内容采集系统能对采集数据源进行扩展。 系统预置 CNML、XinHuaML、FounderEnpML 模板。 模板设置包含:模板新增、修改和删除操作。 模板指定 把设置好的采集模板指定到稿源上。 .规则管理规则管理 规则设置 设置采集引擎的工作规则,通过规则对采集引擎的采集内容范围、采集内容方式、 采集内容数量和采集内容大小等进行规范。规则信息中包含:采集文件类型(扩 展名) 、每日工作时间范围、采集数量(条数) 、被处理文件大小、轮询间隔、对 不符合规则数据的处理方式(删除、移到备份、不处理) 。 规则设置包含:规则的增加、修改和删除功能。 规则指定 把设置好的采集规则指定到稿源上。 .系统配置系统配置 配置采集系统工作需要的基本参数,如:数据库连接、采集系统工作目录、备份目录、 临时目录等信息。 新华网三期项目系统设计书 第 35 页 共 113 页 .采集引擎采集引擎 数据扫描 采集系统为每个数据源,在采集引擎中产生一个数据扫描器,数据扫描监控数据 源对应的数据目录,按采集规则规定的各项属性进行数据感知。对符合规则的数 据文件,提交给引擎的数据处理模块进行下一步处理;对不符合规则的数据,通 过规则指定的方式进行处理。数据扫描器以多线程方式工作,线程数可以配置。 数据处理 根据数据源使用的采集模板,对数据扫描提交过来的数据文件进行处理。 1、 建立数据文件中各置标项与内容管理系统元数据项的对应; 2、 根据对应关系结合模板从数据文件中提取各元数据项进行信息提取; 3、 对获取的数据项进行自动信息过滤和校正。过滤和校正的规则可以在采集系 统中管理; 4、 把数据提交到智能处理接口,由处理接口为数据做一些自动智能处理后,把 数据在提交给采集引擎; 5、 采集引擎把数据保存到内容管理系统的源稿库中。 整个采集引擎系统设计采用接口实现,通过配置指定接口的实现类,从而达到以后扩 展和重构引擎功能的目的。 .智能处理接口智能处理接口 自动摘要 把采集的稿件内容通过 WebService 方式提交到智能处理系统,智能处理系统根据 内容返回相应的摘要信息。 自动关键字 把采集的稿件内容通过 WebService 方式提交到智能处理系统,智能处理系统根据 新华网三期项目系统设计书 第 36 页 共 113 页 内容返回相应的关键字信息。 自动分类 把采集的稿件内容通过 WebService 方式提交到智能处理系统,智能处理系统根据 内容返回相应的分类名。 .WebService 接口接口 We bService 接口是采集系统对外提供的服务接口,接口系统可以按内容管理系统规 定格式的 XML 提交数据,有采集系统根据稿源管理中的设置把数据添加到内容管理系统对 应的稿源库中去。 6.3 内容管理系统内容管理系统 新华网三期项目系统设计书 第 37 页 共 113 页 6.3.1. 结构图结构图 图图 内容管理系统结构图内容管理系统结构图 6.3.2. 模块单元划分模块单元划分 在内容管理子系统中首先分为如下几个大的功能块,系统管理、内容制作、内容组织、 审批流程、辅助模块。 其中系统管理包括了归档子模块,归档策略在内容管理系统中设置,归档程序
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 物流服务合作协议书
- 2025年北京市智能手机买卖合同
- 2025年标准个人房屋买卖合同正式版
- 公司财税知识培训方案课件
- 公司组织财务知识培训课件
- 2025授权招生代理合同模板
- 提高科室间转介PDCA课件
- 2025年进出口代理合同范本
- MyBatis面试实战题库:金融、IT、销售等职业面试题
- 求职路上康平社区面试题全攻略
- 建筑工程环境因素识别与评价表资料
- Unit 10 单元作业设计 人教版七年级英语下册
- 人造血管内瘘个案护理
- 全国各省(直辖市、自治区)市(自治州、地区)县(县级市)区名称一览表
- 小学数学知识体系构建研究课题
- 《变电运行培训》课件
- 幼儿发展的关键指标与行为观察
- 班主任工作手册(适合中小学)
- 瑜伽生活方式中心生活馆项目建议书
- 吊装作业票(样本)
- 【新课标】2022版小学数学课标之模拟卷6套
评论
0/150
提交评论