已阅读5页,还剩30页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
4 摘摘 要要 新闻媒体数据库的开发建设是计算机与互联网技术在新闻传播领域的重要 应用之一,不仅对新闻信息资源进行优化整合,还为新闻传播的研究提供了新的 方法和手段,是社会科学信息化的重要体现。 本文从国内外新闻媒体数据库发展现状出发, 对新闻媒体数据库的定义与特 点进行了讨论。同时,对新闻媒体数据库的分类提出新的标准,并对划分的不同 类型新闻媒体数据库的业务流程和功能特点进行分析。 本文以新闻传播理论与数 据库理论为指导,旨在归纳新闻媒体数据库建设的主要原则、流程及关键技术, 为今后的数据库建设工作提供指导及借鉴意义。 本文具体以三峡工程新闻传播信息库的建设为例,采用软件工程的思想,对 系统的功能、用户、业务流程、数据、界面、性能等方面进行了需求分析;并给 出了系统架构和设计方案,阐述了新闻媒体信息数据库建设实践过程。同时,本 文对三峡工程新闻传播信息库的具体应用以及建设中遇到的问题进行了讨论。 三峡工程新闻传播信息库的建设使三峡工程新闻信息资料的管理更加简便 快捷,大大提高了工作效率;并辅助分析三峡工程的舆论环境及宣传效果,同时 开发新的数据库产品带来经济效益。 然而由于时间与资源的有限, 本文在新闻媒体数据库的发展趋势和应用条件 等方面的研究还存在一些不足,将在今后进行更深入的研究。 关键词:新闻媒体数据库 数据库建设 数据库应用 5 abstract media development and construction of the database is a computer and internet technology in the news media one of the important applications, not only to optimize the integration of news and information resource, but also for the news media and provided a new method and means of information technology for social science important manifestation. in this paper, the development of domestic and foreign news media database, current situation, the definition of news media database with the characteristics discussed. meanwhile, the news media database, the classification proposed new standard, and divided into the different types of news media database, business processes and functions were analyzed. in this paper, communication theories and database theory as a guide to summarize the major news media database construction principles, processes and key technologies, building a database for future guidance and reference. this dissemination of information specific to the three gorges project construction information database, for example, using software engineering, the system, users, business processes, data, interface, performance and other aspects of the needs analysis; and gives the system architecture and design program, described the news media information database construction practice. at the same time, this dissemination of information on the three gorges project specific database applications, and construction problems are discussed. three gorges project construction information database to disseminate information to the three gorges project information management news and information more easily, and greatly improved efficiency; and to assist public opinion environment of the three gorges project and publicity, and database products to develop new economic benefits. however, due to the limited time and resources, this article in the news media database, development trends and application conditions, etc. the study also has some disadvantages in the future, more in-depth research. key words: media database, application of database, construction of database 3 独创性声明独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他 个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集 体, 均已在文中以明确方式标明。 本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:童婷 日期:2010 年 5 月 30 日 学位论文版权使用授权书学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有 权保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和 借阅。 本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保 密 在 年解密后适用本授权书。 不保密 。 (请在以上方框内打 “ ” ) 学位论文作者签名:童婷 指导教师签名:陈少华 日期:2010 年 5 月 30 日 日期:2010 年 5 月 30 日 本论文属于 8 1 绪绪 论论 1.1 选题背景与研究意义选题背景与研究意义 现当代传播技术在新闻传播领域的应用非常广泛,并产生了重大的影响。新 闻媒体数据库的开发建设和应用是重要体现之一。 关于新闻媒体数据库,又称新闻媒体信息库,到目前为止还没有一个比较统 一的概念和定义。同时由于新闻媒体(包括报社、杂志社、广播电台、电视台、 通讯社)主体的多样性,相应开发的数据库管理系统种类繁多,各有特色。对于 新闻媒体数据库本身而言,明确的定义既是其类别划分的基础,也是制定相关技 术、标准、流程、规范的必要前提。 由此,本文对新闻媒体数据库定义如下:新闻媒体数据库是利用数据库技术 开发的,汇集了不同媒体上的众多相关新闻报道和文章,经过数字化处理、特征 提取、分类后形成的新闻报道资料数据库及其管理软件系统,为本地和远程用户 提供新闻宣传方面资料的综合管理、查询检索、统计分析和应用服务。其开发主 体多样化,可以是企业、高校或者政府部门,从而形成不同类别及用途的新闻媒 体数据库。 在新闻宣传管理方面,新闻媒体数据库作为新闻宣传信息化的基础,已经得 到大型企业和机构的重视, 比如中国三峡总公司委托华中科技大学研究和开发的 “三峡工程新闻传播信息库系统”。该数据库一旦建成,将大大改进三峡工程新 闻报道管理和公关宣传的效率和效果,同时,也有利于广大媒体的三峡工程报道 水平,避免低水平重复。 由此可见,新闻媒体数据库在媒体资源管理及当代传播中的地位越来越重 要,作用越来越显著。在新闻传播实践方面,新闻媒体数据库不仅是对新闻信息 资源进行整合、共享和优化配置的先进技术手段和平台,为新闻传播实务和实践 提供了新的平台、业务模式;还是新的新闻信息载体形式以及新闻信息资源增值 服务的手段。在新闻传播研究方面,新闻媒体数据库为新闻传播的研究提供了新 的方法和手段,提高新闻传播研究与技术科学的交叉和融合,拓宽了新闻传播的 研究领域,提高了研究效率和效果,是社会科学信息化的重要体现。 但是,在新闻媒体信息库的开发和应用过程中也存在一些问题,一是缺乏总 体的、行业性的规划,二是重计算机技术应用,轻新闻传播理论的指导,三是缺 乏新闻媒体信息库的系统研究,缺乏理论和方法上的总结。 因此,本文以“三峡工程新闻传播信息库的开发与应用研究”课题为背景, 具体讨论新闻媒体数据库的建设实践及应对问题。 1.2 研究内容与方法研究内容与方法 9 本研究体现了跨学科的交叉特性,所以在研究中借鉴和融合了社会学、新闻 传播学、情报学、软件工程等方面的研究视角和研究方法,并通过技术手段作开 发相关的应用系统模型,提出存在的问题及应对策略。 研究中使用的研究方法主要有: (1)文献分析法。文献研究法主要指搜集、鉴别、整理文献,并通过对文 献的研究,形成对事实科学认识的方法。本文通过文献分析法目前国内外新闻媒 体数据库的发展状况、系统建设应用进行研究与分析,为三峡新闻信息库的建设 时间奠定了理论基础。 (2)实证分析法。实证分析法是通过分析大量案例和相关数据后试图得出 某些结论的一种常见研究方法。 本课题采用的案例分析法和系统建模研究都属于 实证分析范畴。本文通过对已有新闻媒体数据库系统进行分析,总结了不同类型 新闻媒体数据库的功能特点。同时以三峡新闻信息库的建设为案例,具体讨论了 新闻媒体数据库的建设流程以及应注意的问题。 本文的主要研究内容: (1)对新闻媒体数据库的概念、特征及其分类进行较为系统的归纳和探讨 (2)分析研究新闻媒体数据库开发建设的主要原则、步骤以及相关理论和技 术。并以三峡新闻信息库的建设为例,具体阐述了系统建设的流程及设计方案。 (3)分析新闻媒体数据库建设与应用中存在的问题,并提出相应的建议与解 决方法。 10 2 新闻媒体数据库建设原则及相关技术新闻媒体数据库建设原则及相关技术 新闻媒体数据库具有不同于一般数据库的特点, 其开发建设在传统的数据库 相关理论原理的基础上,还应遵循结合新闻信息传播的特点,才能较好地满足新 闻信息资源管理建设的要求。 2.1 新闻媒体信息的特征新闻媒体信息的特征 (1)信息采集量大 由于新闻媒介形态多样、分布广泛,所承载的信息以海量计算,而互联网的 普及又使其传播速度和规模达到前所未有的水平。 目前自动化信息采集系统的开 发建设还处于研究阶段,尚没有完善的功能平台。而规模化信息的采集工作任务 繁杂,在保证信息的完整性和准确性的前提下,单凭人工采集,其工作量将无法 想象。 (2)信息时效性强 新闻媒体信息时效性很强,随着大众传播科技的飞速发展,人们对信息时效 性的需求有增无减。新闻信息必须高效地从大众媒介发出,并得到受众的接收, 否则将失去其价值被新的信息取代。如报业管理系统中,报道信息经过采编系统 到待审、编辑、排版、发布整个流程,最后通过报纸反馈到读者,必须在规定的 出刊时间内完成。 (3)信息专题性强 新闻信息内容之间关联度极高,围绕某一主题往往有大量新闻报道的出现。 同时由于新闻编辑报道的要求,这类新闻信息需要统一按主题组织管理,在数据 库中自动聚类存储。 (4)信息形式多样 新闻媒体信息的复杂性主要体现在内容和载体上:(1)内容方面,新闻信 息除一般的文字报道外,往往还配有丰富的图片、声音和视频信息;报道的新闻 范围包括时事、体育、科教、政策、文艺及广告等各方面信息。(2)载体方面, 主流媒介以传统的报纸、电视为主,而互联网越来越受到关注,此外,近几年来 手机也成为人们接收信息的重要工具。 2.2 新闻媒体数据库开发建设的原则新闻媒体数据库开发建设的原则 2.2.1 实用性原则实用性原则 新闻媒体数据库的建立是为了更好地整合管理新闻信息资源, 使其资源利用 价值最大化。因此,能用、有用、实用和好用是评价新闻媒体数据库建设价值和 意义的最根本原则。在建库时要以实用为原则,经过反复的调研与论证,以确立 11 数据库的结构、规模、功能等。此外,还要充分考虑各种用户的需求,提供个性 便捷的信息服务。 2.2.2 标准化原则标准化原则 为了获得高质量的数据库及可共享的文献资源, 必须在数据库的建设过程中 遵守标准化原则,只有标准化的数据库系统才具有真正的活力。只有采用统一标 准对数据库的网络结构、元数据、信息交换码、数目格式、网络协议技术标准、 等进行规范和约束,才能保证数据库的可靠性、系统性、完整性、兼容性,从而 实现真正意义上的网络资源共享9。 2.2.3 完备性原则完备性原则 由于新闻信息的海量性, 必须要保证数据库所采集的数据基本覆盖所要求范 围的新闻信息。同时,不同文本、图形、声频、数据集和多媒体文献等类型的信 息要避免遗漏和格式的完整。考虑到新闻传播过程中,信息的重复与相似,还要 对信息进行过滤,使选取的新闻信息具有典型性,以降低数据冗余与存储负担。 2.2.4 质量控制原则质量控制原则 新闻媒体数据库建设的整个过程都应该遵循质量控制原则,主要包括:数据 库设计阶段保证系统方案满足功能需求,进行反复验证与完善;数据采集阶段保 证数据的准确性、规范性、完整性与一致性;系统建设阶段保证开发的连续性、 稳定性;后期则要注意数据的实时更新维护,系统安全与性能的管理等。 2.2.5 可扩展性原则可扩展性原则 新闻媒体数据库应具有良好的可扩充性、可缩放性和升级能力,能在不同的 网络平台和设备上正常运行。应建立统一的支撑平台,开发各专项业务处理子系 统,各子系统间相互独立又彼此联系,从而通过多种途径提高媒体资源的价值。 以报业数据库为例,待编稿件数据库、成品稿件数据库(新闻历史资料库)、采 访线索数据库、分类广告传播数据库客户、 (读者)关系数据库共同支撑整个报 业系统的日常业务管理,还可根据需要开发新的应用数据库。此外,新闻媒体 数据库的建设要符合信息化的发展趋势, 采用先进的数据库建设技术和软硬件配 置,符合国内外通用的设计标准。 2.3 新闻媒体数据库建设关键技术分析新闻媒体数据库建设关键技术分析 (1)规模化数据管理技术 新闻媒体数据库内容不断实时更新,因此数据规模庞大且持续增长。面对海 量数据,其管理的关键是将原始数据分类、索引、存储,化无序为有序的同时也 为后续的查询检索与深度分析打下基础。由于媒体种类的不同,数据结构复杂, 12 数据长度差异极大,且大小可变,使数据的组织和存储方法复杂多样。新闻媒体 数据库应针对不同类型的媒体数据采取不同的分类体系、存取方法及索引机制, 以保证数据的完整性与一致性。 (2)多媒体技术 随着信息化技术的发展,新闻信息的表现形式也越来越多样化,如声音、图 像、视频、超文本信息等等。这些非结构化数据信息量大、类型复杂,同时还具 有实时性、交互性和分布性的特点,原有的数据库系统或需调用外部命令函数, 或借助相应程序进行预处理,管理十分不灵活,因此多媒体技术随之引进。然而 多媒体数据量大,在存储与传输过程中将占用大量的空间与时间,因此必须考虑 数据的压缩编码,以维持可承受的数据库规模及存储成本。同时,应开发相应的 基于内容的音频、视频、图像检索技术,以满足用户对多媒体信息查询、浏览、 下载的不同需求。 (3)人工智能技术 新闻媒体数据库的一项重要应用即个性化的信息推送服务,针对用户的背 景、兴趣、意图等特性对内容资源整合重组,提供用户感兴趣的信息。而数据库 技术的优势在于数据的存储、管理、检索,对于如何从海量信息中获取知识以满 足用户需要无能为力,因此人们迫切需要更先进的信息检索技术。人工智能是研 究计算机模拟人的大脑思维和模拟人的活动的一门科学, 逻辑推理和判断是其最 主要的特征。将人工智能技术引入信息检索系统,通过模拟人脑的思维推理过程 使系统具有强大的自然语言理解能力, “使用户可以用自然语言更确切地表达自 己的信息需求;模拟专家的检索方法,把用户所表达的信息需求,制定解决策略 以及分析结果的工作转移到智能信息检索系统来处理”20 。 (4)xml 技术 xml(extensible markup language,可扩展符号化语言)使用一系列简单 的标记描述数据,能够有效地处理跨平台简的结构化文档信息。通过将结构化/ 非结构化数据转换成 xml 格式,可以实现数据的统一,从而使数据库能够实现 对数据的有效存取和管理,进而解决了新闻媒体数据库数据类型不一、复杂多样 的问题。此外,由于 xml 数据格式能够清晰表达数据的层次特征,因此更利于 文档的存数和检索,大大提高信息查找的效率。统一的 xml 文件格式使各内容 提供者、 开发商之间可以随意的共享与沟通信息, 从而形成一种全新的共享机制。 (5)文献数字化技术 “ 文献数字化 是利用现代信息技术对传统介质的文本 (包括印刷图书) 、 图形、图像、声音、视频等信息进行格式转换和压缩处理,使其转化为数字信息 并存储;然后通过计算机技术和互联网为依托进行信息传递,实现检索,为本地 和网络读者提供信息服务。” 21由于新闻媒体数据拥有多种不同类型的多媒体 13 信息, 因此也应采取相应不同的转换技术和标准。 如早期的报纸文本需经过扫描、 去噪、色彩处理、大小调整等步骤后,形成统一规范的图像文件存入数据库中。 音视频信息数字化技术主要根据采样精度、频率、声道等多项指标控制信号的失 真和干扰,尽可能地再现原始的声音和音像信息。此外,由于新闻媒体数据库的 数据量呈线性增长,为减少数据冗余、节省存储和传输成本,还要考虑在不失真 的前提下对多媒体信息进行压缩存储。同时,不同的元数据标引设置,也对数据 库资源的整合和管理有着重大影响。 14 3 三峡工程新闻传播信息库系统分析三峡工程新闻传播信息库系统分析 3.1 建设背景及目标建设背景及目标 3.1.1 建设背景建设背景 长江三峡工程是跨世纪特大型水利枢纽工程,举世关注,影响深远。三峡工 程的建设进展,及其所带来的长江流域社会经济环境的发展变化,是全国乃至全 世界关注的热点。在几十年的论证和 10 多年的建设过程中,相关新闻宣传和信 息传播活动也大量展开,中外媒体对该重大工程发表了大量的新闻报道、专家文 章。 中国长江三峡集团公司新闻宣传部门也开展了大量的新闻宣传报道策划组织 及管理工作。这些广泛、持续、海量的新闻报道和专业文献对三峡工程建设保质 按时地顺利完成、三峡工程建设与社会的协调发展、重大工程的宣传工作、我国 新闻传播发展均产生了重大影响。 该信息库的开发建设对全面总结和进一步搞好三峡工程宣传工作提供了系 统的资料信息,对三峡工程的综合价值、舆论环境和公关宣传效果进行了较全面 准确的评价分析, 对我国今后重大工程建设的新闻宣传和社会信息传播工作具有 重要的借鉴意义。 3.1.2 建设目标建设目标 三峡工程新闻传播信息库开发建设的总体目标是建设规模化的经过数字化 处理、特征提取、分类整理后形成的三峡工程新闻传播信息数据库。同时,面向 用户开发相应的系统管理软件, 通过计算机互联网络对基本资料数据库进行有序 处理和集成管理,以帮助用户实现对各类信息的存储、提取、查询、检索、共享 以及统计分析。 数据资料管理方面:在管理规模上,能实现对大规模(10 万条以上)数据 资料的有效管理;在资料类别上,能有效管理文本、图片、声音、影像等各类资 料;在电子文件格式上,除常规文本和数据库信息之外,还能管理文件类型有图 片、电子文件、超文本文件、音频文件、视频文件等文件类型,比如 pdf、xml、 word、html、mp3、wmv、jpeg 等多种电子文件格式的资料。 信息库系统功能方面:能实现多种资料的采集、输入和编辑、特征信息分析 和提取,实现较全面和灵活的检索查询、信息统计和分析、结果输出(浏览、在 线播放或打印下载)。 信息库系统应用方面:面向长江三峡集团公司的新闻宣传工作,为企业新闻 宣传与文化建设工作提供信息支撑服务,比如为制定宣传计划、进行舆情监测、 企业文化建设、企业品牌塑造、企业危机管理等提供支撑和服务。在保持系统功 能完整性的同时,本系统具有一定的开放性,部分数据库结构向其他系统开放, 15 为公司的其他信息系统(如综合查询系统、档案系统等)提供合适的数据接口。 在系统界面风格方面,尽量与现有其他系统接近和一致。 应用实施方面:三峡工程新闻传播信息库的建设是企业信息化的组成部分, 与新闻宣传管理、舆情监测管理工作提供有效支撑和服务。 3. 2 系统的业务需求分析系统的业务需求分析 3.2.1 资料管理业务流程资料管理业务流程 资料管理的业务处理主要有资料录入、资料编辑、资料浏览、资料分析、资 料审核、资料下载、回收站管理。 资料录入业务:录入人员向信息库录入多种类型新闻报道资料和相关信息。 资料有文本、图片、声音、外文或者视频,其相关信息则包括文章名、作者名与 登载媒体等。 资料编辑业务:通过翻页或者条件选择确定要修改的篇目,对文本和关联信 息进行修改、删除。 资料分析业务:通过翻页或者条件选择确定要分析的篇目,调阅篇目对应的 文章, 审核修改文章的基本特征信息, 填入文章分析后得到的主题分类、 关键词、 态度等新增特征信息,以及事实和意见等摘要信息。 资料审核业务:通过翻页或者条件选择确定要审核的篇目,调阅篇目对应的 文章原始资料信息和分析后的派生信息,进行审核、修改。 3.2.2 检索查询业务检索查询业务 检索的基本步骤是首先确定查询范围、检索对象、查询条件类别。然后输入 具体条件,返回结果。 3.2.3 统计分析业务统计分析业务 统计分析的基本步骤: 第一步:确定统计范围,包括国内媒体、国外媒体、港澳台媒体、多媒体; 第二步:确定统计检索对象;包括全文检索、特征信息检索、全文+特征信 息检索; 第三步:确定统计维度及类别,包括主题、时间(段)、作者、关键词、媒 体; 第四步:输入具体条件,即数据具体的统计条件数据(数字或字符); 第五步:返回统计结果,输出统计分析图表 3.2.4 用户管理业务用户管理业务 用户管理业务主要包括以下几个业务: 16 (1) 用户注册业务流程:进入注册页面输入用户查重输入个人信 息、密码、邮箱和业务申请信息。 (2) 用户登录与个人信息维护业务流程:进入登录页面-输入用户名和密 码登录成功后进入相应操作页面(查看个人使用记录或者工作信息,查看和 修改个人信息)返回。 (3) 用户信息管理业务流程:系统管理员进入用户管理页面进入用户 信息管理页面审核修改用户信息和权限分配信息返回 (4) 用户使用记录管理业务流程:系统管理员进入用户管理页面进入 用户使用记录管理页面选定特定用户查看使用记录做出判断处置返回 3.2.5 系统管理业务系统管理业务 (1) 系统维护-系统日志管理:主要对系统运行日志进行记录、存储和管 理 (2) 系统维护-系统参数设置:页面基准路径,授权访问的用户角色,邮 件发送模块等; (3) 媒体(机构)基本信息维护:可以对媒体及其机构的基本信息进行 添加、插入、查询、修改、删除等操作,涉及的基本信息项有媒体编码、媒体名 称、所属机构、注册地、性质、类型、创办时间、等级、备注等等。 (4) 主题分类信息维护:对新闻报道文献主题分类信息表进行添加、插 入、查询、修改、删除等动态维护。涉及的主题描述信息项有主题编码、主题名 称、主题等级、所属父级主题、形成时间、备注等。 (5) 关键词信息维护:对已经录入并分析的文章所提取的关键词信息进 行规范化处理,为新闻传播信息库的后续深入应用提供基础。具体操作有查询、 修改等操作。 (6) 联机帮助系统主要有信息库使用在线指南、常见疑难问题 faq。 3.3 用户需求分析用户需求分析 三峡工程新闻传播信息库的主要用户为中国长江三峡集团公司总部及分支 机构的新闻传播管理人员,具体为四类:信息库资料管理人员、新闻宣传管理人 员、新闻宣传决策人员、舆情监测人员。社会专业研究人员、媒体人员等如需使 用,须经审核、授权方可使用。 从信息库管理和使用行为的角度来看, 信息库的用户可以划分为资料数据录 入员、编辑(修改、删除)员、分析员、审核员、查询检索员、统计分析员、系 17 统管理员等几类用户,各类用户所拥有的权限并不相同。业务用户与信息库操作 用户不是一一对应的关系,他们之间有多种对应关系。具体如下 第一类:信息库资料管理人员,也称资料管理人员。主要负责信息库中新闻 报道资料和文章信息的添加、删除、日常管理、文本分析,以保持信息库资料的 动态扩充和优化。信息库资料管理员主要分为录入员、分析员、审核员、资料管 理员等。 第二类:新闻宣传管理人员。新闻宣传管理人员利用信息库查询三峡工程相 关的新闻报道和文献发表情况进行查询和统计分析, 提高相关工作的精准度和效 果,增加工作的主动性。担任舆情监测的新闻宣传管理人员可以将该数据库作为 舆情监测的历史数据来源,结合相关稀料统计和分析,提出舆情疏导与新闻宣传 工作建议。新闻宣传管理人员既可以担任录入员、分析员、审核员等。 第三类:新闻宣传决策人员。此类人员利用信息库的统计分析功能,可以较 及时、全面、准确地了解三峡工程以往新闻报道的总体情况,对以往的新闻宣传 工作和舆情信息进行总体判断,进行相关判断和决策。主要担任信息库分析员、 审核员、查询检索员、统计分析员等。 第四类:特许新闻媒体与专业研究人员。经过三峡工程总公司新闻宣传中心 特许的新闻记者和编辑人员,利用数据库查询以往相关报道情况,为即将开展的 报道或专题报道提供参考。一般属于外部人员,应按外部人员管理。 第五类:系统管理员,主要是维护信息库系统的技术维护、用户管理和控制 和运行安全等。系统管理员既可以由懂技术的新闻宣传管理人员担任,也可以由 信息中心的人员担任。 3.4 数据需求分析数据需求分析 3.4.1 资料采集和整理的基本需求资料采集和整理的基本需求 资料信息数量和分布结构、资料整理满足课题的要求,满足核心信息库的基 本应用要求。具体如下: (1) 媒体分布:覆盖大多数主要媒体;所选媒体和资料分布具有代表性、 多样性和广泛性,国内、境外和国外媒体均有。言论倾向上既包括赞成的,也要 包括其他倾向的,甚至是持反对意见的。 (2) 信息时间跨度:覆盖 19192008 年,以 19802008 年为收集重点, 少量资料需要追溯到古代。 (3) 媒体地域与语言分布:以国内(含港澳台地区)媒体为主,兼顾国 外的主要媒体;语言上,以华文媒体为主,国外资料以英文主流媒体为主。 (4) 媒体种类和形态分布:来源上以新闻媒体为主,兼有书刊、文献等 其他资料;体裁上以新闻报道和大众作品为主,兼顾文献性专业文章;媒介形态 18 上以文字为主,图片和音像为辅;载体以数字化文本为主,兼顾非数字化的实物 和纸媒资料信息。 (5) 资料整理要求:实物和纸媒资料数字化转换要可靠,文件格式统一; 资料基本信息完整;外文资料需要对标题、作者、媒体等基本信息进行翻译。 3.4.2 需要处理和保存的资料信息类型及数据格式需要处理和保存的资料信息类型及数据格式 需要处理和保存的资料信息类型主要有数据表格与文字、 图形和音像四种类 型, 书报刊所报道的文章信息主要是以文字、 图形图像、 数据表格的方式表达的, 广播电视所报道的主要是广播新闻报导、电视新闻报导节目及片段。 数字化处理和存储过程中,书报刊发表资料的文字、表格需要进行图片化处 理,特殊格式的数字文本文件也需转换和处理,图片、广播节目、电视报道也存 在很多不同的格式问题。因此,在资料采集和整理过程中需要应对不同格式资料 的有效处理和转换问题,在处理转换后,还要对不同类型、不同文件格式的资料 有效地导入数据库,并以合适的格式存储在数据库中。 3.4.3 面向全文数据库管理的新闻传播资料著录需求分析面向全文数据库管理的新闻传播资料著录需求分析 新闻传播资料全文数据库必须对所采集的文档全面提取和著录特征信息才 能被有效地管理和应用。为满足文本资料实体与特征信息、摘要信息的一体化管 理,除了对资料标题、刊载媒体(或出版单位)、日期、作者等基本特征信息进 行著录外,还可以通过文本阅读分析提取其关键词、主题分类、态度、内容摘要 以及重要传播特征等高级特征信息,并进行著录。 三峡工程新闻传播资料采取基本特征信息项和高级特征信息项相结合的著 录方式,基本特征信息著录项可以直接从文章的外部信息中获得,比如标题、作 者、刊载媒体、刊载时间等信息,能满足常规信息管理和应用的要求。高级特征 信息则需要通过对文章的细致阅览从中提取有关重要信息,比如文章的态度、所 属主题、关键词、内容摘要等等,以实现对新闻传播资料的深度管理、开发和应 用。具体如下: 表 3.1 三峡工程新闻传播资料的基本特征信息及著录要求 基本特征项 基本特征项 数据来源 数据来源 含义说明或用途说明 含义说明或用途说明 标题 手工填写 新闻资料的文章标题 登载媒体 从系统中选择填写 实际填入的是媒体编号,因为媒体信息已入 库,选择相应的媒体编号填入既可。 资料链接 手工填写 资料的网络地址链接 来源媒体 从系统中选择填写 转载文章的直接来源媒体。实际填入的是媒体 编号,因为媒体信息已入库,选择相应的媒体 编号填入既可。 19 登载日期 手工填入 在登载媒体上发布的时间 登载区位 手工填入 报纸版面,或电视栏目、网站栏目、频道 语言 手工填入 资料语言种类,简体中文、繁体中文、英语、 其他等。默认为中文简体 作者姓名 手工填入 文章的作者姓名 作者职业 手工填入 以刊载媒体为准,不明确的填入“其他” 三峡工程新闻传播资料的高级特征信息, 需要通过对文本进行系统地阅读分 析才能取得,主要包括文章态度、关键词、主题归类、事实摘要、意见摘要等, 具体如表 3.2 所示。 表 3.2 三峡工程新闻传播资料的高级特征信息及著录要求 高级特征信息 高级特征信息 数据来源 数据来源 含义说明或用途说明 含义说明或用途说明 文章体裁 手工填入 新闻报道、新闻评论、专业文章、其他 保密等级 手工填入 默认为不保密 基本态度 手工填入 文章的总体基本态度 关键字 手工填入 提取关键字,一篇文章可以有多个关键词 一级主题分类 手工填入 文章所属一级主题分类,先建主题库,可多选 二级主题分类 手工填入 二级主题,先建主题信息库,可多选(或不选) 三级主题分类 手工填入 三级主题,先建主题信息库,可多选(或不选) a 类事实 手工填入 一般事实信息的摘要 b 类事实 手工填入 具有显著正面影响和效益的事实信息摘要 c 类事实 手工填入 对三峡公司、三峡工程及其流域具有明显负面 影响和后果的事实信息摘要 作者观点意见 手工填入 文章作者直接表达的意见摘要 党政官员言论 手工填入 文章中党政官员的观点意见摘要 专家学者言论 手工填入 文章中专家学者的观点意见摘要 公众百姓言论 手工填入 文章中公众百姓的观点意见摘要 建设者言论 手工填入 文章中设计、施工、监理等人的意见摘要 三峡公司言论 手工填入 文章中三峡总公司相关人士的意见摘要 海外人士言论摘要 手工填入 文章中海外人士的观点意见摘要 20 3.4.4 三峡工程新闻传播资料主题分类需求及体系设计三峡工程新闻传播资料主题分类需求及体系设计 主题分类在满足穷尽性原则、科学性原则、实用性原则、动态性原则的前提 下,通过实地调查和理论研究,在 2008 年 14 个主题分类的基础上,针对文章采 集的情况进行了细化和补充,设计成为三级主题划分体系。具体如表 3.3 所示。 表 3.3 三峡工程新闻传播资料主题分类需求及体系表 序 号 一级主题 二级主题 三级主题 01 三峡工程论 证研究历史 三峡工程建设 管理体制 建设进展投资 质量安全 三峡工程运行管理 水库调度 船闸调度电力 生产 三峡工程综合效益 防洪 发电 航运 供水 02 三峡工程建 设与运行管 理 三峡工程科技创新 三峡库区移民政策 三峡坝区移民迁建 三峡库区对口支援 03 三峡工程移 民 三峡工程与地方经济发展 04 三峡工程文 化 三峡工程与旅游 枢纽工程质量安全问题 三峡水库泥沙问题 三峡库区地质灾害处理 三峡水库水质 三峡工程与珍稀动植物保 护 三峡工程与文物保护 三峡工程地震监测 05 三峡工程社 会热点问题 三峡工程与极端气候变化 战略发展与实施 战略投资与资本运作 社会责任履行 06 长江三峡集 团公司 企业自主创新 21 说明: 三峡工程论证研究历史主要指 1919 年1992 年之间的关于三峡工程研究论证的 报道资料信息等。 随着资料的不断收集和积累,主题划分会有可能增减或者变动,因此,在开 发信息库管理系统时,需要建立一个主题分类信息动态维护系统。 3.5 功能需求分析功能需求分析 三峡工程新闻传播信息库系统主要有以下功能: (1) 资料管理: 主要实施对三峡工程新闻传播信息库数据资料的基本维护和管理, 包括各类 型新闻报道资料的录入、查重、编辑、分析(含摘要)、浏览以及其他辅助设置 等操作,保证信息库内的数据资料的完整性与一致性。录入是指将数据记录通过 键盘手动的逐条提交到数据库中。 资料管理包含了以下功能:资料录入、资料编辑、资料分析、资料浏览、资 料审核、资料下载与格式化导出,回收站管理等,用户有关资料管理的操作记录 将保存至数据库。通过这些功能的有序组合,完整地实现了信息库资料的综合管 理。 (2) 检索查询: 用户可对系统内部所有资料按功能、按类别进行单项或者组合检索查询,可 对查询到的资料进行查看、下载、打印等操作。 按国内媒体报道查询、国外媒体报道查询、港澳台媒体报道查询、多媒体查 询、书籍资料查询等板块进行查询,每个板块应涵盖所有的主题分类。对存储的 文档可以进行单项条件和多项条件的组合检索,比如按标题检索、关键词检索、 全文检索、作者检索、发表时间检索等。 查询得到的单个或多个原始资料以统一的格式导出并自动生成报表或目录。 多媒体资料查询要求实现在线观看、下载功能。 (3) 统计分析: 统计分析模块根据用户不同的统计条件和要求,对不同时间段、不同媒体、 不同媒体的报道进行单项或者组合式的统计和分析, 以期得出关于三峡工程不同 主题、不同时段或者不同媒体的报道规模、报道分布等信息,并生成合适的报告 图表。 在统计功能上,应能按报道时间、媒体、媒体类型、主题进行单项统计或多 种组合统计,并自动生成报表,实现基本数量统计和排行统计,可以对单一主题 的报道时间、数量、媒体、媒体类型进行专题统计;用户可以具有一定的自定义 设置能力,比如可按年、月设置统计功能。 22 在分析功能上,在完成基本统计的基础上,实现单一或组合分析,静态分析 和动态分析相结合,涵盖基本数量分析、排行分析、专题分析,以及主要维度的 报道趋势分析、对比分析等功能。 (4) 用户管理: 用户管理的内容分用户信息管理、权限管理、使用行为管理等三大部分。用 户信息管理主要是对用户的个人基本信息进行管理和维护, 权限管理主要是对用 户的信息库操作权限进行分配和设置。使用行为管理包括使用记录管理、工作量 管理。信息库上线后还将持续不断补充、分析和修改资料和相关数据,工作量很 大,需要设专门岗位或者委托第三方专门承担这项工作,工作管理主要是针对这 些专职资料维护和管理岗位人员,包括工作数量和质量管理两个方面,以便进行 工作考核。 (5) 用户注册与登录 建设一个较完善的三峡工程新闻传播资料信息库管理系统还需要对系统的环境 变量、基础信息进行设置,具体包括系统维护、基础信息维护和联机帮助三大功 能。 3.6 界面需求分析界面需求分析 系统界面要求设计美观,人机界面友好,便于执行控制与对话,能同时显示 不同种类的信息,使用户可以在多个环境中切换而不丢失几个工作之间的联系。 (1)用户界面具有一致性、集易用性、友好性、安全考虑性,界面间切换 方便且无故障,支持鼠标、键盘等常用操作方式。 (2)能提供简单的错误处理功能;比如,设置帮助键、减轻用户记忆,界 面具有预见性和统一性,有效防止用户出错,并提供反馈。能同时显示不同种类 的信息,使用户可以在多个环境中切换而不丢失几个工作之间的联系。 (3)提供信息反馈,用合适的信息提示用户当前信息库系统的运行状态和 界面内重要单元的功能。 (4)操作可逆,界面动作尽可能是单个的操作,或者一组相对独立的操作 序列。 (5)具有良好的联机帮助信息。 (6)界面上菜单、工作栏、按钮等设计、布局合理,美观大方,便于提高 工作效率。 (7)界面设计风格上,人机界面友好,规范性、合理性、美观与协调性为 一体。 3.6.1 系统功能界面需求分析系统功能界面需求分析 (1)系统总控界面:用户注册登录界面、总控菜单界面等。 23 (2)资料录入与编辑界面:用户界面应与该模块的资料采集、录入、审核、 编辑、删除和查重等操作相吻合。 (3)资料分析与审核界面:资料分析界面对应的是文本分析与摘要提取工 作界面,信息项目显示较多,填写与修改操作较多,需要周密地进行功能操作按 钮规划与界面规划,审核界面对应的是资料库审核工作界面,其复杂度与资料分 析界面相似。 (4)资料查询与统计服务界面:对应于检索查询与统计分析界面,由输入 界面、 过度界面、 输出界面三部分组成, 通过界面可以输入统计分析要求和条件。 (5)用户管理界面:对应的子系统为用户管理系统,通过界面可以对数据 录入员、数据查询员和数据分析员进行管理,包括添加或删除用户、用户权限管 理、日志管理和密码设置。 (6)系统维护管理界面:用户可以对整个系统的环境变量进行设置,包括 数据库访问地址、辅助量表、环境变量、系统使用帮助文件等。 3.6.2 系统非功能界面需求分析系统非功能界面需求分析 (1)系统主界面:包括主菜单、系统整体介绍和帮助文档。 (3)用户管理界面:提示用户最近登录情况和是否有非法操作。 (4)帮助界面:一般情况下处于隐藏状态,用户操作出错或需要才出现。 (5)面向各级用户的过渡界面:提示用户耐心等待。 3.6.3 系统界面交互与视觉需求分析系统界面交互与视觉需求分析 (1)界面交互方式。围绕以用户为中心的基本原则进行设计,按照事件处 理顺序。建立友好人机交互,包括出错提示、鼠标交互和键盘交互。鼠标交互的 可选方式有悬浮、左键点击、双击(下载文件)、选中(文字)、右键点击(点 开下拉菜单)、滚动等;还可以设计功能区多级菜单、提示信息和多项对话栏并 举窗口等人机交互界面。 (2)输入输出界面: 输入界面:支持文本、图像、多媒体文件的录入,并可进行统一管理。 输出界面:可按需求展示相应的文本内容,绘制相关统计分析图表,展示多 媒体文件内容,在对用户的操作响应上,及时输出合适的提示信息或系统响应信 息,并以友好的方式提示出错信息。 (3)界面布局:字体大小、颜色,界面颜色搭配以及菜单、操作区的布局 符合用户的一般习惯。 3.7 性能需求分析性能需求分析 3.7.1 可靠性分析可靠性分析 24 (1) 系统平台可靠性 鉴于系统的建设目标和要求, 数据库及其统计分析子系统将采用 b/s 结构模 型进行设计开发,具有使用简单、结构清晰、便于维护升级等突出特点。系统采 用 java ee 开发模式,java 技术作为目前国际上企业级应用的标准,在跨平 台性、 可重用性、 安全性等各方面具有非常丰富和突出的技术优势; 基于 struts2、 spring、hibernate 的三层设计框架,可以使程序设计更优雅,层次更清晰,这 也是当今 java 领域最为典型的一种高效率的编程模型。采用 mvc(model view controller)设计模式,即模型视图控制器模式,通过良好的组件架 构,能有效降低层次之间的耦合度,使应用平台更易于维护和扩展。此外,根据 系统的用户及数据规模和类别,拟采用支持多用户事务处理、开放协议和接口、 兼容性好的高性能大型数据库平台(如:oracle),有效确保海量数据的安全性、 完整性、可维护性及可扩展性。 (2) 应用平台可靠性 本系统可运行于主流的 windows 操作系统平台,支持在多种 java 应用服 务器下(包括 resin,oracle as,jboss)的部署。 系统具有较好的灵活性,能够对多种类型的资料(大文本,二进制文件,多 媒体文件,图像等)进行收录、管理和统一查询。 在系统实现上,可通过配置文件的方式定义系统初始化的必备参数,方便对 系统进行自定义的运行,包括定义数据源、用户访问限制、会话超时时间、监听 器配置等。 在对资料数据的存储策略上,采用文件管理系统与关系数据库结合的方法, 将多媒体文件本身以文件系统的方式存储,用关系数据库管理其特征信息,而对 普通的大文本资料数据,则直
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 如何评价华科某工科学院2025届本科毕设论文字数要求
- 内蒙古工业大学毕业设计格式规范(摘录)(精)
- 研究生学位论文写作格式规范
- 河北正高级会计师组卷模版
- 临床试验脱落率与申办方质量控制关系
- 临床试验药物风险评估与应对策略
- 临床路径虚拟仿真与医疗费用控制
- 临床试验远程监查中的电子报告系统(eRT)应用
- 《文献信息检索》习题答案 文献信息检索(答案)
- 广州大学普通全日制本科生毕业论文(设计)规范化要求
- 电梯安全使用及维保操作手册
- 2025年TPU行业市场前景分析
- 灭火和应急疏散预案范本
- 西语面试题目及答案
- 雨课堂学堂云在线《旅游学英语-中国篇(东北 )》单元测试考核答案
- 2025河北张家口康保县二人台艺术团招聘专业演职人员18人笔试考试备考题库及答案解析
- 高校专业建设自评报告范文
- 2025年新疆中职政治试卷及答案
- 屠宰工合同(标准版)
- 2025年巴彦淖尔市交通投资有限公司招聘考试笔试试卷【附解析】
- 考试(文化装备管理员)历年参考题库含答案详解(5套试卷)
评论
0/150
提交评论