版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGEPAGE12舆情监控系统可行性分析报告2011年4月目录TOC\o"1-4"\h\z\u第一章项目总述 21.1系统背景 21.2数安舆情监控系统的必要性 21.3我国网络舆情现状 31.4系统设计方针和原则 3第二章项目可行性分析 42.1价值分析 42.2数安舆情监控系统三大模块 52.2.1舆情分析引擎 52.2.2互联网信息采集 52.2.3搜索引擎数据管理 52.3数安舆情监控系统先进技术 52.3.1网络信息采集技术 52.3.2数安舆情监控系统舆情智能分析技术 72.3.3自然语言智能处理技术 72.3.4全文检索技术 7第三章实施方案 83.1总体框架 83.2数安舆情监控系统系统特点 83.2.1自定义URL来源及采集频率 93.2.2支持多种网页格式 93.2.3支持多种字符集编码 93.2.4支持整个互联网采集 93.2.5支持内容抽取识别 103.2.6基于内容相似性去重 103.2.7热点话题、敏感话题识别 103.2.8舆情主题跟踪 103.2.9自动摘要 103.2.10舆情趋势分析 103.2.11突发事件分析 103.2.12舆情报警系统 103.2.13舆情统计报告 113.3价值实现 11第四章项目投资 12第一章项目总述1.1系统背景随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通过这种网络来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。1.2数安舆情监控系统的必要性网络舆情是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点,主要通过BBS论坛、博客、新闻跟贴、转贴等实现并加以强化。当今,信息传播与意见交互空前迅捷,网络舆论的表达诉求也日益多元。如果引导不善,负面的网络舆情将对社会公共安全形成较大威胁。对我们说,如何加强对网络舆论的及时监测、有效引导,以及对网络舆论危机的积极化解,对维护社会稳定、促进国家发展具有重要的现实意义,也是创建和谐社会的应有内涵。统计数据显示,我国正在跃升为全球领先的舆论媒体大国。截至2006年初,电视数量、报纸发行量和30岁以下网民人数均已排名全球首位;现有3000多个电视频道、2000多份报纸和9000多种杂志。在舆情媒体规模、媒体种类等发展迅猛的同时,舆情导向的监测预警显得愈发重要,特别是互联网这把“双刃剑”,既提供了大量进步、健康、有益的提倡性信息,也有不少反动、迷信、低级的误导性言论,这样就更需要有舆情监测预警的出现,防范误导性舆论的社会危害于未然,把握和保障正确舆论的前进导向,为构建和谐社会的舆情保驾护航。1.3我国网络舆情现状与国外相比,我国网络舆情还存在以下特殊情况:一是由于历史的原因,我国曾长期处于封闭状态,容易受到外来思想文化的冲击。二是目前我国正处于社会转型期,不可避免地存在诸多矛盾,容易使一些人出现情绪化冲动,以致不能明辨是非。三是少数社会管理者对于舆论习惯于回避或堵塞。因此,网络这把锋利的“双刃剑”在提供了下情上达的便捷方式的同时,也对我国政治安全和文化安全构成了严重威胁,具体表现在以下三个方面:一是西方国家利用网络对我国进行“西化”、“分化”,网上思想舆论阵地的争夺战日趋激烈。二是传统的政治斗争手段,在网上将以更高效的方式实现,利用网络串联、造谣、煽动将比在现实中容易得多,也隐蔽得多。三是通过网络,西方的观念、生活方式可以便捷地渗透进来。1.4系统设计方针和原则本款数安舆情监控系统利用互联网信息采集、智能信息处理技术(文本挖掘技术)和全文检索技术,对境内外网络中的新闻网页、论坛、博客、新闻评论,贴吧等网络资源进行精确采集、定向采集和智能分析,提供舆情信息检索、热点信息的发现、热点跟踪定位、敏感信息监控、辅助决策支持、舆情实时预警、舆情监管、统计分析等多层次、多维度的舆情信息的服务,实现的网络舆情监测和定向追踪等信息需求,形成简报、报告、图表等分析结果,从而帮助政府、及时掌握舆情动向,准确捕捉预警信息,对有较大影响的重要事件快速发现、快速处理,从正面引导舆论和宣传,构建积极向上的主流舆论,并为政府、决策提供信息依据。实现对舆情分析提出的目标。对我们而言,舆情监控的需求既有通用性,也有个性化的特点存在,可以通过本系统进行量身打造,建立适合的舆情监控体系。第二章项目可行性分析舆情分析预警系统的实现具有可行性。一方面,舆情导向的预测不是一种抽象的可能性,而是现实的可能性,这种现实可能性并非凭空想象而是有其现实基础,是对舆情的历史信息和其他因素经过判断、分析而得出的结论。舆情也同其他事物一样,是一种客观存在,有其产生、发展、变化的规律。只要对其予以客观、全面、科学的考察,细致、认真、仔细地分析,我们通过本系统对舆情导向的有无、好坏、大小,是可做出基本准确的评价和预测的。另一方面,我们通过数安舆情监控系统的搜索引擎、数据仓库和数据挖掘等技术,为实现这一需求提供了有力的技术保障,使舆情分析预警的实现具有了可能。2.1价值分析1、帮助有针对性的收集国家、地方和行业政策:帮助了解政策,有助于推动重大战略决策;2、对网络危机事件形成快速反应机制:实时监控网民对各方面的关注意见,独特预警机制能早期发现危机事件,及时预警并后期追踪,有利于掌握危机事件的破坏力和传播趋势,为危机公关服务。3、了解在或潜在中的地位:帮助洞悉其、产品、品牌影响力,了解人们正反两方面的意见,客观评价其行业地位;4、追踪上下游产品、新产品和新技术:帮助追踪上下游产品,有助于控制生产成本;追踪新产品新技术,有助于技术部门对产品线的技术革新;5、服务于市场部门:快速对行情、促销、畅销区域、活动等做出反应,有助于市场部门做短期的运营规划;系统生成的统计报表,是对市场做出的一般性归纳,有利于市场部门做中长期的市场抉择。2.2数安舆情监控系统三大模块2.2.1舆情分析引擎舆情分析引擎为系统的核心功能,其主要包括以下功能:热点识别能力、自动分类、聚类分析、倾向性分析与统计、主题跟踪、信息自动摘要功能、截取证据、趋势分析、突发事件分析、报警系统、统计报告。2.2.2互联网信息采集采用元搜索与信息雷达技术。智能信息抽取技术主要是针对特殊进行特定领域的信息采集。2.2.3搜索引擎数据管理搜索引擎数据管理功能主要包括以下功能:对收集到信息进行预处理;对搜索引擎数据集进行阶段性的数据维护;支持系统多分级管理系统,包括逐级进行审核功能;支持信息服务:最新报道、热点新闻、分类阅读、舆情简报、信息检索、RSS订阅等服务;信息文档转换技术:可以对信息进行传统文件格式转换。如:Doc、Excel、Access、Rss等文件生成。可生成报表。2.3数安舆情监控系统先进技术2.3.1网络信息采集技术1)强大的信息采集功能全网全天候采集网络舆情,保障信息全面采集。2)舆情源监控广泛对网络舆情主要来源进行监控,包括:(1)新闻类门户网站,如人民网、新浪网、雅虎……(2)政府机构门户网站,如首都之窗、中国政府网……(3)信息资讯网站,各地信息港、行业咨询网……(4)交互性质网站,如论坛、BBS、百度贴吧……(5)个人式媒体,博客3)元数据搜索功能元搜索引擎集成了不同性能和不同风格的搜索引擎,并发展了一些新的查询功能。查一个元搜索引擎就相当于查多个独立搜索引擎。进行网络信息检索与收集时,元搜索可指定搜索条件,既提高信息采集的针对性,又扩大采集范围的广度,收到事半功倍功效。4)配置符合我公司需求的监控源方案系统为提供舆情源监控方案,对背景、行业特征及需求做深度调研,给出最适合的舆情源监控方案。5)可监控各种语言,各种编码的网站无需配置自动识别语言和网站编码,挖掘舆情信息。6)信息智能提取技术数安舆情监控系统有效提取网页中有效信息,区分标题、出处、作者、正文等信息项,并对具有连续性内容的多个网页内容进行自动合并,论坛帖子主题、回帖、点击量等自动提取。7)结构化采集技术数安舆情监控系统对网页数据进行结构化的信息抽取和数据存储,以满足多维度的信息挖掘和统计需要。8)全天候不间断监控数安舆情监控系统7*24全天候监控互联网信息,也可设定采集时间;实施中可以做到分钟级的采集更新。9)采集信息预处理数安舆情监控系统系统对采集信息进行系列预处理操作:超链分析、编码识别、URL去重、锚文本处理、垃圾信息过滤、关键字抽取、关键信息提取、正文抽取、自动摘要,达到系统舆情智能分析前状态。2.3.2数安舆情监控系统舆情智能分析技术1)自动分类技术自动分类技术包括以下两中分类方式:A基于内容的文本自动分类B基于规则的文本分类2)自动聚类技术基于相似性算法的自动聚类技术,自动对海量的无规则文档进行归类,把内容相近的文档归为一类,并自动为其生成主题词,为确定类目名称提供方便。3)相似性检索和查重技术基于文档“指纹”的文本查重技术,支持海量数据的信息查重。相似性检索是在文本集合中查找出与之内容相似的其他文本的技术。在实际应用中找出舆情信息内容雷同文章,对相似、雷同文章消重处理;还根据文章主题相似性,生成专题报道,背景分析等。2.3.3自然语言智能处理技术1)自动分词技术以词典为基础,规则与统计相结合的分词技术,有效解决切分歧义。综合运用基于概率统计的语言模型方法,分词准确性达到99%。2)自动关键词和自动摘要技术对采集到的网络信息,自动摘取相关关键字,并生成摘要,并与快速浏览与检索。2.3.4全文检索技术全文检索将传统的全文检索技术与最新的WEB搜索技术相结合,大大提升检索引擎的性能指标。还融合多种技术,提供丰富的检索手段以及同义词等智能检索方式。第三章实施方案3.1总体框架从整体结构上看,实现舆情分析预警至少应包括:数据信息采集、统计挖掘预测、结果展示三个阶段。(如图1)图1舆情分析预警系统系统结构3.2数安舆情监控系统系统特点3.2.1自定义URL来源及采集频率可以设定采集的栏目、URL、更新时间、扫描间隔等,系统的扫描间隔最小可以设置成1分钟,即每隔一分钟,系统将自动扫描目标信息源,以便及时发现目标信息源的最新变化,并以最快的速度采集到本地。3.2.2支持多种网页格式可以采集常见的静态网页(HTML/HTM/SHTML)和动态网页(ASP/PHP/JSP),还可以采集网页中包含的图片信息。3.2.3支持多种字符集编码系采集子系统能够自动识别多种字符集编码,包括中文、英文、中文简体、中文繁体等,并可以统一转换为GBK编码格式。3.2.4支持整个互联网采集舆情监测系统搜索模式是以国内知名互联网搜索引擎的结果为基础并利用采集器直接面向互联网定制内容进行直接采集,只需要输入搜索关键词就可以了。3.2.5支持内容抽取识别系统可对网页进行内容分析和过滤,自动去除广告、版权、栏目等无用信息,精确获取目标内容主体。3.2.6基于内容相似性去重通过内容相关识别技术自动判别分类中文章的关系,如果发现描述相同事件的文章自动去除重复部分。3.2.7热点话题、敏感话题识别可以根据新闻出处权威度、发言时间密集程度等参数,识别出给定时间段内的热门话题。利用内容主题词组和回贴数进行综合语义分析,识别敏感话题。3.2.8舆情主题跟踪分析新发表文章、贴子的话题是否与已有主题相同。3.2.9自动摘要对各类主题,各类倾向能够形成自动摘要。3.2.10舆情趋势分析分析某个主题在不同的时间段内,人们所关注的程度。3.2.11突发事件分析对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势。3.2.12舆情报警系统对突发事件、涉及内容安全的敏感话题及时发现并报警。3.2.13舆情统计报告根据舆情分析引擎处理后生成报告,可通过浏览器浏览,提供信息检索功能,根据指定条件对热点话题、倾向性进行查
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年海南省导游资格考试现场考试的语言技巧考试试题库
- 2024年税务顾问聘请合同
- 2024高考作文备考:高考模拟作文题立意专家解析
- 大学英语考试复习资料北京成人本科学士学位分类模拟题1
- 钢筋工程专项施工方案
- 体育赛事策划与管理 期中、期末测试题及答案
- 202南宁马拉松赛事宣传推广合同协议合同二篇
- 国际基础与金融 24
- 国际基础与金融 4
- 河南开封市2025-2026学年高三下学期3月期末英语试题(原卷版)
- 物流公司仓管职责【11篇】
- 新课标小学英语阅读100篇
- DL∕T 1498.2-2016 变电设备在线监测装置技术规范 第2部分:变压器油中溶解气体在线监测装置
- 破产债权申报登记表
- 铁工电〔2023〕54号国铁集团关于印发《普速铁路工务安全规则》的通知
- JJG 86-2011 标准玻璃浮计
- 尺寸链的计算表格
- 课堂游戏惩罚-课件
- 碟形弹簧计算程序-中文
- 宇虹化学有限公司年产100吨颜料红177#等搬迁技改项目立项环境影响评估报告书
- 2023年考研考博-考博英语-河北工业大学考试历年真题摘选含答案解析
评论
0/150
提交评论