版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
舆情管理系统设计方案!!不决义书签。!不决义书签。!不决义书签。!不决义书签。!不决义书签。!不决义书签。!不决义书签。!不决义书签。!不决义书签。!不决义书签。!不决义书签。!不决义书签。!不决义书签。!不决义书签。!不决义书签。目录目录一、 背景概括 错误二、 建设必需性 错误三、 建设目标 错误四、 核心技术 错误五、 系统架构 错误六、 工作流程 错误七、 系统功能 错误信息米集 错误信息办理 错误舆情剖析 错误舆情显现 错误八、 应用成效 错误九、 系统配置 错误网络带宽 错误运转环境 错误网络舆情监测系统解决方案网络舆情监测系统利用互联网信息采集技术、智能信息办理技术和全文检索技术;联合网络舆情的流传剖析模型:对境内外网络中的新闻网页、论坛、贴吧、博客、微博等网络资源进行全网监控、定向采集和智能剖析,把互联网读薄,读透,供给有关舆情、负面舆情、热门信息的发现、主题事件监测、分类监测、舆情实进预警、舆情看管、统计剖析、协助决议支持等多层次,多维度的舆情信息的服务,依据用户有网络舆情监测和定向追踪等信息需求,形成简报、报告、图表平剖析结果,进而帮助用户及时掌握舆情动向.为领导和舆情工作部门供给信息参照和决议支持.一、背景概括跟着互联网的快速发展,网络媒体作为一种新的信息流传形式,已深入人们的平时生活.网友言论活跃已达到亘古未有的程度,无论是国内仍是国际重要事件,都能立刻形成网上舆论,涉军涉警事件更是成为部分网民炒作对象,经过这类网络来表达观占、流传思想,进而产生巨大的舆论压力,达就任何部门、机构都没法忽略的地步.可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器.网络舆情是经过互联网流传的公众对现实生活中某些热门、焦点问题所持的有较强影响力、偏向性的言论和看法,主要经过BBS论坛、博客、新闻跟贴(回贴)、转帖等实现并加以增强.现在,信息流传与建议交互空前敏捷,网络舆论的表达诉求也日趋多元.对队伍来说,怎样增强对涉军涉警网络舆论的及时监测、有效指引,以及对网络舆论危机的踊跃化解,对保护队伍名誉、促使队伍健康发展拥有重要的现实意义.〃网络舆情监控系统〃是针对在必定的社会空间内,环绕涉军涉警事件的发生、发展和变化,公众对队伍的态度天网络上表达出来意向会合而进行的计算机监测的系通通称.〃网络舆情〃是许多民众对于社会中各样现象、问题所表达的信念、态度、建议和情绪等等表现的总和.网络舆情况成快速,对社会影响巨大,增强互联网信息看管的同时,组织力量展开信息聚集整理和剖析,对于及时应付网络突发的涉军涉警事件和全面掌握社情民心很存心义.二、建设必需性因为舆情有突发性,随机性,多样性等特色,传统舆情监控已经没法知足当前的局势需要,互联网舆情监测系统应运而生.各单位对于突发事件,假如有工具能及时监测发现舆情信息及其本源,及时做好危机公关,做好踊跃的舆论指引工作,办理还处在萌芽状态的舆情,就能控制势态发展,为公司和个人减少损失,挽回无形的、有形的损失.对于涉军涉警负面信息的监测,是舆情监测的重中之重,必须要有一个舆情发现快,信息全,信息正确,全天候自动监测系统.三、建设目标经过对传统媒体网络版(含中央媒体、地方媒体、市场化媒体、部分外国媒体)、新闻网站、网络社区/论坛/BBS/、交际网站、QQ群、搜寻引擎、视频网站、知道、贴吧、〃建议领袖"的个人博客、微博等,进行多语言整年7*24小时监控与本单位有关的敏感信息,特别是负面信,在第一时间将信息通知到指定责任人,主动掌握舆情进展及将来趋向,为领导决议剖析做支撑,为宣传部门供给舆情检测工具.四、核心技术垂直搜寻垂直搜寻引擎是针对某一个行业的专业搜寻引擎,是搜寻引擎的细分和延长,是对网页库中的某类特意的信息进行一次整合,定向分字段抽拿出需要的数据进行办理后再以某种形式返回给用户。垂直搜寻是相对通用搜寻引擎的信息量大、查问不正确、深度不够等提出来的新的搜寻引擎服务模式,经过针对某一特定领域、某一特定人群或某一特定需求供给的有一订价值的信息和有关服务。其特色就是“专、精、深”,且拥有行业色彩,对比较通用搜寻引擎的海量信息无序化,垂直搜寻引擎则显得更为专注、详细和深入。.元搜寻元搜寻引擎(MetasearchEngine),是一种调用其余独立搜寻引擎的引擎,亦称“搜寻引擎之母(ThemotherofsearceengineS)。在这里,“元”(Meta)为“总的”、“超越”之意,元搜寻引擎就是对多个独立搜寻引擎的整合、调用、控制和优化利用。相对元搜寻引擎,可被利用的独立搜寻引擎称为 “源搜寻引擎”(sourceEngine),或“搜寻资源”(searcingresources),整合、调用、控制和优化利用源搜寻引擎的技术,称为“元搜寻技术”(Meta-searchingtechnique),元搜寻技术是元搜寻引擎的核心。.中文文本发掘中文文本发掘是一项综合技术,波及数据发掘、自然语言办理、计算语言学、信息检索及分类、知识管理等多个领域.将其用天文本数据中能够发现其隐含知识,即进行知识获得.中文文本发掘出的数据源是文本数据,能够是Web页面、文本文件、Word和Excel文件、PDF文件等形式的电子文档.在获得文本信息以前先对文本数据进行预办理,包含数据冲洗,如去噪、去重;数据选择,即选择所需文本数据;文本切分,如中文分词、段落切分等.而后提取中文文本的特色信息,包含要点词(高频词)提取、术语(词组、短语)提取、鉴于模板的信息抽取、鉴于语义字典的看法变换、鉴于浅层句法剖析的语法特色提取、鉴于浅层语义剖析的语义特色提取、鉴于文安分类的文本类型信息获得等操作..信息聚类聚类是把一组样品依据相像区分为若干类型,使属于同一类其余样品之间的距离尽可能小,而不一样类型样品间的距离尽可能大, 依据相像性进行聚合.贝叶斯聚类算法是一个典型的聚类式的层次聚类算法,使用后验概率作为最大化的目标函数,有特别好的聚类成效.使用聚类剖析来做网络舆情监控的专题、热门事件、要点人及要点组织的办理.经过聚类剖析,把不一样种类的网络信息聚合在一同,用于剖析各种其余流传热度.五、系统架构网络舆情监测系统利用互联网信息采集技术、信息智能信息办理技术和全文检索技术、对境内外网络中的新闻网页、论坛、微博、贴吧、博客、新闻议论等网络资源进行全网监测、定向采集和智能剖析,把互联网读薄,读透.供给有关舆情、负面舆情、热门信息的发现、主题事件监测、分类监测、舆情及时预警、舆情看管、统计剖析、协助决议支持等多层次、多维度的舆情信息服务,依据用户的网络舆情监测和定向追踪等信息需求形成简报、报告、进而帮助用户及时掌握舆情动向.为领导和舆情工作部门供给信息参照和决议支持.网络舆情监控系统由信息采集、信息办理、舆情剖析、舆情显现四部分构成.对武警队伍而言,舆情监测的需求既有通用性,也有个性化的特色存在;网络舆情监测系统拥有极大的扩展性,凡是需要对舆情、口碑关注的政府、公司、高校和其余组织机构都能够经过本系统进行量身打造,成立合适自己的舆情监测系统.网络舆情监控系统采纳B/S构造相联合的系统架构,利用先进的系统架构,实现鉴于阅读器的客户端式.六、工作流程网络舆情监测系统的工作流程是:1.网络信息米集系统从互联网上米集新闻、 论坛、博客、储存到舆情数据库中,并经过舆情搜寻引擎对海量的舆情数据进行及时索引.舆情剖析引擎负责对舆情数据库进行冲洗、智能剖析和加工.舆情剖析引擎依靠于智能剖析技术和舆情知识库.舆情服务平台把舆情数据库中经过加工办理的舆情数据公布到Web界面上并显现给用户.用户经过舆情服务平台阅读舆情信息,经过简报生成等功能达成对舆情的深度加工和平时看管工作.七、系统功能网络舆情监控系统,是将搜寻引擎技术应用在队伍舆论情报服务的一次创新.系统利用独有技术,能依据预约的监控要点词在及时发现要点媒体、论坛、博客、微博等网站里的舆情信息,并对信息及时报警.系统利用中文分词技术、自然语言办理技术、中文信息办理技术,对信息进行垃圾过滤、去重、相像性聚类、感情剖析、提取纲要、自动聚类等办理,配合专业剖析师生成详尽的舆情剖析报告.信息采集自动采集系统是舆情监测系统的核心与基础,所以议论一个舆情监测系统能否优异的重要指标就是自动采集子系统可否将目标信息及时全面地采集到系统中.信息采集子系统的职责是对所有网站进行自动采集. 系统内置重点网站有:新闻类门户网站:如新浪网、网易、人民网、雅虎 政府机构门户网站:如国都之窗、中国政府网、各地政府网 信息资讯网站:各地信息港、行业咨询网 交互性质网站:如强国论坛、、西祠社区、网易区、、、 BBS贴吧 (5)传统媒体:人民日报、参照信息、中国日报、解放军报、各省市地域报纸、各地新闻网等媒体网络版(6)博客:新浪博客、腾讯博客、网易博客、博客中国、博客网 (7)微博:Twitter、新浪微博、腾讯微博、网易微博、搜狐微博 (8)视频网站:Youtube、优酷、土豆网、56视频、酷6网 (9)搜寻引擎:Google、BaiDu、Bing、Yahoo、搜搜、有道 (10)交际网站:FaceBook、Google、、豆瓣、、QQ群、QQ空间 信息采集了系统能够抽取所有新闻文章或主题贴或着最新主题贴内容,还能够抽取某个主题贴的所有答复贴或着最新答复贴的内容.即可指定某个目标网站进行监测,也能够不指定目标网站对于全球范围内网站进行监测,或着进行二者混淆监测.即能够监测国内网站,也能够监测外国网站如BBC,CNN等.信息采集了系统还能够对于鉴于应用程序的聊天室程序监测,如 QQ群聊天室.全网爬虫系统自主研发了专为舆情系统设计的智能网络爬虫(spider);统,能够实现高质量和快速的抓取,还支持对新浪微博、腾讯微博、搜狐微博、网易微博等主要微博平台信息的及时抓取.定向抓取源舆情监测系统对于人工定义的要点站点的新闻、论坛、博客等实现全面的抓取,同时支持对主流新闻网站分页、议论内容的采集以及对论坛点击数、回贴数、回帖内容的抓取.搜寻引擎结果智能爬虫系统还能够自动追踪多个搜寻引擎的搜寻结果,对于系统抓取进行增补,保证信息全面无遗漏.多采集线程并行办理簿本系统能够部署在多台计算机上,实现高效的多线程同时并行办理,减少单调服务器采集压力.强盛的多语言一致办理功能可自动办理并保留中文,英文,阿拉伯语,法文,德文,日语,韩语等多国语言,且有多国语言同时并存监测的实质事例.智能文章提取对于文章种类网页,能够无需配置,直接自动提取文章正文与标题,以及作者公布日期,本源等,自动去除广,栏目,版权等没关的垃圾内容.这个功能对于舆情监测特别重要,能够大大免去配置的负担.该功能经过我们的多年测试,对于绝大多数文章型页面都可自动正确辨别.可无人值守全天候自动采集可准时行,也可7*24小时运转,可设置采集时间间隔最短为1分钟信息办理垃圾信息过滤鉴于机器学习的垃圾过滤体制能够自动过滤广告、水贴等无效垃圾信息.智能去重采纳"文章相像性技术"依据文档内容的般配程度确立能否重复.去重的级别;依据不一样的需要特色分为:URL去重、标题去重、正文去重三个级别.HTML内容提取采纳自主知识产权的HTML网页文本萃取技术自动提取任意复杂网页中的标题、内容、作者、公布时间等信息,自动追踪文章分页;对于论坛信息自动剖析主贴、回帖以及作者等信息.快照保留对于每个经过抓取和办理的网页,系统都存有一个纯文本的备份,方便用户快速阅读,也方便用户查察被删除的文章或帖子舆情剖析文章权重计算综合网站重要程度、文章出现地点、主题有关度、点击答复次数、流传数目以及用户自定义规则等复杂参数计算的文章权重, 加上鉴于自然语言办理技术的训练系统,能正确剖析出重要舆情信息.流传轨迹剖析系统能够对于一段时间(自定义范围)内的舆情信息走势进行剖析显现,同时能够以不一样的载体如论坛、新闻平分类体现.自动分类与感情剖析将自然语言办理技术(SLP)应用与舆情监测领域,对信息精确分类并自动做感情剖析。相像文章算法鉴于自然语言办理技术,系统依据文章内容相像程度计算相像文章,方便获得同一内容文章的所有流传网站。迸发趋向剖析对于重要的热门新闻信息,系统会进行剖析和追踪,自动统计有关的新闻和论坛流传状况以及舆情的走势,进行迸发趋向剖析。舆情显现WEB客户界面鉴于云计算模式,用户能够使用WEB阅读器随时登岸系统,在客户界面对舆情状况进行全面的认识。客户界面包含了如舆情走势、舆情详尽信息、最新微博信息、载体覆盖状况等主要内容,并以列表以及图表显现等可视化方式体现,方便客户查察。导航栏清楚了然,方便用户查察各样分类;栏目定制功能,用户能够在首页自行删、减、增加所需要的功能模块。及时搜寻功能,用户能够自定义搜寻条件查察系统内抓取的最新监测信息;支持要点词组分类、媒体种类分类、信息属性分类查察。舆情预警预警级别显示,显示当天舆情级别,方便用户整体掌握,同时体现预警信息走势和预警信息列表。成立多个舆情指示,对于突发舆情自动发出预警信号,在最短时间内通太短信或邮件方式通知用户,协助进行舆情干涉和指引。舆情剖析报告依据舆情剖析引擎办理后的结果库生成报告,用户可经过阅读器阅读,而且能够各处生成为word、PDF等格式的当地文档。专业行业剖析师协助供给有关日报、周报、月报,方便客户对不一样时段的要点和热门进行掌握。对于突发事件供给详尽的事件专题剖析报告,对时间舆情数据进行有针对性的解读。八、应用成效本系统对互联网进行及时的自动采集,剖析,汇总,监督,并辨别此中的要点信息,清除无用信息,及时通知到有关人员,进而为第
一时间踊跃应急响应负面信息,是正确舆论导向供给工具,采集舆情信息的信息化系统。比较指标人工检测采纳本系统及时性不及时,任意性强每10分钟采集一次要点目标网站人工发现事件时间晚,比较被动,人工通知到责任人自动主动发现事件,时间及时,主动通知责任人人力成本需多人在工作时间,分别登岸各个网站,手上查阅,还要手上复制黏贴,疲于奔命整年7*24小时无人值守,网络信息的获得工作完整由软件自动进行,检测人员只要在内网集中进行内容的阅读、精选、分类、剖析信息保留琐碎,不行防止会犯错精确,全面,便于过后追踪数据储藏word文件,分别,很难管理,备份与恢复不方便。一致寄存在大型关系数据库中,集中管理,方便备份与恢复监测报告鉴于手工统计加估计,数据支持不充足针对各维度的自动化的统计剖析,图文并茂,拥有翔实统计数据支持,能够每天,每周,每个月出报告监测成效覆盖片而,不及时,差强者意,浪费人力覆盖全面,及时,自动化,系统化资源九、系统配置网络带宽依据采集板块的数目不一样,要求的网络带宽也有所不一样:300个板块之内建议起码5M,300-5000个板块建议在10M-15M;5000-10000个板块建议在15M-2041之间;此外,带宽与多线程接见有关系,假如带宽大则能够调整线程个数,支持信息的更新快,假如带宽小则调小线程数据量,信息更新相对较慢。运转环境网络爬虫服务器介绍配置一台网络爬虫服务器支持采集500个板块的信息,所以爬虫服务器配置的数目应依据需要采集板块的数目来定,如采集2800个板块需要6台服务器(不可以采纳一合超高性能的服务器来代理, 不然采集周期会加长),爬虫服务器的配置要求以下表所示:配置项描绘CPU双核至强以上内存4G500个模块硬盘320G操作系统 MicrosoftWindows2003Server
MicrosoftWindowsServer2008R2WEB管理服务器介绍配置WEB管理,配置由用户数目来定,详系统采纳一台服务器进行细配置以下:接见人数配置项描绘300人之内CPU双核至强以上内存4G硬盘250G300-3000CPU双核至强以上内存8G硬盘500G3000-10000CPU四核至强以上内存8G硬盘1TBCPU四核二路至强以上内存16G硬盘1TB20000以上CPU依据详细状况配置内存依据详细状况配置操作系统MicrosoftWindows2003ServerMicrosoftWindowsServer2008R2
数据库服务器介绍配置系统需一台数据库服务器,七配置依据采集板块的数目来定, 建议采纳磁盘阵列动向扩大容量,详细配置以下:采集板块数目配置项描绘200之内CPU双核至强以上内存4G硬盘1TB200-1000CPU双核至强以上内存8G硬盘2TB1000-5000CPU四核至强以上内存8G硬盘3TB5000-10000CPU四核二路至强以上内存16G硬盘6TB10000以上CPU依据详细状况配置内存依据详细状况配置操作系统MicrosoftWindows2003ServerMicr
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 认知疗法基础与应用
- 朝鲜族医学的特色疗法
- 溃疡性结肠炎急性发作处理及饮食调理护理
- 足球踢球训练课件
- 2026 儿童适应能力教育革新适应课件
- 参与式农村评估
- 阿尔茨海默病症状与护理要点
- 教师职业科研规划
- 中国职业规划师认证课程
- 自动化专业就业方向解析
- 林地联营协议合同范本
- T-CS 111-2025 建设工程 施工周边工程监测技术规程
- 高压试验基本知识培训课件
- 眼视光特检技术 第3版 课件 第十三章 角膜共聚焦显微镜
- 2025年四川宜宾市初中学业水平考试地理试题真题(含答案详解)
- 2025年广东九年级物理中考三轮冲刺之题型过关综合能力题 科普阅读题(含答案)
- 安装学生床合同范本
- 外墙水泥发泡板专项保温施工方案
- 间质性膀胱炎护理常规
- 多轴加工项目化教程课件 项目四 任务4-1 陀螺仪基体加工
- 货物追加采购合同范例
评论
0/150
提交评论