互联网信息搜索与监测系统-网络舆情_第1页
互联网信息搜索与监测系统-网络舆情_第2页
互联网信息搜索与监测系统-网络舆情_第3页
互联网信息搜索与监测系统-网络舆情_第4页
互联网信息搜索与监测系统-网络舆情_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

江苏金鸽网络科技有限公司 ISO9001/ISO27001/CMMI三互联网信息搜索与监测系统白皮书江苏金鸽网络科技有限公司2014年7月 16 / 16目录一、开发背景1二、系统概述1三、系统结构2四、功能简介3(一)信息采集3(二)信息监测4(三)智能分析5(四)信息预警5(五)统计报告6(六)舆情导控7(七)辅助功能8(八)系统管理9五、系统特色9(一)深度与广度相结合的信息采集方式9(二)基于语义的负面信息过滤技术9(三)智能的行业核心智能体10(四)信息采集智能调度10(五)属性自动提取技术10(六)来源规则匹配技术10(七)黑名单网站自动发现技术10(八)移动终端信息展示技术11六、运行环境11七、公司资质13八、联系方式14一、 开发背景根据第33次中国互联网络发展状况统计报告,截至2013年12月,中国网民规模达6.18亿,互联网普及率为45.8%。其中,手机网民规模达5亿。中国进入“大众麦克风”时代,各类网络媒体如微博、微信等新兴媒体层出不穷,导致社会舆论格局发生巨大变化,每一位网民和手机用户都可能成为“公民报道者”,在一些突发公共事件中经常成为第一信源。特别是微博客、微信的异军突起,成为新闻曝光和舆论发酵的重要平台,信息的传播速度足以在数小时内传遍全球,因此,及时掌握舆论相关信息,无论对政府还是企事业单位,都有着至关重要的意义。由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过这种渠道来表达观点、传播思想。但是,网络信息存在很大的不可控性,使网络更容易成为一种非理性的表达渠道,任何一个被关注的事件,都容易在网上产生舆论风暴效应,短时间内形成新闻热点,进而对政府、公众产生巨大的舆论压力。为了有效的解决舆情管理工作中存在的滞后、被动的弊端,达到全面、及时的获取互联网信息的目的,需要建立互联网信息搜索与监测系统,形成全方位的监测网络体系,实现手工监测模式向信息化监测模式的转变。二、 系统概述互联网信息搜索与监测系统软件,是一款集信息的搜索、采集、分析、预警、整合、呈报、导控为一体的海量信息挖掘工具软件,以实现“发现信息源头,追踪传播路径,监控传播主体,导控舆论倾向”为总体目标。系统针对不同行业的业务需求,在领域专家的协助下,实现对互联网上的论坛、博客、新闻、贴吧、微博、搜索引擎、微信等各类媒介信息的精准搜索与实时监测;系统采用自然语言理解、知识挖掘、本体构建等核心技术,对信息进行有效的提取、分析、过滤、聚类、分类和预警,以满足广大用户对信息“及时性、全面性、智能性、精准性”的使用要求;系统提供官方信息权威发布和精准信息定向回复功能,以达到“早监测、早发现、早处置、早导控”的目的。三、 系统结构系统采用 B/S(BrowserServer,浏览器服务器)系统结构。数据的分析和存储由位于网络中心的服务器处理,不管是系统管理员还是终端用户,都通过浏览器来访问本系统获取、分析和处理信息。这种结构能做到真正的分布式网络计算,有效降低网络流量,减轻客户端负担,还能安全、方便地与互联网接口。另外用户分布或行走于全国各地,通常都有移动办公需求,系统提供移动终端访问接口,用户只需随身携带移动通信设备,就可以访问系统,获取最新舆情信息。系统结构图四、 功能简介系统首页(一) 信息采集系统采用定向采集和全网搜集相结合的信息采集方式,针对与日常业务具有密切关系的网站进行实时监控,使网站的任何新的信息能快速及时的被采集。(1)内置的搜索信息整合功能系统内置了几十个搜索引擎,支持对知名新闻媒体、论坛、贴吧及微博网站、微信平台的站内垂直搜索,扩大了信息采集的范围。管理员根据系统的运行状态、服务器资源使用情况,灵活设置搜索引擎的启用或暂停,提升系统搜索引擎的自动调度能力。采用基于知识库的信息提取技术,过滤掉部分无效的信息,提取出关键、敏感的信息,达到精确搜索。 (2)新闻、资讯类网站的采集系统支持对新闻网站上的新闻、资讯信息的采集,可以采集信息中的标题、作者、来源、时间、正文、点击率等信息项,可采集网站包括新华网、人民网、中国政府网、新浪新闻、搜狐新闻、联合早报、路透中文网、中国网、环球网、网易新闻、正义网等等。(3)博客类网站的采集系统支持对博客网站上的博文信息进行采集,可以采集博文标题、发表时间、内容、标签、分类、评论、评论人、阅读人次、转发量等信息项,可采集网站包括新浪博客、博客网、网易博客、搜狐博客等等。(4)论坛、贴吧类网站的采集系统支持对论坛、贴吧网站上的发帖回帖信息进行采集,可以采集帖子标题、发表时间、发帖人昵称、帖子内容、浏览次数、回复次数、回帖人昵称、每个回帖内容等信息项,可采集网站包括强国论坛、天涯社区、西祠胡同、新浪论坛、百度贴吧等等。(5)微博、微信类网站的采集系统支持对新浪、腾讯、搜狐、网易等各大微博网站上的信息进行采集,同时支持对微信平台信息的搜索采集,可以采集微博网站首页的热点信息、各行业及政府机关的官方微博信息、指定用户ID的微博上的信息。(6)个性化采集目标的一键式配置过程用户除了可以在公共采集目标中勾选自己所关注的采集目标外,还可以自己新增自定义采集目标,自定义采集目标是用户个性化的,只有管理员可以看到,其他用户是看不到的。系统采用自动化的采集目标配置过程,用户只需要输入网站的地址,就可以实现的对该网站的采集。网站的类型、编码、时间格式以及版面、子版面等信息参数系统都能自动获取,无需用户配置。(二) 信息监测系统将互联网的信息监测分为六种:本我监测、业务监测、行业监测、人员监测、事件监测、定向监测。本我监测,主要监控网络上与本单位密切相关的信息,比如信息中提到本单位的某个人、某个部门或者某件事,只要涉及到本单位的信息,就可以监测到,并自动归集到预先设定的本我监测类别。业务监测,主要监控网络上与本单位业务范围密切相关的信息,比如检察院,关注的就是检察系统工作中感兴趣的信息,为检察工作提供案件线索、分析事件发展态势等,比如反贪、渎职、公诉等等相关的信息,只要与本单位业务相关,就可以监控到。行业监测,主要监测互联网上同行业兄弟单位的最新信息。人员监测,主要用来对本单位主要领导、关键岗位或对本单位影响较大的相关人员的监测,采用智能化生成规则的方式,可根据用户需要,生成几十、几百、甚至上千条监测规则。事件监测,主要是针对已发生的或者将来可能发生的重大突发性事件进行监测。用户可以选取系统内置的特征词,也可以自定义需监测事件的特征词,用来完成对网络上舆情信息的有效挖掘、及时监测。定向监测,可以对新浪、搜狐、腾讯、网易等主流微博进行定点监测,还可以对百度贴吧、微信进行定点监测,保证第一时间获取关注对象的信息。(三) 智能分析系统采用多维的信息分析统计技术,对网络突发事件从发生、蔓延、高潮和缓和各个阶段的信息分布、媒体传播趋势、媒体分布及起源信息进行分析,并以图文并茂的形式直观展示网络舆情的动态。智能分析(四) 信息预警监测预警是一种时效性要求很高、重要程度要求很高的精准网络舆情监测功能。监测预警包括监测和预警两个过程,当系统监测到舆情信息后将及时发出预警,让相关人员第一时间掌握舆情状况。本系统预警方式分为三种:在线弹框预警、手机短信预警和电子邮件预警。系统采用信息分级预警机制,用户可根据自身需求自由设置信息的预警方式、预警周期、预警对象以及预警条件。用户可以设置当系统监测到突发事件发生时,以短信、邮件等方式及时通知相关人员,实现及时预警、快速处理舆情的效果。用户无需时刻盯在电脑桌前就可查看和处理最新的监测信息,真正实现把用户从繁忙的舆情监测工作中解放出来。预警设置(五) 统计报告系统提供舆情专报、简报和舆情统计汇总表三种报告形式,用户可以针对某个舆情事件生成专报,记录事件的来龙去脉,也可以从信息列表中勾选一些重要的信息生成信息简报,向相关领导汇报,还可以统计一段时间内的舆情详细信息,方便管理人员整理归档,此外系统还支持专报的自动生成功能。系统提供媒体统计、专题统计和预警统计三项综合统计功能。媒体统计功能可以直观的反映出近阶段用户的工作重点偏向于哪些媒体,在舆情引导工作方面做到“有的放矢”。专题统计功能可对比反映出各个专题监测的当前网络转播态势,指导用户开展处理工作的优先。媒体统计(六) 舆情导控舆情导控包括舆情管理、导控日志两个功能。舆情管理实现单位重大舆情信息的归集管理功能。本功能提供论坛、贴吧、微博的官方权威信息发布功能。结合系统中的媒体分布分析、信息起源追踪等功能,系统可以通过发布官方声明、事实真相、表明态度等信息,预防舆论激化、舆论一面倒的情况出现。除了官方权威信息发布,系统还提供各大论坛、微博、贴吧的定向回复功能,对于个别信息进行有针对性的一对一对话,通过回复网上的帖子、微博、贴吧等澄清事实真相、警告煽风点火的网民,从而到达引导舆论走向、将不好的苗头扼杀于萌芽状态的目的。权威信息发布导控日志记录用户的官方权威发布、信息定向回复的操作日志,同时记录舆情导控操作的反馈结果,如某某论坛发布信息成功等。(七) 辅助功能账号管理账号管理功能用于微博、论坛、贴吧等账号信息的新增、修改和删除,添加的账号可用于系统采集信息、发布信息和回复信息。通讯录通讯录功能用于设置当前用户的通讯录信息,包括联系人的姓名、人员类型、手机号码、邮箱地址等信息。通讯录设置的信息可用于用户推送信息时,推送目标的选取;预警设置时,预警目标的选择;报告生成时,推送目标的选择。规则管理规则管理功能用于新增、修改、删除系统的专题规则,包括正文规则、来源规则和预警规则。媒体管理媒体管理功能可以自定义媒体来源中的网站行业分类、地域分类和媒体类型,系统在检索信息时可根据网站域名自动过滤信息。快捷检索快捷检索功能用于检索系统信息, 支持四元组搜索。用户可通过已知关注点的检索结果发现新的关注点和关注信息,从而对系统监测进行查漏补缺。(八) 系统管理包括用户管理、网络设置、参数设置、登录日志等,可对用户账号进行管理,也可对系统网络环境进行设置。权限控制系统提供完善的用户权限管理机制,既充分保证了系统的安全性,又保证了各用户之间信息的私密性。用户创建的监测专题、预警方式、专报、简报等实行相互隔离,其中系统管理员可以统一管理用户创建的监测专题,帮助用户维护监测专题。用户可以将获取到的信息推送给指定的联系人,实现舆情信息协同处理。系统状态用于查看系统设备当前的各项性能指标,包括CPU、内存、硬盘、网络资源使用情况,系统线程调度状态、采集规则队列情况、采集信息数、授权信息等。五、 系统特色(一) 深度与广度相结合的信息采集方式系统采用搜索整合和定向采集相结合的信息采集技术,既可以做到对网络舆情信息的全面搜索,又可以有针对性的对指定的论坛、博客、新闻、贴吧、微博等媒体的深度采集。真正做到网络舆情的全面采集,不留死角。(二) 基于语义的负面信息过滤技术由网络知识工程专家精心搜集分析整理的一套涵盖了公职人员工作、生活特征、职位、行业特征、地域等各方面的本体知识库。基于知识库,系统动态内置一套涵盖了所有系统用户所属行业的行业负面库,结合智能的语言分析技术进行监测信息的相关性及负面性过滤,极大的提高了系统信息的精准性和智能性。(三) 智能的行业核心智能体系统由专门的知识工程研究小组搜集分析整理出一套完备的核心智能体,包括行业本体库及通用本体库。其中行业本体库涵盖了全国各类行业的行业指代词、特有职位和业务关键词,通用本体则包含了公职人员的行为特征库、职位库和公共组织库。依托完备的核心智能体,配合精密的逻辑算法,系统可以根据不同用户所属行业及地域,自动生成成百上千条与其相关的日常监测规则,用户也可以在规则管理中手动添加修改删除日常监测规则,还可以添加URL规则来指定监测某些媒体网站,实现关键词规则与定向网站相结合的监测方式。(四) 信息采集智能调度系统通过对设备服务器各项资源使用情况的查看,对信息采集进行智能调度,根据系统资源使用情况灵活设置信息采集时系统资源的分配,来提高采集速率,使其在几分钟内就可以获取到采集目标上的信息。系统可以同时监测上千个采集目标,可以在30分钟内获取到指定的200个采集目标上的信息。(五) 属性自动提取技术系统通过自然语言分词技术,自动将文章的人物、地点、时间、关键词等提取出来,通过对这些人物、地点、时间的整理分析,形成对互联网事件人物的情报信息统一管理。(六) 来源规则匹配技术系统采用来源规则与关键字规则相结合的方式,既可按关键字监测,也可以按定向网站地址与关键字组合监测,使系统监测方式更为灵活多变。(七) 黑名单网站自动发现技术系统可自动发现广告、小说、旅游类的网站,并将其归入黑名单网站,对这些网站上的信息进行自动屏蔽,减少系统中的无用信息。(八) 移动终端信息展示技术系统除了支持普通WEB页面访问外,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论