舆情监控产品推广20111024_第1页
舆情监控产品推广20111024_第2页
舆情监控产品推广20111024_第3页
舆情监控产品推广20111024_第4页
舆情监控产品推广20111024_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、舆情监控产品介绍舆情监控产品介绍蔡毅 2011年10月内容概要内容概要 产品背景 产品主要功能 产品关键技术 产品开发计划 产品模块划分 同类厂家产品对比 产品优势和劣势 附录:老系统截图产品背景产品背景 供电局办公室新闻中心或相关部门有专门的信息员,定期供电局办公室新闻中心或相关部门有专门的信息员,定期通过人工搜索的方式,来收集所需关注的新闻舆情信息,通过人工搜索的方式,来收集所需关注的新闻舆情信息,以获取有利和不利的资料,方便进一步跟踪和处理。以获取有利和不利的资料,方便进一步跟踪和处理。 深圳供电局目前已经通过舆情监控系统实现了自动化搜索深圳供电局目前已经通过舆情监控系统实现了自动化搜索

2、舆情信息,提高了办公室的工作效率。舆情信息,提高了办公室的工作效率。 现阶段,在深圳供电局的系统基础上,进行产品开发和包现阶段,在深圳供电局的系统基础上,进行产品开发和包装,向公司更多客户进行推广。装,向公司更多客户进行推广。产品功能产品功能 系统大体分为四大部分:舆情自动采集引擎、舆情管理平系统大体分为四大部分:舆情自动采集引擎、舆情管理平台、舆情分析统计平台和舆情基础数据平台。台、舆情分析统计平台和舆情基础数据平台。产品功能产品功能 舆情自动采集引擎舆情自动采集引擎 1 对目标网站进行信息自动抓取,支持对目标网站进行信息自动抓取,支持HTML页面内各种页面内各种数据的采集。数据的采集。 2

3、 配合元搜索引擎和配合元搜索引擎和web爬虫技术,保证信息的完整性和爬虫技术,保证信息的完整性和准确性。准确性。 3支持自由定制,可针对重点网站实现全站监控、定点监支持自由定制,可针对重点网站实现全站监控、定点监控。控。 4 超链分析、正文抽取、编码识别、关键词抽取、锚文件超链分析、正文抽取、编码识别、关键词抽取、锚文件处理、内容去重处理、内容去重产品功能产品功能 舆情管理平台舆情管理平台 1 将搜索到的网页内容以及快照进行保存和留档。将搜索到的网页内容以及快照进行保存和留档。 2 舆情信息自动分类舆情信息自动分类 3 正负面新闻自动设置正负面新闻自动设置 4 舆情信息在线和离线查看舆情信息在

4、线和离线查看 5 舆情自动预警(短信、邮件方式)舆情自动预警(短信、邮件方式)产品功能产品功能 舆情分析统计平台舆情分析统计平台 1 舆情新闻查询和浏览。舆情新闻查询和浏览。 2 舆情新闻管理(设置管理用的相关标识和信息)舆情新闻管理(设置管理用的相关标识和信息) 3 自由上传舆情新闻的附件自由上传舆情新闻的附件 4 生成舆情报告以及各类文字和统计图表生成舆情报告以及各类文字和统计图表 5 支持导出支持导出excel和和word功能,方便给领导汇报功能,方便给领导汇报 6 通过多维度如正负面新闻数量、热度分析、来源媒体、通过多维度如正负面新闻数量、热度分析、来源媒体、舆情榜等,提供多样化辅助统

5、计舆情榜等,提供多样化辅助统计产品功能产品功能 舆情基础数据平台舆情基础数据平台 1 分类管理和维护。分类管理和维护。 2 关键字管理和维护。关键字管理和维护。 3 采集参数设置。采集参数设置。 4 媒体信息以及通讯录设置。媒体信息以及通讯录设置。 5 采集日志查看(管理员使用)。采集日志查看(管理员使用)。产品关键技术产品关键技术 元搜索引擎元搜索引擎 Web信息抽取技术信息抽取技术 结构化采集技术结构化采集技术 自然语言智能处理自然语言智能处理 全文检索全文检索 产品关键技术产品关键技术 元搜索引擎元搜索引擎 元搜索引擎不同于谷歌、百度等通用搜索引擎,它是建元搜索引擎不同于谷歌、百度等通用

6、搜索引擎,它是建立在多个搜索引擎之上的集成系统。它可汇集多个搜索弓立在多个搜索引擎之上的集成系统。它可汇集多个搜索弓l擎的搜索结果,同时主动帮用户获取各大搜索引擎最佳擎的搜索结果,同时主动帮用户获取各大搜索引擎最佳结果,并按重要性和热门程度有序排列,以保障结果精准结果,并按重要性和热门程度有序排列,以保障结果精准而全面。而全面。 元搜索发展历史在国外已逾十年,尤其在美国,已为人元搜索发展历史在国外已逾十年,尤其在美国,已为人们广泛认可和应用。由于元搜索引擎无需建立自己的庞大们广泛认可和应用。由于元搜索引擎无需建立自己的庞大的索引数据库和复杂的检索机制,维护起来比较容易,因的索引数据库和复杂的检

7、索机制,维护起来比较容易,因此是目前解决通用搜索引擎存在问题的最佳方案,元搜索此是目前解决通用搜索引擎存在问题的最佳方案,元搜索技术也越来越成为计算机界研究的热点。技术也越来越成为计算机界研究的热点。产品关键技术产品关键技术 Web信息抽取技术信息抽取技术 爬虫能够抓取的是原始的网页,爬虫能够抓取的是原始的网页,垃圾内容垃圾内容所占比例甚至所占比例甚至超过超过80%,这对于计算机的智能文本处理构成很大威胁,这对于计算机的智能文本处理构成很大威胁,因此,需要因此,需要抽取抽取其中真正有用的部分,或者其中真正有用的部分,或者过滤过滤垃圾垃圾内容,学术界称之为内容,学术界称之为信息抽取信息抽取。互联

8、网上的网站风格、。互联网上的网站风格、网页版式、内容结构千变万化,采用一种技术完成数据的网页版式、内容结构千变万化,采用一种技术完成数据的提取,自然十分困难,因此成为当前学术界的研究热点。提取,自然十分困难,因此成为当前学术界的研究热点。现有的现有的web信息抽取技术大致可以归纳为基于统计理论的、信息抽取技术大致可以归纳为基于统计理论的、基于视觉特征的、基于基于视觉特征的、基于DOM树结构的和基于模板的几类。树结构的和基于模板的几类。由于网页文本本身具有树结构并且具有一定的相似性,基由于网页文本本身具有树结构并且具有一定的相似性,基于于DOM树结构和基于模板的抽取技术发展很快而且已经树结构和基

9、于模板的抽取技术发展很快而且已经得到了广泛的应用。得到了广泛的应用。产品关键技术产品关键技术 结构化采集技术结构化采集技术 结构化数据采集引擎一般涉及到两类技术,一部分是网页结构化数据采集引擎一般涉及到两类技术,一部分是网页遍历技术,也就是人们常说的爬虫,因为很多动态网站的遍历技术,也就是人们常说的爬虫,因为很多动态网站的页面连接不是普通连接,而是由脚本动态生成,所以爬虫页面连接不是普通连接,而是由脚本动态生成,所以爬虫必需能理解必需能理解URL构造模式,这可以借助一定的配置文件完构造模式,这可以借助一定的配置文件完成。另一部分是结构化内容识别技术,能够从文本型网页成。另一部分是结构化内容识别

10、技术,能够从文本型网页中识别出不同字段的内容,例如作者、发布时间、联系电中识别出不同字段的内容,例如作者、发布时间、联系电话等,并进行数据存储,以满足多维度的信息挖掘和统话等,并进行数据存储,以满足多维度的信息挖掘和统计需要。计需要。产品关键技术产品关键技术 自然语言智能处理自然语言智能处理 自然语言处理是计算机科学领域与人工智能领域中的一个自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理并不是一般地有效通信的各种理论和方法。自然语言处理并不是一般地研究自

11、然语言,而在于研制能有效地实现自然语言通信的研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。计算机系统,特别是其中的软件系统。 应用在舆情监控系统中的核心技术有:自动分词、自动关应用在舆情监控系统中的核心技术有:自动分词、自动关键词、自动摘要、自动分类、自动聚类、相似性检索和查键词、自动摘要、自动分类、自动聚类、相似性检索和查重。重。产品关键技术产品关键技术 全文检索全文检索 全文检索是一种将文件中所有文本与检索项匹配的文字资全文检索是一种将文件中所有文本与检索项匹配的文字资料检索方法。全文检索系统是按照全文检索理论建立起来料检索方法。全文检索系统是按照全文

12、检索理论建立起来的用于提供全文检索服务的软件系统。的用于提供全文检索服务的软件系统。 功能上全文检索系统需要具有建立索引,处理查询返回结功能上全文检索系统需要具有建立索引,处理查询返回结果集,增加索引,优化索引结构等功能。结构上具有索引果集,增加索引,优化索引结构等功能。结构上具有索引引擎,查询引擎,文本分析引擎和对外接口等。引擎,查询引擎,文本分析引擎和对外接口等。产品开发计划产品开发计划产品初步规划为按照以下三个阶段进行: 第一阶段(2011年10月8日11月8日):实现产品必需的技术研究,确定开发框架、一键安装、原系统抓取程序的迁移、产品外壳程序的开发、以及产品开发具体模块的确定。 第二

13、阶段(2011年11月9日-12月8日):针对具体规划的产品模块完成产品的开发工作,形成可实施版本。 第三阶段:每个月列一个计划,以8号为时间点,进行版本升级改造工作。产品模块划分产品模块划分 采集引擎采集引擎 1 定时采集定时采集 2 实时采集实时采集 3 定向采集定向采集 4 全网采集全网采集 5 提取正文提取正文 6 自动分类自动分类 7 正负面新闻自动识别正负面新闻自动识别 8 舆情预警(短信、邮件、系统弹出窗口)舆情预警(短信、邮件、系统弹出窗口)产品模块划分产品模块划分舆情管理舆情管理 1 采集新闻管理采集新闻管理 (手动编辑新闻,提供维护标题、作者、时间、敏感话题、舆情热点、(手

14、动编辑新闻,提供维护标题、作者、时间、敏感话题、舆情热点、来源地区等相关信息,将感兴趣的新闻进行确认操作,删除新闻,导来源地区等相关信息,将感兴趣的新闻进行确认操作,删除新闻,导出新闻列表和内容,支持网页和快照图片方式的离线和在线浏览,新出新闻列表和内容,支持网页和快照图片方式的离线和在线浏览,新闻查询,短信邮件通知,修改轨迹查看)闻查询,短信邮件通知,修改轨迹查看) 2 采集新闻浏览采集新闻浏览 开放部门浏览权限的用户进行已确认新闻的查看开放部门浏览权限的用户进行已确认新闻的查看 3 采集新闻搜索采集新闻搜索 全文检索、时间检索、相关性检索、来源地区检索、精确检索、模糊全文检索、时间检索、相

15、关性检索、来源地区检索、精确检索、模糊检索检索产品模块划分产品模块划分 舆情分析统计舆情分析统计 1 统计各大新闻媒体中正负新闻的个数,并可以进入查看统计各大新闻媒体中正负新闻的个数,并可以进入查看具体新闻具体新闻 2 统计手动编辑新闻的个数,并可以进入查看具体新闻统计手动编辑新闻的个数,并可以进入查看具体新闻 3 统计近期热点新闻的个数,并可以进入查看具体新闻统计近期热点新闻的个数,并可以进入查看具体新闻 4 统计敏感话题新闻的个数,并可以进入查看具体新闻统计敏感话题新闻的个数,并可以进入查看具体新闻 5 各类别舆情趋势统计,并可以进入查看具体新闻各类别舆情趋势统计,并可以进入查看具体新闻

16、6 舆情汇总报告舆情汇总报告 产品模块划分产品模块划分 基础数据管理基础数据管理 1 媒体管理媒体管理 2 关键字管理(原采集设定模块)关键字管理(原采集设定模块) 3 通讯录管理通讯录管理 4 舆情类别管理舆情类别管理同类厂家产品对比同类厂家产品对比 同类厂家产品对比同类厂家产品对比 同类厂家产品对比同类厂家产品对比 产品优劣和劣势产品优劣和劣势 我们的优势我们的优势 1 公司通过公司通过CMMI 5级资质,研究电力行业领域的软件超级资质,研究电力行业领域的软件超过过10年,拥有良好的口碑和广泛的用户群年,拥有良好的口碑和广泛的用户群 2 我们拥有成熟的开发团队,为供电局客户开发并实施多我们拥有成熟的开发团队,为供电局客户开发并实施多个大中型项目,团队成熟度高个大中型项目,团队成熟度高 3 相比其他同行产品而言,我们的功能覆盖面广,实用性相比其他同行产品而言,我们的功能覆盖面广,实用性强,更贴近供电局用户的需要强,更贴近供电局用户的需要 4 我们的舆情监控系统在供电局客户中有成功实施案例我们的舆情监控系统在供电局客户中有成功实施案例 我们的劣势我

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论