科技信息检索及交通舆情系统解决方案_第1页
科技信息检索及交通舆情系统解决方案_第2页
科技信息检索及交通舆情系统解决方案_第3页
科技信息检索及交通舆情系统解决方案_第4页
科技信息检索及交通舆情系统解决方案_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录项目背景4客户需求4总体架构6实施建议8非结构化信息的智能管理8数据采集8信息检索8个性化内容关联9相关信息推送10自动问答10情感分析11维度分析11自动信息纠错11信息挖掘处理11分类12聚类12可视化管理12二次开发14多语言支持14海量数据存储14文档集中管理15文档管理15多层次权限控制15日志跟踪15文档元数据管理15完善的备份16提高文档安全性16舆情分析16热点事件发现16热点事件多层次分析17热点事件摘要19突发事件告警19敏感词监管20外部搜索引擎整合20热点词跟踪21自定义舆情分析21舆情BI入口22产品介绍23Spider23多语言支持23多数据源类型支持23关键内容自动提取24BBS抓取24自定义采集策略25Egg25面向非结构化数据的管理方式26动态域支持26内容检索支持27结构化查询支持27数据完整性支持28空间横向扩展支持28Scholar28自然语言分词28词性标注29语法分析29情感倾向性分析30关于我们32公司介绍32案例介绍33上海日报个性化报纸33上海热线门户搜索34号码百事通商情分析35财经媒体分析36项目背景随着计算机和网络的普及,陕西省交通厅(以下简称“省交通厅”)大量的利用计算机对文档进行处理,在省交通厅的日常办公过程中,产生了大量的电子文档,而且很多时候,这些文档以多种格式存在于各类完全独立的子系统中。面对如此大量、分散的电子文档,要如何对其从中迅速、准确的检索出用户所需要的信息,成为摆在人们面前的一大难题。同时,在互联网影响力日益增大的今天,各级党政机关、都越来越重视互联网民情、民意、舆论导向的监测、研究和引导(简称“网络舆情”)。胡锦涛同志近年来多次强调指出:“要建立社会舆情汇集和分析机制,畅通社情民意反映渠道。完善深入了解民情、充分反映民意、广泛集中民智、切实珍惜民意的决策机制”。新时期政府管理面临新的挑战,知识型政府的最大特点就是有科学的“智库”作为辅助管理手段。据统计目前全球85%以上的信息是来自互联网的非结构化数据,如何管理好、掌握好、处理好这些来自不同方面,特别是来自民众或群体的多样化视角的反馈和诉求,是政府在新时期维护社会稳定、建设和谐社会、促进社会发展的重要工作。客户需求通过前期与陕西省交通厅(以下简称“省交通厅”)的沟通和交流,省交通厅希望能够建立一套系统,对内部各类异构数据,包括常见办公文档、数据库信息以及互联网舆情提供统一管理平台。通过该平台,能够l 以异构的子系统中的文档、数据库以及互联网舆情,提供便捷的信息访问方式。l 及时了解互联网中关于省交通厅的舆情方向。l 有效利用现有各类信息,通过智能的分析,建立知识库,提升信息价值,为决策提供支持。本项目的建设目标是为省交通厅内部建设一套“信息以及舆情管理系统”(以下简称“本系统”),实现如下功能:l 对省交通厅内部的大量文档提供统一管理。这些文档包括Office、文本、XML等常见格式,并为各种专有格式提供定制服务。l 对省交通厅现有的数据库中的信息提供管理。这些数据库包括Oracle,MySQL,SQL Server,DB2等主流关系型数据库。通过本系统,将有效利用这些数据。l 对省交通厅在互联网中的舆情提供管理。本系统将从互联网上自动发现关于省交通厅的信息,并提供统一的入口与流程进行管理。l 为省交通厅建立专业的知识库。对内部的所有文档、数据库以及互联网上的舆情信息进行进一步的分析和挖掘,充分发掘现有信息资产的价值,为政府决策提供有力的支持。同时,通过本系统将信息转化为知识,同时实现丰富的智能应用,包括:智能检索、分类、聚类、信息关联、个性推送、语言网络等。由此可以分析,本系统是一个包含了:内容管理、数据采集、信息搜索、内容关联、内容个性化、分类聚类,支持海量数据和多维度信息应用的智能信息与舆情的管理、监控、服务平台。总体架构本系统将建立在如下埃帕酷灵搜索引擎产品家族(以下简称“酷灵搜索引擎”)之上,涉及到的产品有:l 酷灵信息采集产品(Cooling Spider);l 酷灵语义分析与数据挖掘产品(Cooling Scholar);l 酷灵分布式存储产品(Cooling Egg)其核心技术是“非结构信息采集与管理”、“智能语义分析技术”以及“数据挖掘”。整个处理流程简单描述如下:l 先通过采集工具(Cooling Spider)将信息从各异构信息源采集;l 采集到的信息保存在文档数据库(Cooling Egg)中;l 通过进一步的语义分析与数据挖掘(Cooling Scholar),对保存的信息进行分析;l 最后通过统一门户,为外部提供更具有价值的检索服务。系统处理流程图图下:因此,系统总体架构也是按照实际内容应用的流程实现,即从信息的采集与处理、数据提取与分析、存储和管理、应用与发布四个层次实现,总体架构如下图所示。实施建议针对陕西省交通厅的系统需求,我们建议在基于酷灵搜索产品的基础上进行构建,在采集源中增加特殊的文档采集,采用统一的Cooling Egg存储模式,统一数据的存储方式,同时对文档进行版本控制管、权限分层次管理、日志跟踪纪录,并且对互联网舆情信息进行采集、分类、聚类等多元话的分析形式,提供交通厅所需的有效数据。本系统主要包括以下四大方向:l 文档集中管理l 非结构化信息的智能管理l 信息挖掘处理l 舆情分析非结构化信息的智能管理数据采集本系统所用的数据采集工具是Cooling Spider。它可以从互联网或局域网抓取海量的信息并且提供非结构化信息的有效存储。spider支持多种信息源,包括:互联网,文档型数据,关系型数据库,定制信息源等。同时用户可以自己指定信息源,系统会自动实时进行信息采集。信息检索本系统的一个核心应用点是信息搜索。通过Cooling Spider采集的海量数据存储在Cooling Egg中时,如何高效的检索成为一个必须解决的重点。在经过多年的搜索研究后,结合交通厅的具体使用,本系统在基于关键字的搜索上,同时提供相似度排名搜索、以及相关信息的内容整合,将传统的单纯、片面的信息搜索转化为以用户为中心、提供精确搜索结果的新型搜索模型。关键字检索这是一种最常见的搜索方式,把一个或多个关键字作为搜索条件。同时支持多种逻辑运算操作符。酷灵搜索关键词搜索支持多国语言,不受地域的限制。相似度排名系统将利用生成索引时为各种概念动态计算出的理论值来评估内容的相似度。相似度可以视为查询文字和结果文档中文字在概念上的吻合度。对相似度进行排序,查找出需要搜索的内容与正文最接近的文章,提高用户搜索的准确性。使用相似度排名有以下主要优点:l 通过排序可以将更符合用户期望搜索的结果提前,从而更加符合用户的满意度。l 管理者可以针对各自业务的需求和每个员工的各自角色自定义相关度。l 准确地实施相似度可以提供搜索的准确率,节省时间。信息整合传统的多个数据库搜索,目前给搜索带来了很多问题。传统的数据库关系复杂,使用多个接口连接多个数据库。搜索所用的时间长,往往会出现网络延迟,这是在搜索中致命问题。酷灵搜索采用信息整合方式,将多个数据库整合在一起,只用一个接口搜索各个不同的数据库里的信息。这样做的优点有:l 实现搜索的批量性。l 搜索的速度快,这是传统数据库所不能达到的。l 只需要一个接口,进入所有的数据库、文档、甚至互联网的信息。个性化内容关联本系统支持内容的关联性分析,通过内容关联分析发现关联规则,关联分析广泛用于购物篮或事务数据分析。有一个关联规则的例子就是“90的顾客在购买面包和黄油的同时也会购买牛奶”,其直观意义为顾客在购买某些商品的时候有多大倾向会购买另外一商品。在舆情信息采集中,系统会自动对内容相关联的信息进行采集,并根据关联规则进行分析,将分析的结果推送用户查询。通过个性化内容关联,可以提高信息检索、信息分类、信息聚类的准确度,尤其在信息检索时,当用户在检索某一内容时,根据检索内容,本系统自动匹配内容相关的同义词、近义词、相似词,将这类内容也提供用户进行查询,提高了信息检索内容要求和内容准确性。在信息的分类、聚类时也将关联性分析得以充分应用。相关信息推送机器通过自动学习样本文章,建立知识模型。本系统根据用户的要求进行定制,创建包含不同行业分类的行业库,用户可依据个人喜好或根据行业需要,定制分类信息。机器从大量信息中,通过语义级搜索,真正有价值的信息并对获得的信息按照本系统自己的行业目录进行自动分类。本系统独有的自定义数据挖掘模型,分析用户行为与各类信息,按照用户需求的变动,不断完善行业目录,使分类更符合用户的实际需要。在此基础上,本系统提供信息推送,将分类信息展示在门户中,或者根据用户的自定义规则,将特定分类的信息定期的发送到用户的邮箱、手持终端,方便用户实时的查询自定义的信息内容。自动问答本系统将整合自动问答功能,对用户在检索一般性问答类数据时,系统将自动检索相关内容,并将结果提供给用户,可以为用户解决海量数据中查询内容的繁杂性。语义分析结合语法分析和语义模型,机器在理解用户所提出的自然语言提问后给出最适合的答案。如果用户对系统给出的答案不满意,系统会结合用户的问题给出类似的结果。若还不满意,本系统的自动问答系统提供自动搜索功能。语法分析主要分成:分词、词性标注、成分划分、相关词聚类、语法树构建最终将自然语言转化成机器语言,机器提取出用户问题的中心词,给出最准确的答案。针对领域问答本系统的自动问答系统能够针对某个特定领域,给出更准确的回答。本系统能够做到对各个行业信息精准地分类。用户提出专业性的问题后,系统经过语义分析后根据自己的知识模型找到所对应的领域,给出专业的回答。情感分析文本情感倾向性分析属于计算语言学的范畴。在计算语言学以及相关领域,研究人员以前普遍关注的是客观性信息的分析和提取,对主观性信息分析与提取的研究尚处于起步阶段,存在很多问题需要进行全面的探索。这项研究涉及到计算语言学、人工智能、机器学习、信息检索、数据挖掘等多方面研究基础,因此文本情感倾向性分析也具有重要的学术研究价值。本系统,对采集自互联网中的信息,依据信息的正负面、褒贬义程度、信息的发展趋势等多个方向进行情感分析,用户可根据自身检索信息需要,查看特定方向的情感分析结果,通过对情感分析,用户可以得知当前民众对交通厅的情感趋势,为交通厅在政策制定、行文出台等多个方面提供信息,避免不恰当的文件导致民众的过激行为。维度分析维度提取用于通过自然语言处理的方式提取句子的中重要修饰与被修饰成分,结合感情色彩分析,修饰成分被进一步量化。比如:这家饭店的服务非常好。通过维度提取后,得出了一个维度,即:服务:好。在对互联网舆情信息情感分析的基础上,通过对维度的多方位的分析,提取民众对于交通厅的评价类信息,并将这些信息按照不同的维度进行结果分类,以表格、图形化等多种形式将结果展示,为交通厅在政府服务方面提供导向。自动信息纠错当用户输入的信息有错误时,自动信息纠错功能会根据目前存在的关键字,自动匹配用户可能输入的搜索条件。例如当用户将“虹桥路”输入成“红桥路”时,搜索引擎会提示用户“您要找的是不是虹桥路”,并将关于虹桥路的所有信息显示给用户。本系统在用户使用信息检索时,会自动运行信息纠错,收集用户的检索习惯,同时结合数据信息分类的结果,自动为用户的检索条件进行信息纠错。信息挖掘处理本系统的核心是基于数据的信息挖掘,它是建立在Cooling Scholar语义分析与数据挖掘的基础上,通过对文档数据、数据库数据、互联网数据的深层次分析和内容挖掘,为用户提供多种形式的应用服务。分类Cooling Scholar语义分析模型是建立在当前最流行、自然语言处理最准确的最大熵模型基础之上。最大熵方法始于上世界90年代,开始用于大规模真实文本的处理,它在自然语言处理方面具有很好的灵活性、包容性和准确性,它可以对非常广泛的自然语言现象建立概念模型,可以综合观察到的各种相关或不相关的概率知识,对许多问题的处理结果都到达或超过了其它方法的最好结果。近些年来,最大熵模型被广泛地应用于自然语言处理中,包括分词、词性标注、词义排歧、短语识别、机器翻译等。本系统在采集文档数据、数据库数据、互联网信息数据的基础上,根据交通厅的特殊要求,建立基于内容的分类模型,通过对机器的不断训练,提高系统自动分类的准确性,方便用户在查找时能够迅速的找到所需要查询的内容。同时用户也可以在多层次权限控制的基础上,按照不同的分类规则,定制不同的内容,由系统自动进行分类,并提供给用户。聚类聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。本系统提供的聚类模型主要用于对互联网中的舆情信息进行聚类统计分析,通过将采集的信息进行聚类划分,将相似度较大的信息进行归纳,提供用户查询时可以进行全数据的检索,提高信息采集的多样性。同时系统对每天采集的舆情信息聚类,实时的监控互联网中出现的关于交通厅的负面性新闻报道及评论性内容。可视化管理在系统数据采集中,数据源的设置起着及其重要的作用。为了便于对Cooling Spider(爬虫)的配置和管理,系统提供了基于浏览器的图性化管理工具,方便用户对爬虫的配置和管理。爬虫管理采集源配置通过对爬虫的系统变量的设置,可以编辑数据源,增加需要采集的互联网舆情的信息网址,设置其必要的一些参数后,保存即可完成操作,方便用户在系统采集数据源时的不同需要。采集源变量自定义用户可根据自身需要,在数据源的变量设置中自定义,选择符合自己情况的变量值。启停数据源在可视化的爬虫管理中,按不同类型、不同分类模型列出了所有的数据源,并提供两个关键性操作,删除和启动 。用户可以选择启动数据源,启动后,爬虫将按照用户自定义的规则进行数据的采集,同时用户也可以对不必要的数据源进行删除,以减轻爬虫在数据采集中的压力。l 点击删除,系统会从变量表中去掉这条记录,但是实际的数据库文件需要手动删除 l 点击启动, 系统会提示参考的启动命令,需要用户手动复制命令到shell中执行启动数据库服务 二次开发针对不同用户群体、不同的使用范围,我们提供spider,egg的自定义开发功能。开发更加符合用户、符合特定的使用范围的采集、存储功能。多语言支持本系统超脱语言语种的限制,可以操作和处理所有的语言文字,支持中文、英文等多种语言格式的数据形式,可以对多种语言进行数据采集,也可以对多种语言进行数据分析;同时在数据分析时采用的多种分词分析方式,包括单字分词、符号分词、中文分词、N元分词等多中分词方式。海量数据存储本系统在采集文档数据、数据库数据、互联网数据时,会采集海量的数据,如何将海量数据存储成有效的模式加以利用成为了一个主要问题,Cooling Egg的分布式很好的解决了这一问题。通过在Cooling Egg分布式存储的帮助下,用户可以任意的添加数据源,从而不必担心过量的数据会造成数据的存储压力,Egg 的另一个特殊之处在于,分布式的建立很好的解决了海量数据在信息检索时的超时,通过分布式的建立,将信息检索的时间很好的压缩到秒级,减少了用户在信息检索时的等待,提高了用户的工作效率。文档集中管理文档管理酷灵搜索引擎可以支持任意类型的文档存储。支持大多数主流的文档格式,对于末知文件类型,可以通过扩展的方式实现定制处理,并通过配置的方式,将其融入到现有产品中,从而更好的实现对各类文档的识别。文档的管理采用专用的酷灵分布式存贮产品进行管理,文档、原数据、索引都存储在其中。酷灵分布式存贮产品提供了非常强大的文档兼容性、检索效率、并能保证当处理海量(GB级)的文档时,具有良好的读/写性能。多层次权限控制本系统采用多层次权限管理模式统一管理用户,提供灵活的手段,管理、同步用户信息。本系统提供灵活的管理控制手段管理项目空间的人员,可依据实际的工作需要定义各项目空间的人员/组织/权限定义策略,并在实际工作中依据实际情况进行动态调整。可以根据文档的目录结构进行权限控制,同时也支持对文档的权限控制。日志跟踪用户登录进入到本系统以后,所有用户操作均会在系统中留下日志,管理员可以根据需要进行查询过滤。文档元数据管理文档元数据存储了文档的重要的属性信息。在导入文档的时候,本系统可以自动识别文档类型,并读取文档元数据信息。另一方面,在导入的时候,用户还可以通过手工录入元数据信息。在项目中,根据用户的业务需要,一般都可以利用本系统提供的接口开发应用,实现更多元数据的自动导入,这样就减少了用户的手工干预,提高了效率。本系统提供了一个独特的tag功能,可以为文档附加一个tag(标签)来做标示,tag的内容可以根据业务需要灵活定义。在导入文档的时候,用户可以根据业务选择tag附加到文档上,这样就为文档的分类,共享,搜索提供了很大的便利。完善的备份本系统的数据存贮,由Cooling Egg完成。存放文档、索引等信息。同时,还会有少量系统空间存放酷灵搜索引擎、以及本系统的程序信息。因此在进行内容管理平台备份的时候,主要备份下面几个部分:l Cooling Egg内容l 舆情管理系统的程序内容在恢复的时候,只是将备份的内容重新恢复到原来位置即可。提高文档安全性本系统在进行文档存储的时候,会将原有文档格式的信息保存在Cooling Egg中。因此不会以原格式将文档存放在文件系统中,这样可以降低病毒对文档的入侵风险,提高系统安全性。舆情分析热点事件发现随着网络信息的高速发展,越来越多的热点信息会遍及网络。酷灵舆情分析系统能够第一时间发现一周的热点话题,同时把所有关于这个话题在网络上发布的信息全部聚集在一起显示给用户。互联网舆情信息量巨大,对此类信息的及时采集学习,对有效分析至关重要。酷灵舆情分析系统,借助于底层成熟的酷灵搜索引擎,具备极高的采集信息效率,让用户可以更快,更早的了解突发事件,并对数据进行分析,帮助用户能够及时了解各种突发状况,获得分析信息,采取解决措施。下图来自于本系统,展示了特定时间内,依照回复量排出的互联网热门事件,同样影响度、声誉度等多种条件都可以成为排序的依据。热点事件多层次分析本系统会对用户对热点话题的评论进行倾向性分析.所谓“倾向性”就是不同用户对同一个话题的态度和看法,可能是积极的,也可能是消极的。本系统就是将所有用户的看采集,统计并分析,最后得出用户对此话题倾向面的结论。每个热点话题必定会有其之后的转变趋势,任何事件,用户也会关心其之后的运行趋势。本系统所支持的趋势分析,就是通过对关键字,摘要,话题相关信息的有效提取和统计,得出最后的分析结论。帮助舆情监管部门,更好的跟踪和了解信息。下图来自于舆情分析系统,展示了一周最热门事件“卢俊卿事件”从2011年8月10日至2011年8月27日的舆论关注度。下图来自于舆情分析系统,展示了一周最热门的几大事件在5天内的舆论关注度,并显示其对比关系。下图来自于舆情分析系统,展示了同一热门事件在不同媒体的舆论关注度,并显示其对比关系。热点事件摘要当今主流的搜索,比如google,都会对信息进行自动摘要,方便用户浏览信息的大致内容。这个技术在舆情系统一样被支持,Cooling舆情分析系统有其强大的语义分析能力,可以通过热点词与关键词的摘要,简而易懂的概括了整篇文章最主要的思想。下图来自于舆情系统,展示了对特定事件的关键词摘要,以及各个角度的评论摘要。事件名称上海华联毒馒头事件关键词毒馒头染色添加剂染色馒头更多正面评论摘要无负面评论摘要1.瘦肉精刚走毒馒头又至,中国百姓真是小强啊!2. 上海毒馒头也许只是食品安全暴露出来的冰山一角。还有多少“毒馒头”会伤我们的心!更多突发事件告警随着互联网用户的不断增多以及WEB 2.0新模式的出现,用户对网络的依赖越来越高,许多突发事件在发生后的几分钟内,就会用网民在第一时间发布到各大论坛,其速度远超过了专业新闻媒体的记者。舆情系统中,舆情管理部门可以预设定突发事件的定义,定义的方式有两种:l 最简单的方式是,舆情管理部门设置突发事件的关键字信息,如(XX市,火灾)。如新闻中出现些类关键字信息,即被定义为突发事件;l 提供学习样本(如提供火灾的新闻),机器通过语义学习后。如类似新闻再次出现,则被定义为突发事件;借助于舆情系统的网络爬虫极高的采集信息效率,一个突发事件在几分钟内即可被发现。将有助于舆情监管部门,更快,更早的了解突发事件,并采取及时的应对措施。敏感词监管为了方便用户对包含敏感词的评论的查看,酷灵舆情分析系统通过的信息语义分析,将敏感词组织成词网展现给用户。用户通过点击某个敏感词可以查看这个敏感词所在的评论,网站和作者等属性,并进入原始网站进行查看。下图来自于酷灵舆情分析系统,展示了所有敏感词,并展示了点击“上海大火”这个敏感词所出现的信息列表。标题为一个链接,用户点击,系统会自动跳转到此标题所对应的原始网站。外部搜索引擎整合舆情系统将通过外部互联网搜索引擎提供的开放API,支持将百度、google的搜索结果进行融合,进而完善整个搜索的范围。热点词跟踪往往许多热点话题都会产生与此话题相关的热点词,用户也对这些热点词和词与词之间的联系较为关心。酷灵舆情分析系统通过的信息语义分析,将相关的热点词组织成词网展现给用户。下图来自于酷灵舆情分析系统,展示了以公安这个热点词为中心,相关热点词组成的词网。词与词之间的间隔,表示了两个词之间的相关度。自定义舆情分析用户对舆情的需求千变万化,为了满足每个用户对舆情分析系统的需求,酷灵舆情分析系统提供自定义分析平台。用户可以通过自己定义所要查看的信息内容,纵轴和衡轴的坐标值,生成自己所感兴趣的舆情分析趋势图。下图来自于本系统,展示了自定义舆情分析系统的自定义平台。舆情BI入口BI工具是终端用户查询和报告的工具。BI可以挖掘大量的数据,建立数据仓库,分析数据之间的关系。为了方便用户对数据仓库的查看,酷灵舆情分析系统开设了舆情BI自定义窗口,用户可以自己定义BI中数据格式,查看自己所需要的原始数据。下图来自于本系统,展示了舆情BI入口平台。产品介绍SpiderSpider是酷灵搜索的非结构与结构化数据的抓取与分析工具,更多时候它也被称为“网络爬虫”与“网络蜘蛛”。要建立一个高效的搜索引擎,最首要的任务是提高网络资源的抓取速度与效率,这样才能跟得上互联网信息增长的速度,Spider 在酷灵搜索中就承担着这么一个角色。多语言支持对自然语言的识别,是计算机普及后,一个永恒的主题。目前有种主要的识别方法:第一类是希望建立一个计算机可以识别的自然语言语法规则;第二类是希望通过数学方法,建立一个基于统计概率的语法模型。酷灵搜索从最初设计时,就定位于是一个全球性的,能够识别各类自然语言的搜索产品。设计团队为了能够识别更多的自然语言,使用了第二类基于统计概率的语法识别模型。在酷灵搜索真正实现了独立于语言特性的自然语言处理,在整个处理过程中,词更象是一个非常抽象的符号。这种方式,避免了为世界上的每一门语言建立一个语法规则模型,而是利用搜索产品对海量数据的处理能力,运用字词出现以及共现的可能性来推导出其含义,实现用运算能力来提升准确性。另外,词干提取、“分词”库、非检索用词列表以及 n-gram 算法等专有技术进一步优化了整体的性能与结果的准确率。多数据源类型支持spider能够识别多种格式的数据源。由此,spider使企业能够发挥各种数据格式和不同来源信息的作用,有效利用:l 非结构化信息。HTML 页面、办公文档、电子邮件、压缩文档多媒体内容等。半结构化信息。自定义的XML格式。结构化信息。Oracle、SQL Server、MySql、Lotus Notes、ODBC等关系型数据库以及数据库连接器。未知格式信息。即使对于一些未公布的信息格式,也仍有可能去识别、分析,并获取一些有价值的信息。此外,酷灵搜索还提供了整合各种不同类信息源的功能,包括Lotus Notes、RDBMS、File Server、Web Server等。关键内容自动提取关键内容提取在信息检索系统中有重要的作用。大多数网页中除了包含有用信息(正文)外还包含许多噪声信息,例如网站的导航信息、相关链接和广告以及一些脚本语言等。如果一个信息检索系统是基于网页正文内容进行的,那么当用户输入查询关键词后,系统只是查找出正文部分和用户查询匹配的网页返回给用户,这样使得检索出的网页与用户需要更加匹配,从而使用户可以更快地找到自己所需的内容。另外,基于正文的网页去重、分类聚类以及文摘等的结果都会更加准确。Spider能够通过算法有的效识别网页中的标题、作者、发表时间以及正文,此外,对于一些特定的网站,Spider也提供了自定义插件的功能,实现对特定信息的提取。BBS抓取互联网搜索引擎,一般只会对BBS的发贴进行抓取,但是对不断更新的回复,不会作抓取。但随着互联网的发展,BBS中的各类信息,发贴与回复,都包含了巨大的信息量,成为不亚于新闻的重要的的原始数据。因此,为了满足互联网发展的需求, Spider大大加强了对于BBS的抓取能力,这些能力体现在:l 提供对BBS发贴的抓取;l 提供对BBS不断更新的回复的抓取,网络爬虫将普通网页与BBS发贴区别对待。对于普通网页通常抓取的时间间隔会在一个月左右,但对于BBS发贴甚至在几分钟的间隔内就会触发一次。l 提供对BBS发贴的等级评定。由于BBS的发贴量巨大,如果对所有发贴都要求在几分钟进行再次抓取,将会需要大量网络爬虫连接到BBS,这将对BBS产生非常大的压力。因此,舆情系统将对不同发贴进行分级,就象互联网搜索引擎对网页打分一样,对于热门贴,这个打分就会变高,这个打分越高,网络爬虫的抓取频率就越高;反之如果这个分越低,网络爬虫的抓取频率就会越低。通过这种方式,大大提升了BBS回复的抓取效率。l 提供对BBS贴子的分页合并功能。众所周知,一些热门贴子由于回复量巨大,因此会自动将同一贴子分到不同页面中去。因此,网络爬虫也提供了模式识别以及聚类算法,识别属于同一贴子的不同分页,并将不同分页进行合并。l 提供对BBS回复的自动识别。在BBS中,发贴、回复、广告都是网页的一部分,因此,舆情系统提供了自动识别算法,能够将爬虫抓取到的网页中的回复进行自动提取。如果网页比较特殊,也支持用户以自定义的方式,实现回复信息的提取。l 提供对BBS发贴、回复者信息的记录。网络爬虫可以识别信息发布者在网站上的公开信息,这些信息包括:IP,用户名,性别,年龄,职业等。这些信息将能更大程度提升舆情系统的数据分析能力,同时也能为舆情监管部门,提供更详细的资料。自定义采集策略Spider完善、细致的自定义采集策略:l 配置若干数据源,这些数据源可以是新闻门户、博客、BBS等。不同数据源,可以同时抓取,提升抓取速度。其中BBS的抓取,l 指定对不同数据源的抓取频率(提升抓取的实时性,频率越频繁,则实时性越高)、网络爬虫数量(提升抓取的速度,爬虫数量越多,则抓取速度越快)。l 网页过滤规则。通过正则表达式、过滤没有意义的网页(如广告等),提升网络爬虫的抓取。如果规则过于复杂,也可能通过二次开发插件,实现过滤功能。Egg在目前的信息化系统中,信息可以划分为两大类。一类信息能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号。这类数据通常可以用二维表结构的形式,存放在关系型数据库中。 而另一类信息无法用数字或统一的结构表示,如文本、图像、声音、网页等,我们称之为非结构化数据,这类数据无法使用传统的关系型数据库来进行管理。 随着信息化建设的不断推进,使得目前的企业中,非结构化信息所占的比重也越来越大。但是,绝大多数企业虽然拥有对结构化信息的处理经验,但对于非结构化信息,还是缺乏足够的理解与经验,使得这些信息虽然丰富,但无法提供更多的价值。整个市场都迫切地需要一种非结构化信息的解决方案。Egg就是整个解决方案中最核心的产品。Egg是一个能够同够同时处理结构化与非结构化信息的信息处理平台,不但能够识别与处理更多格式与标准的信息,同时也能兼容传统的关系型数据库。面向非结构化数据的管理方式Egg所管理的非结构化数据是指那些没有数据模型描述、或者无法方便的由计算机程序处理的数据。这个定义用以区别那些可以用关系模型(Relation Model)中的准则:Relation(在关系型数据库的实现中称为Table),Tuple(在关系型数据库的实现中称为Record),Attribute(在关系型数据库的实现中称为Field)来描述的数据。常见的非结构化数据有两大类,一类是数据的结构没有被定义过,但仍然可以通过一些方式来发现其结构;第二类是数据结构虽然被明确定义,但该定义并没有对计算机程序处理有任何帮助。第一类的例子有,能够由程序挖掘出结构的、自然语言文本(邮件、办公文档、网页内容、书籍等)、声音、视频等数据。描述这些数据所需要的结构需要通过特定的分析算法,如对于自然语言文本来说,可以通过词法、语法、或其它各类模式识别方法,提取其中的结构化成分。第二类的,指那些包含于已结构化数据中的非结构化内容。最典型的例子有HTML,HTML的标签已经将HTML文本进行了结构化描述,但这个描述仅仅是供浏览器显示时使用,而没有对包含的内容做任何描述。通常来说,第二类数据都能被转化成第一类数据,用统一的方法进行处理。Egg为了实现非结构化数据的存贮,没有使用关系型数据库模型(RDBM);与关系型数据模型的区别在于,没有了关系(Relation),取而代之的是集合(Collection);没有了(Tuple),取而代之的是实体(Entity);没有了属性(Attribute),取而代之的是(Field)。与以往的某些文档数据库(Document-oriented database)不同的是,Egg并不是架设在关系型数据库之上的表现形式的转换层,Egg自身实现了针对非结构化数据特点的存贮结构。特征分析、数据挖掘等技术被Egg用来分析与提取所存贮的非结构数据中的特征。由于非结构化数据是一个非常广泛的定义,Egg并没有对它所存贮的非结构化数据做任何限定,也就是说,Egg可以保存任何种类的非结构化数据。但是对非结构化数据进行预先分类,然后对不同类型的数据运用不同的预处理及分析技术,将得到更准确的检索效果。Egg目前提供了针对文本、音频在内的多种预处理器与分析器,并公开分析器接口,支持对末公开格式分析器的二次开发,以识别更多类型的数据。对于文字来说,自然语言处理技术(NLP),是目前研究与运用的热点,也是Egg中运用最广泛的技术。文本分析器可以分析汉语、英语的网页、办公文档、纯文本(plain text)等文本。分析的方式包括,特征词,词性,语法树,句子依存关系等。动态域支持Egg非结构化数据库的一大特点,就是动态域查询。动态域查询缘于非结构化数据库,不同于关系型数据库,不具备一个明确的方案(Schema)。非关系型数据,根据文档的内容,可以产生不同的域(Field)。使用者可以使用任何条件(Criteria)获得需要的数据。内容检索支持通常比较厚的书籍后面常常附关键词索引表(比如:北京:12, 34页, 上海:3,77页),它能够帮助读者比较快地找到相关内容的页码。而数据库索引能够大大提高查询的速度原理也是一样,想像一下通过书后面的索引查找的 速度要比一页一页地翻内容高多少倍而索引之所以效率高,另外一个原因是它是排好序的。对于检索系统来说核心是一个排序问题。由于数据库索引不是为全文索引设计的,因此,使用like %keyword%时,数据库索引是不起作用的, 在使用like查询时,搜索过程又变成类似于一页页翻书的遍历过程了,所以对于含有模糊查询的数据库服务来说,LIKE对性能的危害是极大的。如果是需要 对多个关键词进行模糊匹配:like%keyword1% and like %keyword2% .其效率也就可想而知了。Egg建立一个高效检索系统的关键是建立一个类似于科技索引一样的反向索引机制,将数据源(比如多篇文章)排序顺序存储的同时,有另外一个排好序的关键词列表,用于存储关键词=文章映射关系,利用这样的映射关系索引:关键词=出现关键词的文章编号,出现次数(甚至包括位置:起始偏移量,结束偏移量),出现频率,检索过程就是把模糊查询变成多个可以利用索引的精确查询的逻辑组合的过程。从而大大提高了多关键词查询的效率,所以,全文检索问题归结到最后是一个排序问题。结构化查询支持Egg支持多种查询对象,查询可以用条件(Criteria)对象表达,也可以使用类SQL语法的表达式(Expression)表达。Egg的查询条件,包含了对指定域中的特征进行与、或、非的操作。特征根据数据类型的不同,而使用不同的分析器,会有不同形态体现出来。最常见的文本特征为,关键词,语法,词性等。Egg支持对查询的结果集进行限定。这些限定包括:l 结果集中包含的域(Field)的限定;l 结果集条数的限定;l 结果集范围的限定;l 结果集排序方式的限定;数据完整性支持Egg是一个面向互联网级别的非关系型数据库,因此在灾难情况发生后,如何保证数据恢复以及数据的完整性,是Egg面临的一个重要的问题。Egg在存贮数据的同时,同商用关系型数据库一样,引了了Redo日志机制,保证了当灾难情况发生后,同样可以保证数据是可以恢复的。空间横向扩展支持Egg依赖于底层的分布式文件系统(Cooling File System),可以实现存贮空间的横向扩展。当spider采集的网页数量随着时间的增长不断增多,egg可以像web server和app server那样通过简单的添加更多的硬件和服务节点来扩展性能和负载能力。ScholarScholar具备的自然语义分析能力,能够理解非结构信息包含的真实语义,将大大提升搜索服务的质量。目前主流的互联网搜索产品中,都是基于关键字严格匹配的方式来实现,这些搜索产品并不能读懂信息的语义。因而,根据这种方式得出的搜索结果,往往会和用户原始搜索意图完全不匹配。酷灵搜索 的搜索服务,能够通过自然语言分析,理解每一篇文档的真实语义,并通过语义结合关键字去搜索特定的信息,使得搜索结果能够准确地符合用户的搜索意图。自然语言分词朱德熙在语法讲义中将词定义为“词是最小的能够独立活动的有意义的语言成分。”目前Scholar支持汉语与英语的分词。英语是空格天然分隔词,但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。Scholar能够利用经过训练后的概率模型,对句子进行词语粗切分,切分排歧与未登录词识别。如:王强说的确实在理。Scholar经过三个处理步骤:粗切分:王 强 说 的 确 实 在 理 。切分排重:王 强 说 的 确实 在理 。未登录词识别:王强 说 的 确实 在理。词性标注词性标注是给文本中的每个词标注上正确的词性。它是自然语言处理的基础,其正确率将影响后期句法分析或组块分析的正确率。除此之外,词性标注的结果还将直接融入到信息抽取、信息检索、机器翻译等诸多实际应用系统当中。在词性标注时出现的错误会在后续自然语言处理链中被放大,因此正确标注词性对自然语言处理有非常重要的意义。Scholar能够在自然语言分词的基础之上,利用经过训练过的概率模型,根据上下文计算出最满意的词性标注方式,为后期词法分析和其它自然语言处理任务提供基础。如:王强说的确实在理,标注词性后为:王强/NR 说 的 确实 在理。语法分析自然语言分词与词性标注,这两类技术一般只需对句子的局部范围进行分析处,在自然语言处理的分析技术中属于浅层分析。更深的层面是对语言进行深层的处理,如语法分析、语义分析,需要对句子进行全局分析。对语言的深层处理过程中,语法分析处于一个十分重要的位置。语法分析工作包括两方面的内容,一是确定语言的语法体系,即对语言中合法句子的语法结构给与形式化的定义;另一方面是语法分析技术,即根据给定的语法体系,自动推导出句子的语法结构,分析句子所包含的句法单位和这些句法单位之间的关系。Scholar使用依存语法对自然语言进行分析。在语法体系中,依存语法以其形式简洁、易于标注、便于应用等优点,逐渐受到研究人员的重视。目前,已经被自然语言处理领域的许多专家和学者所采用,应用于许多国家的语言中,并对其不断地发展和完善。情感倾向性分析文本情感倾向性分析属于计算语言学的范畴。在计算语言学以及相关领域,研究人员以前普遍关注的是客观性信息的分析和提取,对主观性信息分析与提取的研究尚处于起步阶段,存在很多问题需要进行全面的探索。这项研究涉及到计算语言学、人工智能、机器学习、信息检索、数据挖掘等多方面研究基础,因此文本情感倾向性分析也具有重要的学术研究价值。Scholar的情感倾向分析能够利用现有词典与知识库、无监督机器学习、有监督机器学习都几种方式构建的模型,结合语法分析的结果,对包括词语、句子、文章、文章集在内的情感倾向性进行分析。(事件影响走势图)事件影响走势计算方法:网站规模取决于该网站已经发现的网页数量。网页PR值报告新闻的网页的PR值。关键词分布关键词是否都出现在了网页中最重要的位置。(事件声音走势图)事件声音走势计算方法:网站规模取决于该网站已经发现的网页数量。网页PR值报告新闻的网页的PR值。关键词分布关键词是否都出现在了网页中最重要的位置。被修饰成分被具备感情色彩的词修饰的句子成分的重要程度。感情色彩具备感情色彩的词与被修饰成分组合后的感情程度,正面或负面。文章长度文章长度与感情色彩成反比。关于我们公司介绍上海埃帕信息科技有限公司(APE Technology Co., Ltd.)2004年成立于上海张江高科技园区,获得国家软件企业认定,并通过国际CMMI软件能力成熟度认证,拥有多项自主知识产权的软件产品及国家发明专利。2008、2009年连续获得上海市明星软件企业殊荣、上海市“诚信创建企业”称号,获得由上海市经济信息委、上海市商委、上海市国资委等共同评选的“2008年度上海市软件及系统集成企业竞争力排名50强”荣誉,并获得上海市科委技术创新基金等政府支持。公司具有深厚的通信、软件、服务等行业基础,以技术实力、服务能力为核心竞争力,立足于通信、互联网行业,并积极拓展相关行业,公司通过几年来快速有序的发展,企业规模不断扩大,客户范围已涵盖电信、互联网、航空、教育、医疗、传媒等多领域。公司与中国电信、中国移动、ORACLE、IBM等国内外著名企业建立了良好的合作伙伴关系,通过服务资源提供、项目实施、产品应用等多种方式开展全方位合作。公司强大的服务和技术实力、员工严谨的工作作风和优良的技术技能获得了市场与合作伙伴的高度认可。近年来,公司不断加大对自有产品研发的投入,将研发的重点放在了自然语言处理、语义搜索,以及虚拟化这三个方向。目前已经成功发布了酷灵输入法,酷灵搜索以及酷灵云虚拟平台三个产品,并取得多个成功案例。案例介绍上海日报个性化报纸上海日报每周六期,主要报道上海及国内的经济、社会和文化活动,介绍中国的改革开放、对外交流、上海的投资环境和百姓生活,为在沪工作和旅游的外国人 提供信息服务。此外,报纸每天都全面报道世界各地的热点新闻、科技动态、生活潮流等。所以上海日报信息源需求量极大,除了来自互联网和其自己采集的信息外还需要很多定制的信息源进行信息的采集。时间是衡量新闻优劣的很重要的因素,实时新闻采集和发布是上海日报的一个重要需求。 上海日报的服务对象主要是在上海工作和生活的外籍人士和每年两百多万的 入境客人,但其实际读者中约一半为国内高级白领和专业人士。上海日报每周一至周六出版,每天20个版面,包括城市新闻,国内新闻,国际新闻,体育新闻,商业报道及特色版面。目标读者也包括8万旅居中国的外籍人士,每年2百万海外旅游者,以及大量的中国专业读者。如此多的新闻类别,如此专业的阅读人群,导致上海日报必须将新闻的类别定的十分细致,如此才能满足行业专业领域阅读者的阅读需求。酷灵搜索提供多个子系统满足用户需要非常精确的搜索结果的需求。酷灵搜索通过不断地与上海日报沟通当前流行的类别划分,将原本的大类例如:经济,体育等细化成更小的单元,例如:微观经济,宏观经济等。使用户搜索到的内容更符合自己的理想标准。酷灵搜索根据上海日报的客户对行业细致化的要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论